模型评估
AI 工程师通常需要使用不同的参数或提示来评估模型,以便与真实值进行比较并计算评估器值。AI 工具包允许您通过上传提示数据集,以最少的精力执行评估。
开始评估作业
-
在 AI 工具包视图中,选择工具 > 评估以打开评估视图
-
选择创建评估,然后提供以下信息
-
评估作业名称:默认或您可以指定的名称
-
评估器:当前只能选择内置评估器。
-
判断模型:可从列表中选择一个模型作为判断模型,用于某些评估器进行评估。
-
数据集:选择一个用于学习目的的示例数据集,或导入一个包含字段
query
、response
、ground truth
的 JSONL 文件。
-
-
新的评估作业已创建,系统将提示您打开新的评估作业详细信息
-
验证您的数据集并选择运行评估以开始评估。
监控评估作业
评估作业启动后,您可以从评估作业视图中查看其状态。
每个评估作业都包含所用数据集的链接、评估过程的日志、时间戳以及评估详细信息的链接。
查找评估结果
评估作业详细信息视图显示了每个选定评估器的结果表。请注意,某些结果可能具有聚合值。
您还可以选择在 Data Wrangler 中打开以使用 Data Wrangler 扩展打开数据。