模型评估
AI 工程师经常需要评估具有不同参数或提示的模型,以便与实际情况进行比较,并从比较中计算评估器值。AI Toolkit 使您可以通过上传提示数据集,以最少的努力执行评估。
启动评估作业
-
在 AI Toolkit 视图中,选择“工具” > “评估”以打开“评估”视图
-
选择“创建评估”,然后提供以下信息
-
评估作业名称: 默认名称或您可以指定的名称
-
评估器: 目前,只能选择内置评估器。
-
判断模型: 可以从列表中选择一个模型作为判断模型,以评估某些评估器。
-
数据集: 选择一个示例数据集用于学习目的,或导入包含字段
query
、response
、ground truth
的 JSONL 文件。
-
-
已创建一个新的评估作业,系统将提示您打开新的评估作业详细信息
-
验证您的数据集,然后选择“运行评估”以开始评估。
监控评估作业
评估作业启动后,您可以从评估作业视图中找到其状态。
每个评估作业都有一个指向所用数据集的链接、评估过程的日志、时间戳以及指向评估详细信息的链接。
查找评估结果
评估作业详细信息视图显示一个表格,其中包含每个选定评估器的结果。请注意,某些结果可能具有聚合值。
您还可以选择“在 Data Wrangler 中打开”,以使用 Data Wrangler 扩展打开数据。