模型评估
AI 工程师通常需要评估具有不同参数或提示的模型,以便与事实进行比较并从比较中计算评估器值。AI Toolkit 允许您通过上传提示数据集以最小的努力执行评估。
启动评估作业
-
在 AI Toolkit 视图中,选择 TOOLS > Evaluation 以打开评估视图
-
选择 Create Evaluation,然后提供以下信息
-
评估作业名称: 默认或您可以指定的名称
-
评估器: 当前,只能选择内置评估器。
-
评判模型: 可从列表中选择作为评判模型用于某些评估器的模型。
-
数据集: 选择一个示例数据集用于学习目的,或导入一个包含
query
、response
、ground truth
字段的 JSONL 文件。
-
-
新评估作业已创建,系统将提示您打开新的评估作业详细信息
-
验证您的数据集并选择 Run Evaluation 开始评估。
监视评估作业
评估作业启动后,您可以从评估作业视图中查看其状态。
每个评估作业都有指向所用数据集、评估过程日志、时间戳和评估详细信息的链接。
查找评估结果
评估作业详细信息视图显示了每个选定评估器的结果表。请注意,某些结果可能包含聚合值。
您还可以选择 Open In Data Wrangler 以使用 Data Wrangler 扩展 打开数据。