在 VS Code 中尝试

模型评估

AI 工程师通常需要评估具有不同参数或提示的模型,以便与事实进行比较并从比较中计算评估器值。AI Toolkit 允许您通过上传提示数据集以最小的努力执行评估。

Start evaluation

启动评估作业

  1. 在 AI Toolkit 视图中,选择 TOOLS > Evaluation 以打开评估视图

  2. 选择 Create Evaluation,然后提供以下信息

    • 评估作业名称: 默认或您可以指定的名称

    • 评估器: 当前,只能选择内置评估器。

      Screenshot of a Quick Pick with the list of built-in evaluators

    • 评判模型: 可从列表中选择作为评判模型用于某些评估器的模型。

    • 数据集: 选择一个示例数据集用于学习目的,或导入一个包含 queryresponseground truth 字段的 JSONL 文件。

  3. 新评估作业已创建,系统将提示您打开新的评估作业详细信息

    Open evaluation

  4. 验证您的数据集并选择 Run Evaluation 开始评估。

    Run Evaluation

监视评估作业

评估作业启动后,您可以从评估作业视图中查看其状态。

Running evaluation

每个评估作业都有指向所用数据集、评估过程日志、时间戳和评估详细信息的链接。

查找评估结果

评估作业详细信息视图显示了每个选定评估器的结果表。请注意,某些结果可能包含聚合值。

您还可以选择 Open In Data Wrangler 以使用 Data Wrangler 扩展 打开数据。

Screenshot the Data Wrangler extension, showing the evaluation results.