🚀 在 VS Code 中

模型评估

AI 工程师经常需要评估具有不同参数或提示的模型,以便与实际情况进行比较,并从比较中计算评估器值。AI Toolkit 使您可以通过上传提示数据集,以最少的努力执行评估。

Start evaluation

启动评估作业

  1. 在 AI Toolkit 视图中,选择“工具” > “评估”以打开“评估”视图

  2. 选择“创建评估”,然后提供以下信息

    • 评估作业名称: 默认名称或您可以指定的名称

    • 评估器: 目前,只能选择内置评估器。

      Screenshot of a Quick Pick with the list of built-in evaluators

    • 判断模型: 可以从列表中选择一个模型作为判断模型,以评估某些评估器。

    • 数据集: 选择一个示例数据集用于学习目的,或导入包含字段 queryresponseground truth 的 JSONL 文件。

  3. 已创建一个新的评估作业,系统将提示您打开新的评估作业详细信息

    Open evaluation

  4. 验证您的数据集,然后选择“运行评估”以开始评估。

    Run Evaluation

监控评估作业

评估作业启动后,您可以从评估作业视图中找到其状态。

Running evaluation

每个评估作业都有一个指向所用数据集的链接、评估过程的日志、时间戳以及指向评估详细信息的链接。

查找评估结果

评估作业详细信息视图显示一个表格,其中包含每个选定评估器的结果。请注意,某些结果可能具有聚合值。

您还可以选择“在 Data Wrangler 中打开”,以使用 Data Wrangler 扩展打开数据。

Screenshot the Data Wrangler extension, showing the evaluation results.