在 VS Code 中试用

模型评估

AI 工程师通常需要使用不同的参数或提示来评估模型,以便与真实值进行比较并计算评估器值。AI 工具包允许您通过上传提示数据集,以最少的精力执行评估。

Start evaluation

开始评估作业

  1. 在 AI 工具包视图中,选择工具 > 评估以打开评估视图

  2. 选择创建评估,然后提供以下信息

    • 评估作业名称:默认或您可以指定的名称

    • 评估器:当前只能选择内置评估器。

      Screenshot of a Quick Pick with the list of built-in evaluators

    • 判断模型:可从列表中选择一个模型作为判断模型,用于某些评估器进行评估。

    • 数据集:选择一个用于学习目的的示例数据集,或导入一个包含字段queryresponseground truth的 JSONL 文件。

  3. 新的评估作业已创建,系统将提示您打开新的评估作业详细信息

    Open evaluation

  4. 验证您的数据集并选择运行评估以开始评估。

    Run Evaluation

监控评估作业

评估作业启动后,您可以从评估作业视图中查看其状态。

Running evaluation

每个评估作业都包含所用数据集的链接、评估过程的日志、时间戳以及评估详细信息的链接。

查找评估结果

评估作业详细信息视图显示了每个选定评估器的结果表。请注意,某些结果可能具有聚合值。

您还可以选择在 Data Wrangler 中打开以使用 Data Wrangler 扩展打开数据。

Screenshot the Data Wrangler extension, showing the evaluation results.