参加你附近的 ,了解 VS Code 中的 AI 辅助开发。

评估模型、提示和代理

您可以通过将其输出与真实数据进行比较并计算评估指标来评估模型、提示和代理。AI Toolkit 简化了此过程。只需少量工作即可上传数据集并运行全面的评估。

Screenshot showing the start of an evaluation in AI Toolkit.

评估提示和代理

您可以通过在 Agent Builder 中选择 Evaluation 选项卡来评估提示和代理。在评估之前,请根据数据集运行您的提示或代理。阅读有关批量运行的更多信息,了解如何使用数据集。

评估提示或代理

  1. Agent Builder 中,选择 Evaluation 选项卡。
  2. 添加并运行您要评估的数据集。
  3. 使用点赞和点踩图标对响应进行评分并记录您的手动评估。
  4. 要添加评估器,请选择 New Evaluation
  5. 从内置评估器列表中选择一个评估器,例如 F1 分数、相关性、连贯性或相似性。
    注意

    使用 GitHub 托管模型运行评估时,可能会适用速率限制

  6. 如果需要,选择一个模型作为评估的评判模型。
  7. 选择 Run Evaluation 以启动评估作业。

Screenshot showing the Evaluation tab in Agent Builder with options to select evaluators, judging models, and run evaluation against a dataset.

版本控制和评估比较

AI Toolkit 支持提示和代理的版本控制,因此您可以比较不同版本的性能。创建新版本时,您可以运行评估并与以前的版本比较结果。

保存提示或代理的新版本

  1. Agent Builder 中,定义系统或用户提示,添加变量和工具。
  2. 运行代理或切换到 Evaluate 选项卡并添加要评估的数据集。
  3. 当您对提示或代理感到满意时,从工具栏中选择 Save as New Version
  4. (可选)提供版本名称并按 Enter 键。

查看版本历史记录

您可以在 Agent Builder 中查看提示或代理的版本历史记录。版本历史记录显示所有版本,以及每个版本的评估结果。

Screenshot showing the Version History dialog with a list of saved versions of a prompt or agent.

在版本历史记录视图中,您可以

  • 选择版本名称旁边的铅笔图标以重命名版本。
  • 选择垃圾桶图标以删除版本。
  • 选择版本名称以切换到该版本。

比较版本之间的评估结果

您可以在 Agent Builder 中比较不同版本的评估结果。结果以表格形式显示,显示每个评估器的分数以及每个版本的总分。

比较版本之间的评估结果

  1. Agent Builder 中,选择 Evaluation 选项卡。
  2. 从评估工具栏中,选择 Compare
  3. 从列表中选择您要比较的版本。
    注意

    比较功能仅在 Agent Builder 的全屏模式下可用,以便更好地查看评估结果。您可以展开 Prompt 部分以查看模型和提示详细信息。

  4. 所选版本的评估结果以表格形式显示,允许您比较每个评估器的分数以及每个版本的总分。

Screenshot showing the Evaluation tab in Agent Builder with the interface for comparing evaluation results between different versions.

内置评估器

AI Toolkit 提供了一组内置评估器,用于衡量模型、提示和代理的性能。这些评估器根据您的模型输出和真实数据计算各种指标。

对于代理

  • 意图解析:衡量代理识别和处理用户意图的准确性。
  • 任务遵循度:衡量代理在已识别任务上的执行情况。
  • 工具调用准确性:衡量代理选择和调用正确工具的准确性。

用于一般用途

  • 连贯性:衡量响应的逻辑一致性和流畅性。
  • 流畅性:衡量自然语言质量和可读性。

对于 RAG(检索增强生成)

  • 检索:衡量系统检索相关信息的有效性。

对于文本相似性

  • 相似性:AI 辅助的文本相似性测量。
  • F1 分数:响应和真实值之间标记重叠的精确度和召回率的调和平均值。
  • BLEU:用于翻译质量的双语评估替补分数;衡量响应和真实值之间 n-gram 的重叠。
  • GLEU:Google-BLEU 的变体,用于句子级评估;衡量响应和真实值之间 n-gram 的重叠。
  • METEOR:具有显式排序的翻译评估指标;衡量响应和真实值之间 n-gram 的重叠。

AI Toolkit 中的评估器基于 Azure Evaluation SDK。要了解有关生成式 AI 模型可观测性的更多信息,请参阅 Azure AI Foundry 文档

启动独立评估作业

  1. 在 AI Toolkit 视图中,选择 TOOLS > Evaluation 以打开评估视图。

  2. 选择 Create Evaluation,然后提供以下信息

    • 评估作业名称:使用默认名称或输入自定义名称。
    • 评估器:从内置或自定义评估器中选择。
    • 评判模型:如果需要,选择一个模型作为评判模型。
    • 数据集:选择一个用于学习的示例数据集,或导入一个包含 queryresponseground truth 字段的 JSONL 文件。
  3. 已创建新的评估作业。系统会提示您打开评估作业详细信息。

    Screenshot showing the Open Evaluation dialog in AI Toolkit.

  4. 验证您的数据集并选择 Run Evaluation 以启动评估。

    Screenshot showing the Run Evaluation dialog in AI Toolkit.

监视评估作业

启动评估作业后,您可以在评估作业视图中查看其状态。

Screenshot showing a running evaluation in AI Toolkit.

每个评估作业都包含一个指向所用数据集的链接、评估过程的日志、时间戳以及评估详细信息的链接。

查找评估结果

评估作业详细信息视图显示每个选定评估器的结果表。某些结果可能包含聚合值。

您还可以选择 Open In Data Wrangler 以使用 Data Wrangler 扩展打开数据。

Screenshot showing the Data Wrangler extension with evaluation results.

创建自定义评估器

您可以创建自定义评估器以扩展 AI Toolkit 的内置评估功能。自定义评估器允许您定义自己的评估逻辑和指标。

Screenshot showing the custom evaluator creation interface in AI Toolkit.

创建自定义评估器

  1. Evaluation 视图中,选择 Evaluators 选项卡。

  2. 选择 Create Evaluator 以打开创建表单。

    Screenshot showing the form to create a new custom evaluator.

  3. 提供所需信息

    • 名称:输入自定义评估器的名称。
    • 描述:描述评估器的功能。
    • 类型:选择评估器类型:基于 LLM 或基于代码 (Python)。
  4. 按照所选类型的说明完成设置。

  5. 选择 Save 以创建自定义评估器。

  6. 创建自定义评估器后,它将出现在评估器列表中,供您在创建新评估作业时选择。

基于 LLM 的评估器

对于基于 LLM 的评估器,使用自然语言提示定义评估逻辑。

编写提示以指导评估器评估特定质量。定义标准、提供示例,并使用 等变量以实现灵活性。根据需要自定义比例或反馈样式。

确保 LLM 输出 JSON 结果,例如:{"score": 4, "reason": "The response is relevant but lacks detail."}

您还可以使用 Examples 部分开始使用基于 LLM 的评估器。

Screenshot showing the LLM-based evaluator configuration in AI Toolkit.

基于代码的评估器

对于基于代码的评估器,使用 Python 代码定义评估逻辑。代码应返回包含评估分数和原因的 JSON 结果。

Screenshot showing the Evaluators tab in AI Toolkit with options for creating code-based evaluators.

AI Toolkit 根据您的评估器名称以及您是否使用外部库提供了一个脚手架。

您可以修改代码以实现您的评估逻辑

# The method signature is generated automatically. Do not change it.
# Create a new evaluator if you want to change the method signature or arguments.
def measure_the_response_if_human_like_or_not(query, **kwargs):
    # Add your evaluator logic to calculate the score.

    # Return an object with score and an optional string message to display in the result.
    return {
        "score": 3,
        "reason": "This is a placeholder for the evaluator's reason."
    }

您学到了什么

在本文中,您学习了如何

  • 在 VS Code 的 AI Toolkit 中创建和运行评估作业。
  • 监视评估作业的状态并查看其结果。
  • 比较不同版本提示和代理之间的评估结果。
  • 查看提示和代理的版本历史记录。
  • 使用内置评估器衡量各种指标的性能。
  • 创建自定义评估器以扩展内置评估功能。
  • 将基于 LLM 和基于代码的评估器用于不同的评估场景。
© . This site is unofficial and not affiliated with Microsoft.