现已发布!阅读关于 11 月新增功能和修复的内容。

评估模型、提示和代理

您可以通过将模型、提示和代理的输出与地面真实数据进行比较并计算评估指标来评估它们。AI 工具包简化了此过程。上传数据集并以最少的努力运行全面的评估。

Screenshot showing the start of an evaluation in AI Toolkit.

评估提示和代理

您可以通过在 Agent Builder 中选择 Evaluation 选项卡来评估提示和代理。在评估之前,针对数据集运行提示或代理。阅读有关 批量运行 的更多信息,了解如何使用数据集。

评估提示或代理

  1. Agent Builder 中,选择 Evaluation 选项卡。
  2. 添加并运行要评估的数据集。
  3. 使用竖拇指和倒拇指图标来评价响应并记录您的手动评估。
  4. 要添加评估器,请选择 New Evaluation
  5. 从内置评估器列表中选择一个评估器,例如 F1 分数、相关性、连贯性或相似性。
    注意

    使用 GitHub 托管模型运行评估时,速率限制 可能适用。

  6. 选择一个模型作为评估的评判模型(如果需要)。
  7. 选择 Run Evaluation 以启动评估作业。

Screenshot showing the Evaluation tab in Agent Builder with options to select evaluators, judging models, and run evaluation against a dataset.

版本控制和评估比较

AI 工具包支持提示和代理的版本控制,因此您可以比较不同版本的性能。当您创建新版本时,您可以运行评估并将结果与​​先前版本进行比较。

保存提示或代理的新版本

  1. Agent Builder 中,定义系统或用户提示,添加变量和工具。
  2. 运行代理或切换到 Evaluate 选项卡并添加数据集进行评估。
  3. 当您对提示或代理感到满意时,从工具栏中选择 Save as New Version
  4. 或者,提供一个版本名称并按 Enter 键。

查看版本历史记录

您可以在 Agent Builder 中查看提示或代理的版本历史记录。版本历史记录显示所有版本,以及每个版本的评估结果。

Screenshot showing the Version History dialog with a list of saved versions of a prompt or agent.

在版本历史记录视图中,您可以

  • 选择版本名称旁边的铅笔图标以重命名版本。
  • 选择垃圾桶图标以删除版本。
  • 选择版本名称以切换到该版本。

比较版本之间的评估结果

您可以在 Agent Builder 中比较不同版本的评估结果。结果显示在一个表格中,显示每个评估器的分数和每个版本的总分。

比较版本之间的评估结果

  1. Agent Builder 中,选择 Evaluation 选项卡。
  2. 从评估工具栏中,选择 Compare
  3. 从列表中选择您要比较的版本。
    注意

    比较功能仅在 Agent Builder 的全屏模式下可用,以便更好地查看评估结果。您可以展开 Prompt 部分以查看模型和提示详细信息。

  4. 所选版本的评估结果显示在一个表格中,允许您比较每个评估器的分数和每个版本的总分。

Screenshot showing the Evaluation tab in Agent Builder with the interface for comparing evaluation results between different versions.

内置评估器

AI 工具包提供了一组内置评估器来衡量模型、提示和代理的性能。这些评估器根据您的模型输出和地面真实数据计算各种指标。

对于代理

  • 意图解析:衡量代理识别和处理用户意图的准确性。
  • 任务遵守:衡量代理在已识别任务上跟进的程度。
  • 工具调用准确性:衡量代理选择和调用正确工具的程度。

用于一般用途

  • 连贯性:衡量响应的逻辑一致性和流程。
  • 流畅性:衡量自然语言质量和可读性。

对于 RAG(检索增强生成)

  • 检索:衡量系统检索相关信息的效率。

对于文本相似性

  • 相似性:AI 辅助文本相似性测量。
  • F1 分数:响应与地面真实值之间标记重叠的精确度和召回率的调和平均值。
  • BLEU:双语评估替代表现(Bilingual Evaluation Understudy)分数,用于翻译质量;衡量响应与地面真实值之间 n-gram 的重叠。
  • GLEU:Google-BLEU 变体,用于句子级别评估;衡量响应与地面真实值之间 n-gram 的重叠。
  • METEOR:具有显式排序的翻译评估指标(Metric for Evaluation of Translation with Explicit Ordering);衡量响应与地面真实值之间 n-gram 的重叠。

AI 工具包中的评估器基于 Azure Evaluation SDK。要了解有关生成式 AI 模型可观察性的更多信息,请参阅 Microsoft Foundry 文档

启动独立评估作业

  1. 在 AI Toolkit 视图中,选择 TOOLS > Evaluation 以打开 Evaluation 视图。

  2. 选择 Create Evaluation,然后提供以下信息

    • Evaluation job name:使用默认名称或输入自定义名称。
    • Evaluator:从内置或自定义评估器中选择。
    • Judging model:选择一个模型作为评判模型(如果需要)。
    • Dataset:选择一个用于学习的样本数据集,或导入一个包含字段 queryresponseground truth 的 JSONL 文件。
  3. 创建了一个新的评估作业。系统会提示您打开评估作业详细信息。

    Screenshot showing the Open Evaluation dialog in AI Toolkit.

  4. 验证您的数据集并选择 Run Evaluation 以开始评估。

    Screenshot showing the Run Evaluation dialog in AI Toolkit.

监控评估作业

启动评估作业后,您可以在评估作业视图中查看其状态。

Screenshot showing a running evaluation in AI Toolkit.

每个评估作业都包含一个指向所用数据集的链接、评估过程的日志、一个时间戳以及一个指向评估详细信息的链接。

查找评估结果

评估作业详细信息视图显示了一个表格,其中包含每个选定评估器的结果。某些结果可能包含聚合值。

您也可以选择 Open In Data Wrangler 以使用 Data Wrangler 扩展 打开数据。

Screenshot showing the Data Wrangler extension with evaluation results.

创建自定义评估器

您可以创建自定义评估器来扩展 AI 工具包的内置评估功能。自定义评估器允许您定义自己的评估逻辑和指标。

Screenshot showing the custom evaluator creation interface in AI Toolkit.

创建自定义评估器

  1. Evaluation 视图中,选择 Evaluators 选项卡。

  2. 选择 Create Evaluator 以打开创建表单。

    Screenshot showing the form to create a new custom evaluator.

  3. 提供所需信息

    • Name:输入自定义评估器的名称。
    • Description:描述评估器的功能。
    • Type:选择评估器的类型:基于 LLM 或基于代码(Python)。
  4. 按照所选类型的说明完成设置。

  5. 选择 Save 以创建自定义评估器。

  6. 创建自定义评估器后,当您创建新的评估作业时,它会出现在评估器列表中供选择。

基于 LLM 的评估器

对于基于 LLM 的评估器,使用自然语言提示定义评估逻辑。

编写一个提示来指导评估器评估特定质量。定义标准、提供示例并使用变量(例如 )以实现灵活性。根据需要自定义量表或反馈样式。

确保 LLM 输出 JSON 结果,例如:{"score": 4, "reason": "The response is relevant but lacks detail."}

您还可以使用 Examples 部分开始使用基于 LLM 的评估器。

Screenshot showing the LLM-based evaluator configuration in AI Toolkit.

基于代码的评估器

对于基于代码的评估器,使用 Python 代码定义评估逻辑。代码应返回包含评估分数和原因的 JSON 结果。

Screenshot showing the Evaluators tab in AI Toolkit with options for creating code-based evaluators.

AI 工具包根据您的评估器名称以及您是否使用外部库提供了一个支架。

您可以修改代码以实现您的评估逻辑

# The method signature is generated automatically. Do not change it.
# Create a new evaluator if you want to change the method signature or arguments.
def measure_the_response_if_human_like_or_not(query, **kwargs):
    # Add your evaluator logic to calculate the score.

    # Return an object with score and an optional string message to display in the result.
    return {
        "score": 3,
        "reason": "This is a placeholder for the evaluator's reason."
    }

您学到了什么

在本文中,您学习了如何

  • 在 AI Toolkit for VS Code 中创建和运行评估作业。
  • 监控评估作业的状态并查看其结果。
  • 比较不同版本提示和代理之间的评估结果。
  • 查看提示和代理的版本历史记录。
  • 使用内置评估器衡量各种指标的性能。
  • 创建自定义评估器以扩展内置评估功能。
  • 使用基于 LLM 和基于代码的评估器来应对不同的评估场景。
© . This site is unofficial and not affiliated with Microsoft.