– 代理会话日,2月19日

评估模型、提示词和智能体

您可以通过将模型的输出与真实数据进行比较并计算评估指标来评估模型、提示词和智能体。AI 工具包简化了此过程。上传数据集并以最少的精力运行全面的评估。

Screenshot showing the start of an evaluation in AI Toolkit.

评估提示词和智能体

您可以在 智能体构建器 中选择 评估 选项卡来评估提示词和智能体。在评估之前,请针对数据集运行您的提示词或智能体。请阅读更多关于 批量运行 的内容,以了解如何使用数据集。

要评估提示词或智能体

  1. 智能体构建器 中,选择 评估 选项卡。
  2. 添加并运行您想要评估的数据集。
  3. 使用点赞和点踩图标来评估响应,并记录您的手动评估结果。
  4. 要添加评估器,请选择 新建评估
  5. 从内置评估器列表中选择一个评估器,例如 F1 分数、相关性、连贯性或相似性。
    注意

    速率限制 在使用 GitHub 托管的模型运行评估时可能适用。

  6. 如果需要,选择一个模型作为评估的判断模型。
  7. 选择 运行评估 以启动评估任务。

Screenshot showing the Evaluation tab in Agent Builder with options to select evaluators, judging models, and run evaluation against a dataset.

版本控制和评估比较

AI 工具包支持提示词和智能体的版本控制,因此您可以比较不同版本的性能。当您创建新版本时,您可以运行评估并与以前的版本比较结果。

要保存提示词或智能体的新的版本

  1. 智能体构建器 中,定义系统或用户提示词,添加变量和工具。
  2. 运行智能体或切换到 评估 选项卡并添加数据集进行评估。
  3. 当您对提示词或智能体感到满意时,从工具栏中选择 保存为新版本
  4. 可选地,提供版本名称并按 Enter 键。

查看版本历史记录

您可以在 智能体构建器 中查看提示词或智能体的版本历史记录。版本历史记录显示所有版本,以及每个版本的评估结果。

Screenshot showing the Version History dialog with a list of saved versions of a prompt or agent.

在版本历史记录视图中,您可以

  • 选择版本名称旁边的铅笔图标以重命名版本。
  • 选择垃圾桶图标以删除版本。
  • 选择版本名称以切换到该版本。

比较不同版本之间的评估结果

您可以在 智能体构建器 中比较不同版本的评估结果。结果显示在一个表中,显示每个评估器的分数以及每个版本的总分。

要比较不同版本之间的评估结果

  1. 智能体构建器 中,选择 评估 选项卡。
  2. 从评估工具栏中选择 比较
  3. 从列表中选择您想要比较的版本。
    注意

    为了更好地查看评估结果,比较功能仅在智能体构建器的全屏模式下可用。您可以展开 提示词 部分以查看模型和提示词详细信息。

  4. 所选版本的评估结果显示在一个表中,允许您比较每个评估器的分数以及每个版本的总分。

Screenshot showing the Evaluation tab in Agent Builder with the interface for comparing evaluation results between different versions.

内置评估器

AI 工具包提供了一组内置评估器来衡量您的模型、提示词和智能体的性能。这些评估器根据您的模型输出和真实数据计算各种指标。

对于智能体

  • 意图识别:衡量智能体识别和解决用户意图的准确性。
  • 任务执行力:衡量智能体完成已识别任务的程度。
  • 工具调用准确性:衡量智能体选择和调用正确工具的程度。

通用目的

  • 连贯性:衡量响应的逻辑一致性和流畅性。
  • 流畅性:衡量自然语言的质量和可读性。

对于 RAG(检索增强生成)

  • 检索能力:衡量系统检索相关信息的有效性。

对于文本相似度

  • 相似度:AI 辅助的文本相似度测量。
  • F1 分数:响应和真实数据之间 token 重叠的调和平均值。
  • BLEU:用于翻译质量的双语评估 Understudy 分数;衡量响应和真实数据之间 n-gram 的重叠。
  • GLEU:用于句子级别评估的 Google-BLEU 变体;衡量响应和真实数据之间 n-gram 的重叠。
  • METEOR:具有显式排序的翻译评估指标;衡量响应和真实数据之间 n-gram 的重叠。

AI 工具包中的评估器基于 Azure 评估 SDK。要了解有关生成式 AI 模型可观测性的更多信息,请参阅 Microsoft Foundry 文档

启动独立评估任务

  1. 在 AI 工具包视图中,选择 工具 > 评估 以打开评估视图。

  2. 选择 创建评估,然后提供以下信息

    • 评估任务名称:使用默认名称或输入自定义名称。
    • 评估器:从内置评估器或自定义评估器中选择。
    • 判断模型:如果需要,选择一个模型作为判断模型。
    • 数据集:选择一个用于学习的示例数据集,或导入一个包含字段 queryresponseground truth 的 JSONL 文件。
  3. 将创建一个新的评估任务。系统会提示您打开评估任务详细信息。

    Screenshot showing the Open Evaluation dialog in AI Toolkit.

  4. 验证您的数据集并选择 运行评估 以启动评估。

    Screenshot showing the Run Evaluation dialog in AI Toolkit.

监控评估任务

启动评估任务后,您可以在评估任务视图中查看其状态。

Screenshot showing a running evaluation in AI Toolkit.

每个评估任务都包含指向所用数据集的链接、评估过程的日志、时间戳以及指向评估详细信息的链接。

查找评估结果

评估任务详细信息视图显示一个表,其中包含每个所选评估器的结果。某些结果可能包括聚合值。

您还可以选择 在数据整理器中打开,以使用 数据整理器扩展 打开数据。

Screenshot showing the Data Wrangler extension with evaluation results.

创建自定义评估器

您可以创建自定义评估器来扩展 AI 工具包的内置评估功能。自定义评估器允许您定义自己的评估逻辑和指标。

Screenshot showing the custom evaluator creation interface in AI Toolkit.

要创建自定义评估器

  1. 评估 视图中,选择 评估器 选项卡。

  2. 选择 创建评估器 以打开创建表单。

    Screenshot showing the form to create a new custom evaluator.

  3. 提供所需的信息

    • 名称:输入自定义评估器的名称。
    • 描述:描述评估器做什么。
    • 类型:选择评估器类型:基于 LLM 或基于代码(Python)。
  4. 按照所选类型的说明完成设置。

  5. 选择 保存 以创建自定义评估器。

  6. 创建自定义评估器后,它将出现在评估器列表中,以便在创建新的评估任务时进行选择。

基于 LLM 的评估器

对于基于 LLM 的评估器,使用自然语言提示定义评估逻辑。

编写一个提示来指导评估器评估特定质量。定义标准,提供示例,并使用变量(如 )以实现灵活性。根据需要自定义刻度和反馈样式。

确保 LLM 输出 JSON 结果,例如:{"score": 4, "reason": "响应相关,但缺乏细节。"}

您还可以使用 示例 部分开始使用基于 LLM 的评估器。

Screenshot showing the LLM-based evaluator configuration in AI Toolkit.

基于代码的评估器

对于基于代码的评估器,使用 Python 代码定义评估逻辑。代码应返回一个包含评估分数和原因的 JSON 结果。

Screenshot showing the Evaluators tab in AI Toolkit with options for creating code-based evaluators.

AI 工具包根据您的评估器名称和您是否使用外部库提供一个脚手架。

您可以修改代码以实现您的评估逻辑

# The method signature is generated automatically. Do not change it.
# Create a new evaluator if you want to change the method signature or arguments.
def measure_the_response_if_human_like_or_not(query, **kwargs):
    # Add your evaluator logic to calculate the score.

    # Return an object with score and an optional string message to display in the result.
    return {
        "score": 3,
        "reason": "This is a placeholder for the evaluator's reason."
    }

您学到了什么

在本文中,您学习了如何

  • 在 AI 工具包 for VS Code 中创建和运行评估任务。
  • 监控评估任务的状态并查看其结果。
  • 比较提示词和智能体不同版本的评估结果。
  • 查看提示词和智能体的版本历史记录。
  • 使用内置评估器使用各种指标衡量性能。
  • 创建自定义评估器以扩展内置评估功能。
  • 对于不同的评估场景,使用基于 LLM 和基于代码的评估器。
© . This site is unofficial and not affiliated with Microsoft.