评估模型、提示和代理
您可以通过将模型、提示和代理的输出与真实数据进行比较并计算评估指标来评估它们。AI 工具包简化了此过程。只需少量工作即可上传数据集并运行全面的评估。
评估提示和代理
您可以在 代理生成器 中通过选择 评估 选项卡来评估提示和代理。在评估之前,针对数据集运行您的提示或代理。阅读有关 批量运行 的更多信息,了解如何使用数据集。
评估提示或代理
- 在 代理生成器 中,选择 评估 选项卡。
- 添加并运行您要评估的数据集。
- 使用点赞和点踩图标来评价响应并记录您的手动评估。
- 要添加评估器,请选择 新建评估。
- 从内置评估器列表中选择一个评估器,例如 F1 分数、相关性、连贯性或相似性。注意
使用 GitHub 托管的模型运行评估时,可能会适用 速率限制。
- 如果需要,选择一个模型作为评估的评判模型。
- 选择 运行评估 以启动评估作业。
版本控制和评估比较
AI 工具包支持提示和代理的版本控制,因此您可以比较不同版本的性能。创建新版本时,您可以运行评估并与以前的版本比较结果。
保存提示或代理的新版本
- 在 代理生成器 中,定义系统或用户提示,添加变量和工具。
- 运行代理或切换到 评估 选项卡并添加数据集进行评估。
- 当您对提示或代理满意时,从工具栏中选择 另存为新版本。
- (可选)提供版本名称并按 Enter 键。
查看版本历史记录
您可以在 代理生成器 中查看提示或代理的版本历史记录。版本历史记录显示所有版本以及每个版本的评估结果。
在版本历史记录视图中,您可以
- 选择版本名称旁边的铅笔图标以重命名版本。
- 选择垃圾桶图标以删除版本。
- 选择版本名称以切换到该版本。
比较版本之间的评估结果
您可以在 代理生成器 中比较不同版本的评估结果。结果显示在表中,显示每个评估器的分数和每个版本的总分。
比较版本之间的评估结果
- 在 代理生成器 中,选择 评估 选项卡。
- 从评估工具栏中,选择 比较。
- 从列表中选择您要比较的版本。注意
比较功能仅在代理生成器的全屏模式下可用,以便更好地查看评估结果。您可以展开 提示 部分以查看模型和提示详细信息。
- 所选版本的评估结果显示在表中,允许您比较每个评估器的分数和每个版本的总分。
内置评估器
AI 工具包提供了一组内置评估器来衡量您的模型、提示和代理的性能。这些评估器根据您的模型输出和真实数据计算各种指标。
适用于代理
- 意图解析:衡量代理识别和解决用户意图的准确性。
- 任务遵循度:衡量代理执行已识别任务的程度。
- 工具调用准确性:衡量代理选择和调用正确工具的程度。
用于一般用途
- 连贯性:衡量响应的逻辑一致性和流畅性。
- 流畅性:衡量自然语言质量和可读性。
适用于 RAG(检索增强生成)
- 检索:衡量系统检索相关信息的有效性。
用于文本相似性
- 相似性:AI 辅助的文本相似性度量。
- F1 分数:响应和真实值之间标记重叠的精确度和召回率的调和平均值。
- BLEU:用于翻译质量的双语评估替补分数;衡量响应和真实值之间 n-gram 的重叠。
- GLEU:Google-BLEU 的句子级评估变体;衡量响应和真实值之间 n-gram 的重叠。
- METEOR:带显式排序的翻译评估指标;衡量响应和真实值之间 n-gram 的重叠。
AI 工具包中的评估器基于 Azure 评估 SDK。要了解有关生成式 AI 模型可观察性的更多信息,请参阅 Azure AI Foundry 文档。
启动独立评估作业
-
在 AI 工具包视图中,选择 工具 > 评估 以打开评估视图。
-
选择 创建评估,然后提供以下信息
- 评估作业名称:使用默认名称或输入自定义名称。
- 评估器:从内置评估器或自定义评估器中选择。
- 评判模型:如果需要,选择一个模型作为评判模型。
- 数据集:选择一个示例数据集进行学习,或导入一个包含
query
、response
和ground truth
字段的 JSONL 文件。
-
创建了一个新的评估作业。系统会提示您打开评估作业详细信息。
-
验证您的数据集并选择 运行评估 以开始评估。
监控评估作业
启动评估作业后,您可以在评估作业视图中查看其状态。
每个评估作业都包含一个指向所用数据集的链接、评估过程的日志、一个时间戳以及一个指向评估详细信息的链接。
查找评估结果
评估作业详细信息视图显示每个选定评估器的结果表。某些结果可能包含聚合值。
您还可以选择 在 Data Wrangler 中打开 以使用 Data Wrangler 扩展 打开数据。
创建自定义评估器
您可以创建自定义评估器以扩展 AI 工具包的内置评估功能。自定义评估器允许您定义自己的评估逻辑和指标。
创建自定义评估器
-
在 评估 视图中,选择 评估器 选项卡。
-
选择 创建评估器 以打开创建表单。
-
提供所需信息
- 名称:输入您的自定义评估器的名称。
- 描述:描述评估器的作用。
- 类型:选择评估器类型:基于 LLM 或基于代码 (Python)。
-
按照所选类型的说明完成设置。
-
选择 保存 以创建自定义评估器。
-
创建自定义评估器后,它会出现在您创建新的评估作业时可选择的评估器列表中。
基于 LLM 的评估器
对于基于 LLM 的评估器,使用自然语言提示定义评估逻辑。
编写提示以指导评估器评估特定质量。定义标准、提供示例并使用 或
等变量以实现灵活性。根据需要自定义量表或反馈样式。
确保 LLM 输出 JSON 结果,例如:{"score": 4, "reason": "The response is relevant but lacks detail."}
您还可以使用 示例 部分来开始使用您的基于 LLM 的评估器。
基于代码的评估器
对于基于代码的评估器,使用 Python 代码定义评估逻辑。代码应返回包含评估分数和原因的 JSON 结果。
AI 工具包根据您的评估器名称以及您是否使用外部库提供了一个脚手架。
您可以修改代码以实现您的评估逻辑
# The method signature is generated automatically. Do not change it.
# Create a new evaluator if you want to change the method signature or arguments.
def measure_the_response_if_human_like_or_not(query, **kwargs):
# Add your evaluator logic to calculate the score.
# Return an object with score and an optional string message to display in the result.
return {
"score": 3,
"reason": "This is a placeholder for the evaluator's reason."
}
您学到了什么
在本文中,您学习了如何
- 在 VS Code 的 AI 工具包中创建并运行评估作业。
- 监控评估作业的状态并查看其结果。
- 比较不同版本提示和代理的评估结果。
- 查看提示和代理的版本历史记录。
- 使用内置评估器通过各种指标衡量性能。
- 创建自定义评估器以扩展内置评估功能。
- 将基于 LLM 和基于代码的评估器用于不同的评估场景。