评估模型、提示和智能体
你可以通过将其输出与基准实况数据进行比较并计算评估指标来评估模型、提示和智能体。AI 工具包简化了此过程。上传数据集并以最少的工作量运行全面的评估。
评估提示和智能体
你可以在智能体生成器中通过选择评估选项卡来评估提示和智能体。在评估之前,请针对数据集运行你的提示或智能体。阅读更多关于批量运行的内容,以了解如何使用数据集。
评估提示或智能体
- 在智能体生成器中,选择评估选项卡。
- 添加并运行要评估的数据集。
- 使用“赞”和“踩”图标对响应进行评级,并记录你的手动评估。
- 要添加评估器,请选择新建评估。
- 从内置评估器列表中选择一个评估器,例如 F1 分数、相关性、连贯性或相似性。注意
使用 GitHub 托管的模型运行评估时,可能会应用速率限制。
- 如果需要,选择一个模型用作评估的评审模型。
- 选择运行评估以开始评估作业。
版本控制和评估比较
AI 工具包支持提示和智能体的版本控制,因此你可以比较不同版本的性能。当你创建新版本时,可以运行评估并与以前的版本比较结果。
保存提示或智能体的新版本
- 在智能体生成器中,定义系统或用户提示,添加变量和工具。
- 运行智能体或切换到评估选项卡并添加要评估的数据集。
- 当你对提示或智能体感到满意时,从工具栏中选择另存为新版本。
- (可选)提供版本名称并按 Enter 键。
查看版本历史记录
你可以在智能体生成器中查看提示或智能体的版本历史记录。版本历史记录显示所有版本以及每个版本的评估结果。
在版本历史记录视图中,你可以
- 选择版本名称旁边的铅笔图标以重命名版本。
- 选择垃圾桶图标以删除版本。
- 选择一个版本名称以切换到该版本。
比较版本间的评估结果
你可以在智能体生成器中比较不同版本的评估结果。结果显示在一个表格中,展示每个评估器的分数以及每个版本的总分。
比较版本间的评估结果
- 在智能体生成器中,选择评估选项卡。
- 从评估工具栏中,选择比较。
- 从列表中选择要与之进行比较的版本。注意
比较功能仅在智能体生成器的全屏模式下可用,以便更好地查看评估结果。你可以展开提示部分以查看模型和提示的详细信息。
- 所选版本的评估结果显示在表格中,允许你比较每个评估器的分数以及每个版本的总分。
内置评估器
AI 工具包提供了一套内置评估器,用于衡量你的模型、提示和智能体的性能。这些评估器根据你的模型输出和基准实况数据计算各种指标。
对于智能体
- 意图解决:衡量智能体识别和处理用户意图的准确性。
- 任务依从性:衡量智能体执行已识别任务的好坏程度。
- 工具调用准确性:衡量智能体选择和调用正确工具的好坏程度。
用于通用目的
- 连贯性:衡量响应的逻辑一致性和流畅性。
- 流畅性:衡量自然语言质量和可读性。
用于 RAG(检索增强生成)
- 检索:衡量系统检索相关信息的有效性。
用于文本相似性
- 相似性:AI 辅助的文本相似性度量。
- F1 分数:响应和基准实况之间词元重叠的精确率和召回率的调和平均值。
- BLEU:双语评估替补分数,用于衡量翻译质量;衡量响应和基准实况之间 n-gram 的重叠。
- GLEU:Google-BLEU 的变体,用于句子级评估;衡量响应和基准实况之间 n-gram 的重叠。
- METEOR:带显式排序的翻译评估指标;衡量响应和基准实况之间 n-gram 的重叠。
AI 工具包中的评估器基于 Azure 评估 SDK。要了解有关生成式 AI 模型可观测性的更多信息,请参阅 Azure AI Foundry 文档。
启动独立的评估作业
-
在 AI 工具包视图中,选择工具 > 评估以打开评估视图。
-
选择创建评估,然后提供以下信息
- 评估作业名称:使用默认名称或输入自定义名称。
- 评估器:从内置或自定义评估器中选择。
- 评审模型:如果需要,选择一个模型用作评审模型。
- 数据集:选择一个用于学习的示例数据集,或导入一个包含
query
、response
和ground truth
字段的 JSONL 文件。
-
将创建一个新的评估作业。系统会提示你打开评估作业详细信息。
-
验证你的数据集并选择运行评估以开始评估。
监控评估作业
在你启动评估作业后,你可以在评估作业视图中查看其状态。
每个评估作业都包含一个指向所用数据集的链接、评估过程的日志、一个时间戳以及一个指向评估详细信息的链接。
查找评估结果
评估作业详细信息视图显示了一个表格,其中包含每个所选评估器的结果。一些结果可能包括聚合值。
你还可以选择在 Data Wrangler 中打开以使用 Data Wrangler 扩展打开数据。
创建自定义评估器
你可以创建自定义评估器来扩展 AI 工具包的内置评估功能。自定义评估器允许你定义自己的评估逻辑和指标。
创建自定义评估器
-
在评估视图中,选择评估器选项卡。
-
选择创建评估器以打开创建表单。
-
提供所需信息
- 名称:为你的自定义评估器输入一个名称。
- 描述:描述评估器的功能。
- 类型:选择评估器的类型:基于 LLM 或基于代码 (Python)。
-
按照所选类型的说明完成设置。
-
选择保存以创建自定义评估器。
-
创建自定义评估器后,它会出现在评估器列表中,供你在创建新评估作业时选择。
基于 LLM 的评估器
对于基于 LLM 的评估器,请使用自然语言提示来定义评估逻辑。
编写一个提示来指导评估器评估特定质量。定义标准,提供示例,并使用像 或
这样的变量以增加灵活性。根据需要自定义评分标准或反馈风格。
确保 LLM 输出 JSON 结果,例如:{"score": 4, "reason": "响应相关但缺乏细节。"}
你还可以使用示例部分来开始创建你的基于 LLM 的评估器。
基于代码的评估器
对于基于代码的评估器,请使用 Python 代码定义评估逻辑。代码应返回一个包含评估分数和原因的 JSON 结果。
AI 工具包会根据你的评估器名称以及是否使用外部库来提供一个脚手架。
你可以修改代码以实现你的评估逻辑
# The method signature is generated automatically. Do not change it.
# Create a new evaluator if you want to change the method signature or arguments.
def measure_the_response_if_human_like_or_not(query, **kwargs):
# Add your evaluator logic to calculate the score.
# Return an object with score and an optional string message to display in the result.
return {
"score": 3,
"reason": "This is a placeholder for the evaluator's reason."
}
你学到了什么
在本文中,你学到了如何
- 在 AI 工具包 for VS Code 中创建和运行评估作业。
- 监控评估作业的状态并查看其结果。
- 比较不同版本提示和智能体的评估结果。
- 查看提示和智能体的版本历史记录。
- 使用内置评估器通过各种指标来衡量性能。
- 创建自定义评估器以扩展内置评估功能。
- 针对不同的评估场景使用基于 LLM 和基于代码的评估器。