– 代理会话日,2月19日

批量运行多个提示词

注意

批量运行功能之前是 AI 工具箱中的一个独立 webview 功能。现在它已完全集成到 Agent BuilderEvaluation(评估)选项卡下。您仍然可以通过选择 TOOLS(工具) > Bulk Run(批量运行) 从 AI 工具箱视图访问它。

AI 工具箱中的批量运行功能允许您以批处理模式测试代理和提示词,针对多个测试用例。与每次运行一个提示词的 Playground 不同,批量运行通过使用数据集作为输入并按顺序运行所有提示词来自动化该过程。

执行后,AI 响应将显示在数据集视图中,位于您原始提示词旁边。您可以查看、比较和导出包含响应的完整数据集,以进行进一步分析。

Screenshot showing AI Toolkit interface with the bulk run feature. The dataset table displays multiple prompts and responses, with queries about weather in Paris France and Shanghai China.

开始批量运行

要在 AI 工具箱中开始批量运行,请按照以下步骤操作

  1. 在 AI 工具箱视图中,从活动栏中选择 Agent Builder
  2. 使用 格式输入您的提示词和变量。选择一个模型来运行提示词。
  3. 切换到 Agent Builder 中的 Evaluation(评估)选项卡。
注意

AI 工具箱使用您用于代理的相同 LLM 模型来生成数据集,这可能会产生费用。您可以在 AI 工具箱 GitHub 仓库 中查看用于生成数据集的元提示词。

  1. 选择 Generate Data(生成数据)以创建合成数据集。
  2. 选择要生成的数据行数,并查看或修改数据生成逻辑。 AI 工具箱中生成数据对话框的屏幕截图。
  3. 选择 Generate(生成)以创建数据集。
提示

您可以选择仅运行尚未运行的查询。

  1. 数据集加载完成后,选择 Run(运行)运行单行,或选择 Run All(全部运行)运行数据集中所有行。

操作数据集

Screenshot showing AI Toolkit interface with dataset operations and a table of evaluation results.

AI 工具箱提供了一些操作来管理和分析批量运行期间的数据集

  • Generate Data(生成数据):基于提示词和变量创建合成数据集。指定行数并修改数据生成逻辑。
  • Add Row(添加行):向数据集中添加新行。
  • Delete Row(删除行):从数据集中删除选定的行。
  • Export Dataset(导出数据集):将数据集导出到 CSV 文件,以进行进一步的分析或报告。
  • Import Dataset(导入数据集):从 CSV 文件导入数据集,用作批量运行的输入。
  • Run(运行):针对选定的模型执行数据集中单行。
  • Run All(全部运行):针对选定的模型执行数据集中所有行。
  • Run Remaining(运行剩余):仅针对选定的模型执行尚未运行的行。
  • Manual Evaluation(手动评估):将响应标记为“点赞”或“点踩”以记录手动评估。

评估批量运行结果

AI 工具箱允许您直接在数据集视图中评估批量运行的结果。

Screenshot showing AI Toolkit interface in full screen mode with the Evaluation tab expanded. The dataset table displays multiple columns, including query prompts and AI responses, for detailed analysis.

您可以将 Evaluation(评估)选项卡扩展到全屏模式,以更详细地查看结果。全屏模式提供与标准视图相同的功能,但具有更大的显示区域,以提高可见性和分析能力。

Screenshot showing detailed view of evaluation results with a modal dialog displaying a full conversation between user and assistant about weather queries.

选择 View Details(查看详细信息)以查看每个查询的完整响应。

在详细信息视图中,您可以

  • 查看用户和助手之间的完整对话。
  • 分析 AI 的响应。
  • 将响应标记为良好或不良,以记录手动评估。
  • 导航到数据集中前一个或下一个查询。
  • 选择 Exit(退出)返回数据集概述。
  • 查看数据集中查询的总数和当前查询索引。

管理数据列

Screenshot showing AI Toolkit interface with dataset management options and column management controls.

通过数据列管理,您可以自定义数据集视图,以专注于批量运行分析中最相关的信息。

您可以

  • Add Columns(添加列):在当前列的左侧或右侧添加列。
  • Edit Column Name(编辑列名):更改数据集中任何列的名称。
  • Add Ground Truth Column(添加真实值列):添加一个真实值列,以与 AI 响应进行比较。

您学到了什么

在本文中,您学习了如何

  • 为批量运行生成合成数据集。
  • 以 CSV 格式导入和导出数据集。
  • 对批量运行结果进行评估。
  • 将响应标记为良好或不良,以记录手动评估。
  • 查看响应详细信息并在数据集中导航到不同的查询。
  • 管理数据列以进行更好的分析。

后续步骤

© . This site is unofficial and not affiliated with Microsoft.