批量运行多个提示词
批量运行(Bulk run)此前是 AI Toolkit 中一个独立的 Webview 功能。现在,它已完全集成到 Agent Builder 的 Evaluation(评估)选项卡中。您仍然可以通过选择 TOOLS > Bulk Run 来通过 AI Toolkit 视图访问它。
AI Toolkit 中的批量运行功能允许您以批处理模式针对多个测试用例测试智能体(Agent)和提示词。与一次运行一个提示词的 Playground 不同,批量运行通过使用数据集作为输入并顺序运行所有提示词来自动化该过程。
执行完成后,AI 的响应将出现在数据集视图中,位于原始提示词旁边。您可以查看、比较并导出包含响应的完整数据集,以进行进一步分析。

开始批量运行
要在 AI Toolkit 中开始批量运行,请按照以下步骤操作:
- 在 AI Toolkit 视图中,从活动栏(Activity Bar)中选择 Agent Builder。
- 使用
{{variable}}格式输入您的提示词和变量。选择一个用于运行该提示词的模型。 - 切换到 Agent Builder 中的 Evaluation(评估)选项卡。
AI Toolkit 使用您为智能体使用的相同 LLM 模型来生成数据集,这可能会产生费用。您可以在 AI Toolkit GitHub 仓库中查看用于生成数据集的元提示词(meta prompt)。
- 选择 Generate Data(生成数据)以创建合成数据集。
- 选择要生成的行数,并查看或修改数据生成逻辑。

- 选择 Generate(生成)以创建数据集。
您可以选择仅运行尚未执行的剩余查询。
- 数据集加载后,选择 Run(运行)以运行单行数据,或选择 Run All(全部运行)以运行数据集中的所有行。
操作数据集

AI Toolkit 提供了多种操作来管理和分析批量运行过程中的数据集:
- Generate Data(生成数据):根据提示词和变量创建合成数据集。指定行数并修改数据生成逻辑。
- Add Row(添加行):向数据集添加新行。
- Delete Row(删除行):从数据集中删除所选行。
- Export Dataset(导出数据集):将数据集导出为 CSV 文件,以便进行进一步分析或报告。
- Import Dataset(导入数据集):从 CSV 文件导入数据集,作为批量运行的输入。
- Run(运行):针对所选模型执行数据集中的单行数据。
- Run All(全部运行):针对所选模型执行数据集中的所有行。
- Run Remaining(运行剩余):仅针对所选模型执行尚未运行的行。
- Manual Evaluation(手动评估):将响应标记为“点赞”或“点踩”,以保留手动评估的记录。
评估批量运行结果
AI Toolkit 允许您直接在数据集视图中评估批量运行的结果。

您可以将 Evaluation(评估)选项卡扩展为全屏模式,以获得更详细的结果视图。全屏模式提供与标准视图相同的功能,但具有更大的显示区域,以便更好地查看和分析。

选择 View Details(查看详情)以查看每个查询的完整响应。
在详细信息视图中,您可以:
- 回顾用户与助手之间的完整对话。
- 分析 AI 的响应。
- 将响应标记为好或坏,以保留手动评估的记录。
- 导航到数据集中的上一个或下一个查询。
- 选择 Exit(退出)以返回数据集概览。
- 查看数据集中的查询总数和当前查询索引。
管理数据列

通过数据列管理,您可以自定义数据集视图,从而专注于批量运行分析中最相关的信息。
您可以:
- Add Columns(添加列):在当前列的左侧或右侧添加列。
- Edit Column Name(编辑列名):更改数据集中任何列的名称。
- Add Ground Truth Column(添加基准真值列):添加用于存放基准真值(Ground Truth)的列,以便与 AI 响应进行比较。
您学到了什么
在本文中,您学习了如何
- 为批量运行生成合成数据集。
- 以 CSV 格式导入和导出数据集。
- 对批量运行结果进行评估。
- 将响应标记为好或坏,以保留手动评估的记录。
- 查看响应详情并在数据集中的查询之间导航。
- 管理数据列以进行更好的分析。