尝试以扩展 VS Code 中的代理模式!

批量运行多个提示

注意

批量运行以前是 AI 工具包中的一个独立网页视图功能。现在它已完全集成到代理生成器评估选项卡中。您仍然可以通过 AI 工具包视图中选择工具 > 批量运行来访问它。

AI 工具包中的批量运行功能允许您以批处理模式针对多个测试用例测试代理和提示。与一次运行一个提示的 Playground 不同,批量运行通过使用数据集作为输入并按顺序运行所有提示来自动化此过程。

执行后,AI 响应会显示在数据集视图中,紧邻您的原始提示。您可以查看、比较和导出包含响应的完整数据集,以进行进一步分析。

Screenshot showing AI Toolkit interface with the bulk run feature. The dataset table displays multiple prompts and responses, with queries about weather in Paris France and Shanghai China.

开始批量运行

若要在 AI 工具包中开始批量运行,请遵循以下步骤

  1. 在 AI 工具包视图中,从活动栏中选择代理生成器
  2. 使用 格式输入提示和变量。选择一个模型来运行提示。
  3. 切换到代理生成器中的评估选项卡。
注意

AI 工具包使用您用于代理的相同 LLM 模型来生成数据集,这可能会产生费用。您可以在 AI 工具包 GitHub 存储库中查看用于生成数据集的元提示。

  1. 选择生成数据以创建合成数据集。
  2. 选择要生成的行数并查看或修改数据生成逻辑。显示 AI 工具包中生成数据对话框的屏幕截图。
  3. 选择生成以创建数据集。
提示

您可以选择仅运行尚未运行的剩余查询。

  1. 数据集加载后,选择运行以运行单行或运行全部以运行数据集中所有行。

操作数据集

Screenshot showing AI Toolkit interface with dataset operations and a table of evaluation results.

AI 工具包提供了多种操作来管理和分析您在批量运行期间的数据集

  • 生成数据:根据提示和变量创建合成数据集。指定行数并修改数据生成逻辑。
  • 添加行:向数据集中添加新行。
  • 删除行:从数据集中删除选定的行。
  • 导出数据集:将数据集导出到 CSV 文件,以进行进一步分析或报告。
  • 导入数据集:从 CSV 文件导入数据集,用作批量运行的输入。
  • 运行:针对选定的模型执行数据集中的单行。
  • 运行全部:针对选定的模型执行数据集中的所有行。
  • 运行剩余项:仅针对选定的模型执行尚未运行的行。
  • 手动评估:将响应标记为“点赞”或“点踩”以记录手动评估。

评估批量运行结果

AI 工具包允许您直接在数据集视图中评估批量运行的结果。

Screenshot showing AI Toolkit interface in full screen mode with the Evaluation tab expanded. The dataset table displays multiple columns, including query prompts and AI responses, for detailed analysis.

您可以将评估选项卡展开到全屏模式,以更详细地查看结果。全屏模式提供与标准视图相同的功能,但显示区域更大,以便更好地查看和分析。

Screenshot showing detailed view of evaluation results with a modal dialog displaying a full conversation between user and assistant about weather queries.

选择查看详细信息以查看每个查询的完整响应。

在详细信息视图中,您可以

  • 查看用户与助手之间的完整对话。
  • 分析 AI 的响应。
  • 将响应标记为好或坏,以记录手动评估。
  • 导航到数据集中的上一个或下一个查询。
  • 选择退出返回到数据集概述。
  • 查看数据集中的查询总数和当前查询索引。

管理数据列

Screenshot showing AI Toolkit interface with dataset management options and column management controls.

通过数据列管理,您可以自定义数据集视图,以便专注于批量运行分析中最相关的信息。

您可以

  • 添加列:在当前列的左侧或右侧添加列。
  • 编辑列名:更改数据集中任何列的名称。
  • 添加基准列:添加基准值列以与 AI 响应进行比较。

您学到了什么

在本文中,您学习了如何

  • 生成用于批量运行的合成数据集。
  • 以 CSV 格式导入和导出数据集。
  • 对批量运行结果进行评估。
  • 将响应标记为好或坏,以记录手动评估。
  • 查看响应详细信息并在数据集中的查询之间导航。
  • 管理数据列以进行更好的分析。

后续步骤