参加你附近的 ,了解 VS Code 中的 AI 辅助开发。

批量运行多个提示

注意

批量运行以前是 AI 工具包中一个独立的 Web 视图功能。现在,它已完全集成到智能体构建器评估选项卡中。您仍然可以通过选择工具 > 批量运行,从 AI 工具包视图访问它。

AI 工具包中的批量运行功能允许您以批处理模式针对多个测试用例测试智能体和提示。与一次运行一个提示的 Playground 不同,批量运行通过使用数据集作为输入并按顺序运行所有提示来自动化该过程。

执行后,AI 响应将显示在数据集视图中,紧邻您的原始提示。您可以查看、比较和导出包含响应的完整数据集,以进行进一步分析。

Screenshot showing AI Toolkit interface with the bulk run feature. The dataset table displays multiple prompts and responses, with queries about weather in Paris France and Shanghai China.

开始批量运行

要在 AI 工具包中开始批量运行,请按照以下步骤操作

  1. 在 AI 工具包视图中,从活动栏中选择智能体构建器
  2. 使用 格式输入您的提示和变量。选择一个模型来运行提示。
  3. 切换到智能体构建器中的评估选项卡。
注意

AI 工具包使用您用于智能体生成数据集的相同 LLM 模型,这可能会产生费用。您可以在 AI 工具包 GitHub 仓库中查看用于生成数据集的元提示。

  1. 选择生成数据来创建合成数据集。
  2. 选择要生成的行数,并查看或修改数据生成逻辑。显示 AI 工具包中生成数据对话框的屏幕截图。
  3. 选择生成以创建数据集。
提示

您可以选择只运行尚未运行的剩余查询。

  1. 数据集加载后,选择运行以运行单行或运行全部以运行数据集中所有行。

操作数据集

Screenshot showing AI Toolkit interface with dataset operations and a table of evaluation results.

AI 工具包提供多种操作来在批量运行期间管理和分析您的数据集

  • 生成数据:根据提示和变量创建合成数据集。指定行数并修改数据生成逻辑。
  • 添加行:向数据集中添加新行。
  • 删除行:从数据集中删除选定的行。
  • 导出数据集:将数据集导出到 CSV 文件以进行进一步分析或报告。
  • 导入数据集:从 CSV 文件导入数据集以用作批量运行的输入。
  • 运行:针对选定模型执行数据集中的单行。
  • 运行全部:针对选定模型执行数据集中所有行。
  • 运行剩余:仅执行尚未针对选定模型运行的行。
  • 手动评估:将响应标记为“赞”或“踩”,以记录手动评估。

评估批量运行结果

AI 工具包允许您直接在数据集视图中评估批量运行的结果。

Screenshot showing AI Toolkit interface in full screen mode with the Evaluation tab expanded. The dataset table displays multiple columns, including query prompts and AI responses, for detailed analysis.

您可以将评估选项卡展开到全屏模式,以更详细地查看结果。全屏模式提供与标准视图相同的功能,但显示区域更大,以便更好地查看和分析。

Screenshot showing detailed view of evaluation results with a modal dialog displaying a full conversation between user and assistant about weather queries.

选择查看详细信息以查看每个查询的完整响应。

在详细视图中,您可以

  • 查看用户和助手之间的完整对话。
  • 分析 AI 的响应。
  • 将响应标记为好或坏,以记录手动评估。
  • 导航到数据集中上一个或下一个查询。
  • 选择退出以返回到数据集概述。
  • 查看数据集中的查询总数和当前查询索引。

管理数据列

Screenshot showing AI Toolkit interface with dataset management options and column management controls.

通过数据列管理,您可以自定义数据集视图,以专注于批量运行分析中最相关的信息。

您可以

  • 添加列:在当前列的左侧或右侧添加列。
  • 编辑列名:更改数据集中任何列的名称。
  • 添加真实值列:添加一个用于真实值列,以便与 AI 响应进行比较。

您学到了什么

在本文中,您学习了如何

  • 为批量运行生成合成数据集。
  • 以 CSV 格式导入和导出数据集。
  • 对批量运行结果执行评估。
  • 将响应标记为好或坏,以记录手动评估。
  • 查看响应详细信息并在数据集中的查询之间导航。
  • 管理数据列以进行更好的分析。

后续步骤

© . This site is unofficial and not affiliated with Microsoft.