批量运行多个提示

注意

批量运行曾经是 AI Toolkit 中一项独立的 Webview 功能。现在，它已完全集成到 **Agent Builder** 的 **Evaluation** (评估) 选项卡下。您仍然可以通过选择 **TOOLS** > **Bulk Run** (工具 > 批量运行) 来访问它。

AI Toolkit 中的批量运行功能允许您以批处理模式针对多个测试用例来测试代理和提示。与一次运行一个提示的 Playground 不同，批量运行通过使用数据集作为输入并按顺序运行所有提示来自动化此过程。

执行后，AI 响应将出现在数据集视图中，位于您原始提示的旁边。您可以查看、比较和导出包含响应的完整数据集以供进一步分析。

Screenshot showing AI Toolkit interface with the bulk run feature. The dataset table displays multiple prompts and responses, with queries about weather in Paris France and Shanghai China.

启动批量运行

要在 AI Toolkit 中启动批量运行，请按照以下步骤操作

在 AI Toolkit 视图中，从 Activity Bar (活动栏) 中选择 **Agent Builder**。
使用 `` 格式输入您的提示和变量。选择一个模型来运行提示。


在 **Agent Builder** 中切换到 **Evaluation** (评估) 选项卡。



      
        注意AI Toolkit 使用您为代理使用的相同 LLM 模型来生成数据集，这可能会产生费用。您可以在 AI Toolkit GitHub 仓库 中查看用于生成数据集的元提示。

选择 **Generate Data** (生成数据) 来创建合成数据集。
选择要生成的行数，并查看或修改数据生成逻辑。 
选择 **Generate** (生成) 来创建数据集。


      
        提示您可以选择只运行尚未运行的剩余查询。

加载数据集后，选择 **Run** (运行) 来运行单行，或选择 **Run All** (全部运行) 来运行数据集中的所有行。

操作数据集

AI Toolkit 在批量运行期间提供了多个操作来管理和分析您的数据集

Generate Data (生成数据): 基于提示和变量创建合成数据集。指定行数并修改数据生成逻辑。
Add Row (添加行): 向数据集中添加新行。
Delete Row (删除行): 删除数据集中选定的行。
Export Dataset (导出数据集): 将数据集导出为 CSV 文件，以供进一步分析或报告。
Import Dataset (导入数据集): 从 CSV 文件导入数据集以用作批量运行的输入。
Run (运行): 针对选定的模型执行数据集中的单行。
Run All (全部运行): 针对选定的模型执行数据集中的所有行。
Run Remaining (运行剩余): 仅针对选定的模型执行尚未运行的行。
Manual Evaluation (手动评估): 将响应标记为“Thumb Up”（点赞）或“Thumb Down”（点踩），以记录手动评估。

评估批量运行结果
AI Toolkit 允许您直接在数据集视图中评估批量运行的结果。

您可以将 **Evaluation** (评估) 选项卡扩展到全屏模式，以更详细地查看结果。全屏模式提供与标准视图相同的功能，但显示区域更大，以便于查看和分析。

选择 **View Details** (查看详情) 以查看每个查询的完整响应。
在详细视图中，您可以

查看用户与助手之间的完整对话。
分析 AI 的响应。
将响应标记为好或坏，以记录手动评估。
导航到数据集中的上一条或下一条查询。
选择 **Exit** (退出) 返回数据集概览。
查看数据集中查询的总数以及当前查询的索引。

管理数据列

通过数据列管理，您可以自定义数据集视图，以专注于对您的批量运行分析最相关的信息。
您可以

Add Columns (添加列): 在当前列的左侧或右侧添加列。
Edit Column Name (编辑列名): 更改数据集中任何列的名称。
Add Ground Truth Column (添加真实值列): 添加一列用于真实值，以便与 AI 响应进行比较。

您学到了什么
在本文中，您学习了如何

为批量运行生成合成数据集。
以 CSV 格式导入和导出数据集。
对批量运行结果执行评估。
将响应标记为好或坏，以记录手动评估。
查看响应详情并在数据集中导航查询。
管理数据列以获得更好的分析。

后续步骤

使用流行的评估器 运行评估


                
                
                07/14/2025