批量运行多个提示
注意
批量运行之前是 AI 工具包中的一个独立网页视图功能。它现已完全集成到 Agent Builder 的 Evaluation 选项卡下。您仍然可以通过 AI 工具包视图,选择 TOOLS > Bulk Run 来访问它。
AI 工具包中的批量运行功能允许您以批处理模式针对多个测试用例测试代理和提示。与一次运行一个提示的 Playground 不同,批量运行通过使用数据集作为输入并按顺序运行所有提示来自动化该过程。
执行后,AI 响应会显示在数据集视图中,紧邻您的原始提示。您可以查看、比较和导出包含响应的完整数据集,以进行进一步分析。
启动批量运行
要在 AI 工具包中启动批量运行,请按照以下步骤操作
- 在 AI 工具包视图中,从活动栏中选择 Agent Builder。
- 使用
格式输入您的提示和变量。选择一个模型来运行提示。
- 切换到 Agent Builder 中的 Evaluation 选项卡。
注意
AI 工具包使用您用于代理的相同 LLM 模型来生成数据集,这可能会产生费用。您可以在 AI 工具包 GitHub 存储库中查看用于生成数据集的元提示。
- 选择 Generate Data 来创建合成数据集。
- 选择要生成的行数,并查看或修改数据生成逻辑。
- 选择 Generate 以创建数据集。
提示
您可以选择仅运行尚未运行的剩余查询。
- 数据集加载后,选择 Run 运行单行,或选择 Run All 运行数据集中的所有行。
操作数据集
AI 工具包提供了多种操作,用于在批量运行期间管理和分析您的数据集
- Generate Data:根据提示和变量创建合成数据集。指定行数并修改数据生成逻辑。
- Add Row:向数据集中添加新行。
- Delete Row:从数据集中删除选定的行。
- Export Dataset:将数据集导出到 CSV 文件,以便进行进一步分析或报告。
- Import Dataset:从 CSV 文件导入数据集,用作批量运行的输入。
- Run:针对所选模型执行数据集中的单行。
- Run All:针对所选模型执行数据集中的所有行。
- Run Remaining:仅针对所选模型执行尚未运行的行。
- Manual Evaluation:将响应标记为“赞”或“踩”,以记录手动评估。
评估批量运行结果
AI 工具包允许您直接在数据集视图中评估批量运行的结果。
您可以将 Evaluation 选项卡展开到全屏模式,以更详细地查看结果。全屏模式提供与标准视图相同的功能,但显示区域更大,可提供更好的可见性和分析。
选择 View Details 查看每个查询的完整响应。
在详细视图中,您可以
- 查看用户与助手之间的完整对话。
- 分析 AI 的响应。
- 将响应标记为好或坏,以记录手动评估。
- 导航到数据集中的上一个或下一个查询。
- 选择 Exit 返回到数据集概述。
- 查看数据集中的查询总数和当前查询索引。
管理数据列
借助数据列管理,您可以自定义数据集视图,以专注于批量运行分析中最相关的信息。
您可以
- Add Columns:在当前列的左侧或右侧添加列。
- Edit Column Name:更改数据集中任何列的名称。
- Add Ground Truth Column:添加一个用于基准真值(ground truth)的列,以便与 AI 响应进行比较。
后续步骤
- 使用常用评估器运行评估