在 VS Code 中优化 AI 额度使用

每个 GitHub Copilot 计划都包含每月一定额度的 AI 额度。根据模型和处理的 Token 数量,不同的操作会以不同的费率消耗额度。本指南介绍了在 Visual Studio Code 中最大化利用 AI 额度的实用方法。

选择高效模型

能力更强的模型每个 Token 的成本更高,而较轻量的模型可以延长你的使用时间。请根据任务的复杂度选择合适的模型。

  • 对于快速编辑、生成样板代码和简单的问题,请使用轻量级模型
  • 对于复杂的重构、架构决策和多步调试,请使用推理模型
  • 使用自动模型选择,让 VS Code 将每个请求路由到在质量和成本之间取得平衡的高效模型。
  • 使用带有首选模型的自定义智能体 (Custom Agents),将特定的子任务路由到专业且经济高效的模型。当你调用自定义智能体作为子智能体时,它会使用其自身配置的模型,而不是聊天会话的模型。

聊天中的模型选择器会在悬停菜单中显示成本详情,包括每种 Token 类型的成本以及通用的成本等级标签(低、中、高)。利用这些信息做出明智的选择。

欲了解更多信息,请参阅选择和配置语言模型以及模型选择最佳实践

先规划,后执行

如果方法错误,直接开始生成代码可能会浪费精力。这还需要模型在整个过程中具备足够的推理能力,从而消耗更多额度。建议将规划阶段和实施阶段分开。这样你可以在规划阶段使用推理模型,一旦方案确定,再切换到更快速、更高效的模型进行实施。

  1. 使用 规划智能体 (Plan agent) 来研究任务并创建结构化的实施方案。
  2. 在智能体编写任何代码之前,先审查并优化方案。
  3. 将审批后的方案交给实施智能体,并使用更快的模型执行该方案。

这种工作流程确保了智能体在开始生成代码之前了解需求,从而减少了反复沟通和返工。

欲了解更多信息,请参阅先规划,后执行

使用默认的思维强度设置

思维强度 (Thinking effort) 控制模型对每个请求进行推理的程度。较高的强度级别会产生更多的思维 Token,从而增加延迟和额度消耗。VS Code 根据评估设定了默认强度,并启用了自适应推理,模型会根据每个请求的复杂度动态决定思考深度。

对于大多数任务,默认设置已足够。只有在处理架构规划或多步调试等确实复杂的问题时,才需要提高思维强度。

欲了解更多信息,请参阅配置思维强度

为新任务开启新对话

随着对话的深入,它会积累来自先前消息、工具输出和文件内容的上下文。当你换到同一个会话中的无关任务时,模型仍然会处理所有这些不相关的历史记录,这会在不改善结果的情况下消耗 Token。

切换主题时,开启一个新聊天会话⌘N(Windows/Linux 为 Ctrl+N)。这为模型提供了一个聚焦于当前任务的干净上下文窗口。

利用分支(Fork)功能

当你想要探索其他方案或提出旁敲侧击的问题时,可以分支 (Fork) 该对话,而不是从头开始提示。分支会创建一个继承现有对话历史的新会话,因此你无需重新建立上下文。

  • 在聊天输入框中输入 /fork,即可将当前消息之前的所有会话进行分支。
  • 将鼠标悬停在之前的消息上并选择分支对话 (Fork Conversation),可以从特定的检查点开始分支。

禁用不必要的工具和 MCP 服务器

每次工具调用产生的输出都会占用上下文窗口的空间并增加额度消耗。禁用当前任务不需要的工具,以防止不必要的调用。

  • 使用聊天输入框中的配置工具 (Configure Tools) 按钮,为当前请求启用或禁用单个工具或整个 MCP 服务器。
  • 自定义智能体中,通过 tools 属性仅指定智能体需要的工具。这可以防止智能体调用与其工作流程无关的工具。

欲了解更多信息,请参阅控制可用工具

将文件从 Copilot 上下文中排除

大型生成文件、构建输出或无关目录可能会被包含在 AI 上下文中,在没有增加价值的情况下增加了 Token 使用量。排除这些文件以减少不必要的上下文。

  • 使用 .gitignore 文件从工作区索引中排除文件。工作区索引会遵循 .gitignore 规则。
  • 使用 files.exclude 在 VS Code 中打开 在 VS Code Insiders 中打开 设置,将文件完全从 VS Code 中隐藏,这也会将它们从索引中排除。

欲了解更多信息,请参阅工作区上下文

通过压缩管理上下文

当对话变长时,使用 /compact 来总结对话的较旧部分,并回收上下文窗口空间。你可以选择添加指令来引导总结,例如 /compact focus on the API design decisions(专注于 API 设计决策)。

欲了解更多信息,请参阅上下文压缩

监控你的使用情况

你可以通过 VS Code 状态栏中的 Copilot 状态仪表板查看当前的 Copilot 使用情况。仪表板显示了你已使用的每月 AI 额度百分比(以及 Copilot Free 计划的内联建议使用量)。

访问 GitHub Copilot 文档,了解关于监控使用量和权限的更多信息。

你也可以在任何聊天会话中运行 /chronicle:cost-tips 命令,根据你最近的活动获得优化 AI 额度使用的个性化建议。了解更多关于会话见解和 chronicle 命令的信息。

检查 Token 使用量和缓存情况

使用智能体调试日志 (Agent Debug Logs) 来了解会话中哪些内容在消耗额度。

  • 摘要视图 (Summary view) 显示会话的 Token 使用总量,包括工具调用的总次数和整体持续时间。
  • 缓存浏览器视图 (Cache Explorer view) 显示 Prompt 缓存命中率以及重用了多少输入 Token。Prompt 缓存允许模型提供程序重用与先前请求匹配的请求前缀,从而减少延迟和 Token 成本。

查看这些日志可以帮助你识别消耗超出预期的会话或工作流程,以便你调整方法。

© . This site is unofficial and not affiliated with Microsoft.