微调模型
微调 AI 模型是一种常见的做法,允许您使用自定义数据集在配备 GPU 的计算环境中对预训练模型执行微调作业。AI Toolkit 目前支持在带有 GPU 的本地机器上,或在带有 GPU 的云端(Azure Container App)中对 SLM(小型语言模型)进行微调。
微调后的模型可以下载到本地并使用 GPU 进行推理测试,或者进行量化以在本地 CPU 上运行。微调后的模型也可以作为远程模型部署到云环境中。
使用 VS Code 的 AI Toolkit 在 Azure 上微调 AI 模型(预览版)
VS Code 的 AI Toolkit 现已支持配置 Azure Container App,用于运行模型微调并在云端托管推理端点。
设置您的云环境
-
若要在远程 Azure Container Apps 环境中运行模型微调和推理,请确保您的订阅具有足够的 GPU 容量。请提交支持工单以请求您的应用程序所需的容量。了解有关 GPU 容量的更多信息
-
如果您正在使用 HuggingFace 上的私有数据集,或者您的基础模型需要访问控制,请确保您拥有一个 HuggingFace 账户并生成访问令牌。
-
如果您要微调 Mistral 或 Llama 模型,请在 HuggingFace 上接受相应的许可协议(LICENSE)。
-
在 VS Code 的 AI Toolkit 中启用“远程微调和推理”功能标志
- 通过选择 File(文件) -> Preferences(首选项) -> Settings(设置) 打开 VS Code 设置。
- 导航至 Extensions(扩展) 并选择 AI Toolkit。
- 选中 "Enable to run fine-tuning and inference on Azure Container Apps"(启用在 Azure Container Apps 上运行微调和推理) 选项。

- 重新加载 VS Code 以使更改生效。
构建微调项目
- 在命令面板(⇧⌘P (Windows, Linux Ctrl+Shift+P))中运行
AI Toolkit: Focus on Tools View - 导航至
Fine-tuning以访问模型目录。选择一个用于微调的模型。为您的项目命名并选择其在计算机上的位置。然后,点击 "Configure Project"(配置项目) 按钮。
- 项目配置
- 避免启用 "Fine-tune locally"(本地微调) 选项。
- Olive 配置设置将显示预设的默认值。请根据需要调整并填写这些配置。
- 继续执行 Generate Project(生成项目)。此阶段利用 WSL 并涉及设置新的 Conda 环境,为未来包含 Dev Containers 的更新做准备。

- 选择 "Relaunch Window In Workspace"(在工作区中重新启动窗口) 以打开您的微调项目。

目前,项目可以在 VS Code 的 AI Toolkit 中本地或远程运行。如果您在创建项目期间选择 "Fine-tune locally"(本地微调),它将仅在 WSL 中运行,不使用云资源。否则,该项目将被限制在远程 Azure Container App 环境中运行。
配置 Azure 资源
首先,您需要配置用于远程微调的 Azure 资源。在命令面板中查找并执行 AI Toolkit: Provision Azure Container Apps job for fine-tuning。在此过程中,系统会提示您选择 Azure 订阅和资源组。

通过输出通道中显示的链接监控配置进度。
运行微调
要启动远程微调作业,请在命令面板中运行 AI Toolkit: Run fine-tuning 命令。

扩展随后会执行以下操作:
-
将您的工作区与 Azure Files 同步。
-
使用
./infra/fintuning.config.json中指定的命令触发 Azure Container App 作业。
将使用 QLoRA 进行微调,微调过程会创建 LoRA 适配器,供模型在推理期间使用。
微调的结果将存储在 Azure Files 中。要浏览 Azure 文件共享中的输出文件,您可以点击输出面板中提供的链接导航至 Azure 门户。或者,您可以直接访问 Azure 门户并找到 ./infra/fintuning.config.json 中定义的 STORAGE_ACCOUNT_NAME 存储账户以及 FILE_SHARE_NAME 文件共享。

查看日志
微调作业启动后,您可以访问 Azure 门户以查看系统日志和控制台日志。
或者,您也可以直接在 VSCode 输出面板中查看控制台日志。

作业可能需要几分钟才能启动。如果已有正在运行的作业,当前的作业可能会排队等待稍后开始。
在 Azure 上查看和查询日志
触发微调作业后,您可以通过选择 VSCode 通知中的“Open Logs in Azure Portal(在 Azure 门户中打开日志)”按钮来查看 Azure 上的日志。
或者,如果您已经打开了 Azure 门户,请在 Azure Container Apps 作业的“Execution history(执行历史记录)”面板中查找作业历史记录。

日志有两种类型:“Console(控制台)”和“System(系统)”。
- 控制台日志是来自您应用程序的消息,包括
stderr和stdout消息。这正是您在流式日志部分中已经看到的内容。 - 系统日志是来自 Azure Container Apps 服务的信息,包括服务级事件的状态。
要查看和查询日志,请选择“Console(控制台)”按钮并导航至 Log Analytics 页面,您可以在该页面查看所有日志并编写查询。

有关 Azure Container Apps 日志的更多信息,请参阅 Azure Container Apps 中的应用程序日志记录。
在 VSCode 中查看流式日志
启动微调作业后,您还可以通过选择 VSCode 通知中的“Show Streaming Logs in VS Code(在 VS Code 中显示流式日志)”按钮来查看 Azure 上的日志。
或者,您可以在命令面板中运行 AI Toolkit: Show the running fine-tuning job streaming logs 命令。

运行中微调作业的流式日志将显示在输出面板中。

由于资源不足,作业可能会排队。如果未显示日志,请稍等片刻,然后执行该命令以重新连接到流式日志。流式日志可能会超时并断开连接。但是,再次执行该命令即可重新连接。
使用微调后的模型进行推理
在远程环境中训练适配器后,使用简单的 Gradio 应用程序与模型进行交互。

配置 Azure 资源
与微调过程类似,您需要通过在命令面板中执行 AI Toolkit: Provision Azure Container Apps for inference 来设置用于远程推理的 Azure 资源。在此设置过程中,系统会要求您选择 Azure 订阅和资源组。

默认情况下,用于推理的订阅和资源组应与微调时使用的相同。推理将使用相同的 Azure Container App 环境,并访问微调步骤中生成的存储在 Azure Files 中的模型和模型适配器。
推理部署
如果您希望修改推理代码或重新加载推理模型,请执行 AI Toolkit: Deploy for inference 命令。这将使您的最新代码与 ACA 同步并重启副本。

部署成功完成后,模型即可使用此端点进行评估。您可以通过选择 VSCode 通知中显示的“Go to Inference Endpoint(转到推理端点)”按钮来访问推理 API。或者,Web API 端点可以在 ./infra/inference.config.json 中的 ACA_APP_ENDPOINT 下方以及输出面板中找到。

推理端点可能需要几分钟才能完全正常运行。
高级用法
微调项目组件
| 文件夹 | 内容 |
|---|---|
infra |
包含远程操作所需的所有配置。 |
infra/provision/finetuning.parameters.json |
存放用于 Bicep 模板的参数,用于配置 Azure 微调资源。 |
infra/provision/finetuning.bicep |
包含用于配置 Azure 微调资源的模板。 |
infra/finetuning.config.json |
由 AI Toolkit: Provision Azure Container Apps job for fine-tuning 命令生成的配置文件。它被用作其他远程命令面板的输入。 |
在 Azure Container Apps 中配置微调机密
Azure Container App 机密提供了一种安全的方法来存储和管理 Azure Container Apps 中的敏感数据,例如 HuggingFace 令牌和 Weights & Biases API 密钥。使用 AI Toolkit 的命令面板,您可以将机密输入到配置好的 Azure Container App 作业中(存储在 ./finetuning.config.json 中)。这些机密随后会被设置为所有容器中的环境变量。
步骤
-
在命令面板中,输入并选择
AI Toolkit: Add Azure Container Apps Job secret for fine-tuning
-
提供机密名称和值


例如,如果您正在使用私有 HuggingFace 数据集或需要 Hugging Face 访问控制的模型,请将您的 HuggingFace 令牌设置为环境变量
HF_TOKEN,以避免需要手动登录 Hugging Face Hub。
设置机密后,您现在就可以在 Azure Container App 中使用它。机密将被设置在容器应用的环境变量中。
配置 Azure 微调资源预配
本指南将帮助您配置 AI Toolkit: Provision Azure Container Apps job for fine-tuning 命令。
您可以在 ./infra/provision/finetuning.parameters.json 文件中找到配置参数。详情如下:
| 参数 | 描述 |
|---|---|
defaultCommands |
这是启动微调作业的默认命令。可以在 ./infra/finetuning.config.json 中覆盖它。 |
maximumInstanceCount |
此参数设置 GPU 实例的最大容量。 |
timeout |
这将设置 Azure Container App 微调作业的超时时间(以秒为单位)。默认值为 10800,即 3 小时。如果 Azure Container App 作业达到此超时时间,微调过程将停止。但是,默认情况下会保存检查点,允许微调过程从上一个检查点恢复,而不是在再次运行时从头开始。 |
location |
这是配置 Azure 资源的位置。默认值与所选资源组的位置相同。 |
storageAccountName, fileShareName, acaEnvironmentName, acaEnvironmentStorageName, acaJobName, acaLogAnalyticsName |
这些参数用于命名用于配置的 Azure 资源。您可以输入一个新的、未使用的资源名称来创建您自己的自定义命名资源,或者如果您更喜欢使用现有的 Azure 资源,也可以输入其名称。 |
使用现有的 Azure 资源
如果您有需要配置微调的现有 Azure 资源,可以在 ./infra/provision/finetuning.parameters.json 文件中指定它们的名称,然后从命令面板运行 AI Toolkit: Provision Azure Container Apps job for fine-tuning。这将更新您指定的资源并创建任何缺失的资源。
例如,如果您拥有现有的 Azure 容器环境,您的 ./infra/finetuning.parameters.json 应如下所示:
{
"$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentParameters.json#",
"contentVersion": "1.0.0.0",
"parameters": {
...
"acaEnvironmentName": {
"value": "<your-aca-env-name>"
},
"acaEnvironmentStorageName": {
"value": null
},
...
}
}
手动配置
如果您更喜欢手动设置 Azure 资源,可以使用 ./infra/provision 文件夹中提供的 Bicep 文件。如果您已经在没有使用 AI Toolkit 命令面板的情况下设置并配置了所有 Azure 资源,只需在 finetune.config.json 文件中输入资源名称即可。
例如
{
"SUBSCRIPTION_ID": "<your-subscription-id>",
"RESOURCE_GROUP_NAME": "<your-resource-group-name>",
"STORAGE_ACCOUNT_NAME": "<your-storage-account-name>",
"FILE_SHARE_NAME": "<your-file-share-name>",
"ACA_JOB_NAME": "<your-aca-job-name>",
"COMMANDS": [
"cd /mount",
"pip install huggingface-hub==0.22.2",
"huggingface-cli download <your-model-name> --local-dir ./model-cache/<your-model-name> --local-dir-use-symlinks False",
"pip install -r ./setup/requirements.txt",
"python3 ./finetuning/invoke_olive.py && find models/ -print | grep adapter/adapter"
]
}
模板中包含的推理组件
| 文件夹 | 内容 |
|---|---|
infra |
包含远程操作所需的所有配置。 |
infra/provision/inference.parameters.json |
存放用于 Bicep 模板的参数,用于配置 Azure 推理资源。 |
infra/provision/inference.bicep |
包含用于配置 Azure 推理资源的模板。 |
infra/inference.config.json |
由 AI Toolkit: Provision Azure Container Apps for inference 命令生成的配置文件。它被用作其他远程命令面板的输入。 |
配置 Azure 资源预配
本指南将帮助您配置 AI Toolkit: Provision Azure Container Apps for inference 命令。
您可以在 ./infra/provision/inference.parameters.json 文件中找到配置参数。详情如下:
| 参数 | 描述 |
|---|---|
defaultCommands |
这是启动 Web API 的命令。 |
maximumInstanceCount |
此参数设置 GPU 实例的最大容量。 |
location |
这是配置 Azure 资源的位置。默认值与所选资源组的位置相同。 |
storageAccountName, fileShareName, acaEnvironmentName, acaEnvironmentStorageName, acaAppName, acaLogAnalyticsName |
这些参数用于命名用于配置的 Azure 资源。默认情况下,它们将与微调资源的名称相同。您可以输入一个新的、未使用的资源名称来创建您自己的自定义命名资源,或者如果您更喜欢使用现有的 Azure 资源,也可以输入其名称。 |
使用现有的 Azure 资源
默认情况下,推理配置使用与微调相同的 Azure Container App 环境、存储账户、Azure 文件共享和 Azure Log Analytics。系统会专门为推理 API 创建一个单独的 Azure Container App。
如果您在微调步骤中自定义了 Azure 资源,或者想为推理使用您现有的 Azure 资源,请在 ./infra/inference.parameters.json 文件中指定它们的名称。然后,从命令面板运行 AI Toolkit: Provision Azure Container Apps for inference 命令。这将更新任何指定的资源并创建缺失的资源。
例如,如果您拥有现有的 Azure 容器环境,您的 ./infra/finetuning.parameters.json 应如下所示:
{
"$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentParameters.json#",
"contentVersion": "1.0.0.0",
"parameters": {
...
"acaEnvironmentName": {
"value": "<your-aca-env-name>"
},
"acaEnvironmentStorageName": {
"value": null
},
...
}
}
手动配置
如果您更喜欢手动配置 Azure 资源,可以使用 ./infra/provision 文件夹中提供的 Bicep 文件。如果您已经在没有使用 AI Toolkit 命令面板的情况下设置并配置了所有 Azure 资源,只需在 inference.config.json 文件中输入资源名称即可。
例如
{
"SUBSCRIPTION_ID": "<your-subscription-id>",
"RESOURCE_GROUP_NAME": "<your-resource-group-name>",
"STORAGE_ACCOUNT_NAME": "<your-storage-account-name>",
"FILE_SHARE_NAME": "<your-file-share-name>",
"ACA_APP_NAME": "<your-aca-name>",
"ACA_APP_ENDPOINT": "<your-aca-endpoint>"
}
您学到了什么
在本文中,您学习了如何
- 设置 VS Code 的 AI Toolkit 以支持在 Azure Container Apps 中进行微调和推理。
- 在 VS Code 的 AI Toolkit 中创建微调项目。
- 配置微调工作流程,包括数据集选择和训练参数。
- 运行微调工作流程,使预训练模型适应您的特定数据集。
- 查看微调过程的结果,包括指标和日志。
- 使用示例笔记本进行模型推理和测试。
- 导出微调项目并与他人分享。
- 使用不同的数据集或训练参数重新评估模型。
- 处理失败的作业并调整配置以进行重新运行。
- 了解支持的模型及其微调要求。
- 使用 VS Code 的 AI Toolkit 管理微调项目,包括配置 Azure 资源、运行微调作业以及部署模型进行推理。