Introduction
<aside>
💡 微调调整模型的权重以适应特定的任务。
- 微调不一定是调整模型参数。还可以调整输入(x)使x 更符合 w。即 prompt。
- Prompt Tuning 是通过重塑下游任务使之迁就 LM。
- Fine-tune 范式是通过设计不同的目标函数,使得 LM 去迁就下游任务。
</aside>
微调就是把已经训练好的模型(pretrained model)拿来,给它吃特定的下游任务数据,使得模型在预训练权重上继续训练,直至满足下游任务性能标准。预训练模型就像一个特征提取器,能够基于先前训练数据中学到的经验,为我们提取有效的特征,大大提升下游任务的训练效果和收敛速度。
Why
- 预训练成本高(65B 需要780GB 显存)
- 提示工程有天花板(token 上限与推理成本)
- 基础模型缺少特定领域数据
- 数据安全和隐私
- 个性化服务需要私有化的微调大模型
技术栈

全量微调(Full Fine-Tune, FFT)
全量微调是一种传统的微调方法,涉及对预训练模型的所有参数进行微调,以适应新的任务或数据集。
全量微调问题: