导图社区大模型微调与对齐技术（SFT DPO RLHF LoRA）

大模型微调与对齐技术（SFT DPO RLHF LoRA）

大模型微调与对齐技术（SFT DPO RLHF LoRA），涵盖核心目标、参数高效微调技术（PEFT）、微调与对齐方法、方法对比、LLaMA Factory实战要点、应用场景建议以及面试/简历关键词等方面，适合用于技术研究、项目实践以及求职准备等场景。

编辑于2025-10-12 18:18:26

lora
SFT
DPO
RLHF
大模型微调与对齐技术

0vo

他的近期作品查看更多>>

大模型微调与对齐技术（SFT DPO RLHF LoRA）

社区模板帮助中心，点此进入>>

0vo

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 34.4k
- 932
- 2.4k
- 395
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 14.8k
- 3
- 185
- 9
Kacyun
域控上线
- 1.6k
- 163
- 11
- 4
jackrao
python思维导图
- 5.4k
- 534
- 242
- 7
(*^▽^*)
css
- 1.2k
- 1
- 43
- 3
A张舫
CSS
- 3.3k
- 262
- 188
- 33
journey
计算机操作系统思维导图
- 4.3k
- 340
- 204
- 18
journey
计算机组成原理
- 1.5k
- 98
- 70
- 8
journey
IMX6UL(A7)
- 521
- 41
- 5
- 0
Handler XU
考试学情分析系统
- 696
- 51
- 10
- 1
蒋龙

大模型微调与对齐技术（SFT / DPO / RLHF / LoRA）

核心目标

提升模型在特定任务上的表现

使模型输出更符合人类偏好（对齐 Alignment）

降低训练成本（显存/算力）

参数高效微调技术（PEFT）

LoRA（Low-Rank Adaptation）

冻结原始权重

在 Attention 层插入低秩矩阵 A×B

只训练 A、B

可插拔、多任务切换

QLoRA（Quantized LoRA）

4-bit 量化（bitsandbytes）

+ LoRA 微调

7B 模型可在 24G GPU 运行

关键参数

lora_rank`（8~64）

lora_alpha`（通常 = 2×rank）

lora_dropout`（0.05~0.1）

quantization_bit=4`（QLoRA）

微调与对齐方法

SFT（监督微调）

数据：instruction + output（Alpaca 格式）

目标：最小化交叉熵损失

作用：基础能力提升，RLHF/DPO 的前置步骤

优点：简单、稳定

LLaMA Factory：`--stage sft

DPO（直接偏好优化）

数据：prompt + chosen + rejected

无需 RM，无需 RL

损失函数：基于策略比值 + KL 约束

参考模型：通常为 SFT 模型（冻结）

优点：训练稳定、效果好、实现简单

LLaMA Factory：`--stage dpo reference_model ...

RLHF（人类反馈强化学习）

阶段 1：SFT

同上

阶段 2：奖励模型（RM）

输入：(prompt, chosen, rejected

输出：打分函数 RM(x, y

通常冻结主干，只训打分头

阶段 3：PPO 微调

优化目标：max ERM(x, y) - β·KL(π π_SFT

需要 prompt-only 数据

使用 PPO 算法（策略梯度）

缺点：复杂、不稳定、高成本

LLaMA Factory 支持三阶段：

stage sft

stage rm

stage ppo

方法对比

维度 SFT DPO RLHF

数据格式 (instr, out) (p, c, r) (p, c, r) + prompts

是否需 RM ❌ ❌ ✅

是否用 RL ❌ ❌ ✅

显存需求低中高

训练稳定性 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐

推荐度（个人开发者） ✅✅✅ ✅✅✅✅ ✅

LLaMA Factory 实战要点

支持模型：Llama、Qwen、Baichuan、ChatGLM 等

数据格式自动解析（Alpaca / ShareGPT / DPO）

支持 WebUI 推理测试

可导出合并模型或仅保存 adapter

应用场景建议

客服/医疗/法律问答：SFT + DPO

低资源微调：QLoRA + DPO

学术研究/大厂高对齐：RLHF（可选）

多任务适配：LoRA + adapter 切换

面试/简历关键词

“基于 LLaMA Factory 实现 SFT + DPO 两阶段微调”

“使用 QLoRA 在单卡 24G GPU 上微调 7B 模型”

“构建领域偏好数据集，通过 DPO 提升模型对齐效果”

“对比 DPO 与 RLHF 在相同任务下的收敛速度与效果”