导图社区 大模型微调与对齐技术(SFT DPO RLHF LoRA)
大模型微调与对齐技术(SFT DPO RLHF LoRA),涵盖核心目标、参数高效微调技术(PEFT)、微调与对齐方法、方法对比、LLaMA Factory实战要点、应用场景建议以及面试/简历关键词等方面,适合用于技术研究、项目实践以及求职准备等场景。
23种经典设计模式,按照创建型、结构型、行为型、创建型、结构型几大类进行了系统梳理,每种模式都有具体内容关联,有助于读者快速掌握设计模式。
随机过程在数学、科学和工程中有着越来越广泛的应用。本书包括随机过程一些基本而又重要的内容:条件期望,Markov链,Poisson过程和Brown运动;同时也包括Ito积分和随机微分方程等应用范围越来越广的内容。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
大模型微调与对齐技术(SFT / DPO / RLHF / LoRA)
核心目标
提升模型在特定任务上的表现
使模型输出更符合人类偏好(对齐 Alignment)
降低训练成本(显存/算力)
参数高效微调技术(PEFT)
LoRA(Low-Rank Adaptation)
冻结原始权重
在 Attention 层插入低秩矩阵 A×B
只训练 A、B
可插拔、多任务切换
QLoRA(Quantized LoRA)
4-bit 量化(bitsandbytes)
+ LoRA 微调
7B 模型可在 24G GPU 运行
关键参数
lora_rank`(8~64)
lora_alpha`(通常 = 2×rank)
lora_dropout`(0.05~0.1)
quantization_bit=4`(QLoRA)
微调与对齐方法
SFT(监督微调)
数据:instruction + output(Alpaca 格式)
目标:最小化交叉熵损失
作用:基础能力提升,RLHF/DPO 的前置步骤
优点:简单、稳定
LLaMA Factory:`--stage sft
DPO(直接偏好优化)
数据:prompt + chosen + rejected
无需 RM,无需 RL
损失函数:基于策略比值 + KL 约束
参考模型:通常为 SFT 模型(冻结)
优点:训练稳定、效果好、实现简单
LLaMA Factory:`--stage dpo reference_model ...
RLHF(人类反馈强化学习)
阶段 1:SFT
同上
阶段 2:奖励模型(RM)
输入:(prompt, chosen, rejected
输出:打分函数 RM(x, y
通常冻结主干,只训打分头
阶段 3:PPO 微调
优化目标:max ERM(x, y) - β·KL(π π_SFT
需要 prompt-only 数据
使用 PPO 算法(策略梯度)
缺点:复杂、不稳定、高成本
LLaMA Factory 支持三阶段:
stage sft
stage rm
stage ppo
方法对比
维度 SFT DPO RLHF
数据格式 (instr, out) (p, c, r) (p, c, r) + prompts
是否需 RM ❌ ❌ ✅
是否用 RL ❌ ❌ ✅
显存需求 低 中 高
训练稳定性 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐
推荐度(个人开发者) ✅✅✅ ✅✅✅✅ ✅
LLaMA Factory 实战要点
支持模型:Llama、Qwen、Baichuan、ChatGLM 等
数据格式自动解析(Alpaca / ShareGPT / DPO)
支持 WebUI 推理测试
可导出合并模型或仅保存 adapter
应用场景建议
客服/医疗/法律问答:SFT + DPO
低资源微调:QLoRA + DPO
学术研究/大厂高对齐:RLHF(可选)
多任务适配:LoRA + adapter 切换
面试/简历关键词
“基于 LLaMA Factory 实现 SFT + DPO 两阶段微调”
“使用 QLoRA 在单卡 24G GPU 上微调 7B 模型”
“构建领域偏好数据集,通过 DPO 提升模型对齐效果”
“对比 DPO 与 RLHF 在相同任务下的收敛速度与效果”