第1章 大模型原理與技術(shù)概要
1.1 圖解大模型結(jié)構(gòu)
1.1.1 大語言模型(LLM)結(jié)構(gòu)全景圖
1.1.2 輸入層:分詞、Token映射與向量生成
1.1.3 輸出層:Logits、概率分布與解碼
1.1.4 多模態(tài)語言模型(MLLM、VLM)
1.2 大模型訓(xùn)練全景圖
1.3 Scaling Law(性能的四大擴(kuò)展規(guī)律)
第2章 SFT(監(jiān)督微調(diào))
2.1 多種微調(diào)技術(shù)圖解
2.1.1 全參數(shù)微調(diào)、部分參數(shù)微調(diào)
2.1.2 LoRA(低秩適配微調(diào))四兩撥千斤
2.1.3 LoRA衍生:QLoRA、AdaLoRA、PiSSA等
2.1.4 基于提示的微調(diào):Prefix-Tuning等
2.1.5 Adapter Tuning
2.1.6 微調(diào)技術(shù)對比
2.1.7 如何選擇微調(diào)技術(shù)
2.2 SFT原理深入解析
2.2.1 SFT數(shù)據(jù)與ChatML格式化
2.2.2 Logits與Token概率計算
2.2.3 SFT的Label
2.2.4 SFT的Loss圖解
2.2.5 對數(shù)概率(LogProbs)與LogSoftmax
2.3 指令收集和處理
2.3.1 收集指令的渠道和方法
2.3.2 清洗指令的四要素
2.3.3 數(shù)據(jù)預(yù)處理及常用工具
2.4 SFT實(shí)踐指南
2.4.1 如何緩解SFT引入的幻覺?
2.4.2 Token級Batch Size的換算
2.4.3 Batch Size與學(xué)習(xí)率的Scaling Law
2.4.4 SFT的七個技巧
第3章 DPO(直接偏好優(yōu)化)
3.1 DPO的核心思想
3.1.1 DPO的提出背景與意義
3.1.2 隱式的獎勵模型
3.1.3 Loss和優(yōu)化目標(biāo)
3.2 偏好數(shù)據(jù)集的構(gòu)建
3.2.1 構(gòu)建流程總覽
3.2.2 Prompt的收集
3.2.3 問答數(shù)據(jù)對的清洗
3.2.4 封裝和預(yù)處理
3.3 圖解DPO的實(shí)現(xiàn)與訓(xùn)練
3.3.1 模型的初始化
3.3.2 DPO訓(xùn)練全景圖
3.3.3 DPO核心代碼的提煉和解讀
3.4 DPO實(shí)踐經(jīng)驗(yàn)
3.4.1 參數(shù)如何調(diào)節(jié)
3.4.2 DPO對模型能力的多維度影響
3.5 DPO進(jìn)階
3.5.1 DPO和RLHF(PPO)的對比
3.5.2 理解DPO的梯度
第4章 免訓(xùn)練的效果優(yōu)化技術(shù)
4.1 提示工程
4.1.1 Zero-Shot、One-Shot、Few-Shot
4.1.2 Prompt設(shè)計的原則
4.2 CoT(思維鏈)
4.2.1 CoT原理圖解
4.2.2 ToT、GoT、XoT等衍生方法
4.2.3 CoT的應(yīng)用技巧
4.2.4 CoT在多模態(tài)領(lǐng)域的應(yīng)用
4.3 生成控制和解碼策略
4.3.1 解碼的原理與分類
4.3.2 貪婪搜索
4.3.3 Beam Search(波束搜索):圖解、衍生
4.3.4 Top-K、Top-P等采樣方法圖解
4.3.5 其他解碼策略
4.3.6 多種生成控制參數(shù)
4.4 RAG(檢索增強(qiáng)生成)
4.4.1 RAG技術(shù)全景圖
4.4.2 RAG相關(guān)框架
4.5 功能與工具調(diào)用(Function Calling)
4.5.1 功能調(diào)用全景圖
4.5.2 功能調(diào)用的分類
第5章 強(qiáng)化學(xué)習(xí)基礎(chǔ)
5.1 強(qiáng)化學(xué)習(xí)核心
5.1.1 強(qiáng)化學(xué)習(xí):定義與區(qū)分
5.1.2 強(qiáng)化學(xué)習(xí)的基礎(chǔ)架構(gòu)、核心概念
5.1.3 馬爾可夫決策過程(MDP)
5.1.4 探索與利用、ε-貪婪策略
5.1.5 On-policy和Off-policy
5.1.6 在線/離線強(qiáng)化學(xué)習(xí)(Online/Offline RL)
5.1.7 強(qiáng)化學(xué)習(xí)分類圖
5.2 價值函數(shù)、回報預(yù)估
5.2.1 獎勵、回報、折扣因子(R、G、)
5.2.2 反向計算回報
5.2.3 四種價值函數(shù):Q、V、V*、Q*
5.2.4 獎勵、回報、價值的區(qū)別
5.2.5 貝爾曼方程強(qiáng)化學(xué)習(xí)的基石
5.2.6 Q和V的轉(zhuǎn)換關(guān)系、轉(zhuǎn)換圖
5.2.7 蒙特卡洛方法(MC)
5.3 時序差分(TD)
5.3.1 時序差分方法
5.3.2 TD-Target和TD-Error
5.3.3 TD(λ)、多步TD
5.3.4 蒙特卡洛、TD、DP、窮舉搜索的區(qū)別
5.4 基于價值的算法
5.4.1 Q-learning算法
5.4.2 DQN
5.4.3 DQN的Loss、訓(xùn)練過程
5.4.4 DDQN、Dueling DQN等衍生算法
5.5 策略梯度算法
5.5.1 策略梯度(Policy Gradient)
5.5.2 策略梯度定理
5.5.3 REINFORCE和Actor-Critic
5.6 多智能體強(qiáng)化學(xué)習(xí)(MARL)
5.6.1 MARL的原理與架構(gòu)
5.6.2 MARL的建模
5.6.3 MARL的典型算法
5.7 模仿學(xué)習(xí)(IL)
5.7.1 模仿學(xué)習(xí)的定義、分類
5.7.2 行為克。˙C)
5.7.3 逆向強(qiáng)化學(xué)習(xí)(IRL)
5.7.4 生成對抗模仿學(xué)習(xí)(GAIL)
5.8 強(qiáng)化學(xué)習(xí)高級拓展
5.8.1 基于環(huán)境模型(Model-Based)的方法
5.8.2 分層強(qiáng)化學(xué)習(xí)(HRL)
5.8.3 分布價值強(qiáng)化學(xué)習(xí)(Distributional RL)
第6章 策略優(yōu)化算法
6.1 Actor-Critic(演員-評委)架構(gòu)
6.1.1 從策略梯度到Actor-Critic
6.1.2 Actor-Critic架構(gòu)圖解
6.2 優(yōu)勢函數(shù)與A2C
6.2.1 優(yōu)勢函數(shù)(Advantage)
6.2.2 A2C、A3C、SAC算法
6.2.3 GAE(廣義優(yōu)勢估計)算法
6.2.4 和λ的調(diào)節(jié)作用
6.3 PPO及其相關(guān)算法
6.3.1 PPO算法的演進(jìn)
6.3.2 TRPO(置信域策略優(yōu)化)
6.3.3 重要性采樣(Importance Sampling)
6.3.4 PPO-Penalty
6.3.5 PPO-Clip
6.3.6 PPO的Loss的擴(kuò)展
6.3.7 TRPO與PPO的區(qū)別
6.3.8 圖解策略模型的訓(xùn)練
6.3.9 深入解析PPO的本質(zhì)
6.4 GRPO算法
6.4.1 GRPO的原理
6.4.2 GRPO與PPO的區(qū)別
6.5 確定性策略梯度(DPG)
6.5.1 確定性策略vs隨機(jī)性策略
6.5.2 DPG、DDPG、TD3算法
第7章 RLHF與RLAIF
7.1 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))概要
7.1.1 RLHF的背景、發(fā)展
7.1.2 語言模型的強(qiáng)化學(xué)習(xí)建模
7.1.3 RLHF的訓(xùn)練樣本、總流程
7.2 階段一:圖解獎勵模型的設(shè)計與訓(xùn)練
7.2.1 獎勵模型(Reward Model)的結(jié)構(gòu)
7.2.2 獎勵模型的輸入與獎勵分?jǐn)?shù)
7.2.3 獎勵模型的Loss解析
7.2.4 獎勵模型訓(xùn)練全景圖
7.2.5 獎勵模型的Scaling Law
7.3 階段二:多模型聯(lián)動的PPO訓(xùn)練
7.3.1 四種模型的角色圖解
7.3.2 各模型的結(jié)構(gòu)、初始化、實(shí)踐技巧
7.3.3 各模型的輸入、輸出
7.3.4 基于KL散度的策略約束
7.3.5 基于PPO的RLHF核心實(shí)現(xiàn)
7.3.6 全景圖:基于PPO的訓(xùn)練
7.4 RLHF實(shí)踐技巧
7.4.1 獎勵欺騙(Reward Hacking)
7.4.2 拒絕采樣(Rejection Sampling)微調(diào)
7.4.3 強(qiáng)化學(xué)習(xí)與RLHF的訓(xùn)練框架
7.4.4 RLHF的超參數(shù)
7.4.5 RLHF的關(guān)鍵監(jiān)控指標(biāo)
7.5 基于AI反饋的強(qiáng)化學(xué)習(xí)
7.5.1 RLAIF的原理圖解
7.5.2 CAI:基于憲法的強(qiáng)化學(xué)習(xí)
7.5.3 RBR:基于規(guī)則的獎勵
第8章 邏輯推理能力優(yōu)化
8.1 邏輯推理(Reasoning)相關(guān)技術(shù)概覽
8.1.1 推理時計算與搜索
8.1.2 基于CoT的蒸餾
8.1.3 過程獎勵模型與結(jié)果獎勵模型(PRM/ORM)
8.1.4 數(shù)據(jù)合成
8.2 推理路徑搜索與優(yōu)化
8.2.1 MCTS(蒙特卡洛樹搜索)
8.2.2 A*搜索
8.2.3 BoN采樣與蒸餾
8.2.4 其他搜索方法
8.3 強(qiáng)化學(xué)習(xí)訓(xùn)練
8.3.1 強(qiáng)化學(xué)習(xí)的多種應(yīng)用
8.3.2 自博弈(Self-Play)與自我進(jìn)化
8.3.3 強(qiáng)化學(xué)習(xí)的多維創(chuàng)新
第9章 綜合實(shí)踐與性能優(yōu)化
9.1 實(shí)踐全景圖
9.2 訓(xùn)練與部署
9.2.1 數(shù)據(jù)與環(huán)境準(zhǔn)備
9.2.2 超參數(shù)如何設(shè)置
9.2.3 SFT訓(xùn)練
9.2.4 對齊訓(xùn)練:DPO訓(xùn)練、RLHF訓(xùn)練
9.2.5 推理與部署
9.3 DeepSeek的訓(xùn)練與本地部署
9.3.1 DeepSeek的蒸餾與GRPO訓(xùn)練
9.3.2 DeepSeek的本地部署與使用
9.4 效果評估
9.4.1 評估方法分類
9.4.2 LLM與VLM的評測框架
9.5 大模型性能優(yōu)化技術(shù)圖譜