人工智能大模型:動手訓(xùn)練大模型基礎(chǔ)
定 價:139 元
當(dāng)前圖書已被 1 所學(xué)校薦購過!
查看明細(xì)
- 作者:邵可佳 著
- 出版時間:2025/6/1
- ISBN:9787301311639
- 出 版 社:北京大學(xué)出版社
- 中圖法分類:TP18
- 頁碼:364
- 紙張:
- 版次:1
- 開本:16開
在人工智能蓬勃發(fā)展的當(dāng)下,大模型技術(shù)正引領(lǐng)著新一輪的技術(shù)變革。本書以Python語言為主要工具,采用理論與實踐相結(jié)合的方式,全面、深入地闡述了人工智能大模型的構(gòu)建與應(yīng)用,旨在幫助讀者系統(tǒng)理解大模型的技術(shù)原理,掌握其核心訓(xùn)練方法,從而在人工智能領(lǐng)域建立系統(tǒng)的技術(shù)認(rèn)知體系。
全書分為五個部分:第一部分從大模型的技術(shù)演進(jìn)歷程講起,重點(diǎn)剖析Python語言在大模型開發(fā)中的核心作用;第二部分圍繞模型架構(gòu)設(shè)計、訓(xùn)練優(yōu)化算法及分布式訓(xùn)練策略展開;第三部分深度解讀Transformer等主流架構(gòu)及其變體的實現(xiàn)原理;第四部分涵蓋超參數(shù)調(diào)優(yōu)、正則化技術(shù)、模型評估指標(biāo)與優(yōu)化策略;第五部分提供了大模型在自然語言處理、計算機(jī)視覺、語音識別等領(lǐng)域的高級應(yīng)用案例。
本書兼具通俗性與專業(yè)性,案例豐富且實操性強(qiáng),既可作為人工智能初學(xué)者的系統(tǒng)入門指南,也可滿足進(jìn)階學(xué)習(xí)者的技術(shù)提升需求。對研究人員與工程師而言,本書更是一部極具參考價值的技術(shù)手冊。此外,本書還適合作為高;蚺嘤(xùn)機(jī)構(gòu)的人工智能課程教材,助力人工智能專業(yè)人才培養(yǎng)。
邵可佳
美國北亞利桑那大學(xué)數(shù)據(jù)分析碩士,擁有十多年算法研發(fā)與工業(yè)落地經(jīng)驗,深耕機(jī)器人、人工智能、智能家居、金融風(fēng)控、電商推薦、O2O智能調(diào)度等領(lǐng)域,具備跨行業(yè)的規(guī)模化算法實現(xiàn)能力。歷任金融算法工程師、河貍家算法專家、墨跡天氣資深算法架構(gòu)師,F(xiàn)任雨根科技大數(shù)據(jù)事業(yè)部技術(shù)負(fù)責(zé)人,主持碳通量時空大模型的研發(fā)與工程化落地。
目 錄
第一部分 大模型與Python開發(fā)基礎(chǔ)
第1章 大模型的理論發(fā)展
1.1 大模型的計算理論
1.1.1 大模型的發(fā)展歷程
1.1.2 未來展望
1.2 大規(guī)模數(shù)據(jù)的表示與處理
1.2.1 大規(guī)模數(shù)據(jù)的表示
1.2.2 大規(guī)模數(shù)據(jù)的處理
1.3 大模型的算法創(chuàng)新
1.3.1 注意力機(jī)制與自注意力網(wǎng)絡(luò)
1.3.2 動態(tài)路由與膠囊網(wǎng)絡(luò)
1.3.3 記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)
1.3.4 生成對抗網(wǎng)絡(luò)與無監(jiān)督學(xué)習(xí)
1.3.5 稀疏性與可解釋性算法
1.4 大模型的發(fā)展趨勢
1.4.1 更大規(guī)模與更深層次的模型架構(gòu)
1.4.2 跨模態(tài)學(xué)習(xí)與融合
1.4.3 可解釋性與魯棒性增強(qiáng)
1.4.4 個性化與定制化服務(wù)
1.4.5 持續(xù)學(xué)習(xí)與自適應(yīng)能力
1.4.6 綠色計算與可持續(xù)性
1.5 本章小結(jié)
第2章 大模型的Python開發(fā)環(huán)境
2.1 Python語言視角下大模型的開發(fā)生態(tài)
2.1.1 數(shù)據(jù)處理與分析
2.1.2 模型構(gòu)建與訓(xùn)練
2.1.3 可視化與調(diào)試
2.1.4 部署與集成
2.1.5 社區(qū)與資源
2.2 Python開發(fā)環(huán)境搭建
2.2.1 安裝Miniconda
2.2.2 創(chuàng)建并激活新的Conda環(huán)境
2.2.3 安裝必要的庫
2.2.4 配置IDE或代碼編輯器
2.2.5 測試環(huán)境
2.3 深度學(xué)習(xí)框架概覽:TensorFlow與PyTorch
2.3.1 TensorFlow
2.3.2 PyTorch
2.3.3 如何選擇
2.4 大模型微調(diào)技術(shù)簡介
2.4.1 微調(diào)技術(shù)的基本概念
2.4.2 微調(diào)技術(shù)的流程
2.4.3 微調(diào)技術(shù)的重要性
2.5 實例:使用Python語言進(jìn)行簡單的模型微調(diào)
2.5.1 準(zhǔn)備階段
2.5.2 數(shù)據(jù)加載與預(yù)處理
2.5.3 加載預(yù)訓(xùn)練模型
2.5.4 微調(diào)時的注意事項
2.5.5 評估與部署
2.5.6 要點(diǎn)回顧
2.6 本章小結(jié)
第二部分 大模型訓(xùn)練與加速
第3章 訓(xùn)練加速常用硬件
3.1 GPU架構(gòu)與編程模型
3.1.1 GPU架構(gòu)概述
3.1.2 GPU編程模型
3.1.3 CUDA核心概念
3.2 CUDA編程模型與GPU內(nèi)存管理
3.2.1 CUDA編程模型
3.2.2 GPU內(nèi)存管理
3.3 大模型訓(xùn)練中的GPU優(yōu)化
3.3.1 數(shù)據(jù)并行與模型并行
3.3.2 內(nèi)存優(yōu)化
3.3.3 計算優(yōu)化
3.3.4 GPU優(yōu)化總結(jié)
3.4 實例:使用CUDA加速大模型訓(xùn)練
3.4.1 實例背景
3.4.2 環(huán)境準(zhǔn)備
3.4.3 模型定義和數(shù)據(jù)加載
3.4.4 模型訓(xùn)練
3.4.5 實例總結(jié)
3.5 本章小結(jié)
第4章 大模型訓(xùn)練的硬件加速
4.1 GPU加速技術(shù)的原理與實踐
4.1.1 GPU加速技術(shù)的原理
4.1.2 實例:使用GPU加速深度學(xué)習(xí)訓(xùn)練
4.2 cuDNN庫在深度學(xué)習(xí)中的應(yīng)用
4.2.1 cuDNN概述
4.2.2 cuDNN在深度學(xué)習(xí)框架中的集成
4.2.3 使用Python語言調(diào)用cuDNN示例
4.2.4 cuDNN帶來的性能優(yōu)勢
4.2.5 使用cuDNN的注意事項
4.3 cuBLAS庫與線性代數(shù)運(yùn)算加速
4.3.1 cuBLAS概述
4.3.2 cuBLAS在深度學(xué)習(xí)中的應(yīng)用
4.3.3 使用Python語言調(diào)用cuBLAS示例
4.3.4 cuBLAS性能優(yōu)勢
4.3.5 使用cuBLAS的注意事項
4.4 分布式GPU訓(xùn)練
4.4.1 基本原理
4.4.2 常用框架
4.4.3 實施策略
4.5 大模型的并行計算與內(nèi)存管理
4.5.1 大模型的并行計算策略
4.5.2 大模型的內(nèi)存管理技術(shù)
4.5.3 使用Python語言設(shè)置并行策略和內(nèi)存管理示例
4.6 實例:使用分布式GPU訓(xùn)練大模型
4.6.1 環(huán)境準(zhǔn)備
4.6.2 數(shù)據(jù)準(zhǔn)備
4.6.3 模型設(shè)計
4.6.4 模型訓(xùn)練
4.6.5 模型評估
4.7 本章小結(jié)
第5章 大模型的訓(xùn)練過程
5.1 模型訓(xùn)練流程簡介
5.1.1 數(shù)據(jù)準(zhǔn)備
5.1.2 模型定義
5.1.3 環(huán)境配置
5.1.4 訓(xùn)練配置
5.1.5 模型訓(xùn)練
5.1.6 驗證與測試
5.1.7 模型部署
5.2 訓(xùn)練前的準(zhǔn)備
5.2.1 數(shù)據(jù)集準(zhǔn)備
5.2.2 計算資源規(guī)劃
5.2.3 環(huán)境配置與依賴安裝
5.2.4 模型架構(gòu)設(shè)計與初始化
5.3 訓(xùn)練過程詳解
5.3.1 模型定義
5.3.2 迭代訓(xùn)練
5.3.3 前向傳播
5.3.4 損失計算
5.3.5 反向傳播
5.3.6 參數(shù)更新
5.3.7 驗證與調(diào)整
5.4 訓(xùn)練中的技術(shù)要點(diǎn)
5.4.1 數(shù)據(jù)預(yù)處理
5.4.2 模型優(yōu)化
5.4.3 計算資源管理
5.4.4 過擬合控制
5.4.5 模型監(jiān)控與調(diào)試
5.4.6 評估與部署
5.5 訓(xùn)練后的評估與優(yōu)化
5.5.1 評估方法
5.5.2 評估指標(biāo)選擇
5.5.3 評估結(jié)果分析
5.5.4 優(yōu)化策略
5.6 訓(xùn)練過程中的挑戰(zhàn)與應(yīng)對
5.6.1 數(shù)據(jù)挑戰(zhàn)與應(yīng)對
5.6.2 模型結(jié)構(gòu)挑戰(zhàn)與應(yīng)對
5.6.3 計算資源挑戰(zhàn)與應(yīng)對
5.6.4 時間成本挑戰(zhàn)與應(yīng)對
5.7 使用Python語言進(jìn)行模型訓(xùn)練的實踐
5.7.1 環(huán)境準(zhǔn)備
5.7.2 數(shù)據(jù)加載與預(yù)處理
5.7.3 模型結(jié)構(gòu)定義
5.7.4 訓(xùn)練準(zhǔn)備
5.7.5 訓(xùn)練循環(huán)
5.7.6 結(jié)束模型訓(xùn)練
5.7.7 模型評估與保存
5.8 本章小結(jié)
第三部分 大模型架構(gòu)的深度解析
第6章 大模型架構(gòu)與Python實現(xiàn)
6.1 Transformer模型原理與架構(gòu)
6.1.1 Transformer模型概述
6.1.2 Transformer模型架構(gòu)
6.1.3 自注意力機(jī)制
6.2 使用PyTorch實現(xiàn)Transformer模型
6.2.1 準(zhǔn)備工作
6.2.2 定義Transformer模型的組件
6.2.3 定義Transformer模型的編碼器
6.2.4 定義Transformer模型的解碼器
6.2.5 完整模型組裝
6.2.6 訓(xùn)練與評估
6.3 多模態(tài)學(xué)習(xí)架構(gòu)與Python實踐
6.3.1 多模態(tài)學(xué)習(xí)基礎(chǔ)
6.3.2 常見的多模態(tài)模型
6.3.3 Python實踐:構(gòu)建一個簡單的多模態(tài)模型
6.3.4 多模態(tài)模型設(shè)計要點(diǎn)
6.4 模型量化與壓縮的Python實踐
6.4.1 模型量化基礎(chǔ)
6.4.2 PyTorch中的模型量化
6.4.3 Python實踐:CNN量化
6.4.4 模型量化技術(shù)要點(diǎn)
6.5 模型剪枝與知識蒸餾
6.5.1 模型剪枝
6.5.2 知識蒸餾
6.5.3 Python實踐:模型剪枝和知識蒸餾
6.6 本章小結(jié)
第7章 大模型的網(wǎng)絡(luò)架構(gòu)創(chuàng)新
7.1 Transformer模型的變體與優(yōu)化
7.1.1 Transformer模型的變體
7.1.2 Transformer模型的優(yōu)化
7.2 大模型中的注意力機(jī)制
7.2.1 注意力機(jī)制的基本原理
7.2.2 注意力機(jī)制的變體
7.2.3 注意力機(jī)制在大模型中的應(yīng)用
7.3 大模型中的內(nèi)存網(wǎng)絡(luò)
7.3.1 內(nèi)存網(wǎng)絡(luò)的基本概念
7.3.2 內(nèi)存網(wǎng)絡(luò)在大模型中的應(yīng)用
7.3.3 內(nèi)存網(wǎng)絡(luò)的創(chuàng)新點(diǎn)
7.3.4 內(nèi)存網(wǎng)絡(luò)未來展望
7.4 大模型網(wǎng)絡(luò)設(shè)計的創(chuàng)新
7.4.1 深度殘差網(wǎng)絡(luò)
7.4.2 密集連接網(wǎng)絡(luò)
7.4.3 圖神經(jīng)網(wǎng)絡(luò)
7.4.4 自動機(jī)器學(xué)習(xí)與神經(jīng)架構(gòu)搜索
7.5 大模型網(wǎng)絡(luò)的發(fā)展趨勢
7.5.1 深度與寬度
7.5.2 自適應(yīng)性和可伸縮性
7.5.3 多模態(tài)融合
7.5.4 輕量化設(shè)計
7.5.5 可解釋性和魯棒性
7.5.6 自動化和智能化
7.6 本章小結(jié)
第8章 多模態(tài)學(xué)習(xí)與大模型
8.1 視覺—語言模型的融合策略
8.1.1 早期融合與后期融合
8.1.2 聯(lián)合嵌入空間
8.1.3 注意力機(jī)制
8.1.4 跨模態(tài)交互
8.1.5 分析與展望
8.2 多模態(tài)數(shù)據(jù)的聯(lián)合表示與推理
8.2.1 多模態(tài)數(shù)據(jù)的聯(lián)合表示
8.2.2 基于聯(lián)合表示的推理
8.2.3 挑戰(zhàn)與機(jī)遇
8.3 多模態(tài)中的Cross-Attention機(jī)制
8.3.1 Cross-Attention機(jī)制的基本原理
8.3.2 Cross-Attention機(jī)制在多模態(tài)任務(wù)中的應(yīng)用
8.3.3 Cross-Attention機(jī)制的優(yōu)勢與挑戰(zhàn)
8.4 多模態(tài)數(shù)據(jù)增強(qiáng)和生成方法
8.4.1 數(shù)據(jù)增強(qiáng)技術(shù)
8.4.2 數(shù)據(jù)生成技術(shù)
8.4.3 多模態(tài)應(yīng)用場景
8.5 多模態(tài)數(shù)據(jù)的挑戰(zhàn)和解決方案
8.5.1 數(shù)據(jù)異質(zhì)性挑戰(zhàn)
8.5.2 數(shù)據(jù)稀疏性與不平衡性挑戰(zhàn)
8.5.3 模型設(shè)計與優(yōu)化挑戰(zhàn)
8.5.4 計算資源與效率挑戰(zhàn)
8.5.5 隱私保護(hù)與數(shù)據(jù)安全挑戰(zhàn)
8.5.6 未來展望與解決方案
8.6 本章小結(jié)
第9章 DeepSeek架構(gòu)與特性解析
9.1 DeepSeek大模型架構(gòu)解析
9.1.1 DeepSeek架構(gòu)演變
9.1.2 混合專家機(jī)制
9.1.3 多頭潛在注意力技術(shù)
9.1.4 DeepSeek架構(gòu)優(yōu)勢
9.2 DeepSeek的技術(shù)特點(diǎn)
9.2.1 高效推理與多任務(wù)處理能力
9.2.2 對垂直領(lǐng)域的深度優(yōu)化
9.2.3 成本效率與訓(xùn)練策略
9.3 DeepSeek的應(yīng)用場景
9.3.1 自然語言處理
9.3.2 圖像處理與視頻生成
9.3.3 跨模態(tài)學(xué)習(xí)與多模態(tài)任務(wù)
9.4 DeepSeek與其他大模型的比較
9.4.1 架構(gòu)設(shè)計比較
9.4.2 應(yīng)用場景比較
9.4.3 綜合比較
9.5 DeepSeek的未來發(fā)展趨勢
9.5.1 技術(shù)創(chuàng)新與優(yōu)化
9.5.2 應(yīng)用場景拓展
9.6 本章小結(jié)
第四部分 大模型的訓(xùn)練優(yōu)化
第10章 大模型的訓(xùn)練策略
10.1 大模型超參數(shù)的選擇策略
10.1.1 學(xué)習(xí)率
10.1.2 批量大小
10.1.3 Top-k 和 Top-p 采樣
10.1.4 溫度
10.1.5 優(yōu)化器選擇
10.1.6 正則化強(qiáng)度
10.1.7 迭代次數(shù)和早停
10.2 訓(xùn)練穩(wěn)定性與收斂速度的平衡
10.2.1 訓(xùn)練穩(wěn)定性
10.2.2 收斂速度
10.2.3 其他平衡策略
10.3 學(xué)習(xí)率調(diào)度與預(yù)熱
10.3.1 學(xué)習(xí)率調(diào)度
10.3.2 學(xué)習(xí)率預(yù)熱
10.3.3 示例代碼
10.4 大模型訓(xùn)練中的正則化技術(shù)
10.4.1 L1正則化
10.4.2 L2正則化
10.4.3 Dropout
10.4.4 批量歸一化
10.5 大模型訓(xùn)練中的問題診斷
10.5.1 梯度消失與梯度爆炸
10.5.2 過擬合與欠擬合
10.5.3 學(xué)習(xí)率設(shè)置不當(dāng)
10.6 本章小結(jié)
第11章 大模型的超參數(shù)優(yōu)化
11.1 超參數(shù)維度災(zāi)難及其影響
11.1.1 超參數(shù)維度災(zāi)難的定義
11.1.2 超參數(shù)維度災(zāi)難的影響
11.1.3 超參數(shù)維度災(zāi)難的應(yīng)對策略
11.2 超參數(shù)優(yōu)化的自動化
11.2.1 自動化超參數(shù)優(yōu)化的重要性
11.2.2 自動化超參數(shù)優(yōu)化的方法
11.2.3 自動化超參數(shù)優(yōu)化的工具與平臺
11.2.4 自動化超參數(shù)優(yōu)化的挑戰(zhàn)與未來展望
11.3 基于元學(xué)習(xí)的超參數(shù)優(yōu)化
11.3.1 元學(xué)習(xí)的概念
11.3.2 基于元學(xué)習(xí)的超參數(shù)優(yōu)化原理
11.3.3 基于元學(xué)習(xí)的超參數(shù)優(yōu)化方法優(yōu)勢
11.3.4 應(yīng)用實例
11.4 基于遺傳算法的超參數(shù)搜索
11.4.1 遺傳算法簡介
11.4.2 基于遺傳算法的超參數(shù)搜索流程
11.4.3 基于遺傳算法的超參數(shù)搜索優(yōu)勢
11.4.4 項目應(yīng)用實例
11.4.5 遺傳算法的挑戰(zhàn)
11.5 分布式超參數(shù)搜索
11.5.1 分布式超參數(shù)搜索的概念
11.5.2 分布式超參數(shù)搜索的優(yōu)勢
11.5.3 分布式超參數(shù)搜索的實現(xiàn)方式
11.5.4 應(yīng)用實例
11.5.5 挑戰(zhàn)與未來展望
11.6 超參數(shù)搜索注意事項及策略
11.6.1 注意事項
11.6.2 策略
11.7 本章小結(jié)
第12章 大模型的模型量化與壓縮
12.1 模型量化的原理
12.1.1 量化基礎(chǔ)
12.1.2 量化級別
12.1.3 量化過程
12.1.4 量化誤差與補(bǔ)償
12.2 模型量化的技術(shù)分類
12.2.1 按量化方式分類
12.2.2 按量化級別分類
12.2.3 按應(yīng)用場景分類
12.3 模型量化的實踐與能力估算
12.3.1 模型量化的實踐步驟
12.3.2 能力估算
12.4 模型壓縮與加速策略
12.4.1 低秩分解
12.4.2 壓縮策略的選擇
12.5 模型量化的挑戰(zhàn)與解決方案
12.5.1 挑戰(zhàn)
12.5.2 解決方案
12.6 本章小結(jié)
第五部分 大模型的高級應(yīng)用案例
第13章 自然語言處理應(yīng)用
13.1 基于大模型的語言理解與生成
13.1.1 語言理解
13.1.2 語言生成
13.1.3 交互式對話系統(tǒng)
13.2 大模型在跨語言任務(wù)中的應(yīng)用
13.2.1 機(jī)器翻譯
13.2.2 跨語言信息檢索
13.2.3 跨語言對話系統(tǒng)
13.3 大模型在自然語言需求分析及設(shè)計選型中的應(yīng)用
13.3.1 自然語言需求分析
13.3.2 大模型選型原則
13.3.3 設(shè)計選型實踐
13.3.4 案例分析
13.4 動手實踐:構(gòu)建一個問答系統(tǒng)
13.4.1 項目概述
13.4.2 技術(shù)選型
13.4.3 數(shù)據(jù)準(zhǔn)備
13.4.4 模型加載與預(yù)處理
13.4.5 問題處理與答案生成
13.4.6 系統(tǒng)集成與測試
13.5 本章小結(jié)
第14章 計算機(jī)視覺的創(chuàng)新應(yīng)用
14.1 大模型在圖像合成與編輯中的應(yīng)用
14.1.1 圖像生成與風(fēng)格遷移
14.1.2 圖像修復(fù)與增強(qiáng)
14.1.3 虛擬試穿與換裝
14.1.4 創(chuàng)意設(shè)計與藝術(shù)創(chuàng)作
14.2 大模型在視頻分析與理解中的應(yīng)用
14.2.1 視頻內(nèi)容識別與分類
14.2.2 視頻摘要與關(guān)鍵幀提取
14.2.3 視頻動作識別與跟蹤
14.2.4 視頻情感分析與理解
14.2.5 視頻生成與編輯
14.3 大模型在視覺應(yīng)用中的需求分析及方案設(shè)計
14.3.1 需求分析
14.3.2 方案設(shè)計
14.4 實例:視頻內(nèi)容理解與行為識別
14.4.1 實例背景
14.4.2 技術(shù)方案
14.4.3 項目實現(xiàn)
14.5 本章小結(jié)
第15章 大模型在跨模態(tài)任務(wù)中的應(yīng)用
15.1 視覺—語言任務(wù)的模型設(shè)計
15.1.1 問題與現(xiàn)狀
15.1.2 思路與解法
15.1.3 主流方案介紹
15.2 音頻—文本任務(wù)的多模態(tài)模型
15.2.1 音頻—文本任務(wù)概述
15.2.2 多模態(tài)模型設(shè)計
15.2.3 應(yīng)用案例
15.2.4 技術(shù)挑戰(zhàn)
15.3 大模型在跨模態(tài)任務(wù)中的設(shè)計注意事項
15.3.1 數(shù)據(jù)預(yù)處理與模態(tài)對齊
15.3.2 模型架構(gòu)選擇
15.3.3 特征選擇與表示學(xué)習(xí)
15.3.4 模型訓(xùn)練與優(yōu)化
15.3.5 性能評估與迭代優(yōu)化
15.4 實例:音頻情感識別與文本匹配
15.4.1 項目背景與目標(biāo)
15.4.2 技術(shù)方案與模型設(shè)計
15.4.3 數(shù)據(jù)準(zhǔn)備與預(yù)處理
15.4.4 模型訓(xùn)練與優(yōu)化
15.4.5 實驗結(jié)果與評估
15.5 本章小結(jié)