本書采用獨(dú)特的一問一答式風(fēng)格,探討了當(dāng)今機(jī)器學(xué)習(xí)和人工智能領(lǐng)域中最重要的30 個(gè)問題,旨在幫助讀者了解最新的技術(shù)進(jìn)展。全書共分為五個(gè)部分:神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理、生產(chǎn)與部署、預(yù)測性能與模型評測。每一章都圍繞一個(gè)問題展開,不僅針對問題做出了相應(yīng)的解釋,并配有若干圖表,還給出了練習(xí)供讀者檢驗(yàn)自身是否已理解所學(xué)內(nèi)容。
本書適合機(jī)器學(xué)習(xí)初學(xué)者以及相關(guān)從業(yè)者和研究人員閱讀。
大佬作者:本書由GitHub項(xiàng)目LLMs-from-scratch(star數(shù)40.2k)作者、大模型獨(dú)角獸公司Lightning AI工程師傾力打造;
行業(yè)大咖推薦:本書獲得了多位行業(yè)大咖的推薦,包括Deep (Learning) Focus網(wǎng)站作者Cameron R. Wolfe,AI Engineering一書作者、Claypot AI聯(lián)合創(chuàng)始人Chip Huyen,維基媒體基金會(huì)機(jī)器學(xué)習(xí)主管Chris Albon,How AI Works一書作者Ronald T. Kneusel等;
一問一答式風(fēng)格:書中采用一問一答式風(fēng)格,探討了當(dāng)今人工智能領(lǐng)域中最重要的30個(gè)問題,讓讀者能夠更輕松入門大模型、更透徹解決制作大模型中所遇見的問題和瓶頸;
配套資源豐富:60道練習(xí)及其答案 部分源代碼。
塞巴斯蒂安·拉施卡(Sebastian Raschka) 威斯康星大學(xué)麥迪遜分校統(tǒng)計(jì)學(xué)副教授,專注于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)研究。他擁有密歇根州立大學(xué)的博士學(xué)位,在計(jì)算生物學(xué)領(lǐng)域提出了幾種新的計(jì)算方法,曾被科技博客Analytics Vidhya評為GitHub上極具影響力的數(shù)據(jù)科學(xué)家之一。他在Python編程方面擁有多年經(jīng)驗(yàn),同時(shí)還多次參加數(shù)據(jù)科學(xué)應(yīng)用與機(jī)器學(xué)習(xí)領(lǐng)域的研討會(huì)。暢銷書《Python機(jī)器學(xué)習(xí)》和Machine Learning with PyTorch and Scikit-Learn的作者。
第一部分 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
第1章 嵌入、潛空間和表征 2
1.1 嵌入 2
1.2 潛空間 4
1.3 表征 4
1.4 練習(xí) 5
1.5 參考文獻(xiàn) 5
第2章 自監(jiān)督學(xué)習(xí) 6
2.1 自監(jiān)督學(xué)習(xí)與遷移學(xué)習(xí) 6
2.2 使用無標(biāo)簽數(shù)據(jù) 8
2.3 自預(yù)測與對比自監(jiān)督學(xué)習(xí) 8
2.4 練習(xí) 10
2.5 參考文獻(xiàn) 10
第3章 小樣本學(xué)習(xí) 12
3.1 數(shù)據(jù)集與術(shù)語 12
3.2 練習(xí) 14
第4章 彩票假設(shè) 15
4.1 彩票假設(shè)的訓(xùn)練流程 15
4.2 實(shí)際意義與局限性 16
4.3 練習(xí) 17
4.4 參考文獻(xiàn) 17
第5章 利用數(shù)據(jù)來減少過擬合現(xiàn)象 18
5.1 常用方法 18
5.1.1 采集更多數(shù)據(jù) 18
5.1.2 數(shù)據(jù)增強(qiáng) 19
5.1.3 預(yù)訓(xùn)練 20
5.2 其他方法 20
5.3 練習(xí) 21
5.4 參考文獻(xiàn) 21
第6章 通過改進(jìn)模型減少過擬合現(xiàn)象 23
6.1 常用方法 23
6.1.1 正則化 23
6.1.2 選擇更小的模型 25
6.1.3 集成方法 26
6.2 其他方法 27
6.3 選擇正則化技術(shù) 28
6.4 練習(xí) 28
6.5 參考文獻(xiàn) 28
第7章 多GPU訓(xùn)練模式 30
7.1 訓(xùn)練模式 30
7.1.1 模型并行 30
7.1.2 數(shù)據(jù)并行 31
7.1.3 張量并行 31
7.1.4 流水線并行 32
7.1.5 序列并行 33
7.2 建議 34
7.3 練習(xí) 34
7.4 參考文獻(xiàn) 34
第8章 Transformer架構(gòu)的成功 36
8.1 注意力機(jī)制 36
8.2 通過自監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練 37
8.3 大規(guī)模參數(shù) 38
8.4 輕松并行化 38
8.5 練習(xí) 39
8.6 參考文獻(xiàn) 39
第9章 生成式AI模型 40
9.1 生成式模型與判別式模型 40
9.2 深度生成式模型的類型 41
9.2.1 能量模型 41
9.2.2 變分自編碼器 42
9.2.3 生成對抗網(wǎng)絡(luò) 43
9.2.4 流模型 43
9.2.5 自回歸模型 44
9.2.6 擴(kuò)散模型 45
9.2.7 一致性模型 46
9.3 建議 47
9.4 練習(xí) 47
9.5 參考文獻(xiàn) 47
第10章 隨機(jī)性的由來 48
10.1 模型權(quán)重初始化 48
10.2 數(shù)據(jù)集采樣與重排 49
10.3 非確定性算法 49
10.4 不同運(yùn)行時(shí)的算法 50
10.5 硬件與驅(qū)動(dòng)程序 51
10.6 隨機(jī)性與生成式AI 51
10.7 練習(xí) 53
10.8 參考文獻(xiàn) 53
第二部分 計(jì)算機(jī)視覺
第11章 計(jì)算參數(shù)量 56
11.1 如何計(jì)算參數(shù)量 56
11.1.1 卷積層 57
11.1.2 全連接層 58
11.2 實(shí)際應(yīng)用 59
11.3 練習(xí) 60
第12章 全連接層和卷積層 61
12.1 當(dāng)卷積核與輸入大小相同時(shí) 62
12.2 當(dāng)卷積核大小為1時(shí) 63
12.3 建議 63
12.4 練習(xí) 63
第13章 ViT架構(gòu)所需的大型訓(xùn)練集 64
13.1 CNN中的歸納偏置 64
13.2 ViT可以比CNN表現(xiàn)得更好 67
13.3 ViT中的歸納偏置 67
13.4 建議 68
13.5 練習(xí) 69
13.6 參考文獻(xiàn) 69
第三部分 自然語言處理
第14章 分布假設(shè) 72
14.1 Word2vec、BERT和GPT 73
14.2 假設(shè)成立嗎 74
14.3 練習(xí) 75
14.4 參考文獻(xiàn) 75
第15章 文本數(shù)據(jù)增強(qiáng) 76
15.1 同義詞替換 76
15.2 詞語刪除 77
15.3 詞語位置交換 77
15.4 句子亂序 77
15.5 噪聲注入 78
15.6 回譯 78
15.7 合成數(shù)據(jù)生成 79
15.8 建議 79
15.9 練習(xí) 80
15.10 參考文獻(xiàn) 80
第16章 自注意力 81
16.1 RNN中的注意力 81
16.2 自注意力機(jī)制 83
16.3 練習(xí) 84
16.4 參考文獻(xiàn) 84
第17章 編碼器和解碼器風(fēng)格的
Transformer架構(gòu) 85
17.1 原始的Transformer 85
17.1.1 編碼器 87
17.1.2 解碼器 88
17.2 編碼器 解碼器混合模型 89
17.3 專業(yè)術(shù)語 89
17.4 當(dāng)代Transformer模型 90
17.5 練習(xí) 91
17.6 參考文獻(xiàn) 91
第18章 使用和微調(diào)預(yù)訓(xùn)練
Transformer 92
18.1 使用Transformer執(zhí)行分類任務(wù) 92
18.2 上下文學(xué)習(xí)、索引和提示詞調(diào)優(yōu) 94
18.3 參數(shù)高效的微調(diào)方法 97
18.4 基于人類反饋的強(qiáng)化學(xué)習(xí) 102
18.5 適配預(yù)訓(xùn)練語言模型 102
18.6 練習(xí) 103
18.7 參考文獻(xiàn) 103
第19章 評測生成式大模型 104
19.1 大模型的評測指標(biāo) 104
19.1.1 困惑度 105
19.1.2 BLEU 106
19.1.3 ROUGE 107
19.1.4 BERTScore 109
19.2 替代指標(biāo) 110
19.3 練習(xí) 110
19.4 參考文獻(xiàn) 110
第四部分 生產(chǎn)與部署
第20章 無狀態(tài)訓(xùn)練與有狀態(tài)訓(xùn)練 114
20.1 無狀態(tài)(重)訓(xùn)練 114
20.2 有狀態(tài)訓(xùn)練 115
20.3 練習(xí) 115
第21章 以數(shù)據(jù)為中心的人工智能 117
21.1 以數(shù)據(jù)為中心的人工智能與以模型
為中心的人工智能 117
21.2 建議 119
21.3 練習(xí) 119
21.4 參考文獻(xiàn) 120
第22章 加速推理 121
22.1 并行化 121
22.2 向量化 122
22.3 循環(huán)分塊 123
22.4 算子融合 123
22.5 量化 124
22.6 練習(xí) 125
22.7 參考文獻(xiàn) 125
第23章 數(shù)據(jù)分布偏移 126
23.1 協(xié)變量偏移 126
23.2 標(biāo)簽偏移 127
23.3 概念偏移 128
23.4 領(lǐng)域偏移 128
23.5 數(shù)據(jù)分布偏移的類型 129
23.6 練習(xí) 130
23.7 參考文獻(xiàn) 130
第五部分 預(yù)測性能與模型評測
第24章 泊松回歸與序回歸 132
第25章 置信區(qū)間 134
25.1 定義置信區(qū)間 134
25.2 方法 136
25.2.1 方法1:正態(tài)近似區(qū)間 136
25.2.2 方法2:使用自助法構(gòu)建
訓(xùn)練集 137
25.2.3 方法3:使用自助抽樣法
構(gòu)建測試集預(yù)測結(jié)果 139
25.2.4 方法4:使用不同的隨機(jī)
種子重新訓(xùn)練模型 140
25.3 練習(xí) 141
25.4 參考文獻(xiàn) 141
第26章 置信區(qū)間與共形預(yù)測 142
26.1 置信區(qū)間和預(yù)測區(qū)間 142
26.2 預(yù)測區(qū)間與共形預(yù)測 143
26.3 預(yù)測區(qū)域、預(yù)測區(qū)間與預(yù)測集合 143
26.4 計(jì)算共形預(yù)測 143
26.5 共形預(yù)測示例 145
26.6 共形預(yù)測的優(yōu)點(diǎn) 146
26.7 建議 146
26.8 練習(xí) 146
26.9 參考文獻(xiàn) 147
第27章 合適的模型度量 148
27.1 標(biāo)準(zhǔn) 148
27.2 均方誤差 149
27.3 交叉熵?fù)p失 150
27.4 練習(xí) 151
第28章 k折交叉驗(yàn)證中的k 152
28.1 選擇k值時(shí)的權(quán)衡考量 153
28.2 確定適當(dāng)?shù)膋值 154
28.3 練習(xí) 154
28.4 參考文獻(xiàn) 155
第29章 訓(xùn)練集和測試集的不一致性 156
第30章 有限的有標(biāo)簽數(shù)據(jù) 158
30.1 利用有限的有標(biāo)簽數(shù)據(jù)提高模型
性能 158
30.1.1 標(biāo)注更多數(shù)據(jù) 158
30.1.2 自助抽樣數(shù)據(jù) 158
30.1.3 遷移學(xué)習(xí) 159
30.1.4 自監(jiān)督學(xué)習(xí) 159
30.1.5 主動(dòng)學(xué)習(xí) 160
30.1.6 小樣本學(xué)習(xí) 160
30.1.7 元學(xué)習(xí) 161
30.1.8 弱監(jiān)督學(xué)習(xí) 161
30.1.9 半監(jiān)督學(xué)習(xí) 162
30.1.10 自訓(xùn)練 163
30.1.11 多任務(wù)學(xué)習(xí) 163
30.1.12 多模態(tài)學(xué)習(xí) 164
30.1.13 歸納偏置 165
30.2 建議 165
30.3 練習(xí) 167
30.4 參考文獻(xiàn) 167
后記 168
附錄 練習(xí)答案 169