本書全面且深入地呈現(xiàn)了深度學(xué)習(xí)領(lǐng)域的知識(shí)體系,系統(tǒng)梳理了該領(lǐng)域的核心知識(shí),闡述了深度學(xué)習(xí)的關(guān)鍵概念、基礎(chǔ)理論及核心思想,剖析了當(dāng)代深度學(xué)習(xí)架構(gòu)與技術(shù)。全書共 20 章。本書首先介紹深度學(xué)習(xí)的發(fā)展歷程、基本概念及其在諸多領(lǐng)域(如醫(yī)療診斷、圖像合成等)產(chǎn)生的深遠(yuǎn)影響;繼而深入探討支撐深度學(xué)習(xí)的數(shù)學(xué)原理,包括概率、標(biāo)準(zhǔn)分布等;在網(wǎng)絡(luò)模型方面,從單層網(wǎng)絡(luò)逐步深入到多層網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò),詳細(xì)講解其結(jié)構(gòu)、功能、優(yōu)化方法及其在分類、回歸等任務(wù)中的應(yīng)用,同時(shí)涵蓋卷積網(wǎng)絡(luò)、Transformer 等前沿架構(gòu)及其在計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域的獨(dú)特作用。本書還對(duì)正則化、采樣、潛變量、生成對(duì)抗網(wǎng)絡(luò)、自編碼器、擴(kuò)散模型等關(guān)鍵技術(shù)展開深入分析,闡釋其原理、算法流程及實(shí)際應(yīng)用場景。對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域的新手,本書是全面且系統(tǒng)的入門教材,可引領(lǐng)其踏入深度學(xué)
習(xí)的知識(shí)殿堂;對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域從業(yè)者,本書是深化專業(yè)知識(shí)、緊跟技術(shù)前沿的有力工具;對(duì)于相關(guān)專業(yè)學(xué)生,本書是學(xué)習(xí)深度學(xué)習(xí)課程、開展學(xué)術(shù)研究的優(yōu)質(zhì)參考資料。無論是理論學(xué)習(xí)、實(shí)踐應(yīng)用還是學(xué)術(shù)研究,本書都是讀者在深度學(xué)習(xí)領(lǐng)域探索與前行的重要指引。
如果看不懂花書,那就先來看看這本:
1.作者自身的知名度,經(jīng)典著作《模式識(shí)別與機(jī)器學(xué)習(xí)》之后的又一力作;
2.三位圖靈獎(jiǎng)得主的共同推薦,2024 年諾貝爾物理學(xué)獎(jiǎng)得主杰弗里·辛頓作序推薦;
3.為初學(xué)者打造,這本書不只能幫讀者正確理解深度學(xué)習(xí)的關(guān)鍵知識(shí),還能幫助讀者構(gòu)建整個(gè)深度學(xué)習(xí)的知識(shí)體系、理解其思想內(nèi)核;
4.本書的重點(diǎn)是引導(dǎo)讀者清晰地理解概念與思想,強(qiáng)調(diào)的是具有實(shí)際應(yīng)用價(jià)值的技術(shù)而不是抽象的理論;
5.四色印刷,提升悅讀性。
克里斯托弗·M. 畢曉普(Christopher M. Bishop) 微軟公司技術(shù)研究員、微軟研究 院 科 學(xué) 智 能 中 心(Microsoft Research AI4Science)負(fù)責(zé)人。劍橋達(dá)爾文學(xué)院院士、英國皇家工程院院士、愛丁堡皇家學(xué)會(huì)院士和倫敦皇家學(xué)會(huì)院士。曾出版經(jīng)典著作《模式識(shí)別與機(jī)器學(xué)習(xí)》(Pattern Recognition and Machine Learning)。 休·畢曉普(Hugh Bishop) Wayve 公司(倫敦一家基于端到端深度學(xué)習(xí)的自動(dòng)駕駛公司)應(yīng)用科學(xué)家,負(fù)責(zé)設(shè)計(jì)和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。擁有劍橋大學(xué)工程系機(jī)器學(xué)習(xí)和機(jī)器智能專業(yè)碩士 學(xué)位、杜倫大學(xué)計(jì)算機(jī)科學(xué)工程學(xué)碩士學(xué)位。
第 1 章 深度學(xué)習(xí)革命 1
1 1 深度學(xué)習(xí)的影響 2
1 1 1 醫(yī)療診斷 2
1 1 2 蛋白質(zhì)結(jié)構(gòu)預(yù)測 3
1 1 3 圖像合成 4
1 1 4 大語言模型 5
1 2 一個(gè)教學(xué)示例 6
1 2 1 合成數(shù)據(jù) 7
1 2 2 線性模型 7
1 2 3 誤差函數(shù) 8
1 2 4 模型復(fù)雜度 8
1 2 5 正則化 11
1 2 6 模型選擇 12
1 3 機(jī)器學(xué)習(xí)簡史 14
1 3 1 單層網(wǎng)絡(luò) 15
1 3 2 反向傳播 16
1 3 3 深度網(wǎng)絡(luò) 17
第 2 章 概 率 21
2 1 概率法則 23
2 1 1 醫(yī)學(xué)篩查示例 23
2 1 2 加和法則和乘積法則 24
2 1 3 貝葉斯定理 26
2 1 4 再看醫(yī)學(xué)篩查示例 27
2 1 5 先驗(yàn)概率和后驗(yàn)概率 28
2 1 6 獨(dú)立變量 28
2 2 概率密度 28
2 2 1 分布的示例 30
2 2 2 期望和協(xié)方差 31
2 3 高斯分布 32
2 3 1 均值和方差 32
2 3 2 似然函數(shù) 33
2 3 3 最大似然的偏差 35
2 3 4 線性回歸 36
2 4 密度變換 37
多元分布 39
2 5 信息論 40
2 5 1 熵 40
2 5 2 物理學(xué)視角 42
2 5 3 微分熵 43
2 5 4 最大熵 44
2 5 5 Kullback-Leibler 散度 45
2 5 6 條件熵 47
2 5 7 互信息 47
2 6 貝葉斯概率 47
2 6 1 模型參數(shù) 48
2 6 2 正則化 49
2 6 3 貝葉斯機(jī)器學(xué)習(xí) 50
習(xí)題 50
第 3 章 標(biāo)準(zhǔn)分布 55
3 1 離散變量 56
3 1 1 伯努利分布 56
3 1 2 二項(xiàng)分布 57
3 1 3 多項(xiàng)分布 58
3 2 多元高斯分布 59
3 2 1 高斯幾何 60
3 2 2 矩 62
3 2 3 局限性 64
3 2 4 條件分布 64
3 2 5 邊緣分布 67
3 2 6 貝葉斯定理 70
3 2 7 最大似然 72
3 2 8 序貫估計(jì) 73
3 2 9 高斯混合 74
3 3 周期變量 76
馮·米塞斯分布 76
3 4 指數(shù)族分布 80
充分統(tǒng)計(jì)量 84
3 5 非參數(shù)化方法 85
3 5 1 直方圖 85
3 5 2 核密度 86
3 5 3 最近鄰 88
習(xí)題 90
第 4 章 單層網(wǎng)絡(luò):回歸 97
4 1 線性回歸 97
4 1 1 基函數(shù) 98
4 1 2 似然函數(shù) 100
4 1 3 最大似然 101
4 1 4 最小二乘的幾何表示 102
4 1 5 序貫學(xué)習(xí) 102
4 1 6 正則化最小二乘法 103
4 1 7 多重輸出 104
4 2 決策理論 105
4 3 偏差 - 方差權(quán)衡 108
習(xí)題 112
第 5 章 單層網(wǎng)絡(luò):分類 115
5 1 判別函數(shù) 116
5 1 1 二分類 116
5 1 2 多分類 117
5 1 3 1-of-K 編碼方案 119
5 1 4 最小二乘分類 119
5 2 決策理論 121
5 2 1 誤分類率 122
5 2 2 預(yù)期損失 124
5 2 3 拒絕選項(xiàng) 125
5 2 4 推理和決策 125
5 2 5 分類器精度 128
5 2 6 ROC 曲線 129
5 3 生成分類器 131
5 3 1 連續(xù)輸入 132
5 3 2 最大似然解 134
5 3 3 離散特征 136
5 3 4 指數(shù)族分布 136
5 4 判別分類器 137
5 4 1 激活函數(shù) 137
5 4 2 固定基函數(shù) 138
5 4 3 邏輯斯諦回歸 139
5 4 4 多類邏輯斯諦回歸 140
5 4 5 probit 回歸 141
5 4 6 規(guī)范連接函數(shù) 143
習(xí)題 144
第 6 章 深度神經(jīng)網(wǎng)絡(luò) 149
6 1 固定基函數(shù)的局限性 150
6 1 1 維度詛咒 150
6 1 2 高維空間 152
6 1 3 數(shù)據(jù)流形 153
6 1 4 數(shù)據(jù)依賴的基函數(shù) 155
6 2 多層網(wǎng)絡(luò) 156
6 2 1 參數(shù)矩陣 157
6 2 2 通用近似 158
6 2 3 隱藏單元激活函數(shù) 159
6 2 4 權(quán)重空間的對(duì)稱性 161
6 3 深度網(wǎng)絡(luò) 162
6 3 1 層次化表示 162
6 3 2 分布式表示 163
6 3 3 表示學(xué)習(xí) 163
6 3 4 遷移學(xué)習(xí) 164
6 3 5 對(duì)比學(xué)習(xí) 165
6 3 6 通用網(wǎng)絡(luò)結(jié)構(gòu) 168
6 3 7 張量 168
6 4 誤差函數(shù) 169
6 4 1 回歸 169
6 4 2 二分類 170
6 4 3 多分類 171
6 5 混合密度網(wǎng)絡(luò) 172
6 5 1 機(jī)器人運(yùn)動(dòng)學(xué)示例 172
6 5 2 條件混合分布 173
6 5 3 梯度優(yōu)化 175
6 5 4 預(yù)測分布 176
習(xí)題 177
第 7 章 梯度下降 181
7 1 錯(cuò)誤平面 182
局部二次近似 183
7 2 梯度下降優(yōu)化 184
7 2 1 梯度信息的使用 185
7 2 2 批量梯度下降 185
7 2 3 隨機(jī)梯度下降 186
7 2 4 小批量方法 187
7 2 5 參數(shù)初始化 188
7 3 收斂 189
7 3 1 動(dòng)量 190
7 3 2 學(xué)習(xí)率調(diào)度 192
7 3 3 AdaGrad、RMSProp 與 Adam 算法 193
7 4 正則化 195
7 4 1 數(shù)據(jù)歸一化 195
7 4 2 批量歸一化 196
7 4 3 層歸一化 197
習(xí)題 198
第 8 章 反向傳播 201
8 1 梯度計(jì)算 202
8 1 1 單層網(wǎng)絡(luò) 202
8 1 2 一般前饋網(wǎng)絡(luò) 202
8 1 3 簡單示例 205
8 1 4 數(shù)值微分法 206
8 1 5 雅可比矩陣 207
8 1 6 黑塞矩陣 209
8 2 自動(dòng)微分法 211
8 2 1 前向模式自動(dòng)微分 213
8 2 2 逆模式自動(dòng)微分 215
習(xí)題 217
第 9 章 正則化 219
9 1 歸納偏置 220
9 1 1 逆問題 220
9 1 2 無免費(fèi)午餐定理 221
9 1 3 對(duì)稱性和不變性 222
9 1 4 等變性 224
9 2 權(quán)重衰減 225
9 2 1 一致性正則化項(xiàng) 226
9 2 2 廣義權(quán)重衰減 228
9 3 學(xué)習(xí)曲線 230
9 3 1 早停法 230
9 3 2 雙重下降 231
9 4 參數(shù)共享 234
軟權(quán)重共享 234
9 5 殘差連接 236
9 6 模型平均 239
dropout 241
習(xí)題 243
第 10 章 卷積網(wǎng)絡(luò) 247
10 1 計(jì)算機(jī)視覺 248
圖像數(shù)據(jù) 248
10 2 卷積濾波器 249
10 2 1 特征檢測器 250
10 2 2 平移等變性 251
10 2 3 填充 252
10 2 4 跨步卷積 253
10 2 5 多維卷積 253
10 2 6 池化 255
10 2 7 多層卷積 256
10 2 8 網(wǎng)絡(luò)架構(gòu)示例 257
10 3 可視化訓(xùn)練好的 CNN 259
10 3 1 視覺皮層 259
10 3 2 可視化訓(xùn)練好的濾波器 260
10 3 3 顯著性圖 262
10 3 4 對(duì)抗攻擊 263
10 3 5 合成圖像 264
10 4 目標(biāo)檢測 265
10 4 1 邊界框 265
10 4 2 交并比 266
10 4 3 滑動(dòng)窗口 267
10 4 4 跨尺度檢測 268
10 4 5 非最大抑制 269
10 4 6 快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò) 270
10 5 圖像分割 270
10 5 1 卷積分割 270
10 5 2 上采樣 271
10 5 3 全卷積網(wǎng)絡(luò) 272
10 5 4 U-Net 架構(gòu) 273
10 6 風(fēng)格遷移 274
習(xí)題 275
第 11 章 結(jié)構(gòu)化分布 279
11 1 概率圖模型 280
11 1 1 有向圖 280
11 1 2 分解 280
11 1 3 離散變量 282
11 1 4 高斯變量 284
11 1 5 二元分類器 286
11 1 6 參數(shù)和觀測值 287
11 1 7 貝葉斯定理 288
11 2 條件獨(dú)立性 289
11 2 1 3 個(gè)示例圖 289
11 2 2 相消解釋 292
11 2 3 d 分離 293
11 2 4 樸素貝葉斯 294
11 2 5 生成式模型 296
11 2 6 馬爾可夫毯 297
11 2 7 作為過濾器的圖 298
11 3 序列模型 299
潛變量 301
習(xí)題 302
第 12 章 Transformer 305
12 1 注意力 306
12 1 1 Transformer 處理 308
12 1 2 注意力系數(shù) 308
12 1 3 自注意力 309
12 1 4 網(wǎng)絡(luò)參數(shù) 310
12 1 5 縮放自注意力 312
12 1 6 多頭注意力 313
12 1 7 Transformer 層 315
12 1 8 計(jì)算復(fù)雜性 316
12 1 9 位置編碼 317
12 2 自然語言 319
12 2 1 詞嵌入 320
12 2 2 分詞 321
12 2 3 詞袋模型 322
12 2 4 自回歸模型 323
12 2 5 遞歸神經(jīng)網(wǎng)絡(luò) 324
12 2 6 通過時(shí)間的反向傳播 325
12 3 Transformer 語言模型 326
12 3 1 解碼器型 Transformer 326
12 3 2 抽樣策略 329
12 3 3 編碼器型 Transformer 330
12 3 4 序列到序列 Transformer 332
12 3 5 大語言模型 333
12 4 多模態(tài) Transformer 336
12 4 1 視覺 Transformer 336
12 4 2 圖像生成 Transformer 337
12 4 3 音頻數(shù)據(jù) 339
12 4 4 文本語音轉(zhuǎn)換 340
12 4 5 視覺和語言 Transformer 342
習(xí)題 343
第 13 章 圖神經(jīng)網(wǎng)絡(luò) 347
13 1 基于圖的機(jī)器學(xué)習(xí) 348
13 1 1 圖的屬性 349
13 1 2 鄰接矩陣 349
13 1 3 排列等變性 350
13 2 神經(jīng)信息傳遞 351
13 2 1 卷積濾波器 352
13 2 2 圖卷積網(wǎng)絡(luò) 353
13 2 3 聚合算子 354
13 2 4 更新算子 356
13 2 5 節(jié)點(diǎn)分類 357
13 2 6 邊分類 358
13 2 7 圖分類 358
13 3 通用圖網(wǎng)絡(luò) 359
13 3 1 圖注意力網(wǎng)絡(luò) 359
13 3 2 邊嵌入 360
13 3 3 圖嵌入 360
13 3 4 過度平滑 361
13 3 5 正則化 362
13 3 6 幾何深度學(xué)習(xí) 362
習(xí)題 363
第 14 章 采 樣 365
14 1 基本采樣 366
14 1 1 期望 366
14 1 2 標(biāo)準(zhǔn)分布 367
14 1 3 拒絕采樣 369
14 1 4 適應(yīng)性拒絕采樣 370
14 1 5 重要性采樣 371
14 1 6 采樣 - 重要性 - 重采樣 373
14 2 馬爾可夫鏈蒙特卡洛采樣 374
14 2 1 Metropolis 算法 375
14 2 2 馬爾可夫鏈 376
14 2 3 Metropolis-Hastings 算法 378
14 2 4 吉布斯采樣 380
14 2 5 祖先采樣 382
14 3 郎之萬采樣 383
14 3 1 基于能量的模型 384
14 3 2 最大化似然 385
14 3 3 朗之萬動(dòng)力學(xué) 386
習(xí)題 388
第 15 章 離散潛變量 391
15 1 K 均值聚類 392
圖像分割 395
15 2 高斯混合分布 397
15 2 1 似然函數(shù) 399
15 2 2 最大似然 400
15 3 EM 算法 404
15 3 1 高斯混合模型 406
15 3 2 EM 算法與K 均值算法的關(guān)系 408
15 3 3 混合伯努利分布 409
15 4 證據(jù)下界 412
15 4 1 EM 算法回顧 413
15 4 2 獨(dú)立同分布數(shù)據(jù) 415
15 4 3 參數(shù)先驗(yàn) 415
15 4 4 廣義 EM 算法 416
15 4 5 順序 EM 算法 416
習(xí)題 417
第 16 章 連續(xù)潛變量 421
16 1 主成分分析 422
16 1 1 最大方差表述 423
16 1 2 最小誤差表述 424
16 1 3 數(shù)據(jù)壓縮 427
16 1 4 數(shù)據(jù)白化 428
16 1 5 高維數(shù)據(jù) 429
16 2 概率潛變量 430
16 2 1 生成式模型 431
16 2 2 似然函數(shù) 432
16 2 3 最大似然法 433
16 2 4 因子分析 436
16 2 5 獨(dú)立成分分析 437
16 2 6 卡爾曼濾波器 439
16 3 證據(jù)下界 439
16 3 1 EM 算法 441
16 3 2 PCA 的 EM 算法 442
16 3 3 因子分析的 EM 算法 444
16 4 非線性潛變量模型 444
16 4 1 非線性流形 445
16 4 2 似然函數(shù) 447
16 4 3 離散數(shù)據(jù) 448
16 4 4 構(gòu)建生成式模型的 4 種方法 448
習(xí)題 449
第 17 章 生成對(duì)抗網(wǎng)絡(luò) 453
17 1 對(duì)抗訓(xùn)練 454
17 1 1 損失函數(shù) 455
17 1 2 實(shí)戰(zhàn)中的 GAN 訓(xùn)練 456
17 2 圖像的生成對(duì)抗網(wǎng)絡(luò) 458
CycleGAN 459
習(xí)題 462
第 18 章 標(biāo)準(zhǔn)化流 465
18 1 耦合流 467
18 2 自回歸流 470
18 3 連續(xù)流 472
18 3 1 神經(jīng) ODE 472
18 3 2 神經(jīng) ODE 的反向傳播 473
18 3 3 神經(jīng) ODE 流 474
習(xí)題 476
第 19 章 自編碼器 479
19 1 確定性的自編碼器 480
19 1 1 線性自編碼器 480
19 1 2 深度自編碼器 481
19 1 3 稀疏自編碼器 482
19 1 4 去噪自編碼器 482
19 1 5 掩蔽自編碼器 483
19 2 變分自編碼器 484
19 2 1 攤銷推理 487
19 2 2 重參數(shù)化技巧 488
習(xí)題 491
第 20 章 擴(kuò)散模型 493
20 1 前向編碼器 494
20 1 1 擴(kuò)散核 495
20 1 2 條件分布 496
20 2 反向解碼器 497
20 2 1 訓(xùn)練解碼器 499
20 2 2 證據(jù)下界 499
20 2 3 重寫 ELBO 501
20 2 4 預(yù)測噪聲 502
20 2 5 生成新的樣本 504
20 3 得分匹配 505
20 3 1 得分損失函數(shù) 506
20 3 2 修改得分損失 506
20 3 3 噪聲方差 508
20 3 4 隨機(jī)微分方程 508
20 4 有引導(dǎo)的擴(kuò)散 509
20 4 1 有分類器的引導(dǎo) 510
20 4 2 無分類器的引導(dǎo) 510
習(xí)題 513
附 錄 517
附錄 A 線性代數(shù) 517
A 1 矩陣恒等式 517
A 2 跡和行列式 518
A 3 矩陣導(dǎo)數(shù) 519
A 4 特征向量 521
附錄 B 變分法 524
附錄 C 拉格朗日乘子 526
參考資料 529
索 引 549