作為機器學習的核心,《機器學入門》介紹了基于貝葉斯推論的機器學習,其基本思想是將數(shù)據(jù)及數(shù)據(jù)產(chǎn)生的過程視為隨機事件,從數(shù)據(jù)的固有特征開始,通過一系列假設來進行數(shù)據(jù)的描述,進而構建出與機器學習任務相適應的隨機模型,然后通過模型的解析求解或近似求解得出未知事件的預測模型。通過貝葉斯學習,我們可以了解到更多關于數(shù)據(jù)的信息,進而可以大致清楚進行學習的神經(jīng)網(wǎng)絡的規(guī)模和復雜程度。更重要的是,當神經(jīng)網(wǎng)絡學習中出現(xiàn)問題時,通過貝葉斯學習可以找到解決問題的方向和途徑。因此,可以說貝葉斯學習是深度神經(jīng)網(wǎng)絡學習的理論基礎,也是進行神經(jīng)網(wǎng)絡學習的必修課。本書在內容安排上,盡可能對概率統(tǒng)計和隨機過程的基礎進行了較為完整的介紹,并對常用的概率分布進行了詳盡的分析。在此基礎上重點介紹了單一模型及混合模型的貝葉斯推論方法,并結合具體應用進行了擴展和分析。在注重理論介紹的同時也考慮到了實際的應用擴展,從而保證了讀者學習的完整性。其所給出的隨機模型分析、構建及求解方法力圖詳盡,對讀者進行貝葉斯方法的學習和實際應用具有較高的指導和參考價值。
譯者序
原書序
原書前言
第1章 機器學習與貝葉斯學習 1
1.1 什么是機器學習? 1
1.2 機器學習的典型任務 2
1.2.1 回歸 2
1.2.2 分類 3
1.2.3 聚類 4
1.2.4 降維 4
1.2.5 其他典型任務 6
1.3 機器學習的兩類方法 6
1.3.1 基于工具箱的機器學習 6
1.3.2 基于建模的機器學習 7
1.4 概率的基本計算 8
1.4.1 概率分布 8
1.4.2 概率分布的推定 9
1.4.3 紅球和白球問題 11
1.4.4 多個觀測數(shù)據(jù) 13
1.4.5 逐次推論 15
1.4.6 參數(shù)未知的情況 15
1.5 圖模型 16
1.5.1 有向圖 17
1.5.2 節(jié)點的附加條件 18
1.5.3 馬爾可夫覆蓋 20
1.6 貝葉斯學習方法 20
1.6.1 模型的構建和推論 20
1.6.2 各類任務中的貝葉斯推論 21
1.6.3 復雜后驗分布的近似 24
1.6.4 基于不確定性的決策 25
1.6.5 貝葉斯學習的優(yōu)點與缺點 26
第2章 基本的概率分布 30
2.1 期望值30
2.1.1 期望值的定義 30
2.1.2 基本的期望值 30
2.1.3 熵 31
2.1.4 KL散度 32
2.1.5 抽樣的期望值近似計算 32
2.2 離散概率分布33
2.2.1 伯努利分布 33
2.2.2 二項分布 35
2.2.3 類分布 36
2.2.4 多項分布 37
2.2.5 泊松分布 38
2.3 連續(xù)概率分布40
2.3.1 Beta分布 40
2.3.2 Dirichlet分布 41
2.3.3 Gamma分布 43
2.3.4 一維高斯分布 44
2.3.5 多維高斯分布 45
2.3.6 Wishart分布 48
第3章 基于貝葉斯推論的學習和預測 51
3.1 學習和預測51
3.1.1 參數(shù)的后驗分布 51
3.1.2 預測分布 523.1.3 共軛先驗分布 53
3.1.4 非共軛先驗分布的運用 54
3.2 離散概率分布的學習和預測55
3.2.1 伯努利分布的學習和預測 55
3.2.2 類分布的學習和預測 59
3.2.3 泊松分布的學習和預測 61
3.3 一維高斯分布的學習和預測63
3.3.1 均值未知的情況 63
3.3.2 精度未知的情況 66
3.3.3 均值和精度均未知的情況 68
3.4 多維高斯分布的學習和預測71
3.4.1 均值未知的情況 71
3.4.2 精度未知的情況 73
3.4.3 均值和精度均未知的情況 75
3.5 線性回歸的例子77
3.5.1 模型的構建 77
3.5.2 后驗分布和預測分布的計算 78
3.5.3 模型的比較 80
第4章 混合模型和近似推論 84
4.1 混合模型和后驗分布的推論84
4.1.1 使用混合模型的理由 84
4.1.2 混合模型的數(shù)據(jù)生成過程 85
4.1.3 混合模型的后驗分布 87
4.2 概率分布的近似方法88
4.2.1 吉布斯采樣 88
4.2.2 變分推論 90
4.3 泊松混合模型的推論93
4.3.1 泊松混合模型 93
4.3.2 吉布斯采樣 94
4.3.3 變分推論 97
4.3.4 折疊式吉布斯采樣 100
4.3.5 簡易實驗 105
4.4 高斯混合模型中的推論106
4.4.1 高斯混合模型 106
4.4.2 吉布斯采樣 107
4.4.3 變分推論 110
4.4.4 折疊式吉布斯采樣 113
4.4.5 簡易實驗 115
第5章 應用模型的構建和推論 119
5.1 線性降維119
5.1.1 模型 120
5.1.2 變分推論 120
5.1.3 數(shù)據(jù)的不可逆壓縮 123
5.1.4 缺失值內插 124
5.2 非負值矩陣因子分解126
5.2.1 模型 127
5.2.2 變分推論 129
5.3 隱馬爾可夫模型132
5.3.1 模型 133
5.3.2 完全分解變分推論 135
5.3.3 結構化變分推論 139
5.4 主題模型143
5.4.1 模型 143
5.4.2 變分推論 146
5.4.3 折疊式吉布斯采樣 148
5.4.4LDA模型的應用與擴展 151
5.5 張量分解151
5.5.1 協(xié)同過濾 1525.5.2 模型 154
5.5.3 變分推論 155
5.5.4 缺失值的內插 160
5.6 logistic回歸161
5.6.1 模型 161
5.6.2 變分推論 162
5.6.3 離散值的預測 165
5.7 神經(jīng)網(wǎng)絡166
5.7.1 模型 167
5.7.2 變分推論 168
5.7.3 連續(xù)值的預測 169
附錄A 相關計算的補充 171
A.1 基本的矩陣計算171
A.1.1 轉置 171
A.1.2 逆矩陣 171
A.1.3 矩陣的跡 172
A.1.4 方陣的行列式 172
A.1.5 正定值矩陣 172
A.2 特殊函數(shù)173
A.2.1gamma函數(shù)和digamma函數(shù) 173
A.2.2sigmoid函數(shù)和softmax函數(shù) 173
A.3 梯度法174
A.3.1 函數(shù)的梯度 174
A.3.2 最速下降法 175
A.3.3 坐標下降法 175
A.4 邊緣似然度下限176
A.4.1 邊緣似然度和ELBO 176
A.4.2 泊松混合分布的例子 177
參考文獻 178