機器學習基礎——面向預測數(shù)據(jù)分析的算法、實用范例與案例研究
定 價:99 元
叢書名:數(shù)據(jù)科學與工程技術叢書
當前圖書已被 31 所學校薦購過!
查看明細
- 作者:[愛爾蘭] 約翰?D.凱萊赫(John D. Kelleher) 布萊恩?馬克?納
- 出版時間:2020/4/1
- ISBN:9787111652335
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:368
- 紙張:膠版紙
- 版次:1
- 開本:16K
本書重點講述用于預測性數(shù)據(jù)分析的*重要的機器學習方法,包括理論概念和實際應用。
本書的目的是呈現(xiàn)一個通俗易懂的、引導性的機器學習基礎資料,并說明在實踐中是如何利用機器學習解決商業(yè)、科學以及其他組織環(huán)境的預測數(shù)據(jù)分析問題的。因此,本書不僅討論一般機器學習書籍所涵蓋的內(nèi)容,也討論預測分析項目的生命周期、數(shù)據(jù)準備、特征設計和模型部署。
本書可作為計算機科學、自然與社會科學、工程以及商學專業(yè)本科生和研究生的機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)分析或人工智能課程的教材。書中的案例研究展示了機器學習在工業(yè)領域的數(shù)據(jù)分析方面的應用,因此本書也可以作為從業(yè)者的參考材料,還可用作工業(yè)界的培訓教材。
本書基于我們多年教授機器學習的經(jīng)驗編寫而成,書中的方法和素材源于課堂,并經(jīng)過了實踐檢驗。在撰寫本書的過程中,為使這些素材更易于理解,我們采用了如下指導原則:
將最重要且最常用的算法解釋清楚,而不是籠統(tǒng)地囊括機器學習的所有方面。作為教師,我們認為讓學生深入理解一個領域的核心和基礎概念能夠為他們打下堅實的基礎,如此學生才能夠獨立地探索這個領域。這種見微知著的方法使我們能夠用更多的篇幅去介紹、解釋、闡明和情境化那些較為基礎和實用的算法。
在從技術上正式地描述算法的原理之前,先通俗地解釋算法的意圖。對每個主題進行通俗的介紹,可以使學生在學習更為技術性的內(nèi)容之前打下堅實的基礎。我們針對本科生、研究生和專業(yè)人士等的教學經(jīng)驗表明,這些通俗的介紹能使學生輕松地理解主題。
提供完整的實用范例。在本書中,我們展示了所有范例的完整運作方式,這樣能使讀者檢查自己的理解程度。
本書結(jié)構
在教授一個技術主題時,展示其實際應用是非常重要的。為此,我們在預測數(shù)據(jù)分析這一重要且處于成長期的工業(yè)界機器學習應用情境下展現(xiàn)機器學習。機器學習與數(shù)據(jù)分析的聯(lián)系貫穿本書的每一章。在第1章中,介紹機器學習,并解釋機器學習在標準的數(shù)據(jù)分析項目的生命周期中所扮演的角色。在第2章,呈現(xiàn)一個設計和構建預測分析解決方案的框架,該框架基于機器學習且能夠滿足商業(yè)需要。所有機器學習算法都假設存在一個可供訓練的數(shù)據(jù)集。因此,第3章闡釋在預先建好的預測模型上使用數(shù)據(jù)集前如何對數(shù)據(jù)集進行設計、構建和質(zhì)量檢查。
第4~7章是本書的主要機器學習章節(jié),每一章都展示了不同的機器學習方法:第4章為通過搜集信息來學習;第5章為通過類比來學習;第6章為通過預測可能的結(jié)果來學習;第7章為通過搜索誤差最小的解來學習。這些章節(jié)都分為如下兩部分:
第一部分首先對該章內(nèi)容進行通俗的介紹,緊接著詳細地闡釋理解這些內(nèi)容所需的技術概念,然后展示使用該學習方法的一個標準機器學習算法以及詳細的實用范例。
第二部分闡釋該標準機器學習算法的各種拓展方法,以及所延伸出的著名的變種算法。
將這些章節(jié)分為兩部分的目的在于自然地將該章內(nèi)容分節(jié)。由此,一節(jié)課就可以涵蓋每章的第一部分(大思路、基礎知識、標準方法),即一個主題。接著——如果時間允許的話——課程的主題可以延伸至第二部分的全部或部分內(nèi)容。第8章闡述如何評估預測模型的性能,并展示了一系列不同的評估指標。該章也由標準方法以及延伸與拓展這兩部分組成。在所有技術章節(jié)中,更為廣泛的預測分析場景持續(xù)地穿插于翔實、完整的實際范例中,并且給出了范例所基于的數(shù)據(jù)集和論文的引用來源。
第9和10章的案例研究(客戶流失、星系分類)清晰地展現(xiàn)了廣泛的商業(yè)情境與機器學習之間的聯(lián)系,尤其強調(diào)許多超越建模的問題和任務(比如商業(yè)理解、問題定義、數(shù)據(jù)收集和準備,以及對見解進行交流)對預測分析項目的重要性。最后,第11章討論機器學習中一系列基礎性的話題,并強調(diào)了針對給定問題選擇合適的機器學習方法不僅涉及關于模型精確度的因素,而且必須將模型的特性與商業(yè)需求進行匹配。
如何使用本書
多年的教學工作,使我們對適用于一學期的導論課程和適用于兩學期的高階課程所需的教學內(nèi)容有了清晰的認識。為使本書適用于上述兩種不同的教學情境,本書的內(nèi)容是模塊化的,各章之間沒有太多依賴關系。因此,教師在使用本書時只需選擇自己想要講授的部分,而不需要擔心這些部分之間的依賴關系。講課時,第1、2、9~11章的內(nèi)容通常需要2~3課時,而第3~8章的內(nèi)容則通常需要4~6課時。
我們在表1中列出了針對不同情況的建議授課計劃。所有課程都包含第1章(面向預測數(shù)據(jù)分析的機器學習)和第11章(面向預測數(shù)據(jù)分析的機器學習藝術)。列出的第一門課程M.L.(短,深入)設計為一學期機器學習課程,這門課程側(cè)重于讓學生深入理解兩個機器學習方法,以及了解在評估一個機器學習模型時所應使用的正確方法。在建議的課程中,我們決定納入全部第4章(基于信息的學習)的內(nèi)容,以及第7章(基于誤差的學習)的內(nèi)容。但這些內(nèi)容也可被第5章(基于相似性的學習)和/或第6章(基于概率的學習)取代。M.L. (短,深入)也是短期(一周)專業(yè)人員培訓的理想課程。第二門課程M.L.(短,廣泛)則是另一種一學期機器學習課程,這門課程側(cè)重于涵蓋一系列機器學習方法,并且包括了詳細的評估方法。對于長達兩學期的機器學習課程M.L.(長)來說,我們建議講授數(shù)據(jù)準備(3.6節(jié))、所有的
譯者序
前言
符號記法
第1章 面向預測數(shù)據(jù)分析的機器學習 1
1.1 什么是預測數(shù)據(jù)分析 1
1.2 什么是機器學習 2
1.3 機器學習的工作原理 4
1.4 機器學習會產(chǎn)生什么問題 7
1.5 預測數(shù)據(jù)分析項目的生命周期:CRISP-DM 9
1.6 預測數(shù)據(jù)分析工具 10
1.7 本書概覽 11
1.8 習題 12
第2章 數(shù)據(jù)到見解再到?jīng)Q策 13
2.1 將商業(yè)問題轉(zhuǎn)化為分析解決方案 13
2.2 可行性評估 14
2.3 設計分析基礎表 16
2.4 特征的設計與實現(xiàn) 19
2.4.1 不同的數(shù)據(jù)類型 20
2.4.2 不同的特征類型 20
2.4.3 處理時間 21
2.4.4 法律問題 23
2.4.5 特征的實現(xiàn) 25
2.4.6 案例研究:汽車保險詐騙 25
2.5 總結(jié) 28
2.6 延伸閱讀 28
2.7 習題 29
第3章 數(shù)據(jù)探索 31
3.1 數(shù)據(jù)質(zhì)量報告 31
3.2 了解數(shù)據(jù) 35
3.2.1 正態(tài)分布 37
3.2.2 案例研究:汽車保險詐騙 38
3.3 找出數(shù)據(jù)質(zhì)量問題 39
3.3.1 缺失值 39
3.3.2 異;鶖(shù) 40
3.3.3 離群點 40
3.3.4 案例研究:汽車保險詐騙 41
3.4 處理數(shù)據(jù)質(zhì)量問題 42
3.4.1 處理缺失值 43
3.4.2 處理離群點 43
3.4.3 案例研究:汽車保險詐騙 44
3.5 高階數(shù)據(jù)探索 45
3.5.1 可視化特征之間的關系 45
3.5.2 度量協(xié)方差和相關性 52
3.6 數(shù)據(jù)準備 56
3.6.1 歸一化 56
3.6.2 分箱 57
3.6.3 采樣 60
3.7 總結(jié) 61
3.8 延伸閱讀 62
3.9 習題 62
第4章 基于信息的學習 73
4.1 大思路 73
4.2 基礎知識 75
4.2.1 決策樹 75
4.2.2 香農(nóng)熵模型 77
4.2.3 信息增益 80
4.3 標準方法:ID3算法 83
4.4 延伸與拓展 89
4.4.1 其他特征選取與純度度量方法 89
4.4.2 處理連續(xù)描述性特征 92
4.4.3 預測連續(xù)目標 95
4.4.4 剪枝 98
4.4.5 模型組合 100
4.5 總結(jié) 103
4.6 延伸閱讀 104
4.7 習題 104
第5章 基于相似性的學習 109
5.1 大思路 109
5.2 基本概念 110
5.2.1 特征空間 110
5.2.2 用距離度量測量相似性 111
5.3 標準方法:最近鄰算法 113
5.4 延伸與拓展 116
5.4.1 處理嘈雜數(shù)據(jù) 116
5.4.2 高效內(nèi)存搜索 118
5.4.3 數(shù)據(jù)歸一化 124
5.4.4 預測連續(xù)目標 127
5.4.5 其他相似性測量 129
5.4.6 特征選取 136
5.5 總結(jié) 141
5.6 延伸閱讀 143
5.7 后記 144
5.8 習題 144
第6章 基于概率的學習 149
6.1 大思路 149
6.2 基礎知識 151
6.2.1 貝葉斯定理 152
6.2.2 貝葉斯預測 154
6.2.3 條件獨立與因子化 157
6.3 標準方法:樸素貝葉斯模型 160
6.4 延伸與拓展 163
6.4.1 平滑 163
6.4.2 連續(xù)特征:概率密度函數(shù) 166
6.4.3 連續(xù)特征:分箱 174
6.4.4 貝葉斯網(wǎng)絡 177
6.5 總結(jié) 187
6.6 延伸閱讀 188
6.7 習題 188
第7章 基于誤差的學習 192
7.1 大思路 192
7.2 基礎知識 192
7.2.1 簡單線性回歸 193
7.2.2 測量誤差 194
7.2.3 誤差曲面 196
7.3 標準方法:使用梯度下降法的多變量線性回歸 197
7.3.1 多變量線性回歸 198
7.3.2 梯度下降法 198
7.3.3 選擇學習率和初始權值 203
7.3.4 實用范例 204
7.4 延伸與拓展 206
7.4.1 解釋多變量線性回歸模型 206
7.4.2 用權值衰減設定學習率 208
7.4.3 處理類別描述性特征 209
7.4.4 處理類別目標特征:對數(shù)幾率回歸 210
7.4.5 建模非線性關系 219
7.4.6 多項對數(shù)幾率回歸 223
7.4.7 支持向量機 226
7.5 總結(jié) 229
7.6 延伸閱讀 231
7.7 習題 231
第8章 評估 237
8.1 大思路 237
8.2 基礎知識 238
8.3 標準方法:留出測試集上的誤分類率 238
8.4 延伸與拓展 241
8.4.1 設計評估實驗 241
8.4.2 性能度量:類別目標 246
8.4.3 性能度量:預測得分 252
8.4.4 性能度量:多項目標 264
8.4.5 性能度量:連續(xù)目標 265
8.4.6 評估部署后的模型 268
8.5 總結(jié) 273
8.6 延伸閱讀 273
8.7 習題 274
第9章 案例研究:客戶流失 278
9.1 商業(yè)理解 278
9.2 數(shù)據(jù)理解 280
9.3 數(shù)據(jù)準備 283
9.4 建模 286
9.5 評估 289
9.6 部署 290
第10章 案例研究:星系分類 292
10.1 商業(yè)理解 292
10.2 數(shù)據(jù)理解 294
10.3 數(shù)據(jù)準備 299
10.4 建模 303
10.4.1 基準模型 303
10.4.2 特征選取 305
10.4.3 5級別模型 306
10.5 評估 307
10.6 部署 308
第11章 面向預測數(shù)據(jù)分析的機器學習藝術 309
11.1 預測模型的不同視角 310
11.2 選擇機器學習方法 313
11.2.1 將機器學習方法和項目匹配 315
11.2.2 將機器學習方法和數(shù)據(jù)匹配 315
11.3 總結(jié) 316
附錄A 機器學習的描述性統(tǒng)計量與數(shù)據(jù)可視化 317
附錄B 機器學習的概率論導論 326
附錄C 機器學習中的求導方法 332
參考文獻 336
索引 343