定 價(jià):78 元
叢書名:大數(shù)據(jù)管理與應(yīng)用系列叢書
- 作者:呂欣,王夢(mèng)寧
- 出版時(shí)間:2025/6/1
- ISBN:9787030818447
- 出 版 社:科學(xué)出版社
- 中圖法分類:TP311.131
- 頁碼:428
- 紙張:
- 版次:1
- 開本:16
本書內(nèi)容涵蓋統(tǒng)計(jì)描述、相關(guān)分析、回歸分析、數(shù)據(jù)降維、關(guān)聯(lián)規(guī)則挖掘、分類、聚類、異常檢測(cè)和集成學(xué)習(xí)等數(shù)據(jù)挖掘9大核心領(lǐng)域。通過原理解析、數(shù)學(xué)推導(dǎo)、流程分析、計(jì)算示例和案例演示,精心設(shè)計(jì)231個(gè)圖表、47個(gè)代碼示例及5大類學(xué)習(xí)模塊,遴選了45個(gè)實(shí)踐案例,全方位促進(jìn)讀者對(duì)內(nèi)容的理解和掌握。此外,本書還配套豐富的數(shù)字化學(xué)習(xí)資源和全套教輔資料,形成了理論與實(shí)踐并重的立體化教學(xué)體系。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
大數(shù)據(jù)挖掘國家杰出青年科學(xué)基金
教育部科技進(jìn)步二等獎(jiǎng)
目錄
第1章 緒論
1.1 大數(shù)據(jù)時(shí)代 2
1.2 大數(shù)據(jù)基本概念 3
1.2.1 大數(shù)據(jù)定義與內(nèi)涵 3
1.2.2 大數(shù)據(jù)的主要特征 4
1.3 大數(shù)據(jù)與數(shù)據(jù)挖掘 6
1.3.1 大數(shù)據(jù)挖掘相關(guān)概念 6
1.3.2數(shù)據(jù)挖掘基本流程 7
1.3.3數(shù)據(jù)挖掘技術(shù)體系 9
1.3.4 大數(shù)據(jù)時(shí)代的挑戰(zhàn) 15
1.4 大數(shù)據(jù)挖掘的典型應(yīng)用 17
1.4.1 金融大數(shù)據(jù) 17
1.4.2 醫(yī)療大數(shù)據(jù) 18
1.4.3 制造業(yè)大數(shù)據(jù) 19
1.4.4 社交媒體大數(shù)據(jù) 20
1.5 大數(shù)據(jù)挖掘隱私與倫理問題 20
1.5.1 數(shù)據(jù)挖掘隱私問題 20
1.5.2 數(shù)據(jù)挖掘倫理問題 22
1.5.3 數(shù)據(jù)挖掘行為規(guī)范 22
本章小結(jié) 24
第2章 數(shù)據(jù)描述與統(tǒng)計(jì)指標(biāo)
2.1 數(shù)據(jù)預(yù)處理 26
2.1.1 數(shù)據(jù)預(yù)處理概要 26
2.1.2 數(shù)據(jù)清洗 27
2.1.3 數(shù)據(jù)集成 32
2.1.4 數(shù)據(jù)獅 33
2.1.5 數(shù)據(jù)變換 37
2.1.6 實(shí)踐案例:線上零售交易數(shù)據(jù)預(yù)處理 39
2.2 數(shù)據(jù)屬性 40
2.2.1 標(biāo)稱屬性 40
2.2.2 系數(shù)屬性 41
2.2.3 數(shù)值屬性 42
2.2.4 離散屬性與連續(xù)屬性 43
2.3 數(shù)據(jù)描述性統(tǒng)計(jì) 43
2.3.1 集中趨勢(shì)度量 44
2.3.2 離散程度度量 46
2.3.3 分布形態(tài)度量 50
2.3.4 描述性統(tǒng)計(jì)常用工具 52
2.3.5 實(shí)踐案例:化妝品銷售數(shù)據(jù)描述性統(tǒng)計(jì)分析 53
2.4 數(shù)據(jù)可視化 54
2.4.1 條形圖 55
2.4.2 餅圖 56
2.4.3 箱線圖 56
2.4.4 直方圖 57
2.4.5 折線圖 57
2.4.6散點(diǎn)圖 58
2.4.7 氣泡圖 59
2.4.8 數(shù)據(jù)可視化常用工具 60
2.4.9 實(shí)踐案例:鉆石屬性數(shù)據(jù)可視化分析 60
本章小結(jié) 64
第3章 相關(guān)分析
3.1 認(rèn)識(shí)函數(shù)關(guān)系與相關(guān)關(guān)系 67
3.1.1 函數(shù)關(guān)系 67
3.1.2 相關(guān)關(guān)系 67
3.2 線性相關(guān)分析 69
3.2.1 相關(guān)分析的正態(tài)性檢驗(yàn) 70
3.2.2 Pearson 相關(guān)系數(shù) 72
3.2.3 Spearman 秩相關(guān)系數(shù) 72
3.2.4 Kendall等級(jí)相關(guān)系數(shù) 74
3.2.5 實(shí)踐案例:網(wǎng)絡(luò)直播大數(shù)據(jù)和亞馬遜評(píng)論數(shù)據(jù)相關(guān)分析 76
3.3 非線性相關(guān)分析 79
3.3.1 認(rèn)識(shí)非線性相關(guān)性 79
3.3.2 互信息 80
3.3.3 最大信息緣 82
3.3.4 實(shí)踐案例:橋梁振動(dòng)的相關(guān)分析 83
3.4 偏相關(guān)分析 85
3.4.1 偏相關(guān)分析概述 85
3.4.2 實(shí)踐案例:國內(nèi)主要城市年度統(tǒng)計(jì)指標(biāo)數(shù)據(jù)偏相關(guān)分析 87
3.5 距離相關(guān)分析 89
3.5.1 距離度量方法 89
3.5.2 實(shí)踐案例:用戶相似性度量 94
本章小結(jié) 98
第4章 回歸分析
4.1 回歸分析概論 101
4.1.1 高爾頓身高回歸研究 101
4.1.2 回歸分析概述 102
4.1.3 回歸模型的評(píng)價(jià)指標(biāo) 103
4.2 線性回歸 105
4.2.1 一元線性回歸 105
4.2.2 實(shí)踐案例:直播平臺(tái)觀眾數(shù)預(yù)測(cè) 108
4.2.3 多元線性回歸 110
4.2.4 實(shí)踐案例:基于多元線性回歸的汽車燃油效率預(yù)測(cè) 114
4.3 多重共線性 117
4.3.1 認(rèn)識(shí)多重共線性 117
4.3.2 多重共線性的診斷 118
4.3.3 多重共線性的解決方案 119
4.4 嶺回歸 120
4.4.1 嶺回歸概述 120
4.4.2 嶺參數(shù)的選擇 121
4.4.3 實(shí)踐案例:基于嶺回歸的汽車燃油效率預(yù)測(cè) 122
4.5 LASSO 回歸 123
4.5.1 LASSO 回歸概述 123
4.5.2 坐標(biāo)下降法 124
4.5.3 實(shí)踐案例:基于LASSO回歸的汽車燃油效率預(yù)測(cè) 125
4.6 非線性回歸 127
4.6.1 本質(zhì)線性模型 127
4.6.2 本質(zhì)非線性模型 129
4.6.3 實(shí)踐案例:基于工齡的月薪預(yù)測(cè) 129
本章小結(jié) 133
第5章 數(shù)據(jù)降維
5.1 降維的基本概念 136
5.1.1 降維的定義及原理 136
5.1.2 降維算法分類 136
5.2 奇異值分解 137
5.2.1 奇異值分解基本原理 137
5.2.2 奇異值分解算法評(píng)價(jià) 140
5.2.3 實(shí)踐案例:基于奇異值分解的圖像壓縮 140
5.3 主成分分析 142
5.3.1 主成分分析基本原理 142
5.3.2 主成分分析算法評(píng)價(jià) 146
5.3.3 實(shí)踐案例:基于主成分分析的鳶尾花數(shù)據(jù)集分析 147
5.4 因子分析 150
5.4.1 因子分析基本原理 150
5.4.2 因子分析算法評(píng)價(jià) 156
5.4.3 實(shí)踐案例:基于因子分析的人格特征潛在因子挖掘 156
5.5 多維尺度變換 158
5.5.1 多維尺度變換基本原理 158
5.5.2 多維尺度變換算法評(píng)價(jià) 160
5.5.3 實(shí)踐案例:基于多維尺度變換的人臉數(shù)據(jù)集降維 160
5.6 等距特征映射 163
5.6.1 等距特征映射基本原理 163
5.6.2 等距特征映射算法評(píng)價(jià) 165
5.6.3 實(shí)踐案例:基于等距特征映射的S狀流形模型降維 165
5.7 線性判別分析 167
5.7.1 線性判別分析基本原理 167
5.7.2 線性判別分析算法評(píng)價(jià) 170
5.7.3 實(shí)踐案例:基于線性判別分析的三維數(shù)據(jù)集降維 170
5.8 t-SNE 172
5.8.1 t-SNE基本原理 172
5.8.2 t-SNE算法評(píng)價(jià) 175
5.8.3 實(shí)踐案例:基于t-SNE的手寫數(shù)字?jǐn)?shù)據(jù)集降維 175
5.9 UMAP 177
5.9.1 UMAP算法基本思想 177
5.9.2 UMAP算法評(píng)價(jià) 179
5.9.3 實(shí)踐案例:基于UMAP的手寫數(shù)字?jǐn)?shù)據(jù)集降維 179
本章小結(jié) 181
第6章 關(guān)聯(lián)規(guī)則挖掘
6.1 關(guān)聯(lián)規(guī)則挖掘概要 184
6.1.1 關(guān)聯(lián)規(guī)則的含義 184
6.1.2 頻繁項(xiàng)集 186
6.1.3 閉頻繁項(xiàng)集和極大頻繁項(xiàng)集 187
6.1.4 從頻繁項(xiàng)集到關(guān)聯(lián)規(guī)則 189
6.1.5 關(guān)聯(lián)模式的評(píng)估 191
6.2 Apriori 算法 197
6.2.1 Apriori算法基本原理 197
6.2.2 Apriori算法應(yīng)用與評(píng)價(jià) 198
6.2.3 Apriori算法的優(yōu)化 200
6.2.4 實(shí)踐案例:基于Apriori算法的超市商品購買記錄關(guān)聯(lián)分析 202
6.3 FP-growth 算法 204
6.3.1 FP-growth算法基本原理 204
6.3.2 FP-growth算法應(yīng)用與評(píng)價(jià) 209
6.3.3 實(shí)踐案例:基于FP-growth算法消費(fèi)者購物時(shí)間偏好關(guān)聯(lián)分析 209
6.4 Eclat 算法 211
6.4.1 Eclat算法基本原理 211
6.4.2 Eclat算法應(yīng)用與評(píng)價(jià) 213
6.4.3實(shí)踐案例:基于Eclat算法的糖尿病癥狀關(guān)聯(lián)分析 213
6.5 H-mine 算法 216
6.5.1 H-mine算法基本原理 216
6.5.2 H-mine算法應(yīng)用與評(píng)價(jià) 221
6.5.3 實(shí)踐案例:基于H-mine算法的新聞推薦 221
本章小結(jié) 224
第7章 分類
7.1 分類霞概要 227
7.1.1 分類定義及原理 227
7.1.2 常用分類算法 227
7.1.3 分類算法評(píng)價(jià)指標(biāo) 228
7.2 K-近鄰 232
7.2.1 K-近鄰基本原理 232
7.2.2 K-近鄰主要參數(shù) 233
7.2.3 K-近鄰算法應(yīng)用與評(píng)價(jià) 234
7.2.4 實(shí)踐案例:基于K-近鄰的廣告點(diǎn)擊預(yù)測(cè) 234
7.3 樸素貝葉斯分類 237
7.3.1 貝葉斯分類基本原理 237
7.3.2 樸素貝葉斯分類原理 238
7.3.3 零頻現(xiàn)象的拉普拉斯修正 240
7.3.4 樸素貝葉斯算法應(yīng)用與評(píng)價(jià) 241
7.3.5 實(shí)踐案例:基于樸素貝葉斯預(yù)測(cè)恒星類型 241
7.4 決策樹 244
7.4.1 決策樹基本原理 245
7.4.2 ID3 247
7.4.3 C4.5 250
7.4.4 CART 252
7.4.5 決策樹算法應(yīng)用與評(píng)價(jià) 254
7.4.6 實(shí)踐案例:基于決策樹的旅游業(yè)客戶流失預(yù)測(cè) 255
7.5 Logistic 回歸 258
7.5.1 從線性回歸到Logistic回歸 258
7.5.2 Logistic回歸的損失函數(shù) 260
7.5.3 通過梯度下降求解最優(yōu)參數(shù) 260
7.5.4 OvR和OvO 262
7.5.5 Logistic回歸算法應(yīng)用與評(píng)價(jià) 263
7.5.6 實(shí)踐案例:基于Logistic回歸的肝病預(yù)測(cè) 263
7.6 支持向量機(jī) 265
7.6.1 支持向量機(jī)概述 266
7.6.2 線性可分支持向量機(jī) 266
7.6.3 線性支持向量機(jī) 270
7.6.4 非線性支持向量機(jī) 273
7.6.5 支持向量機(jī)算法應(yīng)用與評(píng)價(jià) 276
7.6.6 實(shí)踐案例:不良用戶識(shí)別 277
7.7 人工神經(jīng)網(wǎng)絡(luò) 278
7.7.1 感知機(jī) 278
7.7.2 XOR問題 280
7.7.3 多層感知樹莫型 281
7.7.4 誤差反向傳播算法 284
7.7.5 深度神經(jīng)網(wǎng)絡(luò) 288
7.7.6 實(shí)踐案例:基于面部特征的性別分類 290
本章小結(jié) 293
第8章 聚類
8.1 聚類算法概要 295
8.1.1 聚類的基本原理 295
8.1.2 聚類算法的分類 296
8.1.3 聚類算法評(píng)價(jià)指標(biāo) 297
8.1.4 簇?cái)?shù)量的確定 303
8.2 層次聚類 305
8.2.1 層次聚類算法基本原理 305
8.2.2 層次聚類算法應(yīng)用與評(píng)價(jià) 307
8.2.3 實(shí)踐案例:基于層次聚類的小麥種子聚類 307
8.3 K-means聚類 309
8.3.1 K-means算法基本原理 309
8.3.2 質(zhì)心的初始化 310
8.3.3 K-means算法應(yīng)用與評(píng)價(jià) 311
8.3.4 實(shí)踐案例:基于K-means消費(fèi)者畫像構(gòu)建 311
8.4 高斯混合聚類 313
8.4.1 高斯混合聚類基本原理 314
8.4.2 高斯混合聚類流程 315
8.4.3 高斯混合聚類應(yīng)用與評(píng)價(jià) 316
8.4.4 實(shí)踐案例:基于高斯混合聚類的食品聚類 316
8.5 DBSCAN算法 318
8.5.1 DBSCAN算法基本原理 318
8.5.2 DBSCAN算法應(yīng)用與評(píng)價(jià) 319
8.5.3實(shí)踐案例:基于DBSCAN的用戶信用卡數(shù)據(jù)聚類 320
8.6 OPTICS 算法 322
8.6.1 OPTICS算法基本原理 322
8.6.2 OPTICS算法應(yīng)用與評(píng)價(jià) 324
8.6.3 實(shí)踐案例:OPTICS與DBSCAN算法對(duì)比 324
8.7 譜聚類算法 327
8.7.1 譜聚類算法基本原理 327
8.7.2 譜聚類算法應(yīng)用與評(píng)價(jià) 333
8.7.3 實(shí)踐案例:基于譜聚類的股票數(shù)據(jù)聚類 333
本章小結(jié) 335
第9章 異常檢測(cè)
9.1 異常檢測(cè)算法概要 337
9.1.1 異常與異常檢測(cè) 337
9.1.2 異常檢測(cè)算法的分類 338
9.1.3 異常檢測(cè)的常用數(shù)據(jù)集 339
9.2 基于統(tǒng)計(jì)理論的異常檢測(cè) 342
9.2.1 3*準(zhǔn)則 343
9.2.2 箱線圖 344
9.2.3 基于直方圖的異常值得分 345
9.2.4 累積和法 347
9.2.5 實(shí)踐案例:基于箱線圖的wiki網(wǎng)絡(luò)流量異常檢測(cè) 350
9.3 基于空間分布的異常檢測(cè) 351
9.3.1 孤立森林 352
9.3.2 局部異常因子 355
9.3.3 實(shí)踐案例:基于局部異常因子的信用卡欺詐行為檢測(cè) 357
9.4 基于降維的異常檢測(cè) 359
9.4.1 主成分分析 359
9.4.2 自編碼器 362
9.4.3 實(shí)踐案例:基于主成分分析的飛機(jī)發(fā)動(dòng)機(jī)異常狀態(tài)識(shí)別 363
9.5 基于預(yù)測(cè)的異常檢測(cè) 365
9.5.1 向量自回歸模型 366
9.5.2 自回歸差分移動(dòng)平均模型 367
9.5.3 LSTM網(wǎng)絡(luò)模型 370
9.5.4 實(shí)踐案例:基于LSTM的股票收盤價(jià)格異常檢測(cè) 373
9.6 延伸閱讀——WSARE 375
本章小結(jié) 378
第10章 集成學(xué)習(xí)
10.1 集成學(xué)習(xí)概要 381
10.1.1 集成學(xué)習(xí)的定義及原理 381
10.1.2 Bagging(裝袋) 382
10.1.3 Boosting(提升) 384
10.1.4 Stacking(堆疊) 385
10.1.5 集成學(xué)習(xí)的結(jié)合策略 386
10.2 隨機(jī)森林 388
10.2.1 隨機(jī)森林基本原理 388
10.2.2 隨機(jī)森林算法應(yīng)用與評(píng)價(jià) 390
10.2.3 實(shí)踐案例:基于隨機(jī)森林算法的銀行危機(jī)預(yù)測(cè) 390
10.3 AdaBoost 393
10.3.1 加法模型 394
10.3.2 前向分布算法 395
10.3.3 AdaBoost求解步驟 395
10.3.4 AdaBoost算法應(yīng)用與評(píng)價(jià) 397
10.3.5實(shí)踐案例:基于AdaBoost算法的馬疝病預(yù)測(cè) 397
10.4 梯度提升樹 400
10.4.1 回歸樹基本原理 400
10.4.2 梯度提升樹基本原理 402
10.4.3 梯度提升樹算法應(yīng)用與評(píng)價(jià) 404
10.4.4 實(shí)踐案例:基于梯度提升樹算法的充電樁故障狀態(tài)預(yù)測(cè) 405
10.5 XGBoost 407
10.5.1 XGBoost基本原理 408
10.5.2 XGBoost目標(biāo)函數(shù)構(gòu)建 409
10.5.3 XGBoost目標(biāo)函數(shù)求解 410
10.5.4 XGBoost算法應(yīng)用與評(píng)價(jià) 412
10.5.5 實(shí)踐案例:基于XGBoost算法的產(chǎn)品定價(jià)預(yù)測(cè) 413
10.6 LightGBM 416
10.6.1 LightGBM 的基本思想 416
10.6.2 直方圖算法 417
10.6.3 梯度單邊采樣算法 419
10.6.4 互斥特征捆綁算法 421
10.6.5 LightGBM算法應(yīng)用與評(píng)價(jià) 423
10.6.6 實(shí)踐案例:基于LightGBM算法的中風(fēng)預(yù)測(cè) 424
本章小結(jié) 427