數(shù)據(jù)挖掘原理與應(yīng)用 第2版 葛東旭 數(shù)據(jù)挖掘
定 價:75 元
當前圖書已被 2 所學校薦購過!
查看明細
- 作者:葛東旭
- 出版時間:2025/9/1
- ISBN:9787111788409
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書以數(shù)據(jù)挖掘項目的完整開發(fā)流程為主線,系統(tǒng)地介紹了數(shù)據(jù)挖掘生命周期的各個環(huán)節(jié),深入剖析了其中涉及的核心概念、關(guān)鍵技術(shù)和方法論體系。針對數(shù)據(jù)挖掘的基礎(chǔ)算法部分,本書通過理論闡述、實例演示和深入討論相結(jié)合的方式,全面展現(xiàn)了算法的本質(zhì)內(nèi)涵,幫助讀者實現(xiàn)從認知到掌握的進階學習! ≡趦(nèi)容架構(gòu)上,本書完整覆蓋了數(shù)據(jù)挖掘的理論體系、算法實現(xiàn)和實際應(yīng)用三大維度,具體包括數(shù)據(jù)采集、預(yù)處理、分類分析、聚類分析、關(guān)聯(lián)分析等關(guān)鍵環(huán)節(jié),以及數(shù)據(jù)挖掘系統(tǒng)的工程化應(yīng)用。通過典型應(yīng)用場景的引入,本書創(chuàng)新性地實現(xiàn)了理論知識與工程實踐的有機融合,既保證了專業(yè)深度,又突出了實踐指導價值! ”緯冗m合作為普通高校計算機科學與技術(shù)、信息管理、大數(shù)據(jù)等相關(guān)專業(yè)的核心課教材,也可為企事業(yè)單位的數(shù)據(jù)分析人員和管理者提供專業(yè)的技術(shù)參考! ”緯溆须娮诱n件,及與書中例題、作業(yè)題配套的數(shù)據(jù)素材,習題答案詳解,歡迎選用本書作教材的教師發(fā)郵件到j(luò)inacmp@163.com索取,或登錄www.cmpedu.com注冊后下載。
本書遵循教指委相關(guān)指導文件和高等院校學生學習規(guī)律編寫而成。踐行四新理念,融入思政元素,注重理論與實踐相結(jié)合。
隨著現(xiàn)代信息技術(shù)的迅猛發(fā)展和現(xiàn)代管理理論的持續(xù)創(chuàng)新,人類社會對信息資源的開發(fā)利用正經(jīng)歷著前所未有的變革。信息已成為知識的基石,數(shù)據(jù)成為連接萬物的紐帶,這種轉(zhuǎn)變深刻影響著社會經(jīng)濟、科技創(chuàng)新、生產(chǎn)管理、文化傳播和生活方式等各個領(lǐng)域。數(shù)據(jù)采集與應(yīng)用技術(shù)的進步,正推動著工業(yè)生產(chǎn)向標準化和精準化轉(zhuǎn)型,促進城市管理向智慧化升級,引領(lǐng)社會服務(wù)向人性化和精細化發(fā)展。數(shù)據(jù)資源化進程不僅催生了全新的數(shù)據(jù)生產(chǎn)與消費產(chǎn)業(yè),更使數(shù)據(jù)成為現(xiàn)代社會運轉(zhuǎn)不可或缺的核心要素。人類文明在經(jīng)歷了農(nóng)業(yè)社會、工業(yè)社會和信息社會的演進后,正邁入一個嶄新的歷史階段—數(shù)據(jù)社會! (shù)據(jù)的核心價值在于其全生命周期的開發(fā)利用,包括采集存儲、組織積累、處理分析和挖掘應(yīng)用等關(guān)鍵環(huán)節(jié)。在數(shù)據(jù)爆炸式增長與社會需求的雙重驅(qū)動下,借助互聯(lián)網(wǎng)和信息傳播技術(shù)的突破性發(fā)展,現(xiàn)代數(shù)據(jù)呈現(xiàn)出顯著的“4V”特征:數(shù)據(jù)體量龐大(Volume)、數(shù)據(jù)類型多樣(Variety)、處理速度要求高(Velocity)以及價值密度降低(Value)。這種變革使人們無論主動或被動,都已置身于大數(shù)據(jù)時代的洪流之中! 〈髷(shù)據(jù)時代的來臨孕育了一門新興學科—數(shù)據(jù)科學。該學科致力于研究數(shù)據(jù)處理、分析和應(yīng)用的技術(shù)與方法,旨在充分挖掘數(shù)據(jù)潛在價值,推動人類社會進步。學科發(fā)展最直觀地體現(xiàn)在科技創(chuàng)新和教育改革領(lǐng)域。為滿足社會對數(shù)據(jù)科學技術(shù)的迫切需求,近年來高等院校紛紛設(shè)立數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)、智能科學與技術(shù)、人工智能、機器人工程以及大數(shù)據(jù)管理與應(yīng)用等交叉融合的新興專業(yè),在數(shù)據(jù)科學研究和人才培養(yǎng)方面取得了重要突破。 面對海量數(shù)據(jù)資源及其對社會發(fā)展的深遠影響,開發(fā)高效的數(shù)據(jù)價值挖掘工具和方法成為當務(wù)之急。數(shù)據(jù)挖掘作為一門融合統(tǒng)計學、機器學習、數(shù)據(jù)庫技術(shù)和人工智能的交叉學科應(yīng)運而生。雖然興起于20世紀末,但憑借其強大的生命力和顯著的應(yīng)用成效,這項智能分析技術(shù)已展現(xiàn)出廣闊的發(fā)展前景! ∽鳛橐婚T綜合性新興學科,數(shù)據(jù)挖掘技術(shù)應(yīng)用范圍廣泛,正快速滲透到各個領(lǐng)域。數(shù)據(jù)分析師、科研人員和工程技術(shù)專家都迫切需要掌握這項關(guān)鍵技術(shù)。在高等教育領(lǐng)域,數(shù)據(jù)挖掘已成為工科、理科乃至金融、醫(yī)學等專業(yè)的重要課程,體現(xiàn)了它在多學科交叉中的核心地位。 數(shù)據(jù)挖掘技術(shù)的根本價值在于:通過系統(tǒng)的技術(shù)方法和管理流程,在工業(yè)、科研和商業(yè)等領(lǐng)域,從海量數(shù)據(jù)中發(fā)掘潛在的有價值的知識,最終解決實際生產(chǎn)、經(jīng)營和服務(wù)中的各類問題。為此,本書特別強調(diào)對數(shù)據(jù)挖掘全流程各個環(huán)節(jié)的深入理解和掌握,通過詳盡的闡述,讓讀者認識到數(shù)據(jù)挖掘不僅是算法應(yīng)用和模型構(gòu)建,更是一個包含問題分析、數(shù)據(jù)理解、數(shù)據(jù)處理、算法實現(xiàn),以及最重要的實際問題解決等完整環(huán)節(jié)的系統(tǒng)工程。只有全面把握這些關(guān)鍵環(huán)節(jié),才能真正實現(xiàn)通過數(shù)據(jù)挖掘提升管理效能和服務(wù)質(zhì)量的目標! ”緯到y(tǒng)闡述了數(shù)據(jù)挖掘的基本原理、技術(shù)流程和應(yīng)用實踐,整合了信息科學、計算科學和統(tǒng)計學的理論方法,詳細介紹了主流挖掘算法及其實現(xiàn)。通過真實案例解析,幫助讀者深入理解各類數(shù)據(jù)挖掘模型。學習本書需要具備概率統(tǒng)計、程序設(shè)計、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫等基礎(chǔ)知識。本書既適合作為數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)、信息與計算科學、信息管理等專業(yè)的教材,也可供跨學科研究者參考使用! ”緯10章,系統(tǒng)地介紹了數(shù)據(jù)挖掘的理論與實踐。第1章闡述數(shù)據(jù)挖掘的發(fā)展歷程和基本概念;第2章詳細解析數(shù)據(jù)挖掘的完整流程及各環(huán)節(jié)的任務(wù),幫助讀者建立整體認知框架;第3章重點講解數(shù)據(jù)收集、抽樣和清理等預(yù)處理的關(guān)鍵方法;第4章介紹在正式建模前進行數(shù)據(jù)初步探索和分析的必要內(nèi)容;第5~8章分別深入講解數(shù)據(jù)挖掘的核心算法,即關(guān)聯(lián)分析、分類預(yù)測、聚類分析和回歸分析;第9章概述當前主流的數(shù)據(jù)挖掘軟件工具;第10章專門介紹易用性強的開源數(shù)據(jù)挖掘系統(tǒng)WEKA軟件! 2025年上半年,對本書第1版進行了全面修訂并推出了第2版。本次修訂主要修正了第1版中的錯誤與疏漏,并對全書進行了規(guī)范化處理。具體包括:第3章重新調(diào)整了內(nèi)容結(jié)構(gòu),新增了特征選擇、數(shù)據(jù)編碼等關(guān)鍵技術(shù)環(huán)節(jié),同時補充了因子分析方法,優(yōu)化了線性判別分析的介紹;第6章增加了k-近鄰分類算法的詳細說明,以及Boosting和Bagging集成分類器的內(nèi)容;第7章新增了譜聚類算法的原理和應(yīng)用;第8章完善了有序和無序Logistic回歸的介紹;為保持全書的一致性,第10章也更新了相關(guān)內(nèi)容。此外,還對其余部分章節(jié)內(nèi)容進行了更新,擴充了各章的思考與練習的題目,并優(yōu)化了參考答案的質(zhì)量。 在本書的編寫過程中,力求內(nèi)容全面、科學嚴謹且通俗易懂,為此參考了大量互聯(lián)網(wǎng)上熱心學者和愛好者分享的寶貴資料,同時也借鑒了諸多相關(guān)專業(yè)書籍。在此,謹向所有被參考資料的作者致以誠摯的謝意! ∮捎诒緯鴥(nèi)容涵蓋多學科領(lǐng)域的專業(yè)知識,加之編者水平和精力有限,書中難免存在疏漏或不足之處。懇請廣大讀者在使用過程中不吝賜教,如有任何寶貴意見或建議,歡迎發(fā)送郵件至1184844262@qq.com進行交流,定將認真對待并及時回復致謝! 「饢|旭
高等院校教師
前言第1章 緒論 11.1 信息爆炸與大數(shù)據(jù) 11.2 什么是數(shù)據(jù)挖掘 51.3 數(shù)據(jù)挖掘的任務(wù) 61.4 數(shù)據(jù)挖掘的應(yīng)用 71.5 數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu) 91.6 數(shù)據(jù)挖掘面臨的挑戰(zhàn) 91.7 數(shù)據(jù)挖掘樣例數(shù)據(jù)和相關(guān)資料 10本章小結(jié) 13思考與練習 13參考文獻 13第2章 數(shù)據(jù)挖掘的過程 142.1 數(shù)據(jù)分析能力 142.2 數(shù)據(jù)挖掘的過程 162.3 三階段過程模型 172.3.1 數(shù)據(jù)準備 172.3.2 數(shù)據(jù)挖掘 182.3.3 解釋評估 192.4 SEMMA方法 192.4.1 SEMMA過程 192.4.2 數(shù)據(jù)抽樣 202.4.3 數(shù)據(jù)特征的探索、分析和預(yù)處理 202.4.4 問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇 202.4.5 模型研發(fā)與知識發(fā)現(xiàn) 212.4.6 模型和知識的綜合解釋和評價 212.5 CRISP-DM過程模型 212.5.1 商業(yè)理解 222.5.2 數(shù)據(jù)理解 222.5.3 數(shù)據(jù)準備 232.5.4 模型建立 232.5.5 模型評估 242.5.6 模型發(fā)布 242.6 5A模型 252.7 模型融合 25本章小結(jié) 26思考與練習 26參考文獻 26第3章 數(shù)據(jù)準備 283.1 數(shù)據(jù)收集 283.2 數(shù)據(jù)抽樣 293.2.1 抽樣方法 293.2.2 數(shù)據(jù)挖掘的抽樣策略 313.3 數(shù)據(jù)集成 323.3.1 數(shù)據(jù)聯(lián)邦 343.3.2 數(shù)據(jù)倉庫 363.3.3 中間件 383.3.4 數(shù)據(jù)集成應(yīng)用模式 393.4 數(shù)據(jù)清理 393.4.1 數(shù)據(jù)問題 393.4.2 清洗方法 403.5 維度歸約 423.5.1 維歸約 433.5.2 特征子集選擇 433.5.3 特征創(chuàng)建 463.6 數(shù)據(jù)變換 473.6.1 離散化和概念分層 473.6.2 數(shù)據(jù)編碼 483.6.3 主成分分析法 503.6.4 因子分析 533.6.5 線性判別分析 56本章小結(jié) 59思考與練習 59參考文獻 61第4章 數(shù)據(jù)探索 624.1 數(shù)據(jù)探索的作用 624.2 數(shù)據(jù)可視化 644.2.1 直方圖 654.2.2 盒狀圖 694.2.3 莖葉圖 704.2.4 餅圖 724.2.5 累積分布圖 724.2.6 散點圖 734.2.7 等高線圖 754.2.8 曲面圖 754.2.9 低維切片圖 764.2.10 矩陣圖 764.2.11 平行坐標系圖 774.2.12 其他技術(shù) 784.2.13 可視化的原則 804.2.14 應(yīng)用可視化方法 804.3 數(shù)據(jù)統(tǒng)計分析 814.3.1 集中量數(shù) 814.3.2 差異量數(shù) 854.3.3 多元匯總統(tǒng)計 874.3.4 相關(guān)性分析 884.4 加載Excel插件 894.4.1 加載數(shù)據(jù)分析插件 894.4.2 加載統(tǒng)計分析插件 90本章小結(jié) 90思考與練習 91參考文獻 92第5章 關(guān)聯(lián)分析 935.1 關(guān)聯(lián)分析原理 935.1.1 問題提出 935.1.2 基本概念 945.1.3 關(guān)聯(lián)規(guī)則挖掘 965.2 由候選項集產(chǎn)生頻繁項集 975.2.1 蠻力方法 975.2.2 先驗算法 995.2.3 Fk-1×F1方法 1045.2.4 Fk-1×Fk-1方法 1045.3 計算支持度計數(shù) 1065.3.1 用事務(wù)去逐個統(tǒng)計候選項集 1065.3.2 枚舉各事務(wù)中的項集并計數(shù) 1075.3.3 Hash樹 1085.4 FP-Growth算法 1105.4.1 FP-樹的創(chuàng)建 1105.4.2 從FP-樹中提取頻繁項集 1125.4.3 FP-Growth算法 1165.5 產(chǎn)生頻繁項集算法復雜度 1175.5.1 Apriori原理下的算法復雜度 1175.5.2 FP-Growth算法的復雜度 1195.6 生成規(guī)則 1195.6.1 關(guān)聯(lián)規(guī)則的概念 1195.6.2 生成規(guī)則的方法 1195.7 關(guān)聯(lián)規(guī)則的評估 1245.7.1 提升度 1245.7.2 杠桿率 1255.7.3 確信度 1255.7.4 興趣因子 1265.7.5 Kulc度量 1275.7.6 余弦度量 1275.7.7 不平衡比 1285.7.8 相關(guān)分析 1285.7.9 IS度量 128本章小結(jié) 129思考與練習 129參考文獻 131第6章 分類預(yù)測 1326.1 分類的原理 1326.1.1 分類的基本原理 1326.1.2 建立分類模型的算法 1346.1.3 對分類算法的要求 1356.2 決策樹分類 1356.2.1 決策樹分類的原理 1356.2.2 CLS算法 1396.2.3 不同屬性的劃分方法 1406.2.4 信息增益 1426.2.5 信息增益率 1466.2.6 GINI系數(shù) 1486.2.7 分類誤差 1506.2.8 連續(xù)數(shù)值型屬性的離散化與劃分 1526.2.9 決策樹剪枝 1546.2.10 常見算法 1636.2.11 決策樹回歸分析 1646.2.12 決策樹分類的特點 1656.3 k-近鄰分類 1676.3.1 相似性的度量方法 1676.3.2 k值確定 1726.3.3 多數(shù)投票機制 1736.3.4 以近鄰半徑判定 1736.3.5 k-近鄰回歸 1736.3.6 算法特點 1746.4 貝葉斯分類器 1756.4.1 貝葉斯定理 1776.4.2 基于貝葉斯定理的分類應(yīng)用 1786.4.3 樸素貝葉斯分類器 1796.4.4 貝葉斯分類器評估 1856.4.5 貝葉斯信念網(wǎng)絡(luò) 1866.5 人工神經(jīng)網(wǎng)絡(luò) 1926.5.1 基本結(jié)構(gòu) 1936.5.2 基本特性 1976.5.3 BP人工神經(jīng)網(wǎng)絡(luò) 1986.5.4 其他神經(jīng)網(wǎng)絡(luò) 2056.6 支持向量機 2056.6.1 支持向量機的原理 2066.6.2 求解分割超平面 2106.6.3 復雜數(shù)據(jù)分類 2126.7 集成分類器 2156.7.1 提升(Boosting) 2166.7.2 自助聚合(Bagging) 2216.8 模型評估 2236.8.1 混淆矩陣及二元分類評估 2236.8.2 馬修相關(guān)系數(shù)(Mathew Correlation Coeff?icient,MCC) 2256.8.3 F度量(F-Measure) 2256.8.4 ROC 2266.8.5 PR曲線 228本章小結(jié) 229思考與練習 230參考文獻 231第7章 聚類分析 2337.1 聚類的基本概念 2337.1.1 相似性的度量方法 2347.1.2 聚類分析的分類 2357.1.3 典型聚類算法 2367.2 k均值(k-means)聚類方法 2367.2.1 k-means算法 2367.2.2 k-means算法的特點 2427.2.3 k中心點(k-medoids)算法 2437.3 層次聚類 2447.3.1 層次聚類的算法 2457.3.2 簇的相似度衡量方法 2487.3.3 層次聚類的特點 2517.4 DBSCAN聚類 2517.4.1 DBSCAN算法 2517.4.2 選擇Eps和minPts 2527.4.3 DBSCAN算法的特點 2567.5 譜聚類 2577.5.1 譜聚類算法 2577.5.2 譜聚類算法的特點 2637.6 聚類算法評估 2647.6.1 聚類算法的要求 2647.6.2 簇評估 265本章小結(jié) 267思考與練習 268參考文獻 269第8章 回歸分析 2708.1 回歸分析的概念 2708.2 回歸算法 2718.2.1 一元線性回歸分析 2718.2.2 多元線性回歸分析 2748.2.3 非線性回歸數(shù)據(jù)分析 2768.2.4 Logistic回歸 2788.3 回歸的評估與檢驗 2838.3.1 R方 2838.3.2 F檢驗 2848.3.3 t檢驗 286本章小結(jié) 288思考與練習 288參考文獻 291第9章 數(shù)據(jù)挖掘的工具 2929.1 MATLAB 2929.2 SPSS Modeler 2939.3 SAS Enterprise Miner 2949.4 WEKA 2969.5 Python 296本章小結(jié) 297參考文獻 298第10章 WEKA數(shù)據(jù)挖掘應(yīng)用 29910.1 WEKA簡介 29910.1.1 WEKA安裝與運行 29910.1.2 Arff數(shù)據(jù)格式 30010.2 Explorer 30210.2.1 Preprocess(數(shù)據(jù)預(yù)處理) 30310.2.2 Associate(關(guān)聯(lián)分析) 30510.2.3 Classify(分類分析) 30910.2.4 回歸分析 32810.2.5 Cluster(聚類分析) 33610.2.6 Select Attributes(選擇屬性) 34310.2.7 Visualize(可視化) 34710.3 Experimenter 34810.3.1 設(shè)置模塊 34810.3.2 運行模塊 34810.3.3 分析模塊 34810.4 KnowledgeFlow 35010.5 WEKA API 35510.6 WEKA的設(shè)置和使用 35610.6.1 顯示漢字 35610.6.2 安裝算法包 357本章小結(jié) 358思考與練習 358參考文獻 359