本書系統(tǒng)介紹了數(shù)據(jù)挖掘原理、算法和應用的相關知識。主要內容包括:數(shù)據(jù)存儲;數(shù)據(jù)與處理;數(shù)據(jù)相似度與異常檢測;數(shù)據(jù)分類和預測;數(shù)據(jù)聚類分析;數(shù)據(jù)關聯(lián)分析等。
隨著信息技術的普及和應用,各個領域產生了大量的數(shù)據(jù),這些數(shù)據(jù)被獲取、存儲下來,其中蘊含著豐富的信息。人們持續(xù)不斷地探索處理這些數(shù)據(jù)的方法,以期最大程度地從中挖掘有用的信息,面對如潮水般不斷增加的數(shù)據(jù),人們不再滿足于數(shù)據(jù)的查詢和統(tǒng)計分析,而是期望從數(shù)據(jù)中提取信息或者知識為決策服務。數(shù)據(jù)挖掘技術突破了數(shù)據(jù)分析技術的種種局限,它結合統(tǒng)計學、數(shù)據(jù)庫、機器學習等技術解決從數(shù)據(jù)中發(fā)現(xiàn)新的信息,輔助決策這一難題,是正在飛速發(fā)展的前沿學科。一些大型企業(yè)對數(shù)據(jù)挖掘產品和工具的使用都超過20年,并已產生了期望的效應。此外,數(shù)據(jù)挖掘產品和工具在金融、商業(yè)、電信、醫(yī)學等多個領域也得到廣泛推廣應用。
數(shù)據(jù)挖掘并不是要取代其他數(shù)據(jù)分析技術,而是將它們作為其工作的基矗盡管有些技術(如關聯(lián)分析)是數(shù)據(jù)挖掘獨有的,但是,另一些技術(如聚類、分類和異常檢測)則建立在其他學科長期研究的基礎之上。數(shù)據(jù)挖掘利用已有技術加速其發(fā)展,并一直與其他學科的技術緊密結合。成功地進行數(shù)據(jù)挖掘是綜合使用多種技術,以及理解數(shù)據(jù)的專業(yè)人員和數(shù)據(jù)分析人員合作的成果。
本書結合數(shù)據(jù)挖掘技術的最新發(fā)展,系統(tǒng)地介紹了數(shù)據(jù)挖掘的基礎理論、技術原理、算法和應用,以使讀者對數(shù)據(jù)挖掘有一個系統(tǒng)、全面的了解。本書共9章,第1章主要介紹數(shù)據(jù)挖掘的基本概念和數(shù)據(jù)挖掘的過程。第2章主要介紹關系數(shù)據(jù)集和數(shù)據(jù)倉庫等數(shù)據(jù)存儲方式的基本概念、數(shù)據(jù)組織及其涉及的關鍵技術,以及分布式文件系統(tǒng)、NoSQL等大數(shù)據(jù)存儲方式的概念、結構、原理和數(shù)據(jù)組織方法等。第3章主要介紹了數(shù)據(jù)預處理的概念和必要性,以及數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉換、數(shù)據(jù)歸約、數(shù)據(jù)離散化和特征選擇等數(shù)據(jù)預處理技術。第4章主要介紹了相似度度量的基礎知識和5種異常檢測方法,并深入分析歐式距離等6種傳統(tǒng)的度量方法和大數(shù)據(jù)度量方法。第5章主要介紹了數(shù)據(jù)分類和預測的基本概念,決策樹分類、貝葉斯分類、神經網(wǎng)絡等分類方法,以及預測算法與應用。第6章主要介紹了數(shù)據(jù)聚類分析的基本概念,以及基于劃分、基于層次、基于密度、基于網(wǎng)格和基于模型的聚類算法,還介紹了聚類分析的評估方法及其應用。第7章主要介紹了關聯(lián)分析的基本概念,分析了關聯(lián)規(guī)則挖掘的兩個子任務:頻繁項集產生和規(guī)則產生,介紹了頻繁項集的緊湊表示及產生頻繁項集的其他方法、FP-growth算法、關聯(lián)評估及其應用等內容。第8章主要針對數(shù)據(jù)挖掘模型的評價和度量介紹了評分函數(shù)(包括常用的預測性評分函數(shù)和描述性評分函數(shù));介紹了針對數(shù)據(jù)挖掘模型的成本評價曲線;從評價模型復雜度角度介紹了最短描述長度原則等評價方法;針對模型有效性驗證介紹了交叉驗證和Bootstrap驗證方法;從數(shù)據(jù)挖掘模型效率和準確率提升角度,介紹了云計算和集成學習方法。第9章主要介紹了針對文本、圖像、語音識別、視頻、網(wǎng)絡拓撲、網(wǎng)絡輿情、推薦系統(tǒng)、空間數(shù)據(jù)和數(shù)據(jù)流等復雜數(shù)據(jù)的數(shù)據(jù)挖掘技術,分析了各類復雜數(shù)據(jù)的特點,介紹了相關數(shù)據(jù)挖掘的關鍵技術。本書涉及的內容較為廣泛,在教學時,可根據(jù)實際情況選擇。
本書由梁亞聲編寫第1、5章,徐欣編寫第8、9章,成小菊編寫第6、7章,梁佳領編寫第2、3章,朱霞編寫第4章。何成宇為第4章的編寫提供了部分資料。徐欣對全書進行了統(tǒng)稿。
本書編著得到了國家自然科學基金(61402426)資助。
由于作者水平有限,書中難免存在不妥之處,敬請讀者批評指正。
出版說明
前言
第1章 概述
1.1 從數(shù)據(jù)中獲取知識
1.2 數(shù)據(jù)挖掘的基本概念
1.3 數(shù)據(jù)挖掘的發(fā)展歷程
1.4 數(shù)據(jù)挖掘的功能和數(shù)據(jù)挖掘系統(tǒng)的分類
1.4.1 分類與回歸
1.4.2 聚類分析
1.4.3 關聯(lián)規(guī)則
1.4.4 時序模式
1.4.5 異常檢測
1.4.6 數(shù)據(jù)挖掘系統(tǒng)的分類
1.5 數(shù)據(jù)挖掘的過程
1.5.1 數(shù)據(jù)挖掘的一般流程
1.5.2 跨行業(yè)數(shù)據(jù)挖掘標準過程
1.6 數(shù)據(jù)挖掘與其他學科的關系
1.6.1 數(shù)據(jù)挖掘與數(shù)據(jù)庫知識發(fā)現(xiàn)
1.6.2 數(shù)據(jù)挖掘與數(shù)據(jù)庫查詢
1.6.3 數(shù)據(jù)挖掘與統(tǒng)計分析
1.6.4 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫
1.6.5 數(shù)據(jù)挖掘與聯(lián)機分析處理
1.6.6 數(shù)據(jù)挖掘與人工智能、專家系統(tǒng)、機器學習
1.7 數(shù)據(jù)挖掘的應用和發(fā)展趨勢
1.7.1 商業(yè)的數(shù)據(jù)挖掘
1.7.2 金融業(yè)的數(shù)據(jù)挖掘
1.7.3 欺詐偵測中的數(shù)據(jù)挖掘
1.7.4 DNA數(shù)據(jù)分析中的數(shù)據(jù)挖掘
1.7.5 電信業(yè)中的數(shù)據(jù)挖掘
1.7.6 科學和統(tǒng)計數(shù)據(jù)挖掘
1.7.7 數(shù)據(jù)挖掘系統(tǒng)和軟件
1.7.8 數(shù)據(jù)挖掘的發(fā)展趨勢
1.8 小結
1.9 習題
第2章 數(shù)據(jù)存儲
2.1 關系數(shù)據(jù)集
2.2 數(shù)據(jù)倉庫
2.2.1 數(shù)據(jù)倉庫的概念和特點
2.2.2 數(shù)據(jù)倉庫的數(shù)據(jù)組織
2.2.3 數(shù)據(jù)倉庫的關鍵技術
2.2.4 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關系
2.3 NoSQL數(shù)據(jù)庫
2.3.1 NoSQL概念與理論
2.3.2 NoSQL數(shù)據(jù)模型
2.3.3 NoSQL與關系數(shù)據(jù)庫
2.4 分布式文件系統(tǒng)
2.4.1 分布式文件系統(tǒng)的歷史
2.4.2 分布式文件系統(tǒng)的體系結構
2.4.3 谷歌文件系統(tǒng)(GoogleFS)
2.4.4 Hadoop分布式文件系統(tǒng)(HDFS)
2.5 小結
2.6 習題
第3章 數(shù)據(jù)預處理
3.1 數(shù)據(jù)預處理的必要性
3.2 數(shù)據(jù)清理
3.2.1 缺失數(shù)據(jù)處理方法
3.2.2 噪聲數(shù)據(jù)平滑技術
3.2.3 時間相關數(shù)據(jù)的處理
3.3 數(shù)據(jù)集成
3.3.1 實體識別與匹配
3.3.2 冗余和相關分析
3.3.3 元組重復數(shù)據(jù)的檢測
3.3.4 沖突數(shù)據(jù)的檢測與處理
3.4 數(shù)據(jù)轉換
3.4.1 數(shù)據(jù)標準化
3.4.2 數(shù)據(jù)泛化
3.5 數(shù)據(jù)歸約
3.5.1 數(shù)據(jù)立方體聚集
3.5.2 維度歸約
3.5.3 數(shù)據(jù)壓縮
3.5.4 數(shù)值歸約
3.6 數(shù)據(jù)離散化
3.6.1 分箱方法
3.6.2 直方圖分析
3.6.3 基于熵的離散化
3.6.4 ChiMerge技術
3.6.5 人工劃分分段
3.7 特征提取、選擇和構造
3.7.1 特征提取
3.7.2 特征選擇
3.7.3 特征構造
3.8 小結
3.9 習題
第4章 數(shù)據(jù)相似度與異常檢測
4.1 相似度度量
4.1.1 對象與屬性類型
4.1.2 相似度度量的定義
4.1.3 由距離度量變換而來的相似度度量
4.1.4 屬性之間的相似度度量
4.1.5 對象之間的相似度度量
4.2 傳統(tǒng)度量方法
4.2.1 二值屬性的相似度度量
4.2.2 歐氏距離
4.2.3 余弦距離
4.2.4 Mahalanobis距離
4.2.5 Jaccard距離
4.2.6 海明距離
4.3 大數(shù)據(jù)度量方法
4.3.1 文檔的Shingling
4.3.2 局部敏感散列算法
4.4 異常檢測
4.4.1 基于統(tǒng)計的檢測方法
4.4.2 基于距離的檢測方法
4.4.3 基于密度的檢測方法
4.4.4 基于聚類的檢測方法
4.4.5 基于分類的檢測方法
4.4.6 高維數(shù)據(jù)中的異常點檢測
4.5 小結
4.6 習題
第5章 數(shù)據(jù)分類和預測
5.1 分類和預測的基本概念
5.1.1 準備數(shù)據(jù)
5.1.2 分類和預測方法的評估標準
5.2 決策樹分類
5.2.1 ID3算法生成決策樹
5.2.2 C4.5 算法生成決策樹
5.2.3 CART算法和Gini指標
5.2.4 決策樹歸納的可擴展性
5.2.5 數(shù)據(jù)倉庫與決策樹
5.2.6 決策樹和決策規(guī)則的局限性
5.3 貝葉斯分類
5.3.1 貝葉斯定理
5.3.2 樸素貝葉斯分類
5.3.3 貝葉斯信念網(wǎng)絡
5.3.4 訓練貝葉斯信念網(wǎng)絡
5.4 神經網(wǎng)絡
5.4.1 多層前饋神經網(wǎng)絡
5.4.2 定義神經網(wǎng)絡的拓撲結構
5.4.3 后向傳播
5.4.4 后向傳播和可理解性
5.5 其他分類方法
5.5.1 基于關聯(lián)的分類方法
5.5.2 K-最近鄰分類
5.5.3 基于案例推理
5.5.4 遺傳算法
5.5.5 粗糙集方法
5.5.6 模糊集合方法
5.6 預測算法
5.6.1 預測算法分類
5.6.2 預測算法選擇
5.6.3 線性和多元回歸
5.6.4 非線性回歸
5.6.5 其他回歸模型
5.7 分類預測應用實例
5.7.1 樣本選取
5.7.2 建立預測模型
5.7.3 模型評估
5.7.4 實用價值
5.8 小結
5.9 習題
第6章 數(shù)據(jù)聚類分析
6.1 基本概念
6.1.1 對聚類分析的要求
6.1.2 聚類分析方法分類
6.2 劃分聚類算法
6.2.1 K-means算法(基于質心的技術)
6.2.2 K-medoids算法(基于代表對象的技術)
6.3 層次聚類算法
6.3.1 BIRCH算法
6.3.2 CURE算法
6.3.3 ROCK算法
6.3.4 Chameleon算法
6.4 基于密度的聚類算法
6.4.1 DBSCAN算法
6.4.2 OPTICS算法
6.4.3 DENCLUE算法
6.5 基于網(wǎng)格的聚類算法
6.5.1 STING算法
6.5.2 WaveCluster算法
6.5.3 CLIQUE算法
6.6 基于模型的聚類算法
6.6.1 EM算法
6.6.2 COBWEB算法
6.6.3 SOM算法
6.7 聚類評估
6.7.1 估計聚類趨勢
6.7.2 確定簇數(shù)
6.7.3 測定聚類質量
6.8 聚類分析應用實例
6.8.1 問題理解與提出
6.8.2 數(shù)據(jù)收集與選擇
6.8.3 數(shù)據(jù)預處理
6.8.4 應用K-means聚類算法建模
6.9 小結
6.10 習題
第7章 數(shù)據(jù)關聯(lián)分析
7.1 數(shù)據(jù)關聯(lián)分析的基本概念
7.2 頻繁項集產生
7.2.1 先驗原理
7.2.2 Apriori算法的頻繁項集產生
7.2.3 支持度計數(shù)
7.2.4 計算復雜度
7.3 規(guī)則產生
7.3.1 基本步驟
7.3.2 Apriori算法中規(guī)則的產生
7.4 頻繁項集的緊湊表示
7.4.1 最大頻繁項集
7.4.2 閉頻繁項集
7.5 產生頻繁項集的其他方法
7.5.1 項集格遍歷
7.5.2 事務數(shù)據(jù)集的表示
7.6 FP-Growth算法
7.6.1 FP樹構造
7.6.2 頻繁項集產生
7.7 關聯(lián)評估
7.7.1 興趣度客觀度量
7.7.2 多個二元變量的度量
7.7.3 傾斜支持度分布的影響
7.8 關聯(lián)分析應用實例
7.8.1 關聯(lián)分析學生成績
7.8.2 數(shù)據(jù)處理
7.8.3 算法的應用
7.8.4 挖掘結果的分析
7.9 小結
7.10 習題
第8章 性能評估和提升
8.1 評分函數(shù)
8.1.1 預測性評分函數(shù)
8.1.2 描述性評分函數(shù)
8.1.3 一致性評價
8.2 成本評價
8.2.1 成本評價曲線
8.2.2 Cost-Sensitive學習
8.3 復雜度評估
8.4 驗證
8.4.1 交叉驗證
8.4.2 Bootstrap
8.4.3 模型比較
8.5 性能提升
8.5.1 效率提升
8.5.2 準確率提升
8.6 小結
8.7 習題
第9章 復雜數(shù)據(jù)挖掘
9.1 文本數(shù)據(jù)挖掘
9.1.1 文本數(shù)據(jù)預處理
9.1.2 文本數(shù)據(jù)挖掘技術
9.1.3 文本數(shù)據(jù)挖掘的應用
9.2 圖像數(shù)據(jù)挖掘
9.2.1 圖像數(shù)據(jù)的特點和挖掘技術現(xiàn)狀
9.2.2 圖像數(shù)據(jù)預處理
9.2.3 圖像數(shù)據(jù)挖掘技術
9.2.4 圖像數(shù)據(jù)挖掘的應用
9.3 語音識別挖掘
9.3.1 語音數(shù)據(jù)特點及挖掘技術現(xiàn)狀
9.3.2 語音信號預處理
9.3.3 語音識別技術
9.3.4 語音識別技術的應用
9.4 視頻數(shù)據(jù)挖掘
9.4.1 視頻數(shù)據(jù)特點及挖掘技術現(xiàn)狀
9.4.2 視頻數(shù)據(jù)預處理
9.4.3 視頻數(shù)據(jù)挖掘技術
9.4.4 視頻數(shù)據(jù)挖掘的應用
9.5 網(wǎng)絡拓撲挖掘
9.5.1 拓撲發(fā)現(xiàn)的技術現(xiàn)狀及網(wǎng)絡數(shù)據(jù)的采集
9.5.2 基于挖掘技術的網(wǎng)絡拓撲發(fā)現(xiàn)
9.6 網(wǎng)絡輿情挖掘
9.6.1 輿情研究發(fā)展現(xiàn)狀及輿情特點
9.6.2 網(wǎng)絡輿情數(shù)據(jù)預處理
9.6.3 網(wǎng)絡輿情挖掘技術
9.7 推薦系統(tǒng)
9.7.1 推薦系統(tǒng)發(fā)展現(xiàn)狀
9.7.2 相關技術
9.7.3 推薦系統(tǒng)
9.8 空間數(shù)據(jù)挖掘
9.8.1 空間數(shù)據(jù)的特點
9.8.2 空間數(shù)據(jù)預處理
9.8.3 空間數(shù)據(jù)挖掘技術
9.8.4 空間數(shù)據(jù)挖掘工具
9.9 數(shù)據(jù)流挖掘
9.9.1 數(shù)據(jù)流的特點
9.9.2 數(shù)據(jù)流預處理
9.9.3 數(shù)據(jù)流挖掘技術
9.9.4 數(shù)據(jù)流挖掘技術的應用
9.10 小結
9.11 習題
參考文獻