本書主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術的基本原理和應用方法。全書共分為12章,主要內(nèi)容包括數(shù)據(jù)倉庫的概念和體系結(jié)構(gòu)、數(shù)據(jù)倉庫的數(shù)據(jù)存儲和處理、數(shù)據(jù)倉庫系統(tǒng)的設計與開發(fā)、關聯(lián)規(guī)則、數(shù)據(jù)分類、數(shù)據(jù)聚類、貝葉斯網(wǎng)絡、粗糙集、神經(jīng)網(wǎng)絡、遺傳算法、統(tǒng)計分析、文本和Web挖掘。
本書既重視理論知識的講解,又強調(diào)應用技能的培養(yǎng)。每章首先介紹算法的主要思想和理論基礎,之后利用算法去解決實例中給出的任務,而且對于數(shù)據(jù)倉庫的組建方法和多數(shù)章節(jié)中的數(shù)據(jù)挖掘算法,書中都使用Microsoft SQL Server 2005進行了操作實現(xiàn)。通過對具體實例的學習和實踐,使讀者掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘中必要的知識點,達到學以致用的目的。
本書每章均配有習題,習題形式為選擇題、簡答題和操作題,可以幫助讀者進一步掌握和鞏固所學知識。此外,本書提供多媒體教學課件和習題參考答案,讀者可到清華大學出版社網(wǎng)站http://www.tup.com.cn/下載。
本書可以作為高等學校計算機及相關專業(yè)本科、研究生的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘教材,也可供相關領域的廣大科技工作人員和高校師生參考。
本書主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術的基本原理和應用方法,全書共分為12章,主要內(nèi)容包括數(shù)據(jù)倉庫的概念和體系結(jié)構(gòu)、數(shù)據(jù)倉庫的數(shù)據(jù)存儲和處理、數(shù)據(jù)倉庫系統(tǒng)的設計與開發(fā)、關聯(lián)規(guī)則、數(shù)據(jù)分類、數(shù)據(jù)聚類、貝葉斯網(wǎng)絡、粗糙集、神經(jīng)網(wǎng)絡、遺傳算法、統(tǒng)計分析、文本和Web挖掘。
隨著計算機和信息時代的迅猛發(fā)展,人類收集、存儲和訪問數(shù)據(jù)的能力大大增強,快速增長的海量數(shù)據(jù)集已經(jīng)遠遠超出了人類的理解能力,傳統(tǒng)的數(shù)據(jù)分析工具也顯得力不從心。如何才能不被這些海量數(shù)據(jù)淹沒,而是有效地組織這些數(shù)據(jù),并且從中找出有價值的知識,幫助人類制定正確的決策?針對這一問題,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術應運而生,并且顯示出強大的生命力。要將海量數(shù)據(jù)轉(zhuǎn)換成為有用的信息和知識,首先要有效地收集和組織數(shù)據(jù)。數(shù)據(jù)倉庫是良好的數(shù)據(jù)收集和組織工具,它的任務是搜集來自各個業(yè)務系統(tǒng)的有用數(shù)據(jù),存放在一個集成的儲存區(qū)內(nèi)。在數(shù)據(jù)倉庫豐富完整的數(shù)據(jù)基礎上,數(shù)據(jù)挖掘技術可以從中挖掘出有價值的知識,從而幫助決策者正確決策。
本書主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術的基本原理和應用方法,全書共分為12章,主要內(nèi)容包括數(shù)據(jù)倉庫的概念和體系結(jié)構(gòu)、數(shù)據(jù)倉庫的數(shù)據(jù)存儲和處理、數(shù)據(jù)倉庫系統(tǒng)的設計與開發(fā)、關聯(lián)規(guī)則、數(shù)據(jù)分類、數(shù)據(jù)聚類、貝葉斯網(wǎng)絡、粗糙集、神經(jīng)網(wǎng)絡、遺傳算法、統(tǒng)計分析、文本和Web挖掘。其中,前3章主要介紹數(shù)據(jù)倉庫的基本原理和數(shù)據(jù)倉庫系統(tǒng)的組建方法,后面的章節(jié)介紹當前流行的數(shù)據(jù)挖掘算法的主要思想和理論基礎,并且給出豐富的應用實例。
本書緊跟數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術的發(fā)展和人才培養(yǎng)的目標,有以下幾個特點。
。1)可讀性強,文字敘述深入淺出,易讀易用,即使是初學者,閱讀起來也比較容易。
。2)概念清晰,條理清楚,內(nèi)容取舍合理。
。3)本書強調(diào)基礎,重視實例。各章節(jié)都以經(jīng)典算法為主,介紹其主要思想和基本原理,并且給出恰當和豐富的實例。
。4)書中實例和課后習題實用、豐富,通過練習,讀者可以對各個知識點從不同角度得到訓練,掌握和鞏固所學知識。
。5)教學資源豐富,本書提供多媒體教學課件和習題參考答案,方便教學。對于上述資源,讀者可到清華大學出版社的網(wǎng)站http://www.tup.com.cn/下載。
。6)對于數(shù)據(jù)倉庫的組建方法和多數(shù)章節(jié)中的數(shù)據(jù)挖掘算法,本書都使用MicrosoftSQLServer2005進行了操作實現(xiàn),這種做法與市場主流開發(fā)工具和技術同步,有利于讀者走向社會。
本書各章節(jié)之間銜接自然,同時各章節(jié)又有一定的獨立性,讀者可按教材的自然順序?qū)W習,也可以根據(jù)實際情況挑選需要的章節(jié)學習。
本書可以作為高等學校計算機及相關專業(yè)本科、研究生學習數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的教材,也可供相關領域的廣大科技工作人員和高校師生參考。
本書由陳志泊擔任主編,第1~3章由聶耿青編寫,第5章、第6章和第11章由韓慧編寫,第4章和第10章由孫俏編寫,第7~9章和第12章由王建新編寫。
由于時間倉促,加之編者水平有限,對于書中不足之處敬請讀者批評指正。
編者
2017年8月
第1章數(shù)據(jù)倉庫的概念與體系結(jié)構(gòu)
1.1數(shù)據(jù)倉庫的概念、特點與組成
1.1.1數(shù)據(jù)倉庫的特點
1.1.2數(shù)據(jù)倉庫的組成
1.2數(shù)據(jù)挖掘的概念與方法
1.2.1數(shù)據(jù)挖掘的分析方法
1.2.2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關系
1.3數(shù)據(jù)倉庫的技術、方法與產(chǎn)品
1.3.1OLAP技術
1.3.2數(shù)據(jù)倉庫實施的關鍵環(huán)節(jié)和技術
1.3.3數(shù)據(jù)倉庫實施方法論
1.3.4常用的數(shù)據(jù)倉庫產(chǎn)品
1.4數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)
1.4.1獨立的數(shù)據(jù)倉庫體系結(jié)構(gòu)
1.4.2基于獨立數(shù)據(jù)集市的數(shù)據(jù)倉庫體系結(jié)構(gòu)
1.4.3基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲的數(shù)據(jù)倉庫
體系結(jié)構(gòu)
1.4.4基于邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫的體系結(jié)構(gòu)
1.5數(shù)據(jù)倉庫的產(chǎn)生、發(fā)展與未來
1.5.1數(shù)據(jù)倉庫的產(chǎn)生
1.5.2數(shù)據(jù)倉庫的發(fā)展
1.5.3數(shù)據(jù)倉庫的未來
1.5.4新一代數(shù)據(jù)倉庫技術
1.6小結(jié)
1.7習題
第2章數(shù)據(jù)倉庫的數(shù)據(jù)存儲與處理
2.1數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)
2.2數(shù)據(jù)倉庫的數(shù)據(jù)特征
2.2.1狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)
2.2.2當前數(shù)據(jù)與周期數(shù)據(jù)
2.2.3元數(shù)據(jù)
2.3數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程
2.3.1ETL的目標
2.3.2ETL過程描述
2.3.3數(shù)據(jù)抽取
2.3.4數(shù)據(jù)清洗
2.3.5數(shù)據(jù)轉(zhuǎn)換
2.3.6數(shù)據(jù)加載和索引
2.4多維數(shù)據(jù)模型
2.4.1多維數(shù)據(jù)模型及其相關概念
2.4.2多維數(shù)據(jù)模型的實現(xiàn)
2.4.3多維建模技術
2.4.4星型模式舉例
2.5小結(jié)
2.6習題
第3章數(shù)據(jù)倉庫系統(tǒng)的設計與開發(fā)
3.1數(shù)據(jù)倉庫系統(tǒng)的設計與開發(fā)概述
3.1.1建立數(shù)據(jù)倉庫系統(tǒng)的步驟
3.1.2數(shù)據(jù)倉庫系統(tǒng)的生命周期
3.1.3建立數(shù)據(jù)倉庫系統(tǒng)的思維模式
3.1.4數(shù)據(jù)倉庫數(shù)據(jù)庫的設計步驟
3.2基于SQLServer2005的數(shù)據(jù)倉庫數(shù)據(jù)庫設計
3.2.1分析組織的業(yè)務狀況及數(shù)據(jù)源結(jié)構(gòu)
3.2.2組織需求調(diào)研,收集分析需求
3.2.3采用信息包圖法設計數(shù)據(jù)倉庫的概念模型
3.2.4利用星型圖設計數(shù)據(jù)倉庫的邏輯模型
3.2.5數(shù)據(jù)倉庫的物理模型設計
3.3使用SQLServer2005建立多維數(shù)據(jù)模型
3.3.1SQLServer2005示例數(shù)據(jù)倉庫環(huán)境的配置與使用
3.3.2基于SQLServer2005示例數(shù)據(jù)庫的多維數(shù)據(jù)模型
3.4小結(jié)
3.5習題
第4章關聯(lián)規(guī)則
4.1概述
4.2引例
4.3經(jīng)典算法
4.3.1Apriori算法
4.3.2FPgrowth算法
4.4相關研究與應用
4.4.1分類
4.4.2SQLServer2005中的關聯(lián)規(guī)則應用
4.5小結(jié)
4.6習題
第5章數(shù)據(jù)分類
5.1引例
5.2分類問題概述
5.2.1分類的過程
5.2.2分類的評價準則
5.3決策樹
5.3.1決策樹的基本概念
5.3.2決策樹算法ID3
5.3.3ID3算法應用舉例
5.3.4決策樹算法C4.5
5.3.5SQLServer2005中的決策樹應用
5.3.6決策樹剪枝
5.4支持向量機
5.5近鄰分類方法
5.5.1最近鄰分類方法
5.5.2k近鄰分類方法
5.5.3近鄰分類方法應用舉例
5.6小結(jié)
5.7習題
第6章數(shù)據(jù)聚類
6.1引例
6.2聚類分析概述
6.3聚類分析中相似度的計算方法
6.3.1連續(xù)型屬性的相似度計算方法
6.3.2二值離散型屬性的相似度計算方法
6.3.3多值離散型屬性的相似度計算方法
6.3.4混合類型屬性的相似度計算方法
6.4Kmeans聚類算法
6.4.1Kmeans聚類算法的基本概念
6.4.2SQLserver2005中的Kmeans應用
6.5層次聚類方法
6.5.1層次聚類方法的基本概念
6.5.2層次聚類方法應用舉例
6.6小結(jié)
6.7習題
第7章貝葉斯網(wǎng)絡
7.1引例
7.2貝葉斯概率基礎
7.2.1先驗概率、后驗概率和條件概率
7.2.2條件概率公式
7.2.3全概率公式
7.2.4貝葉斯公式
7.3貝葉斯網(wǎng)絡概述
7.3.1貝葉斯網(wǎng)絡的組成和結(jié)構(gòu)
7.3.2貝葉斯網(wǎng)絡的優(yōu)越性
7.3.3貝葉斯網(wǎng)絡的三個主要議題
7.4貝葉斯網(wǎng)絡的預測、診斷和訓練算法
7.4.1概率和條件概率數(shù)據(jù)
7.4.2貝葉斯網(wǎng)絡的預測算法
7.4.3貝葉斯網(wǎng)絡的診斷算法
7.4.4貝葉斯網(wǎng)絡預測和診斷的綜合算法
7.4.5貝葉斯網(wǎng)絡的建立和訓練算法
7.5SQLServer2005中的貝葉斯網(wǎng)絡應用
7.6小結(jié)
7.7習題
第8章粗糙集
8.1引例
8.2分類與知識
8.2.1等價關系和等價類
8.2.2分類
8.3粗糙集
8.3.1分類的運算
8.3.2分類的表達能力
8.3.3上近似集和下近似集
8.3.4正域、負域和邊界
8.3.5粗糙集應用舉例
8.3.6粗糙集的性質(zhì)
8.4辨識知識的簡化
8.4.1集合近似精度的度量
8.4.2分類近似的度量
8.4.3等價關系的可省略、獨立和核
8.4.4等價關系簡化舉例
8.4.5知識的相對簡化
8.4.6知識的相對簡化舉例
8.5決策規(guī)則簡化
8.5.1知識依賴性的度量
8.5.2簡化決策規(guī)則
8.5.3可辨識矩陣
8.6小結(jié)
8.7習題
第9章神經(jīng)網(wǎng)絡
9.1引例
9.2人工神經(jīng)網(wǎng)絡
9.2.1人工神經(jīng)網(wǎng)絡概述
9.2.2神經(jīng)元模型
9.2.3網(wǎng)絡結(jié)構(gòu)
9.3BP算法
9.3.1網(wǎng)絡結(jié)構(gòu)和數(shù)據(jù)示例
9.3.2有序?qū)?shù)
9.3.3計算誤差信號對參數(shù)的有序?qū)?shù)
9.3.4梯度下降
9.3.5BP算法描述
9.4SQLServer2005中的神經(jīng)網(wǎng)絡應用
9.5小結(jié)
9.6習題
第10章遺傳算法
10.1概述
10.2相關概念
10.3基本步驟
10.3.1概述
10.3.2引例
10.4算法設計
10.4.1編碼方式
10.4.2種群規(guī)模
10.4.3適應度函數(shù)
10.4.4遺傳算子
10.4.5終止條件
10.5相關研究與應用
10.6小結(jié)
10.7習題
第11章統(tǒng)計分析
11.1線性回歸模型
11.1.1線性回歸模型的參數(shù)估計
11.1.2線性回歸方程的判定系數(shù)
11.1.3線性回歸方程的檢驗
11.1.4統(tǒng)計軟件中的線性回歸分析
11.1.5SQLServer2005中的線性回歸應用
11.2Logistic回歸模型
11.2.1Logistic回歸模型的參數(shù)估計
11.2.2統(tǒng)計軟件中Logistic回歸的結(jié)果分析
11.2.3SQLServer2005中的Logistic回歸應用
11.3時間序列模型
11.3.1ARIMA模型
11.3.2建立ARIMA模型的步驟
11.3.3使用統(tǒng)計軟件估計ARIMA模型
11.3.4SQLServer2005中的時間序列分析
11.4小結(jié)
11.5習題
第12章文本和Web挖掘
12.1引例
12.2文本挖掘
12.2.1文本信息檢索概述
12.2.2基于關鍵字的關聯(lián)分析
12.2.3文檔自動聚類
12.2.4自動文檔分類
12.2.5自動摘要
12.3Web挖掘
12.3.1Web內(nèi)容挖掘
12.3.2Web結(jié)構(gòu)挖掘
12.3.3Web使用挖掘
12.4小結(jié)
12.5習題
參考文獻
第5章
數(shù)據(jù)分類
隨著計算機和信息時代的到來,人類收集、存儲和訪問數(shù)據(jù)的能力大大增強,快速增長的海量數(shù)據(jù)集被存儲在大型數(shù)據(jù)庫中,隨時充斥著我們的計算機、網(wǎng)絡和生活,理解如此豐富的數(shù)據(jù)已經(jīng)遠遠超出人類的能力,原有的數(shù)據(jù)分析工具也顯得力不從心。為了不被數(shù)據(jù)淹沒,而是從中及時發(fā)現(xiàn)有價值的信息,從而制定正確的決策,數(shù)據(jù)挖掘技術應運而生,并且顯示出強大的生命力。數(shù)據(jù)挖掘的方法多種多樣,包括關聯(lián)規(guī)則挖掘、分類、聚類和統(tǒng)計分析等,其中分類問題是數(shù)據(jù)挖掘領域中研究和應用最為廣泛的技術之一,如何更精確、更有效地分類一直是人們追求的目標。
5.1引例
分類是指把數(shù)據(jù)樣本映射到一個事先定義的類中的學習過程,即給定一組輸入的屬性向量及其對應的類,用基于歸納的學習算法得出分類。
分類問題是數(shù)據(jù)挖掘領域中研究和應用最為廣泛的技術之一,許多分類算法被包含在統(tǒng)計分析工具的軟件包中,作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學、文本挖掘和因特網(wǎng)篩選等領域都有廣泛應用。例如,在銀行業(yè)中,分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進行分類,從而采取有效措施減小銀行的損失;在醫(yī)療診斷中,分類方法可以幫助醫(yī)療人員將正常細胞和癌變細胞進行分類,從而及時制定救治方案,挽救病人的生命;在因特網(wǎng)篩選中,分類方法可以協(xié)助網(wǎng)絡工作人員將正常郵件和垃圾郵件進行分類,從而制定有效的垃圾郵件過濾機制,防止垃圾郵件干擾人們的正常生活。
分類問題中使用的數(shù)據(jù)集是用什么形式來表示的呢?如表5.1所示,數(shù)據(jù)集通過描述屬性和類別屬性來表示。其中,第一行中的Age,Salary稱為數(shù)據(jù)樣本的描述屬性,Class稱為數(shù)據(jù)樣本的類別屬性。從第二行開始的內(nèi)容分別對應描述屬性和類別屬性的具體取值。
表5.1分類問題的示例數(shù)據(jù)集
AgeSalaryClass
30highc1
25highc2
21lowc2
43highc1
18lowc2
33lowc1
在分類問題中,描述屬性可以是連續(xù)型屬性(continuousattribute),也可以是離散型屬性(discreteattribute);而類別屬性必須是離散型屬性。所謂連續(xù)型屬性,是指在某一個區(qū)間或者無窮區(qū)間內(nèi)該屬性的取值是連續(xù)的,表5.1中的屬性Age就是連續(xù)型屬性;離散型屬性是指該屬性的取值是不連續(xù)的,表5.1中的屬性Salary和Class就是離散型屬性。Salary的具體取值是high和low,表示工資的高和低
,Class的具體取值是c1和c2,表示該數(shù)據(jù)集分為兩個類別。在具體的應用中,針對不同的算法,有時需要將連續(xù)屬性轉(zhuǎn)化為離散屬性。
通過上述介紹,可以將分類問題中使用的數(shù)據(jù)集表示為X={(xi,yi)|i=1,2,…,
total},其中數(shù)據(jù)樣本xi(i=1,2,…,total)用d維特征向量xi=(xi1,xi2,…,xid)來表示,xi1,xi2,…,xid分別對應d個描述屬性A1,A2,…,Ad的具體取值;yi表示數(shù)據(jù)樣本xi的類標號。假設給定數(shù)據(jù)集包含m個類別,則yi∈{c1,c2,…,cm},其中c1,c2,…,cm是類別屬性C的具體取值,也稱為類標號。對于未知類標號的數(shù)據(jù)樣本x,用d維特征向量x=(x1,x2,…,xd)來表示。