本書以數(shù)據倉庫建設內容為主線,以理論基礎為核心,引導讀者漸進式地學習數(shù)據倉庫建設版圖中所需知識。通過認識數(shù)據基建、數(shù)據質量、數(shù)據安全、實時技術、數(shù)據治理、數(shù)據資產、數(shù)據服務、數(shù)據應用等8個模塊及常見遇到項目,使讀者能夠了解日常數(shù)據倉庫開發(fā)流程及數(shù)據倉庫工作具體內容,從而快速上手數(shù)據倉庫建設工作。
本書共14章,分為基礎篇、基建篇、應用篇、評價篇、展望篇;A篇(第1章和第2章)介紹數(shù)據倉庫框架和數(shù)據模型建設知識點;基建篇(第3~8章)詳細講述數(shù)據倉庫中每個板塊建設,由簡入深剖析搭建背景及搭建中細節(jié);應用篇(第9~11章)通過實戰(zhàn)講解,快速上手數(shù)據倉庫常見項目;評價篇(第12章和第13章)結合數(shù)據倉庫基建和項目,闡述完整數(shù)據倉庫需要具備的條件,并補充評價體系指標;展望篇(第14章)結合當前AIGC應用衍生出數(shù)據倉庫未來發(fā)展探索;本書示例代碼豐富,實際性和系統(tǒng)性較強,并配有視頻講解,助力讀者透徹理解書中的重點、難點。
本書適合初學者入門,也適合工作多年數(shù)據倉庫開發(fā)者借鑒學習,亦可作為高等院校和培訓機構相關專業(yè)的教學參考書。
本書旨在為廣大讀者提供全面、系統(tǒng)、實用的數(shù)據倉庫建設參考和指導。無論是從事數(shù)據倉庫設計和管理的專業(yè)人士,還是具備基本數(shù)據庫知識的技術愛好者都能夠從本書中找到適合自己的學習和實踐路徑,助力企業(yè)走向數(shù)據驅動的未來。
尊敬的讀者,在當今大數(shù)據時代,數(shù)據已成為企業(yè)發(fā)展和競爭的重要資源之一。然而,由于數(shù)據來源復雜、數(shù)據量龐大、數(shù)據類型多樣等因素,企業(yè)往往難以有效地利用這些數(shù)據來支持業(yè)務決策和創(chuàng)新發(fā)展。
現(xiàn)如今,解決數(shù)據問題的方案有很多,如數(shù)據庫、數(shù)據倉庫、數(shù)據湖等。各種技術架構也層出不窮。同時隨著云計算的普及,以上架構也分為云集群和本地集群,這兩種方案的人力成本和物力成本千差萬別。在如此繁多且復雜的架構中,如何選出適合自身業(yè)務的一款是重中之重。本書也會對不同的架構進行詳細介紹,并給出具體場景以供參考。
數(shù)據倉庫是解決這一矛盾的有效手段之一。它將分散的數(shù)據集成、整合,提供一致的數(shù)據視圖和查詢接口,幫助企業(yè)更好地理解自己的業(yè)務情況和市場趨勢,從而做出更明智的決策。
本書旨在介紹數(shù)據倉庫的基本概念、架構設計、實施方法和應用案例,全面闡述數(shù)據倉庫的建設過程和管理方法。具體來講,書中包含以下14章。
第1章: 認識數(shù)據倉庫,介紹數(shù)據倉庫的基本定義、歷史背景和發(fā)展趨勢,幫助讀者深入了解數(shù)據倉庫的意義和作用。
第2章: 數(shù)據倉庫模型建設,介紹數(shù)據倉庫的模型結構、維度建模方法和設計原則,幫助讀者理解數(shù)據倉庫的數(shù)據模型和關系結構。
第3章: 元數(shù)據,介紹元數(shù)據的定義、分類、建模和管理方法,幫助讀者全面掌握元數(shù)據管理的重要性和實現(xiàn)方法。
第4章: 數(shù)據指標體系,介紹數(shù)據指標的概念、分類、設計和應用方法,幫助讀者了解數(shù)據指標的本質和作用。
第5章: 數(shù)據質量,介紹數(shù)據質量的定義、評估、提升和監(jiān)控方法,幫助讀者掌握數(shù)據質量管理的技術和實踐。
第6章: 數(shù)據安全,介紹數(shù)據安全的定義、威脅、保障和監(jiān)管方法,幫助讀者理解數(shù)據安全的重要性和保護方法。
第7章: 數(shù)據治理,介紹數(shù)據治理的定義、框架、流程和實施方法,幫助讀者理解數(shù)據治理的目標和實踐。
第8章: 實時技術,介紹實時計算技術的原理、架構和實現(xiàn)方法,幫助讀者掌握實時數(shù)據倉庫的設計和實現(xiàn)方法。
第9章: 數(shù)據資產,介紹數(shù)據資產的定義、價值、管理和利用方法,幫助讀者充分發(fā)揮數(shù)據資產的價值和效能。
第10章: 數(shù)據服務,介紹數(shù)據服務的概念、分類、架構和實現(xiàn)方法,幫助讀者了解數(shù)據服務的本質和應用方法。
第11章: 數(shù)據應用,介紹數(shù)據應用的概念、類型、開發(fā)和部署方法,幫助讀者掌握數(shù)據應用的設計和實現(xiàn)技術。
第12章: 評價數(shù)據倉庫的好壞,介紹數(shù)據倉庫在建設后的評價體系,以及評價標準,幫助讀者了解數(shù)據倉庫建設過程的缺陷。
第13章: 數(shù)據價值,介紹數(shù)據對業(yè)務側提供數(shù)據支撐帶來的價值收益評估,幫助讀者量化數(shù)據帶來的影響。
第14章: AIGC對數(shù)據發(fā)展的影響,介紹數(shù)據與人工智能結合實現(xiàn)業(yè)務提效所帶來的業(yè)務發(fā)展,幫助讀者了解當前最新數(shù)據產品框架。
資源下載提示
素材(源碼)等資源: 掃描目錄上方的二維碼下載。
本書旨在為廣大讀者提供全面、系統(tǒng)、實用的數(shù)據倉庫建設參考和指導。無論是從事數(shù)據倉庫設計和管理的專業(yè)人士,還是具備基本數(shù)據庫知識的技術愛好者都能夠從本書中找到適合自己的學習和實踐路徑,助力企業(yè)走向數(shù)據驅動的未來。希望本書能夠為您提供有益的幫助和啟示。
筆者
2025年1月
程志遠,前阿里巴巴數(shù)據技術及產品部下數(shù)據研發(fā)工程師,現(xiàn)某大型互聯(lián)網公司數(shù)據倉庫工程師,數(shù)據倉庫全局版圖規(guī)劃者,全鏈路數(shù)據保障提出者及建設者,主導過2021阿里巴巴某業(yè)務線雙十一實時鏈路建設,能夠對多場景業(yè)務線提供解決架構方案。
左巖,中國電信股份有限公司技術專家,有著多年的數(shù)據領域從業(yè)經驗,擅長實時數(shù)據、數(shù)據治理、數(shù)據分析等方面的設計與實施。Apache Flink、Apache Doris、Flink CDC 、StarRocks、Fluss等開源項目Contributor,對于流式計算、實時數(shù)倉等技術有深入的研究。
翟文麟,曾擔任美團點評、京東等互聯(lián)網大廠資深數(shù)據研發(fā)工程師。負責部門數(shù)據架構制定與規(guī)劃,參與集團數(shù)據治理與數(shù)據應用的規(guī)劃和制定。從業(yè)務角度出發(fā),將數(shù)據轉化為資產,最終實現(xiàn)技術價值。
本書源碼
基礎篇
第1章認識數(shù)據倉庫00
1.1大數(shù)據在如今社會中的運用00
1.2大數(shù)據相關崗位介紹00
1.2.1數(shù)據倉庫崗位介紹00
1.2.2數(shù)據平臺崗位介紹00
1.2.3數(shù)據分析崗位介紹00
1.2.4數(shù)據產品崗位介紹00
1.2.5數(shù)據挖掘崗位介紹00
1.3大數(shù)據在企業(yè)中的組織架構00
1.3.1數(shù)據中臺00
1.3.2業(yè)務線數(shù)據00
1.4數(shù)據倉庫崗在大數(shù)據生態(tài)中的定位00
1.4.1數(shù)據倉庫概念00
1.4.2數(shù)據倉庫定位00
1.5數(shù)據倉庫發(fā)展史00
1.5.1數(shù)倉1.0傳統(tǒng)數(shù)據倉庫時代00
1.5.2數(shù)倉2.0 Hadoop生態(tài)時代00
1.5.3數(shù)倉3.0云端及數(shù)據平臺時代00
1.5.4數(shù)倉4.0湖倉一體時代00
1.6數(shù)據倉庫建設內容簡介00
1.6.1數(shù)據倉庫建設版圖0
1.6.2數(shù)據基建簡介0
1.6.3數(shù)據資產簡介0
1.6.4數(shù)據服務簡介 0
1.6.5數(shù)據應用簡介0
1.7數(shù)據倉庫架構介紹0
1.7.1Lambda架構0
1.7.2HSAP架構0
1.7.3流批一體架構0
1.7.4Doris架構0
1.8數(shù)據倉庫所使用的技術棧0
第2章數(shù)據倉庫模型建設0
2.1OLTP與OLAP0
2.1.1什么是OLTP0
2.1.2什么是OLAP0
2.1.3OLTP與OLAP的區(qū)別0
2.2數(shù)據倉庫分層0
2.2.1數(shù)據倉庫分層原理0
2.2.2數(shù)據倉庫分層內容0
2.3數(shù)據倉庫模型介紹0
2.4數(shù)據倉庫模型建設方法0
2.4.1三范式建模與維度建模介紹0
2.4.2三范式建模與維度建模區(qū)別0
2.5數(shù)據模型建設的具體流程0
2.5.1數(shù)據模型設計的基本原則0
2.5.2數(shù)據模型設計過程0
2.5.3數(shù)據模型建設五要素0
2.6數(shù)據域與主題域0
2.7事實表設計0
2.7.1事實表類型0
2.7.2三類事實表區(qū)別0
2.7.3全量和增量0
2.7.4拉鏈表0
2.7.5完整的數(shù)據模型內容案例0
2.8數(shù)據標準介紹0
2.8.1數(shù)據模型命名規(guī)范0
2.8.2數(shù)據模型命名詞根0
2.8.3字段命名規(guī)范0
2.8.4字段類型規(guī)范0
2.8.5數(shù)據模型元數(shù)據規(guī)范0
2.8.6數(shù)據模型分區(qū)生命周期0
2.9數(shù)據模型發(fā)展周期0
2.10數(shù)據模型分層新式方法0
基建篇
第3章元數(shù)據0
3.1元數(shù)據定義及分類0
3.1.1元數(shù)據定義0
3.1.2元數(shù)據分類0
3.2元數(shù)據模型0
3.2.1確定元數(shù)據對象0
3.2.2確定元數(shù)據屬性0
3.2.3確定元數(shù)據關系0
3.2.4創(chuàng)建元數(shù)據模型0
3.3元數(shù)據管理0
3.3.1元數(shù)據采集與收集0
3.3.2元數(shù)據存儲0
3.3.3元數(shù)據維護0
3.3.4元數(shù)據使用0
3.4元數(shù)據管理工具0
3.5數(shù)據血緣0
3.5.1數(shù)據血緣功能0
3.5.2數(shù)據血緣類型0
第4章數(shù)據指標體系0
4.1數(shù)據指標概念0
4.2數(shù)據指標分類0
4.2.1按用途分類0
4.2.2按計算方法分類0
4.2.3按時間范圍分類0
4.3數(shù)據指標設計0
4.3.1明確目標0
4.3.2選擇方法0
4.3.3確保一致性0
4.3.4詞根分類0
4.4數(shù)據指標的應用場景0
4.4.1數(shù)據明細報表0
4.4.2數(shù)據可視化圖0
4.4.3數(shù)據挖掘0
4.4.4指標監(jiān)控0
4.5數(shù)據指標中心建設0
4.5.1數(shù)據指標中心建設的目的0
4.5.2數(shù)據指標中心解決的痛點問題0
4.5.3數(shù)據指標中心建設流程0
第5章數(shù)據質量0
5.1數(shù)據質量背景0
5.1.1數(shù)據質量概念0
5.1.2數(shù)據質量存在的痛點問題0
5.2數(shù)據質量保障措施0
5.2.1制定數(shù)據模型及指標的上線變更規(guī)范0
5.2.2數(shù)據質量監(jiān)控0
5.2.3數(shù)據基線及SLA0
5.2.4容災備份快速恢復能力0
5.2.5數(shù)據問題上報平臺0
5.2.6源頭數(shù)據質量長期監(jiān)測跟蹤體系0
5.3推動上下游開展數(shù)據質量建設活動0
5.3.1數(shù)據倉庫發(fā)展期0
5.3.2數(shù)據倉庫成熟期0
5.4數(shù)據質量思考0
第6章數(shù)據安全0
6.1數(shù)據安全背景0
6.2數(shù)據安全實施難點0
6.2.1數(shù)據安全要做什么0
6.2.2數(shù)據安全現(xiàn)狀梳理0
6.2.3數(shù)據安全保障方向0
6.3數(shù)據安全保障流程0
6.3.1角色權限管理0
6.3.2數(shù)據使用權限管理0
6.3.3數(shù)據模型分級0
6.3.4數(shù)據展示0
6.3.5數(shù)據風險預期管理0
6.3.6數(shù)據脫敏0
6.4數(shù)據安全實施階段0
6.4.1早期數(shù)據安全實施0
6.4.2成熟期數(shù)據安全實施0
6.5數(shù)據安全思考0
第7章數(shù)據治理0
7.1數(shù)據治理背景0
7.1.1合規(guī)治理0
7.1.2資源治理0
7.2數(shù)據倉庫發(fā)展階段0
7.3數(shù)據治理內容0
7.3.1數(shù)據模型合規(guī)治理0
7.3.2數(shù)據質量合規(guī)治理0
7.3.3數(shù)據安全合規(guī)治理0
7.3.4存儲資源治理0
7.3.5計算資源治理0
7.3.6小文件治理
7.4推動上下游開展數(shù)據治理活動方法
7.5數(shù)據治理思考與沉淀
第8章實時技術
8.1實時數(shù)據倉庫搭建背景
8.2實時架構及組件
8.2.1實時數(shù)據倉庫架構
8.2.2實時數(shù)據倉庫組件
8.3實時開發(fā)流程
8.4實時鏈路優(yōu)化
8.5實時技術產出量化
應用篇
第9章數(shù)據資產
9.1數(shù)據資產介紹
9.2風險名單數(shù)據資產(消費金融業(yè)務)
9.2.1項目背景
9.2.2項目流程介紹
9.2.3項目流程
9.2.4項目難點
9.2.5項目思考
9.3各場景下用戶畫像體系建設
9.3.1用戶畫像介紹
9.3.2項目背景
9.3.3項目流程介紹
9.3.4項目流程
9.3.5項目難點
9.3.6項目思考
第10章數(shù)據服務
10.1數(shù)據服務介紹
10.1.1數(shù)據服務概念
10.1.2當前數(shù)據應用時存在的痛點問題
10.2數(shù)據服務建設內容
10.2.1指標中心
10.2.2標簽畫像管理平臺
10.2.3數(shù)據資產門戶
10.2.4數(shù)據質量中心
10.2.5數(shù)據安全中心
10.2.6數(shù)據模型設計中心
10.2.7OneID
10.2.8數(shù)據治理360
10.3數(shù)據服務建設周期
10.3.1探索期
10.3.2擴張期
第11章數(shù)據應用
11.1數(shù)據應用介紹
11.2神策明星榜數(shù)據(視頻行業(yè)業(yè)務)
11.2.1項目背景
11.2.2項目流程介紹
11.2.3項目流程
11.2.4項目難點
11.2.5項目思考
11.3員工離職動因專項分析(人力資源業(yè)務)
11.3.1項目背景
11.3.2業(yè)務視角分析
11.3.3項目流程
11.3.4項目思考
11.4征信系統(tǒng)專題分析
11.4.1項目背景
11.4.2項目流程
11.4.3項目產出
11.4.4項目思考
評價篇
第12章評價數(shù)據倉庫的好壞
12.1數(shù)據質量層面評估
12.1.1數(shù)據質量問題產生的原因
12.1.2數(shù)據質量評估方法
12.2數(shù)據模型層面評估
12.2.1數(shù)據模型問題產生的原因
12.2.2數(shù)據模型評估方法
12.3數(shù)據安全層面評估
12.3.1數(shù)據安全問題產生的原因
12.3.2數(shù)據安全評估方法
12.4數(shù)據成本及性能層面評估
12.4.1數(shù)據成本過高及性能過低的原因
12.4.2數(shù)據成本及性能層面評估方法
第13章數(shù)據價值
13.1抽象的數(shù)據能力架構
13.1.1數(shù)據傳輸能力
13.1.2數(shù)據計算能力
13.1.3數(shù)據資產能力
13.1.4數(shù)據算法能力
13.2數(shù)據能力對數(shù)據價值的呈現(xiàn)
13.3數(shù)據價值對業(yè)務的幫助
13.3.1用戶增長/經營性分析
13.3.2數(shù)據質量/產出穩(wěn)定
13.3.3查數(shù)/用數(shù)提效
13.3.4降低部門支出
展望篇
第14章AIGC對數(shù)據發(fā)展的影響
14.1數(shù)據與AI的關系
14.2網易ChatBI介紹
14.3網易ChatBI功能
14.3.1需求理解能力
14.3.2提供用戶所需內容的預測能力
14.3.3多輪對話能力
14.3.4圖表繪制能力
14.3.5多端互通能力
14.3.6過程可驗證能力
14.3.7用戶可干預能力
14.4數(shù)據產品未來規(guī)劃
14.4.1網易ChatBI產品未來規(guī)劃
14.4.2其他數(shù)據產品未來規(guī)劃