全書共十個項目,除了項目一介紹大數(shù)據(jù)基礎(chǔ)理論外,其余項目均以實戰(zhàn)為主線,內(nèi)容循序漸進,逐步深入,圍繞大數(shù)據(jù)技術(shù)的應用層層展開。內(nèi)容主要包括大數(shù)據(jù)的基本概念、Ubuntu及服務安裝配置、Hadoop集群部署、MapReduce編程、HBase數(shù)據(jù)庫部署與應用、Hive數(shù)據(jù)倉庫安裝與應用、Pig數(shù)據(jù)分析、Sqoop數(shù)據(jù)遷移、Spark部署及數(shù)據(jù)分析等知識,最后以大數(shù)據(jù)技術(shù)的具體應用介紹了MapReduce大數(shù)據(jù)編程、Mahout的K-Means計算、決策樹和隨機森林的分類預測、頻繁項集運算和關(guān)聯(lián)分析等知識。本書秉承“實踐為主、理論夠用,注重實用”原則,將實驗環(huán)節(jié)及實操內(nèi)容融入各個知識點與課程教學中,以便讀者能更好地學習和掌握大數(shù)據(jù)關(guān)鍵技術(shù)。
李俊杰,雙師型骨干教師,華中科技大學軟件工程碩士,汕尾職業(yè)技術(shù)學院云計算技術(shù)與應用教研室主任,汕尾市創(chuàng)新工業(yè)設計研究院云計算與數(shù)據(jù)中心工程設計研究所首席技術(shù)專家,廣東省高等教育學會高職高專云計算與大數(shù)據(jù)專業(yè)委員會秘書處干事。從事計算機相關(guān)專業(yè)教學和教科研工作十多年,培養(yǎng)和輔導學生參加省級、***云計算和大數(shù)據(jù)比賽多次獲獎。
項目一 走進大數(shù)據(jù) 1
任務1 概述大數(shù)據(jù)的內(nèi)涵 2
任務2 關(guān)注大數(shù)據(jù)的影響 6
任務3 認識常見的大數(shù)據(jù)計算模式 11
任務4 厘清大數(shù)據(jù)處理的基本流程 14
任務5 大數(shù)據(jù)應用大顯神通 15
任務6 大數(shù)據(jù)的發(fā)展及面臨的挑戰(zhàn) 18
【同步訓練】 22
項目二 Ubuntu及服務安裝配置 23
任務1 安裝Ubuntu Server 24
任務2 搭建FTP系統(tǒng) 33
任務3 搭建MySQL數(shù)據(jù)庫系統(tǒng) 37
任務4 安裝Ubuntu Desktop 41
【同步訓練】 47
項目三 Hadoop集群部署 48
任務1 構(gòu)建集群系統(tǒng) 49
任務2 SSH證書登錄 54
任務3 Hadoop部署與使用 56
【同步訓練】 76
項目四 MapReduce編程 77
任務1 搭建MapReduce開發(fā)平臺 78
任務2 編寫單詞計數(shù)程序 82
任務3 編寫氣象數(shù)據(jù)分析程序 96
【同步訓練】 111
項目五 HBase數(shù)據(jù)庫部署與應用 112
任務1 HBase部署 113
任務2 HBase Shell 125
任務3 HBase編程 136
任務4 MapReduce與HBase集成 144
【同步訓練】 154
項目六 Hive數(shù)據(jù)倉庫安裝與應用 155
任務1 安裝Hive 155
任務2 Hive CLI 168
任務3 Hive編程 182
任務4 Hive與HBase集成 186
【同步訓練】 187
項目七 Pig數(shù)據(jù)分析 188
任務1 Pig安裝及使用 188
任務2 Pig高級編程 200
【同步訓練】 209
項目八 Sqoop數(shù)據(jù)遷移 210
任務1 Sqoop安裝及MySQL與HDFS數(shù)據(jù)遷移 210
任務2 MySQL與Hive/HBase數(shù)據(jù)轉(zhuǎn)移 216
【同步訓練】 218
項目九 Spark部署及數(shù)據(jù)分析 219
任務1 Spark部署 220
任務2 Spark數(shù)據(jù)分析 229
任務3 Spark編程 241
【同步訓練】 252
項目十 大數(shù)據(jù)綜合實例編程 253
任務1 MapReduce大數(shù)據(jù)處理 254
任務2 Mahout的K-Means計算 266
任務3 決策樹和隨機森林的分類預測 272
任務4 頻繁項集計算與關(guān)聯(lián)分析 287
【同步訓練】 297
參考文獻 298
收起全部↑