全書共分8章, 第1章概述了大數據; 第2章介紹了大數據平臺部署的詳細過程; 第3章介紹了Hadoop應用開發(fā)、使用Java操作HDFS和認識MapReduce; 第4章介紹了Hive數據倉庫開發(fā)、Hive開發(fā)環(huán)境的搭建和Hive高級操作; 第5章介紹了Flume開發(fā)應用、安裝Flume、Flume自定義實現; 第6章介紹了Kafka開發(fā)應用、Kafka的安裝與配置、Kafka監(jiān)控和編程實現; 第7章介紹了PySparkJ開F發(fā)應用、PySpark配置和PySpark案例; 第8章介紹了Flink開發(fā)應用、Flink部署和Flink案例。
本書包含課件PPT 習題及答案 視頻 思政元素。采用目前行業(yè)主流大數據處理技術。校企深度合作,共同開發(fā)。理論與實戰(zhàn)相結合,實操性強。
公開發(fā)表論文13篇,其中核心期刊6篇;主持主研重慶市級教改項目及科研項目15項;國家軟件著作權2項;國家職業(yè)技能標準《農業(yè)經理人5-05-01-02》核心專家;國家農業(yè)行業(yè)標準《農業(yè)職業(yè)經理人》NY/T2805-2015核心專家。中國農業(yè)大學出版社《計算機應用基礎》,2008,主編西南大學出版社《農村實用信息技術》,2015,主編電子科技大學出版社《高級辦公軟件應用教程》,2019,副主編電子科技大學出版社《python程序設計基礎教程》,2020,主編四川大學出版社《3DS MAX2018虛擬現實(VR)模型制作項目案例》,主編中國傳媒大學出版社《大學信息技術基礎》,副主編合肥工業(yè)大學出版社《農村信息化技術》,主編中國農業(yè)出版社《農業(yè)經理人(理論)》,參編
第1章 大數據概述
1.1 大數據簡介 /1
1.2 大數據應用開發(fā)流程 /5
1.3 Hadoop生態(tài)體系 /14
1.4 本章小結 /17
1.5 課后習題 /17
第2章 Hadoop平臺部署
2.1 安裝準備 /18
2.2 Hadoop核心組件 /39
2.3 Hadoop的搭建 /43
2.4 MapReduce開發(fā)環(huán)境的搭建 /60
2.5 本章小結 /67
2.6 課后習題 /67
第3章 Hadoop應用開發(fā)
3.1 使用HDFS的shell指令 /68
3.2 使用Java操作HDFS /71
3.3 認識MapReduce /78
3.4 本章小結 /84
3.5 課后習題 /84
第4章 Hive數據倉庫開發(fā)
4.1 Hive概述 /86
4.2 Hive開發(fā)環(huán)境的搭建 /91
4.3 Hive基本操作 /98
4.4 Hive高級操作 /113
4.5 本章小結 /119
4.6 課后習題 /120
第5章 Flume開發(fā)應用
5.1 Flume概述 /123
5.2 Flume行業(yè)應用 /124
5.3 安裝Flume /126
5.4 配置過濾器 /132
5.5 Flume自定義實現 /134
5.6 本章小結 /144
5.7 課后習題 /145
第6章 Kafka開發(fā)應用
6.1 Kafka概述 /146
6.2 Kafka的安裝與配置 /148
6.3 Kafka API簡介 /158
6.4 Kafka監(jiān)控 /161
6.5 Kafka編程 /166
6.6 本章小結 /171
6.7 課后習題 /172
第7章 PySpark開發(fā)應用
7.1 PySpark概述 /173
7.2 PySpark配置 /174
7.3 PySpark常用接口 /176
7.4 PySpark案例 /179
7.5 本章小結 /187
7.6 課后習題 /187
第8章 Flink開發(fā)應用
8.1 Flink概述 /189
8.2 FLink部署 /192
8.3 FLink API /197
8.4 Flink項目案例 /206
8.5 本章小結 /233
8.6 課后習題 /233
參與文獻 /235
前言21世紀,隨著現代信息技術的不斷發(fā)展,世界已跨入了互聯網 大數據時代。大數據產業(yè)正在深刻改變著人們的思維、生產和生活方式,正在掀起新一輪的產業(yè)和技術革命。大數據技術歷經“十三五”期間的孕育成長后,目前大數據已覆蓋政府、金融、交通、企業(yè)、教育、醫(yī)療等各應用領域,與5G通信技術、物聯網技術、互聯網產業(yè)相融合,在大數據技術領域起著重要的支撐作用。特別是在2020年疫情以后,大數據技術這個詞已是家喻戶曉,其應用極為火爆,為人們的衣、食、住、行提供服務。目前大數據根據企業(yè)發(fā)行的不同,每家企業(yè)都有自己發(fā)行的大數據版本。雖然各家企業(yè)的大數據處理技術都由自己的研發(fā)團隊設計,但目前主流的大數據都是基于開源技術的Hadoop大數據平臺進行開發(fā)與運維的。在從事大數據技術運維與管理的工作中,都是圍繞著開源Hadoop系統(tǒng)核心技術去開展工作的。在大數據領域,很多核心技術都是基于開源Hadoop系統(tǒng)的。本書在編寫過程中,主要以大數據處理技術生態(tài)圈展開。將大數據平臺運維教學與企業(yè)大數據開發(fā)實戰(zhàn)運維工作相結合,將目前主流的大數據運維技術整合為大數據綜合實訓案例知識點,適當融入課程思政的內容,對本書難點、重點部分錄制了操作性較強的視頻微課,形成一本實操性較強的大數據處理技術專業(yè)書籍。讀者能夠快速了解大數據處理技術和大數據底層開發(fā)核心技術,通過理論 綜合實訓方法,快速掌握目前大數據的核心知識點和技能點。通過本書和社區(qū)技術的結合,能夠快速提升讀者的自學能力,熟練掌握目前主流的大數據處理技術。本書為大數據專業(yè)核心課程用書,所涉及的大數據處理技術僅限于教學和讀者學習使用,不用于任何商業(yè)活動。本書由重慶三峽職業(yè)學院的熊澤明教授、北京華晟經世信息技術有限公司的王興奎工程師擔任主編,由重慶三峽職業(yè)學院的熊江教授及重慶三峽職業(yè)學院余淼副教授、秦陽鴻擔任副主編。重慶三峽職業(yè)學院的駱偉副教授、廖鈴、熊婭、楊勇及紀昌寧高級實驗師等參與部分內容的編寫及審校工作。在編寫過程中,我們得到了業(yè)內部分大數據相關企業(yè)及工程師的支持和幫助,引用了互聯網中的大量資料(包括文本和圖片等),核心技術來自大數據技術社區(qū)官方幫助文檔,在此深表謝意。由于編者能力有限,書中難免存在不足之處,望廣大讀者不吝賜教。編 者 2022年3月