本書以Python作為開發(fā)語言,系統(tǒng)介紹PySpark開發(fā)環(huán)境搭建流程及基于PySpark進行大數(shù)據(jù)分析的相關知識。本書條理清晰、重點突出,理論敘述循序漸進、由淺入深。本書共7章,第1?5章包括PySpark大數(shù)據(jù)分析概述、PySpark安裝配置、基于PySpark的DataFrame操作、基于PySpark的流式數(shù)據(jù)
本書的主旨是介紹如何結合Python3語言進行各類結構化和非結構化數(shù)據(jù)的采集、預處理和存儲,涉及統(tǒng)計概率、數(shù)據(jù)格式與編碼、網頁開發(fā)、自然語言處理、數(shù)據(jù)科學等不同領域的內容。全書共分為11章,包括數(shù)據(jù)科學概述、Python基礎、統(tǒng)計與概率基礎、文件讀寫與操作、數(shù)據(jù)可視化、網絡數(shù)據(jù)爬取等多個主題。內容覆蓋本地文件、網頁數(shù)據(jù)
數(shù)據(jù)治理是一門實踐中的學問。本書輕理論、重實踐,是一份實用的數(shù)據(jù)治理指南,涉及數(shù)據(jù)治理組織、管理制度、流程規(guī)范、數(shù)據(jù)標準管理、數(shù)據(jù)質量管理、元數(shù)據(jù)管理、主數(shù)據(jù)管理、數(shù)據(jù)安全與隱私等主題。全書共分為3篇,第一篇包含第1章和第2章,介紹數(shù)據(jù)治理的理論與方法;第二篇包含第3章至第6章,介紹數(shù)據(jù)治理的平臺建設與工具;第三篇包含
本書從實用角度出發(fā),圍繞Linux操作系統(tǒng)和Hadoop集群部署,從虛擬機安裝入手,結合典型項目和案例,較為全面地介紹了大數(shù)據(jù)開發(fā)技術平臺Hadoop及其生態(tài)系統(tǒng)的相關知識。主要內容包括大數(shù)據(jù)技術中的Hadoop集群部署、HDFS、MapReduce、Hive、HBase和Sqoop等。全書所有知識點都結合具體的編程示
本書重點介紹大數(shù)據(jù)計算分析主要算法及主流計算框架,強調“理實一體”的教學模式和方法。在講解各種計算分析技術的同時,本書對于核心技術都配以相應的實訓項目/案例,真正訓練學生解決大數(shù)據(jù)問題的實踐能力。本書內容包括:大數(shù)據(jù)計算分析技術概述、大數(shù)據(jù)計算分析常用算法及場景、大數(shù)據(jù)離線計算分析技術、大數(shù)據(jù)流式計算分析技術、機器學習
在數(shù)字經濟時代下,數(shù)據(jù)已成為繼土地、勞動力、資本與科技之外的第五大生產要素。然而,當下在數(shù)據(jù)生產要素化的過程中,面臨著數(shù)據(jù)產權不清晰,數(shù)據(jù)市場機制不完善,以及數(shù)據(jù)壟斷等一系列問題,這一方面導致了數(shù)據(jù)的流通利用受阻,數(shù)據(jù)資源得不到有效配置與充分開發(fā)利用的情形出現(xiàn),另一方面,數(shù)據(jù)在流通利用的過程中還帶來了數(shù)據(jù)隱私安全保護等
DCS系統(tǒng)軟件分為上位機軟件和PLC控制器軟件,本書主要闡述其中上位機軟件。由于該系統(tǒng)軟件功能繁多,應用場景不統(tǒng)一,所以本書利用軟件工程的方法對DCS系統(tǒng)軟件整個設計和開發(fā)流程進行分解和分析。本書主要分成三個部分,第一部分介紹軟件工程方法及規(guī)范。第二部分對dcs系統(tǒng)進行需求分析與架構設計方法和過程進行說明;第三部分對每
本書是一本計算機理論研究類圖書。本書主要介紹大數(shù)據(jù)關鍵技術中的大數(shù)據(jù)采集和數(shù)據(jù)預處理技術,講述大數(shù)據(jù)采集和數(shù)據(jù)預處理的基本原理,開展相關的實驗,為學生在大數(shù)據(jù)以及相關領域的學習奠定堅實的基礎。全書共分四部分:第一部分理論基礎,主要介紹大數(shù)據(jù)技術、大數(shù)據(jù)采集和大數(shù)據(jù)預處理的基本概念以及基礎理論;第二部分是大數(shù)據(jù)采集,介紹
本書是一本實用的、能夠分階段逐步指導讀者職業(yè)生涯的書籍。本書分享了來自高性能數(shù)據(jù)團隊的獨特技巧,是為數(shù)據(jù)從業(yè)人員編寫的,包括數(shù)據(jù)科學家、數(shù)據(jù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)策略師、數(shù)據(jù)產品經理、機器學習工程師、AI開發(fā)人員和AI架構師,以及具有這些頭銜的從業(yè)人員的經理、董事和高管。讀者還可以通過本書來明晰自己的職業(yè)生涯,更好地
本書詳細直觀地介紹了數(shù)據(jù)采集與處理的實現(xiàn)過程,共包含12個項目:商務數(shù)據(jù)采集概述、商務數(shù)據(jù)采集工具及應用、數(shù)據(jù)采集方法與采集器、數(shù)據(jù)采集器應用、數(shù)據(jù)采集器高級應用、數(shù)據(jù)采集器定位方式及云采集、數(shù)據(jù)采集器采集實例、數(shù)據(jù)清洗、數(shù)據(jù)處理、文檔數(shù)據(jù)存儲、Python爬蟲項目實戰(zhàn)、數(shù)據(jù)處理實戰(zhàn)。全書融入了大量的實操案例,對學習目