R語言是一種自由、免費且開源的高級編程語言和開發(fā)環(huán)境,它提供了強大的數(shù)據(jù)分析功能和豐富的數(shù)據(jù)可視化工具。隨著數(shù)據(jù)科學(xué)的快速發(fā)展,R語言已成為數(shù)據(jù)分析領(lǐng)域中備受青睞的通用語言。
《R語言數(shù)據(jù)分析從入門到實踐》共分為15章,主要內(nèi)容包括R語言簡介、數(shù)據(jù)讀寫、從流程控制到自定義函數(shù)、繪圖功能及基本統(tǒng)計、數(shù)據(jù)分析和常用包、監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)、演化式學(xué)習(xí)、混合式學(xué)習(xí)、關(guān)聯(lián)性規(guī)則、文本挖掘、推薦系統(tǒng)、可視化數(shù)據(jù)分析、探索性數(shù)據(jù)分析以及深度學(xué)習(xí)等。
《R語言數(shù)據(jù)分析從入門到實踐》內(nèi)容通俗易懂,案例豐富,實用性強,特別適合R語言的初學(xué)者和進階讀者閱讀,同時也適合數(shù)據(jù)分析人員、數(shù)據(jù)挖掘工程師等相關(guān)數(shù)據(jù)科學(xué)從業(yè)者參考。
《R語言數(shù)據(jù)分析從入門到實踐》是一本全面介紹使用R語言進行數(shù)據(jù)分析的實用指南。作者以豐富的實例和案例,詳細介紹了R語言在數(shù)據(jù)挖掘、文本挖掘和可視化數(shù)據(jù)分析等領(lǐng)域的應(yīng)用。無論您是初學(xué)者還是專業(yè)人士,《R語言數(shù)據(jù)分析從入門到實踐》都將成為您的得力助手,幫助您快速提升數(shù)據(jù)分析技能,實現(xiàn)職業(yè)目標。閱讀《R語言數(shù)據(jù)分析從入門到實踐》,讓您輕松掌握數(shù)據(jù)分析的精髓,成為數(shù)據(jù)分析領(lǐng)域的專家。
R語言是一種完全開源的程序設(shè)計語言,可以免費使用。它具有豐富的生態(tài)系統(tǒng)(Comprehensive R Archive Network,CRAN),提供超過15 000個免費套件(Package),廣泛應(yīng)用于統(tǒng)計分析、數(shù)據(jù)挖掘、機器學(xué)習(xí)、生物信息學(xué)、金融分析以及社會科學(xué)研究等多個領(lǐng)域。隨著R語言的流行和普及,許多學(xué)者和專家將其作為研究與開發(fā)的主要工具,因此學(xué)習(xí)R語言是明智的選擇。
本書主要內(nèi)容如下:
第1章 R簡介,主要介紹R軟件的基本功能以及主要對象類型,如向量、數(shù)組、矩陣、數(shù)據(jù)框、因子、列表和對象轉(zhuǎn)換。
第2章 讀寫數(shù)據(jù),主要介紹R語言中常用的數(shù)據(jù)讀取與寫入方法,涵蓋文本文件、Excel表格、數(shù)據(jù)庫等多種數(shù)據(jù)源的操作技巧。
第3章 從流程控制到函數(shù),主要介紹R語言編程的基礎(chǔ)結(jié)構(gòu),包括流程控制語句和函數(shù)的定義與使用。通過學(xué)習(xí)本章內(nèi)容,讀者將能夠編寫結(jié)構(gòu)清晰、高效可維護的代碼,提升代碼的復(fù)用性與執(zhí)行效率。
第4章 繪圖功能及基本統(tǒng)計,主要介紹R語言中的繪圖功能,包括高級繪圖函數(shù)、低級繪圖函數(shù)及交互式繪圖函數(shù)的使用,并講解圖形參數(shù)設(shè)置方法。同時,簡要介紹基礎(chǔ)統(tǒng)計知識,為后續(xù)統(tǒng)計建模打下基礎(chǔ)。
第5章 數(shù)據(jù)分析和常用包,主要介紹R語言在數(shù)據(jù)分析領(lǐng)域的常見應(yīng)用場景,并講解機器學(xué)習(xí)、數(shù)據(jù)挖掘和文本挖掘中常用的擴展包及其基本用法。
第6章 監(jiān)督式學(xué)習(xí),本章系統(tǒng)講解監(jiān)督學(xué)習(xí)的主要算法,包括決策樹、支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)以及集成學(xué)習(xí)方法,幫助讀者掌握預(yù)測建模的核心技術(shù)。
第7章 非監(jiān)督式學(xué)習(xí),主要介紹非監(jiān)督式學(xué)習(xí)的基本原理與應(yīng)用,重點講解聚類分析方法,包括層次聚類、K均值聚類、模糊C均值聚類及其評價指標,適用于無標簽數(shù)據(jù)的自動分類任務(wù)。
第8章 演化式學(xué)習(xí),主要介紹基于自然啟發(fā)機制的優(yōu)化算法,主要包括遺傳算法(GA)和人工蜂群算法(ABC),并探討其在優(yōu)化問題中的應(yīng)用。
第9章 混合式學(xué)習(xí),主要介紹多種智能算法的融合策略,包括人工蜂群算法與決策樹的結(jié)合、遺傳算法與人工神經(jīng)網(wǎng)絡(luò)的結(jié)合,以提升模型性能與泛化能力。
第10章 關(guān)聯(lián)性規(guī)則,主要講解關(guān)聯(lián)規(guī)則的基本概念與生成方法,重點介紹如何從大量數(shù)據(jù)中發(fā)現(xiàn)變量之間的潛在關(guān)聯(lián)關(guān)系,并應(yīng)用于推薦系統(tǒng)等領(lǐng)域。
第11章 文本挖掘,主要介紹文本挖掘的基本流程,包括中文分詞、詞頻統(tǒng)計與詞云生成等內(nèi)容,幫助讀者掌握從非結(jié)構(gòu)化文本中提取信息的方法。
第12章 推薦系統(tǒng),通過Jester5k與MovieLens等經(jīng)典數(shù)據(jù)集,演示推薦系統(tǒng)的實現(xiàn)過程,涵蓋協(xié)同過濾、內(nèi)容推薦等主流方法。
第13章 可視化數(shù)據(jù)分析,主要介紹數(shù)據(jù)可視化工具的使用方法,幫助讀者通過圖表形式直觀展示數(shù)據(jù)特征與分析結(jié)果,提高數(shù)據(jù)洞察力。
第14章 探索性數(shù)據(jù)分析,通過實際案例引導(dǎo)讀者完成完整的探索性數(shù)據(jù)分析流程。
第15章 深度學(xué)習(xí),主要介紹深度學(xué)習(xí)的核心算法,包括多層感知器(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和生成對抗網(wǎng)絡(luò)(GAN),并提供R語言環(huán)境下的實現(xiàn)示例。
本書配套源代碼、數(shù)據(jù)、教學(xué)PPT課件,請用微信掃描下方的二維碼獲取,也可按掃描出來的頁面提示,把下載鏈接發(fā)送到自己的郵箱進行下載。
源代碼 數(shù)據(jù) PPT課件
如果讀者在學(xué)習(xí)過程中有任何問題,請通過電子郵件聯(lián)系booksaga@126.com,郵件主題為R語言數(shù)據(jù)分析從入門到實踐。
筆者是福州大學(xué)先進制造學(xué)院教授,本書是筆者多年教學(xué)經(jīng)驗的結(jié)晶,適合有意向?qū)W習(xí)數(shù)據(jù)分析的讀者閱讀。書中的范例代碼可供讀者進行練習(xí)。本書特別適合想學(xué)R語言和數(shù)據(jù)分析的初學(xué)者,同時也可作為希望自我進修的入門參考書。盡管筆者在撰寫本書時力求完美,但仍可能存在疏漏之處,歡迎各位讀者批評與指正。
本書的出版,感謝李開暉教授、王量弘教授及出版社編輯的鼎力協(xié)助,同時感謝福州大學(xué)先進制造學(xué)院領(lǐng)導(dǎo)的支持,最后也感謝家人的全力支持與協(xié)助。
李仁鐘
2025年4月
李仁鐘,教授,博士,博士研究生導(dǎo)師,福建省通信學(xué)會高級會員、福建省電機工程學(xué)會專委會委員、福建能源電力專家、福建省電子學(xué)會智能信息專委會副主任、福建大數(shù)據(jù)聯(lián)盟副理事長。他于2020-2023年入選全球前2%頂尖科學(xué)家終身科學(xué)影響力排行榜,并于2022年獲得第十三屆福州市自然科學(xué)優(yōu)秀學(xué)術(shù)論文三等獎和優(yōu)秀獎,同時于2021年入選福州市長樂區(qū)第三屆優(yōu)秀人才稱號。
第1 章 R簡介 1
1.1 R軟件介紹 1
1.2 R對象介紹 4
1.2.1 向量 4
1.2.2 數(shù)組 6
1.2.3 矩陣 8
1.2.4 數(shù)據(jù)框 11
1.2.5 因子 13
1.2.6 列表 13
1.2.7 對象轉(zhuǎn)換 15
1.3 習(xí)題 16
第2 章 讀寫數(shù)據(jù) 17
2.1 讀取數(shù)據(jù) 17
2.2 寫入數(shù)據(jù) 21
2.3 讀寫RData數(shù)據(jù) 22
2.4 讀寫Excel數(shù)據(jù) 23
2.5 習(xí)題 23
第3章 從流程控制到函數(shù) 24
3.1 條件執(zhí)行 24
3.2 循環(huán)控制 26
3.3 函數(shù) 30
3.4 習(xí)題 31
第4章 繪圖功能及基本統(tǒng)計 32
4.1 高級繪圖函數(shù) 32
4.2 低級繪圖函數(shù) 35
4.3 交互式繪圖函數(shù) 36
4.4 圖形參數(shù) 38
4.5 基本統(tǒng)計 40
4.6 習(xí)題 45
第5章 數(shù)據(jù)分析和常用包 46
5.1 機器學(xué)習(xí) 46
5.2 數(shù)據(jù)挖掘 47
5.3 文本挖掘 47
5.4 常用包 47
第6章 監(jiān)督式學(xué)習(xí) 56
6.1 決策樹 56
6.2 支持向量機 69
6.3 人工神經(jīng)網(wǎng)絡(luò) 73
6.4 集成學(xué)習(xí)方法 78
6.4.1 隨機森林 79
6.4.2 提升法 80
6.5 習(xí)題 81
第7章 非監(jiān)督式學(xué)習(xí) 82
7.1 層次聚類法 82
7.2 K均值聚類算法 85
7.3 模糊C均值聚類算法 88
7.4 聚類指標 92
7.5 習(xí)題 95
第8章 演化式學(xué)習(xí) 96
8.1 遺傳算法 96
8.2 人工蜂群算法 101
第9章 混合式學(xué)習(xí) 105
9.1 人工蜂群算法混合決策樹 105
9.2 遺傳算法混合人工神經(jīng)網(wǎng)絡(luò) 108
第10章 關(guān)聯(lián)性規(guī)則 115
10.1 產(chǎn)生關(guān)聯(lián)性規(guī)則并排序 117
10.2 刪除冗余規(guī)則 121
10.3 習(xí)題 127
第11章 文本挖掘 128
11.1 使用混合分詞并創(chuàng)建詞頻表 128
11.2 使用tag分詞并創(chuàng)建詞云 129
11.3 習(xí)題 131
第12章 推薦系統(tǒng) 132
12.1 Jester5k數(shù)據(jù)集 132
12.2 MovieLense數(shù)據(jù)集 135
第13章 可視化數(shù)據(jù)分析 138
13.1 導(dǎo)入數(shù)據(jù) 139
13.1.1 處理數(shù)據(jù)集 142
13.1.2 設(shè)置變量 143
13.2 探索及測試數(shù)據(jù) 143
13.3 轉(zhuǎn)換數(shù)據(jù) 147
13.4 建立、評估及導(dǎo)出模型 149
13.5 習(xí)題 151
第14章 探索性數(shù)據(jù)分析 152
14.1 dplyr數(shù)據(jù)處理庫(包) 152
14.2 案例分析 162
第15章 深度學(xué)習(xí) 185
15.1 多層感知器 186
15.2 卷積神經(jīng)網(wǎng)絡(luò) 194
15.3 長短期記憶網(wǎng)絡(luò) 201
15.4 生成對抗網(wǎng)絡(luò) 206
15.5 深度學(xué)習(xí)應(yīng)用 212
15.6 習(xí)題 213
附錄A 安裝R 214
附錄B 安裝RStudio Desktop和rattle 217
附錄C R語言指令及用法 222