本書是對數(shù)據(jù)科學(xué)的導(dǎo)論性介紹,力求簡潔、易懂,包含了豐富的案例。本書可作為
高等院從數(shù)據(jù)科學(xué)的科學(xué)性出發(fā),著重介紹數(shù)據(jù)科學(xué)項目的規(guī)范化流程以及各步驟所涉及的數(shù)據(jù)科學(xué)基本概念與原理。全書共包含六大部分:問題與目標(biāo)、數(shù)據(jù)獲取、Python基礎(chǔ)、探索性數(shù)據(jù)分析、建模與性能評估、結(jié)果展示。
本書可作為大專院校數(shù)據(jù)科學(xué)相關(guān)專業(yè)的導(dǎo)論性教材或參考書,也適合所有對數(shù)據(jù)科學(xué)感興趣的學(xué)生和社會讀者自學(xué)。本書配套的慕課探索數(shù)據(jù)的奧秘已在中國大學(xué) MOOC網(wǎng)上線。
(1) 體現(xiàn)工程教育專業(yè)認(rèn)證的理念,注重對學(xué)生解決復(fù)雜工程問題能力的培養(yǎng),突破常規(guī)學(xué)科劃分局限,將基于項目的思維方式與系統(tǒng)性解決問題能力的培養(yǎng)常態(tài)化、課程化。
(2) 提供大量典型、實用的案例分析,深刻挖掘并精準(zhǔn)闡述其中的科學(xué)原理,源自編者30多年科學(xué)研究和應(yīng)用開發(fā)的深厚積累。
(3) 全新采用完整數(shù)據(jù)科學(xué)項目的規(guī)范化流程作為內(nèi)容組織邏輯,確立數(shù)據(jù)科學(xué)項目規(guī)范步驟的同時,加強內(nèi)容的可讀性與可理解性,便于將書中理論移植到真實應(yīng)用。
(4) 新形態(tài)教材,配套資源豐富,包括教學(xué)大綱、PPT課件、例程序代碼,教學(xué)資源,可掃描書中二維碼下載或觀看。
(5) 配套中國大學(xué)MOOC網(wǎng)站在線課程探索數(shù)據(jù)的奧秘29個視頻(時長300多分鐘),便于翻轉(zhuǎn)課堂、混合式教學(xué)和自主學(xué)習(xí)。
伴隨當(dāng)前傳感、網(wǎng)絡(luò)與通信、存儲技術(shù)的飛速發(fā)展,社會生活中的方方面面每天都產(chǎn)生、積累著大量數(shù)據(jù),對這些數(shù)據(jù)的有效處理與及時應(yīng)用的需求帶來了對傳統(tǒng)數(shù)據(jù)分析領(lǐng)域的新挑戰(zhàn)。針對上述挑戰(zhàn),近年來以互聯(lián)網(wǎng)為代表的工業(yè)界引領(lǐng)了數(shù)據(jù)科學(xué)的熱潮。然而,隨著數(shù)據(jù)科學(xué)在業(yè)界的流行,一些由于基本概念不清晰或應(yīng)用不規(guī)范而帶來的結(jié)論誤導(dǎo)(如有偏樣本搜集、p值欺騙等)問題也開始日益凸顯,進而引起了學(xué)術(shù)界的關(guān)注。
數(shù)據(jù)科學(xué)是應(yīng)用科學(xué)的方法、流程、算法和系統(tǒng),從多種形式的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中提取知識和洞見的交叉學(xué)科。其內(nèi)容跨越數(shù)學(xué)、計算機、信息學(xué)、系統(tǒng)科學(xué)等多領(lǐng)域,難以分門別類進行介紹。而已有的一些相關(guān)書籍,多偏重工具的應(yīng)用和技巧,對數(shù)據(jù)科學(xué)中的科學(xué)元素甚少涉及。本書立足科學(xué)性,從學(xué)術(shù)的嚴(yán)謹(jǐn)性出發(fā),著重確立數(shù)據(jù)科學(xué)中的各種基本概念與原理,建立數(shù)據(jù)科學(xué)完整的規(guī)范化流程。
具體而言,本書將遵照嚴(yán)謹(jǐn)?shù)目茖W(xué)探索流程,按確定問題制定目標(biāo)搜集數(shù)據(jù)探索性數(shù)據(jù)分析建立模型性能評價結(jié)果展示的規(guī)范化步驟,依次介紹各環(huán)節(jié)的關(guān)鍵概念、原理和準(zhǔn)則,并佐以豐富的案例分析,啟發(fā)學(xué)生主動思考,在實踐中培養(yǎng)學(xué)生嚴(yán)謹(jǐn)?shù)目茖W(xué)思維方式及規(guī)范的數(shù)據(jù)科學(xué)流程,對于指導(dǎo)可靠的數(shù)據(jù)分析具有重要意義。
本書是對數(shù)據(jù)科學(xué)的導(dǎo)論性介紹,力求簡潔、易懂,包含了豐富的案例。本書可作為高等院校相關(guān)專業(yè)的基礎(chǔ)課或通識課教材,也適合作為對數(shù)據(jù)科學(xué)感興趣的大專院校學(xué)生或社會讀者的自學(xué)書籍。
本書的代碼全部使用Python語言在Jupyter Notebook環(huán)境中編寫,書中第4章將對Python和Jupyter Notebook做相應(yīng)介紹,熟悉該內(nèi)容的讀者可以跳過該章。
作者團隊長期在南京大學(xué)電子科學(xué)與工程學(xué)院面向
本科生開設(shè)數(shù)據(jù)科學(xué)導(dǎo)論課程
并在中國大學(xué)MOOC網(wǎng)開設(shè)慕課
探索數(shù)據(jù)的奧秘(江蘇省一流本科課程)
。在線下和線上課程的開設(shè)過程中,同學(xué)們給予了積極熱情的反饋;谒麄兊姆答佉庖姡髡邎F隊對教學(xué)內(nèi)容及其組織形式、分析案例等進行了多次調(diào)整與完善,最終形成了本書。在此,也向所有參加過線下與線上課程學(xué)習(xí)的同學(xué)們表示感謝。
在本書編寫團隊中,黃曉林任主編,負(fù)責(zé)整體內(nèi)容的規(guī)劃、組織與全書行文,劉斌任副主編并編寫第3、7章部分內(nèi)容,劉欽編寫第4章部分內(nèi)容,陳穎編寫第6章中決策樹相關(guān)部分,葛云編寫第1章中部分應(yīng)用案例。研究生張羽祺、王珵、余強、奚菁對本書部分圖表的繪制提供了幫助,在此向他們表示感謝。
感謝南京大學(xué)電子科學(xué)與工程學(xué)院徐駿教授、施毅教授、王自強副教授,南京大學(xué)教務(wù)處施佳歡老師、宋曉青老師等,本書從
新建課程到教材定稿,每一步的進展都離不開他們的大力支持。感謝馬小飛博士提供業(yè)界動態(tài),感謝南京郵電大學(xué)地理與生物信息學(xué)院王俊教授
、中國藥科大學(xué)理學(xué)院侯鳳貞教授、楊帆副教授
和南京師范大學(xué)教育科學(xué)學(xué)院王蔚教授為本書提出的寶貴意見。感謝清華大學(xué)出版社文怡編輯等同志,是他們的辛勤工作保障了本書的順利出版。
本書配套有微課視頻(請觀看中國大學(xué)MOOC網(wǎng)探索數(shù)據(jù)的奧秘課程視頻),書中所有源代碼、課件均隨書提供下載(掃描前言下方二維碼),可供讀者自學(xué)或作為教學(xué)等非商業(yè)目的使用。
由于作者水平有限,書中難免有不當(dāng)之處,歡迎讀者批評指正。
作者
2025年5月
大綱 課件 源代碼
黃曉林,南京大學(xué)副教授、碩導(dǎo)。長期從事信號處理與數(shù)據(jù)分析工作,講授探索數(shù)據(jù)的奧秘(江蘇省一流本科課程)數(shù)據(jù)科學(xué)導(dǎo)論計算方法數(shù)據(jù)庫應(yīng)用等課程。近年來發(fā)表SCI學(xué)術(shù)論文30余篇。主持縱向科研項目4項,參與國家和省重點研發(fā)計劃等5項。獲國家授權(quán)發(fā)明專利5項,軟件著作權(quán)1項。獲國家級教學(xué)成果二等獎1項,江蘇省教學(xué)成果一等獎1項。出版數(shù)據(jù)科學(xué)方面教材1部。
劉斌,南京大學(xué)教授、博導(dǎo)。長期從事半導(dǎo)體物理與器件研究,講授半導(dǎo)體物理與器件高等半導(dǎo)體物理等課程。主持國家重點研發(fā)計劃項目課題,國家自然科學(xué)基金項目,973、863計劃子課題等十余項。發(fā)表SCI收錄學(xué)術(shù)論文250余篇,申請/授權(quán)發(fā)明專利80余項。獲國家級教學(xué)成果二等獎1項,省部級科技成果獎3項。出版半導(dǎo)體物理方面專著5部/章節(jié),數(shù)據(jù)科學(xué)方面教材1部。
劉欽,南京大學(xué)副教授、碩導(dǎo)。長期從事圖像視頻處理研究等工作,講授軟件工程與計算機 I 軟件工程與計算 II移動互聯(lián)網(wǎng)軟件工程等課程。發(fā)表SCI學(xué)術(shù)論文20多篇。主持縱向科研項目2項,獲國家授權(quán)發(fā)明專利1項,軟件著作權(quán)1項。出版軟件工程方面教材2部。
陳穎,南京大學(xué)副教授、碩導(dǎo)。長期從事生物醫(yī)學(xué)圖像處理及深度學(xué)習(xí)網(wǎng)絡(luò)優(yōu)化,講授 生物醫(yī)學(xué)電子學(xué)。發(fā)表SCI論文20余篇,發(fā)明專利5項。
葛云,南京大學(xué)教授、博導(dǎo)。從事醫(yī)學(xué)人工智能和醫(yī)學(xué)物理工作,講授醫(yī)學(xué)物理數(shù)據(jù)科學(xué)導(dǎo)論等課程。主持省重點科研項目3項,發(fā)表學(xué)術(shù)論文40多篇。
第1章緒論
1.1為什么要研究數(shù)據(jù)科學(xué)
1.2基本概念
1.2.1數(shù)據(jù)
1.2.2大數(shù)據(jù)
1.2.3數(shù)據(jù)科學(xué)
1.3數(shù)據(jù)科學(xué)項目涉及的人員及其任務(wù)
1.4數(shù)據(jù)科學(xué)項目流程
1.4.1確定問題
1.4.2制定目標(biāo)
1.4.3搜集數(shù)據(jù)
1.4.4探索性數(shù)據(jù)分析
1.4.5建立模型
1.4.6性能評價
1.4.7結(jié)果展示
1.4.8部署模型
1.5數(shù)據(jù)科學(xué)項目中的數(shù)據(jù)流
1.6本書內(nèi)容、采用工具和目標(biāo)人群
思考題
第2章問題與目標(biāo)
2.1用戶層面的問題與目標(biāo)
2.2數(shù)據(jù)科學(xué)層面的問題與目標(biāo)
思考題
第3章數(shù)據(jù)獲取
3.1前提假設(shè)與數(shù)據(jù)方案設(shè)計
3.1.1前提假設(shè)
3.1.2數(shù)據(jù)方案設(shè)計
3.1.3數(shù)據(jù)獲取的可行性分析
3.1.4確定數(shù)據(jù)構(gòu)成
3.2總體和抽樣
3.2.1總體和個體
3.2.2樣本
3.2.3無偏抽樣
3.2.4抽樣偏差
3.3混雜因素及其避免方法
3.3.1混雜因素和辛普森悖論
3.3.2隨機控制實驗
3.3.3自然實驗
思考題
第4章Python基礎(chǔ)
4.1Python的下載與安裝
4.2常用工具包的下載與安裝
4.3Jupyter Notebook
4.4Python常用數(shù)據(jù)結(jié)構(gòu)
4.4.1列表
4.4.2元組
4.4.3字典
4.4.4集合
4.4.5numpy.ndarray
4.4.6Pandas.DataFrame
4.5Python基本語法
4.5.1基本命令
4.5.2控制流和相關(guān)語法
4.6Python數(shù)據(jù)導(dǎo)入
4.6.1本地數(shù)據(jù)導(dǎo)入
4.6.2在線數(shù)據(jù)導(dǎo)入
4.6.3數(shù)據(jù)的連續(xù)流加載
第5章探索性數(shù)據(jù)分析
5.1數(shù)據(jù)檢查
5.1.1數(shù)據(jù)的意義及規(guī)模
5.1.2特征的數(shù)據(jù)類型及意義
5.1.3初步排除數(shù)據(jù)泄露
5.2數(shù)據(jù)預(yù)處理
5.2.1缺失處理
5.2.2異常處理
5.2.3冗余處理
5.3描述性統(tǒng)計
5.3.1位置性測度
5.3.2離散性測度
5.3.3圖形化描述統(tǒng)計
思考題
第6章建模與性能評價
6.1統(tǒng)計建模
6.1.1常見的概率密度函數(shù)
6.1.2參數(shù)估計
6.1.3假設(shè)檢驗
6.1.4phacking
6.1.5統(tǒng)計模型的應(yīng)用場景
6.2回歸模型
6.2.1線性回歸模型
6.2.2線性回歸模型性能評價
6.2.3線性回歸與線性相關(guān)
6.2.4多元線性回歸
6.2.5線性回歸模型的適用場合
6.2.6Logistic回歸
6.2.7訓(xùn)練集測試集劃分
6.2.8應(yīng)用非數(shù)值特征作為輸入時的onehot編碼
6.2.9邏輯回歸模型的適用場合
6.3樸素貝葉斯模型
6.3.1貝葉斯定理
6.3.2高斯模型
6.3.3多項式模型
6.3.4伯努利模型
6.4分類模型的性能評價
6.4.1混淆矩陣
6.4.2指標(biāo)權(quán)衡
6.4.3應(yīng)用舉例
6.4.4參數(shù)區(qū)分性能評價
6.5決策樹
6.5.1決策樹工作原理
6.5.2分類任務(wù)決策樹的建模過程
6.5.3分類決策樹應(yīng)用舉例
6.6人工神經(jīng)網(wǎng)絡(luò)
6.6.1人工神經(jīng)網(wǎng)絡(luò)的基本概念和工作原理
6.6.2人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用舉例
6.6.3人工神經(jīng)網(wǎng)絡(luò)的適用場合
6.7有監(jiān)督學(xué)習(xí)模型與無監(jiān)督學(xué)習(xí)模型
6.8Kmeans模型
6.8.1兩個基本概念
6.8.2Kmeans迭代算法
6.9偏差方差權(quán)衡
6.9.1偏差方差困境
6.9.2過擬合與欠擬合
6.9.3K折交叉驗證
6.10參數(shù)的網(wǎng)格搜索
6.11集成學(xué)習(xí)
6.11.1孔多塞陪審團定理
6.11.2決策樹集成
思考題
第7章結(jié)果展示
7.1區(qū)分面向?qū)ο蟮慕Y(jié)果展示
7.1.1面向出資方的結(jié)果展示
7.1.2面向用戶的結(jié)果展示
7.1.3面向數(shù)據(jù)科學(xué)家的結(jié)果展示
7.2展示過程中的可視化
7.2.1展示可視化的兩個層面
7.2.2展示可視化的三點基本原則
結(jié)語
參考文獻