本書將通過具有中國特色的具體案例來講授Python編程的基本語法規(guī)則,并通過Python語言來介紹數據科學的基本內容以及數據分析方法的基本思想。內容分為兩部分,第一部分介紹Python編程的基本概念,包括常用表達式、數據類型、表格處理、數據可視化等;第二部分結合Python語言介紹數據分析方法的基本思想,比如假設檢驗、置信區(qū)間、參數估計、線性回歸、分類問題等。
朱利平,中國人民大學 “杰出學者”特聘教授、博士生導師,統計與大數據研究院副院長。國家重大人才工程入選者,長期從事復雜數據分析方法和理論的研究,在國際重要學術期刊發(fā)表論文70余篇。
第一章引言/1
1.1什么是大數據/2
1.2什么是數據科學/2
1.3教學內容和目的/3
第二章因果推斷/4
2.1觀察性數據/5
2.2隨機化雙盲試驗/9
2.3隨機化試驗的其他例子/13
2.4結論/14
第三章Python入門/15
3.1Python安裝指南/15
3.2表達式/16
3.3數值類型/19
3.4字符串/23
3.5賦值語句/28
3.6其他運算符/35
3.7調用函數/42
3.8結論/47
第四章復雜數據類型/48
4.1列表/49
4.2元組/56
4.3字典/57
4.4數組/60
第五章復雜代碼組/66
5.1條件語句/69
5.2循環(huán)語句/73
5.3函數/85
第六章表格處理/92
6.1模擬數據/96
6.2案例1:1812年俄法戰(zhàn)爭數據/107
6.3案例2:2010年中國人口普查資料/111
第七章數據可視化/118
7.1基礎語法/118
7.2散點圖和折線圖/119
7.3柱狀圖、餅圖、箱線圖和概率圖/140
第八章概率、條件概率及貝葉斯公式/149
8.1概率/149
8.2條件概率/151
8.3貝葉斯公式/155
8.4隨機變量和概率分布/158
第九章經驗分布/166
9.1總體概率分布的直方圖/166
9.2經驗分布的直方圖/167
9.3大數定律/171
9.4總體/174
9.5從總體中抽樣及樣本的經驗分布/177
9.6參數/179
9.7模擬統計量/180
9.8案例1:NBA周明星球員的年齡/182
9.9案例2:估計敵軍飛機的數量/185
第十章假設檢驗/191
10.1案例1:第十二屆全國人民代表大會少數民族人大代表比例問題/191
10.2案例2:孟德爾的豌豆花/199
10.3案例3:某附屬中學學生的平均分數/202
10.4錯誤概率/204
10.5簡單的假設檢驗/206
第十一章參數估計/216
11.1百分位數/216
11.2自助法/222
11.3置信區(qū)間/233
第十二章均值與中心極限定理/239
12.1均值的定義/239
12.20/1數據的均值是數據中1的比例/240
12.3均值和直方圖/241
12.4一些例子/244
12.5數據波動性/247
12.6標準差和正態(tài)曲線/252
12.7中心極限定理/258
12.8樣本均值的波動/263
12.9樣本均值的中心極限定理/268
第十三章預測/271
13.1相關性/272
13.2回歸直線/279
13.3均方根誤差/287
第十四章回歸中的統計推斷/290
14.1回歸模型/290
14.2對于真實斜率的推斷/292
14.3對于散點圖的重抽樣/295
14.4預測的波動性/304
14.5總結/306
第十五章機器學習常用方法/308
15.1回歸模型/308
15.2分類方法/321
15.3非監(jiān)督學習——聚類/325