金融大數(shù)據(jù)分析是金融科技專業(yè)的一門核心課程,它最大的特點是:它是大數(shù)據(jù)技術與金融學的學科交叉,融合了計算機專業(yè)的大數(shù)據(jù)分析、數(shù)據(jù)挖掘等課程與金融學、金融市場學等課程的相關知識,以利用大數(shù)據(jù)分析方法解決金融問題為導向。本書重點介紹如何運用計量經(jīng)濟學和機器學習的分析方法來實證研究各種常見的資產(chǎn)定價模型和量化投資策略。針對金融數(shù)據(jù)的特殊性,介紹橫截面、時間序列及金融面板數(shù)據(jù)的分析處理方法,同時針對高維度的復雜金融大數(shù)據(jù),介紹常用的機器學習方法及其在金融資產(chǎn)定價中的前沿應用。
吳軻,埃默里大學經(jīng)濟學博士,中國人民大學財政金融學院副教授、博士生導師, 中國人民大學吳玉章青年學者。主要研究領域包括資產(chǎn)定價、投資組合管理、金融計量 學和機器學習。研究成果已經(jīng)發(fā)表在諸如《管理科學》(Management Science)、《金融與 定量分析雜志》(Journal of Financial and Quantitative Analysis)以及《應用計量經(jīng)濟 學雜志》(Journal of Applied Econometrics)等國際一流期刊上。主持國家自然科學基 金青年項目和面上項目,參與科技部國家重點研發(fā)計劃。在中國人民大學為本科生和研 究生講授資產(chǎn)定價、金融風險管理、金融科技以及金融大數(shù)據(jù)分析等課程。 周德馨,埃默里大學金融學博士,紐約市立大學巴魯克學院副教授(終身教職)以 及研究生中心博士生導師。主要研究領域包括行為金融學以及大數(shù)據(jù)與另類數(shù)據(jù)在金融 市場中的應用。研究成果發(fā)表于《金融經(jīng)濟學雜志》(Journal of Financial Economics)、 《金融研究評論》(Review of Financial Studies)以及《會計評論》(The Accounting Re- view)等國際頂級期刊上,有些曾被《金融時報》(Financial Times)與《華爾街日報》 (The Wall Street Journal)等報刊轉載引用,以及在哈佛大學法學院公司治理論壇分 享。在紐約市立大學為本科生講授公司金融并為博士生講授實證金融方法等課程。
第1部分 知識回顧
第1章 數(shù)據(jù)的管理與探索 003
1.1 金融數(shù)據(jù)管理面臨的挑戰(zhàn)與機遇 003
1.2 數(shù)據(jù)的存儲與使用 004
1.3 Pandas與數(shù)據(jù)可視化程序庫簡介 005
1.4 程序:數(shù)據(jù)的管理以及初步探索 006
第2章 數(shù)學以及統(tǒng)計學知識回顧 017
2.1 數(shù)學知識回顧 017
2.2 統(tǒng)計學知識回顧 025
第2部分 監(jiān)督學習基礎
第3章 線性回歸 033
3.1 案例:預測公司盈利 033
3.2 線性回歸方法 034
3.3 知識拓展:線性回歸方法的其他應用 040
3.4 程序 041
第4章 邏輯回歸 048
4.1 案例:貸款違約預測 048
4.2 邏輯回歸方法 049
4.3 知識拓展:多分類問題 054
4.4 程序 055
第5章 其他基礎監(jiān)督學習方法 063
5.1 其他基礎監(jiān)督學習方法簡介 063
5.2 樣條模型 064
5.3 廣義可加模型 066
5.4 支持向量機 067
5.5 K近鄰分類器 070
5.6 程序 070
第6章 模型驗證 075
6.1 模型驗證簡介 075
6.2 如何進行模型驗證 076
6.3 過擬合及欠擬合問題 078
6.4 模型驗證指標 081
6.5 程序 084
第7章 模型選擇與正則化 091
7.1 模型選擇與正則化簡介 091
7.2 模型選擇 091
7.3 正則化 093
7.4 程序 097
第3部分 監(jiān)督學習進階
第8章 決策樹 103
8.1 決策樹簡介 103
8.2 回歸樹模型訓練 105
8.3 分類樹 109
8.4 程序 110
第9章 集成學習 113
9.1 集成學習簡介 113
9.2 袋裝法 114
9.3 隨機森林 115
9.4 提升法 116
9.5 集成學習方法的優(yōu)缺點 117
9.6 程序 118
第10章 神經(jīng)網(wǎng)絡 121
10.1 神經(jīng)網(wǎng)絡簡介 121
10.2 神經(jīng)網(wǎng)絡的結構 121
10.3 模型訓練 126
10.4 神經(jīng)網(wǎng)絡正則化 129
10.5 常用的神經(jīng)網(wǎng)絡結構 130
10.6 程序 131
第11章 監(jiān)督學習小結 139
11.1 監(jiān)督學習方法回顧 139
11.2 復雜模型的可解釋性 140
11.3 程序 143
第4部分 無監(jiān)督學習
第12章 主成分分析 149
12.1 案例:投資策略 149
12.2 主成分分析方法 149
12.3 知識拓展:偏最小二乘回歸 153
12.4 程序 154
第13章 聚類分析 160
13.1 案例:貸款違約風險評估 160
13.2 聚類分析方法 161
13.3 程序 165
第14章 缺失數(shù)據(jù)及其處理 168
14.1 缺失數(shù)據(jù)問題簡介 168
14.2 缺失數(shù)據(jù)問題的處理方法 169
14.3 程序 172
第5部分 大數(shù)據(jù)與另類數(shù)據(jù)
第15章 基礎文本分析 177
15.1 文本分析簡介 177
15.2 詞袋模型 178
15.3 文本相似度 183
15.4 詞嵌入 184
15.5 知識拓展:數(shù)據(jù)獲取 186
15.6 程序 187
第16章 大語言模型 190
16.1 大語言模型簡介 190
16.2 大語言模型的技術背景 191
16.3 大語言模型在金融中的應用 194
16.4 國產(chǎn)大語言模型 197
16.5 程序 199
第17章 其他另類數(shù)據(jù)的處理 203
17.1 其他另類數(shù)據(jù)簡介 203
17.2 圖像數(shù)據(jù)及其處理 204
17.3 聲音信息及其處理 207
17.4 知識拓展:用圖片來預測股票收益率 207
17.5 程序 208
第18章 大數(shù)據(jù)的處理與學習 212
18.1 大數(shù)據(jù)簡介 212
18.2 大數(shù)據(jù)的處理 213
18.3 大數(shù)據(jù)的學習 215
18.4 程序 216
第6部分 大數(shù)據(jù)學習與經(jīng)濟金融研究
第19章 大數(shù)據(jù)機器學習方法在金融中的應用 223
19.1 股票收益率橫截面預測實證 224
19.2 工具變量主成分分析方法 232
19.3 大數(shù)據(jù)下的有效定價因子識別 238
19.4 采用自糾偏機器學習方法識別有效定價因子 247
19.5 機器學習方法在應用于金融領域時存在的問題 253
參考文獻 254