《概率機(jī)器學(xué)習(xí):金融與投資實(shí)戰(zhàn)》深入探討了概率機(jī)器學(xué)習(xí)在金融與投資領(lǐng)域的前沿應(yīng)用,揭示了這一技術(shù)如何成為下一代金融分析與投資決策的框架。本書詳細(xì)闡述了概率機(jī)器學(xué)習(xí)如何從有噪聲的金融數(shù)據(jù)集中持續(xù)學(xué)習(xí),并實(shí)現(xiàn)概率推斷、回溯預(yù)測、預(yù)測及反事實(shí)推理。同時,該技術(shù)還能將個人、實(shí)證及機(jī)構(gòu)知識系統(tǒng)地編碼進(jìn)機(jī)器學(xué)習(xí)模型中。書中通過實(shí)戰(zhàn)案例,展示了如何利用概率分布量化不確定性,從而做出更貼近現(xiàn)實(shí)的金融推斷與預(yù)測,為決策制定與風(fēng)險管理提供有力支持。
譯者序
這是一本將機(jī)器學(xué)習(xí)算法應(yīng)用于金融與投資領(lǐng)域的入門書籍。本書通俗易懂,沒有令人生畏的數(shù)學(xué)公式,還包含豐富的Python代碼,方便讀者更好地理解書中的內(nèi)容。如果你計劃在金融與投資領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)技術(shù),那么本書是你的極佳選擇。
本書聚焦于概率機(jī)器學(xué)習(xí)模型在金融與投資領(lǐng)域的應(yīng)用。選擇使用概率機(jī)器學(xué)習(xí)模型有諸多原因。首先,難以用模型刻畫金融與投資領(lǐng)域的所有變量,模型的參數(shù)、輸入和輸出都不可避免地存在錯誤和不確定性,而概率機(jī)器學(xué)習(xí)模型能夠處理這些錯誤與不確定性,將它們視為問題的特征而非缺陷;其次,概率機(jī)器學(xué)習(xí)模型可以融合個人經(jīng)驗(yàn)和機(jī)構(gòu)知識,使得模型既具備從數(shù)據(jù)中學(xué)習(xí)的能力,又能借鑒先驗(yàn)知識,從而可以避免失敗的投資可能帶來的毀滅性后果;最后,概率模型作為一種生成式模型,具備對自身局限性的認(rèn)知能力,不僅能夠提供預(yù)測結(jié)果,還能給出預(yù)測結(jié)果的置信度。
此外,本書還介紹了概率論、機(jī)器學(xué)習(xí)以及金融與投資領(lǐng)域的一些有趣的知識,如貝葉斯定理的起源、頻率學(xué)派和貝葉斯學(xué)派(本書稱為認(rèn)知學(xué)派)的分歧、蒙提霍爾問題(也叫三門問題)中的稟賦效應(yīng)、檢察官謬誤、沒有免費(fèi)午餐定理以及賭徒破產(chǎn)定律等。這些內(nèi)容不僅對金融與投資領(lǐng)域的從業(yè)者大有裨益,對其他領(lǐng)域的讀者也有所啟發(fā)。
正如作者所述,本書的讀者對象為金融與投資領(lǐng)域具有獨(dú)立思考能力的從業(yè)者。相信閱讀完本書之后,讀者不但能夠掌握金融與投資領(lǐng)域概率機(jī)器學(xué)習(xí)模型的相關(guān)知識與技能,還將欣賞到作者犀利的批判性思維及其對諸多問題的獨(dú)到見解。
李波
前言
生成式人工智能,尤其是最近風(fēng)靡一時的 ChatGPT-4 ,是當(dāng)今備受矚目的技術(shù)。 概率機(jī)器學(xué)習(xí)(Machine Learning ,ML)是一種生成式人工智能,非常適用于金融和投資領(lǐng)域。與 ChatGPT 所使用的深度神經(jīng)網(wǎng)絡(luò)不同,概率機(jī)器學(xué)習(xí)模型不是 黑盒模型,能夠以相當(dāng)透明的方式根據(jù)結(jié)果推斷原因。這對金融和醫(yī)療等受到嚴(yán)格監(jiān)管的行業(yè)來說很重要,因?yàn)槟惚仨毾虮姸嗬嫦嚓P(guān)者解釋模型決策的依據(jù)。
使用概率機(jī)器學(xué)習(xí),你能夠系統(tǒng)地將個人與機(jī)構(gòu)的經(jīng)驗(yàn)和知識編碼到機(jī)器學(xué)習(xí)模型中,以保持競爭優(yōu)勢。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,概率機(jī)器學(xué)習(xí)能夠根據(jù)觀測數(shù)據(jù)和模型假設(shè),生成高質(zhì)量的模擬數(shù)據(jù)和模擬事實(shí),而不受觀測數(shù)據(jù)的規(guī)模 和時序的限制。概率模型是一種生成式模型,它們知道自己的局限性,并通過擴(kuò)大推理和預(yù)測范圍來真實(shí)地表達(dá)自己的無知。與之不同,ChatGPT不會提供 類似的可度量的值來描述模型對幻覺的不自信程度。從概率機(jī)器學(xué)習(xí)的角度來看,ChatGPT 的幻覺就是謊言。
所有的機(jī)器學(xué)習(xí)模型都基于以下假設(shè):在訓(xùn)練數(shù)據(jù)或樣本內(nèi)數(shù)據(jù)中發(fā)現(xiàn)的模式 將在測試數(shù)據(jù)或樣本外數(shù)據(jù)中持續(xù)存在。然而,由于統(tǒng)計模型固有的基礎(chǔ)缺陷, 非概率機(jī)器學(xué)習(xí)模型在面對從未訓(xùn)練或測試過的數(shù)據(jù)模式時,會做出極差的推 斷和預(yù)測。此外,這些機(jī)器學(xué)習(xí)模型在完成這一切時極其自信,而不會提醒決 策者注意模型決策中的不確定性。
在金融和投資決策中越來越多地采用非概率機(jī)器學(xué)習(xí)模型,可能會給個人和整個社會帶來災(zāi)難性的后果,包括公司破產(chǎn)和經(jīng)濟(jì)衰退。在根據(jù)未知數(shù)據(jù)做出 推斷和預(yù)測時,所有機(jī)器學(xué)習(xí)模型都必須量化其推斷或預(yù)測的不確定性,以便在復(fù)雜且不確定的世界中做出明智的決策。一些領(lǐng)先的公司已經(jīng)意識到人工智能的局限性,并著手開發(fā)概率人工智能技術(shù),以解決更加復(fù)雜的問題。最近, Google 公司推出了 TensorFlow Probability,擴(kuò)展了其成熟的 TensorFlow 平臺。 同樣,Meta 公司和 Uber 公司也引入 Pyro,擴(kuò)展了 PyTorch 平臺。目前,最流 行的開源概率機(jī)器學(xué)習(xí)平臺是 PyMC 和 Stan,其中 PyMC 由 Python 編寫,而 Stan 由 C 編寫。本書使用用戶友好且擁有龐大生態(tài)庫的 Python 編程語言。
讀者對象
本書的主要讀者是金融和投資領(lǐng)域有思想的從業(yè)者。有思想的從業(yè)者是指那些 不想按照手冊指示行事的人。他們希望理解技術(shù)背后的基本概念,以及為什么 必須采用某一個流程、模型或技術(shù)。通常,他們求知欲較強(qiáng),喜歡學(xué)習(xí)。與此 同時,他們并不尋求煩瑣的數(shù)學(xué)證明或閱讀冗長的學(xué)術(shù)專著。本書每一章都提 供許多參考文獻(xiàn)供讀者參考,幫助他們尋找本書提到的概念和推導(dǎo)背后的數(shù)學(xué) 和技術(shù)細(xì)節(jié)。
有思想的從業(yè)者可以是個體投資者、分析師、開發(fā)人員、經(jīng)理、項(xiàng)目經(jīng)理、數(shù) 據(jù)科學(xué)家、研究員、投資組合經(jīng)理或量化交易員。這些有思想的從業(yè)者明白, 他們需要不斷學(xué)習(xí)新概念和技術(shù),以推進(jìn)業(yè)務(wù)和職業(yè)生涯的發(fā)展。對新概念和 技術(shù)的深度理解使他們有信心應(yīng)用所學(xué)的知識,為他們遇到的挑戰(zhàn)開發(fā)創(chuàng)造性 的解決方案。這種深度理解也為他們提供了一個框架,使他們可以輕松地探索 和學(xué)習(xí)相關(guān)技術(shù)與概念。
本書假設(shè)讀者對金融、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)和 Python 有基本的了解,但不要求讀 者讀過指定的書籍或掌握指定的技能。
創(chuàng)作動機(jī)
目前,關(guān)于通用概率機(jī)器學(xué)習(xí)的書籍相對較少,而且沒有一本是專門致力于金 融和投資問題的。由于金融和投資領(lǐng)域的特殊性和復(fù)雜性,任何形式通用機(jī)器 學(xué)習(xí)的簡單應(yīng)用,特別是直接應(yīng)用概率機(jī)器學(xué)習(xí),都注定要失敗。深入了解這 些領(lǐng)域?qū)Τ晒χ陵P(guān)重要。本書旨在為讀者提供扎實(shí)的概率機(jī)器學(xué)習(xí)基礎(chǔ)知識,并使用簡單的數(shù)學(xué)和 Python 代碼教會讀者將其應(yīng)用于金融和投資問題中。
我寫這本書還有另一個原因。時至今日,書籍仍然是一種嚴(yán)肅的信息傳遞媒介。 我想提醒讀者,現(xiàn)代金融理論和傳統(tǒng)統(tǒng)計推斷方法仍然存在嚴(yán)重缺陷。令人憤 慨的是,盡管這些看似科學(xué)的方法存在深刻的缺陷而且表現(xiàn)乏善可陳,但這些 方法仍然在學(xué)術(shù)界傳授,并在工業(yè)界被付諸實(shí)踐。
我們正處于人工智能技術(shù)發(fā)展的十字路口,大多數(shù)專家預(yù)測人工智能的使用將 以指數(shù)級速度增長,從根本上改變我們的生活方式、工作方式和交往方式。人工智能系統(tǒng)即將接管人類是科幻小說中的情節(jié),因?yàn)楫?dāng)今即使是最先進(jìn)的人工智能系統(tǒng)也缺乏幼兒所具有的常識。真正清晰而現(xiàn)實(shí)的危險是,不太聰明的人可能會使用傳統(tǒng)金融和統(tǒng)計學(xué)中的虛假模型來管理強(qiáng)大的專家。這很可能會導(dǎo) 致比以往更大的災(zāi)難,而且災(zāi)難來臨的速度會更快。
內(nèi)容導(dǎo)航
本書的內(nèi)容在邏輯上可以分為兩部分,交織在每一章中。一部分研究金融和投 資領(lǐng)域流行的經(jīng)濟(jì)、統(tǒng)計和機(jī)器學(xué)習(xí)模型,并說明這些模型為什么沒有用。另一部分探討為何概率機(jī)器學(xué)習(xí)是這些領(lǐng)域更準(zhǔn)確、更有用的模型。本書的重點(diǎn)是讓你理解這一復(fù)雜的多學(xué)科領(lǐng)域的基礎(chǔ)知識,因此只涵蓋關(guān)鍵概念和應(yīng)用。 本書每一章都介紹至少一個金融和投資領(lǐng)域的主要概念,并使用 Python 代碼付 諸實(shí)踐。本書的組織結(jié)構(gòu)如下:
第 1 章探討理論金融學(xué)的一些不足之處,解釋困擾所有金融模型的三種錯誤, 以及為什么需要一種系統(tǒng)化的方法來量化推斷和預(yù)測的不確定性。該章將解釋 為什么概率機(jī)器學(xué)習(xí)為金融和投資提供了一個有用的框架。
第 2 章借助蒙提霍爾問題(三門問題)回顧概率論的基本概念,將探討概率的含義,并探索遍及世界的三種不確定性。該章還將探討歸納問題及其算法重述、 沒有免費(fèi)午餐(No Free Lunch,NFL)定理,以及它們是如何支撐金融、投資 和概率機(jī)器學(xué)習(xí)的。
第 3 章回顧一些重要的統(tǒng)計概念,解釋作為最重要的數(shù)值技術(shù)之一的蒙特卡羅模擬(Monte Carlo Simulation ,MCS)如何生成近似概率來解決難以解析的問題。
第 4 章揭露科研和工業(yè)界常用的傳統(tǒng)統(tǒng)計推斷方法的欺騙行為,并解釋為什么它們會導(dǎo)致社會學(xué)和經(jīng)濟(jì)學(xué)充滿虛假研究。
第 5 章將探討概率機(jī)器學(xué)習(xí)框架,并展示如何將數(shù)據(jù)推理和新數(shù)據(jù)模擬在邏輯上無縫地集成到這種生成模型中。
第 6 章揭示傳統(tǒng)人工智能系統(tǒng)的風(fēng)險,特別是它們?nèi)狈境WR,以及它們不 了解自身的局限性,這給所有利益相關(guān)者和整個社會都帶來了巨大的風(fēng)險。馬爾可夫鏈蒙特卡羅模擬是一種依存抽樣方法,用于解決金融和投資領(lǐng)域的復(fù)雜問題。
第 7 章解釋概率機(jī)器學(xué)習(xí)本質(zhì)上是一種集成機(jī)器學(xué)習(xí)。該章將向讀者展示如何 使用 PyMC 、Xarray 和 ArviZ Python 庫為金融和投資領(lǐng)域的回歸問題開發(fā)生成 式線性集成模型。
第 8 章展示如何將生成式集成模型應(yīng)用于金融和投資中的風(fēng)險管理和資本配置 決策。該章將探討遍歷性的含義和使用集成平均進(jìn)行金融決策的陷阱,還將研 究包括凱利準(zhǔn)則在內(nèi)的資本配置算法的優(yōu)缺點(diǎn)。
目錄
前言1
第1章 概率機(jī)器學(xué)習(xí)的需求9
1.1 金融學(xué)不是物理學(xué)10
1.2 所有金融模型皆有謬誤且大多無用12
1.3 三類建模錯誤14
1.3.1 模型錯誤14
1.3.2 模型參數(shù)錯誤15
1.3.3 模型不能適應(yīng)市場的結(jié)構(gòu)性變化而導(dǎo)致的錯誤17
1.4 概率金融模型18
1.5 金融人工智能和機(jī)器學(xué)習(xí)20
1.6 概率機(jī)器學(xué)習(xí)23
1.6.1 概率分布24
1.6.2 知識集成25
1.6.3 參數(shù)推斷26
1.6.4 生成式集成模型26
1.6.5 不確定性認(rèn)知27
1.7 本章小結(jié)27
參考文獻(xiàn)28
擴(kuò)展閱讀29
第2章 不確定性的分析與量化30
2.1 蒙提霍爾問題31
2.2 概率公理33
2.3 反概率公式36
2.4 模擬解40
2.5 概率的含義42
2.5.1 頻率學(xué)派的概率43
2.5.2 認(rèn)知概率44
2.5.3 相對概率47
2.6 風(fēng)險與不確定性48
2.7 三種不確定性50
2.7.1 偶然不確定性51
2.7.2 認(rèn)知不確定性53
2.7.3 本體論不確定性56
2.8 沒有免費(fèi)午餐定理57
2.9 投資與歸納問題60
2.10 問題歸納、沒有免費(fèi)午餐定理與概率機(jī)器學(xué)習(xí)64
2.11 本章小結(jié)65
參考文獻(xiàn)66
第3章 用于量化輸出不確定性的蒙特卡羅模擬68
3.1 蒙特卡羅模擬:概念驗(yàn)證69
3.2 關(guān)鍵統(tǒng)計概念71
3.2.1 均值和方差71
3.2.2 期望值:概率加權(quán)算術(shù)平均值72
3.2.3 為什么用波動率來度量風(fēng)險是荒謬的73
3.2.4 偏度與峰度74
3.2.5 高斯分布或正態(tài)分布75
3.2.6 為什么使用波動率會低估金融風(fēng)險76
3.2.7 大數(shù)定律79
3.2.8 中心極限定理79
3.3 蒙特卡羅模擬的理論基礎(chǔ)81
3.4 軟件項(xiàng)目的估值82
3.5 構(gòu)建一個健全的蒙特卡羅模擬系統(tǒng)85
3.6 本章小結(jié)87
參考文獻(xiàn)88
第4章 傳統(tǒng)統(tǒng)計方法的風(fēng)險89
4.1 反向謬誤90
4.2 零假設(shè)顯著性檢驗(yàn)中的檢察官謬誤96
4.3 信心游戲100
4.3.1 股票的單因素市場模型102
4.3.2 基于Statsmodels的簡單線性回歸103
4.3.3 和的置信區(qū)間106
4.4 揭秘信心游戲107
4.4.1 總體參數(shù)概率性陳述錯誤107
4.4.2 置信區(qū)間概率性陳述錯誤108
4.4.3 抽樣分布概率性陳述錯誤108
4.5 本章小結(jié)111
參考文獻(xiàn)112
擴(kuò)展閱讀113
第5章 概率機(jī)器學(xué)習(xí)框架114
5.1 探究反概率規(guī)則115
5.2 估計債務(wù)違約的概率119
5.3 用預(yù)測概率分布生成數(shù)據(jù)124
5.4 本章小結(jié)127
擴(kuò)展閱讀129
第6章 傳統(tǒng)人工智能系統(tǒng)的風(fēng)險130
6.1 AI系統(tǒng):缺乏常識是危險的132
6.2 為什么最大似然估計模型在金融領(lǐng)域失敗了133
6.2.1 盈余預(yù)期的最大似然估計模型134
6.2.2 盈余預(yù)期的概率模型137
6.3 馬爾可夫鏈蒙特卡羅模擬143
6.3.1 馬爾可夫鏈143
6.3.2 Metropolis抽樣145
6.4 本章小結(jié)149
參考文獻(xiàn)150
第7章 生成式集成概率機(jī)器學(xué)習(xí)151
7.1 最大似然回歸模型153
7.1.1 市場模型154
7.1.2 模型假設(shè)154
7.1.3 基于最大似然估計的參數(shù)學(xué)習(xí)155
7.1.4 基于置信區(qū)間的參數(shù)不確定性量化156
7.1.5 模型輸出的預(yù)測與模擬156
7.2 概率線性集成模型156
7.2.1 先驗(yàn)概率分布P(, , e)158
7.2.2 似然函數(shù)P(Y| , , e, X)159
7.2.3 邊緣似然函數(shù)P(Y|X)159
7.2.4 后驗(yàn)概率分布P(, , e| X, Y)159
7.3 使用PyMC庫與ArviZ庫構(gòu)建概率線性集成模型160
7.3.1 定義集成模型的性能指標(biāo)161
7.3.2 數(shù)據(jù)分析與特征工程164
7.3.3 開發(fā)和回溯先驗(yàn)集成模型167
7.3.4 訓(xùn)練和回溯后驗(yàn)集成模型174
7.3.5 測試和評估集成模型182
7.4 本章小結(jié)185
參考文獻(xiàn)186
擴(kuò)展閱讀186
第8章 基于生成式集成模型的概率決策187
8.1 概率推斷和預(yù)測框架188
8.2 概率決策框架191
8.2.1 融入主觀判斷191
8.2.2 估計損失192
8.2.3 最小化損失195
8.3 風(fēng)險管理197
8.3.1 資本保全197
8.3.2 遍歷性197
8.3.3 生成式風(fēng)險價值202
8.3.4 生成式預(yù)期虧空204
8.3.5 生成式尾部風(fēng)險205
8.4 資本配置206
8.4.1 賭徒破產(chǎn)定律206
8.4.2 預(yù)期資產(chǎn)評估師的破產(chǎn)208
8.4.3 現(xiàn)代投資組合理論212
8.4.4 馬科維茨投資者的破產(chǎn)214
8.4.5 凱利準(zhǔn)則219
8.4.6 凱利投資者的破產(chǎn)222
8.5 本章小結(jié)224
參考文獻(xiàn)225
擴(kuò)展閱讀225