本書旨在成為一本數(shù)學(xué)但是友好的教材,能幫助讀者從零開(kāi)始實(shí)現(xiàn)對(duì)強(qiáng)化學(xué)習(xí)原理的透徹理解。本書的特點(diǎn)如下所述。
. 第一,從數(shù)學(xué)的角度講故事,讓讀者不僅了解算法的流程,更能理解為什么一個(gè)算法最初設(shè)計(jì)成這個(gè)樣子、為什么它能有效地工作等基本問(wèn)題。
. 第二,數(shù)學(xué)的深度被控制在恰當(dāng)?shù)乃,?shù)學(xué)內(nèi)容也以精心設(shè)計(jì)的方式呈現(xiàn),從而確保本書的易讀性。讀者可以根據(jù)自己的興趣選擇性地閱讀灰色方框中的數(shù)學(xué)材料。
. 第三,提供了大量例子,能夠幫助讀者更好地理解概念和算法。特別是本書廣泛使用了網(wǎng)格世界的例子,這個(gè)例子非常直觀,對(duì)理解概念和算法非常有幫助。
. 第四,在介紹算法時(shí)盡可能將其核心思想與一些不太重要但是可能讓算法看起來(lái)很復(fù)雜的東西分離開(kāi)來(lái)。通過(guò)這種方式,讀者可以更好地把握算法的核心思想。
. 第五,本書采用了新的內(nèi)容組織架構(gòu),脈絡(luò)清晰,易于建立宏觀理解,內(nèi)容層層遞進(jìn),每一章都依賴于前一章且為后續(xù)章節(jié)奠定基礎(chǔ)。
本書適合對(duì)強(qiáng)化學(xué)習(xí)感興趣的高年級(jí)本科生、研究生、科研人員和工程技術(shù)人員閱讀。由于本書會(huì)從最基本的概念開(kāi)始介紹,因此不要求讀者有任何強(qiáng)化學(xué)習(xí)的背景。當(dāng)然,如果讀者已經(jīng)有一些強(qiáng)化學(xué)習(xí)的背景,我相信本書可以幫助大家更深入地理解一些問(wèn)題或者提供不同的視角。此外,本書要求讀者具備一些概率論和線性代數(shù)的知識(shí),這些知識(shí)在本書附錄中已經(jīng)給出。
自 2019年以來(lái),我一直在教授研究生的強(qiáng)化學(xué)習(xí)課程,我要感謝課程中的學(xué)生對(duì)我的教學(xué)提出的反饋建議。自 2022年 8月把這本書的草稿在線發(fā)布在 GitHub,到目前為止我收到了許多讀者的寶貴反饋,在此對(duì)這些讀者表示衷心感謝。此外,我還要感謝我的團(tuán)隊(duì)成員呂嘉玲在編輯書稿和課程視頻方面所做的大量瑣碎但是重要的工作;感謝助教李佳楠和米軼澤在我的教學(xué)中的勤懇工作;感謝我的博士生鄭燦倫在設(shè)計(jì)書
中圖片方面的幫助,以及我的家人的大力支持。
最后,我要感謝清華大學(xué)出版社的郭賽編輯和施普林格自然出版社的常蘭蘭博士,他們對(duì)于書稿的順利出版給予了大力支持。我真誠(chéng)地希望這本書能夠幫助讀者順利進(jìn)入強(qiáng)化學(xué)習(xí)這一激動(dòng)人心的領(lǐng)域。
趙世鈺
第 1章基本概念 1
1.1網(wǎng)格世界例子 2
1.2狀態(tài)和動(dòng)作 2
1.3狀態(tài)轉(zhuǎn)移 3
1.4策略 5
1.5獎(jiǎng)勵(lì) 7
1.6軌跡、回報(bào)、回合 9
1.7馬爾可夫決策過(guò)程 11
1.8總結(jié) 13
1.9問(wèn)答 13
第 2章?tīng)顟B(tài)值與貝爾曼方程 15
2.1啟發(fā)示例 1:為什么回報(bào)很重要? 16
2.2啟發(fā)示例 2:如何計(jì)算回報(bào)?. 17
2.3狀態(tài)值 19
2.4貝爾曼方程 20
2.5示例 22
2.6矩陣向量形式 25
2.7求解狀態(tài)值 27
2.7.1方法 1:解析解 27
2.7.2方法 2:數(shù)值解 27
2.7.3示例 28
2.8動(dòng)作值 30
2.8.1示例 31
2.8.2基于動(dòng)作值的貝爾曼方程 32
2.9總結(jié)
. 32
2.10問(wèn)答
33
第 3章最優(yōu)狀態(tài)值與貝爾曼最優(yōu)方程 35
3.
1啟發(fā)示例:如何改進(jìn)策略?. 36
3.
2最優(yōu)狀態(tài)值和最優(yōu)策略 37
3.
3貝爾曼最優(yōu)方程 38
3.
3.1方程右側(cè)的優(yōu)化問(wèn)題 39
3.3.2矩陣
-向量形式 40
3.
3.3壓縮映射定理 41
3.
3.4方程右側(cè)函數(shù)的壓縮性質(zhì) 44
3.
4從貝爾曼最優(yōu)方程得到最優(yōu)策略 46
3.
5影響最優(yōu)策略的因素 49
3.6總結(jié)
. 54
3.7問(wèn)答
. 54
第 4章值迭代與策略迭代 57
4.1值迭代算法
. 58
4.
1.1展開(kāi)形式和實(shí)現(xiàn)細(xì)節(jié) 59
4.1.2示例
. 59
4.2策略迭代算法
62
4.2.1算法概述
62
4.
2.2算法的展開(kāi)形式 65
4.2.3示例
. 66
4.
3截?cái)嗖呗缘惴?68
4.
3.1對(duì)比值迭代與策略迭代 68
4.
3.2截?cái)嗖呗缘惴?71
4.4總結(jié)
. 73
4.5問(wèn)答
. 73
5.
1啟發(fā)示例:期望值估計(jì) 78
5.2
MC Basic:最簡(jiǎn)單的基于蒙特卡羅的算法 80
5.
2.1將策略迭代算法轉(zhuǎn)換為無(wú)需模型 80
5.2.2
MC Basic算法 81
5.2.3示例
. 82
5.3
MC Exploring Starts算法 86
5.
3.1更高效地利用樣本 86
5.
3.2更高效地更新策略 87
5.3.3算法描述
87
5.4
MC -Greedy算法 88
5.4.1
.-Greedy策略 89
5.4.2算法描述
89
5.4.3示例
. 91
5.
5探索與利用:以 -Greedy策略為例 91
5.6總結(jié)
. 96
5.7問(wèn)答
. 96
第 5章蒙特卡羅方法 77
第 6章隨機(jī)近似算法 99
6.
1啟發(fā)示例:期望值估計(jì) 100
6.2羅賓斯
-門羅算法 101
6.2.1收斂性質(zhì)
. 103
6.
2.2在期望值估計(jì)問(wèn)題中的應(yīng)用 106
6.3
Dvoretzky定理 107
6.3.1
Dvoretzky定理的證明 108
6.
3.2應(yīng)用于分析期望值估計(jì)算法 109
6.
3.3應(yīng)用于證明羅賓斯-門羅定理 110
6.3.4
Dvoretzky定理的推廣 111
6.4隨機(jī)梯度下降
. 112
6.
4.1應(yīng)用于期望值估計(jì) 113
6.
4.2隨機(jī)梯度下降的收斂模式 114
6.
4.3隨機(jī)梯度下降的另一種描述 116
6.
4.4小批量梯度下降 117
6.
4.5隨機(jī)梯度下降的收斂性 118
6.5總結(jié)
120
6.6問(wèn)答
120
第 7章時(shí)序差分方法 123
7.
1狀態(tài)值估計(jì):最基礎(chǔ)的時(shí)序差分算法 124
7.1.1算法描述
. 124
7.1.2性質(zhì)分析
. 126
7.
1.3收斂性證明 127
7.2動(dòng)作值估計(jì):
Sarsa 130
7.2.1算法描述
. 131
7.
2.2學(xué)習(xí)最優(yōu)策略 132
7.3動(dòng)作值估計(jì):
n-Step Sarsa. 135
7.
4最優(yōu)動(dòng)作值估計(jì):Q-learning 137
7.4.1算法描述
. 137
7.4.2
Off-policy和 On-policy 138
7.4.3算法實(shí)現(xiàn)
. 140
7.4.4示例
141
7.
5時(shí)序差分算法的統(tǒng)一框架 142
7.6總結(jié)
145
7.7問(wèn)答
145
第 8章值函數(shù)方法 149
8.
1價(jià)值表示:從表格到函數(shù) 150
8.
2基于值函數(shù)的時(shí)序差分算法:狀態(tài)值估計(jì) 153
8.2.1目標(biāo)函數(shù)
. 154
8.2.2優(yōu)化算法
. 159
8.
2.3選擇值函數(shù) 160
8.2.4示例
161
8.2.5理論分析
. 165
8.
3基于值函數(shù)的時(shí)序差分:動(dòng)作值估計(jì) 175
8.
3.1基于值函數(shù)的 Sarsa 176
8.
3.2基于值函數(shù)的 Q-learning 177
8.4深度
Q-learning. 178
8.4.1算法描述 179
8.4.2示例
180
8.5總結(jié)
183
8.6問(wèn)答
183
第 9章策略梯度方法 187
9.
1策略表示:從表格到函數(shù) 188
9.
2目標(biāo)函數(shù):定義最優(yōu)策略 189
9.
3目標(biāo)函數(shù)的梯度 194
9.
3.1推導(dǎo)策略梯度:有折扣的情況 195
9.
3.2推導(dǎo)策略梯度:無(wú)折扣的情況 200
9.
4蒙特卡羅策略梯度(REINFORCE). 206
9.5總結(jié)
208
9.6問(wèn)答
209
第 10章演員-評(píng)論家方法 211
10.
1最簡(jiǎn)單的演員-評(píng)論家算法:QAC 212
10.2優(yōu)勢(shì)演員
-評(píng)論家 213
10.
2.1基準(zhǔn)不變性 213
10.
2.2算法描述 215
10.3異策略演員
-評(píng)論家 217
10.
3.1重要性采樣 217
10.3.2
Off-policy策略梯度定理 220
10.
3.3算法描述 221
10.4確定性演員
-評(píng)論家 223
10.
4.1確定性策略梯度定理 223
10.
4.2算法描述 229
10.5總結(jié)
. 230
10.6問(wèn)答
. 231
附錄 A概率論基礎(chǔ) 233
附錄 B測(cè)度概率論 239
附錄 C序列的收斂性 247
C.1確定性序列的收斂性 248
C.2隨機(jī)序列的收斂性 250
附錄 D梯度下降方法 255
符號(hào) 261
索引 262
參考文獻(xiàn) 265