城市交通信號(hào)控制建模與優(yōu)化:基于智能計(jì)算和深度強(qiáng)化學(xué)習(xí)
定 價(jià):79 元
- 作者:?jiǎn)讨久? 著
- 出版時(shí)間:2025/8/1
- ISBN:9787122479709
- 出 版 社:化學(xué)工業(yè)出版社
- 中圖法分類:U491.5
- 頁碼:155
- 紙張:
- 版次:01
- 開本:16開
本書圍繞城市交通信號(hào)控制難題,綜合運(yùn)用智能計(jì)算與深度強(qiáng)化學(xué)習(xí)技術(shù)展開介紹。開篇闡述了交通擁堵現(xiàn)狀及智能交通系統(tǒng)發(fā)展背景,梳理了交通信號(hào)控制技術(shù)的研究現(xiàn)狀。接著,針對(duì)多交叉口信號(hào)協(xié)同控制,提出半分布式三層框架及相應(yīng)優(yōu)化模型與算法;針對(duì)傳統(tǒng)車流動(dòng)力學(xué)建模局限,引入單智能體深度強(qiáng)化學(xué)習(xí)方法,創(chuàng)新動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)等;針對(duì)多交叉口信號(hào)控制難題,提出新算法并結(jié)合平均場(chǎng)理論等機(jī)制,解決維度災(zāi)難和Q值過估計(jì)問題。
本書所提模型和算法均通過仿真實(shí)驗(yàn),有較強(qiáng)的實(shí)踐指導(dǎo)意義。本書適合交通工程領(lǐng)域的工程師及科研人員學(xué)習(xí),也可用作高等院校相關(guān)專業(yè)的教學(xué)參考書。
第1章緒論001~020
1.1交通信號(hào)控制技術(shù)研究背景002
1.2交通信號(hào)控制技術(shù)分類及國內(nèi)外研究現(xiàn)狀006
1.2.1基于經(jīng)典方法的交通信號(hào)控制技術(shù)006
1.2.2基于深度強(qiáng)化學(xué)習(xí)的交通信號(hào)控制技術(shù)009
1.2.3基于車聯(lián)網(wǎng)的交通信號(hào)控制技術(shù)012
1.2.4交通信號(hào)控制技術(shù)的研究現(xiàn)狀015
1.3本書主要思路及內(nèi)容016
1.3.1主要思路016
1.3.2主要內(nèi)容017
第2章基礎(chǔ)知識(shí)021~044
2.1進(jìn)化計(jì)算方法概述022
2.2強(qiáng)化學(xué)習(xí)概述024
2.3單智能體深度強(qiáng)化學(xué)習(xí)032
2.4多智能體深度強(qiáng)化學(xué)習(xí)034
2.4.1隨機(jī)博弈035
2.4.2納什Q學(xué)習(xí)036
2.4.3多智能體深度確定性策略梯度算法037
2.5平均場(chǎng)多智能體強(qiáng)化學(xué)習(xí)038
2.5.1平均場(chǎng)近似理論039
2.5.2平均場(chǎng)多智能體強(qiáng)化學(xué)習(xí)算法042
2.6本章小結(jié)044
第3章基于車流動(dòng)力學(xué)的交通信號(hào)控制問題建模及優(yōu)化算法045~076
3.1引言046
3.2交通場(chǎng)景下的基本參數(shù)和評(píng)價(jià)指標(biāo)047
3.2.1基本參數(shù)047
3.2.2評(píng)價(jià)指標(biāo)050
3.3多交叉口交通信號(hào)控制問題描述051
3.4多交叉口交通信號(hào)控制問題建模054
3.4.1相位差延遲模型054
3.4.2綠信比延遲模型056
3.4.3改進(jìn)的公共周期模型057
3.4.4信號(hào)協(xié)同優(yōu)化模型057
3.4.5交叉口分級(jí)策略058
3.5基于免疫的煙花算法060
3.5.1煙花算法和免疫機(jī)制的基本思想060
3.5.2基于免疫的煙花算法設(shè)計(jì)061
3.6仿真與分析065
3.6.1仿真環(huán)境及實(shí)驗(yàn)參數(shù)設(shè)置065
3.6.2交通環(huán)境下的仿真與分析067
3.6.3標(biāo)準(zhǔn)函數(shù)下的仿真與分析073
3.7本章小結(jié)075
第4章基于深度強(qiáng)化學(xué)習(xí)的單智能體交通信號(hào)控制077~106
4.1引言078
4.2基于馬爾可夫決策過程的交通信號(hào)控制問題描述079
4.2.1狀態(tài)空間079
4.2.2動(dòng)作空間081
4.2.3獎(jiǎng)勵(lì)函數(shù)083
4.2.4累積延遲的近似088
4.3基于動(dòng)態(tài)權(quán)重的soft actor-critic算法089
4.3.1動(dòng)態(tài)權(quán)重089
4.3.2基于動(dòng)態(tài)權(quán)重的soft actor-critic算法設(shè)計(jì)091
4.4仿真與分析095
4.4.1仿真平臺(tái)設(shè)置095
4.4.2算法參數(shù)設(shè)置098
4.4.3交通環(huán)境下的仿真與分析099
4.4.4標(biāo)準(zhǔn)連續(xù)控制任務(wù)下的仿真與分析103
4.5本章小結(jié)105
第5章基于深度強(qiáng)化學(xué)習(xí)的多智能體交通信號(hào)控制107~130
5.1引言108
5.2基于馬爾可夫博弈的交通信號(hào)控制問題描述109
5.3合作的基于指數(shù)加權(quán)移動(dòng)平均的動(dòng)態(tài)延遲更新雙延遲深度確定性策略梯度算法112
5.3.1強(qiáng)化學(xué)習(xí)中的Q值過估計(jì)問題112
5.3.2基于指數(shù)加權(quán)移動(dòng)平均的動(dòng)態(tài)延遲更新策略115
5.3.3合作的基于指數(shù)加權(quán)移動(dòng)平均的動(dòng)態(tài)延遲更新雙延遲深度確定性策略梯度算法設(shè)計(jì)117
5.4仿真與分析121
5.4.1仿真平臺(tái)設(shè)置121
5.4.2算法參數(shù)設(shè)置123
5.4.3仿真結(jié)果與分析124
5.5本章小結(jié)130
第6章總結(jié)與展望131~136
6.1總結(jié)132
6.2展望134
附錄137~140
參考文獻(xiàn)141~155