本書(shū)共9章,具體內(nèi)容包括深度學(xué)習(xí)基礎(chǔ)、底層視覺(jué)算法、圖像分類、圖像邊緣檢測(cè)與分割、計(jì)算機(jī)視覺(jué)算法、自然語(yǔ)言處理算法、自然語(yǔ)言處理應(yīng)用、深度模型部署、綜合應(yīng)用實(shí)踐案例。除了紙書(shū)內(nèi)容外,本書(shū)還配套線上仿真實(shí)驗(yàn)及豐富實(shí)踐練習(xí)等內(nèi)容,側(cè)重培養(yǎng)讀者的動(dòng)手實(shí)踐能力。本書(shū)在編寫中著重介紹基本概念、基本原理和基本分析方法,突出實(shí)踐應(yīng)用,力圖做到基本概念準(zhǔn)確,條理清晰,內(nèi)容精練,重點(diǎn)突出,理論聯(lián)系實(shí)際。
本書(shū)可作為人工智能、智能科學(xué)與技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)、智能控制、軟件工程等專業(yè)的系統(tǒng)類或?qū)嵺`類課程的教材,也可供相關(guān)領(lǐng)域的科技人員參考使用。
1. 本書(shū)知識(shí)體系完備,首先介紹深度學(xué)習(xí)基礎(chǔ)知識(shí),包括卷積網(wǎng)絡(luò)和Transformer模型,其次介紹深度學(xué)習(xí)在底層圖像處理/分類/分割、目標(biāo)檢測(cè)與跟蹤等計(jì)算機(jī)視覺(jué)算法中的應(yīng)用,以及基于深度學(xué)習(xí)的自然語(yǔ)言處理算法及其應(yīng)用。針對(duì)深度學(xué)習(xí)模型部署,本書(shū)介紹了幾種常用的深度模型輕量化剪枝與量化方法。
2. 本書(shū)理論實(shí)踐結(jié)合,為了使讀者進(jìn)一步掌握深度學(xué)習(xí)算法及其應(yīng)用,本書(shū)設(shè)計(jì)了從基礎(chǔ)到進(jìn)階的實(shí)訓(xùn)項(xiàng)目,通過(guò)實(shí)訓(xùn)項(xiàng)目實(shí)踐,提升讀者利用深度學(xué)習(xí)技術(shù)解決實(shí)際工程問(wèn)題的能力。第9章綜合應(yīng)用實(shí)踐案例,介紹智能小車、無(wú)人機(jī)和智能安防等綜合實(shí)踐項(xiàng)目,將圖像分類、目標(biāo)識(shí)別、模型輕量化等技術(shù)進(jìn)行綜合應(yīng)用,使讀者掌握?qǐng)D像數(shù)據(jù)獲取、圖像標(biāo)注、模型訓(xùn)練及其部署應(yīng)用的全流程知識(shí)和能力,提升利用人工智能技術(shù)解決實(shí)際工程問(wèn)題的能力。
董偉生:
西安電子科技大學(xué)人工智能學(xué)院教授、博導(dǎo)、副院長(zhǎng),長(zhǎng)江學(xué)者特聘教授。主要從事圖像視頻處理、深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)等方面的研究與教學(xué)工作。在權(quán)威國(guó)際期刊和會(huì)議上發(fā)表論文160余篇,其中在TPAMI、IJCV、IEEE-TIP、CVPR等權(quán)威期刊和會(huì)議上發(fā)表論文80余篇,且論文被引用12 000余次。曾任/現(xiàn)任包括國(guó)際頂級(jí)期刊IEEE Transactions on Image Processing、SIAM Journal on Imaging Sciences在內(nèi)的3個(gè)期刊的編委、CVPR 2022領(lǐng)域主席。主持包括國(guó)家部委重大項(xiàng)目、國(guó)家自然科學(xué)基金優(yōu)青、國(guó)家自然科學(xué)基金重大項(xiàng)目課題等項(xiàng)目;主持人工智能實(shí)驗(yàn)課程虛擬教研室建設(shè)、教學(xué)資源建設(shè)等教改項(xiàng)目。曾入選國(guó)家優(yōu)青、萬(wàn)人計(jì)劃青年拔尖、青年長(zhǎng)江學(xué)者等人才項(xiàng)目。以第二完成人身份獲2017年國(guó)家自然科學(xué)獎(jiǎng)二等獎(jiǎng)、2013年陜西省科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng);曾獲2017年陜西省自然科學(xué)優(yōu)秀學(xué)術(shù)論文一等獎(jiǎng)。
【章名目錄】
第 1章 深度學(xué)習(xí)基礎(chǔ)
第 2章 底層視覺(jué)算法
第3章 圖像分類
第4章 圖像邊緣檢測(cè)與分割
第5章 計(jì)算機(jī)視覺(jué)算法
第6章 自然語(yǔ)言處理算法
第7章 自然語(yǔ)言處理應(yīng)用
第8章 深度模型部署
第9章 綜合應(yīng)用實(shí)踐案例
附錄 A Python安裝 …………………… 340
附錄 B PyTorch安裝與使用…………… 341
【詳細(xì)目錄】
第 1章 深度學(xué)習(xí)基礎(chǔ)
1.1 多層感知機(jī)介紹 …………………… 002
1.1.1 感知機(jī)的定義 ……………… 002
1.1.2 多層感知機(jī)中的激活函數(shù) … 003
1.2 卷積神經(jīng)網(wǎng)絡(luò) ……………………… 006
1.2.1 卷積神經(jīng)網(wǎng)絡(luò)特性與優(yōu)化方法 ………………………… 007
1.2.2 經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) … 014
1.3 Transformer網(wǎng)絡(luò) ………………… 022
1.3.1 ViT模型 …………………… 022
1.3.2 DETR模型 ………………… 025
1.4 深度學(xué)習(xí)軟件平臺(tái)介紹 …………… 032
1.4.1 深度學(xué)習(xí)框架簡(jiǎn)介 ………… 032
1.4.2 PyTorch深度學(xué)習(xí)框架 ……… 032
1.4.3 其他深度學(xué)習(xí)工具 ………… 037
1.5 本章作業(yè) …………………………… 039
1.5.1 習(xí)題 ………………………… 039
1.5.2 實(shí)驗(yàn) ………………………… 039
第 2章 底層視覺(jué)算法
2.1 低光圖像增強(qiáng) ……………………… 041
2.1.1 傳統(tǒng)低光圖像增強(qiáng) ………… 042
2.1.2 基于深度學(xué)習(xí)的低光圖像增強(qiáng) ………………………… 044
2.1.3 評(píng)價(jià)指標(biāo) …………………… 047
2.2 圖像超分辨率 ……………………… 049
2.2.1 基于模型的圖像超分辨率方法 ………………………… 049
2.2.2 基于深度學(xué)習(xí)的圖像超分辨率方法 ………………………… 051
2.3 圖像去噪 …………………………… 055
2.3.1 傳統(tǒng)圖像去噪算法 ………… 056
2.3.2 基于深度學(xué)習(xí)的圖像去噪算法 ………………………… 058
2.4 圖像去模糊 ………………………… 064
2.4.1 傳統(tǒng)圖像去模糊方法 ……… 065
2.4.2 基于深度學(xué)習(xí)的圖像去模糊方法 ………………………… 068
2.4.3 圖像去模糊數(shù)據(jù)集與評(píng)價(jià)指標(biāo) ………………………… 071
2.5 本章作業(yè) …………………………… 072
2.5.1 習(xí)題 ………………………… 072
2.5.2 實(shí)驗(yàn) ………………………… 072
第3章 圖像分類
3.1 圖像分類簡(jiǎn)介 ……………………… 074
3.2 MNIST手寫數(shù)字識(shí)別 …………… 076
3.2.1 MNIST數(shù)據(jù)集加載 ………… 076
3.2.2 訓(xùn)練分類網(wǎng)絡(luò) ……………… 077
3.2.3 模型測(cè)試與結(jié)果預(yù)測(cè) ……… 078
3.3 自然圖像分類 ……………………… 080
3.3.1 貓狗數(shù)據(jù)集加載和預(yù)處理 … 080
3.3.2 ResNet 分類模型 …………… 083
3.3.3 模型測(cè)試與結(jié)果預(yù)測(cè) ……… 085
3.4 視覺(jué) Transformer圖像分類 ……… 086
3.4.1 CIFAR-10數(shù)據(jù)集加載與預(yù)處理 ……………………… 087
3.4.2 構(gòu)建與訓(xùn)練 ViT模型 ……… 088
3.5 本章作業(yè) …………………………… 091
3.5.1 習(xí)題 ………………………… 091
3.5.2 實(shí)驗(yàn) ………………………… 091
第4章 圖像邊緣檢測(cè)與分割
4.1 邊緣檢測(cè) …………………………… 094
4.1.1 傳統(tǒng)邊緣檢測(cè)方法 ………… 095
4.1.2 基于深度學(xué)習(xí)的邊緣檢測(cè)方法 ………………………… 096
4.1.3 HED邊緣檢測(cè)實(shí)踐 ………… 098
4.2 圖像分割 …………………………… 100
4.2.1 基于閾值的方法 …………… 101
4.2.2 基于區(qū)域的方法 …………… 102
4.2.3 基于圖論的方法 …………… 105
4.2.4 基于深度學(xué)習(xí)的方法 ……… 106
4.3 語(yǔ)義分割 …………………………… 107
4.3.1 語(yǔ)義分割經(jīng)典模型 ………… 108
4.3.2 通用語(yǔ)義分割模型設(shè)計(jì) …… 112
4.3.3 語(yǔ)義分割數(shù)據(jù)集 …………… 115
4.4 實(shí)例分割 …………………………… 115
4.4.1 實(shí)例分割算法介紹 ………… 116
4.4.2 數(shù)據(jù)集與評(píng)價(jià)指標(biāo) ………… 118
4.4.3 實(shí)例分割研究進(jìn)展及實(shí)踐 … 119
4.5 全景分割 …………………………… 122
4.5.1 全景分割方法 ……………… 123
4.5.2 全景分割評(píng)價(jià)指標(biāo)和數(shù)據(jù)集 ……………………… 123
4.5.3 全景特征金字塔網(wǎng)絡(luò)算法框架 ………………………… 124
4.6 本章作業(yè) …………………………… 128
4.6.1 習(xí)題 ………………………… 128
4.6.2 實(shí)驗(yàn) ………………………… 128
第5章 計(jì)算機(jī)視覺(jué)算法
5.1 視覺(jué)目標(biāo)檢測(cè) ……………………… 131
5.1.1 兩階段目標(biāo)檢測(cè)原理 ……… 132
5.1.2 兩階段目標(biāo)檢測(cè)算法實(shí)現(xiàn) … 133
5.1.3 單階段目標(biāo)檢測(cè)算法 ……… 139
5.1.4 SSD目標(biāo)檢測(cè)算法實(shí)現(xiàn) …… 140
5.2 圖像顯著性檢測(cè) …………………… 142
5.2.1 傳統(tǒng)顯著性物體檢測(cè)方法 … 143
5.2.2 基于深度學(xué)習(xí)的顯著性物體檢測(cè)方法 ………………………… 143
5.2.3 顯著性物體檢測(cè)的典型框架 ………………………… 144
5.3 視覺(jué)目標(biāo)跟蹤 ……………………… 152
5.3.1 單目標(biāo)跟蹤方法 …………… 152
5.3.2 目標(biāo)跟蹤實(shí)驗(yàn) ……………… 154
5.4 人體姿態(tài)估計(jì) ……………………… 160
5.4.1 人體姿態(tài)分析概述 ………… 160
5.4.2 基于關(guān)鍵點(diǎn)回歸的人體姿態(tài)估計(jì) ………………………… 161
5.4.3 人體姿態(tài)估計(jì)實(shí)驗(yàn) ………… 163
5.5 人臉圖像分析 ……………………… 170
5.5.1 人臉圖像分析概述 ………… 170
5.5.2 人臉關(guān)鍵點(diǎn)檢測(cè)實(shí)驗(yàn) ……… 171
5.5.3 人臉表情分析實(shí)驗(yàn) ………… 179
5.6 本章作業(yè) …………………………… 188
5.6.1 習(xí)題 ………………………… 188
5.6.2 實(shí)驗(yàn) ………………………… 189
第6章 自然語(yǔ)言處理算法
6.1 語(yǔ)言模型 …………………………… 191
6.1.1 文本轉(zhuǎn)換為詞符序列 ……… 191
6.1.2 特殊詞符 …………………… 193
6.1.3 N元組語(yǔ)言模型 …………… 193
6.2 文本向量表示 ……………………… 196
6.2.1 詞向量模型 ………………… 196
6.2.2 文檔向量 …………………… 202
6.3 文本分類 …………………………… 203
6.3.1 多層感知機(jī)與情感分類 …… 203
6.3.2 Transformer MLP…………… 207
6.4 文本聚類 …………………………… 207
6.4.1 文本向量距離 ……………… 208
6.4.2 K-means……………………… 209
6.5 文本生成 …………………………… 211
6.5.1 采樣方法 …………………… 212
6.5.2 典型性采樣 ………………… 212
6.5.3 Beam Search ………………… 213
6.5.4 解碼策略函數(shù) ……………… 213
6.6 本章作業(yè) …………………………… 215
6.6.1 習(xí)題 ………………………… 215
6.6.2 實(shí)驗(yàn) ………………………… 216
第7章 自然語(yǔ)言處理應(yīng)用
7.1 從文本續(xù)寫到對(duì)話生成 …………… 218
7.1.1 從文本補(bǔ)全到對(duì)話模型 …… 218
7.1.2 對(duì)話模板概述 ……………… 219
7.1.3 對(duì)話模型部署 ……………… 220
7.2 模型微調(diào) …………………………… 222
7.2.1 有監(jiān)督微調(diào) ………………… 222
7.2.2 部分參數(shù)微調(diào) ……………… 223
7.2.3 CoLLiE框架安裝與使用 …… 224
7.3 任務(wù)指令 …………………………… 228
7.3.1 常見(jiàn)指令 …………………… 228
7.3.2 通過(guò) PPL解答選擇題 ……… 229
7.3.3 上下文學(xué)習(xí) ………………… 230
7.4 格式化輸出 ………………………… 232
7.4.1 格式化輸出概述 …………… 232
7.4.2 工具調(diào)用 …………………… 233
7.4.3 一致性投票 ………………… 235
7.5 檢索增強(qiáng) …………………………… 237
7.5.1 BM25………………………… 237
7.5.2 向量檢索 …………………… 239
7.5.3 內(nèi)容溯源 …………………… 239
7.6 本章作業(yè) …………………………… 240
7.6.1 習(xí)題 ………………………… 240
7.6.2 實(shí)驗(yàn) ………………………… 240
第8章 深度模型部署
8.1 深度模型剪枝 ……………………… 242
8.1.1 模型剪枝簡(jiǎn)介 ……………… 242
8.1.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)化剪枝 … 244
8.1.3 卷積神經(jīng)網(wǎng)絡(luò)稀疏性剪枝 … 249
8.1.4 Transformer網(wǎng)絡(luò)動(dòng)態(tài)剪枝 … 251
8.2 深度模型量化 ……………………… 255
8.2.1 深度模型量化簡(jiǎn)介 ………… 255
8.2.2 卷積神經(jīng)網(wǎng)絡(luò)對(duì)稱后量化 … 259
8.2.3 卷積神經(jīng)網(wǎng)絡(luò)量化感知訓(xùn)練 263
8.3 深度學(xué)習(xí)模型嵌入式平臺(tái)部署 …… 266
8.3.1 深度學(xué)習(xí)模型部署概述 …… 266
8.3.2 模型部署工具 ……………… 268
8.4 本章作業(yè) …………………………… 270
8.4.1 習(xí)題 ………………………… 270
8.4.2 實(shí)驗(yàn) ………………………… 270
第9章 綜合應(yīng)用實(shí)踐案例
9.1 智能小車綜合實(shí)踐 ………………… 273
9.1.1 智能小車的手勢(shì)識(shí)別實(shí)踐 … 273
9.1.2 智能小車的自動(dòng)循跡實(shí)踐 … 286
9.2 無(wú)人機(jī)綜合實(shí)踐 …………………… 298
9.2.1 實(shí)踐整體框架 ……………… 298
9.2.2 實(shí)踐軟硬件配置 …………… 299
9.2.3 數(shù)據(jù)流推流 ………………… 299
9.2.4 目標(biāo)檢測(cè)跟蹤算法 ………… 302
9.2.5 服務(wù)器模型部署 …………… 310
9.3 智能安防綜合實(shí)踐 ………………… 311
9.3.1 網(wǎng)絡(luò)視頻推流簡(jiǎn)介 ………… 312
9.3.2 基于 YOLOv5的火災(zāi)煙霧檢測(cè) ………………………… 317
9.3.3 公共場(chǎng)所人流量統(tǒng)計(jì) ……… 327
9.3.4 目標(biāo)人物跟蹤 ……………… 334
9.4 本章作業(yè) …………………………… 338
9.4.1 習(xí)題 ………………………… 338
9.4.2 實(shí)驗(yàn) ………………………… 338
附錄 A Python安裝 …………………… 340
附錄 B PyTorch安裝與使用…………… 341
參考文獻(xiàn)…………………………………… 342