定 價:89.8 元
叢書名:新一代人工智能實戰(zhàn)型人才培養(yǎng)系列教程
- 作者:沈為 司翀杰 楊辰 俞勇
- 出版時間:2025/2/1
- ISBN:9787115635754
- 出 版 社:人民郵電出版社
- 中圖法分類:TP302.7
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書著眼于計算機視覺教學(xué)實踐,系統(tǒng)地介紹了計算機視覺的基本內(nèi)容及其代碼實現(xiàn)。
本書包含4個部分:第一部分為計算機視覺導(dǎo)論,帶領(lǐng)讀者初步了解計算機視覺。第二部分為計算機視覺中的圖像處理基礎(chǔ),介紹了圖像濾波、特征檢測、圖像拼接、圖像分割等經(jīng)典的圖像處理算法;第三部分為計算機視覺中的視覺識別方法,主要講解基于深度學(xué)習(xí)的視覺識別方法,包括基于深度學(xué)習(xí)的圖像分類、語義分割、目標(biāo)檢測、動作識別等;第四部分為計算機視覺中的場景重建,主要討論照相機標(biāo)定、運動場和光流、平行雙目視覺以及三維重建。本書將計算機視覺算法原理與實踐相結(jié)合,以大量示例和代碼帶領(lǐng)讀者走進計算機視覺的世界,讓讀者對計算機視覺的研究內(nèi)容、基本原理有基本認(rèn)識。
本書適合對計算機視覺感興趣的專業(yè)技術(shù)人員和研究人員閱讀,同時適合作為人工智能相關(guān)專業(yè)計算機視覺課程的教材。
·名家作品:上海交通大學(xué)ACM班創(chuàng)始人俞勇教授、上海交通大學(xué)教授沈為作品;
·加州大學(xué)、中科院、復(fù)旦大學(xué)等多所院校學(xué)科帶頭人推薦。
·理論系統(tǒng)、扎實,源自上海交通大學(xué)人工智能(卓越人才試點班)計算機視覺課程講義。
·配套資源豐富:在線代碼運行環(huán)境+在線視頻課程+習(xí)題+配套課件,真正實現(xiàn)“動手學(xué)”計算機視覺。
沈為,上海交通大學(xué)教授,博士生導(dǎo)師,上海交通大學(xué)人工智能(卓越人才試點班)計算機視覺課程授課教師。國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金獲得者,多次擔(dān)任計算機視覺相關(guān)領(lǐng)域頂級國際會議(如CVPR、ICCV、NeurIPS)的領(lǐng)域主席。研究領(lǐng)域包括計算機視覺、模式識別與深度學(xué)習(xí),以及這些技術(shù)在醫(yī)學(xué)輔助診斷等場景中的應(yīng)用。
司翀杰,上海交通大學(xué)人工智能研究院博士生,研究方向為大模型的高效訓(xùn)練,并在AAAI、
KDD、ECCV和TKDE等頂級會議或期刊上發(fā)表過多篇高水平論文。
俞勇,享受國務(wù)院特殊津貼專家,首批“國家高層次人才特殊支持計劃”教學(xué)名師,上海交通大學(xué)特聘教授,上海交通大學(xué)ACM班創(chuàng)始人,APEX數(shù)據(jù)與知識管理實驗室主任。曾獲得“全國模范教師”“全國師德標(biāo)兵”“CCF杰出教育獎”“上海市五一勞動獎?wù)隆焙汀吧虾=煌ù髮W(xué)校長獎”等榮譽。2018年創(chuàng)辦了伯禹人工智能學(xué)院,在上海交通大學(xué)ACM班人工智能專業(yè)課程體系的基礎(chǔ)上,對人工智能課程體系進行創(chuàng)新,致力于培養(yǎng)卓越的人工智能算法工程師和研究員。
楊辰,上海交通大學(xué)人工智能研究院博士生,獲得MICCAI 2023青年科學(xué)家獎,研究方向為復(fù)雜場景下的三維與四維重建,并在TOG、CVPR、ICCV和TMI等頂級會議或期刊上發(fā)表過多篇高水平論文。
第 一部分 計算機視覺導(dǎo)論
第 1章 初探計算機視覺 2
1.1 什么是計算機視覺 2
1.2 為什么需要計算機視覺 3
1.3 計算機視覺的難點與挑戰(zhàn) 3
1.4 計算機視覺的歷史與發(fā)展 5
1.5 計算機視覺中變量的數(shù)學(xué)符號約定 6
1.6 小結(jié) 7
第二部分 圖像處理
第 2章 卷積 10
2.1 簡介 10
2.2 一維卷積 11
2.2.1 沖激信號 14
2.2.2 方波信號 15
2.3 二維卷積 16
2.3.1 沖激信號 18
2.3.2 方波信號 20
2.4 小結(jié) 21
第3章 圖像濾波 22
3.1 簡介 22
3.2 圖像噪聲 22
3.2.1 椒鹽噪聲 22
3.2.2 高斯噪聲 24
3.3 均值濾波 24
3.4 高斯濾波 27
3.5 雙邊濾波 30
3.6 中值濾波 32
3.7 圖像銳化 34
3.8 小結(jié) 35
第4章 模板匹配 37
4.1 簡介 37
4.2 模板匹配的實現(xiàn) 37
4.2.1 匹配步驟 38
4.2.2 相似度度量 38
4.3 多目標(biāo)模板匹配 42
4.4 小結(jié) 45
第5章 邊緣檢測 46
5.1 簡介 46
5.2 邊緣檢測的數(shù)學(xué)模型 46
5.3 邊緣檢測算法 48
5.3.1 Sobel邊緣檢測算法 48
5.3.2 Canny邊緣檢測算法 51
5.4 小結(jié) 62
5.5 參考文獻 62
第6章 角點檢測 63
6.1 簡介 63
6.2 Harris角點檢測算法 64
6.2.1 計算像素值變化量 64
6.2.2 計算角點響應(yīng)函數(shù) 66
6.3 代碼實現(xiàn) 67
6.4 圖像變換對角點檢測的影響 70
6.5 小結(jié) 71
第7章 SIFT特征檢測 72
7.1 塊狀區(qū)域檢測與尺度空間 72
7.2 SIFT算法 76
7.2.1 局部極值點檢測 76
7.2.2 特征點定位與篩選 77
7.2.3 特征點方向計算 79
7.2.4 特征點描述 80
7.3 代碼實現(xiàn) 81
7.4 小結(jié) 94
7.5 參考文獻 94
第8章 圖像拼接 95
8.1 簡介 95
8.2 圖像變換 96
8.3 圖像拼接算法 97
8.3.1 計算變換矩陣 98
8.3.2 利用RANSAC算法去除誤匹配 99
8.3.3 圖像變換與縫合 101
8.4 代碼實現(xiàn) 101
8.5 小結(jié) 106
8.6 拓展閱讀 107
第9章 圖像分割 108
9.1 簡介 108
9.2 圖像分割算法 109
9.2.1 基于k均值聚類的圖像分割算法 109
9.2.2 基于圖切割的圖像分割算法 113
9.3 小結(jié) 117
9.4 參考文獻 118
第三部分 視覺識別
第 10章 圖像分類 120
10.1 簡介 120
10.2 數(shù)據(jù)集和度量 122
10.3 基于視覺詞袋模型的圖像分類算法 122
10.4 基于深度卷積網(wǎng)絡(luò)的圖像分類算法 128
10.5 小結(jié) 138
10.6 參考文獻 138
第 11章 語義分割 140
11.1 簡介 140
11.2 數(shù)據(jù)集和度量 141
11.3 全卷積網(wǎng)絡(luò) 141
11.3.1 上采樣 143
11.3.2 跳躍連接 145
11.4 FCN代碼實現(xiàn) 149
11.5 小結(jié) 156
11.6 參考文獻 156
第 12章 目標(biāo)檢測 157
12.1 簡介 157
12.2 數(shù)據(jù)集和度量 158
12.3 目標(biāo)檢測模型 159
12.3.1 R-CNN 160
12.3.2 Fast R-CNN 162
12.3.3 Faster R-CNN 166
12.4 RPN代碼整體框架 168
12.4.1 訓(xùn)練模塊 173
12.4.2 head模塊 179
12.4.3 anchor_generator模塊 180
12.4.4 box_coder模塊 184
12.4.5 filter_proposal模塊 188
12.5 代碼運行示例 191
12.6 小結(jié) 194
12.7 參考文獻 194
第 13章 實例分割 195
13.1 簡介 195
13.2 數(shù)據(jù)集和度量 196
13.3 Mask R-CNN 196
13.3.1 特征金字塔網(wǎng)絡(luò) 197
13.3.2 感興趣區(qū)域?qū)R 200
13.4 代碼運行示例 205
13.5 小結(jié) 208
13.6 參考文獻 209
第 14章 人體姿態(tài)估計 210
14.1 簡介 210
14.2 數(shù)據(jù)集和度量 211
14.2.1 數(shù)據(jù)集 211
14.2.2 評測指標(biāo) 211
14.3 人體姿態(tài)估計模型——DeepPose 212
14.3.1 基于深度神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計 212
14.3.2 級聯(lián)回歸 213
14.4 DeepPose代碼實現(xiàn) 215
14.5 小結(jié) 217
14.6 參考文獻 218
第 15章 動作識別 219
15.1 簡介 219
15.2 數(shù)據(jù)集和度量 220
15.2.1 數(shù)據(jù)集 220
15.2.2 評測指標(biāo) 220
15.3 動作識別模型——C3D 220
15.3.1 三維卷積 221
15.3.2 C3D模型 223
15.4 C3D代碼實現(xiàn) 224
15.5 小結(jié) 225
15.6 參考文獻 226
第四部分 場景重建
第 16章 照相機標(biāo)定 228
16.1 簡介 228
16.2 照相機成像原理 228
16.2.1 照相機模型 229
16.2.2 坐標(biāo)系的定義 229
16.2.3 照相機外參 229
16.2.4 照相機內(nèi)參 230
16.2.5 投影矩陣 232
16.2.6 畸變 233
16.3 照相機標(biāo)定的實現(xiàn) 235
16.3.1 標(biāo)定板 235
16.3.2 標(biāo)定流程 236
16.3.3 代碼實現(xiàn) 238
16.4 小結(jié) 247
第 17章 運動場和光流 248
17.1 簡介 248
17.2 運動場 249
17.3 光流 250
17.3.1 特征點法 250
17.3.2 直接法 250
17.3.3 Lucas-Kanade光流法 251
17.3.4 Lucas-Kanade光流法的改進 252
17.4 代碼實現(xiàn) 253
17.5 小結(jié) 261
17.6 參考文獻 261
第 18章 平行雙目視覺 262
18.1 簡介 262
18.2 平行雙目照相機 262
18.2.1 概念定義 262
18.2.2 視差 263
18.2.3 雙目特征匹配 264
18.2.4 全局優(yōu)化 265
18.3 代碼實現(xiàn) 266
18.4 小結(jié) 270
18.5 參考文獻 271
第 19章 三維重建 272
19.1 簡介 272
19.2 對極幾何 273
19.2.1 數(shù)學(xué)定義 273
19.2.2 本質(zhì)矩陣 275
19.2.3 利用八點法求解基礎(chǔ)矩陣 277
19.2.4 通過本質(zhì)矩陣求解照相機位姿 278
19.3 三角測量 278
19.4 代碼實現(xiàn) 280
19.5 小結(jié) 290
總結(jié)與展望 291
中英文術(shù)語對照表 293