定 價(jià):69.8 元
叢書(shū)名:新一代人工智能創(chuàng)新人才培養(yǎng)精品系列
- 作者:劉江 李三仟 聶秋實(shí) 章曉慶
- 出版時(shí)間:2025/2/1
- ISBN:9787115661708
- 出 版 社:人民郵電出版社
- 中圖法分類:TP183
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
全書(shū)分為引言、理論基礎(chǔ)、媒體信息處理技術(shù)、多媒體融合和應(yīng)用四大部分,主要內(nèi)容包括多媒體信息處理概述、多媒體信息處理的基礎(chǔ)理論、多媒體文本信息處理 、多媒體語(yǔ)音信息處理和語(yǔ)音識(shí)別、多媒體圖像信息處理、動(dòng)畫(huà)信息處理、圖形信息處理、視頻信息處理、跨媒體/融媒體信息處理、 多媒體信息融合系統(tǒng)、多媒體信息處理應(yīng)用、多媒體信息處理的未來(lái)。
本書(shū)涵蓋了多媒體六大模態(tài)的概念、算法、系統(tǒng)及應(yīng)用,適合數(shù)字媒體技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)、信息工程等專業(yè)學(xué)生學(xué)習(xí),既可作為多媒體信息處理、多媒體技術(shù)、多媒體計(jì)算、多媒體應(yīng)用等課程的教材,也可作為相關(guān)領(lǐng)域的參考書(shū)籍。
1. 人工智能技術(shù)解決多媒體信息處理問(wèn)題。
2. 注重人工智能算法應(yīng)用,設(shè)計(jì)豐富案例進(jìn)行分析。
3. 注重不同技術(shù)的對(duì)比與分析,提高學(xué)生創(chuàng)新思維和創(chuàng)新能力。
4. 配套資源豐富,全力支撐一線教學(xué)需求。
劉江,教授,新加坡國(guó)家眼科研究中心首席科學(xué)(兼)。在醫(yī)學(xué)圖像等多媒體及人工智能領(lǐng)域發(fā)表頂級(jí)論文和會(huì)議300多篇,國(guó)際和國(guó)內(nèi)專利100余項(xiàng)。曾出版《人工智能導(dǎo)論》教材,榮獲深圳市優(yōu)秀教師榮譽(yù)稱號(hào)。
第 1章 人工智能多媒體計(jì)算概述 1
1.1 媒體與人工智能多媒體計(jì)算的基本概念 2
1.1.1 媒體定義及類型 2
1.1.2 數(shù)字媒體 3
1.1.3 多媒體及人工智能多媒體計(jì)算 3
1.2 人工智能多媒體計(jì)算的發(fā)展歷史 4
1.2.1 人工智能多媒體計(jì)算發(fā)展的第 1個(gè)里程碑:超文本 5
1.2.2 人工智能多媒體計(jì)算發(fā)展的第 2個(gè)里程碑:多媒體操作系統(tǒng)Alto 5
1.2.3 人工智能多媒體計(jì)算發(fā)展的第3個(gè)里程碑:多媒體計(jì)算機(jī)Amiga 6
1.2.4 人工智能多媒體計(jì)算發(fā)展的第4個(gè)里程碑:運(yùn)動(dòng)圖像壓縮MPEG-4標(biāo)準(zhǔn) 7
1.2.5 人工智能多媒體計(jì)算發(fā)展的第5個(gè)里程碑:iPod/iTunes及流媒體 8
1.2.6 人工智能多媒體計(jì)算發(fā)展的第6個(gè)里程碑:人工智能多媒體 10
1.2.7 人工智能多媒體計(jì)算發(fā)展的第7個(gè)里程碑:生成式融媒體 10
1.3 人工智能多媒體模態(tài)計(jì)算技術(shù)發(fā)展概述 11
1.3.1 人工智能多媒體文本信息計(jì)算的發(fā)展階段 12
1.3.2 人工智能多媒體語(yǔ)音信息計(jì)算的發(fā)展階段 13
1.3.3 人工智能多媒體圖像信息計(jì)算的發(fā)展階段 13
1.3.4 人工智能多媒體動(dòng)畫(huà)信息計(jì)算的發(fā)展階段 14
1.3.5 人工智能多媒體圖形信息計(jì)算的發(fā)展階段 15
1.3.6 人工智能多媒體視頻信息計(jì)算的發(fā)展階段 16
1.4 人工智能多媒體計(jì)算的行業(yè)發(fā)展現(xiàn)狀 17
1.4.1 人工智能多媒體計(jì)算的產(chǎn)業(yè)結(jié)構(gòu) 17
1.4.2 人工智能多媒體計(jì)算的應(yīng)用領(lǐng)域 19
1.5 本章小結(jié) 20
習(xí)題 20
第 2章 人工智能多媒體計(jì)算的理論基礎(chǔ) 21
2.1 人工智能多媒體計(jì)算的數(shù)學(xué)基礎(chǔ) 21
2.1.1 微積分 21
2.1.2 線性代數(shù) 24
2.1.3 概率論 30
2.2 人工智能多媒體計(jì)算的信號(hào)處理基礎(chǔ) 33
2.2.1 信號(hào) 33
2.2.2 信號(hào)濾波 33
2.2.3 信號(hào)分析 34
2.3 人工智能多媒體計(jì)算的信息論基礎(chǔ) 36
2.3.1 香農(nóng)通信系統(tǒng)模型 36
2.3.2 信息的度量 37
2.3.3 信源編碼 38
2.3.4 信道編碼 39
2.4 人工智能多媒體計(jì)算的人工智能基礎(chǔ) 40
2.4.1 機(jī)器學(xué)習(xí) 40
2.4.2 深度學(xué)習(xí) 45
2.5 本章小結(jié) 48
習(xí)題 48
第3章 人工智能多媒體文本信息計(jì)算 49
3.1 人工智能文本信息計(jì)算基礎(chǔ)及里程碑式成果 50
3.1.1 人工智能文本信息計(jì)算基礎(chǔ) 50
3.1.2 人工智能文本信息計(jì)算發(fā)展里程碑 51
3.2 人工智能文本信息計(jì)算算法 53
3.2.1 詞袋模型 53
3.2.2 詞頻-逆文檔頻率 54
3.2.3 潛在語(yǔ)義分析 55
3.2.4 知識(shí)圖譜 55
3.2.5 詞嵌入與Word2Vec 60
3.2.6 循環(huán)神經(jīng)網(wǎng)絡(luò)/長(zhǎng)短期記憶與序列到序列 62
3.3 現(xiàn)代人工智能文本信息計(jì)算算法:注意力機(jī)制與ChatGPT 65
3.4 人工智能文本信息計(jì)算應(yīng)用:圖像描述生成 71
3.5 本章小結(jié) 72
習(xí)題 73
第4章 人工智能多媒體語(yǔ)音信息計(jì)算 74
4.1 人工智能語(yǔ)音信息計(jì)算基礎(chǔ)及發(fā)展里程碑 75
4.1.1 人工智能語(yǔ)音信息計(jì)算基礎(chǔ) 75
4.1.2 人工智能語(yǔ)音信息計(jì)算里程碑 79
4.2 人工智能語(yǔ)音信息計(jì)算算法 80
4.2.1 語(yǔ)音特征分析與梅爾頻率倒譜系數(shù) 80
4.2.2 語(yǔ)音識(shí)別與隱馬爾可夫模型 82
4.2.3 語(yǔ)音合成之基音同步疊加算法 86
4.2.4 語(yǔ)音壓縮與MP3算法 88
4.2.5 說(shuō)話人識(shí)別與高斯混合模型 90
4.3 現(xiàn)代人工智能語(yǔ)音信息計(jì)算算法 91
4.3.1 語(yǔ)音通用與深度神經(jīng)網(wǎng)絡(luò) 91
4.3.2 語(yǔ)音大模型與Whisper 93
4.4 人工智能語(yǔ)音信息計(jì)算應(yīng)用:中文語(yǔ)音識(shí)別系統(tǒng) 93
4.5 本章小結(jié) 94
習(xí)題 95
第5章 人工智能多媒體圖像信息計(jì)算 96
5.1 人工智能圖像信息計(jì)算基礎(chǔ)和發(fā)展里程碑 97
5.1.1 視覺(jué)與圖像簡(jiǎn)介 97
5.1.2 人工智能圖像信息計(jì)算發(fā)展里程碑 98
5.2 人工智能圖像信息計(jì)算算法 99
5.2.1 圖像邊緣檢測(cè)算法與Canny 99
5.2.2 圖像壓縮算法與JPEG 103
5.2.3 圖像復(fù)原算法與暗通道先驗(yàn) 109
5.2.4 圖像識(shí)別算法與AlexNet 113
5.2.5 圖像生成算法與GAN 116
5.2.6 圖像目標(biāo)檢測(cè)算法與YOLO 122
5.3 現(xiàn)代人工智能圖像信息計(jì)算算法:分割一切模型 125
5.4 人工智能圖像信息計(jì)算應(yīng)用:圖像語(yǔ)義分割工具 126
5.5 本章小結(jié) 128
習(xí)題 128
第6章 人工智能多媒體動(dòng)畫(huà)信息計(jì)算 129
6.1 人工智能動(dòng)畫(huà)信息計(jì)算基礎(chǔ)及發(fā)展里程碑 130
6.1.1 人工智能動(dòng)畫(huà)信息計(jì)算基礎(chǔ) 130
6.1.2 人工智能動(dòng)畫(huà)信息計(jì)算里程碑 130
6.2 人工智能動(dòng)畫(huà)信息計(jì)算處理算法 131
6.2.1 動(dòng)畫(huà)關(guān)鍵幀插值與貝塞爾曲線 131
6.2.2 動(dòng)作捕捉與光學(xué)動(dòng)作捕捉算法 133
6.2.3 動(dòng)畫(huà)路徑規(guī)劃算法與Dijkstra算法 135
6.2.4 骨骼動(dòng)畫(huà)與蒙皮算法 136
6.2.5 動(dòng)畫(huà)物理模擬與布料模擬算法 138
6.2.6 群體動(dòng)畫(huà)算法與Flock-and-Boid模型 140
6.3 現(xiàn)代人工智能動(dòng)畫(huà)信息計(jì)算算法:GANimation動(dòng)畫(huà)生成 142
6.4 人工智能動(dòng)畫(huà)信息計(jì)算應(yīng)用:教育應(yīng)用 143
6.5 本章小結(jié) 143
習(xí)題 144
第7章 人工智能多媒體圖形信息計(jì)算 145
7.1 人工智能圖形信息計(jì)算基礎(chǔ)及發(fā)展里程碑 146
7.1.1 人工智能圖形信息計(jì)算基礎(chǔ) 146
7.1.2 人工智能圖形信息計(jì)算發(fā)展里程碑 148
7.2 人工智能圖形信息計(jì)算基礎(chǔ)及發(fā)展里程碑 149
7.2.1 計(jì)算機(jī)圖形學(xué)的開(kāi)端——Sketchpad的發(fā)明 149
7.2.2 圖形用戶界面 150
7.2.3 虛擬現(xiàn)實(shí)技術(shù) 153
7.2.4 圖形處理器 155
7.2.5 AR技術(shù)與Google Glass 164
7.3 現(xiàn)代人工智能圖形信息計(jì)算算法:NeRF/3D GS 166
7.3.1 圖形表達(dá)與NeRF 166
7.3.2 圖形渲染與3D GS 170
7.4 現(xiàn)代人工智能圖形信息計(jì)算應(yīng)用:醫(yī)療場(chǎng)景 175
7.5 本章小結(jié) 177
習(xí)題 177
第8章 人工智能多媒體視頻信息計(jì)算 178
8.1 人工智能視頻信息計(jì)算基礎(chǔ)及發(fā)展里程碑 179
8.1.1 人工智能視頻信息計(jì)算簡(jiǎn)介 179
8.1.2 人工智能視頻信息計(jì)算發(fā)展里程碑 181
8.2 人工智能視頻信息計(jì)算算法 183
8.2.1 模擬視頻與PAL 183
8.2.2 數(shù)字視頻與CCIR 601 184
8.2.3 數(shù)字視頻壓縮與MPEG-4 185
8.2.4 流媒體與iPod/iTunes 190
8.2.5 互聯(lián)網(wǎng)視頻與YouTube 192
8.2.6 短視頻與Musical.ly 194
8.3 現(xiàn)代人工智能視頻信息計(jì)算算法:Sora 196
8.4 現(xiàn)代人工智能視頻信息計(jì)算應(yīng)用:手術(shù)場(chǎng)景分析 199
8.5 本章小結(jié) 199
習(xí)題 200
第9章 融媒體及生成式融媒體經(jīng)典應(yīng)用 201
9.1 生成式融媒體模型與GPT-4o 202
9.1.1 生成式融媒體基礎(chǔ)模型 202
9.1.2 GPT-4o 202
9.2 圖文生成式融媒體系統(tǒng) 203
9.3 通用生成式融媒體系統(tǒng) 204
9.4 生物學(xué)生成式融媒體系統(tǒng) 206
9.5 虛擬真實(shí)世界 210
9.6 本章小結(jié) 214
習(xí)題 214
第 10章 人工智能多媒體信息融合系統(tǒng) 215
10.1 人工智能多媒體信息融合系統(tǒng)概述 215
10.2 虛擬數(shù)字人系統(tǒng) 216
10.2.1 虛擬數(shù)字人的概念 216
10.2.2 虛擬數(shù)字人的發(fā)展 217
10.2.3 虛擬數(shù)字人的應(yīng)用 218
10.2.4 虛擬數(shù)字人的未來(lái)趨勢(shì) 219
10.3 增強(qiáng)現(xiàn)實(shí)系統(tǒng) 219
10.3.1 增強(qiáng)現(xiàn)實(shí)的概念 220
10.3.2 HoloLens—從二維到三維的革新 220
10.3.3 Vision Pro—空間計(jì)算設(shè)備 221
10.3.4 增強(qiáng)現(xiàn)實(shí)的未來(lái)趨勢(shì) 222
10.4 沉浸式游戲系統(tǒng) 223
10.4.1 沉浸式游戲概述 223
10.4.2 虛擬現(xiàn)實(shí)游戲 223
10.4.3 增強(qiáng)現(xiàn)實(shí)游戲 225
10.4.4 元宇宙游戲 227
10.4.5 沉浸式游戲的未來(lái)趨勢(shì) 228
10.5 本章小結(jié) 229
習(xí)題 229
第 11章 人工智能多媒體計(jì)算的未來(lái) 230
11.1 多模態(tài)生成式多媒體 231
11.1.1 多模態(tài)生成式多媒體概述 231
11.1.2 文本生成模型的新進(jìn)展 231
11.1.3 語(yǔ)音合成領(lǐng)域的突破 232
11.1.4 圖像、圖形生成模型的新突破 232
11.1.5 視頻、動(dòng)畫(huà)生成技術(shù)的創(chuàng)新 233
11.1.6 多模態(tài)生成式多媒體的總結(jié)與未來(lái)展望 233
11.2 多媒體智能體 233
11.2.1 多媒體智能體的定義與意義 233
11.2.2 傳感器與自主行動(dòng)響應(yīng) 234
11.2.3 環(huán)境信息提取、分類與理解 235
11.2.4 內(nèi)容編輯與創(chuàng)作 235
11.2.5 情感與語(yǔ)音內(nèi)容分析 236
11.2.6 多媒體智能體發(fā)展的總結(jié)與未來(lái)展望 237
11.3 多媒體信息技術(shù)的發(fā)展?jié)摿Α?37
11.3.1 多媒體信息技術(shù)概述 237
11.3.2 計(jì)算網(wǎng)絡(luò)云端化 237
11.3.3 交互顯示硬件 238
11.3.4 人工智能與多媒體內(nèi)容 241
11.3.5 多媒體信息技術(shù)的總結(jié)與未來(lái)展望 241
11.4 多媒體安全與倫理 241
11.4.1 多媒體安全與倫理概述 241
11.4.2 隱私安全 241
11.4.3 技術(shù)安全與責(zé)任認(rèn)定 242
11.4.4 算法偏見(jiàn) 242
11.4.5 就業(yè)問(wèn)題與數(shù)字鴻溝 242
11.4.6 結(jié)語(yǔ) 243
11.5 本章小結(jié) 243
習(xí)題 243
參考文獻(xiàn) 244
后記 247