本書生動(dòng)地講述了底層視覺的發(fā)展歷史,總結(jié)了人工智能前沿的最新成果,揭示了高清大片背后的科學(xué)奧秘,展現(xiàn)了實(shí)事求是和永無(wú)止境的科學(xué)家精神。
同時(shí),附有作者的科研感悟和心路歷程,富有啟發(fā)性。
本書適合理工科專業(yè)的大學(xué)生和研究生、科研人員,以及人工智能愛好者閱讀。
適讀人群 :理工科專業(yè)學(xué)生,科研人員,人工智能愛好者
一線專家撰寫:技術(shù)功底深厚,復(fù)盤從0開始的計(jì)算機(jī)視覺科研思路,啟迪思考
關(guān)注技術(shù)落地應(yīng)用:從1到N,結(jié)合實(shí)際案例分析產(chǎn)品化過(guò)程,助力初學(xué)者成長(zhǎng)
人文與科學(xué)融合:探討科學(xué)家精神,賦予技術(shù)人文溫度
本書緣起
我本來(lái)想寫一本介紹底層視覺前沿技術(shù)的教材,但后來(lái)發(fā)現(xiàn)它注定會(huì)成為一本歷史書。既然如此,干脆就寫一本歷史書,讓技術(shù)成為媒介,將那段波瀾壯闊的歷史,補(bǔ)充以我的個(gè)人經(jīng)驗(yàn),呈現(xiàn)給大家。這也是將本書命名為《底層視覺之美:高清大片背后的人工智能》的原因。過(guò)去十年來(lái),我對(duì)底層視覺感觸頗深。在底層視覺里,技術(shù)的背后有著對(duì)藝術(shù)的追求,藝術(shù)的背后又有著科學(xué)的力量,而科學(xué)注定與哲學(xué)相互交織,這就是本書想表達(dá)的底層視覺之美,一種在智能時(shí)代才有的全新美學(xué)。這本書適合所有領(lǐng)域的讀者,希望所有對(duì)底層視覺感興趣的人,都能徜徉其中,沒(méi)有障礙地閱讀。接下來(lái),我會(huì)分幾個(gè)方面介紹寫這本書的寫作動(dòng)機(jī),以及這本書獨(dú)特的呈現(xiàn)方式。
底層視覺需要一本專業(yè)性的技術(shù)書
雖然底層視覺只是計(jì)算機(jī)視覺的一部分,但它歷史久遠(yuǎn)、分支眾多、特點(diǎn)鮮明,需要一本專門的書來(lái)介紹。人們(甚至一些人工智能領(lǐng)域的從業(yè)人員)對(duì)底層視覺普遍不了解。我發(fā)現(xiàn)很多人工智能教材中沒(méi)有將底層視覺獨(dú)立成章,甚至不曾提及,這是很大的失誤!底層視覺所受到的關(guān)注與它的重要程度明顯不符。我們生活中常見的智能拍照、短視頻應(yīng)用、電影、電視等都離不開底層視覺技術(shù)。而很多工業(yè)場(chǎng)景,如醫(yī)療影像、衛(wèi)星成像、電視廣播、水下勘探等也需要底層視覺技術(shù)的支撐。
底層視覺需要一本總結(jié)性的歷史書
過(guò)去十年,我們經(jīng)歷了從傳統(tǒng)算法到深度學(xué)習(xí)的深刻變革,底層視覺也日益成熟,從幾個(gè)獨(dú)立的圖像處理任務(wù)擴(kuò)展為分支眾多、縱橫交錯(cuò)的視覺領(lǐng)域,它的起承轉(zhuǎn)合是那么精彩。在新一代技術(shù)革命到來(lái)之前,我們有必要對(duì)底層視覺進(jìn)行階段性的總結(jié)。同時(shí),現(xiàn)在的論文數(shù)量越來(lái)越多,新的論文讓人應(yīng)接不暇,早期的論文很快會(huì)被淘汰。如果想了解過(guò)去十年的技術(shù)發(fā)展,閱讀一本經(jīng)過(guò)凝練的書顯然是最好的方式。這本書也將為年輕的學(xué)者們提供便利,幫助他們從浩瀚的論文海洋中解脫出來(lái),手握一把可以快速入門的鑰匙。
底層視覺需要一本有溫度的美學(xué)書
底層視覺與高層視覺不同,它面對(duì)的不是一個(gè)個(gè)冷冰冰的數(shù)字指標(biāo),而是一幅幅生動(dòng)的圖像畫面。這就要求底層視覺的研究者不僅要懂計(jì)算機(jī)算法,也要有基本的美學(xué)素養(yǎng)。我們要學(xué)會(huì)欣賞計(jì)算機(jī)生成的圖像,培養(yǎng)對(duì)圖像的敏感度,并從細(xì)微處發(fā)現(xiàn)算法的問(wèn)題,也要將創(chuàng)造完美的畫質(zhì)作為我們的最高追求。底層視覺是有溫度的人工智能,它與我們離得很近,可以直接觸碰我們的情感,提升我們對(duì)美的體驗(yàn)。因此,底層視覺注定要與美同行,我也希望將底層視覺之美滲透到這本書的各個(gè)方面。
本書將會(huì)有許多不同于傳統(tǒng)技術(shù)書或教材的地方,我也想在一開始就告知讀者,以免引起誤解。
強(qiáng)調(diào)主觀經(jīng)驗(yàn)
這是本書最大的特色,也是最可能受到質(zhì)疑的地方。教材都要強(qiáng)調(diào)客觀性,不能加入太多主觀色彩,也不能植入個(gè)人觀點(diǎn)。如果那樣做,這本書就太枯燥了。我最想傳達(dá)的就是這些年對(duì)底層視覺的經(jīng)驗(yàn)和體會(huì),它們才是我思想的結(jié)晶,才是最有益于讀者的地方。我不能丟掉珠子,給讀者盒子(買櫝還珠)。然而主觀就勢(shì)必有偏,我不能保證所有人都認(rèn)可這些觀點(diǎn),也不能保證這些觀點(diǎn)中的每一句話都正確。希望我個(gè)人的觀點(diǎn)能夠引發(fā)思考、產(chǎn)生碰撞、啟迪智慧。
試圖以偏概全
要把底層視覺的方方面面都寫到實(shí)在是太困難了,至少要有20個(gè)章節(jié),十多個(gè)研究分支,每個(gè)分支都有自己獨(dú)特的發(fā)展歷程和技術(shù)特點(diǎn)。即便真的把所有技術(shù)都組合到一起,形成一本龐大的集錦,也很少有人會(huì)從頭到尾讀完,那就失去了寫這本書的意義。因此,我決定大膽地以偏概全,只寫自己熟悉的領(lǐng)域,只說(shuō)自己寫過(guò)的論文,只講自己經(jīng)歷的故事。這樣就能保證技術(shù)的準(zhǔn)確性和經(jīng)驗(yàn)的完整性,也更能體現(xiàn)我們的研究特色。在以偏概全的過(guò)程中,我也會(huì)盡量輻射其他子領(lǐng)域,讓讀者仍然可以了解底層視覺的全貌。
嘗試提升高度
歷史書的目的從來(lái)不是增加我們的記憶,而是以史為鑒,以古喻今。所有事物的發(fā)展都有一定的規(guī)律,這個(gè)規(guī)律跟事物本身無(wú)關(guān),是通行天地亙古不變的道理,我希望能從底層視覺的發(fā)展中看到這樣的規(guī)律。從最早的算法突變,到后來(lái)的技術(shù)爆炸,再到現(xiàn)在的智能涌現(xiàn),其中蘊(yùn)含了怎樣的發(fā)展規(guī)律,這個(gè)規(guī)律是否也出現(xiàn)在高層視覺中,是否也是人工智能的發(fā)展規(guī)律,甚至是否可能是自然生物進(jìn)化的縮影,這里面的道理無(wú)法直接講明,卻可以隱約感受到。如果我們能將人工智能放到自然規(guī)律面前,那么也許會(huì)發(fā)現(xiàn)它的發(fā)展從來(lái)都不是由人來(lái)掌控的,有一只看不見的手在指揮著這一切。如果我們能夠了解人工智能發(fā)展背后的客觀性,那么是否也能夠更加謙卑地前行?也許無(wú)情的背后是有情,有情的背后是無(wú)情。
以上就是我寫本書的初衷,也是本書的歸結(jié)。說(shuō)簡(jiǎn)單點(diǎn)兒,就是我希望以最直白的方式表達(dá)我的觀點(diǎn),也希望以最方便的方式讓讀者受益。本書的章節(jié)也是按照技術(shù)發(fā)展的順序來(lái)安排的,可以像讀小說(shuō)一樣從頭讀到尾,也可以撿起某個(gè)章節(jié)?醇夹g(shù)部分。同時(shí),我也會(huì)穿插介紹一些當(dāng)年做這些研究時(shí)遇到的挫折和產(chǎn)生的體會(huì),希望為初學(xué)者提供一點(diǎn)點(diǎn)信心和幫助,也為世界增加一點(diǎn)點(diǎn)新知、一點(diǎn)點(diǎn)美好。
本書的主要分工
本書的主要文字部分由我(董超)完成,包括技術(shù)章節(jié)和經(jīng)驗(yàn)分享,而技術(shù)章節(jié)后的小貼士和全書的插圖由我的學(xué)生胡錦帆博士完成,他也為本書付出了巨大的精力。這本書雖然是我在寫,但實(shí)際是整個(gè)XPixel團(tuán)隊(duì)的科研成果在支撐,感謝每一位XPixel的同學(xué),也感謝康馨予為本書所做的文字校對(duì)工作。另外,本書所列舉的大部分工作是我們團(tuán)隊(duì)自己的成果,沒(méi)有覆蓋行業(yè)內(nèi)所有代表性的工作。實(shí)際上,做底層視覺的優(yōu)秀團(tuán)隊(duì)和杰出教授很多,像曾經(jīng)對(duì)我啟發(fā)很大的張磊老師、左旺孟老師和孟德宇老師,他們的工作也非常值得學(xué)習(xí)和研究,只是我很難將他們的工作都寫入書中,請(qǐng)他們見諒,也請(qǐng)讀者見諒。
致謝
謹(jǐn)以此書獻(xiàn)給我最敬愛的導(dǎo)師湯曉鷗教授,沒(méi)有湯老師,就沒(méi)有底層視覺之美,可惜他再也看不到這本書了,希望能用這十年的成果報(bào)答他萬(wàn)一的恩情,我愿在這本書中刻下對(duì)他永恒的懷念!感謝澳門大學(xué)的周建濤老師,他給我提供了寶貴的機(jī)會(huì),可以在澳門大學(xué)圖書館里安心寫書!感謝XPixel團(tuán)隊(duì)的所有成員,尤其是呂建勤老師、喬宇老師、王鑫濤和顧津錦,他們是XPixel的奠基者和共建者,也是我最好的老師和伙伴!XPixel十年的努力也終于開花結(jié)果,孵化出了明犀科技(SupPixel.AI)這家公司,我們將把最新的研究成果放到公司的官網(wǎng)上,讓所有人都可以直接體驗(yàn)底層視覺之美!
董超
董超,博士生導(dǎo)師,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院研究員,深圳理工大學(xué)教授,上海人工智能實(shí)驗(yàn)室雙聘領(lǐng)軍科學(xué)家。主要研究方向?yàn)榈讓佑?jì)算機(jī)視覺,包括圖像超分辨率、去噪和增強(qiáng)等,發(fā)表相關(guān)論文100余篇,截至2024年底,谷歌學(xué)術(shù)引用量超過(guò)40000次。2014年,提出深度超分辨率算法SRCNN,首次將深度學(xué)習(xí)引入圖像超分辨率領(lǐng)域。2017年至今,多次帶隊(duì)參加國(guó)際圖像超分辨率比賽,共獲得9項(xiàng)冠軍。20162018年就職于商湯科技,帶領(lǐng)商湯超分團(tuán)隊(duì)開發(fā)了世界首款基于深度學(xué)習(xí)的數(shù)碼變焦軟件,并成功落地在vivo X23手機(jī)上。2021年,被斯坦福大學(xué)評(píng)選為世界前2%頂尖科學(xué)家。2022年被清華大學(xué)評(píng)為AI2000人工智能全球最具影力學(xué)者。2023年,獲得上海市技術(shù)發(fā)明獎(jiǎng)一等獎(jiǎng)。
胡錦帆,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院2022級(jí)博士生,XPixel團(tuán)隊(duì)成員,師從董超研究員。于2019年和2022年在電子科技大學(xué)取得本科和碩士學(xué)位。研究方向?yàn)榈讓佑?jì)算機(jī)視覺,同時(shí)致力于探索該領(lǐng)域的可解釋性問(wèn)題。
第一部分:科學(xué)之美
第1章 人工智能是什么 2
1.1 人工智能是可以解決復(fù)雜問(wèn)題的算法 3
1.2 人工智能可以實(shí)現(xiàn)復(fù)雜的目標(biāo) 4
1.3 人工智能具備從數(shù)據(jù)中學(xué)習(xí)的能力 5
1.4 人工智能要與人類主觀意識(shí)互通 6
第2章 底層視覺是什么 9
2.1 底層視覺與計(jì)算機(jī)視覺 10
2.2 底層視覺與人工智能 11
2.3 底層視覺與圖像處理 12
第3章 從0到1,從來(lái)都不簡(jiǎn)單 17
3.1 圖像超分辨率的發(fā)展歷程 17
3.2 SRCNN的誕生 23
3.3 解構(gòu)SRCNN 26
第4章 從1到N的發(fā)展規(guī)律 34
4.1 傳統(tǒng)算法奮起直追 35
4.2 傳統(tǒng)算法與深度學(xué)習(xí)算法協(xié)同發(fā)展 36
4.3 深度學(xué)習(xí)算法持續(xù)進(jìn)化 38
4.4 深度學(xué)習(xí)算法脫穎而出 39
4.5 越來(lái)越大的網(wǎng)絡(luò) 40
4.6 越來(lái)越小的網(wǎng)絡(luò) 46
4.7 深度學(xué)習(xí)算法快速發(fā)展的原因 48
第5章 從算法到產(chǎn)品:為落地而戰(zhàn) 59
5.1 尋找趁手的錘子 60
5.2 小心棘手的釘子 61
5.3 千錘百煉終得正果 63
第6章 無(wú)中生有的真相與假象:論生成式圖像復(fù)原 75
6.1 什么是生成式復(fù)原 77
6.2 生成式復(fù)原是如何誕生的 77
6.3 生成式模型和判別式模型有什么區(qū)別 78
6.4 生成對(duì)抗網(wǎng)絡(luò)的原理和局限是什么 80
6.5 擴(kuò)散模型的原理和局限是什么 81
6.6 擴(kuò)散模型真的比生成對(duì)抗網(wǎng)絡(luò)好嗎 85
6.7 生成式復(fù)原的經(jīng)典模型 86
第7章 時(shí)空的交錯(cuò)與融合:論視頻超分辨率 98
7.1 多幀圖像超分與時(shí)空超分 98
7.2 基于深度學(xué)習(xí)的視頻超分 103
7.3 Transformer有何不同 108
7.4 生成模型帶來(lái)了哪些變化 111
第8章 深度學(xué)習(xí)中的科學(xué)之光:底層視覺可解釋性 120
8.1 模型的效果為什么好 121
8.2 從相關(guān)關(guān)系到因果關(guān)系 124
8.3 模型內(nèi)部究竟學(xué)到了什么 129
8.4 網(wǎng)絡(luò)是如何學(xué)習(xí)多任務(wù)的 132
8.5 底層視覺的泛化性問(wèn)題 135
8.6 做個(gè)泛化性指標(biāo)吧 138
8.7 可解釋性還可以怎么用 140
第9章 通往終極智能之路:論通用底層視覺 149
9.1 通用何以智能 149
9.2 通用底層視覺是什么 152
9.3 通用的圖像超分算法 153
9.4 通用的圖像復(fù)原算法 157
9.5 通用的底層視覺算法 162
第二部分:人格之美
第10章 如何寫一篇自己喜歡的論文 176
第11章 XPixel的團(tuán)隊(duì)文化:奉獻(xiàn)、專注、平衡 180
11.1 奉獻(xiàn) 180
11.2 專注 181
11.3 平衡 181
第12章 XPixel的科研地圖:XPixel Metaverse 183
第13章 不朽的科學(xué)家精神:讀愛因斯坦 186
13.1 探索未知 187
13.2 實(shí)事求是 188
13.3 永無(wú)止境 189
第14章 研究員的一天 191
第15章 中華智慧解讀鈍感力 195
15.1 技巧:太極圓轉(zhuǎn) 195
15.2 智慧:難得糊涂 196
15.3 愛:包容寬恕 197
第16章 打破束縛 198
第17章 放松點(diǎn)兒,我的朋友 203
參考文獻(xiàn) 209