本書生動地講述了底層視覺的發(fā)展歷史,總結(jié)了人工智能前沿的最新成果,揭示了高清大片背后的科學奧秘,展現(xiàn)了實事求是和永無止境的科學家精神。
同時,附有作者的科研感悟和心路歷程,富有啟發(fā)性。
本書適合理工科專業(yè)的大學生和研究生、科研人員,以及人工智能愛好者閱讀。
適讀人群 :理工科專業(yè)學生,科研人員,人工智能愛好者
一線專家撰寫:技術功底深厚,復盤從0開始的計算機視覺科研思路,啟迪思考
關注技術落地應用:從1到N,結(jié)合實際案例分析產(chǎn)品化過程,助力初學者成長
人文與科學融合:探討科學家精神,賦予技術人文溫度
本書緣起
我本來想寫一本介紹底層視覺前沿技術的教材,但后來發(fā)現(xiàn)它注定會成為一本歷史書。既然如此,干脆就寫一本歷史書,讓技術成為媒介,將那段波瀾壯闊的歷史,補充以我的個人經(jīng)驗,呈現(xiàn)給大家。這也是將本書命名為《底層視覺之美:高清大片背后的人工智能》的原因。過去十年來,我對底層視覺感觸頗深。在底層視覺里,技術的背后有著對藝術的追求,藝術的背后又有著科學的力量,而科學注定與哲學相互交織,這就是本書想表達的底層視覺之美,一種在智能時代才有的全新美學。這本書適合所有領域的讀者,希望所有對底層視覺感興趣的人,都能徜徉其中,沒有障礙地閱讀。接下來,我會分幾個方面介紹寫這本書的寫作動機,以及這本書獨特的呈現(xiàn)方式。
底層視覺需要一本專業(yè)性的技術書
雖然底層視覺只是計算機視覺的一部分,但它歷史久遠、分支眾多、特點鮮明,需要一本專門的書來介紹。人們(甚至一些人工智能領域的從業(yè)人員)對底層視覺普遍不了解。我發(fā)現(xiàn)很多人工智能教材中沒有將底層視覺獨立成章,甚至不曾提及,這是很大的失誤!底層視覺所受到的關注與它的重要程度明顯不符。我們生活中常見的智能拍照、短視頻應用、電影、電視等都離不開底層視覺技術。而很多工業(yè)場景,如醫(yī)療影像、衛(wèi)星成像、電視廣播、水下勘探等也需要底層視覺技術的支撐。
底層視覺需要一本總結(jié)性的歷史書
過去十年,我們經(jīng)歷了從傳統(tǒng)算法到深度學習的深刻變革,底層視覺也日益成熟,從幾個獨立的圖像處理任務擴展為分支眾多、縱橫交錯的視覺領域,它的起承轉(zhuǎn)合是那么精彩。在新一代技術革命到來之前,我們有必要對底層視覺進行階段性的總結(jié)。同時,現(xiàn)在的論文數(shù)量越來越多,新的論文讓人應接不暇,早期的論文很快會被淘汰。如果想了解過去十年的技術發(fā)展,閱讀一本經(jīng)過凝練的書顯然是最好的方式。這本書也將為年輕的學者們提供便利,幫助他們從浩瀚的論文海洋中解脫出來,手握一把可以快速入門的鑰匙。
底層視覺需要一本有溫度的美學書
底層視覺與高層視覺不同,它面對的不是一個個冷冰冰的數(shù)字指標,而是一幅幅生動的圖像畫面。這就要求底層視覺的研究者不僅要懂計算機算法,也要有基本的美學素養(yǎng)。我們要學會欣賞計算機生成的圖像,培養(yǎng)對圖像的敏感度,并從細微處發(fā)現(xiàn)算法的問題,也要將創(chuàng)造完美的畫質(zhì)作為我們的最高追求。底層視覺是有溫度的人工智能,它與我們離得很近,可以直接觸碰我們的情感,提升我們對美的體驗。因此,底層視覺注定要與美同行,我也希望將底層視覺之美滲透到這本書的各個方面。
本書將會有許多不同于傳統(tǒng)技術書或教材的地方,我也想在一開始就告知讀者,以免引起誤解。
強調(diào)主觀經(jīng)驗
這是本書最大的特色,也是最可能受到質(zhì)疑的地方。教材都要強調(diào)客觀性,不能加入太多主觀色彩,也不能植入個人觀點。如果那樣做,這本書就太枯燥了。我最想傳達的就是這些年對底層視覺的經(jīng)驗和體會,它們才是我思想的結(jié)晶,才是最有益于讀者的地方。我不能丟掉珠子,給讀者盒子(買櫝還珠)。然而主觀就勢必有偏,我不能保證所有人都認可這些觀點,也不能保證這些觀點中的每一句話都正確。希望我個人的觀點能夠引發(fā)思考、產(chǎn)生碰撞、啟迪智慧。
試圖以偏概全
要把底層視覺的方方面面都寫到實在是太困難了,至少要有20個章節(jié),十多個研究分支,每個分支都有自己獨特的發(fā)展歷程和技術特點。即便真的把所有技術都組合到一起,形成一本龐大的集錦,也很少有人會從頭到尾讀完,那就失去了寫這本書的意義。因此,我決定大膽地以偏概全,只寫自己熟悉的領域,只說自己寫過的論文,只講自己經(jīng)歷的故事。這樣就能保證技術的準確性和經(jīng)驗的完整性,也更能體現(xiàn)我們的研究特色。在以偏概全的過程中,我也會盡量輻射其他子領域,讓讀者仍然可以了解底層視覺的全貌。
嘗試提升高度
歷史書的目的從來不是增加我們的記憶,而是以史為鑒,以古喻今。所有事物的發(fā)展都有一定的規(guī)律,這個規(guī)律跟事物本身無關,是通行天地亙古不變的道理,我希望能從底層視覺的發(fā)展中看到這樣的規(guī)律。從最早的算法突變,到后來的技術爆炸,再到現(xiàn)在的智能涌現(xiàn),其中蘊含了怎樣的發(fā)展規(guī)律,這個規(guī)律是否也出現(xiàn)在高層視覺中,是否也是人工智能的發(fā)展規(guī)律,甚至是否可能是自然生物進化的縮影,這里面的道理無法直接講明,卻可以隱約感受到。如果我們能將人工智能放到自然規(guī)律面前,那么也許會發(fā)現(xiàn)它的發(fā)展從來都不是由人來掌控的,有一只看不見的手在指揮著這一切。如果我們能夠了解人工智能發(fā)展背后的客觀性,那么是否也能夠更加謙卑地前行?也許無情的背后是有情,有情的背后是無情。
以上就是我寫本書的初衷,也是本書的歸結(jié)。說簡單點兒,就是我希望以最直白的方式表達我的觀點,也希望以最方便的方式讓讀者受益。本書的章節(jié)也是按照技術發(fā)展的順序來安排的,可以像讀小說一樣從頭讀到尾,也可以撿起某個章節(jié)專看技術部分。同時,我也會穿插介紹一些當年做這些研究時遇到的挫折和產(chǎn)生的體會,希望為初學者提供一點點信心和幫助,也為世界增加一點點新知、一點點美好。
本書的主要分工
本書的主要文字部分由我(董超)完成,包括技術章節(jié)和經(jīng)驗分享,而技術章節(jié)后的小貼士和全書的插圖由我的學生胡錦帆博士完成,他也為本書付出了巨大的精力。這本書雖然是我在寫,但實際是整個XPixel團隊的科研成果在支撐,感謝每一位XPixel的同學,也感謝康馨予為本書所做的文字校對工作。另外,本書所列舉的大部分工作是我們團隊自己的成果,沒有覆蓋行業(yè)內(nèi)所有代表性的工作。實際上,做底層視覺的優(yōu)秀團隊和杰出教授很多,像曾經(jīng)對我啟發(fā)很大的張磊老師、左旺孟老師和孟德宇老師,他們的工作也非常值得學習和研究,只是我很難將他們的工作都寫入書中,請他們見諒,也請讀者見諒。
致謝
謹以此書獻給我最敬愛的導師湯曉鷗教授,沒有湯老師,就沒有底層視覺之美,可惜他再也看不到這本書了,希望能用這十年的成果報答他萬一的恩情,我愿在這本書中刻下對他永恒的懷念!感謝澳門大學的周建濤老師,他給我提供了寶貴的機會,可以在澳門大學圖書館里安心寫書!感謝XPixel團隊的所有成員,尤其是呂建勤老師、喬宇老師、王鑫濤和顧津錦,他們是XPixel的奠基者和共建者,也是我最好的老師和伙伴!XPixel十年的努力也終于開花結(jié)果,孵化出了明犀科技(SupPixel.AI)這家公司,我們將把最新的研究成果放到公司的官網(wǎng)上,讓所有人都可以直接體驗底層視覺之美!
董超
董超,博士生導師,中國科學院深圳先進技術研究院研究員,深圳理工大學教授,上海人工智能實驗室雙聘領軍科學家。主要研究方向為底層計算機視覺,包括圖像超分辨率、去噪和增強等,發(fā)表相關論文100余篇,截至2024年底,谷歌學術引用量超過40000次。2014年,提出深度超分辨率算法SRCNN,首次將深度學習引入圖像超分辨率領域。2017年至今,多次帶隊參加國際圖像超分辨率比賽,共獲得9項冠軍。20162018年就職于商湯科技,帶領商湯超分團隊開發(fā)了世界首款基于深度學習的數(shù)碼變焦軟件,并成功落地在vivo X23手機上。2021年,被斯坦福大學評選為世界前2%頂尖科學家。2022年被清華大學評為AI2000人工智能全球最具影力學者。2023年,獲得上海市技術發(fā)明獎一等獎。
胡錦帆,中國科學院深圳先進技術研究院2022級博士生,XPixel團隊成員,師從董超研究員。于2019年和2022年在電子科技大學取得本科和碩士學位。研究方向為底層計算機視覺,同時致力于探索該領域的可解釋性問題。
第一部分:科學之美
第1章 人工智能是什么 2
1.1 人工智能是可以解決復雜問題的算法 3
1.2 人工智能可以實現(xiàn)復雜的目標 4
1.3 人工智能具備從數(shù)據(jù)中學習的能力 5
1.4 人工智能要與人類主觀意識互通 6
第2章 底層視覺是什么 9
2.1 底層視覺與計算機視覺 10
2.2 底層視覺與人工智能 11
2.3 底層視覺與圖像處理 12
第3章 從0到1,從來都不簡單 17
3.1 圖像超分辨率的發(fā)展歷程 17
3.2 SRCNN的誕生 23
3.3 解構SRCNN 26
第4章 從1到N的發(fā)展規(guī)律 34
4.1 傳統(tǒng)算法奮起直追 35
4.2 傳統(tǒng)算法與深度學習算法協(xié)同發(fā)展 36
4.3 深度學習算法持續(xù)進化 38
4.4 深度學習算法脫穎而出 39
4.5 越來越大的網(wǎng)絡 40
4.6 越來越小的網(wǎng)絡 46
4.7 深度學習算法快速發(fā)展的原因 48
第5章 從算法到產(chǎn)品:為落地而戰(zhàn) 59
5.1 尋找趁手的錘子 60
5.2 小心棘手的釘子 61
5.3 千錘百煉終得正果 63
第6章 無中生有的真相與假象:論生成式圖像復原 75
6.1 什么是生成式復原 77
6.2 生成式復原是如何誕生的 77
6.3 生成式模型和判別式模型有什么區(qū)別 78
6.4 生成對抗網(wǎng)絡的原理和局限是什么 80
6.5 擴散模型的原理和局限是什么 81
6.6 擴散模型真的比生成對抗網(wǎng)絡好嗎 85
6.7 生成式復原的經(jīng)典模型 86
第7章 時空的交錯與融合:論視頻超分辨率 98
7.1 多幀圖像超分與時空超分 98
7.2 基于深度學習的視頻超分 103
7.3 Transformer有何不同 108
7.4 生成模型帶來了哪些變化 111
第8章 深度學習中的科學之光:底層視覺可解釋性 120
8.1 模型的效果為什么好 121
8.2 從相關關系到因果關系 124
8.3 模型內(nèi)部究竟學到了什么 129
8.4 網(wǎng)絡是如何學習多任務的 132
8.5 底層視覺的泛化性問題 135
8.6 做個泛化性指標吧 138
8.7 可解釋性還可以怎么用 140
第9章 通往終極智能之路:論通用底層視覺 149
9.1 通用何以智能 149
9.2 通用底層視覺是什么 152
9.3 通用的圖像超分算法 153
9.4 通用的圖像復原算法 157
9.5 通用的底層視覺算法 162
第二部分:人格之美
第10章 如何寫一篇自己喜歡的論文 176
第11章 XPixel的團隊文化:奉獻、專注、平衡 180
11.1 奉獻 180
11.2 專注 181
11.3 平衡 181
第12章 XPixel的科研地圖:XPixel Metaverse 183
第13章 不朽的科學家精神:讀愛因斯坦 186
13.1 探索未知 187
13.2 實事求是 188
13.3 永無止境 189
第14章 研究員的一天 191
第15章 中華智慧解讀鈍感力 195
15.1 技巧:太極圓轉(zhuǎn) 195
15.2 智慧:難得糊涂 196
15.3 愛:包容寬恕 197
第16章 打破束縛 198
第17章 放松點兒,我的朋友 203
參考文獻 209