一本為渴望系統(tǒng)理解數(shù)據(jù)科學全貌的讀者所寫的指南。數(shù)據(jù)科學致力于從海量數(shù)據(jù)中提取有價值且非顯而易見的模式。本書對數(shù)據(jù)科學這一新興領域進行了系統(tǒng)梳理,以簡潔的筆觸勾勒出其發(fā)展脈絡、與機器學習的關聯(lián)、當前應用場景、數(shù)據(jù)基礎設施現(xiàn)狀及面臨的倫理挑戰(zhàn)。
全書從數(shù)據(jù)科學的演進歷程說起,解析了基礎數(shù)據(jù)概念,并詳細闡述數(shù)據(jù)科學生命周期的各個階段,繼而深入探討數(shù)據(jù)基礎設施的關鍵問題,以及多源數(shù)據(jù)整合過程中面臨的技術挑戰(zhàn)。同時,本書還對數(shù)據(jù)倫理與法律規(guī)范、數(shù)據(jù)監(jiān)管機制演進趨勢及隱私保護計算技術進行了專業(yè)解讀。最后,通過前瞻性探討數(shù)據(jù)科學的未來發(fā)展方向,總結了保障數(shù)據(jù)科學項目成功實施的關鍵原則。
1.系統(tǒng)思維。助你建立堅實的數(shù)據(jù)科學認知框架,掌握從問題定義到模型落地的系統(tǒng)性思維。
2.超越理論。直指數(shù)據(jù)實踐中的真實挑戰(zhàn),揭示工程現(xiàn)實如何決定項目成敗。
3.實戰(zhàn)導向。提煉7大項目成功原則,提供從問題定義到業(yè)務整合的完整行動清單。
4.前瞻視野。直面數(shù)據(jù)偏見與隱私倫理挑戰(zhàn),培養(yǎng)負責任的、面向未來的數(shù)據(jù)素養(yǎng)。
【作者介紹】
約翰·D. 凱萊赫(John D. Kelleher),愛爾蘭都柏林理工大學計算機科學學院教授,兼任信息、通信和娛樂研究所學術負責人。合著有《預測數(shù)據(jù)分析的機器學習基礎》(麻省理工學院出版社)。
布倫丹·蒂爾尼(Brendan Tierney),愛爾蘭都柏林理工大學計算機科學學院講師,兼任Oracle ACE 總監(jiān),撰有多部基于Oracle技術的數(shù)據(jù)挖掘著作。
【譯者介紹】
張里博,西南大學人工智能學院智能科學系主任、副教授,南京大學特聘研究員,主要從事人工智能、大數(shù)據(jù)與智能決策等方面的研究。
楊金瑞,澳大利亞麥考瑞大學計算機科學碩士。
第一章 什么是數(shù)據(jù)科學 001
第二章 什么是數(shù)據(jù)和數(shù)據(jù)集 033
第三章 數(shù)據(jù)科學生態(tài)系統(tǒng) 055
第四章 機器學習入門 077
第五章 標準數(shù)據(jù)科學任務 119
第六章 隱私與倫理 141
第七章 未來趨勢與成功之道 169
致 謝 184
術語表 185
注 釋 193
延伸閱讀 197
參考文獻 199
索 引 207