本書將開發(fā)適用于文科專業(yè)、財經類以及管理類專業(yè)的,具有很強實際操作性質的關于數(shù)據科學思維、技術以及實踐的數(shù)據科學導論教材。該教材不是簡單的羅列相關技術,而是利用現(xiàn)有的工具來實現(xiàn)項目的實踐,讓學生學會分析問題的思想和方法,培養(yǎng)學生對數(shù)據科學技術的興趣與熱情。本書面對的是零基礎的文科類和財經類學生,技術要求相對比較簡單,同時在課程設計上盡量以圖像化編程工具讓學習接觸到數(shù)據科學的應用。本書對數(shù)據挖掘感興趣的一般社會讀者也有一定參考價值。
鄧莎莎
上海外國語大學國際工商管理學院副教授、博士生導師,營銷科學系副系主任、人工智能與數(shù)據科學應用實驗室副主任。在中南大學獲得計算機應用碩士學位,在上海交通大學獲得管理科學與工程博士學位,研究方向為社交媒體數(shù)據分析、商務分析、自然語言分析等。目前主持國家自然科學基金面上項目及青年項目、企業(yè)橫向課題,作為主要人員參與國家自然科學基金重點項目、國家社會科學基金重大項目。在 MISQ、Journal of Advertising、Information & Management等頂級期刊發(fā)表高水平論文二十余篇。獲國家教學成果二等獎、上海市教學成果一等獎、校三八紅旗手和教育獎勵基金教學科研獎等獎項。擔任中國人工智能學會智慧醫(yī)療專委會委員、中國管理現(xiàn)代化研究會電子商務與網絡空間管理專委會會員等社會兼職。
第1章 數(shù)據科學緣起
1.1 數(shù)據科學基礎概念
1.2 大數(shù)據內涵
1.3 大數(shù)據技術
1.4 數(shù)據科學思維
數(shù)據采集與預處理篇
第2章 數(shù)據爬取
2.1 數(shù)據爬取的基本原理
2.2 數(shù)據爬取工具概述
2.3 UiPath數(shù)據爬取
2.4 Python
第3章 數(shù)據預處理
3.1 探索性數(shù)據分析
3.2 數(shù)據清洗
3.3 數(shù)據變換
3.4 數(shù)據集成與數(shù)據規(guī)約
數(shù)據可視化篇
第4章 數(shù)據可視化
4.1 數(shù)據可視化基礎
4.2 數(shù)據可視化工具包
4.3 Tableau數(shù)據連接與數(shù)據類型
4.4 Tableau視圖與篩選器
第5章 Tableau圖表深入學習
5.1 文本表
5.2 條形圖
5.3 樹狀圖
5.4 折線圖
5.5 組合圖
5.6 散點圖
5.7 直方圖
5.8 儀表盤
第6章 電話營銷可視化分析示例
6.1 案例數(shù)據
6.2 連接數(shù)據源
6.3 用戶畫像
6.4 客戶群的年齡分布
6.5 轉化率與職業(yè)的關系
6.6 轉化的一致性
6.7 宏觀經濟因素分析
6.8 設計儀表盤
數(shù)據建模篇
第7章 機器學習的一般流程
7.1 機器學習概述
7.2 特征工程
7.3 可視化建模工具
第8章 機器學習算法
8.1 分類算法
8.2 聚類算法
8.3 模型評估與選擇
8.4 H20數(shù)據建模分析實例
第9章 社交網絡分析
9.1 概述
9.2 社交網絡的類型
9.3 社交網絡分析工具
9.4 社交網絡分析指標
第10章 基于鏈家租房網數(shù)據的租房價格預測示例
10.1 房價數(shù)據爬取(全量數(shù)據)
10.2 房屋數(shù)據預處理
10.3 房屋地理信息爬取
10.4 租房價格數(shù)據可視化
10.5 租房價格預測建模
自然語言處理篇
第11章 自然語言處理
11.1 概述
11.2 自然語言處理開發(fā)工具
11.3 自然語言處理的基礎任務
第12章 自然語言處理工具
12.1 綜合性分析工具
12.2 分詞與詞性標注工具
12.3 綜合性Python工具
第13章 自然語言處理案例:情感分析
13.1 場景介紹
13.2 算法應用