《科研主題演化過程中的詞語遷移研究》結合數(shù)據挖掘和機器學習等領域的主題建模和文本挖掘方法,以及情報學領域注重文本內容分析的優(yōu)勢,以信息檢索領域的學術文獻為例,對科研主題的演化過程及演化過程中各主題下詞語的分布及語義變化進行考察。發(fā)現(xiàn)科研主題的生長趨勢和演化動態(tài),深入分析詞語遷移現(xiàn)象,揭示并驗證關于詞語遷移的相似性、多樣性和凝聚性規(guī)律。
科研主題演化及主題內容分析,是信息科學相關領域長期關注的問題。目前數(shù)量龐大的學術文獻既向科研主題分析提出了挑戰(zhàn),也為學術文本挖掘工作提供了充足的資源?蒲兄黝}是動態(tài)演化的,在一個科研領域的發(fā)展過程中,新興主題涌現(xiàn),已經形成的主題越發(fā)活躍成熟或者逐漸老化衰退,各個主題的研究內容不斷變化,單一主題發(fā)生分化,多個主題之間產生融合。理解科研主題的演化過程并對其進行深入的內容分析,可以幫助新人領域的研究者了解領域概況,促進領域專家之間進行領域內部和跨領域的知識交流,向科研基金管理機構和政策制定者提供科學創(chuàng)新的發(fā)展軌跡,幫助決策者跟進領域知識的流動情況。
鑒于科研主題研究的重要性,以數(shù)據挖掘領域為代表的各學科均對其投入了很大的關注,相比之下,情報學領域對于科研主題演化的研究成果較少,對于演化動態(tài)和演化過程中主題結構變化的分析尤為欠缺。而在數(shù)據挖掘等計算機科學相關領域中,由于學科本身技術導向的特性,對于科研主題演化的考察比較注重演化模型的構建和優(yōu)化,研究成果疏于探討主題間的知識交流情況和主題在不同時期的發(fā)展狀態(tài),以及更進一步深入詞語層面的內容分析。
目前以情報學和數(shù)據挖掘領域為代表的信息科學相關領域對科研主題演化分析的現(xiàn)狀是,情報學領域缺少成熟的技術方法對主題結構的動態(tài)演化過程和詞語在主題中的分布變化進行識別和抽;數(shù)據挖掘領域由于其技術導向的特征,缺乏對于科研主題深入的內容分析。
基于上述認知,本書結合數(shù)據挖掘和機器學習等領域的主題建模和文本挖掘方法,以及情報學領域注重文本內容分析的優(yōu)勢,以信息檢索領域的學術文獻為例,對科研主題的演化過程及演化過程中各主題下詞語的分布及語義變化進行考察。共計七個章節(jié)。
第一章,引言,主要介紹選題背景與研究意義,國內外研究現(xiàn)狀,詞語語義和詞語遷移概念的界定,本研究的內容、方法及創(chuàng)新之處。
第二章,理論基礎,包括科學范式的轉變,貝葉斯網絡和主題建模原理,以及創(chuàng)新擴散理論,為后文進行主題抽取、演化研究和詞語在主題中的分布研究提供理論支撐。
第三章,科研主題的劃分與確定;贚DA主題模型對科研文獻構成的文本數(shù)據集進行了主題抽取和分析。選取的研究樣本為信息檢索領域的研究論文,數(shù)據來源為Web of Science數(shù)據庫,時間檢索跨度為1956-2014年,檢索結果共計20359條文獻數(shù)據。共計抽取五個主題,作為信息檢索領域的重要主題進行后續(xù)的演化研究和詞語分析。
第四章,對科研主題的演化過程進行分析,對信息檢索領域五個重要主題的生長趨勢和演化動態(tài)進行識別和考察。在生長趨勢分析中,對LDA主題模型訓練結果中的文檔一主題概率分布按年分組進行聚合,從而得到每一年每個主題下的內容占當年文獻總內容的比例,以表示各主題在對應年份的活躍程度。針對目前研究對主題活躍度的測量仍停留在對發(fā)表文獻進行簡單計數(shù)的基礎上,本章的生長趨勢分析結果較好地保留了一篇文檔以不同比例包含多個主題的特性。在演化動態(tài)分析中,針對目前主題演化研究對主題分化融合、知識交流和不同時期的發(fā)展階段分析的不足,對應上述三點展開了研究。整體語料被劃分為六個時間窗口,每個時間窗口另外抽取存在于該時間段內的局域主題,第三章抽取的五個主題稱為全局主題。
陳柏彤,博士,上海大學講師,畢業(yè)于武漢大學信息管理學院情報學專業(yè),主要研究方向為數(shù)據驅動知識發(fā)現(xiàn)。
第一章 引言
第一節(jié) 選題背景與研究意義
一 選題背景
二 研究意義
第二節(jié) 國內外研究現(xiàn)狀分析
一 基于主題模型的主題發(fā)現(xiàn)與主題演化研究
二 科研主題的生長趨勢
三 基于知識圖譜的科研主題演化研究
四 詞語遷移相關研究
五 存在問題述評
第三節(jié) 詞語語義和詞語遷移概念的界定
一 詞語語義概念界定
二 詞語遷移概念界定
第四節(jié) 研究內容和研究方法
一 研究內容
二 研究方法
第五節(jié) 創(chuàng)新之處
第二章 理論基礎
第一節(jié) 科學哲學與科學范式的轉變
一 科學哲學對范式的定義
二 科學范式的轉變
三 科學范式轉變與科研主題演化的關系
第二節(jié) 貝葉斯概率與貝葉斯網絡
一 貝葉斯概率
二 貝葉斯網絡
第三節(jié) 主題模型概述
一 文本集合建模
二 PLSI模型
三 LDA模型
第四節(jié) 創(chuàng)新擴散理論
一 創(chuàng)新擴散理論概述
二 創(chuàng)新擴散理論的繼承與發(fā)展
第三章 科研主題的劃分與確定
第一節(jié) 數(shù)據獲取與預處理
一 數(shù)據獲取
二 數(shù)據預處理
第二節(jié) 文檔建模與參數(shù)設定
一 模型輸入
二 模型運算
三 模型輸出
第三節(jié) 結果分析
第四節(jié) 本章小結
第四章 科研主題的演化過程
第一節(jié) 科研主題的生長趨勢
一 歷時主題活躍度探測
二 生長趨勢分析
……
第五章 科研主題演化過程中的詞語遷移現(xiàn)象
第六章 科研主題演化過程中的詞語遷移規(guī)律
第七章 總結與展望
參考文獻
索引