前 言
2019年10月25日,全國(guó)中醫(yī)藥大會(huì)隆重召開(kāi),習(xí)近平總書(shū)記對(duì)中醫(yī)藥的發(fā)展提出了“傳承精華,守正創(chuàng)新”的指示要求。數(shù)據(jù)的定量化、客觀化是中醫(yī)藥事業(yè)發(fā)展的其中的一個(gè)難題。中醫(yī)藥治療疾病,往往是中藥的多成分對(duì)應(yīng)病證的多靶點(diǎn),因此采集的中醫(yī)藥數(shù)據(jù)存在多成分、多靶點(diǎn)和非線性等特點(diǎn)。以藥物的量效關(guān)系為例,化學(xué)藥藥效成分清楚,結(jié)構(gòu)明確,單成分指標(biāo)量效關(guān)系的概念、原理、方法和應(yīng)用已形成較為完善的體系。中醫(yī)方藥復(fù)雜性和系統(tǒng)性主要體現(xiàn)在多成分、多靶點(diǎn)、多藥效指標(biāo)以及非線性等特點(diǎn)上,反映其量效關(guān)系和組效關(guān)系的數(shù)據(jù)呈現(xiàn)多自變量、多因變量和非線性的特點(diǎn),其復(fù)雜性是化學(xué)藥所不能比擬的,無(wú)法用化學(xué)藥的模型來(lái)闡釋中醫(yī)方藥的量效關(guān)系。研究適合中醫(yī)藥數(shù)據(jù)特點(diǎn)的多元分析方法顯得尤為迫切。
作為一種多元統(tǒng)計(jì)分析方法,偏最小二乘法是斯萬(wàn)特·伍德(Svante Wold)等人1983年率先提出的。偏最小二乘法通過(guò)集成主成分分析、典型相關(guān)分析和多元線性回歸的基本功能,實(shí)現(xiàn)多因變量對(duì)多自變量的回歸建模,并且可以有效地解決多重共線性以及變量個(gè)數(shù)大于樣本數(shù)等問(wèn)題。由于偏最小二乘法解決了傳統(tǒng)統(tǒng)計(jì)分析方法無(wú)法解決的難題,該方法在各領(lǐng)域的發(fā)展非常迅速,所涉及的學(xué)科不僅包含了化學(xué)、社會(huì)學(xué)和地質(zhì)學(xué),還逐漸擴(kuò)充到生物學(xué)、醫(yī)學(xué)以及經(jīng)濟(jì)學(xué)等領(lǐng)域,同時(shí)也給中醫(yī)藥信息處理領(lǐng)域帶來(lái)了啟發(fā)。
作者工作單位江西中醫(yī)藥大學(xué)具有中藥固體制劑國(guó)家工程中心和現(xiàn)代中藥制劑教育部重點(diǎn)實(shí)驗(yàn)室等高水平科研平臺(tái),承擔(dān)了國(guó)家973、新藥創(chuàng)制重大專(zhuān)項(xiàng)、國(guó)家科技支撐計(jì)劃等課題,積累了大量實(shí)驗(yàn)數(shù)據(jù)。自2006年起,作者帶領(lǐng)科研團(tuán)隊(duì)承擔(dān)了多項(xiàng)重大科研項(xiàng)目的數(shù)據(jù)分析工作。本書(shū)提出的諸多偏最小二乘優(yōu)化方法都是在作者團(tuán)隊(duì)分析處理中醫(yī)藥數(shù)據(jù)的實(shí)踐過(guò)程中產(chǎn)生的。針對(duì)數(shù)據(jù)預(yù)處理,作者提出了融合降噪稀疏自編碼器的偏最小二乘法和融合非徑向數(shù)據(jù)包絡(luò)分析的偏最小二乘法;針對(duì)中藥物質(zhì)基礎(chǔ)研究高維數(shù)據(jù)的特征選擇,作者提出了基于特征相關(guān)的偏最小二乘特征選擇方法、基于偏最小二乘的特征選擇方法以及基于灰色關(guān)聯(lián)的偏最小二乘輔助分析方法;針對(duì)具有多成分、多靶點(diǎn)、非線性關(guān)系的中醫(yī)藥數(shù)據(jù)分析,以及經(jīng)典偏最小二乘法內(nèi)部采用線性提取成分和線性回歸問(wèn)題,作者提出了分別利用受限玻爾茲曼機(jī)、稀疏自編碼器、深度置信網(wǎng)絡(luò)實(shí)現(xiàn)非線性成分提取,以及分別融入模型樹(shù)、隨機(jī)森林和softmax實(shí)現(xiàn)非線性回歸的三種偏最小二乘優(yōu)化方法。這些優(yōu)化方法不但包含了理論、方法、步驟、實(shí)驗(yàn)結(jié)果與分析,以及多種方法的結(jié)果比較,并且還采用UCI標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,再以圖形和表格的形式實(shí)現(xiàn)結(jié)果的可視化。同時(shí)本書(shū)還提供一款數(shù)據(jù)分析軟件,該軟件集成了書(shū)中提出的優(yōu)化方法,為中醫(yī)藥科研工作者提供了一種實(shí)用工具。全書(shū)內(nèi)容的安排總體上遵從數(shù)據(jù)挖掘的一般步驟,包含數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)基本知識(shí)、數(shù)據(jù)預(yù)處理、特征提取、特征選擇、建模、評(píng)估等,也符合中醫(yī)藥數(shù)據(jù)分析的基本要求,全書(shū)的理論、方法和實(shí)驗(yàn)三者相互結(jié)合,循序漸進(jìn),條理清晰,圖文并茂,通俗易懂,適合對(duì)數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)感興趣的研究生以及從事醫(yī)藥數(shù)據(jù)分析研究的科研工作者學(xué)習(xí)參考。
在本書(shū)研究方法形成的過(guò)程中,作者得到了固體制劑國(guó)家工程中心和現(xiàn)代中藥制劑教育部重點(diǎn)實(shí)驗(yàn)室科研團(tuán)隊(duì)的大力支持和幫助。劉紅寧教授、王躍生教授、余日躍教授、徐國(guó)良教授、饒毅教授、黃麗萍教授、付劍江教授、劉波教授等提出了很好的指導(dǎo)意見(jiàn),李冰濤副教授、陳銀芳副教授在數(shù)據(jù)采集、處理、解釋等方面提供了諸多具體的幫助,周麗老師在數(shù)學(xué)方面給予了指導(dǎo),衷心感謝各位老師的指導(dǎo)和幫助!在本書(shū)編寫(xiě)過(guò)程中,碩士研究生郝竹林、朱志鵬、喻芳、曾青霞、羅計(jì)根、黃燦奕、李歡、賀佳、李郅琴、李天賜、楊延云、周婷、陳裕鳳、胡定興等對(duì)全書(shū)內(nèi)容進(jìn)行了整理和校對(duì),付出了辛勤的汗水,衷心感謝各位同學(xué)的幫助!在本書(shū)的撰寫(xiě)過(guò)程中,作者閱讀、參考了大量國(guó)內(nèi)外文獻(xiàn),借鑒了其方法與思路,在此對(duì)所涉及的專(zhuān)家和研究人員表示衷心的感謝。在本書(shū)出版過(guò)程中,清華大學(xué)出版社領(lǐng)導(dǎo)、審稿專(zhuān)家、責(zé)任編輯羅健提出了大量寶貴的修改意見(jiàn)和建議,為本書(shū)高質(zhì)量的出版付出了辛勤的勞動(dòng),表示衷心的感謝!此外,本書(shū)的出版得到了國(guó)家自然科學(xué)基金(項(xiàng)目編號(hào):61363042、61562045、61762051)的支持,在此一并表示衷心的感謝!
經(jīng)過(guò)多年研究,我們認(rèn)為偏最小二乘及其優(yōu)化方法不僅可以較好地處理多成分、多靶點(diǎn)以及多藥效指標(biāo)的中醫(yī)藥數(shù)據(jù),而且可以較好地解決中醫(yī)藥數(shù)據(jù)存在的多重共線性、非線性特點(diǎn)以及高維小樣本等問(wèn)題。但是在中醫(yī)藥領(lǐng)域中,有待解決的問(wèn)題仍然很多,本書(shū)涉及的內(nèi)容僅能解決其中的小部分。希望本書(shū)的出版能夠起到拋磚引玉的作用,給讀者帶來(lái)靈感或者啟發(fā)。由于編寫(xiě)時(shí)間和水平有限,本書(shū)難免有錯(cuò)誤和不足之處,敬請(qǐng)各位專(zhuān)家和讀者批評(píng)指正。
作者
2021年2月1日
目 錄
第1章 緒論 001
第2章 數(shù)據(jù)基本表述 005
2.1 數(shù)據(jù)基本知識(shí) 005
2.2 度量中心趨勢(shì) 006
2.3 度量離散程度 010
2.4 正態(tài)分布 011
2.5 本章小結(jié) 012
第3章 數(shù)據(jù)常規(guī)預(yù)處理 013
3.1 數(shù)據(jù)清理 013
3.1.1 缺失值處理 013
3.1.2 噪聲數(shù)據(jù)處理 015
3.2 數(shù)據(jù)標(biāo)準(zhǔn)化 016
3.2.1 數(shù)據(jù)中心化處理 017
3.2.2 數(shù)據(jù)的無(wú)量綱化處理 018
3.2.3 標(biāo)準(zhǔn)化處理 018
3.3 本章小結(jié) 019
第4章 線性回歸分析 021
4.1 線性回歸模型 021
4.1.1 一元線性回歸 021
4.1.2 多元線性回歸 022
4.2 最小二乘法原理 023
4.2.1 計(jì)算方法的推導(dǎo) 023
4.2.2 總體參數(shù)估計(jì)量的性質(zhì) 027
4.3 多重共線性問(wèn)題 028
4.3.1 問(wèn)題的提出 028
4.3.2 多重共線性的影響 029
4.3.3 多重共線性的診斷 031
4.3.4 解決多重共線性的方法 033
4.4 模型效果評(píng)價(jià)指標(biāo) 035
4.4.1 測(cè)定系數(shù) 035
4.4.2 均方根誤差 037
4.5 本章小結(jié) 038
第5章 偏最小二乘線性回歸模型 039
5.1 基本思路與算法原理 039
5.1.1 基本思路 039
5.1.2 算法原理 040
5.1.3 交叉有效性 043
5.2 算法的基本性質(zhì) 044
5.3 主要分析技術(shù) 048
5.3.1 主成分分析 048
5.3.2 典型相關(guān)性分析 051
5.3.3 T2橢圓圖輔助分析 054
5.3.4 變量投影重要性輔助分析技術(shù) 055
5.4 本章小結(jié) 056
第6章 偏最小二乘在中醫(yī)藥領(lǐng)域應(yīng)用的思路 057
6.1 中醫(yī)藥實(shí)驗(yàn)數(shù)據(jù) 057
6.1.1 數(shù)據(jù)來(lái)源 057
6.1.2 數(shù)據(jù)特點(diǎn) 061
6.2 總體思路與分析策略 061
6.2.1 總體思路與目標(biāo) 061
6.2.2 分析策略 063
6.3 本章小結(jié) 065
第7章 優(yōu)化偏最小二乘的數(shù)據(jù)預(yù)處理方法 066
7.1 問(wèn)題的提出 066
7.2 基于降噪稀疏自編碼器的偏最小二乘缺失值處理 067
7.2.1 降噪稀疏自編碼器 067
7.2.2 優(yōu)化模型的建立 070
7.2.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 071
7.3 基于非徑向數(shù)據(jù)包絡(luò)分析的偏最小二乘噪聲處理 074
7.3.1 非徑向數(shù)據(jù)包絡(luò)分析 074
7.3.2 優(yōu)化模型的建立 076
7.3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 080
7.4 本章小結(jié) 083
第8章 優(yōu)化偏最小二乘輔助特征選擇研究 084
8.1 問(wèn)題的提出 084
8.2 特征選擇方法 084
8.2.1 相關(guān)定義 085
8.2.2 特征選擇的過(guò)程 086
8.2.3 方法的類(lèi)型 087
8.3 基于特征相關(guān)的偏最小二乘特征選擇 088
8.3.1 基于相關(guān)性的特征選擇方法 088
8.3.2 優(yōu)化模型的建立 089
8.3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 091
8.4 基于L1正則項(xiàng)的偏最小二乘特征選擇 094
8.4.1 LASSO方法 094
8.4.2 優(yōu)化模型的建立 098
8.4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 102
8.5 基于灰色關(guān)聯(lián)的偏最小二乘特征選擇 111
8.5.1 灰色關(guān)聯(lián)分析 111
8.5.2 優(yōu)化模型的建立 112
8.5.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 116
8.6 本章小結(jié) 118
第9章 偏最小二乘成分提取的非線性優(yōu)化模型 120
9.1 問(wèn)題的提出 120
9.2 融合受限玻爾茲曼機(jī)的偏最小二乘優(yōu)化模型 121
9.2.1 受限玻爾茲曼機(jī) 121
9.2.2 優(yōu)化模型的建立 124
9.2.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 126
9.3 融合稀疏自編碼器的偏最小二乘優(yōu)化模型 129
9.3.1 自編碼器 129
9.3.2 稀疏自編碼器的構(gòu)造 131
9.3.3 優(yōu)化模型的建立 131
9.3.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 134
9.4 融合深度置信網(wǎng)絡(luò)的偏最小二乘優(yōu)化模型 137
9.4.1 深度置信網(wǎng)絡(luò) 137
9.4.2 優(yōu)化模型的建立 139
9.4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 141
9.5 本章小結(jié) 144
第10章 偏最小二乘回歸的非線性優(yōu)化模型 146
10.1 問(wèn)題的提出 146
10.2 融合模型樹(shù)的偏最小二乘優(yōu)化 146
10.2.1 模型樹(shù) 147
10.2.2 非線性模型的建立 149
10.2.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 151
10.3 融合隨機(jī)森林的偏最小二乘優(yōu)化 154
10.3.1 隨機(jī)森林 154
10.3.2 非線性模型的建立 156
10.3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 159
10.4 融合softmax的偏最小二乘優(yōu)化 162
10.4.1 softmax 162
10.4.2 非線性模型的建立 163
10.4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 166
10.5 本章小結(jié) 170
第11章 總結(jié)與展望 173
11.1 偏最小二乘的優(yōu)勢(shì) 173
11.2 偏最小二乘的不足 174
11.3 偏最小二乘的展望 176
附錄A 專(zhuān)業(yè)術(shù)語(yǔ) 178
附錄B 優(yōu)化偏最小二乘的多功能數(shù)據(jù)分析系統(tǒng)使用指南 179
附錄C 中醫(yī)藥實(shí)驗(yàn)數(shù)據(jù)表 202