本書共8章,內(nèi)容包括大語言模型的特點(diǎn)和發(fā)展現(xiàn)狀,深度學(xué)習(xí)基礎(chǔ),多模態(tài)大語言模型,大語言模型微調(diào),行業(yè)大語言模型,大語言模型的內(nèi)部安全威脅,大語言模型的外部安全威脅,大語言模型的隱私保護(hù),每章都設(shè)置了思考與練習(xí)。本書提供立體化教學(xué)資源,包括教學(xué)PPT以及思考與練習(xí)的參考答案,每章還配有知識點(diǎn)講解的微視頻。本書可作為高等院校網(wǎng)絡(luò)空間安全、信息安全、密碼科學(xué)與技術(shù)、人工智能、計(jì)算機(jī)科學(xué)與技術(shù)、司法信息安全、網(wǎng)絡(luò)安全與執(zhí)法和計(jì)算機(jī)等相關(guān)專業(yè)的教材與參考書。
國內(nèi)首本大模型安全教材。介紹大語言模型的基本理論、技術(shù)發(fā)展與實(shí)際應(yīng)用,深入分析其面臨的安全威脅及其防御方法。介紹醫(yī)療場景、教育場景、法律場景、金融場景和科研場景下的大語言模型的應(yīng)用。配套提供電子課件、課后思考題參考答案、教學(xué)大綱、微課視頻、拓展閱讀材料。
黨的二十大報告指出,推進(jìn)國家安全體系和能力現(xiàn)代化,堅(jiān)決維護(hù)國家安全和社會穩(wěn)定。近年來,大語言模型飛速發(fā)展,大語言模型每一次擴(kuò)展與能力提升,背后都依賴于計(jì)算資源的增長、數(shù)據(jù)處理技術(shù)的革新,以及神經(jīng)網(wǎng)絡(luò)架構(gòu)的改進(jìn)。隨著大語言模型的逐步成熟,其影響已超出研究領(lǐng)域,滲透進(jìn)了社會的各個方面。然而,在大語言模型的快速發(fā)展和應(yīng)用背后,安全問題悄然而至。模型在獲取和處理海量數(shù)據(jù)的同時,也引發(fā)了隱私泄露、偏見傳播、虛假信息生成等一系列潛在風(fēng)險。隨著模型規(guī)模的不斷擴(kuò)大,這些問題變得愈發(fā)復(fù)雜和嚴(yán)峻。如果不能有效應(yīng)對,這些風(fēng)險將削弱模型在實(shí)際應(yīng)用中的價值,甚至帶來不可忽視的社會危害。網(wǎng)絡(luò)與信息安全需要大量具備實(shí)戰(zhàn)能力的優(yōu)秀人才,優(yōu)秀教材是網(wǎng)絡(luò)與信息安全實(shí)戰(zhàn)化專業(yè)人才培養(yǎng)的關(guān)鍵,但這卻是一項(xiàng)十分艱巨的任務(wù)。原因有二:其一,網(wǎng)絡(luò)與信息安全的涉及面非常廣,包括密碼學(xué)、數(shù)學(xué)、計(jì)算機(jī)、通信工程、信息工程、人工智能等多門學(xué)科,其知識體系龐雜、難以梳理;其二,網(wǎng)絡(luò)與信息安全實(shí)踐性強(qiáng),技術(shù)發(fā)展更新快,對環(huán)境和師資要求高,因此難以用一本書進(jìn)行概括。當(dāng)前大語言模型的圖書有很多,但可選做教材的不多,且講述大模型安全的圖書也寥寥無幾。本書作者結(jié)合多年的網(wǎng)絡(luò)安全教學(xué)和網(wǎng)絡(luò)安全科研經(jīng)歷,撰寫本書。本書共8章,介紹了大語言模型的基本理論、技術(shù)發(fā)展與實(shí)際應(yīng)用,并深入分析了其面臨的安全威脅及其防御方法。第1章介紹大語言模型的特點(diǎn)、發(fā)展現(xiàn)狀、未來展望和大語言模型常見安全威脅;第2章介紹深度學(xué)習(xí)基礎(chǔ),包括其各種技術(shù),為后續(xù)章節(jié)的學(xué)習(xí)打下良好基礎(chǔ);第3章介紹多模態(tài)大語言模型,包括常見的圖片多模態(tài)大語言模型、音頻多模態(tài)大語言模型和視頻多模態(tài)大語言模型;第4章介紹大語言模型微調(diào);第5章介紹行業(yè)大語言模型,介紹醫(yī)療場景、教育場景、法律場景、金融場景和科研場景下的大語言模型的應(yīng)用;第6章、第7章分別介紹大語言模型的內(nèi)部安全威脅和外部安全威脅,包括模型的毒性與偏見、對抗樣本攻擊、數(shù)據(jù)投毒、后門攻擊與提示詞注入攻擊等,并提出了針對性的防御策略和技術(shù)手段,以推動大語言模型朝著更加安全、可靠的方向發(fā)展與應(yīng)用;第8章介紹大語言模型的隱私保護(hù),介紹針對大語言模型的隱私攻擊以及隱私保護(hù)方法。本書參考大量大語言模型方面的學(xué)習(xí)資料,由于無法一一列舉,在此向這些資料的作者表示感謝。本書由南國順、雷敏、彭海朋編寫,在本書編寫過程中,北京郵電大學(xué)杜航、朱軒成、許晶鑫、魯昊朗、邱晨陽、劉少楠、鄧文迪、張嘉陽、穆含青、張宇凡等同學(xué)做了大量工作,在此一并表示感謝。由于作者水平有限,書中難免出現(xiàn)各種疏漏和不當(dāng)之處,歡迎讀者批評指正。同時,本書提供教學(xué)PPT、思考與練習(xí)參考答案、知識點(diǎn)講解的微視頻等電子資源供選用教材的教師使用,并歡迎使用教材的授課教師提出寶貴建議。
南國順,北京郵電大學(xué)研究員,博士生導(dǎo)師,國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目首席科學(xué)家,小米青年學(xué)者,主要研究加密流量攻擊檢測、大模型及安全、6G通信安全、數(shù)據(jù)安全,曾在中國惠普公司、新加坡科技與設(shè)計(jì)大學(xué)工作,具有豐富的計(jì)算機(jī)網(wǎng)絡(luò)、移動通信和人工智能交叉研究及工程開發(fā)管理經(jīng)驗(yàn),在CVPR、ACL、SIGKDD、AAAI、IEEE JSAC、Comunications Magazine等人工智能頂會、移動通信頂刊發(fā)表/錄用30余篇論文,申請20余項(xiàng)專利,與中國電信、中國移動、奇安信等公司有廣泛深入的合作。作為項(xiàng)目負(fù)責(zé)人牽頭十四五首 個6G安全國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目6G移動通信安全內(nèi)生及隱私保護(hù)技術(shù)(共性關(guān)鍵技術(shù)類),牽頭深圳南山區(qū)國家網(wǎng)絡(luò)安全教育技術(shù)產(chǎn)業(yè)融合發(fā)展示范區(qū)申請項(xiàng)目,深入調(diào)研南山區(qū)網(wǎng)信安全現(xiàn)狀,圍繞大模型安全、數(shù)據(jù)安全,制定南山區(qū)信息安全整體發(fā)展布局方案,入選北京市國家治理青年人才培養(yǎng)計(jì)劃,開展多模態(tài)大語言模型賦能首都城市治理研究。
前言第1章 大語言模型概述 11.1 大語言模型的特點(diǎn) 21.1.1 關(guān)鍵技術(shù) 21.1.2 規(guī)模和參數(shù) 51.1.3 自監(jiān)督學(xué)習(xí) 81.1.4 泛化能力 101.1.5 模型生成 141.2 大語言模型的發(fā)展現(xiàn)狀和未來展望 171.2.1 發(fā)展現(xiàn)狀 171.2.2 未來展望 201.2.3 大語言模型在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用 231.3 大語言模型常見安全威脅 251.3.1 內(nèi)部安全威脅 251.3.2 外部安全威脅 311.3.3 隱私保護(hù) 331.3.4 傳統(tǒng)安全威脅 351.4 本章小結(jié) 371.5 思考與練習(xí) 37第2章 深度學(xué)習(xí)基礎(chǔ) 392.1 深度學(xué)習(xí)相關(guān)概念 402.1.1 深度學(xué)習(xí)簡介 402.1.2 神經(jīng)網(wǎng)絡(luò)的基本構(gòu)成 412.1.3 損失函數(shù)及其優(yōu)化 422.1.4 卷積神經(jīng)網(wǎng)絡(luò) 432.1.5 循環(huán)神經(jīng)網(wǎng)絡(luò) 452.2 注意力機(jī)制和Transformer模型 462.2.1 注意力機(jī)制的基本概念 462.2.2 注意力機(jī)制的變體及其應(yīng)用 472.2.3 Transformer模型 522.2.4 位置編碼 522.2.5 Transformer模型的訓(xùn)練 532.3 大規(guī)模預(yù)訓(xùn)練 532.3.1 大規(guī)模預(yù)訓(xùn)練概述 532.3.2 預(yù)訓(xùn)練任務(wù) 542.3.3 預(yù)訓(xùn)練中的優(yōu)化技術(shù) 562.3.4 GPT模型的演化 562.4 指令微調(diào)和提示學(xué)習(xí) 572.4.1 指令微調(diào)概念 572.4.2 微調(diào)策略與技巧 602.4.3 提示學(xué)習(xí)入門 612.4.4 有效提示設(shè)計(jì)的原則 622.5 檢索增強(qiáng)生成技術(shù) 632.5.1 檢索增強(qiáng)生成技術(shù)概述 632.5.2 檢索增強(qiáng)生成技術(shù)流程 642.5.3 主流的檢索增強(qiáng)生成技術(shù) 652.5.4 檢索增強(qiáng)生成技術(shù)未來發(fā)展方向 682.6 本章小結(jié) 702.7 思考與練習(xí) 70第3章 多模態(tài)大語言模型 713.1 多模態(tài)大語言模型概述 713.1.1 多模態(tài)大語言模型基本架構(gòu) 723.1.2 多模態(tài)大語言模型關(guān)鍵技術(shù) 733.1.3 多模態(tài)大語言模型的未來發(fā)展方向 793.2 圖片多模態(tài)大語言模型 803.2.1 Vision Transformer 803.2.2 CLIP 813.2.3 BLIP 823.2.4 BLIP-2 823.2.5 LLaVA 833.2.6 InstructBLIP 843.2.7 Qwen-VL 843.2.8 CogVLM 853.3 音頻多模態(tài)大語言模型 863.3.1 SALMONN 863.3.2 MACAW-LLM 863.3.3 Qwen-Audio 873.3.4 AnyGPT 873.4 視頻多模態(tài)大語言模型 883.4.1 Video-ChatGPT 883.4.2 VideoChat 893.4.3 Chat-Univi 893.4.4 InternLM-XComposer 903.4.5 VideoLLaMA2 913.4.6 VILA 923.5 本章小結(jié) 933.6 思考與練習(xí) 93第4章 大語言模型微調(diào) 944.1 構(gòu)建微調(diào)數(shù)據(jù) 954.1.1 基于自然語言處理數(shù)據(jù)集構(gòu)建數(shù)據(jù) 964.1.2 基于大語言模型構(gòu)建數(shù)據(jù) 1014.2 參數(shù)高效微調(diào) 1074.2.1 增量微調(diào) 1074.2.2 選擇性微調(diào) 1114.2.3 重參數(shù)化微調(diào) 1124.3 本章小結(jié) 1164.4 思考與練習(xí) 117第5章 行業(yè)大語言模型 1185.1 行業(yè)場景下的大語言模型應(yīng)用 1195.1.1 醫(yī)療場景下的大語言模型 1195.1.2 教育場景下的大語言模型 1215.1.3 法律場景下的大語言模型 1225.1.4 金融場景下的大語言模型 1245.1.5 科研場景下的大語言模型 1245.2 行業(yè)大語言模型繼續(xù)預(yù)訓(xùn)練技術(shù) 1255.3 本章小結(jié) 1275.4 思考與練習(xí) 128第6章 大語言模型的內(nèi)部安全威脅 1296.1 大語言模型的毒性與偏見 1306.1.1 毒性與偏見定義 1306.1.2 檢測與評估方法 1316.2 安全對齊方法 1326.2.1 基于指令微調(diào)的安全對齊方法 1326.2.2 人類反饋強(qiáng)化學(xué)習(xí)的安全對齊技術(shù) 1356.2.3 兩種安全對齊技術(shù)對比 1386.3 越獄 1396.3.1 越獄的定義 1396.3.2 常見的越獄攻擊方法 1396.3.3 越獄防御策略 1406.4 幻覺 1416.4.1 幻覺的定義 1416.4.2 幻覺成因分析 1426.4.3 幻覺檢測與評估 1436.4.4 緩解幻覺的策略 1446.5 模型可解釋性與安全 1466.5.1 可解釋性的定義與意義 1466.5.2 模型可解釋性技術(shù) 1466.5.3 可解釋性在模型內(nèi)部安全中的應(yīng)用 1476.5.4 局限性與挑戰(zhàn) 1486.6 對抗性攻擊與防御 1496.6.1 對抗性攻擊的概念與類型 1496.6.2 常見的對抗性攻擊方法 1496.6.3 對抗性防御策略 1506.6.4 局限性與挑戰(zhàn) 1506.7 本章小結(jié) 1516.8 思考與練習(xí) 151第7章 大語言模型的外部安全威脅 1527.1 對抗樣本攻擊 1537.1.1 對抗樣本攻擊的概念 1537.1.2 對抗樣本生成方法 1547.1.3 對抗樣本攻擊對模型的影響 1567.1.4 對抗樣本攻擊的防御 1577.2 數(shù)據(jù)投毒 1597.2.1 數(shù)據(jù)投毒的概念 1597.2.2 數(shù)據(jù)投毒的常見方式 1607.2.3 數(shù)據(jù)投毒的典型案例 1617.2.4 數(shù)據(jù)投毒的檢測與防御 1637.3 后門攻擊 1657.3.1 后門攻擊的概念 1657.3.2 后門攻擊的方式與原理 1667.3.3 后門攻擊的典型案例 1677.3.4 大模型后門攻擊的檢測與防御 1687.4 提示詞注入攻擊 1717.4.1 提示詞注入攻擊的概念 1717.4.2 提示詞注入攻擊的方式與原理 1717.4.3 提示詞注入攻擊的典型案例 1737.4.4 提示詞注入攻擊的檢測與防御 1747.5 本章小結(jié) 1787.6 思考與練習(xí) 179第8章 大語言模型的隱私保護(hù) 1808.1 大語言模型作為隱私攻擊者和保護(hù)者 1818.1.1 大語言模型作為隱私攻擊者 1818.1.2 大語言模型作為隱私保護(hù)者 1828.2 大語言模型隱私攻擊 1848.2.1 被動隱私泄露 1848.2.2 主動隱私攻擊 1868.3 大語言模型隱私保護(hù) 1888.3.1 預(yù)訓(xùn)練中的隱私保護(hù) 1888.3.2 微調(diào)階段的隱私保護(hù) 1938.3.3 推理階段的隱私保護(hù) 1968.4 本章小結(jié) 2018.5 思考與練習(xí) 201附錄 縮略語 203參考文獻(xiàn) 207