馬 昂 于艷華 楊勝利 石 川 李 劼 蔡修秀
1(北京郵電大學(xué)計算機(jī)學(xué)院(國家示范性軟件學(xué)院) 北京 100876)2(中國人民解放軍國防大學(xué) 北京 100091)
自谷歌在2012年推出“知識圖譜”(knowledge graph, KG)后,知識圖譜技術(shù)已迅速成為數(shù)據(jù)挖掘、數(shù)據(jù)庫和人工智能等領(lǐng)域的研究熱點(diǎn).知識圖譜采用圖結(jié)構(gòu)來描述知識和建模事物及事物間關(guān)系[1].它將信息表達(dá)成更接近人類認(rèn)知的形式,提供了一種組織、管理和認(rèn)知理解海量信息的能力[2].知識圖譜本質(zhì)是一種大規(guī)模語義網(wǎng)絡(luò),既包含了豐富的語義信息,又天然具有圖的各種特征,其中,事物或?qū)嶓w屬性值表示為“節(jié)點(diǎn)”,事物之間的關(guān)系或?qū)傩员硎緸椤斑叀?目前,知識圖譜相關(guān)的知識自動獲取[3-5]、知識推理[6-8]、知識表示[9-10]、知識融合[11]已成為搜索問答[12]、大數(shù)據(jù)分析[4]、智能推薦[6]和數(shù)據(jù)集成[11]的強(qiáng)大資產(chǎn),被廣泛應(yīng)用于多個行業(yè)領(lǐng)域.
目前,大部分知識圖譜的研究是基于監(jiān)督學(xué)習(xí)的方法[3,6,13-14].然而,為模型獲得足夠的標(biāo)注數(shù)據(jù)成本較高.為此部分學(xué)者提出使用遠(yuǎn)程監(jiān)督的方法來減少數(shù)據(jù)標(biāo)注[15],遠(yuǎn)程監(jiān)督指的是借助外部知識庫為數(shù)據(jù)提供標(biāo)簽[16].但遠(yuǎn)程監(jiān)督獲得的訓(xùn)練樣本中存在噪聲.此外,現(xiàn)有方法還存在依賴人工預(yù)定義的規(guī)則和先驗(yàn)知識或模型缺乏可解釋性等問題.強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)適用于貫序決策問題,通過學(xué)習(xí)如何與環(huán)境交互,進(jìn)而輔助人類決策.它在進(jìn)行策略選擇時更關(guān)注環(huán)境狀態(tài),對行為的選擇進(jìn)行更好地理解和解釋.將知識圖譜研究的問題建模成路徑或序列相關(guān)的問題,例如,將基于遠(yuǎn)程監(jiān)督的命名實(shí)體識別中干凈樣本的選擇建模成序列標(biāo)注任務(wù)、將關(guān)系推理建模成路徑查找問題等,應(yīng)用強(qiáng)化學(xué)習(xí)算法可以避免依賴人工預(yù)定義的規(guī)則或先驗(yàn)知識,解決模型缺乏可解釋性或僅提供事后可解釋性(post-hoc explanation)的問題,具有重要的研究和應(yīng)用價值.
近年來,學(xué)術(shù)界和工業(yè)界對知識圖譜、強(qiáng)化學(xué)習(xí)2個領(lǐng)域進(jìn)行了深入研究,有不少分別聚焦知識圖譜和強(qiáng)化學(xué)習(xí)的綜述性文章.文獻(xiàn)[1,3-4,6-8,11,14,17]分別圍繞知識圖譜的表示學(xué)習(xí)、知識獲取、知識推理、知識圖譜構(gòu)建與應(yīng)用、多模態(tài)知識融合等進(jìn)行綜述.文獻(xiàn)[18-22]分別對基于價值的和基于策略的強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)算法、多智能體算法進(jìn)行綜述.文獻(xiàn)[23-24]對強(qiáng)化學(xué)習(xí)在綜合能源管理和金融交易領(lǐng)域的研究進(jìn)行闡述.然而,盡管已有諸多的知識圖譜、強(qiáng)化學(xué)習(xí)綜述文獻(xiàn),但仍缺乏對知識圖譜和強(qiáng)化學(xué)習(xí)相結(jié)合的研究進(jìn)行系統(tǒng)地梳理和總結(jié)的工作.與現(xiàn)有的工作相比,本文工作的不同主要體現(xiàn)在2個方面:1)通過系統(tǒng)調(diào)研已發(fā)表的基于強(qiáng)化學(xué)習(xí)的知識圖譜相關(guān)研究的論文,全面總結(jié)了基于強(qiáng)化學(xué)習(xí)的知識圖譜研究,包括知識抽取、知識推理、知識表示、知識融合等研究成果.2)介紹了基于強(qiáng)化學(xué)習(xí)的知識圖譜如何應(yīng)用于智能推薦、游戲攻略、生物醫(yī)藥、金融、網(wǎng)絡(luò)安全等實(shí)際領(lǐng)域.本文是第1篇系統(tǒng)介紹該研究方向的綜述論文.
知識圖譜作為大數(shù)據(jù)時代重要的一種結(jié)構(gòu)化的知識表示形式,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注與研究.“知識圖譜”由谷歌于2012年正式提出,其目的是為了支撐語義搜索任務(wù)而建立的知識庫.隨著知識圖譜技術(shù)的不斷發(fā)展和進(jìn)步,知識圖譜的概念也不斷被豐富和深化.知識圖譜定義為G={E,R,F},其中,E,R和F分別表示實(shí)體、關(guān)系、事實(shí)的集合,事實(shí)被定義為一個三元組(h,r,t)∈F,其中,h和t分別代表頭實(shí)體和尾實(shí)體,r代表頭尾實(shí)體間的關(guān)系.圖1是名著《水滸傳》的一個知識圖譜片段,圖中節(jié)點(diǎn)表示實(shí)體,邊表示關(guān)系,三元組(宋江,結(jié)拜,武松)表達(dá)了宋江與武松是結(jié)拜兄弟的事實(shí).
Fig. 1 Example of knowledge graph圖1 知識圖譜示例
目前,學(xué)術(shù)界和工業(yè)界已構(gòu)建了一大批知識圖譜.學(xué)術(shù)界最具代表性的有DBpedia[25],YAGO[26],ConceptNet[27],Wikidata[28],以及國內(nèi)學(xué)術(shù)團(tuán)隊(duì)構(gòu)建的AMiner[29],CN-DBpedia[30],Zhishi.me[31]等,涉及通用常識、科技文獻(xiàn)、語言翻譯等領(lǐng)域.在工業(yè)界,谷歌、微軟、阿里、美團(tuán)等公司都投入了大量資源來構(gòu)建各自的領(lǐng)域知識圖譜.例如,阿里利用來自于淘寶、天貓等多個平臺的商品數(shù)據(jù)構(gòu)建了一個包含了百億級別三元組數(shù)據(jù)的商品知識圖譜,用于搜索、前端導(dǎo)購、智能問答等業(yè)務(wù),幫助行業(yè)人員進(jìn)行選品,提高消費(fèi)者購物體驗(yàn).知識圖譜已經(jīng)在搜索、社交、商業(yè)、醫(yī)療等領(lǐng)域有了一定的實(shí)踐與應(yīng)用,并取得了較好的成效.
通常,知識圖譜的研究主要包括知識抽取、知識推理、知識表示、知識融合等方面,表1圍繞這些方面分別從傳統(tǒng)模型與基于深度學(xué)習(xí)的模型2個角度,對知識圖譜研究中的常見算法進(jìn)行分類總結(jié).
Table 1 Classic Knowledge Graph Algorithms表1 知識圖譜相關(guān)研究算法
1) 知識抽取是從不同來源、結(jié)構(gòu)的數(shù)據(jù)中提取知識,形成結(jié)構(gòu)化數(shù)據(jù)存入知識圖譜.對于結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),可以直接利用映射、轉(zhuǎn)換等操作.但對于非結(jié)構(gòu)化數(shù)據(jù)而言,知識抽取較為困難.一般知識抽取任務(wù)包括命名實(shí)體識別(named entity recognition, NER)、關(guān)系抽取(relation extraction, RE)(實(shí)體屬性抽取、實(shí)體關(guān)系抽取)等.
2) 知識推理是從已有的知識中推理實(shí)體間可能存在的關(guān)系或?qū)傩灾?知識圖譜通常是不完整的,例如,實(shí)體間路徑缺失、實(shí)體屬性值缺失等.因此,知識推理常用于知識圖譜補(bǔ)全(knowledge graph com-pletion),也可用于知識圖譜去噪(knowledge graph cleaning)等任務(wù).
3) 知識表示是對現(xiàn)實(shí)世界的一種抽象表達(dá).知識表示方式主要分為符號表示和數(shù)值表示[2],符號表示,如網(wǎng)絡(luò)本體語言(web ontology language, OWL),RDF(resource description framework)等,符號表示方便易于理解,但基本符號性質(zhì)使知識圖譜難以操作[1].因此,提出了知識圖譜嵌入(knowledge graph embedding, KGE)或知識表示學(xué)習(xí)(knowledge representation learning, KRL)方法,將知識圖譜的實(shí)體和關(guān)系嵌入到連續(xù)向量空間中[1],從而實(shí)現(xiàn)對其語義信息和固有結(jié)構(gòu)的表示.
4) 知識融合是將從不同來源得到的同一實(shí)體或概念的描述信息融合起來[11].描述信息可以是同種類型,也可以是不同類型.例如圖片、文字、音頻、視頻等.
近年來,針對知識圖譜的研究已經(jīng)取得了很大進(jìn)展.文獻(xiàn)[13-14]基于深度學(xué)習(xí)方法分別對實(shí)體識別、實(shí)體關(guān)系抽取進(jìn)行了全面綜述.文獻(xiàn)[17]利用淺層語言分析中的基礎(chǔ)語言信息和關(guān)系結(jié)構(gòu)信息2個層面特征對自動術(shù)語抽取問題進(jìn)行分類總結(jié).文獻(xiàn)[8]將知識圖譜推理分為單步推理、多步推理,分別從基于規(guī)則的、基于表示學(xué)習(xí)的、基于神經(jīng)網(wǎng)絡(luò)的以及混合推理4個方面對知識推理的最新研究進(jìn)行了歸納總結(jié).文獻(xiàn)[4]圍繞事理認(rèn)知圖譜的構(gòu)建與推斷進(jìn)行總結(jié)歸納,梳理了事理認(rèn)知圖譜的最新應(yīng)用效果.文獻(xiàn)[83]從知識圖譜構(gòu)建過程出發(fā),將知識圖譜補(bǔ)全問題分為概念補(bǔ)全和實(shí)例補(bǔ)全2個層面,對知識圖譜補(bǔ)全技術(shù)進(jìn)行了系統(tǒng)的回顧與探討.文獻(xiàn)[1]對知識圖譜嵌入技術(shù)進(jìn)行梳理總結(jié).文獻(xiàn)[11]對多源知識融合相關(guān)研究技術(shù)和最新進(jìn)展進(jìn)行了歸納總結(jié).
雖然基于深度學(xué)習(xí)的方法在知識圖譜的研究已經(jīng)取得了不錯的效果,但還存在一些問題,主要表現(xiàn)在4個方面:
1) 標(biāo)記數(shù)據(jù)缺乏.為監(jiān)督學(xué)習(xí)獲取領(lǐng)域標(biāo)記數(shù)據(jù)成本較高.為此,部分學(xué)者引入遠(yuǎn)程監(jiān)督學(xué)習(xí),雖然減少了數(shù)據(jù)標(biāo)注的成本,但所構(gòu)造的訓(xùn)練樣本中噪聲較高.
2) 數(shù)據(jù)常識信息匱乏[4].生活中存在很多約定俗成的常識知識,這些知識幾乎不會顯式地出現(xiàn)在大部分語料中.
3) 知識圖譜存在不完整性[32,83].不完整性主要表現(xiàn)在2個方面:顯式不完整,即實(shí)體之間路徑缺失;隱式不完整,即2個實(shí)體之間存在過長的路徑,現(xiàn)有的推理模型很難推斷.
4) 現(xiàn)有基于深度學(xué)習(xí)的方法缺乏可解釋性[7,83].目前,應(yīng)用深度學(xué)習(xí)進(jìn)行知識圖譜的推理或者推薦方法更關(guān)注于結(jié)果的準(zhǔn)確性,結(jié)果的透明性和可解釋性較差.
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,人們希望賦予知識圖譜更高的能力,即賦予知識圖譜更強(qiáng)的推理、理解、表達(dá)能力.強(qiáng)化學(xué)習(xí)是一種從試錯過程中發(fā)現(xiàn)最優(yōu)行為策略的技術(shù),已經(jīng)成為解決環(huán)境交互問題的通用方法[84].不同于通過數(shù)據(jù)學(xué)習(xí)規(guī)律的方法,強(qiáng)化學(xué)習(xí)是通過與環(huán)境的交互來學(xué)習(xí),這種方式更接近于人類的學(xué)習(xí)認(rèn)知過程.因此,強(qiáng)化學(xué)習(xí)方法具備強(qiáng)大的探索能力和自主學(xué)習(xí)能力.知識圖譜與強(qiáng)化學(xué)習(xí)的結(jié)合主要有3種思路:
1) 將知識圖譜的相關(guān)問題建模成路徑(序列)問題,利用強(qiáng)化學(xué)習(xí)的方法來解決.例如,將命名實(shí)體識別建模為序列標(biāo)注任務(wù),使用強(qiáng)化學(xué)習(xí)方法來學(xué)習(xí)標(biāo)注策略;將知識推理建模為路徑推理問題,利用強(qiáng)化學(xué)習(xí)方法進(jìn)行關(guān)系和節(jié)點(diǎn)選擇.
2) 將強(qiáng)化學(xué)習(xí)方法用于有噪聲訓(xùn)練樣本的選擇或過濾,減少遠(yuǎn)程監(jiān)督方法所帶來的噪聲,利用高質(zhì)量的樣本提高知識圖譜命名實(shí)體識別和關(guān)系抽取方法的性能.
3) 將知識圖譜所包含的信息作為外部知識,編碼進(jìn)強(qiáng)化學(xué)習(xí)的狀態(tài)或獎勵中,提升強(qiáng)化學(xué)習(xí)智能體的探索效率,應(yīng)用于關(guān)系抽取和知識推理等場景.知識圖譜與強(qiáng)化學(xué)習(xí)的結(jié)合對于提高模型的可解釋性和推理能力,提升訓(xùn)練數(shù)據(jù)質(zhì)量,具有重要的研究與應(yīng)用價值.
強(qiáng)化學(xué)習(xí)研究智能體(agent)與環(huán)境(environment)的相互作用,通過不斷學(xué)習(xí)最優(yōu)策略(policy),做出序列決策并獲得最大獎勵(reward)[85-86].強(qiáng)化學(xué)習(xí)的過程可以由Markov決策過程(Markov decision process, MDP)來描述,使用四元組來表示(A,S,P,R).其中,動作空間A表示智能體對環(huán)境施加的動作集合,狀態(tài)空間S表示環(huán)境狀態(tài)集合,P為狀態(tài)轉(zhuǎn)移矩陣,獎勵R表示環(huán)境對動作做出的反饋.策略π為狀態(tài)空間到動作空間的映射.智能體與環(huán)境交互,如圖2所示,其中,At,St,Rt分別表示在時刻t的動作、狀態(tài)和獎勵.通常,狀態(tài)與獎勵的設(shè)置與實(shí)際問題密切相關(guān).強(qiáng)化學(xué)習(xí)的核心目標(biāo)是使長期累積獎勵最大化.累計獎勵被定義為獎勵序列的一些特定函數(shù),由于未來獎勵的總和往往是無窮大的,一種常見的做法是引入折扣因子γ∈[0,1],用于平衡最近的獎勵與未來的獎勵,時刻t以后的累積獎勵為
Fig. 2 Interaction between agent and environment圖2 智能體與環(huán)境交互圖
(1)
依據(jù)是否對環(huán)境建模,強(qiáng)化學(xué)習(xí)方法可分為基于模型的強(qiáng)化學(xué)習(xí)方法和無模型的強(qiáng)化學(xué)習(xí)方法[23,85].
1) 基于模型的強(qiáng)化學(xué)習(xí)方法.假定任務(wù)對應(yīng)的Markov決策過程四元組均為已知,即機(jī)器已對環(huán)境進(jìn)行了建模,然后再利用該模型做出動作規(guī)劃或者策略選擇,方法對模型十分敏感.
2) 無模型的強(qiáng)化學(xué)習(xí)方法.不需要對環(huán)境建模,通過和環(huán)境交互來學(xué)習(xí)到一個價值函數(shù)或者策略函數(shù).依據(jù)智能體策略計算方式,分為基于價值 (value-based)、基于策略 (policy-based)以及基于Actor-Critic的方法3類,表2對無模型經(jīng)典強(qiáng)化學(xué)習(xí)算法進(jìn)行了簡要對比.
Table 2 Comparison of Classic Model-Free Reinforcement Learning Methods表2 經(jīng)典無模型強(qiáng)化學(xué)習(xí)方法對比
基于價值的強(qiáng)化學(xué)習(xí)方法通過學(xué)習(xí)價值來指導(dǎo)策略,通過選取最大價值函數(shù)對應(yīng)的動作,隱式地構(gòu)建最優(yōu)策略.Watkins等人[87]和Rummery等人[88]將狀態(tài)與動作構(gòu)建成一張Q-table來存儲Q值,根據(jù)Q值選擇獲得最大收益的動作,分別提出Q-learning和SARSA.這類方法雖然簡單,但面對復(fù)雜狀態(tài)集合問題時,需要維護(hù)一張巨大的Q-table.一種有效的解決方法是對價值函數(shù)近似表示.Deep Q-learning[89]利用深度神經(jīng)網(wǎng)絡(luò)對動作價值函數(shù)進(jìn)行擬合,神經(jīng)網(wǎng)絡(luò)的輸入是狀態(tài),輸出是近似Q函數(shù).Mnih等人[90]使用結(jié)構(gòu)一樣的主網(wǎng)絡(luò)(main)和目標(biāo)網(wǎng)絡(luò)(target)替換原有神經(jīng)網(wǎng)絡(luò),提出了DQN(deep Q-network).主網(wǎng)絡(luò)用來選擇動作,更新模型參數(shù);目標(biāo)網(wǎng)絡(luò)用于計算Q′值,目標(biāo)網(wǎng)絡(luò)的參數(shù)采用延時更新.DDQN(deep double Q-network)[91]通過解耦動作選擇和Q值的計算,先在主網(wǎng)絡(luò)中找出最大Q值對應(yīng)的動作a′,然后利用該動作在目標(biāo)網(wǎng)絡(luò)中計算Q值來消除過估計(over estimation).DQN和DDQN都使用了經(jīng)驗(yàn)回放(experience replay),Schaul等人[92]提出優(yōu)先級經(jīng)驗(yàn)回放(prioritized experience replay),使用時序差分誤差(temporal difference error, TD-error)來衡量優(yōu)先級(權(quán)重),按照權(quán)重采樣有利于加快學(xué)習(xí)速度.Dueling DQN(dueling deep Q-network)[93]進(jìn)一步將Q網(wǎng)絡(luò)分為價值函數(shù)、優(yōu)勢函數(shù).價值函數(shù)僅與狀態(tài)有關(guān),優(yōu)勢函數(shù)同時與狀態(tài)和動作有關(guān),Q價值函數(shù)可以通過價值函數(shù)、優(yōu)勢函數(shù)計算得到.但需要注意的是這類方法通常適用于處理離散的動作集合,且最優(yōu)策略通常是確定性策略.
對于動作空間連續(xù)或策略是隨機(jī)的問題,可以利用基于策略的強(qiáng)化學(xué)習(xí)方法.基于策略的方法是對策略函數(shù)近似,使用含參函數(shù)π(a|s,θ)來計算最優(yōu)策略,模型由參數(shù)θ控制得到最優(yōu)策略.對于離散動作空間,可以使用softmax計算動作概率;對于連續(xù)空間,通常使用高斯分布計算動作概率.基于策略的目標(biāo)函數(shù)J(θ)有3種常用計算方式:基于初始狀態(tài)期望、基于平均價值、基于平均獎勵,如表3所示.初始狀態(tài)期望是計算從某一初始狀態(tài)開始,智能體依據(jù)策略一直到回合結(jié)束,所獲得的獎勵之和.平均價值是指對于沒有初始狀態(tài)的任務(wù).例如,連續(xù)性任務(wù),從某時刻起,計算其所有可能的狀態(tài)價值函數(shù)的均值.平均獎勵指每一時間步的平均獎勵,即所有可能狀態(tài)在該策略下,所能獲得的獎勵的加權(quán)平均.在確定目標(biāo)函數(shù)后,對目標(biāo)函數(shù)進(jìn)行優(yōu)化,例如,采用梯度上升更新參數(shù),即可確定最優(yōu)策略.蒙特卡洛策略梯度REINFORCE[94]是一種經(jīng)典的基于策略的算法,但該算法需要使用從當(dāng)前時刻開始到結(jié)束的所有獎勵,策略梯度計算:
Table 3 Common Objective Functions Used in Policy-Based Reinforcement Learning表3 基于策略的強(qiáng)化學(xué)習(xí)常用目標(biāo)函數(shù)
?θJ(θ)=Eπθ[?θlogπθ(s,a)Gt],
(2)
其中,?θJ(θ)表示目標(biāo)函數(shù)對θ求導(dǎo),E表示期望.
REINFORCE導(dǎo)致方差較高,從而降低智能體的學(xué)習(xí)速度.為了解決這一問題,研究者提出了一些方法,例如,在計算累計獎勵時減去基線,策略梯度計算:
?θJ(θ)=Eπθ[?θlogπθ(s,a)(Gt-b(s))],
(3)
其中,b(s)表示只與狀態(tài)有關(guān),不隨動作變化的任意函數(shù),常使用狀態(tài)價值函數(shù)作為基線.基于策略的強(qiáng)化學(xué)習(xí)方法通過策略梯度方法直接優(yōu)化用深度神經(jīng)網(wǎng)絡(luò)參數(shù)化表示的策略.這類方法中,所有更新都只有在回合結(jié)束后才能進(jìn)行,梯度方差較大,學(xué)習(xí)速率較為緩慢.
Actor-Critic算法[95]也是降低基于策略的強(qiáng)化學(xué)習(xí)方差的一種方式.它將基于價值和基于策略的強(qiáng)化學(xué)習(xí)相結(jié)合,由Actor和Critic網(wǎng)絡(luò)組成.Actor根據(jù)價值函數(shù)訓(xùn)練策略,選擇動作得到反饋;Critic根據(jù)狀態(tài)訓(xùn)練價值函數(shù),用于評價策略的好壞.REINFORCE等基于策略的強(qiáng)化學(xué)習(xí)方法通過采樣,利用實(shí)際累積獎勵計算策略梯度.而Actor-Critic使用價值函數(shù)的估計值,計算策略梯度.Actor-Critic經(jīng)典算法與策略梯度計算,如表4所示.A3C(asyn-chronous advantage Actor-Critic)[96]通過同時生成多個AC算法線程,同步進(jìn)行訓(xùn)練,共享參數(shù),提高了算法效率.DDPG(deep deterministic policy gradient)[97]構(gòu)建了4個神經(jīng)網(wǎng)絡(luò):主Actor網(wǎng)絡(luò)、目標(biāo)Actor網(wǎng)絡(luò)、主Critic網(wǎng)絡(luò)和目標(biāo)Critic網(wǎng)絡(luò).DDPG借鑒了DQN中雙網(wǎng)絡(luò)的思想,通過雙網(wǎng)絡(luò)和經(jīng)驗(yàn)回放,解決了Actor-Critic收斂困難的問題.為了保證策略的優(yōu)化總是朝著不變壞的方向進(jìn)行,研究者們提出了TRPO(trust region policy optimi-zation)[98],PPO(proximal policy optimization)[99]等算法,來提高策略梯度的收斂速度.基于Actor-Critic的強(qiáng)化學(xué)習(xí)方法在基于策略的和基于價值的強(qiáng)化學(xué)習(xí)方法之間找到一種平衡,降低策略梯度求解時的梯度(估計)方差.
Table 4 Classical Algorithms based on Actor-Critic and Policy Gradient Calculation表4 基于Actor-Critic的經(jīng)典算法與策略梯度計算
除2.1~2.3節(jié)所述的經(jīng)典強(qiáng)化學(xué)習(xí)方法外,還有多智能體強(qiáng)化學(xué)習(xí)方法、分層強(qiáng)化學(xué)習(xí)方法、對抗強(qiáng)化學(xué)習(xí)方法等.多智能體強(qiáng)化學(xué)習(xí)(mulit agent reinforcement learning, MARL)指至少擁有2個智能體的強(qiáng)化學(xué)習(xí)方法[100-101].Lowe等人[100]提出了多智能體深度確定性策略梯度方法(mulit agent deep deterministic policy gradient, MADDPG)方法,每個智能體的學(xué)習(xí)需考慮其他智能體的動作策略,進(jìn)行中心化訓(xùn)練和非中心化執(zhí)行.Sunehag等人[101]提出考慮協(xié)作任務(wù)的多智能體強(qiáng)化學(xué)習(xí)算法價值分解網(wǎng)絡(luò)(value-decomposition networks, VDN).所有的智能體共享同一個獎勵值,智能體之間共享網(wǎng)絡(luò)參數(shù),算法收斂速度快.多智能體強(qiáng)化學(xué)習(xí)狀態(tài)空間和聯(lián)合動作空間隨智能體數(shù)量指數(shù)增長,計算復(fù)雜度較大.面對維度災(zāi)難和稀疏獎勵延遲問題,研究者提出分層深度強(qiáng)化學(xué)習(xí)方法(hierarchical deep reinforcement learning, HDRL)[102].分層的思想有利于減小問題規(guī)模,降低獎勵稀疏和延遲問題.Eysenbach等人[102]提出無監(jiān)督框架下的策略學(xué)習(xí)算法DIAYN(diversity is all you need),該方法在無獎勵的環(huán)境中,自適應(yīng)地產(chǎn)生獎勵函數(shù).基于互信息的目標(biāo)函數(shù)學(xué)習(xí)到一些有用的技能,用來控制智能體訪問狀態(tài).面對模擬環(huán)境和現(xiàn)實(shí)環(huán)境存在差異,策略難以遷移的問題,研究者提出對抗強(qiáng)化學(xué)習(xí)方法(generative adversarial reinforcement learning, GARL)[103-104].Pinto等人[103]提出魯棒的對抗強(qiáng)化學(xué)習(xí)方法(robust adversarial reinforcement learning, RARL),通過同時訓(xùn)練2個智能體使強(qiáng)化學(xué)習(xí)更好地泛化到真實(shí)環(huán)境.Protagonist智能體做出決策,Adversary智能體產(chǎn)生擾動干擾Protagonist智能體決策,使用交替過程優(yōu)化2個智能體.Chen等人[104]提出了Cascading-DQN,利用生成對抗網(wǎng)絡(luò)同時學(xué)習(xí)用戶行為模型以及獎勵函數(shù).將用戶行為模型作為強(qiáng)化學(xué)習(xí)的環(huán)境,得到候選物品組合推薦策略,解決推薦系統(tǒng)利用用戶的在線反饋來訓(xùn)練推薦策略,消耗大量交互成本,影響用戶體驗(yàn)的問題.
目前,大多數(shù)知識圖譜的相關(guān)方法基于監(jiān)督學(xué)習(xí),但對數(shù)據(jù)進(jìn)行標(biāo)注費(fèi)時費(fèi)力.為了解決標(biāo)注困難的問題,有學(xué)者提出了遠(yuǎn)程監(jiān)督的方法.遠(yuǎn)程監(jiān)督減少了數(shù)據(jù)標(biāo)注成本,但又在訓(xùn)練數(shù)據(jù)中引入了噪聲[15].雖然,目前知識圖譜的研究方法在準(zhǔn)確率、精度、召回率等性能上取得了很好的效果,但這些方法結(jié)果的透明性、可解釋性、可信賴性等還有待進(jìn)一步研究[7,84,105].強(qiáng)化學(xué)習(xí)方法不同于一般的監(jiān)督學(xué)習(xí),它把相關(guān)問題建模為序列決策問題,近年來在知識圖譜領(lǐng)域得到應(yīng)用,可以幫助解決遠(yuǎn)程監(jiān)督的噪音問題、知識推理結(jié)果可解釋性差[105]等問題.本節(jié)將分別從命名實(shí)體識別、關(guān)系抽取、知識推理、知識表示、知識融合等5個方面,詳細(xì)介紹強(qiáng)化學(xué)習(xí)方法在各類研究中的進(jìn)展,如圖3所示:
Fig. 3 Classification of knowledge graph research methods based on reinforcement learning圖3 基于強(qiáng)化學(xué)習(xí)的知識圖譜研究方法分類
命名實(shí)體識別旨在對序列進(jìn)行命名實(shí)體標(biāo)注,判斷輸入句子中的詞是否屬于人名、地名、組織機(jī)構(gòu)名等.現(xiàn)有命名實(shí)體識別方法依賴人工標(biāo)注數(shù)據(jù),但標(biāo)注成本較高.遠(yuǎn)程監(jiān)督方法可以降低標(biāo)注成本[15],但遠(yuǎn)程監(jiān)督獲得的訓(xùn)練樣本中又存在噪聲.強(qiáng)化學(xué)習(xí)方法可以通過自主學(xué)習(xí)選擇高質(zhì)量的訓(xùn)練樣本數(shù)據(jù),解決上述問題.目前,基于強(qiáng)化學(xué)習(xí)的命名實(shí)體識別方法思路主要有2類:1)使用深度強(qiáng)化學(xué)習(xí)模型自動學(xué)習(xí)樣本選擇策略,過濾掉訓(xùn)練數(shù)據(jù)中的噪聲.2)將命名實(shí)體識別任務(wù)利用強(qiáng)化學(xué)習(xí)來建模,即將序列標(biāo)注任務(wù)轉(zhuǎn)換為序列決策問題.通過利用Markov決策過程模型來進(jìn)行序列標(biāo)注,即為序列中的每個元素分配一個標(biāo)簽.
基于將強(qiáng)化學(xué)習(xí)用于命名實(shí)體識別中的訓(xùn)練樣本選擇這一思路,Yang等人[106]采用基于策略的強(qiáng)化學(xué)習(xí)來解決遠(yuǎn)程監(jiān)督方法中訓(xùn)練數(shù)據(jù)存在噪聲的問題,設(shè)計了一個從遠(yuǎn)程監(jiān)督方法得到的部分標(biāo)注(partial annotation)數(shù)據(jù)中獲得干凈實(shí)例的算法.算法框架如圖4所示,包括命名實(shí)體(NE)標(biāo)記器(圖4左部分)、實(shí)例選擇器(圖4右部分).NE標(biāo)記器基于雙向LSTM(bi-directional LSTM, BiLSTM)和條件隨機(jī)場(conditional random fields, CRF)模型進(jìn)行命名實(shí)體識別,其訓(xùn)練數(shù)據(jù)包括部分手工標(biāo)注的監(jiān)督數(shù)據(jù)和實(shí)例選擇器從部分標(biāo)注數(shù)據(jù)中選擇的干凈實(shí)例.實(shí)例選擇器采用基于策略的強(qiáng)化學(xué)習(xí)方法,首先選取訓(xùn)練數(shù)據(jù)的一個子集作為包.智能體需要從包中的部分標(biāo)注數(shù)據(jù)中選擇正確標(biāo)記的句子,作為干凈實(shí)例輸入NE標(biāo)記器.具體來看,對于每個句子,智能體根據(jù)策略網(wǎng)絡(luò)決策對其執(zhí)行的動作(選擇或不選擇).狀態(tài)如圖4的虛線框所示,包括由BiLSTM編碼的當(dāng)前實(shí)例的向量表示以及由MLP根據(jù)當(dāng)前實(shí)例向量表示計算的該實(shí)例詞序列中的標(biāo)簽分?jǐn)?shù).包中所有句子處理完畢智能體得到一個獎勵,獎勵是NE標(biāo)記器對包中所有句子標(biāo)簽序列的條件概率取對數(shù)平均值.實(shí)例選擇器根據(jù)NE標(biāo)記器提供的獎勵進(jìn)行學(xué)習(xí),優(yōu)化實(shí)例選擇器的策略網(wǎng)絡(luò).該模型利用強(qiáng)化學(xué)習(xí)的思想進(jìn)行遠(yuǎn)程監(jiān)督樣本數(shù)據(jù)選擇或去噪,提升了命名實(shí)體識別性能.更進(jìn)一步,Wan等人[107]為了處理噪音數(shù)據(jù)對命名實(shí)體識別模型帶來的影響,利用基于策略的REINFORCE算法對樣本數(shù)據(jù)進(jìn)行糾正.給定一個句子,狀態(tài)被定義為當(dāng)前的輸入(詞)和以前的上下文,動作被定義為是否對該詞的標(biāo)簽進(jìn)行修改.該模型由2個模塊組成:標(biāo)簽修改器和標(biāo)簽預(yù)測器.標(biāo)簽修改器模塊作為強(qiáng)化學(xué)習(xí)中的智能體,能夠糾正標(biāo)簽錯誤的訓(xùn)練數(shù)據(jù).標(biāo)簽預(yù)測器采用BiLSTM+CRF模型,用來完成序列標(biāo)注任務(wù).2個模塊在訓(xùn)練過程中相互影響.標(biāo)簽修改器的狀態(tài)表示從標(biāo)簽預(yù)測器生成,同時也會從標(biāo)簽預(yù)測器獲得獎勵來指導(dǎo)策略的學(xué)習(xí).而標(biāo)簽預(yù)測器模塊又依賴于從標(biāo)簽修改器獲得的最終標(biāo)簽進(jìn)行訓(xùn)練.與Yang等人[106]不同,Wan等人[107]的模型是學(xué)習(xí)一個獨(dú)立的標(biāo)簽修改器來糾正錯誤的標(biāo)簽,標(biāo)簽預(yù)測器的性能變化作為標(biāo)簽修改器的獎勵來直觀地反映標(biāo)簽修改器的效果.通過利用高質(zhì)量的訓(xùn)練數(shù)據(jù),以提高命名實(shí)體識別模型的性能.
Fig. 4 Framework of NER based on reinforcement learning[106]圖4 基于強(qiáng)化學(xué)習(xí)的NER算法框架圖[106]
命名實(shí)體識別也可以直接建模為序列決策問題.Maes等人[108]利用強(qiáng)化學(xué)習(xí)來解決序列標(biāo)注問題.利用Markov決策過程對標(biāo)簽序列構(gòu)建過程建模,引入了基于蒙特卡洛思想的Rollout算法,替換SARSA算法中的Q價值函數(shù),以便有效地學(xué)習(xí)如何標(biāo)記新序列.狀態(tài)包括當(dāng)前句子以及已經(jīng)標(biāo)注的標(biāo)簽序列,動作空間是由當(dāng)前詞所有可能的標(biāo)簽所構(gòu)成的集合.提出了一種可以按任何順序來預(yù)測序列標(biāo)簽的算法.首先預(yù)測置信度更高的標(biāo)簽,以豐富上下文信息,幫助減少在預(yù)測置信度較低的標(biāo)簽時的歧義.該模型在保證不增加復(fù)雜度的前提下,提升了命名實(shí)體識別的性能.Lao等人[109]提出一種利用強(qiáng)化學(xué)習(xí)進(jìn)行命名實(shí)體識別的算法MM-NER(MCTS enhanced MDP for NER).在AlphaGoZero方法的啟發(fā)下,MM-NER是一種基于策略梯度的強(qiáng)化學(xué)習(xí)算法,并將蒙特卡洛樹搜索MCTS用于對策略提升,進(jìn)行命名實(shí)體識別的模型.狀態(tài)包括當(dāng)前詞的上下文和已經(jīng)標(biāo)注的標(biāo)簽序列.動作空間由當(dāng)前詞的所有可能標(biāo)簽構(gòu)成的集合.具體來說,使用了2個LSTM網(wǎng)絡(luò)分別編碼上下文,通過將LSTM網(wǎng)絡(luò)的輸出拼接起來輸入到全連接層MLP得到狀態(tài)表示.在訓(xùn)練過程中,MM-NER利用策略網(wǎng)絡(luò)的輸出和價值函數(shù)來指導(dǎo)蒙特卡洛樹的搜索,最后輸出一個更準(zhǔn)確的搜索策略.不同于直接利用策略函數(shù)進(jìn)行序列標(biāo)注,MM-NER利用MCTS在生成的策略函數(shù)和值函數(shù)的指導(dǎo)下進(jìn)行探索,降低命名實(shí)體識別任務(wù)的時間復(fù)雜度和模型陷入局部最優(yōu)解的可能性,并取得了較好性能.
關(guān)系可以定義為實(shí)體之間或?qū)嶓w與屬性之間的某種聯(lián)系,關(guān)系抽取就是自動識別實(shí)體(或?qū)嶓w與屬性)之間具有的某種語義關(guān)系.現(xiàn)有關(guān)系抽取方法大多基于神經(jīng)網(wǎng)絡(luò)模型[46-54],通過監(jiān)督學(xué)習(xí)或遠(yuǎn)程監(jiān)督學(xué)習(xí)來完成抽取任務(wù).為了降低標(biāo)注成本,學(xué)者們提出使用遠(yuǎn)程監(jiān)督的方法.遠(yuǎn)程監(jiān)督方法雖然有效,但在訓(xùn)練樣本中引入了噪聲[15].強(qiáng)化學(xué)習(xí)方法可以通過知識引導(dǎo)來避免噪聲數(shù)據(jù)帶來的影響.基于強(qiáng)化學(xué)習(xí)的關(guān)系抽取方法主要可以分為3類:1)使用強(qiáng)化學(xué)習(xí)模型對抽取結(jié)果進(jìn)行知識驗(yàn)證;2)利用強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練樣本選擇;3)將實(shí)體識別與關(guān)系抽取2個任務(wù)聯(lián)合建模,互為增強(qiáng).
知識圖譜中的實(shí)體屬性往往是嘈雜、不完整的,甚至是缺失的.例如,知識庫DBpedia中有近一半的實(shí)體包含的關(guān)系(包括屬性)少于5條[110].針對關(guān)系抽取任務(wù)中的屬性抽取,Liu等人[111]提出利用強(qiáng)化學(xué)習(xí)方法為開放域新實(shí)體補(bǔ)充可靠屬性關(guān)系的算法RL-KG.為了有效地過濾文章不正確或信息提取系統(tǒng)錯誤而產(chǎn)生的嘈雜答案,Liu等人[111]提出了一個知識引導(dǎo)的強(qiáng)化學(xué)習(xí)框架,來進(jìn)行開放域?qū)傩蕴崛?在該框架中,屬性抽取任務(wù)首先利用模板轉(zhuǎn)化為搜索引擎的搜索問題.除信息搜索系統(tǒng)為強(qiáng)化學(xué)習(xí)智能體提供的候選答案外,知識庫中的相關(guān)知識也被強(qiáng)化學(xué)習(xí)智能體用作背景知識,輔助決策.屬性提取任務(wù)被建模為Markov決策過程.首先,給定2個候選答案,人為指定第1個作為當(dāng)前最佳答案,狀態(tài)包括由搜索引擎給出的2個答案的置信度、2個答案與知識庫給出的相關(guān)知識的相似度、2個答案間的相似度.動作包括停止搜索、保留當(dāng)前的最佳答案并繼續(xù)搜索、替換當(dāng)前的最佳答案并繼續(xù)搜索.采用基于價值的DQN算法,根據(jù)當(dāng)前狀態(tài)對動作價值進(jìn)行估計.該算法框架可以適用于不同的信息提取系統(tǒng),并且通過知識的引導(dǎo)可以顯著提高屬性抽取的性能.
現(xiàn)有基于遠(yuǎn)程監(jiān)督的關(guān)系抽取模型假設(shè)只要同時包含2個實(shí)體的句子,都在描述同一種關(guān)系.這一假設(shè)會產(chǎn)生很多錯誤標(biāo)簽,需要通過一些樣本標(biāo)簽過濾方法,提升訓(xùn)練樣本質(zhì)量.例如,利用深度強(qiáng)化學(xué)習(xí)策略來選擇正確的句子作為訓(xùn)練數(shù)據(jù),盡量避免錯誤標(biāo)簽對模型的影響[112-114].Feng等人[112]和Qin等人[113]利用強(qiáng)化學(xué)習(xí)智能體作為樣本實(shí)例選擇器,選擇正確的訓(xùn)練樣本.其中,F(xiàn)eng等人[112]提出了一種新的關(guān)系抽取模型CNN+RL,如圖5所示,該算法由實(shí)例選擇器、關(guān)系分類器2部分構(gòu)成.CNN+RL采用經(jīng)典的基于策略的REINFORCE算法來訓(xùn)練實(shí)例選擇器,目的是盡量選擇正確的句子進(jìn)行學(xué)習(xí).給定一個由若干條句子組成的句子包,狀態(tài)包括當(dāng)前句子、已經(jīng)選擇的句子和實(shí)體對,動作被定義為是否選擇當(dāng)前句子.實(shí)例選擇器對句子進(jìn)行選擇,然后使用所選擇的句子訓(xùn)練關(guān)系分類器.關(guān)系分類器應(yīng)用CNN模型獲得句子的抽象表示,并基于句子級的關(guān)系分類概率計算包中所選句子的聯(lián)合概率的幾何平均數(shù),以此作為獎勵傳遞給實(shí)例選擇器,通過計算梯度更新策略網(wǎng)絡(luò)參數(shù).與Feng等人的工作類似,Qin等人[113]提出了一種噪音訓(xùn)練數(shù)據(jù)指示器,通過指示器能夠自動識別出標(biāo)記錯誤的實(shí)例并對其進(jìn)行過濾.獎勵設(shè)計與Feng等人不同,F(xiàn)eng等人的獎勵是從關(guān)系分類概率中計算得到,而該模型的獎勵是直接通過關(guān)系分類器的分類效果,即F1值的變化計算得到.分類效果度量值F1的變化直觀地反映了獎勵,這為獎勵函數(shù)的設(shè)計提供了一種新的思路.不同于利用經(jīng)典分類方法完成關(guān)系分類的工作,Zeng等人[114]利用強(qiáng)化學(xué)習(xí)智能體直接進(jìn)行關(guān)系抽取,提出了一種將遠(yuǎn)程監(jiān)督與強(qiáng)化學(xué)習(xí)相結(jié)合來訓(xùn)練關(guān)系抽取器的模型PE+REINF(position enhanced REINFORCE).模型首先利用PCNN對句子進(jìn)行特征提取作為智能體的狀態(tài);其次,定義所有包含同一個實(shí)體對的句子集合為一個句子包.關(guān)系抽取器采用基于策略的REINFORCE算法,讀取包中的句子,預(yù)測其關(guān)系作為動作.根據(jù)包中大多數(shù)句子的關(guān)系預(yù)測包的關(guān)系標(biāo)簽,并與真實(shí)包的關(guān)系標(biāo)簽進(jìn)行比較,以最大化長期獎勵.PE+REINF使用長期獎勵來訓(xùn)練關(guān)系抽取器,利用PCNN對狀態(tài)進(jìn)行編碼時融入位置因素可以提高關(guān)系抽取準(zhǔn)確性.
Fig. 5 Framework of RE based on reinforcement learning[112]圖5 基于強(qiáng)化學(xué)習(xí)的RE算法框架圖[112]
大多數(shù)關(guān)系抽取方法是將所有實(shí)體識別后再確定關(guān)系類型.與這類方法不同,Takanobu等人[115]提出了一種關(guān)系實(shí)體聯(lián)合抽取算法HRL-RE,使用分層強(qiáng)化學(xué)習(xí)框架來增強(qiáng)實(shí)體抽取與關(guān)系檢測之間的交互.整個抽取過程分為2層級強(qiáng)化學(xué)習(xí)模型,每層均采用基于策略的強(qiáng)化學(xué)習(xí)算法,分別用于關(guān)系檢測和實(shí)體抽取.給定一條關(guān)系和實(shí)體均待標(biāo)注的句子,首先,高層級強(qiáng)化學(xué)習(xí)智能體依據(jù)高層級狀態(tài)依次對句子中的每個單詞進(jìn)行關(guān)系標(biāo)注,其中,高層級狀態(tài)由Bi-LSTM編碼的當(dāng)前隱層向量、關(guān)系類型向量、上一時刻狀態(tài)構(gòu)成.當(dāng)某個單詞被檢測為某一關(guān)系的觸發(fā)詞后,就將關(guān)系信息傳遞到低層級強(qiáng)化學(xué)習(xí)智能體.低層級智能體依據(jù)低層級狀態(tài)和已標(biāo)注的關(guān)系類型對句子進(jìn)行NER序列標(biāo)注,其中,低層狀態(tài)由Bi-LSTM編碼的當(dāng)前隱層向量、實(shí)體類型向量、上一時刻狀態(tài)、由MLP編碼的高層級狀態(tài)向量構(gòu)成.句子結(jié)束時,智能體的控制權(quán)將移返回給高層級強(qiáng)化學(xué)習(xí)智能體,以對下個詞進(jìn)行關(guān)系檢測.在進(jìn)行重疊關(guān)系(一個實(shí)體同時存在于2個或以上關(guān)系中或同一實(shí)體對存在2個或以上關(guān)系)抽取時,可以基于不同關(guān)系類型為同一單詞分配不同實(shí)體標(biāo)簽,增強(qiáng)關(guān)系檢測和實(shí)體抽取的交互,提高關(guān)系抽取的性能.
知識圖譜通常是不完整的.知識推理是指根據(jù)知識圖譜中已有的知識,采用某些方法,推理出新的知識,包括實(shí)體預(yù)測和關(guān)系預(yù)測.傳統(tǒng)的推理方法,例如基于規(guī)則的推理[55-56]會引入一些人類先驗(yàn)知識,專家依賴度過高.目前,大部分知識推理是基于神經(jīng)網(wǎng)絡(luò)模型[58-64].神經(jīng)網(wǎng)絡(luò)模型通常更關(guān)注于推理結(jié)果,模型可解釋性、可信賴性有待進(jìn)一步提升.
除基于規(guī)則、基于神經(jīng)網(wǎng)絡(luò)的推理方法外,知識推理問題也可以建模成知識圖譜中路徑查找問題,其中節(jié)點(diǎn)代表實(shí)體,關(guān)系代表邊.強(qiáng)化學(xué)習(xí)智能體根據(jù)當(dāng)前環(huán)境(所在節(jié)點(diǎn))通過策略學(xué)習(xí)或價值函數(shù)學(xué)習(xí),來決定下一步的行動(通常為關(guān)系或(關(guān)系,實(shí)體)),從而完成推理任務(wù).因此,基于強(qiáng)化學(xué)習(xí)的知識圖譜推理在學(xué)術(shù)界和工業(yè)界得到廣泛研究.基于強(qiáng)化學(xué)習(xí)的知識圖譜推理方法依據(jù)智能體的個數(shù)可以分為單智能體推理方法、多智能體推理方法.多智能體推理方法指至少擁有2個智能體的基于強(qiáng)化學(xué)習(xí)的知識推理方法.多智能體之間存在著一定的關(guān)系,如合作、競爭或同時存在競爭與合作的關(guān)系.我們將分別從單智能體推理、多智能體推理2個方面進(jìn)行詳細(xì)介紹.
3.3.1 單智能體推理
單智能體推理指利用一個強(qiáng)化學(xué)習(xí)智能體進(jìn)行推理的一類任務(wù).問題的關(guān)鍵是構(gòu)造合適的獎勵函數(shù)以及用合適的方式對狀態(tài)進(jìn)行表示.
1) 獎勵函數(shù)設(shè)計
通常,強(qiáng)化學(xué)習(xí)方法對獎勵函數(shù)都非常敏感,獎勵值的微小變化可能會導(dǎo)致推理性能的波動,因此獎勵函數(shù)的設(shè)計非常重要.
DeepPath[116]是將強(qiáng)化學(xué)習(xí)應(yīng)用于知識圖譜推理的研究工作,利用強(qiáng)化學(xué)習(xí)解決大規(guī)模知識圖譜中多跳關(guān)系路徑推理問題(實(shí)體間除存在直接關(guān)系外還存在間接關(guān)系),為知識圖譜推理提供了一種新思路.DeepPath利用經(jīng)典的基于翻譯的知識圖譜表示學(xué)習(xí)模型TransE或TransH得到實(shí)體和關(guān)系的向量表示.狀態(tài)向量由當(dāng)前節(jié)點(diǎn)表示向量、目標(biāo)節(jié)點(diǎn)與當(dāng)前節(jié)點(diǎn)表示向量的差構(gòu)成.獎勵設(shè)計考慮了可能影響智能體探索路徑質(zhì)量的3種因素:準(zhǔn)確性、路徑長度、路徑多樣性,人工設(shè)定獎勵函數(shù)為三者的加權(quán)平均.DeepPath采用基于策略的REINFORCE算法,使用一個全連接神經(jīng)網(wǎng)絡(luò)來參數(shù)化策略函數(shù)π(a|s,θ),將狀態(tài)映射到動作(關(guān)系)對應(yīng)的概率分布中.訓(xùn)練智能體在知識庫中尋找推理路徑.與基于隨機(jī)游走的路徑查找模型相比,DeepPath可以控制路徑質(zhì)量.Das等人[117]提出MINERVA(meandering in networks of entities to reach verisimilar answers).狀態(tài)由查詢節(jié)點(diǎn)、要查詢的關(guān)系、當(dāng)前所在節(jié)點(diǎn)、查詢答案構(gòu)成.動作空間由當(dāng)前節(jié)點(diǎn)所有出邊構(gòu)成.利用基于策略的REINFORCE算法在知識圖譜中進(jìn)行搜索,以找到答案路徑.在實(shí)現(xiàn)過程中,還為每個節(jié)點(diǎn)加入了自環(huán)以及反向關(guān)系,確保在找到正確答案后智能體可以采取“停止”操作以及撤消一個潛在的錯誤決策.與DeepPath不同的是,MINERVA設(shè)計了一個隨機(jī)歷史依賴策略,由狀態(tài)和動作構(gòu)成的歷史序列通過LSTM進(jìn)行編碼.策略網(wǎng)絡(luò)采用2層全連接網(wǎng)絡(luò),輸入為LSTM當(dāng)前時間步隱層編碼、當(dāng)前節(jié)點(diǎn)表示、查詢節(jié)點(diǎn)表示和關(guān)系向量,輸出為可能的動作(關(guān)系)的概率分布.與DeepPath算法相比,推理性能得到了提升.但MINERVA假設(shè)推理路徑一定存在,因此MINERVA無法應(yīng)對當(dāng)推理路徑不存在的情況.
針對獎勵稀疏的問題,Shen等人[118]設(shè)計了一個名為M-Walk的智能體,它由一個深度循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)和蒙特卡洛樹搜索(Monte Carlo tree search, MCTS)組成.首先,利用RNN編碼歷史路徑信息,將歷史信息、當(dāng)前節(jié)點(diǎn)的鄰居信息、當(dāng)前節(jié)相連接邊的信息作為狀態(tài),動作空間由當(dāng)前節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)構(gòu)成.為了解決獎勵稀疏的問題,M-Walk采用改進(jìn)的蒙特卡洛樹搜索來生成路徑,以產(chǎn)生更多正獎勵的路徑.由于生成的路徑所采用的策略不同于原始策略,因此采用Q-learning算法進(jìn)行Q值計算,進(jìn)而更新策略參數(shù),在MCTS路徑生成和策略改進(jìn)之間交替訓(xùn)練,以迭代地改進(jìn)策略.基于MCTS的M-Walk能夠產(chǎn)生具有更多積極獎勵的路徑,以緩解在圖中游走的獎勵稀疏的問題,提高推理的準(zhǔn)確性.
很多強(qiáng)化學(xué)習(xí)推理算法采用硬獎勵設(shè)計,即如果預(yù)測與真實(shí)數(shù)據(jù)一致則獎勵記為1,否則,記為0或-1.然而,實(shí)際中針對不同的數(shù)據(jù)集設(shè)計合理獎勵函數(shù),可以獲得更好的性能.上述工作[116-118]都在獎勵方面進(jìn)行了相應(yīng)設(shè)計.除上述工作,Godin等人[119]在知識圖譜上使用強(qiáng)化學(xué)習(xí)進(jìn)行知識問答,并指出現(xiàn)有基于強(qiáng)化學(xué)習(xí)的推理在問答任務(wù)上的獎勵設(shè)計的局限性,即簡單地返回正確或不正確的答案是不全面的,還應(yīng)該允許智能體對于不切實(shí)際的問題不予回答.針對這一問題,Godin等人[119]對智能體獎勵進(jìn)行改進(jìn),將獎勵分為3種類型:對正確答案給予肯定獎勵;對不正確答案給予否定獎勵;對不回答問題給予中立獎勵0.允許模型不回答問題.使用基于策略的REINFORCE算法,通過在3種回答可能性之間進(jìn)行權(quán)衡,以獲得最大累計獎勵.此外,因?yàn)樵试S模型不回答,因此引入了新的性能指標(biāo)回答率、精度以及二者的結(jié)合指標(biāo)QA評分(可視為F1評價指標(biāo)的變體)來評價智能體的性能.并顯著提高了回答的準(zhǔn)確度.Lin等人[120-121]對智能體獎勵進(jìn)行改進(jìn),提出了不使用基于智能體是否達(dá)到正確目標(biāo)節(jié)點(diǎn)的二進(jìn)制獎勵,而是采用了一種軟獎勵機(jī)制,即利用基于嵌入的預(yù)訓(xùn)練模型DistMult[68]或ComplEx[69]的節(jié)點(diǎn)表示來計算正確目標(biāo)節(jié)點(diǎn)與最終節(jié)點(diǎn)的相似性來作為無法確定正確性的目標(biāo)實(shí)體的軟獎勵.此外,文獻(xiàn)[120]為避免虛假路徑誤導(dǎo)模型,采用了一種執(zhí)行動作退出機(jī)制,即在根據(jù)狀態(tài)計算動作概率后,對每個動作應(yīng)用伯努利分布采樣,確定其是否被“屏蔽”,以便對不同的路徑進(jìn)行有效的探索.通過對獎勵函數(shù)的設(shè)計和對搜索空間進(jìn)行更徹底的探索(引入動作退出機(jī)制)提高推理性能.
不同于上述人工設(shè)計獎勵的方法,Li等人[122]提出了一種自適應(yīng)的強(qiáng)化學(xué)習(xí)算法DIVINE(deep inference via imitating non-human experts),對于不同的數(shù)據(jù)集,可以自動調(diào)整獎勵函數(shù)以逼近最佳性能,從而消除了額外的人工干預(yù).DIVINE模型包括一個生成對抗推理器和示例采樣器.具體地,生成對抗推理器中的生成器是一個基于策略梯度的智能體,判別器是一個自適應(yīng)的獎勵函數(shù).示例采樣器用于自動地從知識圖譜中抽取模仿示例.生成器用于生成推理路徑,判別器被用來衡量生成的推理路徑和模仿示例之間語義相似度,使用語義相似度來對生成器進(jìn)行更新.判別器(自適應(yīng)的獎勵函數(shù))從整體上對推理示例進(jìn)行模仿,而不僅局限于其中包含的狀態(tài)-動作對,從而引導(dǎo)智能體可以找到更多樣化的路徑,提升了推理準(zhǔn)確性.大多數(shù)強(qiáng)化學(xué)習(xí)推理工作并沒有考慮到為圖中相同位置分配不同的獎勵,例如,當(dāng)智能體從不同的路徑到達(dá)特定的位置時,都會以相同概率選擇下一個動作,推理路徑單一.針對這一問題,Tiwari等人[123]提出一種距離感知獎勵的強(qiáng)化學(xué)習(xí)算法DAPath(distance-aware path),可以根據(jù)圖中某一特定位置分配不同的獎勵.人們通常認(rèn)為在靠近目標(biāo)實(shí)體的位置上采取的行動比之前采取的行動影響更大.基于這一假設(shè),獎勵由距離感知因子和全局獎勵(1或-1)的乘積計算.距離感知因子考慮了路徑長度和當(dāng)前節(jié)點(diǎn)的位置2部分因素.當(dāng)前節(jié)點(diǎn)越靠近目標(biāo)實(shí)體,距離感知因子越大;當(dāng)節(jié)點(diǎn)位置固定,路徑長度越短,距離感知因子越大.模型中的策略網(wǎng)絡(luò)使用圖自注意力機(jī)制(graph self-attention, GSA)和門控循環(huán)單元(gate recurrent unit, GRU)的記憶機(jī)制,能夠捕捉到路徑鄰域內(nèi)更全面的實(shí)體和關(guān)系信息.通過應(yīng)用距離感知因子,模型能夠挖掘更可靠的路徑以及發(fā)現(xiàn)一些常識性的推理路徑.
2) 狀態(tài)設(shè)計
針對強(qiáng)化學(xué)習(xí)的狀態(tài)設(shè)計,以往的研究表明[124-125],融入節(jié)點(diǎn)類型信息有助于提高推理的準(zhǔn)確度.針對現(xiàn)有強(qiáng)化學(xué)習(xí)沒有對節(jié)點(diǎn)類型信息和節(jié)點(diǎn)在圖中的拓?fù)浣Y(jié)構(gòu)建模的問題,Saebi等人[126]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)類型增強(qiáng)的強(qiáng)化學(xué)習(xí)算法(type enhanced RL-GNN, TE RL-GNN).模型首先采用mean/max pooling算法計算融合了節(jié)點(diǎn)類型信息的節(jié)點(diǎn)表示.其次,利用GCN考慮知識圖譜中關(guān)系和拓?fù)浣Y(jié)構(gòu)信息得到更豐富的節(jié)點(diǎn)表示.狀態(tài)包括給定的查詢實(shí)體及關(guān)系、智能體當(dāng)前所在實(shí)體以及智能體所遍歷的實(shí)體和關(guān)系的歷史軌跡信息,使用LSTM編碼.動作被定義為當(dāng)前節(jié)點(diǎn)及其所有鄰居節(jié)點(diǎn).最后利用基于策略的強(qiáng)化學(xué)習(xí)算法REINFORCE進(jìn)行學(xué)習(xí).在強(qiáng)化學(xué)習(xí)狀態(tài)表示中引入節(jié)點(diǎn)類型信息,有助于豐富節(jié)點(diǎn)表示、提升推理能力.
對于不同的查詢關(guān)系,為了使智能體更多地關(guān)注與查詢關(guān)系密切相關(guān)的關(guān)系和鄰居信息,Wang等人[127]和Li等人[128]利用了圖注意力機(jī)制來編碼節(jié)點(diǎn)的鄰居信息,分別提出了2種基于強(qiáng)化學(xué)習(xí)的推理算法AttnPath和MemoryPath.智能體當(dāng)前的狀態(tài)由當(dāng)前所在實(shí)體信息、歷史信息、當(dāng)前實(shí)體鄰居節(jié)點(diǎn)信息3部分組成.2種算法都綜合利用預(yù)訓(xùn)練模型TransD,LSTM和圖注意力.其中,使用TransD來計算實(shí)體向量表示,利用LSTM編碼歷史信息,利用圖注意力網(wǎng)絡(luò)編碼節(jié)點(diǎn)的鄰居信息.動作與獎勵的定義與Lin等人[120]類似,另外添加了對于無效動作的懲罰機(jī)制,即無效動作獎勵為-1.通過基于策略的強(qiáng)化學(xué)習(xí)算法REINFORCE控制節(jié)點(diǎn)(動作)選擇.在狀態(tài)設(shè)計中引入注意力機(jī)制,使得智能體更關(guān)注與查詢關(guān)系密切相關(guān)的實(shí)體與關(guān)系,信息懲罰機(jī)制的引入能夠避免智能體在毫無意義的狀態(tài)下停滯不前,提高推理效率.Wang等人[129]提出一種基于自注意力的深度強(qiáng)化學(xué)習(xí)框架ADRL(attention-based deep reinforcement learning).首先,利用CNN和LSTM來編碼實(shí)體信息和智能體歷史路徑信息作為狀態(tài).其次,由于知識圖譜中實(shí)體之間存在豐富的語義信息,ADRL設(shè)計了一個基于自注意力機(jī)制的實(shí)體間的關(guān)系模塊,依據(jù)這些實(shí)體和實(shí)體間關(guān)系的重要性來指導(dǎo)策略網(wǎng)絡(luò)學(xué)習(xí).LSTM 和 注意力機(jī)制相結(jié)合,提高了推理的可解釋性.
針對現(xiàn)有方法假設(shè)實(shí)體-關(guān)系表示遵循單點(diǎn)分布,但事實(shí)上,不同實(shí)體與關(guān)系可能包含不同的不確定性的問題,Wan等人[130]提出了一個貝葉斯多跳推理范式GaussianPath,旨在捕捉推理路徑的不確定性.GaussianPath使用高斯分布來表示一個實(shí)體或關(guān)系.通過訓(xùn)練智能體,高斯分布的后驗(yàn)概率將會收斂,從而減少實(shí)體或關(guān)系的不確定性.由于知識圖譜中的狀態(tài)-動作組合空間過大,難以直接得到Q函數(shù).GaussianPath使用Bayesian LSTM編碼當(dāng)前狀態(tài),使用了貝葉斯線性回歸層來近似Q函數(shù).通過知識圖譜補(bǔ)全和實(shí)體鏈接等任務(wù)來驗(yàn)證推理性能,實(shí)驗(yàn)結(jié)果表明GaussianPath可以利用預(yù)先訓(xùn)練的高斯分布形式的先驗(yàn)知識,加速訓(xùn)練的收斂速度,提升推理結(jié)果的準(zhǔn)確性.
3.3.2 多智能體推理
多智能體推理是利用2個或以上的智能體進(jìn)行推理的一類工作.智能體之間可以存在合作、競爭或同時存在合作與競爭的關(guān)系.相比于單智能體強(qiáng)化學(xué)習(xí),多智能體強(qiáng)化學(xué)習(xí)具有易于實(shí)現(xiàn)和易于任務(wù)分配的優(yōu)點(diǎn)[131].
Fig. 6 MARLPaR reasoning method based on multi-agent reinforcement learning[132]圖6 多智能體強(qiáng)化學(xué)習(xí)推理方法MARLPaR[132]
不同于Li等人[132]的工作,受博弈論的啟發(fā),Hildebrandt等人[133]提出了一種基于辯論動力學(xué)的知識圖譜自動推理算法R2D2(reveal relations using debate dynamics).其主要思想是將知識圖譜補(bǔ)全問題轉(zhuǎn)化為2個強(qiáng)化學(xué)習(xí)智能體之間的博弈過程.模型由2個智能體和1個判別器構(gòu)成.具體來看,對于待查詢?nèi)M,2個智能體分別尋找可以證明三元組為真和為假的證據(jù),智能體間相互對立.判別器為一個二進(jìn)制分類器,用于整合所有證據(jù),并計算最終的置信概率以及預(yù)測三元組最終得分.模型采用交替訓(xùn)練的方式,每一次僅訓(xùn)練智能體或判別器,以最大化累積獎勵的期望.與其他黑箱方法相比,這2個智能體之間的辯論博弈不僅提升了推理性能還為知識圖譜推理提供了可解釋的依據(jù).
大多數(shù)傳統(tǒng)方法假設(shè)目標(biāo)實(shí)體和源實(shí)體之間的距離很短.然而,在真實(shí)知識圖譜上并非如此.Zhang等人[134]在推理中引入了外部語料庫,提出了一個基于知識圖譜和外部語料庫的協(xié)同推理框架.模型由推理智能體、信息提取智能體構(gòu)成.推理智能體根據(jù)當(dāng)前節(jié)點(diǎn)狀態(tài)選擇下一步的動作.信息提取智能體對語料庫的知識進(jìn)行排序,將最高排名的三元組加入知識圖譜中.設(shè)計了4種獎勵機(jī)制:1)完全合作,成功完成任務(wù)后2個智能體可獲得相同的獎勵;2)合作,但信息提取智能體的獎勵取決于推理智能體是否采納其建議;3)軟獎勵機(jī)制,即使代理沒有得到最終答案,也會分配軟獎勵,獎勵通過輸出實(shí)體和答案實(shí)體之間向量表示的余弦相似度計算得到;4)博弈,每個智能體都希望將其成本降到最低.推理智能體的目標(biāo)是最小化其推理跳數(shù).信息提取智能體的目標(biāo)則是最小化其提案被推理智能體拒絕的次數(shù).針對前3種獎勵策略與第4種獎勵策略,分別采用遺忘算法(forget algorithm)和響應(yīng)目標(biāo)對手算法(respond to target opponents algorithm)來學(xué)習(xí)策略網(wǎng)絡(luò).該方法為多智能體強(qiáng)化學(xué)習(xí)推理提供了一個通用結(jié)構(gòu)框架,并且能夠捕獲實(shí)體之間的長距離關(guān)系,適用于大規(guī)模知識圖譜推理任務(wù).
知識圖譜在表示結(jié)構(gòu)化數(shù)據(jù)方面非常有效,但這種三元組的基本符號性質(zhì)使知識圖譜難以操作[135].為了解決這一問題,提出了知識表示學(xué)習(xí)[1].知識表示學(xué)習(xí)旨在將知識圖譜豐富的結(jié)構(gòu)和語義信息嵌入到低維節(jié)點(diǎn)表示中.目前,常用的知識表示學(xué)習(xí)方法[1]有基于翻譯模型Trans系列的方法[69-71]、基于語義匹配的方法[68-69]、基于神經(jīng)網(wǎng)絡(luò)的方法[71-76].基于翻譯模型的方法簡單易于理解,但是基于翻譯模型的方法不能處理復(fù)雜關(guān)系,模型復(fù)雜度較高.基于語義匹配的方法需要大量參數(shù)且復(fù)雜度較高,限制了其在大規(guī)模稀疏知識圖譜上的應(yīng)用.基于神經(jīng)網(wǎng)絡(luò)的方法雖然建模能力較強(qiáng),但是結(jié)果缺乏一定的可解釋性.基于圖的隨機(jī)游走模型[136-138]也是用于知識表示學(xué)習(xí)的一類方法.這類方法依賴于人工設(shè)置元路徑來捕獲圖的語義信息.然而,人工設(shè)置元路徑需要豐富的專家領(lǐng)域知識,對于大規(guī)模、復(fù)雜且語義豐富的知識圖譜來說,是一件充滿挑戰(zhàn)的任務(wù).
Zhong等人[139]針對需要人工設(shè)定元路徑的問題,提出了一種基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)的算法(reinforcement learning based on heterogeneous graph neural networks, RL-HGNN).模型由2部分構(gòu)成,即強(qiáng)化學(xué)習(xí)智能體模塊和圖神經(jīng)網(wǎng)絡(luò)模塊.強(qiáng)化學(xué)習(xí)智能體模塊利用基于價值的DQN算法,學(xué)習(xí)根據(jù)當(dāng)前狀態(tài)選擇動作的策略,生成路徑實(shí)例;圖神經(jīng)網(wǎng)絡(luò)模塊對生成的路徑實(shí)例進(jìn)行信息聚合以學(xué)習(xí)節(jié)點(diǎn)表示.并將更新后的節(jié)點(diǎn)表示應(yīng)用于下游任務(wù)中,利用下游任務(wù)的性能改進(jìn)計算獎勵,對動作值函數(shù)的估計Q進(jìn)行優(yōu)化,提高生成元路徑的質(zhì)量和效率.但是文獻(xiàn)[139]沒有全面考慮一個實(shí)體可能屬于多個類型,例如Obama:{Writer,President,Activist,Person},而這些信息可以提供對圖中節(jié)點(diǎn)之間關(guān)系的豐富語義解釋.因此,Wan等人[140]提出基于強(qiáng)化學(xué)習(xí)的元路徑發(fā)現(xiàn)算法(meta-path discovery with reinforcement learning, MPDRL).模型包含2部分:路徑實(shí)例生成和元路徑生成.具體來看,MPDRL利用經(jīng)典的策略梯度REINFORCE算法,通過GRU編碼歷史信息.策略網(wǎng)絡(luò)采用2層全連接網(wǎng)絡(luò),輸入為GRU當(dāng)前時間步隱層編碼、當(dāng)前狀態(tài)信息,輸出為可能的動作(關(guān)系)的概率分布,從而推斷從源節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的路徑,生成大量路徑實(shí)例.其次,在路徑實(shí)例基礎(chǔ)上,采用LCA(lowest common ancestor)算法,為節(jié)點(diǎn)分配實(shí)體類型,自動生成元路徑.MPDRL可以在大規(guī)模的異質(zhì)信息網(wǎng)絡(luò)中,自動挖掘出被人類專家忽略的有用元路徑.將這些元路徑應(yīng)用于下游任務(wù)(鏈路預(yù)測)中,實(shí)驗(yàn)表明將這些元路徑應(yīng)用于下游任務(wù)中,顯著提高了下游任務(wù)的性能.
知識圖譜中的知識來源廣泛,具有多源、異構(gòu)等特點(diǎn),需要構(gòu)建統(tǒng)一的大規(guī)模知識庫來支撐推理和理解任務(wù).知識融合研究如何將來自多個來源的關(guān)于同一個實(shí)體或概念的描述信息融合起來[11],形成高質(zhì)量統(tǒng)一的知識圖譜的一類任務(wù).通常,知識融合包括本體匹配(ontology matching)、本體對齊(ontology alignment)、實(shí)體鏈接(entity linking)、實(shí)體消歧(entity disambiguation)、實(shí)體對齊(entity alignment)等.現(xiàn)有的知識融合方法還存在受噪聲數(shù)據(jù)以及對齊種子對數(shù)量的限制[141],或者未能充分建模實(shí)體之間的相互依賴關(guān)系等問題.
為了充分建模實(shí)體間的相互依賴關(guān)系,F(xiàn)ang等人[142]將實(shí)體鏈接任務(wù)建模成一個序列決策問題,利用一篇文章或一個句子前面提到的實(shí)體提供的信息來消除后面提到的實(shí)體歧義,提出了一個端到端的強(qiáng)化學(xué)習(xí)模型RLEL.如圖7所示,模型由3部分組成,局部編碼器、全局編碼器、實(shí)體選擇器.局部編碼器編碼指稱和候選實(shí)體的局部特征,以獲得潛在向量表示.具體地,對于每個指稱及其候選實(shí)體,局部編碼器先利用LSTM對指稱的上下文進(jìn)行編碼.再利用LSTM編碼候選實(shí)體的描述信息與預(yù)訓(xùn)練得到的實(shí)體嵌入拼接.為了豐富詞匯和統(tǒng)計特征,對包括實(shí)體的流行度、實(shí)體描述與提及上下文之間的編輯距離等特征進(jìn)行編碼.全局編碼器由一個LSTM構(gòu)成,對指稱和時刻0~t所選擇的實(shí)體進(jìn)行編碼,輸出歷史決策信息.狀態(tài)由局部編碼器得到的當(dāng)前信息和全局編碼器得到的歷史決策信息組成.動作空間由當(dāng)前指稱所指向的所有可能的目標(biāo)實(shí)體構(gòu)成.實(shí)體選擇器采用經(jīng)典的策略梯度REINFORCE算法,從候選實(shí)體集中選擇目標(biāo)實(shí)體.實(shí)體選擇器的策略網(wǎng)絡(luò)不僅考慮當(dāng)前指稱及候選實(shí)體,還充分利用先前相關(guān)實(shí)體的信息來消除歧義,并探索了當(dāng)前選擇對后續(xù)決策的長期影響,從全局的角度做出決策,避免錯誤傳播,提升了實(shí)體鏈接的效果.同樣Zeng等人[143]也利用強(qiáng)化學(xué)習(xí)進(jìn)行序列決策的思想來建模實(shí)體鏈接問題,提出了具有特征框架的集體實(shí)體對齊(collective entity alignment with features framework, CEAFF).CEAFF采用Actor-Critic算法.考慮到實(shí)體鏈接中的決策連貫性(依據(jù)相似度最大值匹配)和排他性(1對1約束),狀態(tài)由局部相似性、排他性和連貫性3部分構(gòu)成,局部相似性考慮了當(dāng)前源實(shí)體與候選目標(biāo)實(shí)體之間的相似性,排他性與目標(biāo)實(shí)體相關(guān),利用one-hot向量表示目標(biāo)實(shí)體是否已被選擇,連貫性考慮到當(dāng)前候選目標(biāo)實(shí)體和前面選擇的目標(biāo)實(shí)體之間的相關(guān)性.動作空間由當(dāng)前源實(shí)體所對應(yīng)的所有目標(biāo)實(shí)體構(gòu)成.Actor與Critic均采用2層MLP,模型通過充分考慮實(shí)體之間的相互依賴關(guān)系提升實(shí)體對齊任務(wù)的性能.
Fig. 7 Entity linking model RLEL based on reinforcement learning[142]圖7 基于強(qiáng)化學(xué)習(xí)實(shí)體鏈接模型RLEL[142]
知識圖譜可以為各領(lǐng)域提供豐富的信息和先驗(yàn)知識,強(qiáng)化學(xué)習(xí)方法擁有強(qiáng)大的探索能力和自主學(xué)習(xí)能力.基于強(qiáng)化學(xué)習(xí)的知識圖譜相關(guān)技術(shù)能夠降低噪聲數(shù)據(jù)的干擾、自動選擇高質(zhì)量的樣本數(shù)據(jù)、更好地理解環(huán)境和提供可信解釋.因此,基于強(qiáng)化學(xué)習(xí)的知識圖譜在很多領(lǐng)域得到應(yīng)用.強(qiáng)化學(xué)習(xí)與知識圖譜的結(jié)合,從結(jié)合方式上來看,可以分為2類.1)將實(shí)際問題建模為包含多種節(jié)點(diǎn)類型和關(guān)系類型的知識圖譜,強(qiáng)化學(xué)習(xí)在知識圖譜上進(jìn)行探索學(xué)習(xí)策略.2)將知識圖譜作為外部信息引入強(qiáng)化學(xué)習(xí)框架中,用來指導(dǎo)強(qiáng)化學(xué)習(xí)的探索過程.我們將介紹如何將知識圖譜與強(qiáng)化學(xué)習(xí)結(jié)合解決實(shí)際應(yīng)用中的問題,包括智能推薦、對話系統(tǒng)、游戲攻略、生物醫(yī)藥、金融、網(wǎng)絡(luò)安全等.
1) 單步推薦
推薦系統(tǒng)常面臨數(shù)據(jù)稀疏、可解釋性等問題以及個性化定制、新型推薦任務(wù)等新的需求.知識圖譜可以向推薦系統(tǒng)中引入輔助信息,如商品內(nèi)容、跨領(lǐng)域信息等.與常用的推薦方法不同,基于強(qiáng)化學(xué)習(xí)的知識圖譜推薦是在知識圖譜中探索圖(路徑查找)來找到從用戶到商品的有意義的路徑.強(qiáng)化學(xué)習(xí)智能體在探索過程中進(jìn)行決策,解決數(shù)據(jù)稀疏,提高推薦可解釋性,使得推薦結(jié)果更符合用戶需求.
推薦中存在一些商品或項(xiàng)目幾乎很少有用戶或根本沒有用戶交互.針對數(shù)據(jù)稀疏和冷啟動問題,Song等人[144]提出了Ekar算法(explainable know-ledge aware recommendation),將推薦問題建模成圖上的路徑推理問題.具體來看,該方法將用戶-商品交互圖與商品-實(shí)體知識圖譜通過商品相關(guān)聯(lián)形成用戶-商品-實(shí)體圖.目標(biāo)用戶被定義為初始狀態(tài),所連接的圖上的節(jié)點(diǎn)構(gòu)成定動作空間.獎勵設(shè)計與Lin等人[120]的想法一致.采用經(jīng)典的策略梯度REINFORCE算法來訓(xùn)練一個策略函數(shù),用于決策下一步動作的選擇,最終形成一條用戶到商品的路徑完成推薦.Ekar通過引入知識圖譜作為補(bǔ)充信息緩解了數(shù)據(jù)稀疏的問題,提高了推薦的準(zhǔn)確度和效率.數(shù)據(jù)稀疏性還表現(xiàn)在負(fù)樣本的缺乏.目前的工作大多對未觀測到的數(shù)據(jù)進(jìn)行負(fù)采樣.然而,無論是靜態(tài)負(fù)采樣策略還是自適應(yīng)負(fù)采樣策略,都不足以產(chǎn)生高質(zhì)量的負(fù)樣本.因此,Wang等人[145]提出了一種新的負(fù)采樣算法KGPolicy(knowledge graph policy network).模型采用經(jīng)典的策略梯度REINFORCE算法,狀態(tài)定義為用戶和智能體當(dāng)前所在節(jié)點(diǎn).動作被定義為一個2跳路徑.設(shè)計了一個鄰居注意力模塊,該模塊指定了1階和2階鄰居的不同重要性,以便自適應(yīng)地捕獲對節(jié)點(diǎn)的偏好,并產(chǎn)生潛在的負(fù)例.KGPolicy可以從與正樣本的交互中自適應(yīng)接收帶有知識的負(fù)信號,產(chǎn)生潛在的負(fù)樣本來訓(xùn)練推薦模型,提高模型處理缺失數(shù)據(jù)的能力,提升了模型的準(zhǔn)確度.
現(xiàn)有推薦系統(tǒng)更關(guān)注于推薦結(jié)果的準(zhǔn)確度,結(jié)果常常缺乏可解釋性或僅能提供事后可解釋性(post-hoc explanation).Xian等人[146]提出PGPR算法(policy-guided path reasoning algorithm).采用經(jīng)典的策略梯度REINFORCE算法,并引入狀態(tài)值函數(shù)以減小方差.狀態(tài)包括用戶、智能體當(dāng)前所在節(jié)點(diǎn)、智能體歷史路徑信息.動作被定義為與當(dāng)前節(jié)點(diǎn)所連接的(關(guān)系,實(shí)體)對.最終形成一條用戶到商品的路徑完成推薦.但由于獎勵信號的稀疏性以及知識圖譜中動作空間巨大,這種試錯性方法具有較差的收斂性.因此,Zhao等人[147]提出了一個基于知識引導(dǎo)的推理框架ADAC(adversarial Actor-Critic).模型由Actor、Critic、路徑判別器和元路徑判別器4部分構(gòu)成,通過3種啟發(fā)式的策略:最短路徑、元路徑、用戶感興趣的實(shí)體,提取滿足要求(較少標(biāo)注、可解釋、準(zhǔn)確)的演示路徑.具體來看,Actor用于生成路徑,路徑判別器、元路徑判別器用于判斷Actor所生成的路徑是否符合啟發(fā)式的策略并給出獎勵.Critic用于估計動作值函數(shù)Q,采用時間差分(TD)方法來學(xué)習(xí)Critic網(wǎng)絡(luò).最后,4部分進(jìn)行聯(lián)合優(yōu)化,通過知識引導(dǎo)限制強(qiáng)化學(xué)習(xí)智能體的探索過程加速訓(xùn)練過程,提升推理的性能.
在個性化推薦領(lǐng)域,如個性化學(xué)習(xí)路徑推薦需要為用戶按順序推薦個性化的學(xué)習(xí)項(xiàng)目,例如課程、講座等,以滿足每個學(xué)習(xí)者的獨(dú)特需求.針對現(xiàn)有工作沒有同時建模認(rèn)知結(jié)構(gòu)(例如學(xué)習(xí)者的知識水平)和所學(xué)項(xiàng)目的知識結(jié)構(gòu)(例如項(xiàng)目之間的先修關(guān)系)的問題,Liu等人[148]提出了一種認(rèn)知結(jié)構(gòu)增強(qiáng)的自適應(yīng)學(xué)習(xí)算法CSEAL(cognitive structure enhanced framework for adaptive learning).模型采用經(jīng)典的Actor-Critic算法,狀態(tài)由學(xué)習(xí)目標(biāo)和當(dāng)前知識水平2部分構(gòu)成,其中,學(xué)習(xí)目標(biāo)采用one-hot編碼,若是最終學(xué)習(xí)項(xiàng)目記為1,否則記為0,知識水平利用LSTM來編碼.動作由當(dāng)前學(xué)習(xí)項(xiàng)目所連接的所有學(xué)習(xí)項(xiàng)目構(gòu)成.獎勵被定義為學(xué)習(xí)周期結(jié)束后成績的變化.Actor為一個策略網(wǎng)絡(luò),用于根據(jù)當(dāng)前狀態(tài)計算所有動作對應(yīng)的概率分布,Critic為一個價值網(wǎng)絡(luò),用于對狀態(tài)值函數(shù)進(jìn)行估計.CSEAL綜合了個性和共性2方面信息,不僅考慮到用戶的學(xué)習(xí)能力還考慮了知識體系結(jié)構(gòu),設(shè)計了一種基于知識結(jié)構(gòu)的認(rèn)知導(dǎo)航算法,以確保學(xué)習(xí)路徑的邏輯性,減少了決策過程中的搜索空間,從而為用戶制定個性化的學(xué)習(xí)方案.
順序推薦(sequential recommendation)旨在根據(jù)用戶的順序交互行為,依次推薦下一個或接下來的幾個商品.在這類推薦中,獎勵函數(shù)不僅應(yīng)該考慮單個預(yù)測的性能,還需要根據(jù)推薦序列來衡量整體性能.現(xiàn)有的深度學(xué)習(xí)的方法僅關(guān)注當(dāng)前所推薦商品的準(zhǔn)確性,并未考慮該商品對于推薦序列長期的影響.因此,Wang等人[149]將知識圖譜引入基于強(qiáng)化學(xué)習(xí)的順序推薦場景中,提出了KERL算法(knowledge-guided reinforcement learning model).KERL采用經(jīng)典的策略梯度REINFORCE算法,狀態(tài)包含了歷史交互商品序列信息、用戶當(dāng)前偏好信息、預(yù)測出的用戶未來偏好信息.具體來看,首先使用TransE得到商品的向量表示.然后,使用GRU編碼歷史交互商品序列,使用mean pooling算法來聚合用戶已經(jīng)交互過的商品向量作為用戶當(dāng)前偏好,未來偏好基于當(dāng)前的偏好,使用一個MLP來直接預(yù)測得到.動作空間由當(dāng)前智能體所在節(jié)點(diǎn)的鄰居節(jié)點(diǎn)構(gòu)成.獎勵函數(shù)由時序級獎勵和知識級獎勵2部分構(gòu)成.其中,時序級獎勵使用翻譯中經(jīng)典的BLEU算法度量實(shí)際交互的商品子序列和強(qiáng)化學(xué)習(xí)預(yù)測的商品子序列的相似性,知識級獎勵由余弦相似度來度量預(yù)測的用戶興趣偏好序列和真實(shí)偏好序列的相似性.KERL賦予了時序預(yù)測模型考慮推薦商品長期收益的能力,實(shí)現(xiàn)知識對強(qiáng)化學(xué)習(xí)探索過程的指導(dǎo),提高了順序推薦的準(zhǔn)確度.
2) 多步推薦
隨著抖音、快手和各類自媒體移動應(yīng)用程序的廣泛使用,新的推薦場景不斷涌現(xiàn)出來.交互式推薦(interactive recommendation, IR)和對話式推薦(conversation recommendation, CR)受到了廣泛的關(guān)注.與單步推薦不同,交互式推薦與對話式推薦系統(tǒng)是一個多步?jīng)Q策的過程.在每一步中,系統(tǒng)向用戶推薦一個商品或者詢問用戶對于某種屬性的偏好,并從用戶那里接收反饋,這些反饋會影響下一步的推薦決策.推薦-反饋交互重復(fù)進(jìn)行,直到用戶訪問會話結(jié)束.因此,這類任務(wù)可以很自然地利用強(qiáng)化學(xué)習(xí)來進(jìn)行建模.在這類場景下推薦系統(tǒng)需要與用戶進(jìn)行多次信息交流,以此獲得更多有利于明確用戶興趣偏好、真實(shí)意圖和實(shí)際需求的信息.一種常見的方法是利用大量的輔助數(shù)據(jù)(如社交網(wǎng)絡(luò)、知識圖譜)來更好地解釋用戶意圖[150-151].Zhou等人[152]提出利用知識圖譜的先驗(yàn)知識進(jìn)行基于強(qiáng)化學(xué)習(xí)的交互式推薦算法KGQR(knowledge graph enhanced Q-learning framework for interactive recommendation),如圖8所示.圖8中模型包含4部分:圖卷積網(wǎng)絡(luò)模塊、狀態(tài)表示模塊、候選集選擇模塊和Q-network模塊.模型采用經(jīng)典的基于價值的Dueling DQN算法,狀態(tài)被定義為用戶交互的商品序列.首先圖卷積網(wǎng)絡(luò)模塊通過圖卷積神經(jīng)網(wǎng)絡(luò)GCN編碼知識圖譜中商品的語義相關(guān)性和拓?fù)浣Y(jié)構(gòu)信息,作為商品的表示向量;然后狀態(tài)表示模塊再利用GRU編碼用戶交互的商品序列作為最終狀態(tài),輸入Q-network中.動作空間被限定為用戶交互過商品的k階鄰居.KGQR不僅考慮到了用戶偏好的時序性,而且通過知識圖譜結(jié)構(gòu)信息精剪動作空間,顯著提高強(qiáng)化學(xué)習(xí)采樣效率.
Fig. 8 Framework of KGQR[152]圖8 KGQR模型框架圖[152]
在對話式推薦系統(tǒng)中,通常對用戶商品數(shù)據(jù)構(gòu)建用戶-商品-屬性知識圖譜,一段對話可以被表示為圖上的一條路徑.強(qiáng)化學(xué)習(xí)方法用于決定下個動作(商品推薦或?qū)傩栽儐?,幫助系統(tǒng)學(xué)習(xí)一個多回合的對話策略.Lei等人[153]提出了一種對話路徑推理算法CPR(conversational path reasoning).模型采用經(jīng)典的基于價值的Deep Q-learning算法,狀態(tài)包括對話歷史信息和候選商品數(shù)量2部分.動作只有2種選擇,即“商品推薦”或 “屬性詢問”. CPR定義用戶-屬性偏好和用戶-商品偏好用于決定推薦哪個商品或選擇哪個屬性進(jìn)行詢問.其中用戶-屬性偏好由信息熵建模,用戶-商品的偏好由EAR[154]中的FM 變體計算.如果智能體選擇屬性詢問,則直接依據(jù)用戶-屬性偏好從候選屬性集中選擇得分最高的屬性.如果選擇商品推薦,則依據(jù)用戶-商品偏好從候選商品集中選擇top-k的商品進(jìn)行推薦.CPR將對話推薦問題建模為基于圖的路徑推理問題,提高了對話推薦的可解釋性,策略網(wǎng)絡(luò)只需要決定何時詢問和何時推薦,將動作空間減少到 2個,減輕了策略網(wǎng)絡(luò)的建模負(fù)擔(dān).與Lei等人[153]類似,Deng等人[155]提出了UNICORN算法(unified conversational recommender).模型采用經(jīng)典的基于價值的Dueling DQN算法.模型先通過圖卷積神經(jīng)網(wǎng)絡(luò)GCN編碼動態(tài)加權(quán)圖中商品的語義和結(jié)構(gòu)信息,作為商品的表示向量.但與Lei等人[153]不同,UNICORN采用Transformer來編碼用戶歷史對話序列信息作為狀態(tài).動作空間由商品集合和屬性集合構(gòu)成.實(shí)驗(yàn)表明,UNICORN能夠在更短的對話輪數(shù)下,了解用戶偏好并為用戶推薦合適商品.除了提高推薦的效率和準(zhǔn)確性以外,基于知識圖譜與強(qiáng)化學(xué)習(xí)相結(jié)合來進(jìn)行對話推薦,還通過給出知識圖譜推理路徑,增加了對話推薦的可解釋性.
自然語言處理領(lǐng)域的一個重要應(yīng)用就是人機(jī)對話系統(tǒng),它是人機(jī)交互的核心功能之一.計算機(jī)想要順利無障礙地和人類交流,必須具備豐富的背景知識以及強(qiáng)大的決策能力,結(jié)合背景知識去理解對話內(nèi)容,從外部知識庫中找出相關(guān)的知識并進(jìn)行推理,從而生成合適的回答.知識圖譜為對話系統(tǒng)提供了豐富的背景知識,而強(qiáng)化學(xué)習(xí)可以從相關(guān)知識集合中選出恰當(dāng)?shù)闹R,并且可以利用用戶的隱式負(fù)反饋信息,確保對話效果持續(xù)穩(wěn)步提升.
針對開放域?qū)υ捄椭R問答,大多數(shù)的研究只是利用用戶輸入和知識之間的相似度,將知識整合到了回復(fù)的生成過程中.然而,只依靠相似度是不能保證回復(fù)的合適準(zhǔn)確的,例如人類在進(jìn)行對話和知識問答時還需要借助大腦的決策能力,從相關(guān)知識中篩選出合適的知識進(jìn)行回答.徐聰[156]提出了一個結(jié)合知識庫的對話模型,將強(qiáng)化學(xué)習(xí)算法用于對相關(guān)知識的有效選擇決策中.模型包括2部分:知識決策部分與回復(fù)生成部分.知識決策部分為對知識的粗選和精選.粗選指根據(jù)會話主題從完整的知識圖譜中檢索出所有相關(guān)子圖作為候選集合;精選指利用強(qiáng)化學(xué)習(xí)中的策略梯度算法REINFORCE,在子圖中選擇最合適的知識作為最優(yōu)知識,其中,狀態(tài)包含當(dāng)前智能體所選擇的知識、初始話題實(shí)體、目標(biāo)話題實(shí)體、輸入文本序列以及對話歷史等5方面信息.動作被定義為圖中與當(dāng)前話題實(shí)體相連的所有邊或切換話題.獎勵被定義為真實(shí)回復(fù)和所選擇知識的相關(guān)性.回復(fù)生成部分利用Transformer網(wǎng)絡(luò)對輸入文本和知識進(jìn)行編碼和解碼.借助于強(qiáng)化學(xué)習(xí)的決策能力,該模型能夠選擇合適的知識并生成上下文連貫、回復(fù)內(nèi)容準(zhǔn)確、易于用戶理解以及形式多樣的回復(fù).模型采用F1值來評估模型的知識決策的精度-召回率,即輸出回復(fù)相對于標(biāo)準(zhǔn)回復(fù)在字級別上的精度-召回率.在百度Knowledge Driven Dialogue數(shù)據(jù)集上F1值提升了5.28%.
現(xiàn)有QA方法只能從基準(zhǔn)數(shù)據(jù)的顯示問答對中學(xué)習(xí).然而,用戶很少會明確地將答案標(biāo)記為正確或錯誤.針對這一問題,Kaiser等人[157]提出了Conqer算法(conversational question answering with refor-mulations),該方法可以利用用戶的重新提問這種隱式負(fù)反饋進(jìn)行學(xué)習(xí).模型采用經(jīng)典的基于策略梯度的REINFORCE算法.狀態(tài)包含用戶當(dāng)前所提的問題、用戶最初的問題以及當(dāng)前問題所關(guān)聯(lián)的實(shí)體.動作被定義為當(dāng)前問題所關(guān)聯(lián)的實(shí)體所對應(yīng)的邊.獎勵取決于用戶的新問題與原問題是否同屬一個主題.具體地說,首先將用戶提出的問題所包含的實(shí)體通過實(shí)體消歧方法鏈接到外部知識庫,將回答過程建模為多個智能體在知識圖譜上并行游走過程,節(jié)點(diǎn)選擇由策略網(wǎng)絡(luò)輸出的動作決定.該策略網(wǎng)絡(luò)將當(dāng)前所提的問題、用戶最初的問題以及當(dāng)前問題所關(guān)聯(lián)的實(shí)體作為輸入,通過分析用戶新的提問與原來的問題相比是否表達(dá)出新的意圖獲得獎勵進(jìn)行訓(xùn)練.Conqer是在用戶提問未得到理想答案后重新提問時,利用隱式負(fù)反饋信息來學(xué)習(xí)對話策略的工作.實(shí)驗(yàn)表明:Conqer優(yōu)于當(dāng)時最優(yōu)方法Convex[158],并且對各種噪聲具有魯棒性.
文字類冒險游戲是一種玩家必須通過文本描述來了解世界,通過相應(yīng)的文本描述來聲明下一步動作的游戲.這類游戲中強(qiáng)化學(xué)習(xí)智能體根據(jù)接收到的文本信息進(jìn)行自動響應(yīng),以實(shí)現(xiàn)規(guī)定的游戲目標(biāo)或任務(wù)(例如拿裝備、離開房間等).強(qiáng)化學(xué)習(xí)善于序列決策,知識圖譜善于建模文本的語義和結(jié)構(gòu)信息.因此,強(qiáng)化學(xué)習(xí)和知識圖譜相結(jié)合在文字類冒險游戲中得到了成功的應(yīng)用.基于強(qiáng)化學(xué)習(xí)的知識圖譜方法在進(jìn)行游戲策略學(xué)習(xí)時主要思路可分為2類:1)將游戲狀態(tài)構(gòu)建成一張知識圖,利用強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行游戲策略學(xué)習(xí);2)將知識圖譜作為外部知識輔助強(qiáng)化學(xué)習(xí)智能體進(jìn)行決策.
文獻(xiàn)[159-160]將每個時刻游戲中的狀態(tài)表示為一張知識圖譜,利用圖結(jié)構(gòu)特性以及圖中的信息傳遞進(jìn)行狀態(tài)的表示學(xué)習(xí).Ammanabrolu等人[159]提出了一個基于深度強(qiáng)化學(xué)習(xí)的游戲策略學(xué)習(xí)算法KG-DQN,它將每一時刻的游戲狀態(tài)(文本描述)表示為一張狀態(tài)圖.采用圖的形式有利于修剪動作空間,以實(shí)現(xiàn)更有效的探索.玩游戲時,智能體接收對當(dāng)前游戲狀態(tài)的觀察(文本描述),根據(jù)給定的觀察對狀態(tài)圖進(jìn)行更新,如圖9所示.采用SBLSTM(sliding bidirectional LSTM)編碼觀察,同時利用圖注意力機(jī)制對狀態(tài)圖進(jìn)行編碼.智能體每一時刻的狀態(tài)可以通過對觀察的編碼和狀態(tài)圖的編碼進(jìn)行線性變換得到.采用Q-learning算法學(xué)習(xí)在當(dāng)前狀態(tài)下采取行動的策略.但KG-DQN的動作空間仍然很大,訓(xùn)練成本仍然較高.針對游戲動作空間巨大的問題,Ammanabrolu等人[160]提出了利用知識圖譜表示狀態(tài),通過預(yù)定義模板生成動作空間的算法KG-A2C.模型由狀態(tài)編碼模塊、動作解碼模塊2部分構(gòu)成.狀態(tài)的定義考慮到了觀察的文本描述(包括當(dāng)前狀態(tài)的環(huán)境描述、游戲需求、游戲反饋以及前一步采取的動作)、原始分?jǐn)?shù)和狀態(tài)圖(與文獻(xiàn)[159]類似).狀態(tài)編碼模塊根據(jù)所有的觀察數(shù)據(jù)利用多個GRU和多頭圖注意力機(jī)制編碼游戲當(dāng)前狀態(tài).動作解碼模塊利用狀態(tài)編碼信息通過多個GRU解碼動作.模型訓(xùn)練階段采用Valid Action檢測算法[161]對動作空間進(jìn)行了精簡,利用優(yōu)勢演員評論家算法A2C(advantage Actor-Critic)學(xué)習(xí)策略.KG-A2C把組合巨大的行動空間限制在較小合理的動作空間中,提高了智能體的學(xué)習(xí)效率.
Fig. 9 States updating in text adventure game[159]圖9 文字冒險游戲中的狀態(tài)圖更新[159]
此外,針對應(yīng)用于文本類游戲的強(qiáng)化學(xué)習(xí)智能體缺乏人類所具有的游戲推理能力.Xu等人[162]提出基于堆疊分層注意力機(jī)制算法SHA-KG(stacked hierarchical attention with knowledge graphs).利用知識圖譜的結(jié)構(gòu)信息進(jìn)行顯示推理,幫助智能體做出決策.狀態(tài)包括觀察的文本描述、原始分?jǐn)?shù)和狀態(tài)圖3部分.不同于以往將游戲狀態(tài)圖表示成為一張圖的工作,SHA-KG對狀態(tài)圖依據(jù)不同的關(guān)系以及時間順序進(jìn)行子圖劃分,采用分層注意力機(jī)制對不同層級的特征進(jìn)行提取,觀察的文本描述利用GRU進(jìn)行編碼,與原始分?jǐn)?shù)共同形成狀態(tài)的表示.SHA-KG采用優(yōu)勢演員評論家算法A2C.通過將整個知識圖譜劃分為多個子圖,并采用分層注意機(jī)制給出的不同層級的評分,幫助人類更好地解釋智能體的推理依據(jù)和決策過程.Adhikari等人[163]規(guī)范化了上述工作的狀態(tài)圖的概念,將其定義為信念圖(belief graph),即在探索過程中學(xué)習(xí)到的圖結(jié)構(gòu),提出了GATA(graph-aided transformer agent)方法.模型采用經(jīng)典的基于價值的DQN方法.信念圖中節(jié)點(diǎn)可以表示玩家、物品、位置以及一些條件(例如,對于烹飪類游戲的開關(guān)、切片等操作),關(guān)系可以表示在特定時間下實(shí)體之間的關(guān)系(例如,在…正北方).GATA是一個基于Transformer的智能體,首先通過對原始文本描述構(gòu)造信念圖作為狀態(tài),并基于該狀態(tài)應(yīng)用策略網(wǎng)絡(luò)進(jìn)行動作選擇.然后,根據(jù)該動作和新的觀察動態(tài)更新信念圖.利用圖結(jié)構(gòu)形式的結(jié)構(gòu)化表征可以提高強(qiáng)化學(xué)習(xí)智能體的可解釋性,使決策過程更加透明.
現(xiàn)實(shí)生活中有些游戲還需要一些額外的常識知識作為補(bǔ)充信息.在這類游戲環(huán)境中,智能體需要借助于外部常識知識,例如,蘋果放在冰箱中,盤子放在碗櫥里,進(jìn)而更好的完成游戲任務(wù).在現(xiàn)有強(qiáng)化學(xué)習(xí)算法中引入外部知識,有利于減少強(qiáng)化學(xué)習(xí)智能體的動作空間,提高智能體的訓(xùn)練速度.Ammanabrolu等人[164]進(jìn)一步擴(kuò)展了KG-DQN算法[159],探索了文字類游戲中游戲策略遷移的方法.模型利用了從游戲文本中提取出的知識圖譜為強(qiáng)化學(xué)習(xí)智能體在同類游戲間的遷移提供先驗(yàn)知識.采用DQN網(wǎng)絡(luò)參數(shù)權(quán)值有效地遷移知識.知識圖譜通過為智能體提供不同游戲的狀態(tài)和動作空間之間更明確且可解釋的映射,能夠在智能體間進(jìn)行有效的遷移,以達(dá)到減少訓(xùn)練時間并提高所學(xué)習(xí)策略質(zhì)量的目的.Murugesan等人[165]將外部知識圖譜ConceptNet作為補(bǔ)充信息應(yīng)用在基于強(qiáng)化學(xué)習(xí)的文本游戲類任務(wù)中,提出了Belief+KG_Evolve算法.模型共包含3個部分,輸入數(shù)據(jù)編碼模塊、基于圖的知識融合模塊、動作預(yù)測模塊.輸入數(shù)據(jù)編碼模塊將歷史動作和游戲觀察利用預(yù)訓(xùn)練模型GloVe和GRU網(wǎng)絡(luò)進(jìn)行編碼.基于圖的知識融合模塊將狀態(tài)圖和外部知識圖譜進(jìn)行整合,利用ConceptNet Numberbatch詞向量表示和圖卷積網(wǎng)絡(luò)GCN進(jìn)行圖的表示學(xué)習(xí).動作預(yù)測模塊將數(shù)據(jù)編碼模塊得到的編碼、基于圖的知識融合模塊得到的圖的表示以及動作候選集作為輸入,輸出動作概率.Murugesan等人[165]指出常識知識可以幫助智能體高效和準(zhǔn)確地行動,但太多的常識知識也會對智能體起到干擾.如何確定并過濾掉那些無用常識是一個值得研究的方向.
在生物醫(yī)藥領(lǐng)域,藥物合成、新材料發(fā)現(xiàn)、疾病預(yù)測等在科技迅速發(fā)展的今天顯得日益重要,給社會發(fā)展和人們生活帶來巨大變化.引入強(qiáng)化學(xué)習(xí)方法,可以利用智能體在知識圖譜中的自動探索做出最優(yōu)決策,同時找到的路徑可以為反應(yīng)物生成或者疾病預(yù)測提供可解釋性依據(jù).目前,基于強(qiáng)化學(xué)習(xí)的知識圖譜技術(shù)已經(jīng)被應(yīng)用于發(fā)現(xiàn)新的藥物或材料、化學(xué)反應(yīng)物預(yù)測以及藥物組合預(yù)測、疾病預(yù)測等領(lǐng)域.
同時結(jié)合高度復(fù)雜和不可微的規(guī)則,設(shè)計模型以找到所需特性的分子是一項(xiàng)具有挑戰(zhàn)性的任務(wù).You等人[166]提出了圖卷積策略網(wǎng)絡(luò)(graph con-volutional policy network, GCPN).GCPN將分子圖生成的問題建模為一個序列決策問題,即在一個具有化學(xué)感知的環(huán)境中迭代地向分子圖添加子結(jié)構(gòu)和邊.將圖表示學(xué)習(xí)、對抗訓(xùn)練(用于獎勵設(shè)計)等技術(shù)融入強(qiáng)化學(xué)習(xí)框架中,采用經(jīng)典的基于Actor-Critic框架的PPO[94],以優(yōu)化由分子屬性目標(biāo)和對抗性損失組成的獎勵.研究結(jié)果表明,GCPN生成的分子在Penalized logP指標(biāo)上比原有方法高出61%.針對化學(xué)反應(yīng)產(chǎn)物預(yù)測(chemical reaction prediction)問題,Do等人[167]提出了圖變換策略網(wǎng)絡(luò)(graph transformation policy network, GTPN).GTPN采用Actor-Critic算法,狀態(tài)被定義為包含輸入反應(yīng)物和試劑分子系統(tǒng)的標(biāo)記圖,動作由序列結(jié)束信號、反應(yīng)物分子節(jié)點(diǎn)、新的關(guān)系類型組成.GTPN采用圖神經(jīng)網(wǎng)絡(luò)來表示輸入的反應(yīng)物和試劑分子,并使用強(qiáng)化學(xué)習(xí)來尋找最佳的化學(xué)鍵變化序列,將反應(yīng)物轉(zhuǎn)化為產(chǎn)物.GTPN不需對圖變換的長度或順序做任何假設(shè).實(shí)驗(yàn)結(jié)果表明,在大型數(shù)據(jù)集USPTO中,GTPN比原有方法準(zhǔn)確度提高了約3%.基于電子健康記錄(electronic health record, EHR)的藥物組合預(yù)測(medicine combination prediction, MCP)可以幫助醫(yī)生為復(fù)雜病患者開藥.針對MCP研究要么忽略了藥物之間的相關(guān)性,即MCP被定義為二元分類任務(wù),要么假設(shè)藥物之間存在順序相關(guān)性,即MCP被定義為序列預(yù)測任務(wù)的問題.Wang等人[168]考慮到還應(yīng)考慮藥物之間的相互作用,即患者用藥安全,提出了一種基于圖卷積的強(qiáng)化學(xué)習(xí)模型CompNet(combined order-free medicine prediction network),模型將藥物組合預(yù)測問題建模為一個Markov決策過程,即時刻t的藥物選擇取決于之前時刻t-1中選擇的藥物.利用Deep Q-learning來學(xué)習(xí)藥物之間的相關(guān)性和相互作用.狀態(tài)由患者表征和醫(yī)學(xué)知識圖譜表征經(jīng)過非線性變換得到.動作空間是由所有藥物構(gòu)成的集合.具體地,首先使用Dual-CNN來獲取基于EHR的患者表征;然后,引入與預(yù)測藥物相關(guān)的醫(yī)學(xué)知識來創(chuàng)建動態(tài)醫(yī)學(xué)知識圖譜,使用關(guān)系圖卷積網(wǎng)絡(luò)R-GCN對其進(jìn)行編碼;最后,CompNet通過融合患者信息和藥物知識圖譜來進(jìn)行動作(藥物)選擇.實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)集MIMIC-III中,CompNet顯著優(yōu)于現(xiàn)有方法,Jaccard和F1值分別提高了3.74%和6.64%.Sun等人[169]將醫(yī)學(xué)知識和醫(yī)學(xué)數(shù)據(jù)相結(jié)合構(gòu)建疾病知識圖譜,將疾病預(yù)測任務(wù)建模在知識圖譜上的游走問題.疾病知識圖譜中節(jié)點(diǎn)表示疾病(例如冠心病),邊表示疾病之間的關(guān)系(例如引發(fā)).狀態(tài)定義同時考慮到了病人的信息和在知識圖譜中歷史游走的信息(當(dāng)前所在節(jié)點(diǎn)以及走過的節(jié)點(diǎn)),動作空間是由智能體當(dāng)前節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)(疾病)構(gòu)成的集合.采用Actor-Critic算法,學(xué)習(xí)智能體的游走策略.最終智能體所在的節(jié)點(diǎn)代表病人所患的疾病,游走的路徑表示可解釋的疾病進(jìn)展路線,可作為預(yù)測病人所患疾病的解釋性依據(jù).實(shí)驗(yàn)表明在MIMIC數(shù)據(jù)集中疾病的預(yù)測準(zhǔn)確率可達(dá)63.9%.
除了推薦、對話系統(tǒng)、游戲、生物醫(yī)藥等領(lǐng)域,基于強(qiáng)化學(xué)習(xí)的知識圖譜方法還可以應(yīng)用于金融、網(wǎng)絡(luò)安全等其他領(lǐng)域.
在金融領(lǐng)域,Miao等人[170]將文獻(xiàn)[112]所提方法應(yīng)用于動態(tài)金融知識圖譜構(gòu)建的關(guān)系抽取任務(wù)中.實(shí)驗(yàn)表明,該方法可以降低噪聲數(shù)據(jù)的干擾,提高關(guān)系提取模型的準(zhǔn)確度.動態(tài)金融知識圖譜可對大量金融數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和可視化,輔助金融從業(yè)人員進(jìn)行分析與決策.在網(wǎng)絡(luò)安全領(lǐng)域,Piplai等人[171]結(jié)合網(wǎng)絡(luò)安全知識圖譜,將強(qiáng)化學(xué)習(xí)算法應(yīng)用于惡意軟件檢測.算法模擬安全專業(yè)人員使用自身背景知識來識別攻擊,將從描述相同或相似的惡意軟件攻擊的文本中挖掘出的知識應(yīng)用于強(qiáng)化學(xué)習(xí)算法的動作選擇概率和獎勵函數(shù)的設(shè)計中.實(shí)驗(yàn)表明,使用先驗(yàn)信息源的加權(quán)均值的獎勵函數(shù)在惡意攻擊檢測中效果最好.
近幾年來,針對知識圖譜和強(qiáng)化學(xué)習(xí)的相關(guān)研究已經(jīng)成為人工智能領(lǐng)域的熱點(diǎn)方向.知識圖譜可以同時建模數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)和語義信息,強(qiáng)化學(xué)習(xí)是一種從試錯過程中發(fā)現(xiàn)最優(yōu)行為策略的技術(shù)[84],適用于解決貫序決策問題.知識圖譜與強(qiáng)化學(xué)習(xí)的結(jié)合有利于提升訓(xùn)練樣本質(zhì)量,還有利于提高可解釋性和可信賴性.但是,強(qiáng)化學(xué)習(xí)方法在知識圖譜領(lǐng)域應(yīng)用也存在一些不足,主要表現(xiàn)在2個方面:1)對強(qiáng)化學(xué)習(xí)狀態(tài)的表示,文獻(xiàn)[134]提到目前強(qiáng)化學(xué)習(xí)狀態(tài)表示大多使用預(yù)訓(xùn)練得到的節(jié)點(diǎn)嵌入.然而,當(dāng)知識圖譜中增加新三元組時,節(jié)點(diǎn)的嵌入也需要重新訓(xùn)練,計算成本較大.文獻(xiàn)[126]提到除了結(jié)構(gòu)信息以外,節(jié)點(diǎn)的文本描述信息、層次結(jié)構(gòu)的類型信息也十分重要.在知識圖譜表示學(xué)習(xí)領(lǐng)域,文獻(xiàn)[172]和文獻(xiàn)[173]分別將文本描述信息、關(guān)系路徑等信息,用于構(gòu)建更加精準(zhǔn)的知識表示.然而,這些方法還未廣泛應(yīng)用于強(qiáng)化學(xué)習(xí)狀態(tài)的表示中.2)強(qiáng)化學(xué)習(xí)的獎勵函數(shù)設(shè)計,與人工定義獎勵函數(shù)相比,文獻(xiàn)[122]和文獻(xiàn)[147]已經(jīng)開始嘗試?yán)弥R圖譜中的信息結(jié)合抗性學(xué)習(xí)來生成自適應(yīng)的獎勵函數(shù).如何自動生成更合理的獎勵函數(shù)還有待進(jìn)一步研究.
目前圍繞強(qiáng)化學(xué)習(xí)與知識圖譜結(jié)合的研究還處于起步階段,有廣闊的發(fā)展空間.未來值得關(guān)注5個方向:
1) 基于強(qiáng)化學(xué)習(xí)的動態(tài)時序知識圖譜研究
隨著應(yīng)用的深入,人們不僅關(guān)注實(shí)體關(guān)系三元組這種簡單的知識表示,還需要掌握包括邏輯規(guī)則、決策過程在內(nèi)的復(fù)雜知識.目前基于強(qiáng)化學(xué)習(xí)的知識圖譜研究主要圍繞靜態(tài)知識圖譜.然而,知識隨著時間的推移往往是動態(tài)變化的.如何利用強(qiáng)化學(xué)習(xí)在解決序列決策問題方面的優(yōu)勢,來建模知識圖譜的動態(tài)性,學(xué)習(xí)知識圖譜的變化趨勢,解決實(shí)際應(yīng)用中的復(fù)雜問題是一個值得研究的課題.Li等人[174]研究了動態(tài)時序知識圖譜的時序推理問題.受人類推理方式的啟發(fā),CluSTeR(clue searching and temporal reasoning)包含線索搜索和時序推理2部分.線索搜索模塊采用隨機(jī)集束搜索算法,作為強(qiáng)化學(xué)習(xí)的動作采樣方法,從歷史事件中推斷多條線索.時序推理模塊使用基于R-GCN進(jìn)行編碼,并應(yīng)用GRU進(jìn)行時序預(yù)測,實(shí)現(xiàn)從線索中推理答案.
2) 基于強(qiáng)化學(xué)習(xí)的多模態(tài)知識圖譜研究
面對越來越復(fù)雜多樣的用戶訴求,單一知識圖譜已不能滿足行業(yè)需求.多模態(tài)數(shù)據(jù)[11]可以提供更豐富的信息表示,輔助用戶決策,提升現(xiàn)有算法的性能.目前,基于強(qiáng)化學(xué)習(xí)的知識圖譜研究主要針對文本數(shù)據(jù).如何利用強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行多模態(tài)知識圖譜的構(gòu)建與分析仍是一個值得研究的方向.He等人[175]將強(qiáng)化學(xué)習(xí)方法應(yīng)用于視頻定位(video grounding) ,即給定一段文本描述將其與視頻片段相匹配的任務(wù)中.He等人將這個任務(wù)建模為一個順序決策的問題,利用Actor-Critic算法學(xué)習(xí)一個逐步調(diào)節(jié)時間定位邊界的代理,完成視頻與文本的匹配.
3) 基于新的強(qiáng)化學(xué)習(xí)方法的知識圖譜研究
強(qiáng)化學(xué)習(xí)作為人工智能領(lǐng)域研究熱點(diǎn)之一,其研究進(jìn)展與成果也引發(fā)了學(xué)者們的關(guān)注.強(qiáng)化學(xué)習(xí)領(lǐng)域最近提出了一系列新的方法和理論成果,例如,循環(huán)元強(qiáng)化學(xué)習(xí)[176]、基于Transformer的強(qiáng)化學(xué)習(xí)[177]、逆強(qiáng)化學(xué)習(xí)[178]等相關(guān)的理論.如何將這些新的理論方法應(yīng)用在知識圖譜的構(gòu)建或研究應(yīng)用中,值得深入思考.Hou等人[179]在強(qiáng)化學(xué)習(xí)動作選擇中引入了知識圖譜中隱含的規(guī)則來約束動作選擇,進(jìn)一步精簡了動作空間,提高了強(qiáng)化學(xué)習(xí)效率.Hua等人[180]提出了一種元強(qiáng)化學(xué)習(xí)方法來進(jìn)行少樣本復(fù)雜知識庫問答,以減少對數(shù)據(jù)注釋的依賴,并提高模型對不同問題的準(zhǔn)確性.
4) 基于強(qiáng)化遷移學(xué)習(xí)的知識圖譜研究
基于強(qiáng)化學(xué)習(xí)的知識圖譜方法具有一定的可解釋性和準(zhǔn)確性.但強(qiáng)化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),樣本數(shù)據(jù)來源于智能體與環(huán)境的交互,會導(dǎo)致收集大量無用且重復(fù)的數(shù)據(jù),成本較高.一種解決思路是將遷移學(xué)習(xí)應(yīng)用到強(qiáng)化學(xué)習(xí)中,通過將源任務(wù)學(xué)習(xí)到的經(jīng)驗(yàn)應(yīng)用到目標(biāo)任務(wù)中,幫助強(qiáng)化學(xué)習(xí)更好地解決實(shí)際問題.文獻(xiàn)[164] 、文獻(xiàn)[170]將遷移學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來,分別應(yīng)用于同類游戲策略學(xué)習(xí)以及動態(tài)金融知識圖譜構(gòu)建領(lǐng)域,并取得了不錯的效果,緩解了特定領(lǐng)域因訓(xùn)練數(shù)據(jù)不足所帶來的挑戰(zhàn),提高了模型舉一反三和融會貫通的能力.因此,基于強(qiáng)化遷移學(xué)習(xí)的知識圖譜研究也是未來一個重要的研究方向.
5) 算法可解釋性度量研究
由于知識圖譜能夠提供實(shí)體間的語義和結(jié)構(gòu)信息,強(qiáng)化學(xué)習(xí)智能體的學(xué)習(xí)過程和人類認(rèn)知世界的過程比較相似,產(chǎn)生的解釋更易于人類理解.因此,一些研究者利用強(qiáng)化學(xué)習(xí)和知識圖譜開展可解釋性的研究.然而,這些研究工作可解釋性的效果只能通過實(shí)例分析來進(jìn)行評測.目前,針對解釋性還沒有統(tǒng)一或者公認(rèn)的衡量標(biāo)準(zhǔn)[84],如何衡量模型的可解釋性是未來需要研究的問題之一.
知識圖譜既包含圖的拓?fù)浣Y(jié)構(gòu)信息又包含豐富的語義信息,得到越來越多研究者的關(guān)注.然而,目前知識圖譜研究面臨標(biāo)注數(shù)據(jù)獲取困難、模型依賴人工定義的規(guī)則和先驗(yàn)知識、方法缺乏可解釋性等問題.環(huán)境驅(qū)動的強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)過程更接近于人類認(rèn)知,產(chǎn)生的解釋更易于人類理解,具有十分重要的研究意義.本文首先簡要介紹了知識圖譜和強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識.其次,對基于強(qiáng)化學(xué)習(xí)的知識圖譜相關(guān)研究,包括強(qiáng)化學(xué)習(xí)在知識抽取、知識推理、知識表示、知識融合等方面的研究進(jìn)行了全面綜述.最后,介紹了基于強(qiáng)化學(xué)習(xí)的知識圖譜研究在智能推薦、對話系統(tǒng)、游戲、生物醫(yī)藥、金融、網(wǎng)絡(luò)安全等領(lǐng)域的實(shí)際應(yīng)用.在此基礎(chǔ)上,對未來的發(fā)展方向,包括基于強(qiáng)化學(xué)習(xí)的動態(tài)知識圖譜、基于強(qiáng)化學(xué)習(xí)的多模態(tài)知識圖譜、基于新強(qiáng)化學(xué)習(xí)方法的知識圖譜研究、基于強(qiáng)化遷移學(xué)習(xí)的知識圖譜以及算法可解釋性度量等進(jìn)行了展望.