摘 要:
知識(shí)推理作為知識(shí)圖譜補(bǔ)全中的一項(xiàng)重要任務(wù),受到了學(xué)術(shù)界的廣泛關(guān)注。為了提高模型的推理效果和可解釋性,將強(qiáng)化學(xué)習(xí)與知識(shí)推理的結(jié)合是一種可行的解決方法?;趶?qiáng)化學(xué)習(xí)的知識(shí)推理方法將知識(shí)圖譜研究的問(wèn)題建模成路徑或序列決策問(wèn)題,能夠更好地利用實(shí)體、關(guān)系等語(yǔ)義信息來(lái)提高推理效果和可解釋性。首先,對(duì)知識(shí)圖譜和知識(shí)推理的基本概念進(jìn)行了敘述,闡述了近年來(lái)的研究進(jìn)展。隨后,從單層強(qiáng)化學(xué)習(xí)知識(shí)推理和雙層強(qiáng)化學(xué)習(xí)知識(shí)推理兩個(gè)角度,對(duì)基于強(qiáng)化學(xué)習(xí)的知識(shí)推理相關(guān)研究進(jìn)行了分析與對(duì)比。最后,對(duì)知識(shí)推理如何應(yīng)用于知識(shí)問(wèn)答、智能推薦、醫(yī)療和交通等領(lǐng)域進(jìn)行了探討,并對(duì)基于強(qiáng)化學(xué)習(xí)的知識(shí)推理的未來(lái)研究方向進(jìn)行了展望。
關(guān)鍵詞:知識(shí)圖譜;強(qiáng)化學(xué)習(xí);知識(shí)推理
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)09-001-2561-12
doi:10.19734/j.issn.1001-3695.2023.11.0583
Review of reinforcement learning based knowledge graph reasoning research
Liu Shixiaa, Li Weijuna, b, Liu Xueyanga, Ding Jianpinga, Su Yileia, Li Haonana
(a.College of Computer Science & Technology, b.Key Laboratory of lmages & Graphics Intelligent Processing of State Ethnic Affairs Commission, North Minzu University, Yinchuan 750021, China)
Abstract:
Knowledge reasoning is a fundamental task in knowledge graph completion. It is a popular topic in the academic community. Integrating reinforcement learning and knowledge reasoning is a viable solution to improve the inference effectiveness and interpretability of models. Taking the problem of knowledge graph research as a path or sequence decision problem in the knowledge reasoning method based on reinforcement learning can make better use of semantic information, such as entities and relationships, to improve reasoning effect and interpretability. This paper provided a descriptive overview of the basic concepts of knowledge graph and knowledge reasoning, and described the research progress in recent years. The paper analysed and compared the related research on knowledge reasoning based on reinforcement learning from two perspectives: single-layer and double-layer reinforcement learning knowledge reasoning. Furthermore, the paper explored the application of knowledge reasoning in various domains, including knowledge question answering, intelligent recommendation systems, healthcare, and transportation. Lastly, the paper discussed future research tendencies for reinforcement learning-based knowledge reasoning and offered insights into potential avenues for exploration and development.
Key words:knowledge graph; reinforcement learning; knowledge reasoning
0 引言
隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,知識(shí)圖譜(know-ledge graph,KG)因其優(yōu)異的可解釋性和強(qiáng)大的表達(dá)能力,已經(jīng)成為推動(dòng)人工智能技術(shù)發(fā)展的核心驅(qū)動(dòng)力之一。知識(shí)圖譜的相關(guān)概念由Google公司于2012年率先提出[1],常用事實(shí)三元組(頭實(shí)體、關(guān)系、尾實(shí)體)對(duì)其進(jìn)行形式化的表示。知識(shí)圖譜將信息表達(dá)為更貼近人類認(rèn)知的形式,提供了一種組織、管理和認(rèn)知理解海量信息的能力[2]。
由于知識(shí)圖譜技術(shù)的快速發(fā)展,知識(shí)圖譜被大量應(yīng)用于推薦系統(tǒng)、智能問(wèn)答等領(lǐng)域。Freebase[3]、DBpedia[4]、YAGO[5]、NELL[6]等許多國(guó)內(nèi)外大型知識(shí)圖譜也被相繼構(gòu)建出來(lái)。然而,無(wú)論是自動(dòng)化構(gòu)建還是人工構(gòu)建的領(lǐng)域知識(shí)圖譜都存在著一定程度的不完備問(wèn)題。知識(shí)圖譜的不完整性對(duì)其實(shí)際的應(yīng)用帶來(lái)了很大的阻礙,需要不斷地對(duì)其進(jìn)行補(bǔ)充和擴(kuò)展。因此需要利用已有的知識(shí)圖譜事實(shí)和推理技術(shù),進(jìn)一步從語(yǔ)義網(wǎng)和其他相應(yīng)的知識(shí)庫(kù)中挖掘出缺失的和更深層次的實(shí)體與關(guān)系之間的聯(lián)系,實(shí)現(xiàn)知識(shí)圖譜補(bǔ)全和知識(shí)圖譜去噪等問(wèn)題,進(jìn)而使知識(shí)圖譜更加豐富和完善。對(duì)于知識(shí)推理的基本概念,學(xué)術(shù)界給出了不同的定義。Seel等人[7]認(rèn)為邏輯推理是以嚴(yán)密的方式運(yùn)用前提和前提之間的關(guān)系,推斷出由前提和關(guān)系所蘊(yùn)涵的結(jié)論的一種形式。馬昂等人[8]認(rèn)為知識(shí)推理是從已有的知識(shí)中推理實(shí)體間可能存在的關(guān)系或?qū)傩灾怠?/p>
近年來(lái),更多的學(xué)者對(duì)知識(shí)推理的相關(guān)技術(shù)和領(lǐng)域進(jìn)行了深入的研究,并根據(jù)推理的不同角度進(jìn)行了詳細(xì)的劃分。Chen等人[9]根據(jù)知識(shí)推理的概念和定義,將知識(shí)推理方法分為基于規(guī)則的推理、基于分布式表示的推理和基于神經(jīng)網(wǎng)絡(luò)的推理,但沒(méi)有對(duì)時(shí)態(tài)、多模態(tài)知識(shí)圖譜的推理進(jìn)行總結(jié)。馬瑞新等人[10]根據(jù)樣本數(shù)據(jù)存在的各種缺陷將知識(shí)圖譜推理分為多樣本和少樣本知識(shí)圖譜推理,但僅僅總結(jié)了部分推理方法,其角度和內(nèi)容并不全面。Tian等人[11]對(duì)知識(shí)圖譜推理進(jìn)行了全面回顧,將知識(shí)推理分為基于邏輯規(guī)則、基于表示和基于神經(jīng)網(wǎng)絡(luò)的方法。但是這些推理方法都存在著推理結(jié)果可解釋性較差、效率較低的問(wèn)題,而強(qiáng)化學(xué)習(xí)由于其在可解釋性和性能等方面的優(yōu)勢(shì),迅速成為了研究知識(shí)推理領(lǐng)域的熱門技術(shù)。文獻(xiàn)[12]從封閉域和開放域推理兩個(gè)方面對(duì)當(dāng)下基于深度強(qiáng)化學(xué)習(xí)的知識(shí)推理方法進(jìn)行了分析和對(duì)比,但沒(méi)有從強(qiáng)化學(xué)習(xí)分層的角度進(jìn)行介紹。目前盡管已有許多知識(shí)推理、強(qiáng)化學(xué)習(xí)綜述文獻(xiàn),但仍缺乏對(duì)強(qiáng)化學(xué)習(xí)和知識(shí)推理相結(jié)合的研究進(jìn)行深入地梳理和總結(jié)工作。
本文對(duì)面向知識(shí)圖譜的強(qiáng)化學(xué)習(xí)知識(shí)推理的最新研究進(jìn)展進(jìn)行了分析與總結(jié),同時(shí)對(duì)知識(shí)推理的應(yīng)用前景、未來(lái)研究方向進(jìn)行了展望,如圖1所示。本文工作的主要貢獻(xiàn)如下:
a)首次從單、雙層強(qiáng)化學(xué)習(xí)的知識(shí)推理兩個(gè)角度,對(duì)基于強(qiáng)化學(xué)習(xí)的知識(shí)推理模型的基本思路和方法進(jìn)行對(duì)比與分析;
b)詳細(xì)介紹了知識(shí)推理如何應(yīng)用于知識(shí)問(wèn)答、智能推薦、醫(yī)療和交通等領(lǐng)域;
c)對(duì)知識(shí)推理研究領(lǐng)域未來(lái)的研究方向進(jìn)行了展望,例如引入遷移學(xué)習(xí)、對(duì)抗學(xué)習(xí)等進(jìn)行推理。
1 基于強(qiáng)化學(xué)習(xí)的知識(shí)推理
基于強(qiáng)化學(xué)習(xí)的知識(shí)推理旨在通過(guò)有限步的探索來(lái)尋找與當(dāng)前查詢相關(guān)的可靠推理路徑[13]。在強(qiáng)化學(xué)習(xí)中作出決策的一方被稱為智能體,首先從源實(shí)體出發(fā),根據(jù)問(wèn)題選擇一個(gè)關(guān)系從而跳轉(zhuǎn)到下一個(gè)實(shí)體,重復(fù)此步驟直到到達(dá)最大步數(shù)或到達(dá)目標(biāo)實(shí)體[14]。在智能體探索的過(guò)程中,不斷根據(jù)當(dāng)前狀態(tài)選擇最有希望到達(dá)目標(biāo)實(shí)體的關(guān)系,如果正確則通過(guò)獎(jiǎng)勵(lì)函數(shù)更新策略網(wǎng)絡(luò),強(qiáng)化學(xué)習(xí)框架如圖2所示。在強(qiáng)化學(xué)習(xí)中主要關(guān)注狀態(tài)空間S、動(dòng)作空間A、轉(zhuǎn)換函數(shù)P、獎(jiǎng)勵(lì)函數(shù)R四個(gè)指標(biāo)。在介紹基于強(qiáng)化學(xué)習(xí)的知識(shí)推理模型之前,本文簡(jiǎn)要介紹了使用的主要符號(hào)以便參考,符號(hào)定義如表1所示。
1.1 單層強(qiáng)化學(xué)習(xí)的知識(shí)推理
傳統(tǒng)的知識(shí)推理方法通常缺乏學(xué)習(xí)機(jī)制,它們依賴于預(yù)定義的規(guī)則和規(guī)則庫(kù),無(wú)法從經(jīng)驗(yàn)中學(xué)習(xí)并改進(jìn)推理過(guò)程。單層強(qiáng)化學(xué)習(xí)的知識(shí)推理是在智能體與環(huán)境的交互中學(xué)習(xí)語(yǔ)義信息,可以根據(jù)收到的反饋更新推理策略和機(jī)制,具有可擴(kuò)展性、自適應(yīng)性強(qiáng)等特點(diǎn)。
1.1.1 DeepPath模型
DeepPath知識(shí)推理模型[15]首次將強(qiáng)化學(xué)習(xí)應(yīng)用于學(xué)習(xí)知識(shí)圖譜中的關(guān)系路徑。該模型將尋徑問(wèn)題表述為一個(gè)可以用RL智能體解決的順序問(wèn)題,智能體通過(guò)對(duì)關(guān)系的采樣來(lái)擴(kuò)展其路徑,從而采取增量方式進(jìn)行推理。DeepPath模型為了捕獲實(shí)體和關(guān)系的語(yǔ)義信息利用了知識(shí)表示模型TransE[16],將所有符號(hào)映射到一個(gè)低維向量空間來(lái)獲得實(shí)體和關(guān)系的連續(xù)表示。
DeepPath模型由兩部分組成。第一部分是外部環(huán)境,外部環(huán)境是智能體和KG之間交互的環(huán)境,被建模為Markov決策過(guò)程(Markov decision process,MDP)。定義了一個(gè)元組〈S,A,P,R〉來(lái)表示MDP。第二部分為RL系統(tǒng),主要由〈S,A,γ〉 三部分組成。其中S為狀態(tài)空間,狀態(tài)s(s∈S)的表示如下:
st=(et,etarget-et)(1)
其中:et表示當(dāng)前實(shí)體節(jié)點(diǎn)的嵌入;etarget表示目標(biāo)實(shí)體的嵌入。在初始狀態(tài)下,et=eresource。
動(dòng)作空間A中的動(dòng)作a(a∈A)為RL智能體根據(jù)當(dāng)前所在的位置(即當(dāng)前實(shí)體節(jié)點(diǎn)的嵌入et)所選擇的下一個(gè)動(dòng)作。該動(dòng)作a由全連接神經(jīng)網(wǎng)絡(luò)參數(shù)化策略函數(shù)πθ(s,a)的輸出決定。其表示如下:
A={(et,a,en)∈E:S={st};a∈R;et,en∈E}(2)
其中:en表示RL智能體下一個(gè)可能的位置;a表示RL智能體采取的動(dòng)作。
由于全局精度、路徑效率、路徑多樣性會(huì)影響RL智能體找到的路徑質(zhì)量,為了鼓勵(lì)智能體找到預(yù)測(cè)路徑,對(duì)獎(jiǎng)勵(lì)函數(shù)γ分別作出如下表示:
1.3 小結(jié)
為了更直觀地了解基于強(qiáng)化學(xué)習(xí)的知識(shí)推理模型,本文從模型所使用的技術(shù)、優(yōu)缺點(diǎn)等方面對(duì)單層與雙層兩個(gè)角度的強(qiáng)化學(xué)習(xí)知識(shí)推理方法進(jìn)行對(duì)比分析,如表2所示。
在單層強(qiáng)化學(xué)習(xí)的知識(shí)推理介紹中可以看出,DeepPath模型結(jié)構(gòu)比較簡(jiǎn)單,可以有效地進(jìn)行短路徑任務(wù)的推理,但在多跳推理任務(wù)上效果較差。而MINERVA、M-Walk和Multi-Hop模型在改進(jìn)后推理效果比DeepPath模型更好,并且MINERVA與Multi-Hop模型可以更有效地完成多跳推理任務(wù)。RLAT與MMKGR模型應(yīng)用注意力機(jī)制可以更好地關(guān)注知識(shí)圖譜中的關(guān)鍵信息,從而提高多跳推理的性能。
雙層強(qiáng)化學(xué)習(xí)的知識(shí)推理結(jié)合了單層強(qiáng)化學(xué)習(xí)的特點(diǎn),可以將復(fù)雜的推理任務(wù)進(jìn)行分解。CURL與SBS模型將實(shí)體與關(guān)系進(jìn)行分層來(lái)緩解稀疏獎(jiǎng)勵(lì),可以有效解決長(zhǎng)路徑推理問(wèn)題。而RLH和HMR模型是對(duì)抽象概念進(jìn)行分層,模擬人類認(rèn)知的處理結(jié)構(gòu),能夠更好地處理每個(gè)關(guān)系和實(shí)體的多語(yǔ)義問(wèn)題,提高推理效果。
2 強(qiáng)化學(xué)習(xí)知識(shí)推理的應(yīng)用
強(qiáng)化學(xué)習(xí)知識(shí)推理因其具有良好的性能和可解釋性已在多個(gè)領(lǐng)域展現(xiàn)出卓越的應(yīng)用潛力。在知識(shí)圖譜完善和擴(kuò)展中,它通過(guò)自動(dòng)推斷缺失關(guān)系,提高了知識(shí)圖譜的完整性。并且在醫(yī)療決策、交通管理、材料研發(fā)以及在線教育等領(lǐng)域,它為決策提供了更智能、個(gè)性化和高效的解決方案。
2.1 知識(shí)問(wèn)答
問(wèn)答(question answering,QA)系統(tǒng)是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要發(fā)展方向,其目標(biāo)是通過(guò)自然語(yǔ)言交互來(lái)獲取知識(shí)和信息[42]。知識(shí)問(wèn)答能夠?qū)⒂脩粢宰匀徽Z(yǔ)言提出的問(wèn)題轉(zhuǎn)換為與客觀世界相關(guān)的實(shí)體,而不是抽象的字符串,即將自然語(yǔ)言問(wèn)題通過(guò)多種方法轉(zhuǎn)換為結(jié)構(gòu)化的查詢,然后利用知識(shí)圖譜從中獲取答案。然而,計(jì)算機(jī)必須具備廣泛的背景知識(shí)和強(qiáng)大的決策能力才能與人類進(jìn)行順暢的溝通交流。在問(wèn)答過(guò)程中,計(jì)算機(jī)結(jié)合背景知識(shí)來(lái)理解對(duì)話內(nèi)容,并從外部知識(shí)庫(kù)中檢索相關(guān)的知識(shí)并進(jìn)行推理,從而生成恰當(dāng)?shù)幕卮稹VR(shí)圖譜為對(duì)話系統(tǒng)提供了豐富的背景知識(shí),而強(qiáng)化學(xué)習(xí)則能夠從相關(guān)的知識(shí)集合中選擇適當(dāng)?shù)闹R(shí),并利用用戶的隱式負(fù)反饋信息,以確保對(duì)話效果不斷提升。這種結(jié)合知識(shí)圖譜和強(qiáng)化學(xué)習(xí)的方法使得計(jì)算機(jī)能夠更好地理解和回應(yīng)用戶的需求,從而實(shí)現(xiàn)更高質(zhì)量、持續(xù)穩(wěn)步提升的對(duì)話體驗(yàn)。
隨著互聯(lián)網(wǎng)的快速發(fā)展,人們之間的對(duì)話內(nèi)容也在迅速增長(zhǎng)。為了理解這些對(duì)話以及獲得利用對(duì)話中共享信息進(jìn)行推理的能力,Ghosal等人[43]提出了一個(gè)CICERO二元數(shù)據(jù)集,包含五種類型的基于語(yǔ)句級(jí)推理的對(duì)話:原因、后續(xù)時(shí)間、先決條件、動(dòng)機(jī)和情緒反映,提高基于常識(shí)的對(duì)話推理能力。Asai等人[44]提出了跨語(yǔ)言開放檢索答案生成的多對(duì)多回答CORA模型,檢索與問(wèn)題相關(guān)的跨語(yǔ)言文檔,結(jié)合多語(yǔ)言自回歸生成模型,從而直接以目標(biāo)語(yǔ)言回答問(wèn)題。Hung等人[45]提出COQA跨語(yǔ)言開放檢索的MIA共享任務(wù)系統(tǒng),該系統(tǒng)從多語(yǔ)言池中收集證據(jù)文檔并生成問(wèn)題語(yǔ)言的答案。為了最大限度地減少英語(yǔ)和非英語(yǔ)語(yǔ)言在常識(shí)性問(wèn)答任務(wù)中的性能差距,Su等人[46]提出了基于注意力的跨語(yǔ)言常識(shí)知識(shí)轉(zhuǎn)換(cross-lingual commonsense knowledge transfer, CLICKER)框架。Kacupaj等人[47]通過(guò)多任務(wù)學(xué)習(xí)范式設(shè)計(jì)了一種答案表達(dá)框架VOGUE,可以同時(shí)基于問(wèn)題和查詢以混合方法生成口語(yǔ)化的答案。由于現(xiàn)有的問(wèn)題生成模型無(wú)法在非結(jié)構(gòu)化文本中生成大量高質(zhì)量的問(wèn)題-答案對(duì),Liu等人[48]提出了一種基于線索感知問(wèn)題的生成方法ACS-QG,通過(guò)模仿人類提問(wèn)的方式,從未標(biāo)記的文本語(yǔ)料庫(kù)中大規(guī)模自動(dòng)生成高質(zhì)量和多樣化的問(wèn)題-答案對(duì)。
2.2 智能推薦
推薦系統(tǒng)是一種利用互聯(lián)網(wǎng)豐富的信息來(lái)主動(dòng)理解用戶需求并向其推薦信息的技術(shù)。隨著互聯(lián)網(wǎng)的迅速發(fā)展,推薦系統(tǒng)面臨著數(shù)據(jù)稀疏、可解釋性和個(gè)性化定制等諸多挑戰(zhàn)和新需求。為了應(yīng)對(duì)這些問(wèn)題,知識(shí)圖譜被引入到推薦系統(tǒng)中,對(duì)用戶之間的關(guān)系進(jìn)行建模,通過(guò)購(gòu)買同件商品、評(píng)論同一條信息、點(diǎn)贊觀看的視頻等行為來(lái)構(gòu)建知識(shí)圖譜,向推薦系統(tǒng)中引入輔助信息。與傳統(tǒng)的推薦方法不同,基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜推薦通過(guò)在知識(shí)圖譜中探索有意義的路徑(路徑查找),找到從用戶到商品的關(guān)聯(lián)路徑。在這個(gè)過(guò)程中,強(qiáng)化學(xué)習(xí)智能體通過(guò)決策來(lái)進(jìn)行探索,克服了數(shù)據(jù)稀疏性的問(wèn)題,并提高了推薦系統(tǒng)的可解釋性,使得推薦結(jié)果更加符合用戶的需求。通過(guò)利用知識(shí)圖譜中的關(guān)系和信息,強(qiáng)化學(xué)習(xí)智能體能夠更好地理解用戶的偏好和行為,從而進(jìn)行更準(zhǔn)確、個(gè)性化的推薦。
電子商務(wù)網(wǎng)站的爆炸性流行已經(jīng)重塑了用戶的購(gòu)物習(xí)慣,越來(lái)越多的用戶傾向于在網(wǎng)上花費(fèi)更多時(shí)間購(gòu)物。這種發(fā)展使得電子商務(wù)網(wǎng)站能夠收集到關(guān)于用戶的豐富數(shù)據(jù)。大多數(shù)傳統(tǒng)的推薦系統(tǒng)都集中于用戶和商品之間的宏觀交互,特別是顧客的購(gòu)買歷史。對(duì)于購(gòu)買頻率較低的產(chǎn)品或具有較少歷史數(shù)據(jù)的新用戶來(lái)說(shuō),這尤其具有挑戰(zhàn)性。為了解決這個(gè)問(wèn)題,Wang等人[49]提出了一種基于知識(shí)圖譜的意圖網(wǎng)絡(luò)(knowledge graph-based intent network,KGIN)新模型。模型利用GNN遞歸了整個(gè)長(zhǎng)距離連接的關(guān)系序列,提取有關(guān)用戶意圖的有用信息并將其編碼到用戶和物品的表示中,KGIN通過(guò)識(shí)別具有影響力的意圖和關(guān)系路徑為預(yù)測(cè)提供了可解釋性的解釋。Xu等人[50]結(jié)合知識(shí)圖譜和強(qiáng)化學(xué)習(xí),提出了KGDQN模型,通過(guò)TransE來(lái)嵌入目標(biāo)用戶和項(xiàng)目,幫助管理用戶和項(xiàng)目的信息。模型確定合適的推薦項(xiàng)目,并找到從目標(biāo)用戶到推薦項(xiàng)目的推理路徑,對(duì)冗余邊進(jìn)行修剪,DQN模型呈現(xiàn)一個(gè)獎(jiǎng)勵(lì)函數(shù),該函數(shù)給出了推薦項(xiàng)目的結(jié)果和推薦的解釋路徑。與KGDQN模型類似,Liu等人[51]應(yīng)用圖神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)更加個(gè)性化的推薦,提出了基于知識(shí)推理優(yōu)化的知識(shí)圖譜圖卷積網(wǎng)絡(luò)推薦算法(knowledge graph convolutional network, KGCN),應(yīng)用KGCN捕獲更多高階特征,增強(qiáng)個(gè)性化推薦,在嵌入和聚合已完成時(shí)提高個(gè)性化推薦的性能。Lyu等人[52]提出了一種用于可解釋性推薦的知識(shí)增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)(knowledge enhanced graph neural network,KEGNN),將語(yǔ)義知識(shí)應(yīng)用于用戶、物品和用戶-物品交互三個(gè)方面的表示學(xué)習(xí),對(duì)用戶行為圖進(jìn)行語(yǔ)義和關(guān)系的知識(shí)推理。模型將復(fù)制機(jī)制融入門控循環(huán)神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了一種生成模式和復(fù)制模式相結(jié)合的生成器,實(shí)現(xiàn)了人類化的語(yǔ)義解釋生成。
2.3 醫(yī)療領(lǐng)域
智能醫(yī)療領(lǐng)域廣泛應(yīng)用知識(shí)圖譜和知識(shí)推理技術(shù),以提取有效的醫(yī)學(xué)知識(shí)并輔助醫(yī)療決策。知識(shí)圖譜通過(guò)整合臨床醫(yī)學(xué)數(shù)據(jù),建立醫(yī)療知識(shí)圖譜,將核心醫(yī)學(xué)概念以及臨床醫(yī)學(xué)知識(shí)進(jìn)行全方位的覆蓋和規(guī)范化表達(dá)[53]。它提供了從海量的醫(yī)學(xué)文本和圖像信息中抽取結(jié)構(gòu)化知識(shí)的手段,可以應(yīng)用于醫(yī)療知識(shí)問(wèn)答、智能輔助診療、醫(yī)療質(zhì)量控制和疾病風(fēng)險(xiǎn)評(píng)估等領(lǐng)域。在生物醫(yī)藥領(lǐng)域,知識(shí)圖譜和推理技術(shù)被廣泛應(yīng)用于藥物圖譜、疾病圖譜、蛋白質(zhì)圖譜、基因圖譜和藥物分子信息圖譜等[54,55]。
近年來(lái),伴隨人工智能快步發(fā)展以及智能醫(yī)療、精準(zhǔn)醫(yī)療和醫(yī)學(xué)輔助決策的提出,知識(shí)圖譜在醫(yī)學(xué)領(lǐng)域逐漸引起重視,受到國(guó)內(nèi)外研究人員廣泛的關(guān)注[56]。隨著人工智能的發(fā)展,智能醫(yī)療系統(tǒng)發(fā)揮著越來(lái)越重要的作用。傳統(tǒng)的醫(yī)學(xué)問(wèn)答系統(tǒng)只能回答預(yù)設(shè)的問(wèn)題。Shuai等人[57]使用Neo4j來(lái)構(gòu)建知識(shí)圖譜,并利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)用戶問(wèn)題進(jìn)行語(yǔ)義解析。最后,使用Cypher查詢作為問(wèn)題和答案搜索SQL來(lái)完成問(wèn)答。與Shuai等人的方法類似,Kulkarni等人[58]將醫(yī)患之間的對(duì)話包含一些基本信息(過(guò)去的疾病、病史、過(guò)去的治療等)構(gòu)建成醫(yī)學(xué)知識(shí)圖譜,該方法將對(duì)話中提取的信息以元組的形式存儲(chǔ)。并且利用所創(chuàng)建的知識(shí)圖譜,根據(jù)句子的癥狀和過(guò)去的治療情況進(jìn)行疾病預(yù)測(cè)。Kwon等人[59]提出了中風(fēng)醫(yī)學(xué)本體問(wèn)答系統(tǒng),該系統(tǒng)能夠以自然語(yǔ)言形式對(duì)用戶醫(yī)學(xué)知識(shí)進(jìn)行分析,用于醫(yī)學(xué)知識(shí)檢索服務(wù),并自動(dòng)將其轉(zhuǎn)換為結(jié)構(gòu)化查詢語(yǔ)言SPARQL。
2.4 交通領(lǐng)域
隨著城市規(guī)模的迅速增長(zhǎng),交通領(lǐng)域面臨著越來(lái)越多的挑戰(zhàn),包括交通擁堵、交通事故和管理等問(wèn)題。為了應(yīng)對(duì)這些挑戰(zhàn),知識(shí)圖譜在交通領(lǐng)域的應(yīng)用變得更加重要。交通知識(shí)圖譜可以用于構(gòu)建交通網(wǎng)絡(luò)模型和車流分析,從而幫助交通部門更好地了解交通系統(tǒng)的結(jié)構(gòu)和運(yùn)行情況。通過(guò)將交通數(shù)據(jù)、道路網(wǎng)絡(luò)和車輛信息等整合到知識(shí)圖譜中,可以進(jìn)行交通流量預(yù)測(cè)、擁堵熱點(diǎn)分析以及交通優(yōu)化規(guī)劃等工作,為城市交通提供決策支持和智能化管理。此外,知識(shí)推理在交通領(lǐng)域也發(fā)揮著重要作用。通過(guò)利用知識(shí)推理技術(shù),可以從交通數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式和關(guān)聯(lián)性,從而幫助交通部門作出更準(zhǔn)確的決策。例如,基于知識(shí)圖譜的推理可以幫助交通管理者預(yù)測(cè)交通事故風(fēng)險(xiǎn)、優(yōu)化交通信號(hào)燈配時(shí)和規(guī)劃交通路線等,提高交通系統(tǒng)的效率和安全性。
為了整合知識(shí)圖譜和交通網(wǎng)絡(luò)中的信息,在考慮交通時(shí)空特征的同時(shí),還需捕捉各種外部因素對(duì)出行的影響,Zhu等人[60]提出了一種基于時(shí)空?qǐng)D卷積網(wǎng)絡(luò)的知識(shí)表示驅(qū)動(dòng)交通預(yù)測(cè)方法KST-GCN。首先,為交通預(yù)測(cè)構(gòu)建了一個(gè)知識(shí)圖譜,并通過(guò)一種名為KR-EAR的知識(shí)表示學(xué)習(xí)方法推導(dǎo)出知識(shí)表示。然后,使用知識(shí)融合單元,將知識(shí)和交通特征結(jié)合起來(lái),作為時(shí)空?qǐng)D卷積骨干網(wǎng)絡(luò)的輸入。為了解決時(shí)空相關(guān)性和外部條件因素與交通數(shù)據(jù)緊密交織導(dǎo)致預(yù)測(cè)偏差的問(wèn)題,Hua等人[61]提出了一種時(shí)空網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動(dòng)的多層交通知識(shí)圖重構(gòu)(ST-KG)交通預(yù)測(cè)方法,基于GCN-GRU模型構(gòu)建時(shí)空?qǐng)D,捕捉局部時(shí)空?qǐng)D中的時(shí)空相關(guān)性、天氣等外部因素,然后引入多層交通知識(shí)圖重構(gòu)技術(shù)對(duì)模型進(jìn)行重構(gòu),三層交通知識(shí)圖相互遞進(jìn)、相輔相成,最終實(shí)現(xiàn)交通系統(tǒng)的建模。Cunha等人[62]利用強(qiáng)化學(xué)習(xí)環(huán)境中包含的因果結(jié)構(gòu)知識(shí)來(lái)縮短智能體對(duì)狀態(tài)空間的探索需求,設(shè)計(jì)了Q-Cogni框架,改進(jìn)了推理的學(xué)習(xí)過(guò)程,并將Q-Cogni應(yīng)用于車輛路線問(wèn)題,用來(lái)作出最佳路線決策。
2.5 在線教育領(lǐng)域
在在線課程教育領(lǐng)域中,強(qiáng)化學(xué)習(xí)知識(shí)推理扮演著關(guān)鍵角色。通過(guò)深度分析學(xué)生學(xué)習(xí)行為、教育資源和課程知識(shí),該技術(shù)可以為學(xué)生提供個(gè)性化學(xué)習(xí)路徑,根據(jù)其學(xué)習(xí)習(xí)慣和優(yōu)勢(shì)領(lǐng)域進(jìn)行精準(zhǔn)調(diào)整。教育機(jī)構(gòu)則能通過(guò)強(qiáng)化學(xué)習(xí)的知識(shí)推理更好地理解學(xué)生學(xué)習(xí)需求,優(yōu)化教學(xué)決策,實(shí)現(xiàn)實(shí)時(shí)反饋與調(diào)整,并預(yù)測(cè)學(xué)生未來(lái)學(xué)習(xí)趨勢(shì),從而提升在線課程的教學(xué)效果和學(xué)生滿意度。此技術(shù)的應(yīng)用還有助于動(dòng)態(tài)調(diào)整課程內(nèi)容,使其更符合學(xué)生的學(xué)習(xí)效果和興趣,推動(dòng)在線教育向更高質(zhì)量和更高效率的方向發(fā)展。
隨著大規(guī)模在線開放課程的興起,個(gè)性化課程推薦成為其中一項(xiàng)關(guān)鍵的需求。先前基于注意力機(jī)制的推薦模型在推薦不同目標(biāo)課程時(shí)能夠有效區(qū)分用戶的歷史課程,但是當(dāng)用戶對(duì)不同課程產(chǎn)生興趣時(shí),傳統(tǒng)的注意力機(jī)制表現(xiàn)不佳,因?yàn)槠湫Ч麜?huì)在各個(gè)歷史課程之間稀釋。為解決這一問(wèn)題,Zhang等人[63]提出了一種分層強(qiáng)化學(xué)習(xí)算法HRL來(lái)修改用戶的配置文件,并在修改后的配置文件上調(diào)整課程推薦模型,保證了課程推薦的有效性和提高準(zhǔn)確性。然而,在現(xiàn)實(shí)中,除了準(zhǔn)確性之外,用戶還關(guān)心推薦過(guò)程中的合理性即推薦的可解釋性[64,65]。為了提高推薦的可解釋性,Lin等人[66]提出了一種新的可解釋性推薦模型,即知識(shí)感知推理與自監(jiān)督強(qiáng)化學(xué)習(xí)模型(knowledge-aware reasoning with self-supervised reinforcement learning,KRRL),模型將智能體對(duì)KG進(jìn)行的語(yǔ)義感知和路徑推理相結(jié)合,提高課程推薦的準(zhǔn)確性和可解釋性。KRRL不僅構(gòu)建了學(xué)習(xí)過(guò)程中的顯性信息和隱性反饋,并且利用自監(jiān)督策略推薦符合學(xué)習(xí)者知識(shí)結(jié)構(gòu)和課程前提要求的目標(biāo)課程。同樣地,Li等人[67]提出了一種集成強(qiáng)化學(xué)習(xí)的聯(lián)合多關(guān)系GCN知識(shí)推理方法RLURGCN。該方法將知識(shí)表示學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)相結(jié)合,為知識(shí)推理的研究開辟了新的思路。
2.6 材料領(lǐng)域
隨著互聯(lián)網(wǎng)時(shí)代引發(fā)的第四次工業(yè)革命的到來(lái),新材料的研究速度大大落后于對(duì)新性能材料的需求。材料領(lǐng)域知識(shí)與機(jī)器學(xué)習(xí)相結(jié)合已然成為新材料研發(fā)、材料缺陷檢測(cè)的必然趨勢(shì)。研發(fā)方面,在材料成分和性能之間的相互關(guān)系未知的情況下,科學(xué)家只能根據(jù)自己的知識(shí)和技能,通過(guò)反復(fù)的實(shí)驗(yàn)和錯(cuò)誤來(lái)改進(jìn)材料性能,從而實(shí)現(xiàn)新材料的設(shè)計(jì)和開發(fā)。材料科學(xué)積累了大量的領(lǐng)域知識(shí),這些知識(shí)以結(jié)構(gòu)化文本的形式存在于數(shù)據(jù)庫(kù)、論文和其他多源異質(zhì)結(jié)構(gòu)數(shù)據(jù)中。然而,由于缺乏統(tǒng)一的表達(dá)和有效的組織公式,使得它們難以直接用于機(jī)器學(xué)習(xí)。如何收集、組織和管理這些離散的領(lǐng)域知識(shí),充分利用它們來(lái)支持材料研究是一個(gè)迫切需要解決的問(wèn)題。在檢測(cè)方面,現(xiàn)有的研究主要集中在表面缺陷分類上,利用深度學(xué)習(xí)算法的特征提取優(yōu)勢(shì)來(lái)提高分類精度。但存在以下不足:算法沒(méi)有充分利用多源、異構(gòu)的缺陷相關(guān)數(shù)據(jù),如工藝參數(shù)、化學(xué)成分、缺陷圖像、操作日志和經(jīng)驗(yàn)知識(shí);此外,分類結(jié)果不能解釋缺陷的可能原因,這使得很難為生產(chǎn)過(guò)程改進(jìn)提供決策支持。
知識(shí)圖譜是人工智能領(lǐng)域的一項(xiàng)新興技術(shù),在整合多源數(shù)據(jù)方面已經(jīng)顯示出良好的效果,并且在產(chǎn)品開發(fā)、工藝規(guī)劃、資源分配、故障診斷等多個(gè)領(lǐng)域已經(jīng)取得了顯著的成果。知識(shí)圖譜推理通過(guò)構(gòu)造圖數(shù)據(jù)結(jié)構(gòu)化和鏈接,為挖掘潛在的材料信息提供了有效的支持。然而,由于材料數(shù)據(jù)的性質(zhì)導(dǎo)致圖結(jié)構(gòu)不同于基準(zhǔn)數(shù)據(jù)集中常遇到的圖結(jié)構(gòu)。Liu等人[68]構(gòu)建了一個(gè)鋁合金知識(shí)圖譜來(lái)了解這種區(qū)別對(duì)知識(shí)圖譜推理算法性能的影響,并提出了一種基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜推理算法來(lái)克服現(xiàn)有稀疏知識(shí)圖譜算法的局限性,減少了多智能體的空間探索,并通過(guò)一種新的獎(jiǎng)勵(lì)形成機(jī)制來(lái)解決知識(shí)圖譜稀疏的問(wèn)題。同樣地,在材料缺陷檢測(cè)方面知識(shí)圖譜也得到了應(yīng)用。鋼材表面缺陷是影響產(chǎn)品質(zhì)量的重要因素,但目前的研究主要集中在缺陷識(shí)別和分類算法上,對(duì)潛在原因跟蹤和經(jīng)驗(yàn)知識(shí)的重用缺乏應(yīng)用。Zhang等人[69]通過(guò)融合多源異構(gòu)工業(yè)數(shù)據(jù),構(gòu)建了鋼鐵表面缺陷的知識(shí)圖譜,并針對(duì)缺陷檢測(cè)診斷中工業(yè)知識(shí)圖譜的路徑推理問(wèn)題,提出了一種基于策略的強(qiáng)化學(xué)習(xí)方法,綜合考慮了路徑方向、長(zhǎng)度和實(shí)體距離。
3 未來(lái)工作
近年來(lái),現(xiàn)代的基于強(qiáng)化學(xué)習(xí)的知識(shí)推理技術(shù)已經(jīng)有了顯著的進(jìn)步和發(fā)展,但仍存在諸多亟待解決的問(wèn)題,還需要進(jìn)一步深入研究和優(yōu)化現(xiàn)有方法。下面探討基于強(qiáng)化學(xué)習(xí)的知識(shí)推理未來(lái)的研究方向:
a)將生成對(duì)抗學(xué)習(xí)框架應(yīng)用于強(qiáng)化學(xué)習(xí)框架中。目前,大多數(shù)生成對(duì)抗學(xué)習(xí)研究主要集中在圖像處理領(lǐng)域,在強(qiáng)化學(xué)習(xí)知識(shí)推理領(lǐng)域也已經(jīng)取得了一些令人矚目的進(jìn)展。雖然已有的研究在知識(shí)推理應(yīng)用方面表現(xiàn)出色,但是加入生成對(duì)抗學(xué)習(xí)增加了模型的復(fù)雜度,需要大量的數(shù)據(jù)去訓(xùn)練生成器和判別器,從而影響了模型的性能。未來(lái)的研究方向可以考慮在雙層強(qiáng)化學(xué)習(xí)中加入生成對(duì)抗學(xué)習(xí)框架,以此來(lái)降低訓(xùn)練難度。
b)在強(qiáng)化學(xué)習(xí)的知識(shí)推理中引入遷移學(xué)習(xí)。在特定實(shí)體的情況下,動(dòng)作空間中存在許多無(wú)效的選項(xiàng),這導(dǎo)致強(qiáng)化學(xué)習(xí)智能體在路徑挖掘過(guò)程中常常選擇了無(wú)效的動(dòng)作,從而導(dǎo)致推理的中斷和成功率的降低。為了解決這個(gè)問(wèn)題,可以引入遷移學(xué)習(xí)的方法。通過(guò)將先前學(xué)習(xí)到的知識(shí)和經(jīng)驗(yàn)遷移到新的推理任務(wù)中,智能體可以更好地指導(dǎo)其動(dòng)作選擇,避免選擇無(wú)效動(dòng)作,從而提高模型在新領(lǐng)域或任務(wù)上的學(xué)習(xí)速度和性能。
c)動(dòng)態(tài)知識(shí)圖譜推理技術(shù)。目前已有的知識(shí)圖譜推理方法基本上都應(yīng)用在靜態(tài)的知識(shí)圖譜中。然而,現(xiàn)實(shí)中的知識(shí)是隨著時(shí)間不斷發(fā)展的,包含大量的時(shí)序信息。因此動(dòng)態(tài)知識(shí)圖譜推理技術(shù)應(yīng)運(yùn)而生,在推理過(guò)程中通過(guò)動(dòng)態(tài)建模對(duì)時(shí)序信息進(jìn)行處理。例如,可以根據(jù)時(shí)間戳對(duì)事實(shí)進(jìn)行排序,從而捕捉知識(shí)圖譜中的時(shí)序關(guān)系,可以用于解決時(shí)間相關(guān)的推理任務(wù),如預(yù)測(cè)未來(lái)事件、分析歷史事件等。動(dòng)態(tài)知識(shí)圖譜推理技術(shù)具有很大的現(xiàn)實(shí)價(jià)值,需要進(jìn)一步深入探索和研究。
d)對(duì)多模態(tài)知識(shí)圖譜進(jìn)行推理。目前,大多數(shù)知識(shí)圖譜都存在不連通性和稀疏性的問(wèn)題,可以通過(guò)多模態(tài)描述信息(如圖片、視頻、音頻等)對(duì)知識(shí)圖譜進(jìn)行補(bǔ)充。傳統(tǒng)的知識(shí)圖譜主要以文本形式呈現(xiàn),而多模態(tài)知識(shí)圖譜推理則通過(guò)將多種數(shù)據(jù)模態(tài)進(jìn)行結(jié)合,能夠更全面地描述現(xiàn)實(shí)世界中的知識(shí)和關(guān)系。探索如何將不同數(shù)據(jù)模態(tài)進(jìn)行有效的融合,為知識(shí)推理提供更豐富的信息源,成為了重要的研究方向。
e)在大規(guī)模知識(shí)圖譜上引入強(qiáng)化學(xué)習(xí)知識(shí)推理。大規(guī)模知識(shí)圖譜通常更為復(fù)雜,涉及多個(gè)領(lǐng)域、多模態(tài)數(shù)據(jù)和豐富的語(yǔ)義信息。關(guān)系可能更加多樣化,而且實(shí)體之間的關(guān)系可能更加復(fù)雜,可能包含數(shù)百萬(wàn)到數(shù)十億的節(jié)點(diǎn)和邊。如果引入強(qiáng)化學(xué)習(xí)知識(shí)推理,可能會(huì)導(dǎo)致智能體狀態(tài)空間過(guò)大的問(wèn)題??梢詫?duì)大規(guī)模知識(shí)圖譜進(jìn)行分層或者對(duì)實(shí)體和關(guān)系進(jìn)行分層,從而縮小狀態(tài)空間。并考慮引入多頭注意力機(jī)制來(lái)聚焦于知識(shí)圖譜中關(guān)鍵部分,從而降低計(jì)算的復(fù)雜性,所以在大規(guī)模知識(shí)圖譜上引入強(qiáng)化學(xué)習(xí)知識(shí)推理還需要進(jìn)一步的深入研究。
4 結(jié)束語(yǔ)
伴隨著知識(shí)圖譜的快速發(fā)展,如何對(duì)知識(shí)圖譜中缺失的三元組進(jìn)行補(bǔ)全,成為了當(dāng)下熱門的研究課題。由于強(qiáng)化學(xué)習(xí)在知識(shí)圖譜推理上具有良好的性能和可解釋性,受到了研究者們的廣泛關(guān)注。本文從知識(shí)推理的基本概念出發(fā),對(duì)基于強(qiáng)化學(xué)習(xí)的知識(shí)推理相關(guān)研究進(jìn)行了系統(tǒng)的梳理。根據(jù)強(qiáng)化學(xué)習(xí)推理層次的不同,分為單層強(qiáng)化學(xué)習(xí)和多層強(qiáng)化學(xué)習(xí),從這兩個(gè)角度對(duì)基于強(qiáng)化學(xué)習(xí)的推理方法進(jìn)行了分析和總結(jié)。最后,本文介紹了基于強(qiáng)化學(xué)習(xí)的知識(shí)推理在知識(shí)問(wèn)答、智能推薦、醫(yī)療和交通等領(lǐng)域的應(yīng)用,并在此基礎(chǔ)上對(duì)未來(lái)的發(fā)展方向進(jìn)行了展望。
參考文獻(xiàn):
[1]Amit S. Introducing the knowledge graph [R]. America: Official Blog of Google,2012.
[2]肖仰華. 知識(shí)圖譜概念與技術(shù) [M]. 北京: 電子工業(yè)出版社,2020: 2-3.( Xiao Yanghua. Concept and technology of knowledge graph [M]. Beijing: Publishing House of Electronics Industry,2020: 2-3.)
[3]Bollacker K,Evans C,Paritosh P,et al. Freebase: a collaboratively created graph database for structuring human knowledge [C]// Proc of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2008: 1247-1250.
[4]Lehmann J,Isele R,Jakob M,et al. Dbpedia-a large-scale,multilingual knowledge base extracted from Wikipedia [J]. Semantic Web, 2015,6(2): 167-195.
[5]Fabian M,Gjergji K,Gerhard W. Yago: a core of semantic knowledge unifying wordnet and Wikipedia [C]// Proc of the 16th International World Wide Web Conference.New York:ACM Press, 2007: 697-706.
[6]Carlson A,Betteridge J,Kisiel B,et al. Toward an architecture for never-ending language learning [C]// Proc of the 24th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press,2010: 1306-1313.
[7]Seel N M.Encyclopedia of the sciences of learning [M]. Berlin:Springer Science & Business Media,2011: 12-15.
[8]馬昂,于艷華,楊勝利. 基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜研究綜述 [J]. 計(jì)算機(jī)研究與發(fā)展,2022,59(8): 1694-1722. (Ma Ang,Yu Yanhua,Yang Shengli. Survey of knowledge graph based on reinforcement learning [J]. Journal of Computer Research and Development, 2022,59(8): 1694-1722.)
[9]Chen Xiaojun,Jia Shengbin,Xiang Yang. A review: knowledge reasoning over knowledge graph[J]. Expert Systems with Applications,2020,141: 112948.
[10]馬瑞新,李澤陽(yáng),陳志奎,等. 知識(shí)圖譜推理研究綜述[J]. 計(jì)算機(jī)科學(xué),2022,49(6A): 74-85. ( Ma Ruixin,Li Zeyang,Chen Zhikui,et al. Review of reasoning on knowledge graph[J]. Compu-ter Science,2022,49(6A): 74-85.)
[11]Tian Ling,Zhou Xue,Wu Yanping,et al. Knowledge graph and knowledge reasoning: a systematic review[J]. Journal of Electronic Science and Technology,2022,20(2): 100159.
[12]宋浩楠,趙剛,孫若瑩.基于深度強(qiáng)化學(xué)習(xí)的知識(shí)推理研究進(jìn)展綜述[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(1):12-25.( Song Haonan,Zhao Gang,Sun Ruoying. Developments of knowledge reasoning based on deep reinforcement learning[J]. Computer Engineering and Applications,2022,58(1): 12-25.)
[13]侯中妮,靳小龍,陳劍赟,等. 知識(shí)圖譜可解釋推理研究綜述[J]. 軟件學(xué)報(bào),2022,33(12): 4644-4667.( Hou Zhongni,Jin Xiaolong,Chen Jianyun,et al. Review of Knowledge graph interpretable reasoning research [J]. Journal of Software,2022,33(12): 4644-4667.)
[14]唐蕾,牛園園,王瑞杰,等.強(qiáng)化學(xué)習(xí)的可解釋方法分類研究[J].計(jì)算機(jī)應(yīng)用研究,2024,41(6): 1601-1609.( Tang Lei,Niu Yuanyuan,Wang Ruijie,et al. Classification research on interpretable methods of reinforcement learning [J]. Application Research of Computers,2023,41(6): 1601-1609.)
[15]Xiong Wenhan,Hoang T,Wang W Y. Deeppath: a reinforcement learning method for knowledge graph reasoning[EB/OL]. (2018-07-07).https://arxiv.org/abs/1707.06690.
[16]Bordes A,Usunier N,Garcia-Duran A,et al. Translating embeddings for modeling multi-relational data[C]//Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,2013: 2787-2795.
[17]Williams R J. Simple statistical gradient-following algorithms for connectionist renforcement learning[J]. Reinforcement Learning,1992,8(3-4): 5-32.
[18]Kingma D P,Ba J. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30).https://arxiv.org/abs/1412.6980.
[19]Das R,Dhuliawala S,Zaheer M,et al. Go for a walk and arrive at the answer: reasoning over paths in knowledge bases using reinforcement learning[EB/OL]. (2018-12-30).https://arxiv.org/abs/1711.05851.
[20]Hochreiter S,Schmidhuber J. Long short-term memory[J]. Neural Computation,1997,9(8): 1735-1780.
[21]Shen Yelong,Chen Jianshu,Huang Posen,et al. M-walk: learning to walk over graphs using monte carlo tree search[C]//Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,2018: 6786-6797.
[22]Sutton R S,Barto A G. Reinforcement learning: an introduction[M]. Combridge, MA: MIT Press,2018.
[23]Sherstinsky A. Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network[J]. Physica D: Nonlinear Phenomena,2020,404: 132306.
[24]Rosin C D. Multi-armed bandits with episode context[J]. Annals of Mathematics and Artificial Intelligence,2011,61(3): 203-230.
[25]Silver D,Schrittwieser J,Simonyan K,et al. Mastering the game of go without human knowledge[J]. Nature,2017,550(7676): 354-359.
[26]Lin X V,Socher R,Xiong Caiming. Multi-hop knowledge graph reasoning with reward shaping[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: ACL Press,2018: 3243-3253.
[27]Dettmers T,Minervini P,Stenetorrp P,et al. Convolutional 2D know-ledge graph embeddings[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018:1811-1818.
[28]Trouillon T,Welbl J,Riedel S,et al. Complex embeddings for simple link prediction[C]//Proc of the 33rd International Corference on Mathine Learning,[S.l.]: PMLR Press,2018: 2071-2080.
[29]Bai Luyi,Chai Die,Zhu Lin. RLAT: multi-hop temporal knowledge graph reasoning based on reinforcement learning and attention mechanism[J]. Knowledge-Based Systems,2023,269: 110514.
[30]Liu Ye,Li Hui,Garcia-Duran A,et al. MMKG: multi-modal know-ledge graphs[C]//Proc of the 16th International Conference on Semantic Web. Berlin:Springer International Publishing,2019: 459-474.
[31]Tang Xing,Chen Ling,Cui Jun,et al. Knowledge representation lear-ning with entity descriptions,hierarchical types,and textual relations[J]. Information Processing & Management,2019,56(3): 809-822.
[32]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,2017:5998-6008.
[33]Wang Xiaolong,Girshick R,Gupta A,et al. Non-local neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ:IEEE Press,2018: 7794-7803.
[34]Zheng Shangfei,Wang Weiqing,Qu Jianfeng,et al. MMKGR: multi-hop multi-modal knowledge graph reasoning[C]//Proc of the 39th IEEE International Conference on Data Engineering. Piscataway,NJ:IEEE Press,2023: 96-109.
[35]Wan Guojia,Pan Shirui,Gong Chen,et al. Reasoning like human: Hierarchical reinforcement learning for knowledge graph reasoning[C]//Proc of the 29th International Conference on International Joint Conferences on Artificial Intelligence. San Francisco,CA: Morgan Kaufmann,2021: 1926-1932.
[36]MacQueen J. Classification and analysis of multivariate observations[C]//Proc of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967: 281-297.
[37]Sutton R S,McAllester D,Singh S,et al. Policy gradient methods for reinforcement learning with function approximation[C]//Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,1999: 1057-1063.
[38]Xiao Han,Huang Minlie,Hao Yu,et al. TransG: a generative mixture model for knowledge graph embedding[EB/OL]. (2017-09-08). https://arxiv.org/abs/1509.05488.
[39]Zhang Denghui,Yuan Zixuan,Liu Hao,et al. Learning to walk with dual agents for knowledge graph reasoning[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2022: 5932-5941.
[40]Zhu Anjie,Ouyang Deqiang,Liang Shuang,et al. Step by step: a hierarchical framework for multi-hop knowledge graph reasoning with reinforcement learning[J]. Knowledge-Based Systems,2022,248: 108843.
[41]Wang Zikang,Li Linjing,Zeng D. Hierarchical multi-hop reasoning on knowledge graphs[J]. IEEE Intelligent Systems,2021,37(1): 71-78.
[42]王文廣.知識(shí)圖譜推理:現(xiàn)代的方法與應(yīng)用[J].大數(shù)據(jù),2021,7(3): 42-59.( Wang Wenguang. Knowledge graph reasoning: mo-dern methods and applications[J]. Big Data Research,2021,7(3): 42-59.)
[43]Ghosal D,Shen Siqi,Majumder N,et al. CICERO: a dataset for contextualized commonsense inference in dialogues[EB/OL]. (2022-04-07). https://arxiv.org/abs/2203.13926.
[44]Asai A,Yu X,Kasai J,et al. One question answering model for many languages with cross-lingual dense passage retrieval[C]// Advances in Neural Information Processing Systems. Combridge, MA: MIT Press,2021: 7547-7560.
[45]Hung C C,Green T,Litschko R,et al. ZusammenQA: data augmentation with specialized models for cross-lingual open-retrieval question answering system[EB/OL]. (2022-05-30).https://arxiv.org/abs/2205.14981.
[46]Su Ruolin,Sun Zhongkai,Lu Sixing,et al. CLICKER: attention-based cross-lingual commonsense knowledge transfer[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2023: 1-5.
[47]Kacupaj E,Premnadh S,Singh K,et al. Vogue: answer verbalization through multi-task learning[C]//Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Cham: Springer International Publishing,2021: 563-579.
[48]Liu Bang,Wei Haojie,Niu Di,et al. Asking questions the human way: scalable question-answer generation from text corpus[C]//Proc of Web Conference. 2020: 2032-2043.
[49]Wang Xiang,Huang Tinglin,Wang Dingxian,et al. Learning intents behind interactions with knowledge graph for recommendation[C]//Proc of Web Conference. New York: ACM Press,2021: 878-887.
[50]Xu Wenyi,Gao Xiaofeng,Sheng Yin,et al. Recommendation system with reasoning path based on DQN and knowledge graph[C]//Proc of the 15th International Conference on Ubiquitous Information Ma-nagement and Communication. Piscataway,NJ:IEEE Press,2021: 1-8.
[51]Liu Tiyong,Cheng Shiwei. A recommender algorithm based on know-ledge graph convolutional network and knowledge reasoning optimization[C]//Proc of the 26th International Conference on Computer Supported Cooperative Work in Design. Piscataway,NJ:IEEE Press,2023: 1287-1292.
[52]Lyu Ziyu,Wu Yue,Lai Junjie,et al. Knowledge enhanced graph neural networks for explainable recommendation[J]. IEEE Trans on Knowledge and Data Engineering,2022,35(5):4954-4968.
[53]Tian Ling,Zhang Jinchuan,Zhang Jinhao,et al. Knowledge graph survey:representation, construction, reasoning and knowledge hypergraph theory[J]. Journal of Computer Applications,2021,41(8): 2161-2186.
[54]Zheng Shuangjia,Rao Jiahua,Song Ying,et al. PharmKG: a dedicated knowledge graph benchmark for bomedical data mining[J]. Briefings in Bioinformatics,2021,22(4): bbaa344.
[55]Wishart D S,F(xiàn)eunang Y D,Guo A C,et al. DrugBank 5.0: a major update to the DrugBank database for 2018[J]. Nucleic Acids Research,2018,46(D1): 1074-1082.
[56]董文波,孫仕亮,殷敏智. 醫(yī)學(xué)知識(shí)推理研究現(xiàn)狀與發(fā)展[J]. 計(jì)算機(jī)科學(xué)與探索,2022,16(6): 1193-1213.( Dong Wenbo,Sun Shiliang,Yin Minzhi. Research and development of medical know-ledge graph reasoning[J]. Journal of Frontiers of Computer Science and Technology,2022,16(6): 1193-1213.)
[57]Shuai Qianjun,Wei Mingjie,Miao Fang,et al. Research on intelligent question answering system based on medical knowledge graph[C]//Proc of the 4th IEEE Advanced Information Technology,Electronic and Automation Control Conference. Piscataway,NJ:IEEE Press,2019,1: 240-243.
[58]Kulkarni R,Haribhakta Y. Building the knowledge graph from medical conversational text data and its applications[C]//Proc of the 4th International Conference on Advances in Computing,Communication Control and Networking. Piscataway,NJ:IEEE Press,2022: 1508-1513.
[59]Kwon S,Yu J,Park S,et al. Stroke medical ontology QA system for processing medical queries in natural language form[C]//Proc of International Conference on Information and Communication Technology Convergence. Piscataway,NJ:IEEE Press,2021: 1649-1654.
[60]Zhu Jiawei,Han Xing,Deng Hanhan,et al. KST-GCN: a knowledge-driven spatial-temporal graph convolutional network for traffic forecasting[J]. IEEE Trans on Intelligent Transportation Systems,2022,23(9): 15055-15065.
[61]Hua Xin,Liu Wei. Spatial-temporal network data-driven multi-layer traffic knowledge graph reconstruction for dynamic prediction[C]//Proc of the 4th International Conference on Robotics and Computer Vision. Piscataway,NJ:IEEE Press,2022: 20-24.
[62]Cunha C,Liu W,F(xiàn)rench T,et al. Q-Cogni: an integrated causal reinforcement learning framework[EB/OL]. (2023-02-26). https://arxiv.org/abs/2302.13240.
[63]Zhang Jing,Hao Bowen,Chen Bo,et al. Hierarchical reinforcement learning for course recommendation in MOOCs[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press,2019: 435-442.
[64]Lin Yuanguo,F(xiàn)eng Shibo,Zeng Wenhua,et al.Adaptive course re-commendation in MOOCs[J].Knowledge-Based Systems,2021,224(7):107085.
[65]Chen Zhongxia,Wang Xiting,Xie Xing,et al.Towards Explainable Conversational Recommendation[C]//Proc of the 29th International Joint Conference on Artificial Intelligence. San Francisco,CA: Morgan Kaufmann,2021: 2994-3000.
[66]Lin Yuanguo,Zhang Wei,Lin Fan,et al. Knowledge-aware reasoning with self-supervised reinforcement learning for explainable recommendation in MOOCs[J]. Neural Computing and Applications,2023,36(8): 4115-4132.
[67]Li Gang,Han Ruixin. A hybrid reasoning method of knowledge graph for on-line arts education based on reinforcement learning[C]//Proc of the 7th International Conference on Computer and Communication Systems. Piscataway,NJ:IEEE Press,2022: 909-914.
[68]Liu Jian,Qian Quan. Reinforcement learning-based knowledge graph reasoning for aluminum alloy applications[J]. Computational Materials Science, 2023, 221: 112075.
[69]Zhang Yufei,Wang Hongwei,Shen Weiming,et al. DuAK: reinforcement learning-based knowledge graph reasoning for steel surface defect detection[J]. IEEE Trans on Automation Science and Engineering,2023(Early Access):1-13.
收稿日期:2023-11-03;修回日期:2024-02-01 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(62066038,61962001);寧夏自然科學(xué)基金資助項(xiàng)目(2021AAC03215);中央高??蒲袠I(yè)務(wù)費(fèi)資助項(xiàng)目(2019KYQD04,2022PT_S04,2021JCYJ12)
作者簡(jiǎn)介:劉世俠(2000—),男(壯族),廣西貴港人,碩士研究生,CCF會(huì)員,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、知識(shí)推理;李衛(wèi)軍(1979—),男(通信作者),陜西渭南人,講師,碩導(dǎo),博士,主要研究方向?yàn)楸倔w的構(gòu)建與重用、知識(shí)圖譜的構(gòu)建(lwj@nmu.edu.cn);劉雪洋(1999—),女,河南南陽(yáng)人,碩士研究生,CCF會(huì)員,主要研究方向?yàn)橹R(shí)圖譜推理;丁建平(1999—),男,四川資陽(yáng)人,碩士研究生,CCF會(huì)員,主要研究方向?yàn)槊麑?shí)體識(shí)別;蘇易礌(2000—),男(土家族),湖南常德人,碩士研究生,主要研究方向?yàn)閳D卷積神經(jīng)網(wǎng)絡(luò)文本分類;李浩南(1997—),男,寧夏銀川人,碩士研究生,主要研究方向?yàn)橹R(shí)圖譜推理.