劉 佳 張心祺 張承坤
(1.吉林大學商學與管理學院,吉林 長春 130012;2.長春中醫(yī)藥大學基礎醫(yī)學院,吉林 長春 130117)
藏醫(yī)文化是中國傳統(tǒng)醫(yī)學文化的重要組成部分,深受儒釋道文化的影響,具有鮮明的民族特色與中國特色。藏醫(yī)是世界四大傳統(tǒng)醫(yī)學之一,以青藏高原醫(yī)學理論與實踐為基礎,融合中醫(yī)學、印度醫(yī)學等各類醫(yī)學精華,具有系統(tǒng)的理論體系、用藥特色和獨特的臨床療效。藏醫(yī)古籍文獻作為藏醫(yī)文化和藏醫(yī)知識的重要載體,是藏族人民在特殊自然環(huán)境中不斷摸索和創(chuàng)造出的智慧結(jié)晶,是少數(shù)民族醫(yī)學中珍貴的文化遺產(chǎn)。習總書記在黨的二十大報告中指出:“加大文物和文化遺產(chǎn)保護力度,加強城鄉(xiāng)建設中歷史文化保護傳承,建好用好國家文化公園”[1]。藏醫(yī)古籍既是凝聚藏醫(yī)知識和藏族文明的瑰寶,也是堅定文化自信、深化文明交流互鑒的依據(jù)。在大數(shù)據(jù)、知識圖譜、數(shù)據(jù)挖掘等智能信息技術空前發(fā)展的背景下,源于“人文計算”的數(shù)字人文的發(fā)展,為古籍資源的開發(fā)與利用注入了新的活力與思路,也為書寫在醫(yī)學古籍上的文字在新時代綻放異彩帶來了新的契機。
在國家“實施國家古籍保護工程”“統(tǒng)籌推進古籍整理出版數(shù)字化,建設包括古籍資源在內(nèi)的中華文化資源數(shù)據(jù)庫”等重要政策的推動下,2018年,青海省藏醫(yī)藥研究院發(fā)文稱600余種藏醫(yī)藥古籍文獻借數(shù)字化重獲“新生”。2021年,國家“藏醫(yī)藥產(chǎn)業(yè)技術創(chuàng)新服務平臺公共服務體系建設”項目通過驗收,建成了藏漢雙語平臺門戶網(wǎng)站、信息管理系統(tǒng)和藏醫(yī)藥知識產(chǎn)權信息管理系統(tǒng),建立了藏醫(yī)藥文獻、藏醫(yī)藥標準規(guī)范、藏醫(yī)診療技術、藏醫(yī)瘟疫病防治等18個藏醫(yī)藥科技資源數(shù)據(jù)庫。藏醫(yī)學古籍的數(shù)字化建設為其深度開發(fā)與利用奠定了重要的基礎。
但是,當前的藏醫(yī)資源數(shù)據(jù)庫大多只是在文獻層面實現(xiàn)信息的組織與發(fā)布,對藏醫(yī)古籍知識內(nèi)容缺乏足夠的描述、挖掘與提取,導致現(xiàn)有藏醫(yī)資源平臺信息服務價值較低,無法為藏醫(yī)學研究與藏醫(yī)藥的開發(fā)創(chuàng)新提供足夠的支持與保障。為了進一步深度開發(fā)與利用藏醫(yī)古籍知識資源,本文嘗試以藏醫(yī)古籍服務平臺為基礎,探討綜合運用人文計算技術實現(xiàn)藏醫(yī)古籍知識服務功能的方法。
國內(nèi)外學術界早已關注傳統(tǒng)醫(yī)學文獻的深度組織與開發(fā)利用。在基礎建設方面,Kvitting A S等[2]在關于全科醫(yī)學知識庫建設的研究中提出,全面系統(tǒng)的醫(yī)學文獻知識庫有利于臨床醫(yī)務人員的醫(yī)學實踐以及領域內(nèi)相關人員的教育實習。Naghizadeh A等[3]在對傳統(tǒng)醫(yī)學通用本體和知識庫的研究中指出,在解決概念本體的構(gòu)建問題時,通過文本挖掘和人工檢查來保證提取術語的全面性,彌合傳統(tǒng)醫(yī)藥之間的差距,有助于指導未來的藥物發(fā)現(xiàn)研究。童麗等[4]借鑒計算機技術和統(tǒng)計學方法,提出藏藥數(shù)據(jù)挖掘平臺的設計思路。在此基礎上,葉西多杰生等[5]闡述了藏文和藏醫(yī)古籍文獻數(shù)字化現(xiàn)狀,并基于知識元對藏醫(yī)本草語義元數(shù)據(jù)進行了描述。娘本先等[6]探索了基于Web數(shù)據(jù)庫技術的藏醫(yī)古籍本草知識庫的構(gòu)建思路,并指出具有知識檢索和知識推理能力的知識庫,是當前藏醫(yī)古籍整理、傳承和創(chuàng)新研究中的重要內(nèi)容。李雪等[7]經(jīng)過5年的整理,首次以藏文、漢文、英文和藏文拉丁文轉(zhuǎn)寫作為國際規(guī)范和標準及成果進行推廣,首次以信息化平臺建設的形式對藏醫(yī)藥古籍文獻進行永久性數(shù)字化保存、保護及傳播,并以發(fā)明專利、著作權登記等形式對藏醫(yī)藥古籍文獻進行知識產(chǎn)權的保護??ㄖ艿萚8]指出,建設藏醫(yī)學文獻數(shù)據(jù)庫在一定程度上是保護藏醫(yī)學術再生的有效措施,并在后續(xù)研究中詳細闡述了青海省藏醫(yī)藥研究院和中國中醫(yī)科學院建設的藏醫(yī)藥文獻整理與共享服務平臺的設計與實現(xiàn)[9]。文成當智等[10]則整理總結(jié)出由“編號—方源—名稱—組成—效用—附錄—備注”七位一體的主體框架和18個展開項共同構(gòu)成的藏藥方劑底層數(shù)據(jù)架構(gòu),為方劑知識庫構(gòu)建與知識發(fā)現(xiàn)奠定了基礎。
數(shù)據(jù)挖掘技術在病癥診斷和用藥規(guī)律的研究中受到學者重視。更藏加[11]從古籍和現(xiàn)代著作數(shù)據(jù)庫中篩選治療HAPC、HAPE的方劑文本,采用文獻計量與數(shù)據(jù)挖掘等技術,對方劑配伍規(guī)律與常用藥物作用機制進行研究,并通過臨床試驗,驗證了藥物的臨床療效;聶佳[12]從古籍和數(shù)據(jù)庫中搜索高原病方劑并建立藏醫(yī)藥防治高原病方數(shù)據(jù)庫,運用關聯(lián)規(guī)則、熵聚類等數(shù)據(jù)挖掘技術發(fā)現(xiàn)用藥組方規(guī)律及配伍原則,運用靶點預測等數(shù)據(jù)挖掘方法研究具體藥物對高原病治療的作用機制,為藥物—疾病作用機制的發(fā)現(xiàn)提供新思路;羅彬[13]將數(shù)據(jù)挖掘技術、推薦算法與藏醫(yī)用藥理論結(jié)合,借助青海省藏醫(yī)院積累的電子病歷數(shù)據(jù),設計并實現(xiàn)了藏醫(yī)用藥決策支持原型系統(tǒng),輔助醫(yī)生進行臨床用藥決策。上述研究均需以自行搜集、整理相關的藏醫(yī)文獻資源和知識資源為前提,已有藏醫(yī)文獻數(shù)據(jù)庫并不能為科研工作者的學術研究提供足夠的知識檢索、輔助分析等功能支持。
藏醫(yī)古籍文獻的知識組織與知識服務方面的研究仍然較少,已有文獻談及藏醫(yī)文獻服務平臺的綜合性服務功能,信息檢索、可視化分析、數(shù)據(jù)挖掘等,但較少文章從為專業(yè)用戶服務的視角對藏醫(yī)古籍服務平臺的知識服務功能設計與實現(xiàn)方法進行研究。
藏醫(yī)古籍是藏醫(yī)學的主要知識來源,記載了古代的醫(yī)學理論知識與實踐經(jīng)驗,蘊含豐富的哲學思想和生命科學信息,將知識服務功能應用于藏醫(yī)古籍服務平臺中,可以為藏醫(yī)學研究者、從業(yè)者、醫(yī)生等提供更加精準、專業(yè)的服務,對藏醫(yī)知識與經(jīng)驗的傳承與創(chuàng)新具有重要的價值。
對藏醫(yī)古籍知識資源進行更精細的知識表示與語義組織是數(shù)智時代文化遺產(chǎn)保護與活化的必然要求,也為人文計算在藏醫(yī)知識研究中的新發(fā)展提供了充分的資源基礎與保障。本文采用語義知識本體與知識圖譜來實現(xiàn)對藏醫(yī)古籍知識的描述與可視化展示。知識圖譜本質(zhì)上是真實世界中存在的各種實體、概念及其關系構(gòu)成的語義網(wǎng)絡圖,用于形式化地描述真實世界中各類事物及其關聯(lián)關系[14]。知識圖譜由模式層和數(shù)據(jù)層構(gòu)成。模式層用于描述知識結(jié)構(gòu)模型,通過概念與概念之間的關系呈現(xiàn),數(shù)據(jù)層包含具體的數(shù)據(jù)內(nèi)容,通常以三元組的形式來進行描述。領域本體是描述特定領域知識的一種專門本體,是將領域的知識概念與概念間關系以結(jié)構(gòu)化的形式進行表示的方法,并具有一定的推理能力。本文以藏醫(yī)古籍知識本體模型為模式層構(gòu)建藏醫(yī)古籍知識圖譜。
藏醫(yī)古籍服務平臺的知識組織是基于本體方法構(gòu)建知識圖譜來實現(xiàn)數(shù)據(jù)建構(gòu)的。基于本體的知識圖譜能夠清晰展示專業(yè)知識及知識間的關聯(lián),為數(shù)據(jù)挖掘、知識發(fā)現(xiàn)與知識推理提供數(shù)據(jù)基礎。本文所設計的藏醫(yī)古籍服務平臺主要面向藏醫(yī)學研究人員、醫(yī)生、從業(yè)者提供專業(yè)知識服務,從用戶需求考慮,在構(gòu)建藏醫(yī)古籍本體模型時,主要從古籍內(nèi)容知識與古籍文獻知識兩個層面來描述藏醫(yī)古籍知識。
古籍具有重要的文獻價值和文物價值,是古籍形式和藏醫(yī)知識的統(tǒng)一體。古籍文獻知識的描述與表示,對于古籍的辨?zhèn)?、??薄⒀芯恐邪姹镜倪x擇具有重要意義。筆者利用CNKI,以“藏醫(yī)*古籍*版本”“古籍*版本”“古籍*著錄”“古籍*信息組織”為檢索詞獲取與藏醫(yī)古籍文獻特征相關的研究論文,并以《中國中醫(yī)古籍總目》《古籍著錄細則》《中華古籍總目編目規(guī)則》作為古籍文獻信息的補充,共同作為文獻本體構(gòu)建的語料,提取藏醫(yī)古籍載體的相關概念。根據(jù)相關文獻內(nèi)容,總結(jié)、歸納概念之間的關系,綜合復用古籍本體與中醫(yī)文獻元數(shù)據(jù),形成藏醫(yī)文獻本體模型,由題名類、版本類、語種類、形態(tài)類、時間類、地點類、人物類、組織類8個核心類構(gòu)成,用于藏醫(yī)古籍文獻知識的描述。
《四部醫(yī)典》是一部集藏醫(yī)藥醫(yī)療實踐和理論精華于一體的藏醫(yī)藥學術權威工具書,被譽為藏醫(yī)藥百科全書,為藏醫(yī)藥學中最系統(tǒng)、最完整、最根本的一套理論體系[15],是各藏醫(yī)學院和藏醫(yī)醫(yī)院以及各大寺院的醫(yī)明學院必學的基本教材。本文藏醫(yī)古籍內(nèi)容本體的構(gòu)建以《四部醫(yī)典》為主要參考資料,由于其內(nèi)容集藏醫(yī)理論與實踐于一體,因此所構(gòu)建的藏醫(yī)古籍內(nèi)容本體能夠覆蓋藏醫(yī)學的理論與實踐知識。依據(jù)《四部醫(yī)典》的內(nèi)容與體系結(jié)構(gòu),并參考中醫(yī)古籍本體、中醫(yī)古籍知識圖譜的相關研究論文,對藏醫(yī)藥學的知識體系、知識內(nèi)容進行分析,形成對藏醫(yī)知識內(nèi)容結(jié)構(gòu)的初步認識。根據(jù)《四部醫(yī)典》的知識內(nèi)容,藏醫(yī)知識可分為理論知識和實踐知識兩大類,在各章中選取部分原文,用Excel提取原文中的術語、上位術語,術語的概念和概念來源,結(jié)合原文注解、詞句特點解析語料結(jié)構(gòu),利用《簡明藏醫(yī)辭典》等工具書和研究論文,確定上位術語與術語的定義,確定與藏醫(yī)知識內(nèi)容相關的概念,在分別確定概念含義的基礎上,對這些概念之間的關系進行進一步分析,參考傳統(tǒng)中醫(yī)藥學語言系統(tǒng)的語義網(wǎng)絡框架(ISO/TS 17938-2014),以及在藏醫(yī)研究論文中提出的概念之間的關系,提取并確定藏醫(yī)古籍知識概念關系,將從古籍內(nèi)容中提取的關系與已有成熟標準進行對照,進一步細化概念關系,構(gòu)建藏醫(yī)古籍內(nèi)容本體模型。圖1展示了藏醫(yī)古籍的本體模型。
圖1 藏醫(yī)古籍知識本體模型
藏醫(yī)古籍知識概念之間形成了18種概念間關系,表1具體描述了關系的含義與表示形式。
表1 藏醫(yī)古籍知識概念關系表
在此基礎上,利用分詞、實體識別與關系抽取等知識處理技術,從《四部醫(yī)典》中進行實體識別與關系抽取,并采用人工驗證和修改的方式,手動驗證自動構(gòu)建的實體數(shù)據(jù),并修復其中的錯誤、遺漏和重復,確保數(shù)據(jù)抽取的準確性。利用neo4j圖數(shù)據(jù)庫存儲藏醫(yī)古籍知識數(shù)據(jù),以可視化的形式展示藏醫(yī)古籍的知識與知識關聯(lián),如圖2所示,并以此為數(shù)據(jù)基礎,設計藏醫(yī)古籍服務平臺。
圖2 部分藏醫(yī)古籍知識圖譜
為了向平臺用戶提供優(yōu)質(zhì)的知識服務,藏醫(yī)古籍服務平臺從3個方面進行功能設計,分別是以知識圖譜為基礎提供知識檢索服務,基于知識圖譜推理算法提供藏醫(yī)知識推理服務,以用戶偏好為導向提供知識推薦服務。在此實踐中,知識服務效果具體體現(xiàn)在兩個方面:提高藏醫(yī)古籍服務平臺對用戶需求的匹配度,為藏醫(yī)學研究提供細粒度數(shù)據(jù)支持;提高藏醫(yī)古籍服務平臺對用戶需求的判斷精準度,主動、準確推薦迎合用戶專業(yè)興趣的藏醫(yī)古籍知識。
藏醫(yī)古籍知識圖譜蘊含豐富的藏醫(yī)知識以及知識之間的關聯(lián)關系,為藏醫(yī)語義知識查詢提供了標準化的知識表示。在進行知識圖譜查詢時,盡管三元組查詢具有很強的表達能力,但因為他們在實施查詢時執(zhí)行嚴格的布爾匹配,查詢結(jié)果比較局限,所以為三元組查詢配備靈活的查詢機制是非常必要的。本文基于藏醫(yī)知識圖譜的語義關系對檢索關鍵詞進行擴展,以提高知識圖譜檢索的效率與效果。
3.1.1 語義查詢擴展算法
基于語義查詢擴展的藏醫(yī)古籍知識檢索設計的重點在于擴展關鍵詞的選擇與檢索結(jié)果的排序。
首先需要對用戶的檢索需求進行解析,確定查詢的實體對象,即檢索關鍵詞。擴展關鍵詞的選擇則基于藏醫(yī)古籍知識圖譜的概念圖譜與實例圖譜。將用戶的檢索關鍵詞映射到藏醫(yī)古籍知識圖譜中對應的概念,然后再根據(jù)藏醫(yī)古籍知識圖譜中的語義關系對概念進行擴展。具體的擴展方式包括根據(jù)藏醫(yī)古籍知識圖譜的概念結(jié)構(gòu)關系向檢索概念的同義詞擴展,向上位概念與下位概念擴展,向相關概念擴展,以及根據(jù)實例知識圖譜向概念的相關實例擴展。上述擴展方式在知識圖譜中大多表現(xiàn)為上下位的關系,對于概念節(jié)點距離相同的情況,需要依據(jù)概念之間關系類型的不同,確定擴展概念對檢索結(jié)果的重要性程度。概念節(jié)點之間的距離,以及概念節(jié)點間的關系類型決定了概念間的語義相似度,是確定查詢擴展范圍的主要依據(jù),也是檢索結(jié)果排序的重要依據(jù)。
根據(jù)藏醫(yī)古籍知識的結(jié)構(gòu)特征,綜合采用基于路徑距離的相似度、基于信息內(nèi)容的相似度、基于概念屬性的相似度與基于子節(jié)點重合度的相似度來進行概念對的相似度計算。
對于路徑距離的相似度計算,應用Leacock等提出的概念語義距離相似度計算公式[16],在計算概念的相似度時,綜合考慮概念之間的最短距離與其在概念圖譜中的最大深度:
(1)
RCPN(c1,c2)表示概念c1和概念c2在知識圖譜中的最近公共父節(jié)點,dp(RCPN(c1,c2),c1)表示概念c1和概念c2的最近公共父節(jié)點在概念c1所在的概念圖譜中的深度,max(dp(c1))表示概念c1所在概念圖譜的最大深度。
信息內(nèi)容相似度計算上,參考許飛翔等[16]提出的結(jié)合概念關系貢獻度的方法來計算信息內(nèi)容相似度:
(2)
IC(c1)和IC(c2)分別表示概念c1和c2包含的信息量。sr(c1,c2)表示概念關系的貢獻度,對于概念關系貢獻度的計算,將藏醫(yī)古籍知識圖譜中的關系類型具體劃分為同義關系、繼承關系、整體與部分關系、同位關系、空間關系、時間關系、因果關系與條件關系。綜合考慮概念關系的重要性程度,并根據(jù)領域?qū)<业慕ㄗh,為具體的概念關系賦予不同的權重。
在基于概念屬性的相似度計算上,借鑒張忠平等[17]提出的綜合計算屬性名稱、屬性數(shù)據(jù)類型和屬性值3個要素的相似度計算方法。對于概念c1的屬性a和概念c2的屬性b之間的相似度計算公式為:
Simab(a,b)=ω1×sim(aname,bname)+ω2×sim(atype,btype)+ω3×sim(avalue,bvalue)
(3)
其中,name、type、value分別對應屬性名稱、屬性數(shù)據(jù)類型和屬性值,ω1+ω2+ω3=1表示屬性名稱相似度、屬性數(shù)據(jù)類型相似度和屬性值相似度的權重和。當兩個概念之間有m個共有屬性時,可以計算出m個屬性相似度結(jié)果,設每個相似度結(jié)果的權重為ωk,則兩個概念間屬性的相似度計算公式為:
(4)
參考許飛翔等[16]提出的子節(jié)點重合度的相似度計算思想,兩個概念之間具有的相同子節(jié)點的數(shù)量越多,說明兩個概念之間的相似度越高。根據(jù)子節(jié)點重合度計算概念相似度的公式為:
(5)
LN(c1∪c2)表示概念c1和概念c2所包含的子節(jié)點集合中全部元素的個數(shù),LN(c1∩c2)表示概念c1和概念c2子節(jié)點交集中元素的個數(shù)。
綜合以上算法,根據(jù)不同相似度計算方法對語義的作用程度,得出知識圖譜中概念c1和概念c2之間語義相似度的計算公式:
Sim(C1,C2)=ωSimsd(c1,c2)+θ(Simpr(c1,c2)+Simic(c1,c2)+Simln(c1,c2))
(6)
其中,ω和θ是權重,ω+θ=1,ω>θ。
根據(jù)上述方法,可以以藏醫(yī)古籍知識圖譜為基礎,確定基于檢索關鍵詞的語義擴展范圍,并據(jù)此確定檢索結(jié)果的排序。
3.1.2 語義查詢擴展算法應用于知識檢索的優(yōu)勢
語義查詢擴展算法充分利用了藏醫(yī)古籍知識圖譜中豐富的概念與概念之間的語義關系進行擴展檢索。在用戶表達出的原始查詢意圖的基礎上,通過進一步擴充檢索關鍵詞的方法,在不犧牲檢索精度的同時,提高了檢索的召回率。綜合多種概念相似度算法的結(jié)果排序方式,既能夠滿足用戶精確檢索的需求,同時通過對相關藏醫(yī)古籍知識的展示,能夠進一步挖掘藏醫(yī)古籍服務平臺用戶的潛在需求,幫助用戶發(fā)現(xiàn)自己不熟悉但卻有重要啟發(fā)意義的藏醫(yī)領域知識,因此,語義查詢擴展算法對于專業(yè)知識檢索具有較好的適用性與檢索性能。
為了能夠深入探索和挖掘藏醫(yī)古籍中的知識資源,為專業(yè)醫(yī)學工作者提供科研輔助與支持,藏醫(yī)古籍服務平臺采用Qu M等[18]提出的RNNLogic算法,通過神經(jīng)網(wǎng)絡增強符號規(guī)則的方法,利用規(guī)則生成器生成高質(zhì)量的邏輯規(guī)則,利用推理預測器識別有用的規(guī)則并改進規(guī)則生成器,二者互相增強,生成更高質(zhì)量的邏輯規(guī)則,在學習高質(zhì)量規(guī)則權重的基礎上,得出更準確的知識推理結(jié)果,為藏醫(yī)古籍知識挖掘、方劑配伍規(guī)律與診療方法的研究提供輔助支持。
3.2.1 基于邏輯規(guī)則的知識圖譜推理算法
應用RNNLogic方法來對藏醫(yī)古籍知識圖譜中給定查詢的概率分布進行建模。設Pdata(G,q,a)是一個訓練數(shù)據(jù)的概率分布,G是藏醫(yī)古籍知識圖譜,由(h,r,t)三元組構(gòu)成,也可以表示為r(h,t),q=(h,r,?)是一個查詢,a=t是答案。給定知識圖譜G和查詢q,目標是預測正確答案a,即對概率分布p(a|G,q)建模。
本文采用迭代聯(lián)合訓練規(guī)則生成器和推理預測器的方法來不斷提高推理結(jié)果的準確性。
pθ(z|q)=Mu(z|N,RNNθ(·|r))
(7)
對于一個查詢q,推理預測器pw(a|G,q,z)的任務是使用一組規(guī)則z在藏醫(yī)古籍知識圖譜G上推理并預測查詢q的答案a。推理預測器定義了答案a是正確答案的概率。使用對數(shù)線性模型進行推理。對于每個查詢q,基于一個組合規(guī)則可以在藏醫(yī)古籍知識圖譜中找到不同的路徑,得到不同的候選答案。設A為一組候選答案的集合,這些候選答案可以通過規(guī)則組的任一邏輯規(guī)則被發(fā)現(xiàn),對于每個候選答案e∈A,可以計算出每一個候選答案e的標量得分。
(8)
每個候選答案e的得分是通過計算每個規(guī)則貢獻的得分之和得到的,通過對藏醫(yī)古籍知識圖譜中找到答案的每條基礎路徑求和得到候選答案e的得分。而對于每個規(guī)則標量權重的計算,依據(jù)嵌入算法為每個實體引入一個嵌入,將關系建模為實體嵌入上的旋轉(zhuǎn)運算符。對于從頭實體到尾實體規(guī)則的每個基礎路徑,根據(jù)旋轉(zhuǎn)運算旋轉(zhuǎn)頭實體的嵌入,可以獲得接近尾實體嵌入的一個嵌入,將這個嵌入和尾實體嵌入之間的相似度作為對每個路徑的可靠性和一致性的度量。這種方法能夠計算每個路徑的相似度,可以使不同的候選答案得到更精確的得分。通過使用softmax函數(shù)就能進一步確定項目e是查詢q的答案的概率。
(9)
在每次訓練迭代中,首先根據(jù)規(guī)則生成器生成的規(guī)則更新推理預測器,然后使用期望最大算法(Expectation-Maximization算法)更新規(guī)則生成器,算法包括Expectation和Maximization兩個步驟。在Expectation步驟中,可以將每條規(guī)則的得分作為對規(guī)則質(zhì)量的評估。這里主要考慮了兩個因素:一是推理預測器pw,它的計算方式為一個規(guī)則對正確答案的貢獻分數(shù)減去該規(guī)則對其他候選答案貢獻的平均分。如果一個規(guī)則對真實答案給出較高的分數(shù),而對其他候選答案給出較低的分數(shù),認為這一規(guī)則可能更重要;二是規(guī)則生成器pθ,通過計算每個規(guī)則的先驗概率并使用概率進行正則化,選取得分最高的規(guī)則作為規(guī)則集來訓練規(guī)則預測器。在Maximization步驟中,進一步用這些高質(zhì)量的規(guī)則來更新Expectation步驟中規(guī)則生成器的參數(shù)。對于每個數(shù)據(jù)實例,將對應的規(guī)則集作為訓練數(shù)據(jù)的一部分,通過最大化規(guī)則的對數(shù)似然值來更新規(guī)則生成器。推理預測器的反饋被應用于規(guī)則生成器。通過這種方式,規(guī)則生成器將學會只生成高質(zhì)量的規(guī)則供推理預測器進行推理,這樣就減少了搜索的空間,并能產(chǎn)生更好的推理結(jié)果。
scorew(e)=MLP(AGG({vrule,|P(h,rule,e)|}rule∈I))
(10)
vrule是每一個規(guī)則的一個向量嵌入,P是通過規(guī)則發(fā)現(xiàn)的從頭實體到尾實體的基礎路徑的數(shù)量。AGG是一個聚合器,它的目標是把路徑數(shù)作為聚合權重,聚合所有規(guī)則嵌入向量vrule。得到聚合嵌入后,MLP神經(jīng)網(wǎng)絡就會進一步將嵌入投影到候選答案e的標量分數(shù)上。使用藏醫(yī)古籍知識圖譜嵌入可以進一步提高候選答案的標量得分。知識圖譜嵌入方法能夠推斷出可信度評分,來判斷(h,r,t)是有效的三元組的可能性。在此基礎上,將邏輯規(guī)則得分與知識圖譜嵌入得分相結(jié)合,得到關于得分的函數(shù),再次對得分應用softmax函數(shù)來計算候選答案e是正確答案的概率,再通過最大化每個實例的可能性來優(yōu)化推理預測器,從而保障推理結(jié)果的準確性與推理的高效性。
3.2.2 基于邏輯規(guī)則的知識圖譜推理算法的優(yōu)勢
在藏醫(yī)古籍服務平臺應用基于邏輯規(guī)則的知識圖譜推理算法的優(yōu)勢在于,同時運用邏輯規(guī)則訓練規(guī)則生成器和推理預測器,兩者能夠相互增強,推理預測器為訓練規(guī)則生成器提供有效的獎勵,規(guī)則生成器通過提供高質(zhì)量的規(guī)則來改進推理預測器。和以往采用隱式方式發(fā)現(xiàn)簡單規(guī)則的算法不同,本文所應用的算法顯式地訓練規(guī)則生成器,能夠生成更復雜的邏輯規(guī)則,并且能夠通過推理預測器的反饋動態(tài)更新規(guī)則生成器,規(guī)則生成器由此學會只生成高質(zhì)量的規(guī)則供推理預測器進行推理,既提高了推理的可解釋性,也可以逐步提高藏醫(yī)古籍知識推理的效率?;谥R圖譜嵌入的知識推理方法,更適用于在藏醫(yī)學研究這類對推理精度和可解釋程度要求較高的領域中應用。藏醫(yī)古籍服務平臺的推理結(jié)果將為藏醫(yī)組方規(guī)律、配伍原則、藥物—疾病作用機理與醫(yī)療方法的研究提供重要的輔助與支持。
為了充分利用藏醫(yī)古籍知識圖譜進行用戶推薦,平臺采用Wang H等[19]提出的RippleNet知識圖譜感知推薦模型,利用用戶偏好在知識實體集合上的傳播,通過知識圖譜中的鏈接自動迭代地發(fā)現(xiàn)用戶的潛在興趣層次,根據(jù)用戶對候選相關知識項目的偏好分布,預測用戶對知識圖譜內(nèi)相關知識的點擊概率,從而實現(xiàn)可解釋的知識推薦功能。
3.3.1 偏好傳播算法
藏醫(yī)古籍知識圖譜中包含豐富的藏醫(yī)古籍知識實體以及實體之間的聯(lián)系。知識圖譜中的這些復雜聯(lián)系為通過知識鏈接探索用戶偏好成為可能。RippleNet模型根據(jù)用戶的檢索歷史和知識圖譜鏈接,抽取與用戶節(jié)點相連的N跳實體節(jié)點,并利用這些實體節(jié)點的嵌入更新用戶的嵌入,通過用戶嵌入和知識項目嵌入的點積預測推薦結(jié)果。
在具體實施過程中,給定交互矩陣Y和知識圖譜G,用戶u的k跳相關實體集合可定義為:
(11)
用戶u的k跳波紋集合可以定義為:
(12)
為了以更細粒度的方式對用戶和藏醫(yī)古籍知識項目之間的交互進行建模,使用偏好傳播技術來確定用戶在其波紋集合中的潛在興趣。每個知識項目v都可以用項目嵌入來表示。給定項目嵌入v和用戶u的1跳波紋集合,1跳波紋集合中的每個三元組(hi,ri,ti)通過將項目v與這個三元組中的hi和ri進行比較來確定相關概率,即通過在關系Ri空間中計算項目v和頭實體的相似度來確定相關性概率。
Pi=softmax(vTRihi)
(13)
在獲得相關概率后,將波紋集1跳距離的尾部實體總和乘以相應的相關概率,返回向量。這一向量作為用戶u的檢索興趣偏好對項目v的一階響應。
(14)
用戶的檢索興趣沿著波紋集合中的鏈接,從其歷史檢索興趣轉(zhuǎn)移到1跳相關實體集合,這樣就實現(xiàn)了檢索偏好的傳播。
重復偏好傳播的過程,可以獲得用戶不同階數(shù)的多個響應,通過組合所有階數(shù)的響應,可以計算用戶u關于項目v的嵌入。
(15)
最后通過計算用戶嵌入和項目嵌入的點積,輸出預測的推薦結(jié)果。
(16)
通過這種方式,RippleNet模型沿著知識圖譜中的鏈接傳播用戶的歷史檢索偏好,發(fā)現(xiàn)用戶對藏醫(yī)古籍知識圖譜內(nèi)相關知識的潛在興趣,以此為依據(jù)進行知識推薦。
3.3.2 偏好傳播算法的優(yōu)勢
在藏醫(yī)古籍服務平臺上應用偏好傳播算法的優(yōu)勢在于,RippleNet感知推薦模型將基于嵌入和基于路徑的方法相結(jié)合用于知識圖譜感知推薦中。RippleNet是一個用于知識圖譜感知推薦的端到端的框架,通過在藏醫(yī)知識圖譜中迭代傳播用戶的檢索偏好,自動發(fā)現(xiàn)用戶的多層潛在興趣。通過偏好傳播將知識圖譜嵌入方法自然融入到知識推薦中,無需手工操作,系統(tǒng)可以自動發(fā)現(xiàn)從用戶歷史檢索記錄中的檢索項到相關的知識項目的可能的路徑。同時,藏醫(yī)古籍知識圖譜中豐富的知識鏈接,有助于提升知識推薦結(jié)果的準確性、多樣性和可解釋性。
在藏醫(yī)古籍服務平臺試驗過程中,初步整合了3部藏醫(yī)古籍中的部分數(shù)字資源,在平臺上提供藏醫(yī)知識檢索、知識推薦和知識推理等知識服務功能。基于知識圖譜的擴展查詢,使平臺能夠從文獻、內(nèi)容多角度全面呈現(xiàn)用戶查詢知識項目的整體知識架構(gòu);應用知識推理技術能夠幫助藏醫(yī)古籍服務平臺用戶發(fā)現(xiàn)藏醫(yī)知識間的潛在關聯(lián);使用用戶偏好傳播算法使平臺能夠準確依據(jù)用戶檢索偏好推薦平臺知識內(nèi)容。根據(jù)專業(yè)研究人員的使用體驗反饋,平臺根據(jù)用戶的檢索歷史所推薦的信息能夠準確反映用戶的需求,推薦的內(nèi)容符合專業(yè)研究人員的檢索與閱讀興趣,平臺不僅能夠提供具體的知識內(nèi)容,還能夠提供內(nèi)容來源,并能夠為藏醫(yī)學研究提供具體的數(shù)據(jù)支持。藏醫(yī)古籍服務平臺知識服務的實現(xiàn)效果如下:
在藏醫(yī)古籍服務平臺中,可以在檢索結(jié)果返回界面中觀察到基于知識圖譜的語義查詢擴展功能的呈現(xiàn)效果,如圖3所示。以“冰片七味方”檢索關鍵詞為例,藏醫(yī)古籍服務平臺頁面左邊呈現(xiàn)的是文獻檢索的結(jié)果,系統(tǒng)根據(jù)用戶輸入的檢索關鍵詞,在知識圖譜中進行概念匹配檢索,并根據(jù)藏醫(yī)古籍知識圖譜的概念結(jié)構(gòu)關系,向“冰片七味方”的同義概念、上位概念與下位概念擴展,返回了包含檢索詞“冰片七味方”及其近義概念或相關概念的文獻列表;平臺頁面右邊是根據(jù)檢索關鍵詞“冰片七味方”和知識圖譜語義擴展生成的藏醫(yī)古籍知識信息,根據(jù)概念語義擴展算法,將與檢索詞“冰片七味方”語義相似度較高的方劑組成、方劑用法、方劑療效的知識呈現(xiàn)出來,圖片中的知識圖譜中呈現(xiàn)了以“冰片七味方”節(jié)點為中心的相關知識內(nèi)容。
圖3 基于知識圖譜語義擴展實現(xiàn)知識檢索效果圖
在藏醫(yī)古籍服務平臺中,知識推理的實現(xiàn)主要是通過知識分析的功能,以知識圖譜與關聯(lián)數(shù)據(jù)來呈現(xiàn)的,如圖4所示。以“肺病”為檢索詞,在平臺的知識分析功能中,展示了平臺中與肺病相關的疾病共有54種,治療肺病的相關方劑共有43種,由221種藥物制成。通過藥物出現(xiàn)的頻次數(shù)據(jù)可知,竹黃、紅花、白糖、小豆蔻是組成方劑的主要藥物。本文應用提出的基于邏輯規(guī)則的知識圖譜推理算法,對規(guī)則生成器和推理預測器進行聯(lián)合訓練。規(guī)則生成器根據(jù)查詢中的關系生成組合邏輯規(guī)則并計算規(guī)則的概率,對于“肺病”的查詢,推理預測器使用一組規(guī)則在藏醫(yī)古籍知識圖譜上推理并預測查詢的答案,基于組合邏輯規(guī)則,可以在圖譜中找到不同的路徑,得到不同的候選答案,通過對候選答案標量得分的計算,依據(jù)嵌入算法計算其與尾實體嵌入的相似度,以此作為對候選答案路徑可靠性與一致性的判斷依據(jù)。在平臺中,以相關疾病鏈接與相關方劑鏈接的形式展示了知識推理的結(jié)果。根據(jù)推理,肺濕水、肺熱、肺癰、熱塞、熱痛等疾病與檢索疾病的相似度較高,而丁香六味方、景天獨味湯、草河車獨味湯等是相似度較高的治療方劑。通過知識圖譜中可以直觀地觀察到節(jié)點的聚合關系,輔助專業(yè)人員根據(jù)病因、疾病、癥狀等節(jié)點的關系分析病機與病理,判斷治療疾病的核心藥物與組方規(guī)律。
圖4 知識推理功能實現(xiàn)效果圖
藏醫(yī)古籍服務平臺根據(jù)用戶的檢索歷史發(fā)現(xiàn)、預測用戶對藏醫(yī)古籍知識圖譜內(nèi)相關知識的潛在興趣與偏好,從而實現(xiàn)可解釋的檢索結(jié)果推薦功能。如圖5所示,左右兩側(cè)呈現(xiàn)了不同的用戶采用同一檢索詞“冰片七味方”進行檢索所返回的檢索結(jié)果。左側(cè)的用戶是初次利用平臺進行檢索,系統(tǒng)根據(jù)檢索詞判斷其檢索的是一種藥劑概念,在檢索結(jié)果中主要返回了“冰片七味方”作為藥劑的檢索結(jié)果。而右側(cè)是老用戶的檢索結(jié)果,平臺根據(jù)這一用戶的檢索、瀏覽歷史判斷用戶的偏好,預測用戶對藏醫(yī)古籍知識圖譜上相關知識的點擊概率,并在檢索結(jié)果中將預測的內(nèi)容返回在檢索結(jié)果列表中。通過后臺數(shù)據(jù)了解到在用戶以往的檢索歷史中,曾利用關鍵詞“尿色赤黃”“肝痛”進行檢索,同時該用戶還在平臺上瀏覽過與“熱癥”相關的文獻內(nèi)容,由此,系統(tǒng)形成了對這一用戶偏好的判斷,根據(jù)輸入的檢索詞,系統(tǒng)預測該用戶對知識圖譜上相關知識的偏好,在檢索結(jié)果中優(yōu)先推薦相關結(jié)果給用戶。
圖5 知識推薦功能實現(xiàn)效果圖
保護和傳承中華民族文化資源具有重要的意義。人文計算技術的發(fā)展與數(shù)字人文的興起,為少數(shù)民族文化的傳承、保護與傳播帶來了新的模式與機遇。本文針對藏醫(yī)古籍服務平臺的知識服務功能進行研究,將人工智能算法應用于藏醫(yī)古籍知識的開發(fā)與利用,以期為藏醫(yī)學研究人員與醫(yī)生用戶提供更專業(yè)、精準、優(yōu)質(zhì)的知識內(nèi)容服務。在未來的研究中,將進一步完善和豐富藏醫(yī)古籍知識圖譜,基于藏醫(yī)古籍知識圖譜設計更為豐富和智能的服務功能,提高服務的精準度與智慧化,為藏醫(yī)學研究與藏族文化傳播提供智慧支持與保障。