劉月 馮佳鑫 張曉孿
關(guān)鍵詞:知識(shí)圖譜;醫(yī)學(xué)知識(shí);構(gòu)建;深度學(xué)習(xí)
1 概述
2006年萬維網(wǎng)之父Tim Berners-Lee提出了數(shù)據(jù)鏈接的思想,旨在推廣和完善RDF和OWL技術(shù),不斷掀起了語義網(wǎng)絡(luò)(Semantic Network)的研究熱潮。2012 年5月,美國的谷歌(Google)公司為了提升搜索引擎的能力,進(jìn)一步改善用戶良好的搜索體驗(yàn)提出了知識(shí)圖譜(Knowledge Graph, KG)的概念,并發(fā)布了基于知識(shí)圖譜的智能化語義搜索引擎產(chǎn)品。知識(shí)圖譜是用圖模型來描述知識(shí)和建模世間萬物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法,表示形式有多種。在大數(shù)據(jù)環(huán)境下,現(xiàn)代知識(shí)圖譜具有規(guī)模越來越大、表達(dá)直觀易理解、語義表達(dá)能力強(qiáng)的特點(diǎn),對(duì)可解釋人工智能具有非常重要的作用[1]。近年來,知識(shí)圖譜也成為人工智能最熱門領(lǐng)域之一,各大互聯(lián)網(wǎng)公司紛紛推出了自己的知識(shí)圖譜產(chǎn)品,例如百度的“知心”和搜狗“知立方”。目前知識(shí)圖譜已經(jīng)在語義搜索、數(shù)據(jù)分析、智能問答、自然語言理解、視覺理解等多個(gè)方面發(fā)揮出越來越大的價(jià)值。比如在推薦系統(tǒng)中引入知識(shí)圖譜技術(shù),可以較好地解決在沒有大量用戶數(shù)據(jù)的情況下數(shù)據(jù)稀疏性與冷啟動(dòng)問題[2],有效地提升推薦系統(tǒng)的效果。
2 醫(yī)學(xué)知識(shí)圖譜
知識(shí)圖譜從不同角度有多種分類方法,按照適用的范圍分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,兩者在知識(shí)來源、規(guī)模和對(duì)質(zhì)量的要求方面有區(qū)別。醫(yī)學(xué)知識(shí)圖譜是知識(shí)圖譜在醫(yī)療領(lǐng)域的落地和實(shí)際應(yīng)用,知識(shí)圖譜能夠有效地整合和組織醫(yī)療知識(shí),解決醫(yī)療大數(shù)據(jù)中諸多問題,比如知識(shí)復(fù)雜且分布分散、異構(gòu)、知識(shí)的重復(fù)和碎片化等。知識(shí)圖譜構(gòu)建可以對(duì)海量醫(yī)學(xué)數(shù)據(jù)中提煉出的醫(yī)學(xué)知識(shí)實(shí)現(xiàn)高效的管理、共享及應(yīng)用,對(duì)當(dāng)今醫(yī)院的智能化、信息化管理和智慧醫(yī)療有著非常重要意義。
2019年12月,新型冠狀病毒感染(COVID-19)席卷了全世界,給全世界多個(gè)國家的經(jīng)濟(jì)和金融造成了巨大影響,同時(shí)給人類生活很多方面也都帶來了巨大影響。在新冠疫情不斷多點(diǎn)暴發(fā)和防控等級(jí)不斷提升的情況下,越來越多的人投入這場戰(zhàn)“疫”中。為了對(duì)上層應(yīng)用提供可靠的知識(shí)來源與大數(shù)據(jù)支持,相關(guān)領(lǐng)域的大數(shù)據(jù)及知識(shí)被迅速整合構(gòu)建為知識(shí)圖譜。國內(nèi)多個(gè)大學(xué)和研究機(jī)構(gòu)積極助力抗擊疫情,相繼發(fā)布了多個(gè)新冠病毒知識(shí)圖譜;中文開放知識(shí)圖譜OpenKG共享了多個(gè)涵蓋臨床、診療、物資、英雄等方面COVID-19 知識(shí)圖譜。知識(shí)圖譜在病患軌跡跟蹤、疫情大數(shù)據(jù)篩查、藥物推薦等方面發(fā)揮著積極的作用[3]。
當(dāng)前,國內(nèi)外也不斷研究和開發(fā)出了很多優(yōu)秀的醫(yī)學(xué)知識(shí)圖譜和知識(shí)庫系統(tǒng),國外在醫(yī)療領(lǐng)域著名的醫(yī)學(xué)知識(shí)圖譜有一體化醫(yī)學(xué)語言系統(tǒng)UMLS、醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語SNOMED CT、解剖學(xué)基礎(chǔ)模型本體FMA、人類表型本體HPO、基因本體GO、關(guān)聯(lián)生命數(shù)據(jù)集LLD等。與國外相比,國內(nèi)在數(shù)據(jù)管理、數(shù)據(jù)規(guī)模、數(shù)據(jù)維護(hù)模式和知識(shí)信息整合層面相都還有一定的差距。國內(nèi)目前比較完善的有中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所開發(fā)研制的中醫(yī)藥學(xué)語言系統(tǒng)TCMLS、中文一體化醫(yī)學(xué)語言系統(tǒng)CUMLS、醫(yī)藥衛(wèi)生知識(shí)服務(wù)系統(tǒng)、中文醫(yī)學(xué)知識(shí)圖譜CMeKG和開放醫(yī)療與健康聯(lián)盟的OMAHA醫(yī)學(xué)知識(shí)庫等。
國內(nèi)也有不少的學(xué)者針對(duì)某種疾病的預(yù)測和診療對(duì)醫(yī)療知識(shí)圖譜進(jìn)行了研究和實(shí)現(xiàn)。總體來說,將知識(shí)圖譜用于醫(yī)學(xué)領(lǐng)域不僅能提高醫(yī)學(xué)數(shù)據(jù)智能化處理水平,而且將助力上層醫(yī)學(xué)的應(yīng)用和落地,有望將來成為打開醫(yī)療AI市場的主鑰匙。醫(yī)學(xué)知識(shí)圖譜具體落地的表現(xiàn)形式是構(gòu)建專科疾病知識(shí)圖譜,如心臟病知識(shí)圖譜,并在此基礎(chǔ)上才能進(jìn)一步開發(fā)其智能化應(yīng)用。醫(yī)學(xué)知識(shí)圖譜是今后實(shí)現(xiàn)更精準(zhǔn)的醫(yī)療服務(wù)和智慧醫(yī)療的基礎(chǔ),但是目前構(gòu)建知識(shí)圖譜的技術(shù)在醫(yī)學(xué)領(lǐng)域中普遍存在來源復(fù)雜、專業(yè)性較強(qiáng)、效率不太高、限制多、拓展性不高等問題[4]。
3 醫(yī)學(xué)知識(shí)圖譜的構(gòu)建流程及方式
醫(yī)學(xué)領(lǐng)域知識(shí)圖譜目前是很活躍的一個(gè)研究領(lǐng)域,學(xué)術(shù)界和工業(yè)界針對(duì)其構(gòu)建方式以及應(yīng)用場景已經(jīng)開展了許多研究工作。其構(gòu)建方式有人工構(gòu)建和機(jī)器構(gòu)建兩種,從實(shí)現(xiàn)技術(shù)角度上分析構(gòu)建過程,該過程會(huì)涉及多方面的技術(shù),而醫(yī)學(xué)知識(shí)圖譜的利用則涉及描述性數(shù)據(jù)分析、語義搜索、知識(shí)問答、自動(dòng)推理等多個(gè)方面。要構(gòu)建并利用好知識(shí)圖譜并非單個(gè)領(lǐng)域的單一技術(shù),要求系統(tǒng)性地綜合利用多個(gè)相關(guān)交叉領(lǐng)域的技術(shù)。目前,醫(yī)學(xué)知識(shí)圖譜構(gòu)建還面臨著一些挑戰(zhàn)和困難。在構(gòu)建流程上可以分為以下幾個(gè)步驟。
(1) 醫(yī)學(xué)知識(shí)建模。知識(shí)圖譜由節(jié)點(diǎn)和邊組成,從邏輯結(jié)構(gòu)角度一般可分為數(shù)據(jù)層和模式層(也稱本體層),模式層在數(shù)據(jù)層之上構(gòu)建。三元組G = (head, relation, tail)是知識(shí)圖譜的一種常用表示形式,數(shù)據(jù)層中存儲(chǔ)的是知識(shí)圖譜中的三元組信息,模式層對(duì)數(shù)據(jù)層知識(shí)結(jié)構(gòu)進(jìn)行提煉和概念約束。醫(yī)學(xué)知識(shí)建模是構(gòu)建醫(yī)學(xué)知識(shí)圖譜的基礎(chǔ),其目標(biāo)是建立概念模式,良好的模式定義可以減少醫(yī)學(xué)數(shù)據(jù)的冗余并實(shí)現(xiàn)對(duì)醫(yī)學(xué)知識(shí)的合理組織。知識(shí)建模一般有自頂向下和自底向上兩種途徑,由于醫(yī)學(xué)領(lǐng)域的知識(shí)結(jié)構(gòu)比較復(fù)雜,知識(shí)類型特殊且知識(shí)專業(yè)性很強(qiáng),因此醫(yī)學(xué)領(lǐng)域的圖譜構(gòu)建一般采用自頂向下方式進(jìn)行,首先定義數(shù)據(jù)模式即本體(Ontology),這個(gè)過程一般需要領(lǐng)域?qū)<胰斯ぞ幹?,從最頂層的概念開始定義,然后逐步細(xì)化,最終形成結(jié)構(gòu)良好的分類層次結(jié)構(gòu)。本體構(gòu)建之前,一般需要選擇合適的本體描述語言和本體建模工具。目前比較有代表性的本體描述語言有XML、RDF、RDFS 和OWL 等。常見的本體建模工具有Protégé、OntoStudio、TopBraid Composer、Semantic Turkey等,其中Protégé是最熟悉最常用的開源工具。
(2) 醫(yī)學(xué)知識(shí)抽取。醫(yī)學(xué)知識(shí)抽取是構(gòu)建醫(yī)學(xué)知識(shí)圖譜的重要環(huán)節(jié)和核心技術(shù),是分析、識(shí)別和理解醫(yī)學(xué)知識(shí)的過程。不同類型的醫(yī)學(xué)數(shù)據(jù)源所涉及的抽取技術(shù)和需要解決的問題也有所不同。知識(shí)抽取根據(jù)目標(biāo)任務(wù)主要分為醫(yī)學(xué)實(shí)體識(shí)別、醫(yī)學(xué)實(shí)體關(guān)系抽取、醫(yī)學(xué)事件抽取。在醫(yī)學(xué)領(lǐng)域相關(guān)實(shí)體和實(shí)體之間的關(guān)系也比較復(fù)雜,醫(yī)學(xué)實(shí)體涉及癥狀、疾病、藥物、解剖結(jié)構(gòu)、化學(xué)成分等, 而這些實(shí)體之間又互相關(guān)聯(lián)。為了有效表達(dá)這些概念和關(guān)聯(lián), 產(chǎn)生了很多的醫(yī)學(xué)知識(shí)庫。醫(yī)學(xué)實(shí)體識(shí)別的研究開展最早,已有的研究方法可分為基于規(guī)則的方法、基于統(tǒng)計(jì)模型的方法和基于深度學(xué)習(xí)的方法。關(guān)系抽取方法可分為基于模板的方法和基于監(jiān)督學(xué)習(xí)的方法。目前醫(yī)學(xué)事件抽取在醫(yī)學(xué)領(lǐng)域應(yīng)用還不是很廣泛,已有的事件抽取方法可分為流水線方法和聯(lián)合抽取方法。醫(yī)學(xué)領(lǐng)域知識(shí)抽取的難點(diǎn)在于如何提高開放領(lǐng)域的知識(shí)抽取的正確率以及如何實(shí)現(xiàn)多模態(tài)醫(yī)學(xué)大數(shù)據(jù)處理和特征提取。
(3) 醫(yī)學(xué)知識(shí)融合。由于多個(gè)醫(yī)學(xué)知識(shí)圖譜之間存在異構(gòu)性和多樣性,為了解決異構(gòu)和冗余問題出現(xiàn)了醫(yī)學(xué)知識(shí)融合技術(shù),旨在對(duì)不同來源的知識(shí)進(jìn)行對(duì)齊、合并工作。醫(yī)學(xué)知識(shí)融合包含數(shù)據(jù)模式層融合和數(shù)據(jù)層融合兩個(gè)方面,研究內(nèi)容涉及醫(yī)學(xué)本體映射、醫(yī)學(xué)實(shí)體對(duì)齊以及實(shí)體鏈接等。目前已有的知識(shí)圖譜融合技術(shù)可歸結(jié)為基于自然語言處理(NLP)進(jìn)行術(shù)語比較、基于結(jié)構(gòu)進(jìn)行匹配和基于實(shí)例的機(jī)器學(xué)習(xí)等方法。
(4) 醫(yī)學(xué)知識(shí)存儲(chǔ)。醫(yī)學(xué)知識(shí)圖譜數(shù)據(jù)管理的挑戰(zhàn)是如何面對(duì)日益增長的知識(shí)圖譜規(guī)模,實(shí)現(xiàn)高效的知識(shí)存儲(chǔ)和信息查詢。目前有三類知識(shí)圖譜存儲(chǔ)方案分別是基于關(guān)系數(shù)據(jù)庫存儲(chǔ)、面向RDF的三元組數(shù)據(jù)庫和原生圖數(shù)據(jù)庫存儲(chǔ)。關(guān)系數(shù)據(jù)庫技術(shù)出現(xiàn)最早且發(fā)展成熟,RDF的三元組數(shù)據(jù)庫優(yōu)點(diǎn)是直觀、格式統(tǒng)一,原生圖數(shù)據(jù)庫存取效率最高。當(dāng)前醫(yī)學(xué)知識(shí)圖譜主要采用圖數(shù)據(jù)庫進(jìn)行存儲(chǔ),近幾年,以Neo4j為代表的圖數(shù)據(jù)庫因具有高性能、輕量級(jí)等優(yōu)勢,越來越受到關(guān)注。
(5) 醫(yī)學(xué)知識(shí)推理。醫(yī)學(xué)知識(shí)推理是基于知識(shí)圖譜中的已有事實(shí)和關(guān)系推斷出未知事實(shí)和關(guān)系的過程?;卺t(yī)學(xué)知識(shí)圖譜的推理能夠支持人工智能醫(yī)療領(lǐng)域的很多應(yīng)用,在醫(yī)學(xué)知識(shí)圖譜的發(fā)展演變過程中有重要的作用,已成為近年來的研究熱點(diǎn)。在醫(yī)學(xué)知識(shí)圖譜中,醫(yī)學(xué)知識(shí)推理能夠協(xié)助醫(yī)生完成疾病診斷和提高醫(yī)生的工作效率。知識(shí)推理在知識(shí)圖譜構(gòu)建過程中主要應(yīng)用于圖譜補(bǔ)全和圖譜質(zhì)量的檢驗(yàn)。典型的推理策略包括基于演繹的推理和基于歸納的推理策略,每種推理策略又包含了多種推理方法,未來兩種不同推理方式將逐漸融合和互相補(bǔ)充。今后如何利用多模態(tài)、多種來源的醫(yī)學(xué)數(shù)據(jù)融合技術(shù)提高知識(shí)推理的完整性、可靠性以及實(shí)現(xiàn)醫(yī)學(xué)知識(shí)推理的可視化是下一步的研究趨勢。
4 醫(yī)學(xué)知識(shí)圖譜的應(yīng)用
隨著醫(yī)療信息系統(tǒng)智能化水平的提高,知識(shí)圖譜為醫(yī)療信息系統(tǒng)中的醫(yī)療大數(shù)據(jù)組織、管理及利用提供了一種更為有效的方式。目前醫(yī)學(xué)知識(shí)圖譜技術(shù)應(yīng)用廣泛,主要用于語義搜索、公共衛(wèi)生事件響應(yīng)、醫(yī)療決策和醫(yī)療問答等。
(1) 基于語義的醫(yī)療信息搜索:傳統(tǒng)的基于關(guān)鍵詞的搜索缺乏對(duì)知識(shí)的理解和處理能力,語義搜索則是不拘泥于用戶所輸入請(qǐng)求語句的字面本身,而是準(zhǔn)確地捕捉到輸入語句后面的真正搜索意圖,從而更準(zhǔn)確地返回最符合用戶需求的搜索結(jié)果。將知識(shí)圖譜應(yīng)用于搜索是當(dāng)前實(shí)現(xiàn)語義搜索的有效解決方案。知識(shí)圖譜描述了事物的分類、屬性和關(guān)系,具有豐富的語義信息,可以為語義搜索提供極大的底層支持?;卺t(yī)學(xué)知識(shí)圖譜的語義搜索目前被用于醫(yī)學(xué)百科知識(shí)、醫(yī)學(xué)健康資訊、臨床指南/文獻(xiàn)、醫(yī)療保健信息等內(nèi)容的推薦。語義搜索主要包括搜索意圖理解、目標(biāo)查找、結(jié)果呈現(xiàn)和實(shí)體探索四個(gè)步驟。
(2) 公共衛(wèi)生事件的快速響應(yīng):2020年新冠疫情席卷全球后,全世界各國對(duì)突發(fā)公共衛(wèi)生事件的關(guān)注度日益提高,事件預(yù)警和快速響應(yīng)機(jī)制成為今后研究的重點(diǎn),該領(lǐng)域是一個(gè)新的研究方向。知識(shí)圖譜在公共衛(wèi)生事件的一些場景中采用圖存儲(chǔ)數(shù)據(jù)的方式可以協(xié)助實(shí)現(xiàn)流行病調(diào)查中的人員分布、人員活動(dòng)軌跡、發(fā)病時(shí)間等信息的收集。收集出的信息能方便地用于病例之間相關(guān)性分析,進(jìn)而梳理出感染源頭。另外可以構(gòu)建疫情相關(guān)事件知識(shí)圖譜,分析疫情發(fā)生事件脈絡(luò),查找到多個(gè)事件存在的因果關(guān)。事件知識(shí)圖譜可以有效預(yù)測網(wǎng)絡(luò)輿情,幫助發(fā)現(xiàn)潛在的公共威脅并降低輿情風(fēng)險(xiǎn)。
(3) 醫(yī)療決策支持:知識(shí)圖譜技術(shù)推動(dòng)了搜索模式從傳統(tǒng)的網(wǎng)頁搜索轉(zhuǎn)變?yōu)榛谏顚诱Z義的搜索。相較于傳統(tǒng)搜索,知識(shí)圖譜在搜索中實(shí)現(xiàn)了三方面的優(yōu)化:一是提高搜索結(jié)果準(zhǔn)確度;二是搜索到的相關(guān)聯(lián)結(jié)果呈現(xiàn)更詳細(xì);三是可以通過互動(dòng)、點(diǎn)擊拓展搜索的深度和廣度。今后,知識(shí)圖譜技術(shù)可以在醫(yī)療大數(shù)據(jù)分析、管理與決策方面發(fā)揮重要作用,可以根據(jù)病人的癥狀和檢查等醫(yī)療數(shù)據(jù),快速生成診斷說明和治療方案,對(duì)醫(yī)生給出的診療方案進(jìn)行智能化分析,大大降低醫(yī)生的誤診率。
(4) 醫(yī)療問答系統(tǒng):基于知識(shí)圖譜的問答系統(tǒng)能利用其豐富的結(jié)構(gòu)化語義信息,深層次理解用戶提出的問題并給出較準(zhǔn)確的答案。知識(shí)圖譜問答系統(tǒng)的目標(biāo)是通過查詢知識(shí)圖譜獲得相關(guān)知識(shí),自動(dòng)回答人類提出的自然語言問題。早期知識(shí)庫問答系統(tǒng)由于受到知識(shí)資源數(shù)量及自然語言理解能力的制約,被限制在一個(gè)封閉的領(lǐng)域內(nèi)。近年來,隨著知識(shí)圖譜的發(fā)展和開放領(lǐng)域問答數(shù)據(jù)集的不斷提出,基于知識(shí)圖譜醫(yī)療問答系統(tǒng)用于開放領(lǐng)域問題已成為可能。知識(shí)圖譜問答主要有語義解析和信息檢索兩種解決方法。基于知識(shí)圖譜的問答系統(tǒng)創(chuàng)建過程一般為三個(gè)階段,首先是對(duì)用戶給出的自然問句進(jìn)行信息抽取;其次是將抽取出的實(shí)體映射到知識(shí)圖譜中;最后涉及知識(shí)推理過程,搜索知識(shí)圖譜獲取答案并顯示結(jié)果。
5 結(jié)束語
在人工智能和大數(shù)據(jù)時(shí)代,知識(shí)圖譜的發(fā)展迅速已成為大數(shù)據(jù)分析和表示的重要手段之一。近年來醫(yī)療領(lǐng)域產(chǎn)生了大量的醫(yī)療數(shù)據(jù),如何利用海量的醫(yī)療信息資源更好地為人們服務(wù),引起很多人的關(guān)注。隨著智能醫(yī)療時(shí)代的到來,通過大數(shù)據(jù)和知識(shí)圖譜將各種醫(yī)學(xué)數(shù)據(jù)的聚合,構(gòu)建綜合智能醫(yī)療系統(tǒng),不僅可給患者、臨床醫(yī)生和科研工作者提供幫助,成為未來醫(yī)療的發(fā)展方向,而且也為醫(yī)療事業(yè)發(fā)展提供更有力的保障和支持,因此在醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜的探究有著重要的現(xiàn)實(shí)意義和價(jià)值。今后的一個(gè)研究方向是如何將深度學(xué)習(xí)技術(shù)和知識(shí)圖譜技術(shù)相互融合,對(duì)醫(yī)學(xué)文本信息抽取方式進(jìn)行優(yōu)化,提高醫(yī)療知識(shí)抽取的覆蓋率與準(zhǔn)確率[5]。未來醫(yī)學(xué)知識(shí)圖譜將會(huì)朝著數(shù)量更大、質(zhì)量更高、標(biāo)準(zhǔn)化程度更好和分級(jí)應(yīng)用更明顯的方向發(fā)展。