□ 邵旻暉 SHAO Min-hui 李娟 LI Juan 陳芳芳 CHEN Fang-fang 李偉 LI Wei
Diabetes is one of the major diseases that seriously endanger people's health. At present, many prevention and treatment measures have been taken in China, among which the management of patients' blood glucose is the key point of diabetes treatment. In order to help patients improve their self-management behavior ability and effectively control their blood glucose level, this study extracted semantic entities from a number of medical materials through knowledge extraction,knowledge fusion and knowledge storage, and sorted out the relationships between entities based on clinical guidelines,expert experience, hospital electronic medical records and other medical materials. Finally, a diabetes knowledge map was constructed by using the secondary graph database, and based on this map, an intelligent question-and-answer application on the mobile phone was realized to provide support for patients' blood sugar management.
據(jù)相關(guān)統(tǒng)計(jì),中國患糖尿病人數(shù)達(dá)1.16 億,目前糖尿病的治療率(35.6%)和控制率(33.0%)仍處于較低水平[1-2]。《中國2 型糖尿病防治指南》中指出,糖尿病的控制不再是傳統(tǒng)意義上的治療,而是系統(tǒng)的管理,其中患者自我管理是有效防止病情進(jìn)展的關(guān)鍵[3]。通過為糖尿病患者提供規(guī)范化和個(gè)體化的專業(yè)性血糖管理指導(dǎo),提高患者自我管理能力,對(duì)患者病情控制具有重要意義。
知識(shí)圖譜技術(shù)是眾多國內(nèi)外學(xué)者研究的熱點(diǎn),近年來已廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域。有研究將知識(shí)圖譜應(yīng)用于糖尿病管理,對(duì)糖尿病管理指南和循證醫(yī)學(xué)知識(shí)以知識(shí)圖譜形式進(jìn)行表達(dá),構(gòu)建糖尿病相關(guān)知識(shí)庫[4]。在實(shí)際應(yīng)用中,患者需要通過多種渠道和方式了解不同模塊展示的信息后再進(jìn)行知識(shí)整合,增加了知識(shí)的獲取難度,不利于患者利用知識(shí)圖譜技術(shù)進(jìn)行自我健康管理。本研究在全面探討知識(shí)圖譜相關(guān)理論與構(gòu)建技術(shù)基礎(chǔ)上,通過知識(shí)抽取、知識(shí)融合和知識(shí)存儲(chǔ)等技術(shù)將臨床指南、專家經(jīng)驗(yàn)、電子病歷等醫(yī)學(xué)資料有機(jī)整合,設(shè)計(jì)并實(shí)現(xiàn)手機(jī)端的糖尿病智能問答應(yīng)用,為糖尿病患者血糖管理提供技術(shù)支持。
1.知識(shí)圖譜相關(guān)概念。知識(shí)圖譜由Google 于2012 年率先提出,本質(zhì)上是一種語義網(wǎng)絡(luò),通常用“實(shí)體—關(guān)系—實(shí)體”的三元組形式表示,用來描述真實(shí)世界中存在的各種實(shí)體、屬性及其關(guān)系構(gòu)成的語義[5]。不同于早期的語義網(wǎng)絡(luò),知識(shí)圖譜著重于實(shí)體間的關(guān)系或者實(shí)體的屬性值,例如三元組<二甲雙胍,適應(yīng)證,2 型糖尿?。揪涂梢员磉_(dá)為“二甲雙胍的適應(yīng)證是2 型糖尿病”。從這個(gè)角度看,三元組是最接近于人類自然語言的數(shù)據(jù)模型,而圖的信息組織方式又更加接近于人腦的記憶存儲(chǔ)方式,因此知識(shí)圖譜對(duì)現(xiàn)實(shí)世界中各種現(xiàn)象或事物都有很強(qiáng)的表達(dá)和建模能力,可用于輔助分析和決策支持[6]。
2.知識(shí)圖譜構(gòu)建。知識(shí)圖譜構(gòu)建需要先確定知識(shí)表示模型,然后對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)抽取,利用知識(shí)融合和知識(shí)推理提高知識(shí)圖譜質(zhì)量,最后根據(jù)具體的應(yīng)用場景設(shè)計(jì)不同的知識(shí)呈現(xiàn)方式,具體流程如圖1 所示[7]。
圖1 知識(shí)圖譜構(gòu)建流程
本研究采用自頂向下和自底向上相結(jié)合的構(gòu)建方式。模式層(即本體)設(shè)計(jì)是對(duì)醫(yī)學(xué)資料中的臨床表現(xiàn)、檢查、診斷、治療藥物等概念及其間關(guān)系的網(wǎng)絡(luò)化整合;數(shù)據(jù)層構(gòu)建是對(duì)醫(yī)學(xué)資料中顯性知識(shí)的抽取和隱性知識(shí)的挖掘。本體即具有同種特性的實(shí)體構(gòu)成的集合,如“臨床表現(xiàn)”“治療藥物”等概念,而“體重減輕”“二甲雙胍”等語義為實(shí)體。
1.數(shù)據(jù)源獲取。考慮到構(gòu)建糖尿病知識(shí)圖譜需要高質(zhì)量的專業(yè)性醫(yī)療數(shù)據(jù)作為數(shù)據(jù)層,本研究的數(shù)據(jù)來源于:(1)本院電子病歷,從醫(yī)院電子病歷中提取出和糖尿病相關(guān)的數(shù)據(jù)共1500 條,經(jīng)過數(shù)據(jù)預(yù)處理后得到1213 條結(jié)構(gòu)化數(shù)據(jù)。(2)DiaKG 數(shù)據(jù)集,該數(shù)據(jù)集是由阿里云天池平臺(tái)與清華大學(xué)合作推出的高質(zhì)量的中文糖尿病知識(shí)圖譜數(shù)據(jù)集,共包含22050 個(gè)實(shí)體和6890 個(gè)關(guān)系,涵蓋了近年來糖尿病領(lǐng)域最廣泛的研究內(nèi)容和熱點(diǎn),作為電子病歷數(shù)據(jù)源的補(bǔ)充。
2.知識(shí)表示。研究參照ICD-10 編碼,對(duì)醫(yī)學(xué)術(shù)語進(jìn)行編碼管理,賦予相應(yīng)的規(guī)范化唯一概念標(biāo)識(shí),如“2 型糖尿病”在ICD-10 編碼中對(duì)應(yīng)的疾病編碼是“E11.900”。本體描述選擇基于語義的RDF 作為資源描述語言,RDF 提供一個(gè)統(tǒng)一的標(biāo)準(zhǔn)以“主體—謂詞—賓語”的SPO 三元組來表達(dá)實(shí)體及實(shí)體間的關(guān)系,具體形式為<實(shí)體,關(guān)系,實(shí)體>或者<實(shí)體,屬性,屬性值>。
3.知識(shí)抽取。通過人工或自動(dòng)化技術(shù)從數(shù)據(jù)源中提取糖尿病相關(guān)知識(shí)并存入知識(shí)圖譜中,分為實(shí)體抽取、關(guān)系抽取和屬性抽取三個(gè)步驟。(1)實(shí)體抽取。采用BERTBiLSTM-CRF 模型抽取醫(yī)學(xué)文本中的疾病名、癥狀名、藥物名等[8]。(2)關(guān)系抽取。在醫(yī)學(xué)文本中,“癥狀是”“表現(xiàn)為”等顯性關(guān)系指示詞很容易被發(fā)現(xiàn)并確認(rèn),而對(duì)于“小兒糖尿病各年齡均可發(fā)病,小至出生后3 個(gè)月,但以5 ~7歲和10 ~13 歲二組年齡多見”這一知識(shí),隱含了關(guān)系指示詞“年齡”,即<小兒糖尿病高危人群,年齡,5 ~7 歲和10 ~13 歲二組年齡>,此種隱性關(guān)系,往往需要通過人工標(biāo)注才能被挖掘出來。有研究表明將基于規(guī)則匹配的方法和大規(guī)模的人工標(biāo)注語料結(jié)合在一起用于醫(yī)學(xué)語義關(guān)系抽取,可很好地發(fā)揮各自的優(yōu)勢,提高抽取性能[9]。本項(xiàng)目將收集的醫(yī)學(xué)資料與DiaKG 數(shù)據(jù)集結(jié)合起來,以<實(shí)體,關(guān)系,實(shí)體>和<實(shí)體,屬性,屬性值>兩種形式構(gòu)建糖尿病知識(shí)三元組。文中抽取了7 個(gè)醫(yī)學(xué)實(shí)體類型:疾病、所屬科室、癥狀、檢查項(xiàng)目、檢查指標(biāo)值、藥品和食物;8 個(gè)醫(yī)學(xué)實(shí)體-關(guān)系類型:疾病分型、疾病就診科室、疾病癥狀、疾病并發(fā)癥、檢查項(xiàng)目、治療藥物、宜吃食物和忌吃食物;7 個(gè)醫(yī)學(xué)實(shí)體-屬性類型標(biāo)簽:疾病名稱、疾病簡介、病因、傳染性、預(yù)防措施、治療方法、治療周期。(3)屬性抽取。抽取藥品適應(yīng)證、劑型、用法用量、不良反應(yīng)、禁忌等屬性,進(jìn)一步增加醫(yī)學(xué)實(shí)體的完整性擴(kuò)充。
4.知識(shí)融合。本研究采用基于規(guī)則和統(tǒng)計(jì)結(jié)合方法,通過設(shè)定規(guī)則檢查輸入的醫(yī)學(xué)實(shí)體是否與抽取的實(shí)體匹配,如果不匹配就計(jì)算輸入實(shí)體與抽取實(shí)體的匹配值,本研究設(shè)置判定實(shí)體對(duì)齊的閾值為0.75,如果匹配值小于0.75,則認(rèn)為兩個(gè)實(shí)體不相關(guān);如果大于0.75 且存在多個(gè)值,則選擇匹配值最大的實(shí)體作為對(duì)齊的最終結(jié)果。
實(shí)體對(duì)齊解決了多詞同義的問題,而實(shí)體消歧則用來解決不同知識(shí)庫之間實(shí)體的一詞多義問題。考慮到某些同一醫(yī)學(xué)實(shí)體的同一屬性存在多個(gè)描述值,本研究參考了文獻(xiàn)提出的基于語義一致性的集成實(shí)體鏈接算法,該算法在上下文信息不充分的情況下也能很好地利用知識(shí)庫中實(shí)體間的結(jié)構(gòu)化語義關(guān)系區(qū)分相似實(shí)體,提高醫(yī)學(xué)實(shí)體鏈接結(jié)果的準(zhǔn)確率[10]。
1.基于Neo4j 的糖尿病知識(shí)圖譜檢索與展示。利用Neo4j 圖形數(shù)據(jù)庫構(gòu)建查詢語句,實(shí)現(xiàn)語義實(shí)體及語義關(guān)系的檢索和可視化展示。圖2 展示了部分本文構(gòu)建的糖尿病知識(shí)圖譜,圖譜從宏觀層面展示了糖尿病營養(yǎng)知識(shí)的框架體系,也實(shí)現(xiàn)了單獨(dú)檢索某類節(jié)點(diǎn)及某類關(guān)系,如疾病與檢查、疾病與藥物、疾病與食物等節(jié)點(diǎn)及其間關(guān)系,根據(jù)不同患者類型和并發(fā)癥的情況查詢相應(yīng)的飲食原則、藥物治療方法,促進(jìn)患者提升自我管理能力。此外,知識(shí)圖譜還可以根據(jù)需要對(duì)其進(jìn)行擴(kuò)大、縮小、移動(dòng)操作,當(dāng)聚焦到某一關(guān)鍵主題詞上,會(huì)只顯示與該主題詞相互關(guān)聯(lián)的概念,方便用戶查閱。
圖2 糖尿病知識(shí)圖譜部分展示
2.基于知識(shí)圖譜的手機(jī)端智能問答應(yīng)用。本研究設(shè)計(jì)了手機(jī)端智能問答應(yīng)用App,以構(gòu)建的糖尿病知識(shí)圖譜為數(shù)據(jù)支撐,用基于語義模板匹配的方法對(duì)用戶的提問進(jìn)行推理并返回結(jié)果。首先,計(jì)算機(jī)從用戶問題中提取關(guān)鍵詞并判斷問題類型,具體過程為從圖數(shù)據(jù)庫中提取相關(guān)實(shí)體,并構(gòu)建AC 自動(dòng)機(jī),將輸入的問題作為主串、AC 自動(dòng)機(jī)作為模式串進(jìn)行匹配,將匹配到的實(shí)體標(biāo)簽和疑問詞標(biāo)簽進(jìn)行組合,來判斷問題的類型。其次,利用命名實(shí)體識(shí)別、句法依賴分析等語義分析技術(shù),將問題轉(zhuǎn)化為CQL 語句,根據(jù)CQL 語句返回結(jié)果并輸出答案。
智能問答應(yīng)用無需編輯Cypher 查詢語句對(duì)Neo4j 圖數(shù)據(jù)庫進(jìn)行檢索,而是讓用戶直接以自然語言與AI 小助手進(jìn)行會(huì)話,例如當(dāng)患者輸入“糖尿病患者可以吃什么”,計(jì)算機(jī)會(huì)通過NLP 技術(shù)將問題轉(zhuǎn)為語法{“question_type”:“飲食”:“food”:“what”},隨后通過數(shù)據(jù)推理到知識(shí)庫中匹配到對(duì)應(yīng)的答案為“糖尿病患者的飲食原則就是嚴(yán)格控制對(duì)糖分、蛋白質(zhì)和碳水化合物的攝入量,還要保持飲食的低油低鹽”。目前智能問答應(yīng)用可實(shí)現(xiàn)糖尿病的基礎(chǔ)知識(shí)科普、患者血糖監(jiān)測與評(píng)估、患者飲食和運(yùn)動(dòng)的行為評(píng)估,并可結(jié)合患者的行為評(píng)估與目標(biāo)評(píng)估給出相應(yīng)的血糖控制范圍和健康指導(dǎo)等功能(圖3)。
圖3 基于知識(shí)圖譜實(shí)現(xiàn)糖尿病智能問答
此外,為檢驗(yàn)智能問答應(yīng)用的實(shí)際效果,項(xiàng)目組隨機(jī)邀請(qǐng)了20 名門診患者參與系統(tǒng)的內(nèi)部測試,讓患者與AI 小助手進(jìn)行會(huì)話,累計(jì)共獲得258 條有效問答,去除重復(fù)問題后獲得232 條有效問答,在??漆t(yī)生的協(xié)助下統(tǒng)計(jì)回答正確的問題數(shù)為216 條,計(jì)算出該應(yīng)用的問答正確率為93.1%,說明智能問答應(yīng)用能快捷且較準(zhǔn)確地回答患者關(guān)心的糖尿病問題,為未來規(guī)范化的患者健康教育打下堅(jiān)實(shí)基礎(chǔ)。
本研究將臨床指南、專家經(jīng)驗(yàn)、本院電子病歷等資料轉(zhuǎn)化為邏輯數(shù)據(jù)并利用Neo4j 圖數(shù)據(jù)庫構(gòu)建了糖尿病知識(shí)圖譜,并在此基礎(chǔ)上實(shí)現(xiàn)了智能問答應(yīng)用,為糖尿病患者提供規(guī)范的血糖管理指導(dǎo)。未來本項(xiàng)目計(jì)劃將糖尿病知識(shí)問答庫逐步延伸至各類智能載體,便于患者獲取,以此來促進(jìn)患者掌握糖尿病管理所需的知識(shí)和技能。