凌 天,焦 陽,狄碧云,翁曉蘭,李露芳
(浙江中醫(yī)藥大學(xué)圖書館,浙江 杭州 310053)
在健康中國戰(zhàn)略背景下,效率較低的醫(yī)療體系、質(zhì)量欠佳的醫(yī)療服務(wù)、看病難且貴的就醫(yī)現(xiàn)狀已成為社會關(guān)注焦點,反映醫(yī)療資源與需求不平衡的突出問題。在2016 年中共中央政治局審議通過的《“健康中國2030”規(guī)劃綱要》中,強調(diào)全面建成統(tǒng)一權(quán)威、互聯(lián)互通的人口健康信息平臺,規(guī)范和推動‘互聯(lián)網(wǎng)+健康醫(yī)療’服務(wù)。智慧醫(yī)療可提供更優(yōu)質(zhì)的醫(yī)療服務(wù),保障人民健康。以語料庫為支撐的輔助診療終端如醫(yī)用機器人、虛擬家庭醫(yī)生護理等方式提供智慧診療服務(wù)是當(dāng)下智慧醫(yī)療發(fā)展的前沿趨勢之一。而語料庫是遵循特定標準采集而來的能夠代表某種語言特征的數(shù)據(jù)集,可從規(guī)?;Z料集中精確提取語料,挖掘出隱藏價值信息,聯(lián)合定性與定量方法研究關(guān)聯(lián)數(shù)據(jù)組織成知識加以利用。隨著人工智能與大數(shù)據(jù)新興理論發(fā)展,機器學(xué)習(xí)技術(shù)得以興起,通過學(xué)習(xí)樣本數(shù)據(jù)內(nèi)在關(guān)聯(lián)與特征表現(xiàn)獲得計算機語言所理解的文字、圖像和聲音等數(shù)據(jù),其最終目標是讓計算機像人一樣具有分析學(xué)習(xí)能力,能夠識別語音和圖像等數(shù)據(jù)。將機器學(xué)習(xí)技術(shù)應(yīng)用于語料庫建設(shè),可明顯降低項目成本與工作量。因此,本研究將語料庫與現(xiàn)代醫(yī)學(xué)結(jié)合,構(gòu)建基于機器學(xué)習(xí)的智慧診療語料庫,將復(fù)雜的疾病癥狀、準確的臨床檢查、有效的治療措施以及詳實的隨診病歷等匯聚成一體化的數(shù)據(jù)工程,以期讓機器“學(xué)習(xí)”專家主任級醫(yī)師診療經(jīng)驗,模擬診療時的思維邏輯,并在實際應(yīng)用時給出可行性診治方案,以智慧診療的方式解決醫(yī)療資源與需求不平衡問題等社會問題。
1.1 國外研究現(xiàn)狀 語料庫起源于語言學(xué)研究,以單種語言—英語類為主。在20 世紀60 年代初,英語語言學(xué)家Francis 和Kucera[1]建立世界上首個英語文本語料庫—布朗語料庫。在20 世紀80 年代,隨著科學(xué)技術(shù)的不斷發(fā)展,語料語言學(xué)研究領(lǐng)域擴展到基于平行語料庫的英漢互譯、文學(xué)作品和文學(xué)家語言風(fēng)格甚至醫(yī)學(xué)研究等。目前國外已建成且較有影響的主要有英國國家語料庫The British National Corpus(BNC)[2]與美國傳統(tǒng)中介語料American Heritage Intermediate Corpus(AHI)[3],世界著名英語教學(xué)與英語字典語料庫。醫(yī)學(xué)研究主要有Mollá D 等[4]提出了一個基于循證醫(yī)學(xué)文本處理的語料庫,該語料庫是基于家庭臨床雜志的臨床查詢部分文本信息。
1.2 國內(nèi)研究現(xiàn)狀 在20 世紀90 年代以來,國內(nèi)專家基于語言學(xué)對語料庫展開論證研究。1991 年國家語委文字應(yīng)用管理司組織計算機專家對現(xiàn)代漢語語料庫總體設(shè)計,選材原則,漢語語料庫的規(guī)范和標準等關(guān)鍵性問題進行充分論證。2008 年劉澤權(quán)等[5]對語料庫分詞、標注方法進行研究,創(chuàng)建《紅樓夢》中英雙語語料庫,系統(tǒng)全面的研究不同譯本的《紅樓夢》。近年來國內(nèi)部分學(xué)者認識到語料庫可以用于公共醫(yī)療衛(wèi)生健康研究。2013 年李綱等[6]在充分回溯語料庫研究的基礎(chǔ)上,探索公共衛(wèi)生突出事件動態(tài)監(jiān)測系統(tǒng)語料庫構(gòu)建可行性方案。2019 年周永稱等[7]自然語言標注工具BRAT 人工處理預(yù)料,構(gòu)建基于文本預(yù)料的精準醫(yī)學(xué)文本語料庫。2020 年劉一斌[9]在中文電子病歷命名實體識別的基礎(chǔ)上嘗試引入中醫(yī)命名實體,構(gòu)建中醫(yī)中文電子病歷命名實體語料庫。多個研究探索了在中醫(yī)領(lǐng)域內(nèi)更多的語料庫應(yīng)用場景[9-13]。2021 年林玉萍等[14,15]提出構(gòu)建醫(yī)學(xué)影像的多模態(tài)語料庫,根據(jù)醫(yī)療檢查影像實現(xiàn)甲狀腺結(jié)節(jié)良惡性的精確分類識別。2022 年多個研究[16-18]基于中文預(yù)料將大量醫(yī)學(xué)專業(yè)知識和醫(yī)學(xué)術(shù)語融合,推進醫(yī)學(xué)概念規(guī)范化,提高臨床醫(yī)學(xué)研究的效率。
縱觀國內(nèi)外研究,語料庫起源于語言學(xué)與文學(xué)并逐漸拓展到不同學(xué)科領(lǐng)域研究,如公共醫(yī)療衛(wèi)生健康等。構(gòu)建以精準醫(yī)學(xué)、影像醫(yī)學(xué)、中文電子病例作為語料來源的語料庫,具有一定的臨床醫(yī)療效果,推動語料庫在醫(yī)學(xué)領(lǐng)域研究的發(fā)展。但仍存在不足之處,如預(yù)料采集方式單一、功能與應(yīng)用場景較為稀少、采集學(xué)科領(lǐng)域較為局限等?;诖?,本文采用機器學(xué)習(xí)技術(shù)搭建智慧診療語料庫,將復(fù)雜的疾病癥狀、真實的經(jīng)臨床病歷、安全有效的治療措施等等匯編成語料,提出現(xiàn)在具備可行性的智慧診療應(yīng)用場景,輔助醫(yī)生選擇最優(yōu)治療措施,降低醫(yī)療風(fēng)險,同時可降低醫(yī)生工作時間成本,完善公共醫(yī)療體系,合理分配公共醫(yī)療系統(tǒng)資源,為患者提供優(yōu)質(zhì)便捷的智慧診療服務(wù)。
2.1 需求調(diào)研階段 需求調(diào)研是構(gòu)建智慧診療語料庫項目的前期基礎(chǔ)。在明確實現(xiàn)特定類型功能的語料庫前提下進行角色調(diào)研,收集整理角色用戶自身需求與期望,以此為依據(jù)設(shè)計語料庫搭建框架。而智慧醫(yī)療下語料庫的構(gòu)建最終目標就是實現(xiàn)輔助醫(yī)生智慧診療的應(yīng)用場景,因此在語料庫構(gòu)建過程中,研究者要清晰地認識到在智慧診療場景中的活動主體,分析醫(yī)生、患者在診療過程中實際需求。
2.2 語料庫設(shè)計階段 智慧醫(yī)療語料庫整體采用B/S(瀏覽器/服務(wù)器)架構(gòu)模式。在語料庫設(shè)計主要包含4 個方面:功能目標設(shè)計、技術(shù)路線設(shè)計、存儲設(shè)計、數(shù)據(jù)分析與利用設(shè)計。①功能目標設(shè)計主要包含原始語料采集、數(shù)據(jù)清洗、TextDirectoryCorpus 字典調(diào)用、分詞生詞與標注等模塊;②技術(shù)路線設(shè)計:以人工采集與基于Python 的爬蟲技術(shù)采集原始語料數(shù)據(jù),再通過Python、NLP(自然語言處理)技術(shù)進行語料預(yù)處理和復(fù)雜分析等;③存儲設(shè)計:以O(shè)racle 數(shù)據(jù)庫為存儲模塊存儲語料元數(shù)據(jù),由于各類語料庫分析軟件需要簡單直觀的可識別文本讀取數(shù)據(jù),因此同時需要再數(shù)據(jù)庫所在服務(wù)器終端生成TXT 格式的文本單元數(shù)據(jù)。語料庫存儲結(jié)構(gòu)目錄如圖1 所示;④數(shù)據(jù)分析與利用設(shè)計:通過開放數(shù)據(jù)庫接口的方式拓展數(shù)據(jù)服務(wù),利用大數(shù)據(jù)、機器學(xué)習(xí)、云計算等新興技術(shù)實現(xiàn)數(shù)據(jù)分析與知識發(fā)現(xiàn)。
圖1 語料庫存儲結(jié)構(gòu)目錄
2.3 語料采集 原始語料是構(gòu)建語料庫的基礎(chǔ)。在采集語料的過程中不僅要注重內(nèi)容收集,還要收集內(nèi)容附屬信息如內(nèi)容來源、標題、時間等元數(shù)據(jù)信息。由于語料的規(guī)模與質(zhì)量是實現(xiàn)智慧診療服務(wù)目標的前提,因此應(yīng)以采集具有權(quán)威性、真實性、全面的診療知識為依據(jù)。智慧診療語料庫語料可從循證醫(yī)學(xué)數(shù)據(jù)庫中采集,循證醫(yī)學(xué)是利用現(xiàn)有最好的醫(yī)學(xué)證據(jù),同時結(jié)合醫(yī)生臨床經(jīng)驗和患者愿望作出醫(yī)療決策。采集方式主要有人工采集和自動采集。如圖書、期刊、典藏古籍等沒有數(shù)字文本化存檔時,需進行人工采集,但手動采集往往工作量較大,且必須反復(fù)校對,這需要相當(dāng)大的人力與時間投入。而自動采集可以以循證醫(yī)學(xué)電子數(shù)據(jù)庫(DynaMed、OVID EBM)等為采集對象,獲取疾病臨床知識等,但受限于采集字段標準多樣性、網(wǎng)絡(luò)質(zhì)量、數(shù)據(jù)庫源限制等影響因素,自動采集的語料會不同程度上存在字段不完整、信息缺失等情況,因此還需對所采集的語料進一步加工校對。典型自動采集語料工具有:Python、GooSeeker 等。
2.4 語料預(yù)處理 由于人工與自動采集的語料信息往往錯綜復(fù)雜,數(shù)據(jù)量龐大直接影響到語料庫的分析、處理、使用。利用機器學(xué)習(xí)算法中無監(jiān)督特征學(xué)習(xí)方式,通過已標注數(shù)據(jù)自編碼器辨別區(qū)分無標注數(shù)據(jù),選取合適的中英文字典實現(xiàn)對生語料的分詞,還要使用除停用詞、標注等方法才能形成可用語料信息。目前典型的文本預(yù)處理工具有:SnowNLP,OpenNLP,BosonNLP。機器學(xué)習(xí)工具有:基于Python的Theano 機器學(xué)習(xí)庫。
2.5 數(shù)據(jù)庫設(shè)計 語料存儲也是語料庫建設(shè)的關(guān)鍵點,選擇合理的數(shù)據(jù)庫以及文本存儲結(jié)構(gòu)可直接影響基于語料庫提供的診療服務(wù)的質(zhì)量。選擇合適的數(shù)據(jù)庫結(jié)構(gòu),可有安全穩(wěn)定的存儲語料信息,也有效提供用戶信息處理需求。本項目建設(shè)主要基于Oracle 的數(shù)據(jù)庫,關(guān)鍵表主要有3 張:語料表、分詞表、專用詞表。而文本語料表主要存儲語料的元信息包含醫(yī)學(xué)名詞、來源、證候、時間、方藥等等;分詞表主要記載所收集語料的詞語信息;專用詞表是根據(jù)語料庫使用性質(zhì)而確定,如收集的全部是疾病名稱相關(guān)信息,則需要記錄西醫(yī)疾病名、對照的中醫(yī)癥狀名專用詞語,這有利于精準分析語料。根據(jù)以上不同階段任務(wù)可以搭建面向機器學(xué)習(xí)的智慧診療語料庫架構(gòu)如圖2 所示。
圖2 面向機器學(xué)習(xí)的智慧診療語料庫架構(gòu)
3.1 語料庫建設(shè)成果 按照以上構(gòu)建方案,筆者項目團隊從2020 年1 月起開始構(gòu)建智慧診療語料庫,截至目前已經(jīng)收錄中西醫(yī)診療語料2046 條,其中中醫(yī)相關(guān)語料條數(shù)866 條,西醫(yī)相關(guān)語料條數(shù)1180 條。分詞后中文詞語數(shù)19 594 個,語句片斷數(shù)約為19.693 萬條。其中中醫(yī)語料條分為中醫(yī)癥狀、中醫(yī)病癥名、西醫(yī)疾病名、中醫(yī)證候、中醫(yī)醫(yī)案、中醫(yī)名家、所屬流派、籍貫等類目。而西醫(yī)語料條主要包括病因、癥狀、常用檢查、治療方案、常用藥品及預(yù)防等6個類目。
3.2 建設(shè)成果優(yōu)劣勢分析
3.2.1 優(yōu)勢分析 ①智慧診療語料庫可為實習(xí)、規(guī)培等新醫(yī)生提供醫(yī)學(xué)知識查詢。所有知識均來自可循證的權(quán)威知識書籍、臨床指南、醫(yī)學(xué)數(shù)據(jù)庫等,為醫(yī)務(wù)人員提供實時可靠的醫(yī)學(xué)知識,可根據(jù)需求學(xué)習(xí)科室總結(jié)的經(jīng)典診療方案,滿足不同科室、不同醫(yī)生的個性化需求。其次這些醫(yī)療知識可整理成可共享開放數(shù)據(jù)集,提供給廣大醫(yī)學(xué)愛好者參考學(xué)習(xí);②智慧診療語料庫可作為臨床醫(yī)生輔助診斷的依據(jù),基于主訴、現(xiàn)病史中提到的癥狀、疾病,以及相關(guān)檢查、檢驗結(jié)果推薦相關(guān)的疾病、相關(guān)癥狀及體征,按照診斷結(jié)果由高到低匹配語料庫中類似醫(yī)案,推斷潛在疾病可能性,根據(jù)患者基本信息、主訴、現(xiàn)病史等病歷信息推薦合理的檢查檢驗、用藥及手術(shù)治療等方案,并提供對應(yīng)的推斷邏輯,輔助醫(yī)生更好地決策;③智慧診療語料庫可根據(jù)醫(yī)院或者信息服務(wù)廠商的要求,可定制不同的接入方式,包括API/BS/CS 應(yīng)用程序接口,便于數(shù)據(jù)調(diào)用。
3.2.2 劣勢分析 ①語料規(guī)模方面:由于本語料庫致力于建設(shè)成為醫(yī)務(wù)工作者醫(yī)療知識庫以及臨床輔助診斷參考庫,并且語料庫建設(shè)過程中涉及到中醫(yī)、西醫(yī)以及中西醫(yī)結(jié)合等多維度,因時間倉促,醫(yī)療診斷語料庫目前語料規(guī)模仍然較小,需繼續(xù)建設(shè);②中醫(yī)語料方面:由于中醫(yī)不同醫(yī)家對于陰陽五行理論等理解不同,傳承學(xué)術(shù)流派不同,因此對于病證的用藥加減方案亦不同,需完善中醫(yī)語料中同一證候的醫(yī)案數(shù)量,不斷搜集整理近代乃至古代我國傳統(tǒng)名醫(yī)介紹、醫(yī)案、醫(yī)著等,便于現(xiàn)代中醫(yī)用藥參考;③西醫(yī)語料方面:醫(yī)院語料主要通過Python 等技術(shù)自動采集而來,但機器收集的資料往往良莠不齊,因此西醫(yī)語料需邀醫(yī)學(xué)類專業(yè)人士對其進行審核,去蕪存精,提高智慧診療語料庫的權(quán)威性。
4.1 可視化信息服務(wù) 可視化信息服務(wù)是智慧診療語料庫應(yīng)用最直觀展示手段,傳統(tǒng)語料庫研究往往注重語料建設(shè)與語譯應(yīng)用,少有提供用戶可視化功能展示的頁面,用戶通常無法直觀的獲取語料庫包含的相關(guān)領(lǐng)域內(nèi)知識,因此可通過一些可視化技術(shù)給語料信息搭建前端展示平臺,實現(xiàn)包含語料信息的可視化信息服務(wù)。如本項目成果之一,近代浙派中醫(yī)文獻數(shù)據(jù)庫,以智慧診療語料庫中中醫(yī)部分語料為基礎(chǔ),通過H5 技術(shù)搭建的Web 端、移動端一體化展示頁面見圖3。從語料庫中抽取的數(shù)據(jù)框架主要以浙派醫(yī)學(xué)流派醫(yī)家?guī)?、醫(yī)著、醫(yī)派為主系統(tǒng)整合相關(guān)信息。其中浙派醫(yī)派醫(yī)家?guī)熘饕凑憬赜騽澐质珍浐贾?、寧波、湖州、嘉興、紹興、金華等古今有影響力的典型人物傳記81 條,著錄項包括醫(yī)家名號、方劑、藥物等。通過數(shù)據(jù)關(guān)聯(lián)等方式為用戶提供信息檢索、瀏覽、知識圖譜等多種信息服務(wù),促進中醫(yī)藥文化研究,后期可以不斷通過智慧診療語料庫搭建中西醫(yī)結(jié)合等多領(lǐng)域可視化平臺。
圖3 近代浙派中醫(yī)文獻數(shù)據(jù)庫
4.2 輔助治療決策及風(fēng)險預(yù)警 輔助治療決策以循證醫(yī)學(xué)知識庫為支撐,結(jié)合醫(yī)生診療經(jīng)驗,通過先進的機器算法對大規(guī)模臨床診療數(shù)據(jù)和術(shù)后隨訪記錄數(shù)據(jù)進行訓(xùn)練,挖掘治療方案和效果評價的隱性關(guān)聯(lián),尋找最佳治療方案。隨著語料收集技術(shù)不斷升級,語料庫中西醫(yī)部分數(shù)據(jù)規(guī)模不斷龐大,可以為輔助治療系統(tǒng)提供海量的臨床指南、藥典、病例、教材等醫(yī)學(xué)知識庫作為機器學(xué)習(xí)的數(shù)據(jù)集,提供程序(API)接口讓機器“學(xué)習(xí)”專家主任級醫(yī)師診療經(jīng)驗,模擬診療時的思維邏輯,并在實際應(yīng)用時給出可行性診治方案。打造遵循循證醫(yī)學(xué)的臨床輔助決策系統(tǒng),從而協(xié)助醫(yī)生為患者提供更精準優(yōu)質(zhì)的診療方案。這對于年輕乃至規(guī)培實習(xí)醫(yī)生來說作用尤其明顯,相當(dāng)于把更多實戰(zhàn)經(jīng)驗匯總,需要時自動調(diào)出,診療的過程也成了學(xué)習(xí)的過程。同時輔助治療決策也具有風(fēng)險預(yù)警的作用,如利用大樣本臨床診療數(shù)據(jù)構(gòu)建風(fēng)險預(yù)測模型,結(jié)合患者自身病情和特征,適時動態(tài)的給出規(guī)避風(fēng)險的治療方案,如在情況較為緊急時的急診考慮手術(shù)治療、術(shù)后并發(fā)癥以及用藥副反應(yīng)等,及早預(yù)測患者不良反應(yīng)并予以作出預(yù)防措施。
4.3 智能語音病歷 語音識別技術(shù)將通過識別人類的語音中各種特征并轉(zhuǎn)化成計算機可識別的二進制輸入語言,是一項成熟穩(wěn)定的聲音特征提取技術(shù),但醫(yī)學(xué)往往存在諸多復(fù)雜晦澀的醫(yī)學(xué)專業(yè)詞匯,造成計算機識別程度低,也就很難幫助醫(yī)生快速錄入病歷。而智能語音病歷主要利用診療語料庫匯聚海量的醫(yī)學(xué)分詞,搭建流式端到端語音語言一體化建模算法將語音快速準確識別為文字,支持智能手機系統(tǒng)語音交互、機器人語音溝通、多場景語音內(nèi)容分析等。智能語音病歷技術(shù)較為基礎(chǔ),但能幫醫(yī)生減負不少工作量。據(jù)深圳市德信數(shù)據(jù)調(diào)查顯示,我國50%以上的住院醫(yī)生平均每天有4 h 以上在寫病歷,而應(yīng)用語音病歷后,患者的主訴內(nèi)容可以實時地轉(zhuǎn)換成文字,效率明顯提升,減少醫(yī)生在診療過程中不必要的時間成本。語音識別技術(shù)是實現(xiàn)智慧診療的有效探索。
隨著數(shù)據(jù)挖掘、機器學(xué)習(xí)等技術(shù)的不斷進步,語料庫目前建設(shè)所面臨的語料體量小、語料收集、語料分斷困難等難點將得到有效解決。本研究在現(xiàn)有信息技術(shù)條件下,盡可能采集語料并進行規(guī)范化處理,設(shè)計數(shù)據(jù)庫,合理存儲預(yù)料表等數(shù)據(jù),形成診療語料庫,包含復(fù)雜的疾病癥狀、臨床檢查知識、隨診病歷與治療方案等。智慧診療語料庫作為智能智能診療系統(tǒng)研究的基礎(chǔ)與參考,未來對此進一步深入研究,可以幫助醫(yī)生應(yīng)用臨床技能和經(jīng)驗迅速判斷患者狀況及疾病診斷,選擇最優(yōu)治療措施,降低醫(yī)療風(fēng)險及醫(yī)生工作時間成本,完善公共醫(yī)療體系,合理分配公共醫(yī)療系統(tǒng)資源,為患者提供優(yōu)質(zhì)便捷的智慧診療服務(wù)。