馬鶴桐 王序文 沈柳 李姣
醫(yī)學(xué)數(shù)據(jù)中包含著海量待挖掘的有價值的數(shù)據(jù),是重要的醫(yī)學(xué)戰(zhàn)略資源[1]?;谏疃葘W(xué)習(xí)的模型能夠大幅發(fā)揮其優(yōu)勢。該類模型需要標(biāo)注好的數(shù)據(jù)進行大規(guī)模訓(xùn)練,因此,對于醫(yī)學(xué)知識標(biāo)注體系的設(shè)計和標(biāo)注系統(tǒng)的需求不言自明。標(biāo)注體系是規(guī)范化的標(biāo)簽體系,是醫(yī)學(xué)知識標(biāo)注的基礎(chǔ),是實體標(biāo)注的底層支撐,是文本挖掘、命名實體識別的基礎(chǔ)。完善的醫(yī)學(xué)知識標(biāo)注體系能夠在更廣、更深的層次上輔助大規(guī)模訓(xùn)練與文本挖掘。醫(yī)學(xué)標(biāo)注系統(tǒng)應(yīng)能夠最大限度支持標(biāo)注體系,并提供對于標(biāo)簽體系的結(jié)構(gòu)管理與可視化呈現(xiàn)。目前,在標(biāo)注體系方面有較多參考,如一體化醫(yī)學(xué)語言系統(tǒng)(unified medical language system, UMLS),其涵蓋127 個語義類型,但對于標(biāo)注來說負擔(dān)較大。而在標(biāo)注的過程中,大多采用自行定義的方式完成標(biāo)注體系的構(gòu)建,缺少可參考且較為全面但不復(fù)雜的標(biāo)注體系。因此,在對醫(yī)學(xué)知識標(biāo)簽體系深入了解的基礎(chǔ)上,提出一種輔助標(biāo)注的醫(yī)學(xué)知識標(biāo)注體系以解決醫(yī)學(xué)知識標(biāo)注體系缺乏的問題。同時,對當(dāng)前較有影響力、較好口碑的若干標(biāo)注系統(tǒng)進行了調(diào)研,發(fā)現(xiàn)其并不能實現(xiàn)用戶所需的全部標(biāo)注功能,歸納為以下幾類問題:(1)標(biāo)注體系并不能支持其結(jié)構(gòu)化和可視化,無法最大限度輔助標(biāo)注人員進行標(biāo)注任務(wù)。(2)支持基于詞表、字典的自動標(biāo)注功能較為有限,包括頻繁上傳失敗、無法對失敗原因進行提示與評估或無法進行自動標(biāo)注。(3)無法對當(dāng)前的已有詞表進行自定義裁剪與輔助標(biāo)注。(4)可視化界面無法做到與用戶友好交互,如用戶對于界面的調(diào)整、用戶上傳待標(biāo)注文本后對文本的編輯操作。(5)無法支持用戶定制導(dǎo)出標(biāo)注內(nèi)容。(6)標(biāo)注體系設(shè)計不足且缺乏可借鑒的體系。以上問題顯示當(dāng)前的標(biāo)注系統(tǒng)無法滿足現(xiàn)有醫(yī)學(xué)知識標(biāo)注需求,因此亟須構(gòu)建醫(yī)學(xué)知識標(biāo)注體系與系統(tǒng)構(gòu)建。本研究在梳理業(yè)務(wù)需求、完善背景調(diào)研的基礎(chǔ)上,厘清了醫(yī)學(xué)知識標(biāo)注系統(tǒng)開發(fā)與管理所涉及的流程與關(guān)鍵方法,并給出該系統(tǒng)支持醫(yī)學(xué)知識標(biāo)注與系統(tǒng)開發(fā)的設(shè)計方案。
呈指數(shù)型增長的醫(yī)學(xué)文本數(shù)據(jù)涵蓋了大量知識,其類型包括臨床數(shù)據(jù)、文獻數(shù)據(jù)、電子病歷、臨床敘述等[2],其特點表現(xiàn)為多維度、非結(jié)構(gòu)化,且包含大量語義類型和有價值的信息[3-5]。各種智能技術(shù)、算法及數(shù)據(jù)挖掘方法可以從中提取重要知識以支持臨床決策[6-7]。而擁有大量有價值信息的自由文本,只有通過標(biāo)注轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),才能得到很好的應(yīng)用。因此,醫(yī)學(xué)知識標(biāo)注是獲得高質(zhì)量標(biāo)注數(shù)據(jù)的前提,是智能技術(shù)應(yīng)用的關(guān)鍵[8-9]。大規(guī)模協(xié)作眾包下的醫(yī)學(xué)知識標(biāo)注不僅能為數(shù)據(jù)科學(xué)家提供訓(xùn)練數(shù)據(jù),更是能夠?qū)?biāo)注完成的數(shù)據(jù)集作為金標(biāo)準(zhǔn)以評價數(shù)據(jù)挖掘算法的穩(wěn)定性。因此,構(gòu)建一套較為全面的、較有代表性的知識標(biāo)注標(biāo)簽體系尤為重要,該體系能夠幫助數(shù)據(jù)科學(xué)家及行業(yè)科研人員快速地明確標(biāo)注內(nèi)容,并為接下來的標(biāo)注任務(wù)提供語義基礎(chǔ),標(biāo)簽體系本身也能夠輔助數(shù)據(jù)查詢與快速定位[10-11]。
醫(yī)學(xué)知識標(biāo)注體系構(gòu)建的目的在于幫助醫(yī)學(xué)從業(yè)人員、標(biāo)注人員、科研人員快速完成醫(yī)學(xué)文本內(nèi)容的分類及輔助標(biāo)注,從而使得醫(yī)學(xué)文本中的大量信息能夠為機器識別與利用,實現(xiàn)醫(yī)學(xué)數(shù)據(jù)的深度挖掘。本框架設(shè)置主要從醫(yī)學(xué)文本的信息量、醫(yī)學(xué)內(nèi)容分類及臨床醫(yī)學(xué)從業(yè)人員的需求角度出發(fā),參考一體化醫(yī)學(xué)語言系統(tǒng)UMLS[12],設(shè)置8 個類別,20 個二級類目,40 個三級類目。頂層類別包括物種、基因或基因組、化學(xué)物質(zhì)及藥物、設(shè)備、解剖結(jié)構(gòu)、異常、生理學(xué)及操作。其中,解剖學(xué)包括解剖結(jié)構(gòu)、身體位置或部位、器官或組成部分、身體空間或連接處、身體物質(zhì)、身體系統(tǒng)、細胞、細胞成分、胚胎成分、完全形成的解剖結(jié)構(gòu)及組織?;瘜W(xué)物質(zhì)及藥物包括氨基酸、肽或蛋白質(zhì)、抗生素、生物活性物質(zhì)、生物醫(yī)學(xué)或牙科材料、碳水化合物序列、化學(xué)制品、功能分類化學(xué)物質(zhì)、結(jié)構(gòu)分類化學(xué)物質(zhì)、臨床藥物、元素、離子或放射性核素、酶、危險或有毒物質(zhì)、激素、免疫物質(zhì)、指示劑試劑或診斷輔助、無機化學(xué)物質(zhì)、核算核苷或核苷酸、有機化學(xué)藥品、藥理性物質(zhì)、受體、維生素。
圖1 醫(yī)學(xué)知識標(biāo)注體系框架圖
參考國內(nèi)已有標(biāo)簽體系構(gòu)建方法[1],結(jié)合實際需求及國內(nèi)外已有知識標(biāo)注體系設(shè)計,以及行業(yè)標(biāo)注系統(tǒng)建設(shè)要求,醫(yī)學(xué)知識標(biāo)注系統(tǒng)的業(yè)務(wù)需求主要包括流程標(biāo)準(zhǔn)化需求、數(shù)據(jù)字典標(biāo)準(zhǔn)化需求、語義映射需求、標(biāo)注管理需求、人員管理需求等方面。
2.1.1 流程標(biāo)準(zhǔn)化需求
醫(yī)學(xué)知識標(biāo)注過程包括文本上傳、人員添加、任務(wù)分配、自動標(biāo)注、人工標(biāo)注、人工審核、版本控制等流程,內(nèi)容多以文本為主,涵蓋大量信息及細節(jié)。在知識標(biāo)注的過程中,需要對標(biāo)注的流程進行詳細設(shè)計,否則容易引發(fā)數(shù)據(jù)沖突。圖2 為本知識標(biāo)注系統(tǒng)流程圖,其中內(nèi)嵌詞表為系統(tǒng)提供的數(shù)據(jù)字典以輔助用戶完成知識標(biāo)注。
圖2 醫(yī)學(xué)知識標(biāo)注系統(tǒng)流程圖
圖3 系統(tǒng)框架設(shè)計圖
2.1.2 數(shù)據(jù)字典標(biāo)準(zhǔn)化需求
在健康信息層面,國家持續(xù)推出數(shù)據(jù)類標(biāo)準(zhǔn),為數(shù)據(jù)互通實現(xiàn)協(xié)同操作的可能[13]。然而,對于醫(yī)學(xué)知識標(biāo)注系統(tǒng)中的數(shù)據(jù)字典尚無標(biāo)準(zhǔn)可以進行數(shù)據(jù)管理,不同的出版方發(fā)布的數(shù)據(jù)字典格式有所差異,不同的科研人員自行構(gòu)建的數(shù)據(jù)字典也是多源異構(gòu)且在格式上有所不同。不同的數(shù)據(jù)字典無法通過統(tǒng)一的抽取方式來完成數(shù)據(jù)的識別與利用,因此需要對數(shù)據(jù)格式、數(shù)據(jù)內(nèi)容及關(guān)系進行統(tǒng)一管理與設(shè)計,規(guī)范標(biāo)準(zhǔn)化數(shù)據(jù)字典的構(gòu)建。
2.1.3 語義映射需求
為用戶標(biāo)注方便,系統(tǒng)提供內(nèi)嵌的數(shù)據(jù)字典。然而一個數(shù)據(jù)字典并不能滿足不同用戶針對不同需求的知識標(biāo)注需要。在某些情況下,多個細分的語義類型都可以被歸并為某一類待標(biāo)注的類別。對于數(shù)據(jù)字典已經(jīng)體現(xiàn)出來的語義關(guān)系,用戶無需費時再次自行標(biāo)注,只需利用數(shù)據(jù)字典本身的屬性即可。因此,語義映射是完成用戶最終定制化標(biāo)注需要的無法避免的中間一環(huán)。系統(tǒng)應(yīng)能提供根據(jù)數(shù)據(jù)字典對已定義的語義類型進行語義映射的功能,并賦予用戶對數(shù)據(jù)字典進行語義類型歸并和篩選的權(quán)限。
2.1.4 標(biāo)注可視化綜合需求
在標(biāo)注過程中,系統(tǒng)應(yīng)提供統(tǒng)一標(biāo)準(zhǔn)化的標(biāo)注流程,賦予不同角色不同的標(biāo)注權(quán)限,并設(shè)置標(biāo)注入口。對于自動標(biāo)注和人工標(biāo)注流程予以區(qū)分,標(biāo)注內(nèi)容包含大量信息與細節(jié),需要對不同的語義類型加以區(qū)分的同時,完成對標(biāo)注內(nèi)容增刪查改的功能,實現(xiàn)手工標(biāo)注界面,自動標(biāo)注界面、標(biāo)注校對界面的統(tǒng)一化呈現(xiàn)。
2.1.5 人員管理需求
知識標(biāo)注過程最終是人工操作的過程。因此,對于人員的添加、分配應(yīng)滿足統(tǒng)一化的處理,但同時保留靈活選擇、分配的權(quán)限。在知識標(biāo)注過程中,不同的場景對應(yīng)不同的人員標(biāo)注模式。因此,通過3 種不同標(biāo)注模式來滿足不同場景下的標(biāo)注的同時,賦予不同的人員相應(yīng)的權(quán)限。3種標(biāo)注模式分別為獨立標(biāo)注模式、協(xié)同標(biāo)注模式和獨立協(xié)同標(biāo)注模式。
主要對項目管理者、標(biāo)注人員、標(biāo)注專家、系統(tǒng)管理員4 類用戶進行分析。表1 提供了這4 類用戶的實際權(quán)限。其中,項目管理員可以進行人員管理、項目管理、標(biāo)注審核、數(shù)據(jù)字典的使用以及標(biāo)注流程的使用。而標(biāo)注人員只能完成標(biāo)注任務(wù),可以進行數(shù)據(jù)字典的使用,但沒有其他權(quán)限。標(biāo)注專家在標(biāo)注人員的基礎(chǔ)上可以完成標(biāo)注審核的任務(wù)。系統(tǒng)管理員則可以有所有任務(wù)的權(quán)限。
表1 用戶權(quán)限分析表
醫(yī)學(xué)知識標(biāo)注系統(tǒng)設(shè)計模塊層、應(yīng)用層、解析層以及數(shù)據(jù)層。其中,模塊層包括系統(tǒng)設(shè)計的五大模塊,分別為項目模塊、文檔模塊、任務(wù)模塊、審核模塊及操作模塊。應(yīng)用層涉及用戶所有的操作內(nèi)容,包括創(chuàng)建項目、上傳文檔、任務(wù)分配、數(shù)據(jù)審核、數(shù)據(jù)導(dǎo)出等操作。解析層用于所有數(shù)據(jù)的解析,不同的數(shù)據(jù)使用不同的解析器,包括網(wǎng)頁解析器、詞表解析器、協(xié)議解析器、接口解析器和文檔解析器。數(shù)據(jù)層負責(zé)存放及調(diào)取系統(tǒng)所有的數(shù)據(jù),包括詞表數(shù)據(jù)庫、語義數(shù)據(jù)庫、文檔數(shù)據(jù)庫、映射數(shù)據(jù)庫、標(biāo)注數(shù)據(jù)庫以及人員數(shù)據(jù)庫。其中,詞表數(shù)據(jù)庫存放系統(tǒng)內(nèi)嵌的詞表以及用戶上傳的詞表數(shù)據(jù),語義數(shù)據(jù)庫存放用戶自定義的語義類型數(shù)據(jù)庫以及內(nèi)嵌詞表涵蓋的語義類型數(shù)據(jù)庫,文檔數(shù)據(jù)庫包括用戶上傳的文檔數(shù)據(jù),映射數(shù)據(jù)庫涵蓋用戶從內(nèi)嵌詞表或上傳詞表映射到自定義語義類型的數(shù)據(jù),標(biāo)注數(shù)據(jù)庫包括所有標(biāo)注的數(shù)據(jù)信息,人員數(shù)據(jù)庫涵蓋系統(tǒng)所有人員角色,包括系統(tǒng)管理員、標(biāo)注人員、專家及超級管理員。
主要實現(xiàn)數(shù)據(jù)資源的管理,包括日志管理,語義類型管理、映射表管理和數(shù)據(jù)字典管理4 個部分。其中日志管理主要實現(xiàn)對系統(tǒng)中用戶的所有操作的保存,以便快速定位及解決問題。語義類型管理主要實現(xiàn)待標(biāo)注的語義類型的確定,以便輔助完成醫(yī)學(xué)知識的標(biāo)注。映射表管理主要實現(xiàn)自動預(yù)標(biāo)注中從數(shù)據(jù)字典到待標(biāo)注語義類型的映射管理,從而精準(zhǔn)地利用數(shù)據(jù)字典完成標(biāo)注任務(wù)。數(shù)據(jù)字典管理主要實現(xiàn)自動標(biāo)注任務(wù),通過數(shù)據(jù)字典中自帶的內(nèi)容和語義類型完成自動標(biāo)注,從而降低人工知識標(biāo)注的成本。
主要實現(xiàn)各類內(nèi)容流程的管理,包括項目管理、登錄管理、文檔管理、人員管理、任務(wù)管理、權(quán)限管理等內(nèi)容。其中,項目管理主要實現(xiàn)項目的新建、修改、刪除及查詢?nèi)蝿?wù),并輔以相應(yīng)權(quán)限。登錄管理主要實現(xiàn)用戶的登錄,登錄形式分為兩種,管理員采用郵箱登錄,標(biāo)注人員采用URL 登錄。文檔管理主要實現(xiàn)待標(biāo)注文檔的上傳、存儲、下載及呈現(xiàn)等功能以及標(biāo)注完成后的相應(yīng)信息的管理。系統(tǒng)應(yīng)提供多種方式上傳文件,包括不同格式,文件導(dǎo)入、單個上傳、批量上傳或壓縮包上傳。標(biāo)注完成后,應(yīng)為用戶提供相應(yīng)的信息以便隨時導(dǎo)出使用。人員管理主要實現(xiàn)標(biāo)注人員的添加、修改、刪除,標(biāo)注任務(wù)的人員分配,以及相應(yīng)的標(biāo)注入口的提供。系統(tǒng)應(yīng)存儲所有人員的一應(yīng)信息。任務(wù)管理主要實現(xiàn)新建標(biāo)注任務(wù)、結(jié)束標(biāo)注任務(wù)、分配標(biāo)注任務(wù)等功能。系統(tǒng)應(yīng)能實時展示當(dāng)前任務(wù)的狀態(tài)及進程。權(quán)限管理主要實現(xiàn)不同用戶角色的權(quán)限管理,包括系統(tǒng)管理員、項目管理員、標(biāo)注人員、標(biāo)注專家。
主要實現(xiàn)標(biāo)注相關(guān)的內(nèi)容管理,包括標(biāo)注狀態(tài)管理、預(yù)標(biāo)注狀態(tài)管理、標(biāo)注內(nèi)容管理等內(nèi)容。其中,標(biāo)注狀態(tài)管理主要實現(xiàn)當(dāng)前標(biāo)注狀態(tài)的切換及操作。開啟標(biāo)注時,系統(tǒng)默認狀態(tài)為標(biāo)注中,用戶標(biāo)注完成后可手動切換為標(biāo)注完成。預(yù)標(biāo)注狀態(tài)管理主要呈現(xiàn)當(dāng)前自動標(biāo)注的狀態(tài)。自動標(biāo)注的狀態(tài)包括自動標(biāo)注中、自動預(yù)標(biāo)完成及自動預(yù)標(biāo)隱藏。標(biāo)注內(nèi)容管理主要實現(xiàn)標(biāo)注內(nèi)容的展示與管理。標(biāo)注內(nèi)容包括預(yù)標(biāo)注內(nèi)容與手工標(biāo)注內(nèi)容。
主要實現(xiàn)界面呈現(xiàn)的管理,包括雙語支持、統(tǒng)計分析、內(nèi)容查詢3 個部分。其中,雙語支持主要實現(xiàn)系統(tǒng)的中英雙語的界面切換。其中,中文界面提供中文標(biāo)注功能(圖4),英文界面提供英文標(biāo)注功能,兩份界面功能完全一致,但提供雙語支持。統(tǒng)計分析主要實現(xiàn)標(biāo)注完成后的標(biāo)注內(nèi)容的統(tǒng)計分析,包括標(biāo)注數(shù)量、標(biāo)注語義類型、標(biāo)注人員、標(biāo)注準(zhǔn)確率、標(biāo)注召回率、標(biāo)注F1 值等。內(nèi)容查詢主要實現(xiàn)標(biāo)注內(nèi)容的查詢,包括標(biāo)注文檔、標(biāo)注人員、標(biāo)注類型、標(biāo)注時間、審核人員、標(biāo)注信息等。
醫(yī)學(xué)知識標(biāo)注體系設(shè)計及標(biāo)注系統(tǒng)是醫(yī)學(xué)數(shù)據(jù)類信息標(biāo)注現(xiàn)有標(biāo)準(zhǔn)的重要補充及參考資源。其中,醫(yī)學(xué)知識標(biāo)注體系可以幫助實現(xiàn)醫(yī)學(xué)知識標(biāo)簽設(shè)計的快速實現(xiàn),是醫(yī)學(xué)知識標(biāo)注的重要基礎(chǔ)。醫(yī)學(xué)知識標(biāo)注系統(tǒng)通過提供標(biāo)準(zhǔn)化的標(biāo)注流程、便捷的功能支持和交互友好的操作界面的同時,融入醫(yī)學(xué)知識標(biāo)注體系提供更高效的標(biāo)注手段,降低了實現(xiàn)醫(yī)學(xué)知識標(biāo)注的時間成本、人力成本,降低了醫(yī)學(xué)知識標(biāo)注的設(shè)計及實現(xiàn)難度,提升了操作便易性和流程的流暢性,為醫(yī)學(xué)知識標(biāo)注提供了強有力的技術(shù)及知識基礎(chǔ)。系統(tǒng)使用之初,可能有不完善之處,將在后續(xù)的版本中不斷更新完善。