国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于依存句法分析的病理報告結構化處理方法

2016-12-22 04:20:01田馳遠陳德華樂嘉錦
計算機研究與發(fā)展 2016年12期
關鍵詞:檢查報告指標值結構化

田馳遠 陳德華 王 梅 樂嘉錦

(東華大學計算機科學與技術學院 上海 201620)(chiyuantian@163.com)

?

基于依存句法分析的病理報告結構化處理方法

田馳遠 陳德華 王 梅 樂嘉錦

(東華大學計算機科學與技術學院 上海 201620)(chiyuantian@163.com)

病理檢查報告中的文本通常為非結構化數(shù)據(jù),不利于計算機自動分析和處理.目前文本結構化主要采用信息關系抽取方法,然而病理檢查報告所具有的語義特殊性,給中文信息關系抽取帶來了挑戰(zhàn).為解決上述問題,設計了一種針對病理檢查報告的結構化方法,首先通過神經網絡語言模型獲得病理報告中的同義詞表,合并一義多詞現(xiàn)象;在此基礎上,生成病理檢查報告文本的依存關系樹,并提出切分短句和信息標注的剪裁策略,以簡化初始生成的依存關系樹結構,從而使語法關系更加清晰,提高結構化結果的準確度;進而,利用依存句法分析結果從中文檢查報告中提取指標及對應指標值,并自動生成結構化模板.實驗采用醫(yī)生真實使用的醫(yī)療病理檢查報告進行驗證,其結果表明:該方法在指標詞和對應指標值提取任務中的準確率可以分別達到82.91%和79.11%,為相關研究打下了基礎.

醫(yī)療數(shù)據(jù);病理報告;依存句法分析;文本結構化處理;神經網絡語言模型

隨著信息化建設的快速發(fā)展,目前我國醫(yī)療數(shù)據(jù)急速增長,積累了大量電子臨床數(shù)據(jù)資源,為醫(yī)療大數(shù)據(jù)的分析和挖掘提供了基礎.然而當前醫(yī)療文檔大多是以自然語言描述的非結構化文本,由于自然語言與機器語言之間存在巨大鴻溝,導致用計算機直接處理和分析非結構化文本的效率較低,也影響了分析結果的質量.為了能有效利用現(xiàn)有技術成熟的分析工具對醫(yī)療文檔進行數(shù)據(jù)分析和數(shù)據(jù)挖掘,從而提高醫(yī)療數(shù)據(jù)價值,對非結構化數(shù)據(jù)進行結構化就成為了該領域學者關注的重點.

病理檢查報告是診斷病理學中的重要臨床文檔,醫(yī)生將活檢樣本送往病理科檢查,然后憑借自身經驗對檢查結果作出判斷并將影像描述、臨床診斷、診斷意見等內容以自然語言形式記錄在報告中.這些文檔包含的信息往往是臨床醫(yī)生進行疾病診斷的重要依據(jù),也決定了病人將要接受的治療方案.檢查報告的結構化目標是發(fā)現(xiàn)其中包含的關鍵指標key,以及對應指標值value,最終形成key-value形式的結構化模板.表1給出了甲狀腺超聲檢查報告中的1個實例,其結構化結果由13個key-value形式的二元組組成,其中諸如甲狀腺大小、形態(tài)、邊界等關鍵指標及其對應指標值是病理診斷的關鍵內容.從上例可以看出,將甲狀腺超聲檢查報告中的所有描述轉化成結構化模板,可保留報告中的核心信息,并建立簡明規(guī)整的結構,方便讀取和查詢,同時也有利于借助R軟件或SPSS(statistical product and service solutions)軟件等現(xiàn)有數(shù)據(jù)挖掘工具對結構化指標與診斷結果進行關聯(lián)分析,挖掘出大量與患者密切相關的醫(yī)療知識,從而輔助醫(yī)生進行診斷.

Table 1 Example of Structured Thyroid Ultrasound Report

目前,在非結構化文本轉化為結構化數(shù)據(jù)領域已存在大量的研究工作,如自動問答系統(tǒng)[1]、關鍵詞抽取[2]和自動摘要[3]等,而針對中文醫(yī)學自然語言處理的研究相對較少,主要研究方向集中于實體識別和信息抽取,其研究對象往往是結構化或半結構化文本,于是如何對文本進行結構化便成了關鍵步驟.目前文本結構化技術大多采用基于規(guī)則的處理方式,但由于醫(yī)療文本中不同組織器官所具有的屬性不同,且描述不同病種所使用的指標詞也不同,又由于基于規(guī)則結構化方法的可擴展性較差,所以若想制定出一種適用所有病理檢查報告的結構化規(guī)則十分困難.除了上述基于規(guī)則結構化方法外,還可以通過句法語義特征和詞性特征識別語義,從而進行實體關系抽取和結構化處理,有效減少人工閱讀工作量.Socher等人[4]提出了一種基于依存關系樹識別語義的方法,利用循環(huán)神經網絡將句子成分抽象為語序和句法信息,從而得到句子的語義信息.但是病理檢查報告在語義特征上具有其特殊性,醫(yī)生通常采用名詞、形容詞或名詞性短語對指標進行描述,句中的謂語往往不以動詞形式出現(xiàn).而傳統(tǒng)的依存句法分析方法以動詞作為核心詞支配其他句子成分,可見現(xiàn)有句法分析方法對于病理檢查報告的結構化并不適用.

針對上述問題,本文在傳統(tǒng)句法分析和信息關系抽取技術的基礎上,根據(jù)醫(yī)療病理檢查報告特有的語法特征,提出了一種基于依存句法分析的醫(yī)療指標結構化方法,從病理檢查報告中抽取某一器官組織或病癥的屬性描述,隨后生成依存關系樹并按照句子的語義特征形成key-value形式的結構化數(shù)據(jù).實驗表明:本文提出的結構化方法能夠較好地針對不同組織器官的檢查報告,指標詞及對應指標值提取的準確率分別可達82.91%和79.11%,接近基于規(guī)則方法.

1 相關工作

早期對于文本關鍵信息抽取的研究大多采用基于啟發(fā)式規(guī)則方法,其優(yōu)勢在于實現(xiàn)簡單且準確率高,但獲取規(guī)則是一個非常復雜的過程,且完全依賴開發(fā)人員的知識和經驗,若要提高分析結果的質量,必須增加人工閱讀量,且其健壯性和可移植性較差,若文檔結構不適合當前啟發(fā)式規(guī)則,就不得不對已有規(guī)則進行修改.在語料庫構建技術越發(fā)成熟后,人們開始采用基于統(tǒng)計的句法分析方式,該方法采用統(tǒng)計學的處理技術從大規(guī)模語料庫中獲取語言分析所需的知識,能在減少人工規(guī)則制定的同時盡可能使語言接近真實規(guī)律[5].依存文法是由法國語言學家Tesnière[6]于1959年提出的一種信息抽取方法,通過分析詞語之間的依存關系揭示其句法結構,并主張句子中核心動詞是支配其他詞語的中心成分,而它本身卻不受其他任何詞語的支配,所有受支配詞語都以某種依存關系從屬于支配詞.依存關系反映的是句中詞語的語義修飾關系,它可以無視句中詞的位置關系,獲取長距離搭配的信息[7].

在針對非結構化中文自然語言的信息抽取研究中,其主要研究對象是命名實體之間的關系抽取,郭喜躍等人[8]提出了一種基于句法特征、語義特征的實體關系抽取方法,融入了依存句法關系、核心謂詞、語義角色標注等特征,實驗結果表明該方法的F1值與傳統(tǒng)方法相比有明顯提升;甘麗新等人[9]提出了一種基于句法語義特征的實體關系抽取方法,將2個實體各自的依存句法關系組合,獲取依存句法關系組合特征,并利用依存句法分析和詞性標注獲取最近句法依賴動詞特征;Li等人[10]提出了一種基于位置語義特征的實體關系抽取方法,利用位置特征的可計算性與可操作性以及語義特征的可理解性,將詞語位置信息增益與基于HowNet語義計算結果整合在一起;在醫(yī)療領域也存在信息關系抽取方面的相關研究,Uzuner等人[11]以句子為單位識別電子病歷實體關系,并訓練了6個支持向量機分類器實現(xiàn)疾病、癥狀、檢查和治療之間的關系識別,其結果表明詞匯特征在關系識別中發(fā)揮了重要作用;Chen等人[12]從醫(yī)學文獻和電子病歷中分析疾病和藥品實體的共現(xiàn)來發(fā)現(xiàn)二者間的關聯(lián)關系,獲取疾病和藥品的潛在醫(yī)療知識.上述關系抽取的結果一般以二元組或三元組的形式出現(xiàn),這種鍵值對的表示形式與本文所要提取的指標詞及指標值模板相似,然而上述方法主要關注醫(yī)療領域特定實體如疾病、治療等之間關聯(lián)關系的知識發(fā)現(xiàn),針對適用于不同病理檢查報告的通用、自動的結構化方法目前研究較為少見.

文本標注方法在圖像檢索領域中已得到廣泛使用,Tariq等人[16]通過抽取圖像所在網頁中的文本信息對圖像添加標注,并將文本檢索與圖像檢索相結合,有效提高了圖像檢索的效率和準確性.近年來,文本標注方法也逐漸應用于自然語言處理方面,而且對于提高計算機處理自然語言的準確率起到了很大作用;Araki等人[17]提出了基于詞袋相似模型的文本標注方法,并將其用于自動問答系統(tǒng)中的文本檢索,對于提高文本排序準確度起到關鍵作用.

2 系統(tǒng)框架

本文提出了一種基于依存句法分析的病理檢查報告結構化方法,具體流程如下:1)針對病理報告中頻繁出現(xiàn)的同一指標多種描述情況進行預處理,利用神經網絡模型求出詞向量,在此基礎上計算余弦相似度找出同義詞,規(guī)范病理檢查報告的文本表述,同時切分短句并引入詞語信息標注方法簡化句子結構,降低依存關系樹的高度,從而使語法關系更加清晰,提高結構化結果的準確度;2)利用依存句法分析得到每個短句的依存關系樹,利用所得語義特征和詞性特征提取指標及對應指標值,便可將非結構化文本轉化成key-value形式的結構化模板;3)將標注信息還原,同時修正噪聲數(shù)據(jù).根據(jù)實現(xiàn)功能的不同,整個結構化過程可以劃分成圖1所示的3個模塊:預處理模塊、結構化模塊、后處理模塊.

Fig. 1 Structured processing procedure of pathological reports.圖1 病理檢查報告結構化處理過程

2.1 預處理模塊

Fig. 2 Comparison between two different dependency trees expressing the same meaning.圖2 語義相同表述不同的依存關系樹對比

一義多詞在自然語言文本中是普遍現(xiàn)象,且在病理檢查報告中尤為突出,所以設置預處理模塊的主要作用是消除文本中的一義多詞現(xiàn)象.舉例來說,“甲狀腺左右葉大小正常”和“雙側甲狀腺大小未見異?!笔羌谞钕俪暀z查報告中經常出現(xiàn)的2種描述,所要表達的含義都是該病人2側甲狀腺的大小在正常范圍內,這2種表述的句法結構分別如圖2所示(依存關系樹的概念將在4.1節(jié)中詳細介紹),前者用形容詞“正?!弊鳛橹^語描述甲狀腺的大小而后者采用動賓短語“未見異常”表達了相同的意思.另外,在這組描述中用于表示位置信息的詞也不同,前者使用了“左右葉”而后者用了“雙側”.

由此可見,中文自然語言的復雜性導致了句法分析難度的增加,所以,針對這種情況,本文在進行文本結構化處理之前設計了預處理模塊,利用Word2vec工具訓練得到詞向量后計算其余弦相似度,合并余弦值大于某個閾值的詞向量,從而消除一義多詞現(xiàn)象,規(guī)范病理檢查報告中的文字表述,提高結構化模塊處理的準確性.

此外,在消除一義多詞后,預處理模塊還需要對病理檢查報告中的句子結構進行了簡化,將長句切分成若干短句,同時為了避免在切分短句的過程中丟失語義信息,在預處理模塊中將對每個短句所描述的器官或組織等關鍵信息進行標注,在保留原始信息描述對象的同時也起到了本文4.2節(jié)中提到的簡化依存關系樹的作用.

2.2 結構化模塊

關鍵指標的自動發(fā)掘和對應指標值的提取是病理檢查報告結構化的關鍵步驟,也是整個結構化過程的核心模塊,本文借助依存句法分析方法實現(xiàn)了針對病理檢查報告的結構化模塊.依存句法分析是通過分析詞與詞之間的依存關系來揭示其句法結構,依存句法分析的結果可用簡潔的依存關系樹結構表示,能夠直接反映詞與詞之間的支配和依賴關系,這種支配關系有利于檢測出指標及對應指標值之間的關系.

結構化模塊的輸入是經過預處理后的病理檢查報告文本,隨后對所輸入的短句進行依存句法分析,可以得到詞與詞之間的依存關系樹,通過句法分析和詞性分析獲取指標詞key及對應指標值value,最終將自然語言描述的病理檢查報告轉化成key-value鍵值對形式的結構化模板.

Fig. 3 Three-tier neural network architecture of Word2vec.圖3 Word2vec 3層神經網絡結構

2.3 后處理模塊

為了能夠進一步優(yōu)化結構化結果,所以在結構化模塊之后設計了后處理模塊.當結構化結果輸入該模塊后,首先將模板中含有剪裁策略標注的特殊字符還原為對應的漢語表述;其次,借助停用詞詞典去除結果中的停用詞,規(guī)范結構化模板的文字表述.此外,該模塊通過人工輔助審查的方式修正結果中包含的噪聲數(shù)據(jù),進而分析出預處理和結構化算法中存在的不足,既優(yōu)化了結構化結果的質量,也起到了優(yōu)化算法的作用,使本文的結構化算法能夠適用于更廣泛的情況,提高了算法的可擴展性.

3 一義多詞消除算法

本文借助Word2vec中的神經網絡語言模型訓練病理檢查報告中高頻詞匯的詞向量,同時通過詞向量間的余弦相似度對詞向量進行聚類,得到文本中的同義詞集,最終利用同義詞集合并病理報告中的同義表述,消除一義多詞現(xiàn)象.

3.1 詞向量訓練

在訓練詞向量之前,需要對原始文本進行分詞操作.本文借助HanLP漢語語言處理工具[18]對病理檢查報告文本進行分詞,其分詞模塊采用Aho-Corasick自動機[19]結合雙數(shù)組Trie樹[20]的極速多模式匹配算法,其分詞速度可達到每秒1 400萬字.接著,將分詞結果輸入Word2vec工具訓練得到病理檢查報告中所有高頻詞的詞向量.在生成詞向量的模塊中,Word2vec 采用Distributed representation方法,該方法最早是由Collobert等人[21]提出,其基本思想是利用“輸入層-隱含層-輸出層”結構的3層神經網絡模型將詞表征為k維實數(shù)向量.在早期的詞向量研究方法中,詞向量通常以One-hot repres-entation形式表示,在獲取包含文檔中所有詞的詞匯表后,每個詞向量的維度與詞匯表的大小相同,向量的分量由0或1表示,若某個詞在詞匯表中的位置為k,那么該詞向量第k維為1,其他維度為0.可見One-hot representation詞向量表示方法雖然簡單,但很容易造成數(shù)據(jù)稀疏與維數(shù)災難,可擴展性較差,也無法有效反映詞與詞之間的語義相關性.而Distributed representation方法則是利用神經網絡將這些高維詞向量轉化成低維向量.

Word2vec中的3層神經網絡如圖3所示,采用了層次化Log-Bilinear語言模型中的連續(xù)詞袋模型,其基本實現(xiàn)思想是根據(jù)上下文預測周邊單詞出現(xiàn)的概率.以預測詞wt出現(xiàn)概率為例,其計算公式如下:

p(wt|context)=p(wt-n,wt-n+1,…,wt-2,wt-1),

其中,詞wt的上下文context是取wt前n個詞,以One-hot representation方式表示成詞向量,并組合成|V|×n的矩陣C,其中V是文本所有詞的集合,|V|是該集合的大小.

將矩陣C中的每個行向量C(wt-n),C(wt-n+1),…,C(wt-1)作為輸入層結點,并將其首尾接拼,形成n×n維的向量記為x傳入隱含層.在隱含層以tanh作為激活函數(shù),得到1個|V|×1的向量y,y中的每個元素yi表示下一個詞wi的未歸一化概率.最后使用函數(shù)softmax對向量y進行歸一化,最終得到向量y′,其計算公式如下:

y′=b+Wx+Utanh(d+Hx),

其中,輸入向量x為上下文語境對應詞向量的拼接向量;矩陣W用于表示輸出層和輸入層是否存在聯(lián)系,通常為零矩陣即沒有直接聯(lián)系;矩陣U表示從隱含層到輸出層各詞的權重;H為輸入層到隱含層的權重矩陣;b為隱含層到輸出層的偏置向量;d是輸入層到隱含層的偏置向量.容易看出,本文方法通過語言模型建模,并且利用了上下文信息進而獲得向量空間中的詞向量表示,使語義信息更加豐富.

3.2 余弦相似度

一般而言,若詞向量訓練算法選取得當,生成的詞向量可形成1個具有語義特征的詞向量空間,每個向量是空間中的點,2點之間的距離可視為詞與詞之間的語義相似性.詞向量之間的距離可以通過歐氏距離、切比雪夫距離等公式計算,也可以利用向量之間的余弦值進行比較.本文在預處理模塊中利用詞向量訓練工具Word2vec獲取病理檢查報告的詞向量,并采用余弦值比較詞與詞之間的語義相關性.對于2個n維向量A和B,其中A=(a1,a2,…,an),B=(b1,b2,…,bn),2個向量的余弦值為

若求得的余弦值越接近1,就表明2個向量之間的夾角越接近0,也就表明2個向量越相似.所以本文在獲取同義詞表時將余弦值大于某個閾值的詞歸為一類,并將其中出現(xiàn)次數(shù)最多的詞作為類別名稱,用于替換病理報告中的其他同義詞.

4 指標信息提取算法

本文利用HanLP漢語語言處理工具[18]對病理檢查報告進行依存句法分析,HanLP中的依存句法分析模塊是根據(jù)詞語本身、詞性、后綴以及2詞間的距離等信息,利用最大熵模型求出任意2個詞之間可能性最大的依存關系及其概率,并由此確定該詞在依存關系樹中的結點位置以及與父結點之間關系,最終使用最小生成樹算法得到整棵依存關系樹.

4.1 依存句法分析

以甲狀腺超聲檢查報告中的文本為例,“甲狀腺左右葉大小及形態(tài)正?!笔且痪鋵谞钕偾闆r的影像描述,其依存關系樹如圖4所示.從圖4中可以看出依存關系樹的根結點指向每句話的核心詞,其他各個結點代表句中的1個成分,且每個結點包含4項信息,分別是詞原型、詞所在句中位置、詞性以及依存關系,其中依存關系表示結點中的詞與其父結點詞之間的語法關系.病理檢查報告中通常以名詞或形容詞作為謂語,而謂語是一句話的核心成分,所以圖4中的句法分析結果顯示,形容詞“正?!弊鳛橐来骊P系樹的根結點.根據(jù)這一特性可知,病理檢查報告中以名詞或形容詞作為核心詞時,依存關系樹的根結點往往是指標詞或指標值.由于謂語通常直接由主語支配,句中“大小”一詞與根結點之間形成主謂關系,由此判斷核心詞“正?!泵枋龅膶ο笫恰按笮 ?,于是得到1組key-value二元組:(大小,正常).而定中關系作為修飾成分,可以和指標詞進行合并,最終確定這組指標詞與指標值為(甲狀腺左右葉大小,正常).從這個例子中可以看出利用依存關系樹提取指標的基本思想,其具體實現(xiàn)思路將在4.3節(jié)中進行詳述.

Fig. 4 One example of dependency tree.圖4 依存關系樹舉例

醫(yī)療病理報告中一般以單句出現(xiàn),在漢語自然語言中,單句的組成成份主要有6種:主語、謂語、賓語、定語、狀語和補語,其中核心詞一般是句中的謂語.圖4所示的依存關系樹將詞之間具有語法關系的結點用邊相連,單句中詞與詞之間最常出現(xiàn)的語法關系有5種:主謂關系、動賓關系、定中關系、狀中關系及中補關系.可以清楚地看出,依存關系樹結構不僅反映了詞之間的依賴關系,而且給出了每個詞的詞性以及不同依賴關系的類型,這為判斷詞與詞之間的語義關系提供了良好的基礎.之后便可根據(jù)詞在句中的語法關系及其詞性,提取關鍵信息.

由于本文針對的是病理檢查報告,其中涉及許多醫(yī)學領域的專業(yè)術語,所以本文在執(zhí)行句法分析時增加了醫(yī)療領域詞庫,這是為了盡量避免在分詞、詞性標注及句法分析中發(fā)生錯誤,從而直接影響到指標提取的準確性.

4.2 剪裁策略

對于漢語中的長句而言,完整的依存關系樹不僅結構復雜,算法運行時間也十分冗長,同時對復雜的樹結構進行分析會引入大量噪聲,影響句法分析結果的質量.所以本文根據(jù)病理檢查報告特征,提出了一種簡化依存關系樹結構的方法,目的是在進行依存句法分析之前盡可能過濾無用信息,并讓大多數(shù)有效信息更容易被機器獲取.

中文自然語言中,一句語義完整的陳述句往往以句號結尾,句中的逗號起停頓作用,以逗號分隔的短句之間往往存在著語義上的關聯(lián).但病理檢查報告的特點在于以逗號分隔的短句之間往往是獨立的,它們單獨成句且能夠表述完整的語義,相鄰短句之間不存在語義上的關聯(lián).另外,病理檢查報告中會重復出現(xiàn)指標所描述的某些組織器官名稱,這些名稱的多次出現(xiàn)會使依存關系樹的結構變得復雜,而且對于指標詞的識別沒有輔助作用.鑒于這些特性,本文提出了一種剪裁策略,預先構建組織器官名稱與字符標注對照表,按照對照表中的信息將文本中的組織器官名稱替換為特殊字符標注.

值得注意的是,切分短句雖然能夠在保留語義的情況下有效降低依存關系樹的高度,但是存在混淆原句信息的可能性.以超聲檢查報告為例,病人在1次超聲檢查中可能包含多個部位,如甲狀腺、肝臟、肺部等,而且同一次檢查的影像描述及檢查結果都會記錄在同一份病理報告中,當切分短句后,各短句的描述對象會有一定程度的缺失,可能導致結構化過程中出現(xiàn)組織器官與指標不匹配的情況.所以在標注特殊字符時不僅需要替換文本中的組織器官名稱,還需要對切分后的每個短句進行標注,以確保在以短句為單位分析語義時信息不會丟失.在漢語表述中,通常以逗號分隔的2句短語所描述的對象具有一致性,基于這樣的語義特征,本文制定了一種標注規(guī)則:檢測當前短句中是否存在組織器官的關鍵詞,若存在則將組織器官名稱對應的特殊字符放在短句句首,并將相應名稱刪除;若不存在則以與前一短句相同的特殊字符進行標注.

表2給出了本文的信息標注對照表.按照表2的對應關系以及上述的病理檢查報告特點,可以將“雙側甲狀腺外形欠規(guī)則,包膜光整,實質內未見異常結節(jié)回聲,甲狀腺實質血供稍增多”這句甲狀腺超聲檢查報告中的影像描述轉化為:“@T@LR外形欠規(guī)則,@T@LR包膜光整,@N@LR實質內未見異常結節(jié)回聲,@T@LR實質血供稍增多”.可見,標注結果與原始文本所要表達的語義相同,故這種特殊字符標注方法具有可行性.

Table 2 Examples of Thyroid Ultrasound Report Tag Sets

4.3 指標信息檢測

本文的目標是通過依存句法分析和詞性特征提取病理報告中的醫(yī)療指標信息及其對應指標值.根據(jù)之前對于病理檢查報告語義特征以及詞性特征的分析可知,句中各組成成分之間有明確的語義關系,通過對這些語義特征的分析可以提取出指標詞key及對應指標值value,提取步驟可分為3步:

步驟1. 判斷核心詞的詞性;

步驟2. 遍歷子樹,根據(jù)核心詞詞性尋找與之相關的語義關系;

步驟3. 根據(jù)依存句法分析得到的語義特征,提取指標詞keyi(i∈+)或指標值value,形成二元組(keyi,value).

利用語義特征提取指標時,以下5種語義關系可以指示指標詞key與指標值value在句中的關系:主謂關系、動賓關系、定中關系、動補關系、并列關系.在尋找這5種語義關系時應遵循4條規(guī)則:

規(guī)則1. 若核心詞為動詞,當其孩子結點中存在與之成主謂關系或動賓關系的名詞結點時,從語義角度來看主語往往是整句話描述的對象,而賓語是動詞的直接對象,由此可以確定二者分別對應為指標詞key和指標值value;

規(guī)則2. 若核心詞是名詞或形容詞,這在漢語自然語言中屬于名詞或形容詞充當動詞的情況,所以核心詞是整句話描述的關鍵信息,可以將其確定為指標值value,與之成主謂關系的詞便是指標詞key;

規(guī)則3. 由于定語起到修飾作用,所以可將形成定中關系的名詞與形容詞進行合并,組成1個指標詞key或指標值value;

規(guī)則4. 由于并列關系成分在句中起到相同的作用,若判定其中一詞是指標詞key,那么另一個也可視作指標詞key,同理若其中一詞是指標值value則另一個也是指標值value.

根據(jù)上述規(guī)則,可以得到基于依存句法分析提取指標算法,算法1和算法2的偽代碼如下:

算法1. 指標提取主程序.

輸入:依存關系樹鄰接表;每個結點是1個四元組:(ID,LEMMA,POSTAG,DEPREL),其中ID表示詞在原句中的位置,LEMMA是詞本身,POSTAG表示詞性(n表示名詞,v表示動詞,a表示形容詞),DEPREL表示結點與其父結點之間的依存關系;鄰接表表頭包含所有結點的ID;

輸出:二元組(keyi,value),其中keyi(i∈+)是指標詞,value是指標值.

① CASE WHENroot→POSTAG=‘n’

② 提取root→LEMMA為指標詞keyi;

③ 對每個root的孩子結點而言

④ 將所有DEPREL=‘并列關系’結點提取為新指標詞keyj(j∈+) ;

⑤ 將所有DEPREL=‘定中關系’結點提取為指標值value,并調用算法2;

⑥ CASE WHENroot→POSTAG=‘v’

⑦ 對每個root的孩子結點而言

⑧ 將所有DEPREL=‘主謂關系’結點提取為指標詞keyi;

⑨ 將所有DEPREL=‘動賓關系’or‘補關系’點提取為指標值value,并調用算法2;

⑩ CASE WHENroot→POSTAG=‘a’

算法2. 深度遍歷子樹提取算法.

輸入:依存關系樹結點node;

輸出:指標詞或指標值集合.

① 從node開始深度遍歷其子樹

② CASE WHENroot→POSTAG=‘n’

③ 將所有子樹中DEPREL=‘定中關系’的結點按照遍歷順序與指標值value合并;

④ CASE WHENroot→POSTAG=‘v’

⑤ 將所有子樹中DEPREL=‘并列關系’的結點按照遍歷順序與指標值value合并;

⑥ CASE WHENroot→POSTAG=‘a’

⑦ 將所有子樹中DEPREL=‘定中關系’的結點按照遍歷順序與所有指標詞keyi合并;

⑧ 將所有子樹中DEPREL=‘并列關系’的結點提取為新指標詞keyj.

結合病理檢查報告的描述特征可知,結構化結果中指標詞與指標值的對應關系可能是一對一或多對一關系,這是由于醫(yī)生常常將多個表述相同的指標合并在一起,所以當處理完每個依存關系樹后會生成若干指標詞keyi和1個指標值value,若結果中存在多個指標詞的情況,則這些指標詞keyi所對應的指標值均為value.

5 結構化結果優(yōu)化算法

為了進一步優(yōu)化依存句法分析結構化結果,本文設計了后處理模塊,其主要功能是在規(guī)范結構化模板中的文字表述的同時,通過分析噪聲數(shù)據(jù)產生的原因優(yōu)化算法.其優(yōu)化算法流程如圖5所示.

Fig. 5 Procedure of post processing module.圖5 后處理模塊流程

結構化結果優(yōu)化算法的輸入是經過依存句法分析得到的結構化模板,算法首先根據(jù)剪裁策略中制定的字符標注對照表還原模板中含有的特殊字符.隨后利用停用詞詞典去除停用詞,從而規(guī)范模板中文字的表述;接著利用在預處理模塊中生成的同義詞詞典修正指標詞和指標值的錯誤表述,同時配合人工校驗方式刪除結構化結果中的多余信息,從而去除噪聲數(shù)據(jù),提高結構化結果的正確性;最終將后處理得到的錯誤表述和噪聲數(shù)據(jù)作為優(yōu)化預處理和依存句法分析算法的依據(jù),由于不同病理檢查報告的文字特征存在差異,也存在某些特殊的表述方式,而這些差異往往導致了噪聲數(shù)據(jù)的產生,所以在修復噪聲數(shù)據(jù)時可以分析得到不同文檔的特點,并將針對這些特殊表述的文本結構化方法加入算法,從而提高結構化的準確率,增強依存句法分析的適用性和可擴展性.

6 實驗設置和結果分析

本文的實驗數(shù)據(jù)來自某三甲醫(yī)院提供的真實病理檢查報告.為了使實驗結果不失一般性,我們選擇樣本較多的甲狀腺超聲檢查和胸部CT平掃檢查數(shù)據(jù)作為本次實驗的測試數(shù)據(jù)集,2個數(shù)據(jù)集的記錄數(shù)分別為470 193條以及405 559條.

在預處理模塊中,根據(jù)多次實驗得出的結果,當2個詞的余弦相似度閾值設為0.65時,所得同義詞表中單詞個數(shù)較多且相似度較高,所以本文在獲取同義詞表時將余弦值大于0.65的詞歸為一類.此外,本次實驗將詞向量的維度設置為100維,此時訓練詞向量的時間復雜度最小,而且相對于其他維度的詞向量而言,100維的詞向量在向量差、向量連接以及向量乘等特征中同樣具有較好的分類性能表現(xiàn).類似地,在選取訓練窗口大小時,經過多次實驗可知,當選取窗口大小為8時訓練詞向量的時間復雜度較低,同時分類性能較好,故將訓練詞向量時將上下文的選詞個數(shù)設置為8個詞.

為了能夠更好地獲取統(tǒng)計信息,我們從2個數(shù)據(jù)集中均隨機選取了4 000條記錄作為樣本進行分析,并以手工判定的方式獲取準確率P、召回率R及F1度量值,進而得到統(tǒng)計結果.準確率和召回率是廣泛應用于信息檢索和統(tǒng)計學分類領域的2個度量值,常用于評價結果的質量.在本文實驗中,準確率表示在所有依存句法分析得到的結構化結果中,表述正確的指標詞及對應指標值所占的比例,其計算公式如下:

召回率表示已提取指標詞或指標值與原病理檢查報告中包含的所有指標數(shù)量的比率,反映了結構化結果是否覆蓋到病理檢查報告中包含的絕大多數(shù)指標詞或指標值,其計算公式可表示為

F1值是準確率和召回率的調和平均值,可以綜合反映文本結構化結果的好壞,計算公式如下:

6.1 剪裁策略效果分析

為了測試本文在預處理階段提出的依存關系樹剪裁策略的效果,本文從依存關系樹的高度、詞性類型占比以及依存關系類型占比這3個方面對甲狀腺超聲檢查報告的原始文本、切分后文本以及剪裁后的文本進行了統(tǒng)計,利用HanLP的統(tǒng)計模塊得到上述信息的統(tǒng)計結果.從表3可以看出,當按照短句進行依存句法分析后,依存關系樹的層數(shù)明顯下降,由3.21下降到1.13,且表5所示的依存關系分布更加集中,定中關系與主謂關系所占比例明顯上升,有利于算法提取指標詞及其對應指標值在句中的位置.由本文4.2節(jié)可知,剪裁策略的主要目的是將復雜的專業(yè)術語替換為簡單的特殊符號,并不會產生語序或語義的變化,所以表3中剪裁后文本與切分后文本的句子數(shù)量是不變的.

Table 3 Statistics of Thyroid Ultrasound Sample Data

另外,通過統(tǒng)計可以發(fā)現(xiàn),指標詞以及指標值的詞性分布相對集中,其中90%以上的指標詞是名詞詞性,而指標值中名詞占23,其余詞性大多為形容詞和數(shù)量詞,因此詞性特征對指標信息檢測而言十分重要.表4顯示的分別是原始文本、按短句切分后文本以及執(zhí)行剪裁策略后文本中包含詞性類型的分布.從列2和列3數(shù)據(jù)可以看出,當執(zhí)行剪裁策略后,文本中標注的特殊字符在依存句法分析時會被識別為標點,于是標點符號在文中的占比大幅度提升,而名詞占比隨之下降.將專業(yè)名詞轉化為特殊符號的好處在于可以一定程度上增加詞與詞的分隔標記,減少歧義,提升分詞的準確率.表5列舉出了6種數(shù)量最多的語義關系,按出現(xiàn)次數(shù)從高到低分別是定中關系、主謂關系、核心關系、狀中結構、并列關系和動賓關系.另外,表5中列2和列3數(shù)值沒有發(fā)生明顯變化,可見標注特殊字符對于語義的影響不大.

Table 4 Statistics of High-Frequency Part-of-Speech Types

Table 5 Statistics of High-Frequency Semantic Relations

為了進一步說明剪裁策略對于依存句法分析結果的影響,本文以甲狀腺超聲檢查報告文本作為數(shù)據(jù)集,對其結構化的準確率和召回率進行了統(tǒng)計.如表6所示,在未使用剪裁策略時,結構化的準確率低于55%,相比使用剪裁策略時的準確率低了近15個百分點,召回率也低了16%,可見剪裁策略的使用可以有效減少分詞和詞性判斷中出現(xiàn)的歧義情況,從而提高結構化結果的質量.

Table 6 Comparison of Annotated and Unannotated Text

6.2 后處理效果分析

為了提高算法的健壯性,本文針對結構化結果提出了后處理方法,在本節(jié)中將對后處理模塊的效果進行分析.本節(jié)將從準確率、召回率和F1值這3個方面進行分析,同時,為了分析后處理方法對于算法可擴展性的影響,故選取了甲狀腺超聲和胸部CT平掃2個檢查報告作為測試集.從表7和表8中的數(shù)據(jù)可以看出,后處理方法能夠對2個數(shù)據(jù)集的結構化結果都起到優(yōu)化作用,平均準確率提高了近10個百分點,甲狀腺超聲檢查報告的結構化準確率更是從71.06%上升至82.45%,提升了近12%.此外,后處理模塊對于結構化方法的召回率也有一定的影響,將指標詞和指標值的召回率平均提升了約5%.

Table 7 Thyroid Ultrasound Report Optimization Results

Table 8 Chest CT Scan Report Optimization Results

從表7、表8中還可以看出,若對不同文本進行后處理,這些文本結構化的準確率均提升到同一水準,可見不同數(shù)據(jù)集的后處理過程能夠相互影響,也可以提高其他數(shù)據(jù)集結構化的準確率.從這組實驗中可以看出,后處理方法在提高結構化質量中能夠起到很大程度的作用,而且也提升了本文方法的可擴展性.

6.3 對比實驗及分析

本節(jié)將依存句法分析結構化結果與基于人工制定規(guī)則結構化結果進行了對比,對比結果如表9和表10所示.基于人工規(guī)則的結構化方法一般是指通過關鍵字信息定位所要結構化的文本范圍,然后通過人工閱讀方式分析文本中的句式模式特征,并由此編寫關系抽取算法將非結構化文本轉化為結構化數(shù)據(jù)[22].本節(jié)采用的基于人工規(guī)則結構化方法是指利用現(xiàn)有醫(yī)療知識庫,從文本中定位指標詞key可能出現(xiàn)的位置,而后通過人工發(fā)現(xiàn)文本中包含標點符號、數(shù)字、特殊字符及停用詞等句式的特征,憑經驗歸納出指標詞key與指標值value在文本中的關系,從而編寫出結構化算法.上述結構化方法具有較高的準確率和召回率,所以現(xiàn)常用于衡量其他結構化方法.考慮到該方法需要耗費大量人力閱讀文本,故不再用于實際生產之中.此外,為了驗證本文方法在多樣化病理報告中有較強的適用性,本文選取甲狀腺超聲檢查報告和胸部CT平掃檢查報告2種醫(yī)療文檔作為實驗數(shù)據(jù)集.

Table 9 Comparison Results on Thyroid Ultrasound Reports

Table 10 Comparison Results on Chest CT Scan Reports

從表9和表10中可以看出,針對本文選取的2個測試集,基于人工規(guī)則方法在提取指標詞和指標值的準確率可以達到85%,而召回率最高可達到95%,可見通過基于人工規(guī)則方法能夠準確地提取結構化信息,而且?guī)缀跄軌蚋采w所有指標.本文提出的結構化方法在2個數(shù)據(jù)集樣本上的指標詞識別準確率均可達到82%以上,其對應指標值的準確率可達到79%,且召回率均可達到86%以上,可見本文方法在準確率和召回率上都能接近基于人工規(guī)則方法.雖然本文方法未能在準確率和召回率上超過基于人工規(guī)則方法,但是基于人工規(guī)則方法需要消耗大量的人力資源閱讀文本,而且如果不同文本之間的語言表述存在差異,那么針對不同文本需要制定不同提取規(guī)則,可見該方法的可移植性較差.相比之下,基于依存關系的結構化方法能夠省去大量人工閱讀的工作量,接近90%的召回率表明依存句法分析能夠識別大部分指標詞,而且能夠適用于不同檢查報告中的不同句式結構,可以在很大程度上實現(xiàn)自動化提取的目標.此外,當病理檢查報告中出現(xiàn)新詞時,若采用基于人工規(guī)則的提取方法則無法識別這些新詞,但依存句法分析結構化方法仍然可以通過句法特征將其識別為指標關鍵字,最終轉化為key-value形式的結構化數(shù)據(jù).

雖然本文提出的基于依存句法分析結構化方法的準確率還有待提高,但是目前針對醫(yī)療文本結構化的研究較少,且本文方法能有效減少人工閱讀大量文本的工作,雖然在后處理中仍需要人工參與校驗,但這與基于人工規(guī)則進行文本結構化的方法相比,其工作量有了大幅降低,大大減少了人工參與的比重,且很容易擴展到其他醫(yī)療文檔的結構化過程中,應用范圍更廣泛,給醫(yī)療指標結構化提供了新的思路.

7 結 論

本文針對病理檢查報告的結構化進行了研究:

1) 利用神經網絡語言模型盡可能地消除一義多詞現(xiàn)象;

2) 為了提升依存句法分析結果的準確性,提出了切分短句與標注關鍵信息的剪裁策略;

3) 根據(jù)病理報告文本的依存關系特征,提出了一種有效的指標提取方法.在實際數(shù)據(jù)集上的實驗結果驗證了本文方法的有效性.然而,基于依存句法分析提取指標詞及對應指標值的準確性還有待進一步提升.針對這個問題,未來的工作將嘗試深度學習技術,自動獲取更加準確的自然語言語義特征.

[1]Zhao Shiqi, Wang Haifeng, Li Chao, et al. Automatically generating questions from queries for community-based question answering[C] //Proc of the 5th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2011: 929-937

[2]Tsolmon B, Lee K. An event extraction model based on timeline and user analysis in latent dirichlet allocation[C] //Proc of the 37th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2014: 1187-1190

[3]Wan Xiaojun, Yang Jianwu. Multi-document summarization using cluster-based link analysis[C] //Proc of the 31st Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2008: 299-306

[4]Socher R, Karpathy A, Le Q V, et al. Grounded compositional semantics for finding and describing images with sentences[C] //Transactions of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 207-218

[5]Wen Xu, Zhang Yu, Liu Ting, et al. Syntactic structure parsing based Chinese question classification[J]. Journal of Chinese Information Processing, 2006, 20(2): 33-39 (in Chinese)(文勖, 張宇, 劉挺, 等. 基于句法結構分析的中文問題分類[J]. 中文信息學報, 2006, 20(2): 33-39)

[6]Tesnière L. Eléments De Syntaxe Structurale[M]. Paris: Librairie Klincksieck, 1959

[7]Hu Baoshun, Wang Daling, Yu Ge, et al. An answer extraction algorithm based on syntax structure feature parsing and classification[J]. Chinese Journal of Computers, 2008, 32(4): 662-676 (in Chinese)(胡寶順, 王大玲, 于戈, 等. 基于句法結構特征分析及分類技術的答案提取算法[J]. 計算機學報, 2008, 32(4): 662-676)

[8]Guo Xiyue, He Tingting, Hu Xiaohua, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Chinese Information Processing, 2014, 28(6): 183-186 (in Chinese)(郭喜躍, 何婷婷, 胡小華, 等. 基于句法語義特征的中文實體關系抽取[J]. 中文信息學報, 2014, 28(6): 183-186)

[9]Gan Lixin, Wan Changxuan, Liu Dexi, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Computer Research and Development, 2016, 53(2): 284-302 (in Chinese)(甘麗新, 萬常選, 劉德喜, 等. 基于句法語義特征的中文實體關系抽取[J]. 計算機研究與發(fā)展, 2016, 53(2): 284-302)

[10]Li Haiguang, Wu Xindong, Li Zhao, et al. A relation extraction method of Chinese named entities based on location and semantic features[J]. Applied Intelligence, 2013, 38: 1-15

[11]Uzuner O, Mailoa J, Ryan R, et al. Semantic relations for problem-oriented medical records[J]. Artificial Intelligence in Medicine, 2010, 50(2): 63-73

[12]Chen E S, Hripcsak G, Xu H, et al. Automated acquisition of disease drug knowledge from biomedical and clinical documents: An initial study[J]. Journal of the American Medical Informatics Association, 2008, 15(1): 87-98

[13]Blunsom P, Hermann K M. The role of syntax in vector space models of compositional semantics[C] //Proc of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013: 894-904

[15]Danielfrg. Word2vec[CP/OL]. San Francisco: GitHub, (2015-12-11) [2016-04-07]. https://github.com/danielfrg/word2vec

[16]Tariq A, Foroosh H. Feature-independent context estimation for automatic image annotation[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1958-1965

[17]Araki J, Callan J. An annotation similarity model in passage ranking for historical fact validation[C] //Proc of the 37th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2014: 1111-1114

[18]Hankcs. HanLP[CP/OL]. San Francisco: GitHub, (2015-07-12) [2016-10-16]. https://github.com/hankcs/HanLP/releases

[19]Aho A V, Corasick M J. Efficient string matching: An aid to bibliographic search[J]. Communications of the ACM, 1975, 18(6): 333-340

[20]Aoe J. An efficient digital search algorithm by using a double-array structure[J]. IEEE Trans on Software Engineering, 1989, 15(9): 1066-1077

[21]Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011(12): 2493-2537

[22]Buchanan B G, Shortliffe E H. Rule-based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project[M]. Boston: Addison Wesley, 1984

Tian Chiyuan, born in 1990. Master candidate. His main research interests include natural language processing and database.

Chen Dehua, born in 1976. PhD and associate professor. His main research interests include database, data warehouse, big data and deep learning.

Wang Mei, born in 1980. PhD and professor. Member of China Computer Federation. Her main research interests include database, image semantic analysis and information retrieval (wangmei@dhu.edu.cn).

Le Jiajin, born in 1951. Professor and PhD supervisor. Member of China Computer Federation. His main research interests include database and data warehouse, software engineering theory and practice (lejiajin@dhu.edu.cn).

Structured Processing for Pathological Reports Based on Dependency Parsing

Tian Chiyuan, Chen Dehua, Wang Mei, and Le Jiajin

(College of Computer Science and Technology, Donghua University, Shanghai 201620)

Most of pathological reports are unstructured texts which can not be directly analyzed by computers. The current researches on structured texts mainly focus on the information extraction. However, the syntactic features of pathological reports are particular, which makes it more difficult to extract information relations. To solve this problem, a novel method of structuralizing pathological reports based on syntactic and semantic features is proposed in this paper. First of all, we construct a synonym lexicon by using neural network language models to eliminate the phenomenon of synonymy. Then the dependency trees are generated based on the preprocessed pathological reports to extract medical examination indices. Meanwhile, we use short-sentence segmentation and annotation as optimized strategies to simplify the structure of dependency trees, which makes the grammatical relations of medical texts clearer and improves the quality of the structured results. Finally the key-value pairs of medical examination indices can be extracted from pathological reports in Chinese, and the structured texts can be generated automatically. Experimental results based on real pathological report data sets show that the performance of the proposed method on medical indices and values extraction achieves 82.91% and 79.11% of accuracy, which provides a solid foundation for related studies in the future.

medical data; pathological reports; dependency parsing; text structured processing; neural network language model

2016-08-16;

2016-10-24

上海市科技創(chuàng)新行動計劃項目(15511106900);上海市科技發(fā)展基金項目(16JC1400802);中央高?;究蒲袠I(yè)務費東華大學勵志計劃項目(B201312);上海市信息化發(fā)展專項資金項目(XX-XXFZ-01-14-6349) This work was supported by the Shanghai Innovation Action Project of Science and Technology (15511106900), the Science and Technology Development Foundation of Shanghai (16JC1400802), the DHU Distinguished Young Professor Program of Fundamental Research Funds for the Central Universities (B201312), and the Shanghai Specific Fund Project for Informatization Development (XX-XXFZ-01-14-6349).

陳德華(chendehua@dhu.edu.cn)

TP391

猜你喜歡
檢查報告指標值結構化
促進知識結構化的主題式復習初探
結構化面試方法在研究生復試中的應用
計算機教育(2020年5期)2020-07-24 08:53:00
牛奶企業(yè)食品生產許可現(xiàn)場核查的常見問題及對策研究
智富時代(2019年3期)2019-04-30 11:11:14
淺談食品中大腸菌群檢測方法以及指標值的對應關系
維修性定性要求評價指標融合模型研究
鍋爐定期檢驗與檢驗結論評定的技術
科學與財富(2017年7期)2017-04-11 03:07:44
核電站第一、二階段役前檢查綜述
科技視界(2016年14期)2016-06-08 18:45:13
基于圖模型的通用半結構化數(shù)據(jù)檢索
計算機工程(2015年8期)2015-07-03 12:20:35
1995年—2013年地方預算內財力、中央返還及上解情況
基于軟信息的結構化轉換
额济纳旗| 庆云县| 白城市| 晋江市| 鄂托克前旗| 拜泉县| 南开区| 广德县| 马边| 湘乡市| 霸州市| 平舆县| 平邑县| 沙坪坝区| 刚察县| 黑河市| 滨海县| 大冶市| 项城市| 沂水县| 湖州市| 阜新市| 隆尧县| 蓝田县| 思南县| 常德市| 凌源市| 息烽县| 双峰县| 财经| 莱西市| 张家口市| 鹤峰县| 元阳县| 平阴县| 文山县| 饶阳县| 宿松县| 沅陵县| 东山县| 高邮市|