国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合語言模型的化驗單文字識別矯正研究

2023-11-02 12:35張煜楠呂學(xué)強(qiáng)黃慶浩游新冬董志安
計算機(jī)應(yīng)用與軟件 2023年10期
關(guān)鍵詞:化驗單詞庫矯正

張煜楠 呂學(xué)強(qiáng) 黃慶浩 游新冬 何 健 董志安 黃 躍

1(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實驗室 北京 100101)

2(北京洛奇智慧醫(yī)療科技有限公司 北京 100015)

3(清華大學(xué)互聯(lián)網(wǎng)產(chǎn)業(yè)研究院 北京 100084)

4(首都醫(yī)科大學(xué)宣武醫(yī)院 北京 100053)

0 引 言

2019年,據(jù)中國國家統(tǒng)計局抽樣調(diào)查推算,中國總?cè)丝谝殉?4億。龐大的人口基數(shù)為國家的不斷發(fā)展提供了豐富的人力資源。與此同時,人民群眾對醫(yī)療資源的需求也在逐步提升,其中看病難問題已經(jīng)成為一個普遍的社會現(xiàn)象,并引起了政府的高度重視。2019年1至11月期間,全國醫(yī)療衛(wèi)生機(jī)構(gòu)總診療人次達(dá)77.5億人次,同比提高2.8%?;灆z測對于就醫(yī)患者必不可少,同時會產(chǎn)生大量的醫(yī)療化驗單,極大地增加了醫(yī)生的工作量[1]。由于患者數(shù)量大而醫(yī)生數(shù)量有限,患者在進(jìn)行化驗檢測、得到化驗結(jié)果后,不能及時對化驗單進(jìn)行解讀而導(dǎo)致病情延誤,這也是醫(yī)患糾紛問題時常發(fā)生的主要原因之一。

隨著深度學(xué)習(xí)和人工智能的不斷發(fā)展與進(jìn)步,計算機(jī)視覺領(lǐng)域成為熱點(diǎn)研究方向,吸引了來自學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注[2]。計算機(jī)視覺通過其對圖像的強(qiáng)大的解讀能力,為各行各業(yè)提供了技術(shù)支持。其中,醫(yī)療領(lǐng)域提出了智慧醫(yī)療的建設(shè),并在近些年取得了突破性進(jìn)展。自2005年起,由Google不斷維護(hù)的開源Tesseract-OCR在文字識別領(lǐng)域取得優(yōu)異的成績[3],使整個學(xué)術(shù)界以及工業(yè)界掀起了一股人工智能的浪潮,各類文字識別算法應(yīng)運(yùn)而生。在醫(yī)療領(lǐng)域,OCR技術(shù)可以通過識別化驗單文字,結(jié)合醫(yī)療信息系統(tǒng),利用人工智能與大數(shù)據(jù)對化驗單進(jìn)行初步的解讀,不僅能夠使患者得到及時的就診,同時也可以減輕工作人員的工作量,大大提升診斷效率。在我國,“互聯(lián)網(wǎng)+醫(yī)療”是醫(yī)療領(lǐng)域發(fā)展的新契機(jī),智慧醫(yī)療的出現(xiàn)能夠很好地緩解看病難問題[4]。

基于人工智能的醫(yī)療化驗單智能解讀工作分三步,首先對醫(yī)療化驗單進(jìn)行文本檢測,然后通過OCR系統(tǒng)對文字進(jìn)行識別,基于NLP對識別結(jié)果進(jìn)行后處理,將圖像數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù),最后通過醫(yī)療數(shù)據(jù)庫、醫(yī)療知識圖譜、醫(yī)療大數(shù)據(jù)等方式,將相關(guān)信息全面直接地呈現(xiàn)給患者[5]。通過這種方式,患者不僅能夠充分了解自身的病情,緩和自身情緒,而且可以幫助患者與醫(yī)生更好地交流溝通,提高就醫(yī)效率,緩解就醫(yī)壓力。

本文源于醫(yī)療化驗單文字識別系統(tǒng),針對自然場景下化驗單識別效果欠佳的情況,提出了一種融合語言模型的文字識別矯正方法。使用語言模型矯正形近字錯誤,通過融合編輯距離和最長公共子序列的方法匹配最貼切的識別結(jié)果,最后使用對應(yīng)關(guān)系匹配,進(jìn)行前后矯正,進(jìn)一步提高識別精確度。

1 相關(guān)研究

自然場景下的醫(yī)療化驗單識別形近字矯正在OCR矯正中被廣泛使用。單個錯字的矯正可以通過建立醫(yī)學(xué)詞典,對單字進(jìn)行模糊字處理的方法矯正。張淙悅等[6]通過建立醫(yī)學(xué)詞典并通過模糊字文件進(jìn)行內(nèi)容糾錯,其方法針對特定的模糊字有較好的處理效果,但需要針對模糊字逐字添加,泛化性較差。李琴等[7]在建立醫(yī)學(xué)詞庫的基礎(chǔ)上,對詞條進(jìn)行單字符模糊匹配,然后計算字符間的相似度進(jìn)行矯正。其方法可以有效地矯正單個錯字,但方法使用條件受模糊匹配參數(shù)影響較大。單字的矯正往往不能滿足矯正需求,統(tǒng)計語言模型是對語言內(nèi)在描述的數(shù)學(xué)模型[8]。這種方法可以通過建立語料庫,使用統(tǒng)計方法來發(fā)現(xiàn)語言中的普遍規(guī)律,以此對形近字進(jìn)行矯正。王霈珺[9]將統(tǒng)計語言模型應(yīng)用到OCR識別結(jié)果矯正工作中,有效降低了OCR系統(tǒng)的識別錯誤率。但該方法只考慮字符間的統(tǒng)計信息,對統(tǒng)計數(shù)據(jù)有較高的要求,在單個形近字的矯正中表現(xiàn)很好,但卻難以應(yīng)對OCR識別結(jié)果中的字符串缺失、合并等現(xiàn)象。

OCR字符串矯正主要采用字符串相似度算法,廣泛應(yīng)用的相似度算法主要有編輯距離算法、最長公共子序列算法及其變種。編輯距離(Levenshtein Distance,LD)算法常被用來衡量兩個文本之間的相似度。該算法通過插入、刪除、替換等操作使一個序列變成另外一個序列花費(fèi)最小操作次數(shù)[10]。利用編輯距離進(jìn)行OCR后處理,通過查閱構(gòu)建的醫(yī)學(xué)詞表,選擇與識別結(jié)果最小編輯距離的詞語來矯正識別結(jié)果中的檢驗項名稱。該算法在處理速度和效果上都取得不錯的效果,但對于較短序列或識別結(jié)果出現(xiàn)缺失等情況,該算法不能進(jìn)行有效的矯正。

王宸敏[11]提出的化驗單OCR識別結(jié)果矯錯方案首先建立了醫(yī)學(xué)詞庫,通過計算編輯距離進(jìn)行初步的匹配,然后采用常用文字相似度比較來解決編輯距離計算中存在的多個候選項的問題。該方法取得了不錯的效果,但通過計算文字相似度來解決多個候選項相似度相同的問題,在識別結(jié)果存在缺失、合并時,難以精確地選擇合適的候選項,從而導(dǎo)致識別結(jié)果錯誤。

最長公共子序列(Longest Common Subsequence,LCS)算法常被用于查找兩個序列的最長公共子序列的問題[12],可以用于計算字符串間的相似度。李明[13]指出最長公共子序列算法可以很好地進(jìn)行文本相似度比較。文中使用了動態(tài)規(guī)劃算法,計算兩個序列最長公共子序列,這樣便可以有效地解決文字識別中的缺失或增加問題,動態(tài)規(guī)劃算法能夠?qū)⒒A(chǔ)問題化為子問題,通過構(gòu)建動態(tài)轉(zhuǎn)移方程,迭代求出問題的解。該算法能夠有效地計算文本相似度,但是對于長度不同且有相同公共子序列的兩個序列的矯正將出現(xiàn)問題,如醫(yī)學(xué)詞庫中存在核糖核苷酸,脫氧核糖核苷酸兩個詞條,當(dāng)識別結(jié)果為核糖核苷酸時,在矯正時會出現(xiàn)爭議。

綜上所述,對于自然場景下化驗單文字識別后處理,目前存在的后處理方法都存在一定的缺陷。對此,本文提出了一種融合語言模型和傳統(tǒng)方法的OCR識別后處理方法。首先利用語言模型得到更加符合實際情況的預(yù)測序列,然后根據(jù)構(gòu)建的醫(yī)療詞庫進(jìn)行完全匹配。若匹配成功可以根據(jù)化驗單檢測項的對應(yīng)關(guān)系進(jìn)行前后矯正;若匹配失敗,可以根據(jù)改進(jìn)的編輯距離和最長公共子序列的方法選擇最接近的醫(yī)療詞庫中的詞語矯正,然后再根據(jù)對應(yīng)關(guān)系進(jìn)一步矯正,從而提高識別準(zhǔn)確率。

2 一種融合語言模型和傳統(tǒng)方法的化驗單識別矯正方法

融合語言模型的化驗單文字識別矯正處理方法,可以有效解決形近字識別錯誤和醫(yī)學(xué)名詞識別錯誤的情況,其整體流程如圖1所示。主要分為兩個部分對自然場景下化驗單的識別進(jìn)行矯正,第一步是預(yù)處理,構(gòu)建醫(yī)療詞庫和識別矩陣。第二步是OCR后處理矯正,主要包括基于語言模型的矯正、基于對應(yīng)關(guān)系的矯正、基于編輯距離、最長公共子序列的矯正。

圖1 矯正流程

2.1 識別結(jié)果矯正預(yù)處理

首先根據(jù)某實驗室提供的真實數(shù)據(jù),構(gòu)建醫(yī)學(xué)詞庫,然后根據(jù)識別結(jié)果的每個區(qū)域取前三名,構(gòu)建識別結(jié)果區(qū)域矩陣。傳統(tǒng)文字識別只取每個區(qū)域的最高預(yù)測結(jié)果,通過區(qū)域組合得到最終結(jié)果,其最大問題在于在某一區(qū)域一旦出現(xiàn)識別錯誤,就會導(dǎo)致整體出錯。這里構(gòu)建每個區(qū)域概率預(yù)測前三的結(jié)果組成區(qū)域矩陣,為后期引入語言模型奠定基礎(chǔ)。

2.2 基于語言模型的識別結(jié)果矯正

語言模型是對語句概率分布的建模,它通過收集真實的語言文字,并對收集到的語言文字進(jìn)行統(tǒng)計分析,從而得到語言文字所存在的規(guī)律[14]。語言模型可以通過概率分布來統(tǒng)計字符出現(xiàn)的概率,從而有效地對識別結(jié)果進(jìn)行初步的矯正。具體來說,是通過統(tǒng)計結(jié)果,計算可以得到最大的條件概率的組合。

以詞條“醛固酮”為例,其計算公式如式(1)所示。第一個檢測區(qū)域識別的結(jié)果S1,選取CRNN[15]網(wǎng)絡(luò)中間層給出的前三個候選字“醛”“酚”“醚”;第二個候選區(qū)域識別結(jié)果S2,選取前三個候選字“回”“固”“田”;第三個候選區(qū)域識別結(jié)果S3,選取前三個候選字“桐”“銅”“酮”。每個候選區(qū)域的概率W(Si)需要根據(jù)網(wǎng)絡(luò)預(yù)測的概率分別歸一化,識別結(jié)果區(qū)域矩陣一共有33種組合。根據(jù)概率統(tǒng)計分析,條件概率P(Si+1|Si),即Si出現(xiàn)的情況下后面出現(xiàn)Si+1的概率,由此可以計算得出所有組合的出現(xiàn)概率,f值最大的組合即為最優(yōu)的組合,這樣便可利用統(tǒng)計的方式進(jìn)一步提高識別準(zhǔn)確率。同理,對于長度為n的預(yù)測序列S1,S2,…,Sn,需要根據(jù)式(2)計算各種組合下的概率。這里的W(Si)根據(jù)CRNN中間層輸出的預(yù)測概率進(jìn)行重新歸一化,條件概率P(Si+1|Si)需要根據(jù)預(yù)處理部分建立的醫(yī)學(xué)詞庫,統(tǒng)計Si出現(xiàn)的次數(shù)N(Si),統(tǒng)計Si和Si+1前后共同出現(xiàn)的次數(shù)N(Si,Si+1),條件概率公式如式(3)所示。

f=W(S1)P(S2|S1)W(S2)P(S3|S2)W(S3)

(1)

f=W(S1)P(S2|S1)W(S2)P(S3|S2)…

W(Sn-1)P(Sn|Sn-1)W(Sn)

(2)

(3)

上述方法可以計算條件概率和預(yù)測概率,但是組合情況的復(fù)雜度呈指數(shù)級增長,在有效的時間內(nèi)很難得到最終結(jié)果,故引用Viterbi算法[16]求解最優(yōu)組合路徑問題,最優(yōu)路徑組合可以抽象為一個動態(tài)規(guī)劃的問題,首先構(gòu)造動態(tài)轉(zhuǎn)移方程。如果最優(yōu)路徑經(jīng)過某個節(jié)點(diǎn)Si,那么從初始節(jié)點(diǎn)也一定會經(jīng)過Si,且這條路徑是到達(dá)Si的最優(yōu)路徑,每個節(jié)點(diǎn)只會影響前后兩個節(jié)點(diǎn)的條件概率。根據(jù)這個思想,可以將這個問題劃分為若干個子問題,在求經(jīng)過Si的最優(yōu)路徑時候只需要求經(jīng)過Si-1的所有候選點(diǎn)的最優(yōu)路徑即可,動態(tài)轉(zhuǎn)移方程如下:

dp[i,j]=max(dp[i-1,k]+value(k,j))

(4)

動態(tài)轉(zhuǎn)移方程中的k表示選取的預(yù)測值個數(shù),value(k,j)表示第i個區(qū)域的第k個點(diǎn)到第i個區(qū)域的第j個點(diǎn)的條件概率,如圖2所示,虛線為動態(tài)規(guī)劃求解過程,每個節(jié)點(diǎn),只需要選擇一條最優(yōu)到達(dá)路徑即可。這樣每步只需計算要n次即可,依次遞推求解每個子問題的解,逐步求出問題的最優(yōu)解。

圖2 動態(tài)轉(zhuǎn)移過程

基于語言模型的識別結(jié)果矯正作為識別結(jié)果矯正的第一步,能夠較好地解決OCR識別結(jié)果中的形近字識別錯誤的問題,為后續(xù)的矯正方法提供基礎(chǔ)。接下來,使用融合最長公共子序列和編輯距離的方法匹配最貼切的識別結(jié)果,對結(jié)果進(jìn)一步矯正。

最長公共子序列主要用于求兩個序列之間的相似度,也可以用來矯正文字識別。對于輸入序列x和y分別表識別結(jié)果和醫(yī)學(xué)詞庫中的醫(yī)學(xué)名詞,LCS[i,j]表示序列x的前i個元素和序列y的前j個元素的最長公共子序列,動態(tài)轉(zhuǎn)移方程如式(5)所示。若序列x的第i個元素和序列y的第j個元素相等,那么最長公共子序列長度加1,C[i,j]=C[i-1,j-1]+1;若序列x的第i個元素和序列y的第j個元素不相等,C[i,j]取C[i,j-1]和C[i-1,j]的最大值,等價于刪除第i個元素或第j個元素后序列的最長公共子序列。此時,C[i,j]表示當(dāng)前公共子序列的長度,依據(jù)該數(shù)組回溯,便可找到最長公共子序列。

(5)

最長公共子序列算法可以很好地體現(xiàn)兩個字符串的相似程度,但化驗單檢驗項如“白細(xì)胞”“白細(xì)胞酯酶”“鏡檢白細(xì)胞”存在包含關(guān)系,如果識別結(jié)果為“白細(xì)胞”則與三者的最長公共子序列均為3,從而產(chǎn)生歧義,無法正確矯正。

Levenshtein距離又稱編輯距離(Edit Distance)是度量兩個序列相似程序的常用算法。該算法通過插入、刪除和替換等操作,將一個序列轉(zhuǎn)化為另一個序列,并統(tǒng)計所需的最小步數(shù)[17]。設(shè)輸入序列s和e分別表識別結(jié)果和醫(yī)學(xué)詞庫中的醫(yī)學(xué)名詞,LD[i,j]表示序列s的前i個元素和序列e的前j個元素的編輯距離,動態(tài)轉(zhuǎn)移方程如式(6)所示。若序列s的第i個元素和序列e的第j個元素相等,那么編輯操作為0,LD[i,j]=LD[i-1,j-1];若序列s的第i個元素和序列e的第j個元素不相等,那么LD[i,j]可以進(jìn)行三種操作,第一種操作方式是刪除序列s的第i個元素,第二種方式刪除序列e的第j個元素,第三種方式替換操作使得第i個元素和第j個元素相等,三種方式取最小值。

(6)

編輯距離算法體現(xiàn)了字符串間的差異程度,可以避免公共子串帶來的歧義。但使用神經(jīng)網(wǎng)絡(luò)識別化驗單文字需要先切分文字再識別,因文字密集、光影變化等原因,切分文字過程中會出現(xiàn)多字、漏字、合并字符串等現(xiàn)象[18]。如檢驗項X=“網(wǎng)織紅細(xì)胞計數(shù)”因切分問題被識別為Y=“只紅細(xì)胞計數(shù)”,后者與前者及Z=“紅細(xì)胞數(shù)”的編輯距離均為2,造成歧義?;诰庉嬀嚯x的相似度公式如式(7)、式(8)所示,計算X與Y、Z相似度均相等,不符合X與Y更相似的直觀認(rèn)知[19],存在一定的局限性。

(7)

(8)

綜上所述,單獨(dú)使用編輯距離算法或是最長公共子序列算法矯正都會出現(xiàn)歧義。本文融合了編輯距離方法和最長公共子序列方法。識別序列長度為i,醫(yī)學(xué)詞庫中醫(yī)學(xué)名詞序列長度為j,Q[i,j]表示兩序列相似度,相似度共識如式(9)所示。其中,參數(shù)α與β為比例系數(shù)且α+β=1。通過已有數(shù)據(jù)統(tǒng)計α與β的最優(yōu)比例,可以使算法更好地應(yīng)用于不同的數(shù)據(jù)集。通過對標(biāo)注數(shù)據(jù)的統(tǒng)計,在本文后續(xù)實驗中,α為0.3,β為0.7。

Q[i,j]=α·dp[i,j]+β·(min(i,j)-C[i,j])

(9)

2.3 對應(yīng)關(guān)系的識別結(jié)果矯正

化驗單OCR與自然場景下的OCR相比存在一定的特殊性,根據(jù)某實驗室提供的真實化驗單數(shù)據(jù),每張化驗單最多包含七項,分別為序號、項目名稱、縮寫、檢測結(jié)果、單位、參考值范圍、提示。其中,項目名稱、縮寫與單位、參考值范圍存在固定的對應(yīng)關(guān)系,如果一個檢驗項的項目名稱或縮寫確定,那么這個檢驗項的單位和參考范圍也可以確定。在醫(yī)療機(jī)構(gòu)提供的檢驗項表單的基礎(chǔ)上,根據(jù)標(biāo)注數(shù)據(jù)進(jìn)行增補(bǔ),建立了化驗單OCR識別矯正的檢驗項詞表,示例如表1所示。如果一個檢驗項的項目名稱和縮寫識別正確,便可以通過這種基于對應(yīng)關(guān)系的矯正方法,對其他列的識別結(jié)果進(jìn)行矯正。部分化驗單還存在一行多個檢驗項的情況,需要根據(jù)對列名的識別結(jié)果配合檢驗項文字,核對并拆分一行中的兩個檢驗項,并對兩個檢驗項分別進(jìn)行如上矯正處理。

表1 檢驗項詞表示例

3 實 驗

3.1 實驗數(shù)據(jù)及評價指標(biāo)

本實驗由某智慧醫(yī)療科技有限公司提供真實化驗單數(shù)據(jù)5 000余張,分某實驗室、某醫(yī)院兩大類。通過檢驗指標(biāo)數(shù)據(jù)合成和數(shù)據(jù)增強(qiáng),數(shù)據(jù)擴(kuò)充至10 000余張,化驗單數(shù)據(jù)如圖3、圖4所示。通過使用自然場景下化驗單文字檢測方法(BHS-CTPN)進(jìn)行文字檢測,將檢測的文本框進(jìn)行切割,然后利用一種改進(jìn)CRNN的識別方法進(jìn)行文字識別,最后對識別結(jié)果進(jìn)行后處理矯正。

圖3 實驗原始數(shù)據(jù)

圖4 實驗原始數(shù)據(jù)

本文使用準(zhǔn)確率(Precision)、召回率(Recall)和F-Measure(F1值)對模型做性能評估。TP表示正類判斷成正類的數(shù)目;TN表示負(fù)類判斷成負(fù)類的數(shù)目;FP表示負(fù)類判斷成正類的數(shù)目;FN表示正類判斷成負(fù)類的數(shù)目。在矯正任務(wù)中,一般使用準(zhǔn)確率表示識別出的字符中正確識別的字符數(shù)量,而用召回率表示化驗單字符中正確識別的字符數(shù)量,準(zhǔn)確率、召回率、F1值計算公式如式(10)-式(12)。

(10)

(11)

(12)

3.2 實驗細(xì)節(jié)

本實驗的輸入為化驗單識別結(jié)果和構(gòu)建的醫(yī)學(xué)詞庫,輸出為矯正的識別結(jié)果。實驗構(gòu)建的醫(yī)學(xué)詞庫2 000余項,實驗的硬件為Intel Xeon E5-2603 v4處理器,64 GB內(nèi)存,Nvidia Tesla k 80顯卡,操作系統(tǒng)為Ubuntu 16.04.10,實驗的軟件配置為Python 3.6.8,實驗的區(qū)域預(yù)測選擇概率最大的前三個。首先利用語言模型進(jìn)行識別結(jié)果矯正,然后根據(jù)構(gòu)建的詞表,利用對應(yīng)關(guān)系進(jìn)行矯正,最后利用融合的編輯距離和最長公共子序列的方法進(jìn)行識別結(jié)果矯正。

3.3 實驗結(jié)果

3.3.1定量分析

如表2、表3所示,在實驗室化驗單數(shù)據(jù)和醫(yī)療化驗單數(shù)據(jù)上,對本論文提出的后處理矯正方法各模塊分別進(jìn)行消融實驗。使用Imp-CRNN作為基線模型,分別加入語言模型、對應(yīng)關(guān)系、編輯距離和最長公共子序列以驗證各模塊的有效性,然后將各模塊結(jié)合得到本文的矯正方法。與基線模型相比,本文的方法在實驗室化驗單數(shù)據(jù)上的識別準(zhǔn)確率、召回率、F1值分別提升了2百分點(diǎn)、3百分點(diǎn)、2百分點(diǎn),在醫(yī)院化驗的數(shù)據(jù)上的識別準(zhǔn)確率、召回率、F1值分別提升了2百分點(diǎn)、3百分點(diǎn)、3百分點(diǎn)。實驗結(jié)果表明加入后處理的文本識別更加精確,且方法適用于不同的數(shù)據(jù)集,具有一定的泛化性。本組實驗的對比和相關(guān)指數(shù)的提升可以有效地說明本文模型的性能。

表2 某實驗室化驗單識別結(jié)果對比

表3 某醫(yī)院化驗單識別結(jié)果對比

3.3.2定性分析

為了能夠客觀地進(jìn)行分析比較,選取兩張典型的化驗單案例,對比其識別結(jié)果與校正后結(jié)果,如圖5、圖6所示。在沒有引入后處理時,會出現(xiàn)形近字識別錯誤和多字少字現(xiàn)象。通過使用本文提出的后處理方法可以矯正大部分錯誤,同時還能通過后處理將識別結(jié)果進(jìn)一步規(guī)范化,方便后期處理。定性分析體現(xiàn)了引入后處理可以有效地解決常見識別錯誤,提升準(zhǔn)確率。

圖5 識別矯正對比圖一

圖6 識別矯正對比圖二

4 結(jié) 語

本文針對自然場景下化驗單識別效果欠佳的情況,提出了一種融合語言模型的文字識別矯正方法。在傳統(tǒng)語言模型矯正方法的基礎(chǔ)上,引入神經(jīng)網(wǎng)絡(luò)的輸出建立識別結(jié)果矩陣,使用統(tǒng)計條件概率預(yù)測最佳符合醫(yī)學(xué)詞庫的識別結(jié)果。本文提出了一種融合編輯距離和最長公共子序列的字符串匹配算法來匹配最貼切的識別結(jié)果,最后通過對應(yīng)關(guān)系匹配,進(jìn)行前后矯正,進(jìn)一步提高識別精確度。對比實驗表明,在引入本文提出的矯正方法后,化驗單的識別準(zhǔn)確率得到了提高,證明了該方法的有效性。但該方法還有一些不足之處,如需要更新詞庫、相似度算法計算量有待優(yōu)化、訓(xùn)練數(shù)據(jù)分布不均勻會導(dǎo)致魯棒性不足等問題。在接下來的工作中,一方面將對所提出的方法進(jìn)行改進(jìn),優(yōu)化方法,減少計算量,進(jìn)一步提高本方法的效率;另一方面將提升詞庫的規(guī)模,使數(shù)據(jù)均勻分布,擴(kuò)大數(shù)據(jù)的覆蓋范圍,進(jìn)一步提高方法的魯棒性。

猜你喜歡
化驗單詞庫矯正
一“吃”多用
“體態(tài)矯正”到底是什么?
輸入法詞庫乾坤大挪移
醫(yī)生幫不了這些“小忙”
命若游絲
詞庫音系學(xué)的幾個理論問題芻議
矯正牙齒,不只是為了美
矯正牙齒,現(xiàn)在開始也不遲
改良橫切法內(nèi)眥贅皮矯正聯(lián)合重瞼術(shù)
門診化驗單的管理措施及方法
罗平县| 贡觉县| 北票市| 榆林市| 屏山县| 阿拉善左旗| 景谷| 郴州市| 苏尼特左旗| 沐川县| 满城县| 象山县| 上杭县| 大余县| 武城县| 大足县| 慈利县| 樟树市| 清流县| 平乐县| 柳河县| 新民市| 轮台县| 浦北县| 额济纳旗| 玉树县| 耒阳市| 邯郸市| 德保县| 武乡县| 孟津县| 乌鲁木齐县| 雅江县| 鹤岗市| 来凤县| 尼玛县| 长阳| 台北市| 蓬安县| 沅陵县| 东阿县|