国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文分詞模型在中醫(yī)病癥語義理解中的研究與應(yīng)用

2020-04-20 10:46許林濤葉欣欣裴成飛吳榮士
軟件工程 2020年4期

許林濤 葉欣欣 裴成飛 吳榮士

摘? 要:中醫(yī)臨床記錄的病癥內(nèi)容是中醫(yī)醫(yī)師進(jìn)行診斷的重要依據(jù)。由于中文表達(dá)形式的多樣性與復(fù)雜性,如何從這些病癥內(nèi)容中進(jìn)行標(biāo)準(zhǔn)化四診信息的提取對于中醫(yī)證候分析具有重要的研究價值。本文在充分分析各種中文分詞算法的基礎(chǔ)上,選擇將最大正向匹配分詞算法應(yīng)用于中醫(yī)臨床病癥內(nèi)容中的四診信息語義理解,構(gòu)建的中醫(yī)四診語義模型在100個實(shí)際病例的四診信息提取,再對最大分詞數(shù)進(jìn)行變量控制,得出最大分詞數(shù)為5時得出的準(zhǔn)確率和召回率最高。

關(guān)鍵詞:中文分詞;證候分析;四診信息

中圖分類號:TP311? ? ?文獻(xiàn)標(biāo)識碼:A

Abstract:TCM clinical record of the disease content is an essential basis for the diagnosis of TCM physicians.Due to the diversity and complexity of Chinese expressions,how to extract standardized four-diagnosis information from the contents of these conditions has important research value for TCM syndrome analysis.Based on the full analysis of various Chinese word segmentation algorithms,this paper chooses to apply the maximum forward matching word segmentation algorithm to the semantic interpretation of the four-diagnosis information in the clinical symptoms of traditional Chinese medicine.This research conducts the extraction of four-diagnosis information of 100 actual cases based on the constructed traditional Chinese medicine four-diagnosis information diagnostic model. Then the variable control is performed on the maximum number of word segmentation,and the high accuracy and recall rate are obtained when the maximum number of word segmentation is five.

Keywords:chinese word segmentation;syndrome analysis;four consultation information

1? ?引言(Introduction)

中醫(yī)提倡以“以證遷方”為基礎(chǔ),實(shí)現(xiàn)對癥下藥?!白C”是指證候,即通過方與證的關(guān)系,達(dá)到推薦名醫(yī)名方的作用[1]。證候在中醫(yī)中通常指的是在診斷過程中,具有潛在聯(lián)系的一組病癥和體征。如完谷不化、小便頻數(shù)、夜頻尿多、全身腫脹、舌淡、苔白等是腎陽虛的證候。大部分中醫(yī)在診斷過程中會通過‘望‘聞‘問和‘切將病人的病癥和體征用描述性的文字記錄下來,憑此記錄為病人開處方。由于中文表達(dá)形式的多元性和復(fù)雜性,加上中醫(yī)醫(yī)師在記錄病癥時通常用古文的形式,如何從這些病癥內(nèi)容中進(jìn)行標(biāo)準(zhǔn)化四診信息的提取對于中醫(yī)證候分析具有重要的研究價值。

隨著自然語言處理技術(shù)的不斷提高,中文分詞算法也被廣泛應(yīng)用于中醫(yī)領(lǐng)域,對中醫(yī)的證候分析有重要的研究價值。張千、王慶瑋等人[2]對傳統(tǒng)的特征提取方法和最新的深度學(xué)習(xí)在文本挖掘方面的技術(shù)做了綜述;郭德海、鄭光[3]等人利用文本挖掘技術(shù)總結(jié)了慢性咳嗽的中醫(yī)診治規(guī)律;王麗穎、鄭光[4]等人使用文本挖掘技術(shù)探索高血壓常見中醫(yī)證候即常用方劑。本文在充分分析各種中文分詞算法的基礎(chǔ)上,選擇將最大正向匹配分詞算法為核心,構(gòu)建了中醫(yī)四診語義模型應(yīng)用于中醫(yī)臨床病癥內(nèi)容中的四診信息語義理解。

2? ?中醫(yī)四診語義模型(Semantic model of TCM four diagnosis)

2.1? ?中文分詞技術(shù)

中文分詞技術(shù)[5]是自然語言處理中的一項(xiàng)核心技術(shù),英文中已經(jīng)將詞和詞之間用逗號或者空格分開,而中文對詞定義的邊線很難劃分。在漢語中以字為最小單位,但是詞的數(shù)量和不同詞在不同語境下的語義也是不一樣的。因此在理解中文文本內(nèi)容時,中文分詞是一個不可或缺的一個步驟。將一段文本轉(zhuǎn)化為詞的表示,就是中文分詞。

當(dāng)前主流的中文分詞算法分別為:基于詞典的中文分詞算法、基于統(tǒng)計模型的中文分詞算法和基于語義理解的中文分詞算法[6]。

2.1.1? ?基于詞典的中文分詞算法

基于詞典的中文分詞算法又稱基于字符串匹配分詞算法,它是按照一定的規(guī)律將一段中文文本與已經(jīng)定義的“詞典”中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則可以分成一個詞。這種算法的好壞與詞典和匹配規(guī)則有著密切的聯(lián)系,也和掃描的方向相關(guān)。又根據(jù)掃描方向的不同,分為最大正向匹配算法、最大逆向匹配算法和雙向最大匹配算法。

2.1.2? ? 基于統(tǒng)計模型的中文分詞算法

基于統(tǒng)計模型的中文分詞算法是根據(jù)統(tǒng)計中文文本的詞頻進(jìn)行分詞,若在文本中出現(xiàn)同一個詞的頻率越高,則構(gòu)成一個詞的可能性就越大。這個算法不使用“詞典”,只會對分詞的中文文本中相鄰的字之間進(jìn)行一個詞頻統(tǒng)計來計算他們同時出現(xiàn)的概率,概率越大,說明構(gòu)成詞的可能性越大,通常會設(shè)定一個閾值來控制這個概率。

2.1.3? ?基于語義理解的中文分詞算法

該算法的基本思想是借助大量的語義和語法知識來訓(xùn)練模型。在分詞的過程中,利用這些訓(xùn)練好的模型來對文本進(jìn)行語義、語法分析和歧義識別。但由于漢語的歧義性和復(fù)雜性,將文本語義轉(zhuǎn)化為機(jī)器可識別的語言難度較大。

2.2? ?最大正向匹配分詞算法

最大正向匹配算法是自然語言處理中最常見的一種算法,其主要思路是將一段待分詞的文本數(shù)據(jù),根據(jù)用戶所設(shè)定的最大分詞長度來循環(huán)遍歷,與“詞典”中的詞進(jìn)行匹配,得到匹配的結(jié)果就是所要的分詞結(jié)果。

最大正向匹配算法的步驟如下:

步驟1:根據(jù)自定義設(shè)置的最大分次數(shù)W,將待分詞的文本s1中從左向右取出W個字符,查看這W個字符是否在詞典中。如果在詞典中就直接輸出,如果不在詞典中則將W最后一個字去掉,如果剩下的W是個單字,也直接輸出。去掉末尾字且不是單字,繼續(xù)循環(huán)查看是否在詞典中。

步驟2:繼上述的一次輸出分詞結(jié)果后,繼續(xù)將文本(s1-w)中從左向右取出W個字符,重復(fù)步驟1操作,直到s1為空結(jié)束。

步驟3:將上述分詞結(jié)果統(tǒng)計,計算他們的準(zhǔn)確率和召回率。

最大正向匹配分詞算法流程圖如圖1所示。

一般通過準(zhǔn)確率(Precision)和召回率(Recall)來做為最大正向匹配分詞算法的評價標(biāo)準(zhǔn),其計算公式如下:

其中,X和Y分別表示訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的詞數(shù),C表示正確匹配的詞數(shù)。

2.3? ?中醫(yī)四診語義模型

本文將中文分詞模型應(yīng)用于中醫(yī)證候分析中特征詞的提取和分析,通過對病癥內(nèi)容得到的描述性文本信息的分詞和同義詞匹配構(gòu)建了中醫(yī)四診語義模型。模型構(gòu)建步驟如圖2所示。

步驟1:將樣本病歷中描述性文本信息進(jìn)行中文分詞和去停用詞。

步驟2:將得到的證候等特征詞進(jìn)行同義詞匹配,排除文言文或同義不同詞的影響,根據(jù)標(biāo)準(zhǔn)四診信息得到與病癥相關(guān)的四診信息。

步驟3:調(diào)整最大分詞數(shù),重復(fù)步驟1和步驟2,分別得出分詞結(jié)果。

步驟4:由上述產(chǎn)生的分詞結(jié)果,計算不同的最大分詞數(shù)的準(zhǔn)確率和召回率,保留準(zhǔn)確率和召回率最高的一組。

3? 樣本選擇與特征提取(Sample selection and feature extraction)

3.1? ?樣本選擇

本次實(shí)驗(yàn)的數(shù)據(jù)來源為常州市中醫(yī)院等十余所臨床醫(yī)院采集到的100例中醫(yī)會診記錄。

3.2? ?特征提取

如何有效地從文本信息提取出樣本信息特征,從而為證候分析提供重要的數(shù)據(jù)基礎(chǔ),是本文的研究重點(diǎn)。在充分分析現(xiàn)有的樣本病歷的基礎(chǔ)上,采用四診信息的方式進(jìn)行特征提取是一個非常有效地方法,通過提取與病癥相關(guān)的四診信息來進(jìn)行證候分析,更能抓住病人的病癥和機(jī)理,從而達(dá)到對癥下藥的效果。具體的特征提取方法如下:

步驟1:定義一個標(biāo)準(zhǔn)的四診信息庫。本文涉及的四診信息的定義依據(jù)常州中醫(yī)院申春悌制定的標(biāo)準(zhǔn)信息庫,標(biāo)準(zhǔn)信息庫部分定義如表1所示。

由于樣本信息是類似文言文的文本信息,以及中醫(yī)們的口述信息,有些詞會出現(xiàn)與四診信息同義不同詞的現(xiàn)象,利用同義詞匹配可以排除這些影響。

步驟3:結(jié)合描述性的病歷信息,給每個病癥相關(guān)的四診信息定義一個層級,一般分為無、輕、中、重四級,分別用1、2、3、4來進(jìn)行特征表示,從而完成從病歷文本信息的特征提取。

4? ?實(shí)驗(yàn)結(jié)果(Experimental results)

本文實(shí)驗(yàn)所涉及的數(shù)據(jù)集是100例中醫(yī)會診時的會診記錄,我們首先需要將這些會診信息中關(guān)鍵信息提取出來,以得出該病人的具體患病信息。為了保護(hù)病人的隱私,將每個病例只取其會診信息,并用病例1病例2來編號,部分會診信息如表2所示。

病例1 秋燥之季,風(fēng)熱之邪流行,惡風(fēng)發(fā)熱,汗出不暢,延今半月不退,伴喉痛作咳,咯痰不爽,舌偏赤,苔薄黃,脈浮數(shù)帶滑。曾經(jīng)輸液及抗病毒治療

病例2 患者入秋即發(fā)哮喘,冬令自行緩解,反復(fù)六載。發(fā)作先多噴嚏,隨見胸悶、喘息,張口抬肩,呀呷有聲,大汗,咯出粘痰方舒,用平喘藥及噴霧劑吸入,恙雖輕而難至平緩。從未發(fā)熱等等癥。舌體偏紅,苔薄黃膩,脈浮弦而促。童年有類似發(fā)作

病例3 喉蛾喉痛屢發(fā)3年且易外感作咳,熱退五天喉癢干咳,舌紅苔少脈細(xì)滑數(shù)。兩頸淋巴結(jié)腫脹質(zhì)硬多枚

在上述的會診信息的基礎(chǔ)上,實(shí)現(xiàn)最大匹配中文分詞算法,并進(jìn)行詞性標(biāo)注,去停用詞、語氣助詞和其他一些與證候無關(guān)詞性的詞,得到最初的分詞結(jié)果如表3所示(部分病例示例)。

由于會診信息是類似文言文的描述性文本,分詞后得出的詞直接和標(biāo)準(zhǔn)的四診信息進(jìn)行匹配,準(zhǔn)確率會大大降低。需要將分詞后的結(jié)果進(jìn)行同義詞匹配,在和標(biāo)準(zhǔn)的四診信息進(jìn)行匹配。得到的最終的分詞結(jié)果如表4所示。

最后與定義的標(biāo)準(zhǔn)四診信息匹配可得出與病癥相關(guān)的四診信息,為中醫(yī)進(jìn)行后續(xù)的證候分析提供數(shù)據(jù)基礎(chǔ),如表5所示。

本文實(shí)驗(yàn)是通過Python實(shí)現(xiàn)了最大正向匹配分詞算法,數(shù)據(jù)集是用txt格式來存儲,通過Python程序讀取。以20例病例作為測試病例,80例病例作為樣本病例,經(jīng)過多次調(diào)試最大分詞數(shù),分別計算他們的準(zhǔn)確率和召回率,得出結(jié)果。結(jié)果對比發(fā)現(xiàn)組大分詞數(shù)為5時,準(zhǔn)確率和召回率最高,實(shí)驗(yàn)結(jié)果如表6所示。

經(jīng)上述的實(shí)驗(yàn)得出,用詞長為5的最大分詞數(shù)和最大匹配分詞算法,可以準(zhǔn)確地得出該病例中會診信息的特征詞,即與病癥相關(guān)的四診變量,為后續(xù)證候分析提供數(shù)據(jù)基礎(chǔ)。

5? ?結(jié)論(Conclusion)

本文是以100例病例的會診信息為例,將語義分析應(yīng)用到證候分析中,提取出病例的會診信息中的特征詞,與定義好的四診信息匹配得出與病癥相關(guān)的四診信息,可以為中醫(yī)的診斷提供更有效地數(shù)據(jù)基礎(chǔ)。中醫(yī)的證候分析具有重要的研究價值,而語義分析的應(yīng)用,不僅局限于普通的分詞匹配,還和標(biāo)準(zhǔn)的四診信息進(jìn)行比對替換,實(shí)現(xiàn)了證候名的統(tǒng)一,以更好地實(shí)現(xiàn)證候后續(xù)的挖掘和分析。

參考文獻(xiàn)(References)

[1] 尹湘君,何慶勇,王階,等.近40年血脂異常中醫(yī)證候動態(tài)演變規(guī)律的研究[J].中華中醫(yī)藥雜志,2018(04):1523-1526.

[2] 張千,王慶瑋,張悅,等.基于深度學(xué)習(xí)的文本特征提取研究綜述[J].計算機(jī)技術(shù)與發(fā)展,2019(12):61-65.

[3] 郭德海,鄭光,張潔,等.基于文本挖掘的慢性咳嗽中醫(yī)診治規(guī)律研究[J].中國中醫(yī)藥信息雜志,2019(10):101-104.

[4] 王麗穎,鄭光,趙學(xué)堯.基于文本挖掘的高血壓病中醫(yī)辨證用藥情況分析[J].世界中西醫(yī)結(jié)合雜志,2018(04):462-465;470.

[5] 王夢鴿.基于深度學(xué)習(xí)中文分詞的研究[D].西安郵電大學(xué),2018.

[6] 張少聰.中醫(yī)醫(yī)療輔助診斷系統(tǒng)研究與實(shí)現(xiàn)[D].電子科技大學(xué),2018.

作者簡介:

許林濤(1995-),男,碩士生.研究領(lǐng)域:人工智能,數(shù)據(jù)挖掘.

葉欣欣(1996-),女,碩士生.研究領(lǐng)域:隱私保護(hù),數(shù)據(jù)挖掘.

裴成飛(1996-),男,碩士生.研究領(lǐng)域:隱私保護(hù),數(shù)據(jù)挖掘.

吳榮士(1995-),男,碩士生.研究領(lǐng)域:隱私保護(hù),數(shù)據(jù)挖掘.