国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互信息的中醫(yī)癥狀推薦系統(tǒng)

2023-11-09 04:34:21李穎王月郝建軍王嘉鋒
自動(dòng)化與信息工程 2023年5期
關(guān)鍵詞:互信息字符串病例

李穎 王月 郝建軍 王嘉鋒

摘要:針對(duì)中醫(yī)診斷過(guò)于依賴(lài)醫(yī)生經(jīng)驗(yàn)的問(wèn)題,提出一種基于互信息的中醫(yī)癥狀推薦系統(tǒng)。首先,對(duì)原始病例數(shù)據(jù)進(jìn)行中醫(yī)癥狀規(guī)范化,構(gòu)建癥狀術(shù)語(yǔ)字典,使系統(tǒng)輸入規(guī)范的癥狀;然后,通過(guò)互信息計(jì)算癥狀之間的關(guān)聯(lián)性;最后,利用歸一化折損累計(jì)增益(NDCG)指標(biāo)驗(yàn)證癥狀的推薦效果,獲得癥狀的推薦列表。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)能根據(jù)一個(gè)癥狀或多個(gè)癥狀獲得其他相關(guān)聯(lián)的癥狀,實(shí)現(xiàn)中醫(yī)癥狀推薦功能。

關(guān)鍵詞:中醫(yī);互信息;癥狀推薦;數(shù)據(jù)挖掘;癥狀術(shù)語(yǔ)字典;歸一化折損累計(jì)增益

中圖分類(lèi)號(hào):TP311???????????文獻(xiàn)標(biāo)志碼:A ???????????文章編號(hào):1674-2605(2023)05-0008-06

DOI:10.3969/j.issn.1674-2605.2023.05.008

Chinese Medicine Symptoms Recommendation System Based on Mutual Information

LI Ying1??WANG Yue2 ?HAO Jianjun3??WANG Jiafeng3

(1.Dongguan Zhongke Institute of Cloud Computing, Dongguan 523000, China

2.Guangdong Electronics Industry Research Institute Co., Ltd., Dongguan 523000, China

3.Guangzhou Huangpu Traditional Chinese Medicine Hospital, Guangzhou 510700, China)

Abstract:?A Chinese medicine symptom recommendation system based on mutual information is proposed to address the issue of excessive reliance on doctor experience in Chinese medicine diagnosis. Firstly, standardize Chinese medicine symptoms on the original case data, construct a symptom terminology dictionary, and enable the system to input standardized symptoms; Then, calculate the correlation between symptoms through mutual information; Finally, use the NDCG indicator to verify the recommendation effect of symptoms and obtain a recommended list of symptoms. The experimental results show that the system can obtain other related symptoms based on one or more symptoms, and achieve the recommendation function of Chinese medicine symptoms.

Keywords:?Chinese medicine; mutual information;?symptoms recommendation; data mining; dictionary of symptom terms; normalized discounted cumulative gain

0??引言

我國(guó)中醫(yī)學(xué)博大精深、歷史悠久,是現(xiàn)代醫(yī)療體系重要的組成部分。中醫(yī)的診療過(guò)程包括四診識(shí)別和辨證論治2個(gè)階段,即醫(yī)生先通過(guò)望、聞、問(wèn)、切,結(jié)合診療經(jīng)驗(yàn)辨別患者的身體狀況和疾病信息;再總結(jié)提取相應(yīng)的癥狀,得到證候信息,從而做出診斷并

給出治療方案。在癥狀提取過(guò)程中,醫(yī)生通常根據(jù)患者當(dāng)前癥狀詢問(wèn)相關(guān)聯(lián)的癥狀,這個(gè)過(guò)程非常依賴(lài)醫(yī)生的個(gè)人經(jīng)驗(yàn),經(jīng)驗(yàn)較少的醫(yī)生難以獲取準(zhǔn)確癥狀。近年來(lái),隨著互聯(lián)網(wǎng)、人工智能技術(shù)的快速發(fā)展,相關(guān)技術(shù)已經(jīng)應(yīng)用于中醫(yī)領(lǐng)域[1-3],推動(dòng)了中醫(yī)現(xiàn)代化發(fā)展的進(jìn)程[4-5]。結(jié)合人工智能與大數(shù)據(jù)技術(shù)進(jìn)行中醫(yī)輔助診斷,推薦與患者當(dāng)前癥狀相關(guān)聯(lián)的其他癥狀,具有十分重要的現(xiàn)實(shí)意義。

宋海貝等[6]基于層次聚類(lèi)和卷積神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)了中醫(yī)舌像面像輔助診療系統(tǒng),可對(duì)舌像和面像進(jìn)行自動(dòng)診斷和分析,并將結(jié)果實(shí)時(shí)反饋給用戶,達(dá)到健康管理的目的。余江維等[7]利用文本挖掘與自動(dòng)分類(lèi)技術(shù),通過(guò)TF-IDF算法進(jìn)行中醫(yī)證候的自動(dòng)分類(lèi)與量化研究,得到不同證型的證候分布,驗(yàn)證了TF-IDF相對(duì)熵量化中醫(yī)證候的可行性。任晉宇等[8]利用數(shù)據(jù)挖掘和度量學(xué)習(xí)技術(shù)挖掘、整理中醫(yī)診療經(jīng)驗(yàn)知識(shí),建立病案相似度的計(jì)算方法,設(shè)計(jì)并實(shí)現(xiàn)了中醫(yī)輔助診療推薦系統(tǒng)。

推薦系統(tǒng)是互聯(lián)網(wǎng)領(lǐng)域有效的信息過(guò)濾方法,可避免信息過(guò)載,實(shí)現(xiàn)個(gè)性化服務(wù)。主流的推薦系統(tǒng)一般采用基于信息內(nèi)容、基于協(xié)同過(guò)濾、基于知識(shí)、混合的推薦方法[9-10]。近年來(lái),已有許多學(xué)者將推薦系統(tǒng)的思想應(yīng)用于中醫(yī)癥狀推薦領(lǐng)域。吳信朝等[11]利用癥狀之間的余弦相似度確定患者的推薦癥狀,實(shí)現(xiàn)中醫(yī)癥狀的推薦功能,解決了人工經(jīng)驗(yàn)強(qiáng)耦合的問(wèn)題,能夠從較多的相似癥狀中,篩選并確定患者的推薦癥狀。曹靜[12]提出基于癥狀關(guān)聯(lián)網(wǎng)絡(luò)的中醫(yī)輔助問(wèn)診提示癥狀推薦算法,通過(guò)分析中醫(yī)問(wèn)診數(shù)據(jù)得到下一步問(wèn)診提示,提高醫(yī)生辨證的準(zhǔn)確性。

本文利用互信息技術(shù),分析中醫(yī)癥狀的相關(guān)性,實(shí)現(xiàn)根據(jù)患者當(dāng)前癥狀推薦相關(guān)聯(lián)癥狀的功能,可輔助醫(yī)生診療,提高醫(yī)生的工作效率。

1??中醫(yī)癥狀推薦系統(tǒng)

基于互信息的中醫(yī)癥狀推薦系統(tǒng)主要包括在線癥狀輸入模塊、癥狀提取模塊、癥狀關(guān)聯(lián)度計(jì)算模塊、癥狀推薦模塊4部分,系統(tǒng)框圖如圖1所示。

在線癥狀輸入模塊輸入患者的當(dāng)前癥狀;癥狀提取模塊構(gòu)建癥狀病例數(shù)據(jù)集;癥狀關(guān)聯(lián)度計(jì)算模塊計(jì)算與輸入癥狀相關(guān)聯(lián)的前k個(gè)癥狀;癥狀推薦模塊輸出推薦的癥狀。

1.1??癥狀提取

原始病例數(shù)據(jù)是描述患者信息的自然語(yǔ)言文本,而基于互信息的中醫(yī)癥狀推薦系統(tǒng)的數(shù)據(jù)處理需使用具體的癥狀向量,因此需要對(duì)病例數(shù)據(jù)進(jìn)行癥狀提取操作。

首先,對(duì)原始病例數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,選取主述及現(xiàn)病史部分文本,通過(guò)正則表達(dá)式等操作過(guò)濾噪聲內(nèi)容,篩選出包含患者癥狀相關(guān)信息的自然語(yǔ)言文本句子。

然后,制定癥狀術(shù)語(yǔ)字典。由于中醫(yī)癥狀描述方式眾多且尚未有統(tǒng)一的術(shù)語(yǔ)字典,同一個(gè)癥狀有多種不同的描述方式。為便于后續(xù)處理,將中醫(yī)癥狀描述規(guī)范化,制定癥狀術(shù)語(yǔ)字典。如鼻腔分泌物清稀、有鼻水這兩種癥狀描述可以規(guī)范化為鼻流清涕。先將描述癥狀的自然語(yǔ)言文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并使數(shù)據(jù)標(biāo)注盡可能去模糊化;再結(jié)合臨床病例數(shù)據(jù)與《中醫(yī)診斷學(xué)》[13]、《中醫(yī)癥狀鑒別診斷學(xué)》[14]、《常見(jiàn)癥狀鑒別診斷學(xué)》[15]中的癥狀術(shù)語(yǔ)及解釋?zhuān)玫桨Y狀術(shù)語(yǔ)字典。

最后,利用癥狀術(shù)語(yǔ)字典對(duì)病例數(shù)據(jù)進(jìn)行癥狀提取,獲得患者的證候信息,構(gòu)建癥狀病例數(shù)據(jù)集。病例數(shù)據(jù)中的癥狀提取方法為:1) 通過(guò)規(guī)范化的癥狀名及別稱(chēng)進(jìn)行字符串匹配,匹配相似度利用萊文斯坦距離(一個(gè)字符串轉(zhuǎn)成另一個(gè)字符串所需的最少編輯操作次數(shù))來(lái)衡量;2) 計(jì)算2個(gè)字符串的相似度時(shí),將較長(zhǎng)的字符串裁剪成與較短字符串相同長(zhǎng)度的多個(gè)子字符串,計(jì)算各個(gè)子字符串與較短字符串的萊文斯坦距離,并以其最小值作為2個(gè)字符串的相似度。2個(gè)字符串相似度的定義為

若病例數(shù)據(jù)的自然語(yǔ)言文本與某個(gè)癥狀關(guān)鍵字的相似度大于設(shè)定閾值,則認(rèn)為該文本中有這個(gè)癥狀。通過(guò)不斷迭代學(xué)習(xí)可得到最優(yōu)閾值,從而準(zhǔn)確提取文本對(duì)應(yīng)的癥狀。

1.2??癥狀關(guān)聯(lián)度計(jì)算

基于互信息的中醫(yī)癥狀推薦系統(tǒng)的關(guān)鍵步驟為癥狀關(guān)聯(lián)度計(jì)算,通過(guò)癥狀關(guān)聯(lián)度可獲得與當(dāng)前輸入癥狀相關(guān)的其他癥狀。本文利用互信息算法來(lái)計(jì)算癥狀病例數(shù)據(jù)集的癥狀關(guān)聯(lián)度,流程如圖2所示。

互信息表示變量XY的關(guān)聯(lián)程度,關(guān)聯(lián)程度越高,互信息值越大,計(jì)算公式為

首先,以測(cè)試集中病例數(shù)據(jù)主述癥狀為輸入,現(xiàn)病史的癥狀為真實(shí)癥狀,利用互信息矩陣計(jì)算并選取前k個(gè)互信息值高的推薦癥狀;然后,利用測(cè)試集中推薦癥狀的歸一化折損累計(jì)增益(normalized discounted cumulative gain, NDCG)指標(biāo)來(lái)驗(yàn)證推薦準(zhǔn)確度,并根據(jù)NDCG指標(biāo)來(lái)調(diào)整算法參數(shù),反復(fù)迭代得到最佳參數(shù);最后,合并訓(xùn)練集和測(cè)試集,計(jì)算癥狀的互信息矩陣。

NDCG用于評(píng)估推薦結(jié)果的效果,取值范圍為0~1,值越大推薦效果越好,計(jì)算公式為

推薦系統(tǒng)返回一個(gè)推薦癥狀列表,每個(gè)推薦癥狀都有相關(guān)性的評(píng)分值。

1.3 ?癥狀推薦

通過(guò)癥狀關(guān)聯(lián)度計(jì)算模塊得到癥狀病例數(shù)據(jù)集的互信息矩陣后,新的在線輸入癥狀可利用該互信息矩陣來(lái)計(jì)算當(dāng)前癥狀與數(shù)據(jù)集中其他癥狀的互信息值,最后選取前k個(gè)互信息值高的癥狀作為當(dāng)前癥狀的推薦癥狀。

2??實(shí)驗(yàn)

2.1 ?實(shí)驗(yàn)數(shù)據(jù)

本文采用的病例數(shù)據(jù)來(lái)自某醫(yī)院的臨床門(mén)診病例數(shù)據(jù)共3?312條。對(duì)病例數(shù)據(jù)中的癥狀規(guī)范化處理后,癥狀術(shù)語(yǔ)字典包含844種規(guī)范癥狀,2?232種別稱(chēng)。

2.2 ?實(shí)驗(yàn)結(jié)果與分析

首先,將原始病例數(shù)據(jù)中的主述文本和現(xiàn)病史文本進(jìn)行數(shù)據(jù)預(yù)處理,劃分為包含癥狀信息的單個(gè)文本句子;然后,對(duì)文本句子進(jìn)行癥狀提取,本文癥狀提取采用的字符串相似度閾值為0.7;最后,將癥狀提取算法得到的癥狀與真實(shí)存在的癥狀進(jìn)行對(duì)比計(jì)算,在病歷主訴文本中的準(zhǔn)確率為88.32%,在現(xiàn)病史文本中的準(zhǔn)確率為83.04%。部分文本癥狀提取結(jié)果如表1所示。

本實(shí)驗(yàn)采用的3?312條病例數(shù)據(jù)包含17?875個(gè)癥狀,431種癥狀類(lèi)別,癥狀間可兩兩組合成9?729對(duì)癥狀對(duì),其中出現(xiàn)頻次最高的前10對(duì)癥狀對(duì)如表2所示。

利用公式(3)計(jì)算癥狀對(duì)的互信息值,取得分高的前10對(duì)癥狀對(duì)如表3所示。

由表3可知,出現(xiàn)頻次高的癥狀對(duì)的互信息值不一定大,這是因?yàn)榛バ畔⒅档挠?jì)算不僅取決于癥狀對(duì)共同出現(xiàn)的概率,還與每個(gè)癥狀單獨(dú)出現(xiàn)的概率成反比。如失眠癥狀出現(xiàn)次數(shù)較多,導(dǎo)致包含該癥狀的癥狀對(duì)的互信息值變小。

為了減少偶然性,將癥狀病例數(shù)據(jù)集按4∶1隨機(jī)劃分為訓(xùn)練集和測(cè)試集。利用訓(xùn)練集數(shù)據(jù)計(jì)算互信息矩陣,將訓(xùn)練集中的癥狀兩兩組合,共得到8?723對(duì)癥狀對(duì),互信息值最高的前10對(duì)癥狀對(duì)及互信息值如表4所示。

由表4可知,訓(xùn)練集中失眠和煩躁癥狀對(duì)的互信息值最高,表示訓(xùn)練集中失眠和煩躁癥狀關(guān)聯(lián)性相對(duì)較高。

根據(jù)癥狀對(duì)的互信息值,構(gòu)建癥狀對(duì)互信息矩陣。該矩陣是一個(gè)431×431的二維數(shù)組,每一行每一列為一個(gè)癥狀,數(shù)值為癥狀對(duì)的互信息值。利用互信息矩陣計(jì)算訓(xùn)練集中的推薦癥狀,具體操作為:將訓(xùn)練集的主述癥狀作為輸入,計(jì)算其對(duì)應(yīng)的推薦癥狀列表;如果輸入多于2個(gè)癥狀,則將各癥狀單獨(dú)輸入后得到的推薦列表對(duì)應(yīng)的癥狀推薦分?jǐn)?shù)相加。測(cè)試集隨機(jī)抽取5個(gè)病例數(shù)據(jù)的癥狀輸入與推薦癥狀(設(shè)置為前10個(gè))及病例數(shù)據(jù)中真實(shí)出現(xiàn)的癥狀結(jié)果如表5所示。

由表5可知,推薦的前10個(gè)癥狀基本可以涵蓋實(shí)際癥狀,僅有個(gè)別特殊關(guān)聯(lián)性較小的癥狀未被推薦,如咳嗽與大便溏的癥狀對(duì)在數(shù)據(jù)集中只有69對(duì),其互信息值較低,前10個(gè)推薦癥狀中未給出大便溏的癥狀。

為了進(jìn)一步研究不同推薦癥狀個(gè)數(shù)對(duì)推薦結(jié)果的影響,分別計(jì)算測(cè)試集中5~50個(gè)推薦癥狀的NDCG值及F1分?jǐn)?shù),結(jié)果如表6所示。

由表6可知:隨著推薦癥狀個(gè)數(shù)增多,推薦結(jié)果的NDCG值也不斷增大,說(shuō)明增加推薦癥狀個(gè)數(shù)有利于數(shù)據(jù)集中癥狀關(guān)聯(lián)性較小的癥狀推薦,可提高頻率較少的特殊關(guān)聯(lián)癥狀推薦的準(zhǔn)確度;當(dāng)推薦癥狀個(gè)數(shù)為20時(shí),F(xiàn)1分?jǐn)?shù)最高,說(shuō)明推薦癥狀個(gè)數(shù)為20時(shí),推薦效果最好。

根據(jù)上述實(shí)驗(yàn)結(jié)果,設(shè)置推薦癥狀個(gè)數(shù)為前20個(gè),在癥狀病例數(shù)據(jù)集內(nèi)計(jì)算癥狀對(duì)的互信息值,構(gòu)建互信息矩陣,推薦相關(guān)聯(lián)癥狀。實(shí)驗(yàn)采用5組輸入癥狀,最終的推薦效果如表7所示。

由表7可知,采用基于互信息的中醫(yī)癥狀推薦系統(tǒng)得到的推薦癥狀基本為輸入癥狀的相關(guān)癥狀。

3??結(jié)論

本文主要研究從臨床病例數(shù)據(jù)的癥狀提取基于互信息技術(shù)的癥狀推薦的全過(guò)程。實(shí)驗(yàn)結(jié)果表明,本文提出的基于互信息的中醫(yī)癥狀推薦系統(tǒng)可有效推薦當(dāng)前癥狀的相關(guān)聯(lián)癥狀,在醫(yī)生問(wèn)診過(guò)程中給予提示,減輕醫(yī)生因經(jīng)驗(yàn)不足而導(dǎo)致的診斷困難。同時(shí)該系統(tǒng)應(yīng)用于醫(yī)院病歷系統(tǒng),有助于醫(yī)生快速方便地記錄癥狀信息,提高病歷錄入的效率。后續(xù)研究中可不斷補(bǔ)充完善病例數(shù)據(jù)庫(kù)資源,進(jìn)一步提高系統(tǒng)的穩(wěn)定性和可靠性。

參考文獻(xiàn)

[1] 李艷,楊國(guó)慶,雙嬌月.人工智能在醫(yī)療應(yīng)用中的新進(jìn)展[J].中國(guó)醫(yī)藥導(dǎo)報(bào),2021,18(13):43-46.

[2] 陳挺木.一種疫情防控用服務(wù)機(jī)器人系統(tǒng)的設(shè)計(jì)與驗(yàn)證[J].機(jī)電工程技術(shù),2022,51(12):241-243.

[3] 劉輝,牛智有.電子鼻技術(shù)及其應(yīng)用研究進(jìn)展[J].中國(guó)測(cè)試,?2009,35(3):6-10.

[4] 任相閣,任相穎,李緒輝,等.醫(yī)療領(lǐng)域人工智能應(yīng)用的研究進(jìn)展[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2022,24(2):762-770.

[5] 文杭,黃麗,劉江,等.人工智能技術(shù)在中醫(yī)臨床診療中的應(yīng)用研究進(jìn)展[J].中國(guó)醫(yī)藥導(dǎo)報(bào),2021,18(8):42-45.

[6] 宋海貝,溫川飆,程小恩.基于AI的中醫(yī)舌象面象輔助診療系統(tǒng)構(gòu)建[J].時(shí)珍國(guó)醫(yī)國(guó)藥,2020,31(2):502-505.

[7] 余江維,余泉,張?zhí)洌?基于TF-IDF相對(duì)熵的中醫(yī)證候量化研究[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2015,17(10):1986-1991.

[8] 任晉宇,白琳,鐘華.中醫(yī)輔助診療推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 中國(guó)中醫(yī)藥圖書(shū)情報(bào)雜志,2021,45(3):1-5.

[9] XU Hailing, WU Xiao, LI Xiaodong, et al. Comparison study of Internet recommendation system[J]. Journal of Software, 2009, 20(2):350-362.

[10] 鄭誠(chéng),徐啟南,章金平.基于互信息的推薦系統(tǒng)方法研究[J]. 微電子學(xué)與計(jì)算機(jī),2018,35(12):76-79;84.

[11] 吳信朝,阮曉雯,陳遠(yuǎn)旭.一種無(wú)監(jiān)督中醫(yī)癥狀推薦方法、裝置、設(shè)備及介質(zhì):CN114743670A[P].2022-07-12.

[12] 曹靜.基于復(fù)雜網(wǎng)絡(luò)的推薦算法在中醫(yī)輔助問(wèn)診中的應(yīng)用研究[D].鎮(zhèn)江:江蘇大學(xué),2018.

[13] 李燦東.中醫(yī)診斷學(xué)[M].北京:中國(guó)中醫(yī)藥出版社,2016.

[14] 姚乃禮.中醫(yī)癥狀鑒別診斷學(xué)[M].北京:人民衛(wèi)生出版社, 2002.

[15] 朱豫川,鄭海軍,馮衛(wèi)華.常見(jiàn)癥狀鑒別診斷學(xué)[M].北京:中醫(yī)古籍出版社,2001.

作者簡(jiǎn)介:

李穎,女,1986年生,博士研究生,工程師,主要研究方向:知識(shí)圖譜和深度學(xué)習(xí)在中醫(yī)藥大數(shù)據(jù)的融合應(yīng)用。E-mail: liying@casc.ac.cn

王月,女,1996年生,碩士研究生,工程師,主要研究方向:自然語(yǔ)言處理在中醫(yī)領(lǐng)域的應(yīng)用研究。E-mail: wangyue_hit0616@163.com

郝建軍,男,1955年生,教授,主任中醫(yī)師,主要研究方向:臨床內(nèi)科和中西醫(yī)結(jié)合的臨床研究。E-mail:?2217064411@qq.com

王嘉鋒,男,1979年生,大學(xué)本科,主任中醫(yī)師,主要研究方向:中醫(yī)內(nèi)科、醫(yī)院管理。E-mail:?670097078@qq.com

猜你喜歡
互信息字符串病例
“病例”和“病歷”
一例犬中毒急診病例的診治
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
聯(lián)合互信息水下目標(biāo)特征選擇算法
改進(jìn)的互信息最小化非線性盲源分離算法
基于增量式互信息的圖像快速匹配方法
妊娠期甲亢合并胎兒甲狀腺腫大一例報(bào)告
Meckel憩室并存異位胰腺和胃黏膜并出血一例
一種新的基于對(duì)稱(chēng)性的字符串相似性處理算法
依據(jù)字符串匹配的中文分詞模型研究
朝阳区| 怀柔区| 贡觉县| 绥江县| 枝江市| 瓦房店市| 专栏| 濮阳县| 河西区| 宁国市| 大足县| 合水县| 翁牛特旗| 博兴县| 博爱县| 红原县| 岐山县| 泽普县| 文山县| 新津县| 开平市| 北票市| 镶黄旗| 广宗县| 女性| 重庆市| 威海市| 托克托县| 达日县| 莱芜市| 城步| 清河县| 上思县| 张家口市| 九龙县| 东丽区| 丽水市| 义马市| 嘉祥县| 建宁县| 嘉定区|