国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文分詞在大數(shù)據(jù)時代醫(yī)學(xué)領(lǐng)域的應(yīng)用

2018-02-26 12:23牟馨憶
電子技術(shù)與軟件工程 2018年17期
關(guān)鍵詞:自然語言處理

牟馨憶

摘要

近年來自然語言處理技術(shù)不斷發(fā)展,在生活的方方面面為人們提供了便利。而中文分詞是自然語言處理的重要組成部分,是文本處理的基礎(chǔ)。在這個數(shù)據(jù)已經(jīng)滲透到每一個角落的時代里,中文分詞與數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域應(yīng)用越來越廣泛。從抑郁癥預(yù)防干預(yù),到電子病歷數(shù)據(jù)挖掘,再到藥物研究,中文分詞的應(yīng)用使醫(yī)學(xué)更加先進、方便、快捷。

【關(guān)鍵詞】中文分詞 自然語言處理 醫(yī)學(xué)信息

1 中文分詞算法概述

中文分詞是自然語言處理、數(shù)據(jù)挖掘等信息處理領(lǐng)域的基礎(chǔ),也一直是領(lǐng)域內(nèi)研究的難點和重點。不同于英文,在中文文本中,詞與詞之間沒有空格進行分隔,無法通過簡單的字符串分割得到詞組。中文當(dāng)中易于分割的只有字、句、段,而詞語卻沒有明顯的分隔標(biāo)識。因此通過分隔符來進行中文分詞是及其困難的。中文文本的語法缺乏規(guī)范化,規(guī)則和結(jié)構(gòu)十分復(fù)雜,相同的文本用不同的分詞方法可能產(chǎn)生歧義,同時中文詞語的數(shù)量也極為龐大,并且還在不斷擴充。針對這些問題,國內(nèi)學(xué)者提出了不同的中文分詞算法。目前中文分詞的方法主要有基于文本匹配的分詞算法,基于理解的分詞算法,基于統(tǒng)計的分詞算法。近年來,隨著對中文分詞研究的深入,中文分詞的準(zhǔn)確度及速度都在不斷提高。

2 中文分詞在醫(yī)學(xué)領(lǐng)域的應(yīng)用

近年來數(shù)據(jù)挖掘技術(shù)越來越受到醫(yī)學(xué)研究人員的重視,中文分詞在醫(yī)學(xué)領(lǐng)域也得到越來越廣泛的應(yīng)用。

2.1 中文分詞用于抑郁癥預(yù)防干預(yù)

在這個發(fā)展迅速的信息時代,人們傾向于在網(wǎng)絡(luò)上抒發(fā)自己的情緒、尋求問題的答案。社交媒體(微博,facebook,twitter…)是允許用戶自創(chuàng)和交換內(nèi)容的互聯(lián)網(wǎng)應(yīng)用,是一個擁有大量數(shù)據(jù)的超集,從中能夠挖掘出用戶的的思想動態(tài)和行為傾向。對用戶的社交平臺的記錄(例如用戶所發(fā)的微博,在百度知道、貼吧上的提問)應(yīng)用中文分詞技術(shù)進行處理分析,提煉出有用的關(guān)鍵詞,能夠為對用戶心理狀態(tài)的分析和可能的動機與行為的預(yù)測提供一定的依據(jù),從而提前做好干預(yù)措施。

中文分詞在此方面的應(yīng)用的主要思想是通過網(wǎng)絡(luò)爬蟲等方法采集用戶的社交網(wǎng)絡(luò)記錄,采用一定的分詞算法進行處理,用基于向量空間模型,基于頻繁項集等短文本聚類的等方法等提煉出關(guān)鍵詞,對結(jié)果進行分析和預(yù)測。當(dāng)結(jié)果表明此用戶有抑郁的傾向時,例如:關(guān)鍵詞體現(xiàn)為“絕望”,“痛苦”,“孤獨等”,便可根據(jù)用戶信息聯(lián)系其親友、單位、學(xué)校等對其進行幫助,必要時進行心理疏導(dǎo)和治療,避免悲劇的發(fā)生。

該方法具有提取用戶心理狀態(tài)信息的能力,但仍需要完善。對微博等短文本處理提取出的關(guān)鍵詞特點不夠顯著時,需要進一步對文本進行情感分析,找出負向情感的文本記錄。再對其進行主題抽取找出關(guān)鍵詞,分析用戶的特點。

2.2 中文分詞用于電子病歷數(shù)據(jù)挖掘

電子病歷中存在著大量的數(shù)據(jù),通過中文分詞技術(shù)的應(yīng)用,挖掘出真實電子病歷中的隱含信息,對疾病與藥品進行分析,發(fā)掘有價值的信息,對于醫(yī)學(xué)研究與應(yīng)用具有重要的意義。

電子病歷中包含了患者的個人信息,和醫(yī)生的診斷、檢查結(jié)果、治療方法記錄等等醫(yī)療信息,是病人就診的全部記錄。病歷中的文本是由醫(yī)務(wù)人員錄入的,是非結(jié)構(gòu)化的數(shù)據(jù)。因為病歷文本中存在藥品名稱、疾病名稱、組織器官名稱等不常見的醫(yī)學(xué)專用詞,所以病歷文本的分詞在普通中文分詞的基礎(chǔ)上還需要進行詞典的擴充。由此,利用中文分詞進行電子病歷的數(shù)據(jù)挖掘的主要思路為:通過網(wǎng)絡(luò)爬蟲對藥品等數(shù)據(jù)進行提取,加入至自定義詞典中,使用擴充的詞典對病歷進行分詞和詞性標(biāo)注,獲得疾病和藥品的信息,再用關(guān)聯(lián)分析法對疾病和藥品進行分析。通過挖掘信息,總結(jié)出患者接受治療過程中各種藥物和治療方法所產(chǎn)生的療效,醫(yī)學(xué)研究者更容易找到易患病人群的年齡、地區(qū)等規(guī)律,既能給潛在發(fā)病者預(yù)防的契機,也能給醫(yī)生接診相似病例帶來一定的參考價值,為醫(yī)學(xué)研究提供一定的思路,推動醫(yī)學(xué)的智能系統(tǒng)的發(fā)展。

用中文分詞進行電子病歷挖掘的難點在于自動分詞的準(zhǔn)確性,基于詞典的方法和基于有監(jiān)督機器學(xué)習(xí)的方法是目前的主流方法,但是中文病歷還目前還缺乏有針對性的、完整的專業(yè)領(lǐng)域詞典,僅僅靠網(wǎng)頁數(shù)據(jù)的提取和人工標(biāo)注語料難以完全解決未登錄詞的問題。針對此問題,哈爾濱工業(yè)大學(xué)的張立邦等學(xué)者提出了基于無監(jiān)督學(xué)習(xí)的方法,通過EM算法從生語料中估計詞的出現(xiàn)概率,利用字串的左右分支信息嫡構(gòu)建良度,將未登錄詞識別轉(zhuǎn)化為最優(yōu)化問題,在未登錄詞的識別上取得了較好的效果,但精度還能夠繼續(xù)完善。如何提高無監(jiān)督學(xué)習(xí)的準(zhǔn)確率,是未來需要解決的問題。

2.3 中文分詞用于藥物研究

近年來,中文分詞在藥物研究領(lǐng)域也得到了越來越多的應(yīng)用。以中藥的研究為例,通過對古今文獻的文本挖掘,能夠總結(jié)出一定的用藥規(guī)律,例如各種藥材的搭配比例。中草藥材的名稱不是常見詞語,需要擴充進詞典中,擴充的方法可以是網(wǎng)頁信息提取,人工輸入詞典或者語料庫加工。通過對某一癥狀的用藥記錄進行分詞,統(tǒng)計出各種藥材的使用頻次以及用量比例,能夠挖掘出治療效果最佳的藥材配方。

目前在藥物研究方面主要面臨著藥材同物異名的問題,這是地域、時代差異所導(dǎo)致的。這會使分詞的準(zhǔn)確率降低,無法進行正確的統(tǒng)計和分析。由此需要對同一藥材的多個名稱進行合并同一處理,不同炮制方法炮制的同一藥材被當(dāng)做兩種藥材也需要單獨標(biāo)記處理。

3 結(jié)語

在這個大數(shù)據(jù)時代,數(shù)據(jù)挖掘、自然語言處理是使醫(yī)學(xué)走向信息化、現(xiàn)代化的重要保障,中文分詞技術(shù)是其基石。充分利用中文分詞技術(shù),進行數(shù)據(jù)挖掘,能夠?qū)τ行睦碚系K的人群進行預(yù)判和干預(yù),能夠從電子病歷、臨床經(jīng)驗中挖掘出更多有價值的信息,能夠推動用藥的研究,對醫(yī)學(xué)的應(yīng)用和研究具有重要的意義,具有廣闊的應(yīng)用前景。正由于中文分詞的困難,目前的中文處理技術(shù)遠遠落后于英文的處理,今后還需不斷提高中文分詞的準(zhǔn)確度和速度,使之更好地服務(wù)于醫(yī)學(xué)領(lǐng)域。

參考文獻

[1]Kaplan A M,Haenlein M.Users of theworld,unite!Thechallenges andopportunities of Social Media[J].BusinessHorizons,2010(03):59-68.

[2]孟麗,李葆青,胡玲芳,張躍.中文分詞技術(shù)在社會化媒體分析中的應(yīng)用[J].中國教育技術(shù)裝備,2014(16):50-53.

[3]Lin D.An information-theoreticdefinition of similarity[C].Procof the 15th IntConf on MachineLearning(ICML' 98)San Francisco,CA:Morgan Kaufmann,1998:296-304

[4]SchiitzeH,Silverstenic.Projectionsfor efficient document clustering[C].Procof the 20th Annual Int ACM SIGIRConf on Research and Development inInformation Retrieval(SIGIR' 97).NewYork:ACM,1997:74-81

[5]Ramage D,Heymann P,Manning CD,etal.Clustering the tagged Web[C].Prof of the 2nd ACM IntConf on WebSearch and Data Mining(WSDM' 09).NewYork:ACM,2009:54-63

[6]Freeman R,Yin H.Self-organisingmaps for hierarchical treeview document clustering usingcontextual information[G].LNCS 2412:Proccof the IEEE IntJoint Conf on Neural Networks.Berlin:Springer,2002:123-1128.

[7]蘇沖,陳清才,王曉龍等.基于最大頻繁項集的搜索引擎查詢結(jié)果聚類算法[J].中文信息學(xué)報2010,24(02):58-67.

[8]Beli F,Ester M,Xu X.Frequent termbased text clustering [C].Prof of the8th ACM SIGKDD IntConf on KnowledgeDiscovery and Data Mining(KDD' 02).New York:ACM,2002:436-442.

[9]Fung BCM,Wang K,Ester M.Hierarchicaldocument clustering using frequentitemsets[C].Prof of the 3rd SIAMIntConf on Data Mining(SDM' 03).Philadelphia,PA:SIAM,2003:59-70.

[10]謝劍,周小茜,童凌,羅凌云.基于中文分詞的電子病歷數(shù)據(jù)挖掘技術(shù)[J].湖南科技學(xué)院學(xué)報,2016,37(10):55-59.

[11]張立邦,關(guān)毅,楊錦峰.基于無監(jiān)督學(xué)習(xí)的中文電子病歷分詞[J].智能計算機與應(yīng)用,2014,4(02):68-71.

[12]謝松.中文分詞系統(tǒng)在中醫(yī)藥科研中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,2014(33):9-10.

猜你喜歡
自然語言處理
基于LSTM自動編碼機的短文本聚類方法
自然語言處理與司法案例
基于組合分類算法的源代碼注釋質(zhì)量評估方法
詞向量的語義學(xué)規(guī)范化
404 Not Found

404 Not Found


nginx
淄博市| 宜兰县| 琼结县| 禹城市| 十堰市| 寻乌县| 武平县| 上高县| 逊克县| 土默特左旗| 池州市| 商都县| 安西县| 喜德县| 钟祥市| 满城县| 周至县| 通辽市| 长春市| 孟村| 惠安县| 昭苏县| 松原市| 鲁山县| 西平县| 靖西县| 仁布县| 彭山县| 昌宁县| 凌云县| 衡阳县| 玉山县| 峡江县| 海淀区| 松潘县| 桦南县| 濮阳市| 丰镇市| 云和县| 田林县| 林芝县|