基于深度表示的中醫(yī)病歷癥狀表型命名實體抽取研究＊

2018-06-21 06:25:22盧克治袁玉虎舒梓心張潤順李曉東周雪忠

世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化 2018年3期

原旎，盧克治，袁玉虎，舒梓心，楊擴，張潤順，李曉東，周雪忠＊＊

（1.北京交通大學(xué)計算機與信息技術(shù)學(xué)院北京 100044；2.湖北省中醫(yī)院武漢 430061；3.中國中醫(yī)科學(xué)院廣安門醫(yī)院北京 100053）

中醫(yī)臨床記錄通常由醫(yī)生在日常臨床診療工作中記載，其中包含大量的表型信息、檢查記錄病人的治療信息[1]。隨著現(xiàn)代化生物醫(yī)學(xué)電子病歷的快速發(fā)展，應(yīng)用現(xiàn)代技術(shù)實現(xiàn)對臨床病歷文本中數(shù)據(jù)的深度挖掘[2]，對其進行數(shù)據(jù)分析，以發(fā)現(xiàn)中醫(yī)診療規(guī)律是一項非常有價值的工作。但由于中文語言的靈活性和中醫(yī)臨床的個體化表達[3]，使得自動從中醫(yī)電子病歷數(shù)據(jù)中提取有意義的信息和知識具有挑戰(zhàn)性。

目前為止，命名實體識別技術(shù)在許多領(lǐng)域取得了顯著的成果，其F-評測值（F）已經(jīng)高達90%以上[4]，但是在生物醫(yī)學(xué)領(lǐng)域，命名實體識別的研究尚處于初級階段。因此，對生物醫(yī)學(xué)領(lǐng)域的命名實體識別的相關(guān)研究正在引起人們的重視。Wang等[5]比較了條件隨機場（Conditional Random Field，CRF），支持向量機（Support Vector Machines，SVM）和最大熵（Maximum Entropy，ME）三種機器學(xué)習(xí)算法的性能，并應(yīng)用這三種算法識別中國古代醫(yī)案中的癥狀和發(fā)病機制，發(fā)現(xiàn)CRF更具有優(yōu)勢。Wang等[6]對中醫(yī)臨床文本中的癥狀名稱的識別進行了初步研究。Xu等[7]研究提出一種將分割和命名實體識別相結(jié)合的聯(lián)合模型，以提高對出院數(shù)據(jù)的命名實體識別的性能。Zhou等[8]在中醫(yī)方面使用Bootstrapping方法自動識別中醫(yī)題錄文獻中的疾病名稱和復(fù)方名稱，取得了很好的效果。Xu等[9]應(yīng)用CD-REST提取系統(tǒng)從化學(xué)誘導(dǎo)疾病的生物醫(yī)學(xué)文獻中提取化學(xué)關(guān)系，該系統(tǒng)使用的是CRFs方法進行的化學(xué)和疾病名稱的命名實體識別。Zhang等[10]參加2015年BioCreativeV中的化學(xué)專利與藥物命名實體抽取任務(wù)，使用基于詞向量（Word embedding）的方法測試了CRF[11]和SSVM[12-13]的性能，其中CRF模型的精確度、召回率、F-測度值達到了（0.860 2、0.884 5、0.872 2），SSVM模型達到了（0.858 8、0.899 9、0.878 9）。袁玉虎等[14]用CRFs模型對中醫(yī)臨床病歷中的現(xiàn)病史部分進行癥狀術(shù)語抽取實驗，發(fā)現(xiàn)CRFs模型可以很好的實現(xiàn)文本中癥狀術(shù)語的序列標(biāo)注任務(wù)。本文將運用深度表示的方法對中醫(yī)病歷文本進行命名實體抽取的實驗，并對抽取結(jié)果進行比較與評價，實現(xiàn)對臨床上現(xiàn)病史數(shù)據(jù)的自動標(biāo)識。

1 研究方法

1.1 方法介紹

我們使用CRF和SSVM兩種機器學(xué)習(xí)算法來進行癥狀詞的實體標(biāo)識。CRF是一個經(jīng)典的基于概率圖模型的序列標(biāo)識算法。SSVM結(jié)合了CRF和SVM的優(yōu)點[15-18]，適用于命名實體抽取的任務(wù)[13]。條件隨機場和結(jié)構(gòu)支持向量機是目前為止最好的命名實體抽?。∟ER）機器學(xué)習(xí)方法。我們首先使用基于規(guī)則的方法對現(xiàn)病史句子進行規(guī)則化處理，然后基于條件隨機場和結(jié)構(gòu)化支持向量機構(gòu)建機器學(xué)習(xí)分類器。本文中，使用CRF和SSVM的Web引用作為CRF和SSVM的實現(xiàn)[15]。

條件隨機場是自然語言處理領(lǐng)域常用的算法之一，常用于句法分析、命名實體識別、詞性標(biāo)注等。CRF本質(zhì)上是隱含變量的馬爾科夫鏈和可觀測狀態(tài)的隱含變量的條件概率。以詞性變量為例，在詞性標(biāo)注中詞性標(biāo)簽就是隱含變量，具體的詞語就是可觀測狀態(tài)，詞性標(biāo)注的目的是通過可觀測到的各個單詞推斷出每個單詞應(yīng)該被賦予的詞性標(biāo)簽。

SVMHMM是用于序列標(biāo)簽的SSVM的實現(xiàn)，它可以應(yīng)用于詞性標(biāo)簽、命名實體識別、主題查找等[12,19]問題。跟過去的SVM算法相比，SVMHMM算法可以輕松的處理數(shù)百萬字或數(shù)百萬標(biāo)簽的標(biāo)注問題，可以轉(zhuǎn)換和輸出任意長度依賴性的更高階模型，其中包括用于快速近似訓(xùn)練和預(yù)測可選的搜索算法。

本文使用詞嵌入（Word embedding）方法生成詞向量，該詞向量作為CRFs和SSVM模型的輸入。在自然語言處理中，詞嵌入是語言模型集合和特征學(xué)習(xí)的集合名稱，它把字典中的詞或者短語映射為實數(shù)向量。詞嵌入把每個字轉(zhuǎn)化為更低維的數(shù)字型連續(xù)向量空間，它生成的這種映射方法包括：概率模型[20-22]、詞共現(xiàn)矩陣降維[23]、神經(jīng)網(wǎng)絡(luò)[24-25]和利用詞的上下文信息。利用詞嵌入技術(shù)作為底層輸入表示，可以提高自然語言處理任務(wù)的性能。

我們引入了新的基于圖的算法學(xué)習(xí)框架node2vec，使用它來發(fā)現(xiàn)節(jié)點的連續(xù)特征并構(gòu)建節(jié)點向量，以供下游的機器學(xué)習(xí)方法使用。node2vec最早是在自然語言處理任務(wù)中提出的。由于node2vec尋找節(jié)點的連續(xù)特征的特點，在文本中通過設(shè)置上下文窗口的大小，最終形成節(jié)點向量。我們將生成的詞向量運用于SSVM模型和CRFs模型，將其結(jié)果和基于Word embedding生成的詞向量的兩種模型進行對比分析。在Word embedding方法和node2vec方法的基礎(chǔ)上，融合命名實體抽取的模型即CRF模型和SSVM模型形成WENER方法和GENER方法。

1.2 方法框架

本次實驗的流程圖如圖1所示,在本文中引入詞嵌入方法：（1）基于規(guī)則的數(shù)據(jù)預(yù)處理：由于臨床文本本身具有半結(jié)構(gòu)化，口語化的特點，為了使其在進行命名實體抽取時能夠直接使用，我們使用Java正則表達式對現(xiàn)病史文本中的數(shù)字、時間、單位、標(biāo)點符號和特殊符號用S、TU、DU或者其組合字母代替，這種方法可以簡化句子結(jié)構(gòu)。由于在一些癥狀詞后面常常跟著不同的標(biāo)點符號或者單位信息，這些信息對于文本的提取是沒有用的，因此，在進行統(tǒng)一處理后，由字母S、TU或DU來取代這些無用的信息。（2）分詞：實驗中使用中科院提供的分詞工具（NLPIR）進行分詞，在分詞中使用的術(shù)語列表為湖北中醫(yī)藥大學(xué)課題研究組整理出的疾病癥狀詞列表；（3）特征抽?。罕緦嶒炇褂没趕kipgram模型的word2vec方法生成的詞向量和node2vec生成的詞向量，并將這兩種詞向量特征應(yīng)用到CRFs模型和SSVM模型上，進行癥狀詞的實體抽??；（4）評價指標(biāo)：針對不同特征，分析對比CRFs模型和SSVM模型的標(biāo)注性能。

1.3 評價指標(biāo)

為了評估文本序列標(biāo)記策略的可行性和引入的序列分類器在現(xiàn)病史文本中的性能，我們使用了癥狀名稱識別精確度（P）、召回率（R）和F-測評值（F）進行評估。這些評價指標(biāo)可以評估CRF算法模型和SSVM算法模型序列標(biāo)記的可行性。

圖1 深度表示的命名實體抽取框架流程圖

如圖2所示，A表示正確識別的癥狀名稱的數(shù)量，B表示未正確識別的癥狀名稱，A+B表示從現(xiàn)病史文本中抽取的實體個數(shù)，A+C表示標(biāo)準(zhǔn)病歷文本中癥狀實體個數(shù)的總數(shù)。癥狀名稱正確識別是指該癥狀詞的開始、中間、結(jié)尾部分全部被正確標(biāo)識[26]。

2 實驗數(shù)據(jù)集及相關(guān)處理

2.1 數(shù)據(jù)集

本實驗使用的數(shù)據(jù)是來自于湖北省中醫(yī)院肝病研究所的2012年到2016年肝病臨床電子病歷數(shù)據(jù)，其中包括人口學(xué)領(lǐng)域（如年齡、性別）和主要癥狀診斷數(shù)據(jù)（如現(xiàn)代疾病診斷，中醫(yī)癥候診斷），我們一共收集整理了10 426條現(xiàn)病史文本數(shù)據(jù)，并對數(shù)據(jù)進行規(guī)范化處理和長度限制分割，再使用分詞工具對現(xiàn)病史句子進行分詞。分詞以后的現(xiàn)病史句子，在基于word2vec和node2vec兩種方法上分別生成詞向量。為了避免選取的語料出現(xiàn)最佳與最差偶然性的事件，對生成的詞向量用不同的機器學(xué)習(xí)方法進行十重交叉驗證取平均值，選取其中90%的數(shù)據(jù)量作為訓(xùn)練集，10%的數(shù)據(jù)量作為測試集。

2.2 數(shù)據(jù)預(yù)處理

2.2.1 數(shù)據(jù)規(guī)范化處理

由于臨床病歷文本自身具有口語化、專業(yè)化、半結(jié)構(gòu)化的特點，因此不能直接對文本進行命名實體抽取。為了讓我們能更方便的提取到準(zhǔn)確的信息，需要用字符代替一些對文本抽取無用的信息，例如跟時間相關(guān)的詞語、用藥的劑量、標(biāo)點符號等，這些詞會對信息提取造成干擾，因此，我們可以用TU取代時間，S取代標(biāo)點符號，DU取代劑量單位。通過對現(xiàn)病史的規(guī)范化處理，可以大大地提高標(biāo)注算法的性能。表1所示為進行規(guī)范化處理前后的一個現(xiàn)病史文本句子。

圖2 評價指標(biāo)公式

2.2.2 數(shù)據(jù)長度限制處理

現(xiàn)病史是記述患者病后的全過程，即發(fā)生、發(fā)展、演變和診治經(jīng)過，包含的內(nèi)容豐富，相對來說，現(xiàn)病史的句子較長。句子過長會導(dǎo)致一個句子中涵蓋的信息過多，通過前人的研究了解到，句子過長會對命名實體抽取造成一定的影響。因此本文在進行命名實體抽取時，將現(xiàn)病史句子長度控制在一定的范圍之內(nèi)。本文在對現(xiàn)病史進行規(guī)范化處理時采用了以下處理規(guī)則：由于前期對文本進行了規(guī)范化處理，標(biāo)點符號用大寫英文字母S表示，因此可以用S來分割句子，將長的文本分割成若干個短的字符串。因為字符串的長度大部分都在50字以上，我們就以50為單位來進行分割。如果一個進行過規(guī)范化處理的文本句子長度本身就在50個字以內(nèi)，則不做任何處理。如果文本長度超過了50個字，那么我們就用50來分割。若最后剩下的字符串小于20，則將其和上一個字符串合并為一個字符串。表2是分割現(xiàn)病史長度的具體例子。

表1 現(xiàn)病史數(shù)據(jù)的規(guī)范化處理

表2 現(xiàn)病史文本的長度限制處理

表3 現(xiàn)病史分詞結(jié)果

圖3 WENER方法的CRF模型標(biāo)注性能

2.2.3 數(shù)據(jù)分詞處理

基于深度學(xué)習(xí)的方法是用word2vec和node2vec的方法生成詞向量，用生成的詞向量表示現(xiàn)病史文本內(nèi)容，因此我們首先需要對現(xiàn)病史句子進行分詞處理，其分詞結(jié)果如表3所示。

3 基于WENER方法的癥狀表型命名實體抽取方法研究

對于現(xiàn)病史數(shù)據(jù)的算法流程描述如下：首先要對現(xiàn)病史數(shù)據(jù)進行數(shù)據(jù)預(yù)處理，將現(xiàn)病史句子進行句子長度限制處理，將每個現(xiàn)病史句子分割成若干個長度在50個字左右的字符串，并對長度處理以后的句子進行分詞，將分詞后的結(jié)果作為WENER方法中詞嵌入方法的輸入文件，使用word2vec詞嵌入方法生成200維的詞向量，將生成的詞向量作為CRF模型和SSVM模型的輸入文件，測試比較兩種模型的算法性能。

如圖3所示為WENER方法的CRF模型在十重交叉驗證的評價結(jié)果，其性能的平均值分別為：精確度（0.975 0）、召回率（0.984 9）、F值（0.979 8），比傳統(tǒng)的CRF模型的命名實體抽取的性能提高8.61%，召回率提高19.8%，其F值提高了14.5%。

如圖4所示，是基于word2vec的方法生成詞向量后，使用SSVM模型在現(xiàn)病史數(shù)據(jù)文本上十重交叉驗證方法的評價結(jié)果。其十重交叉驗證的平均值分別為：精確率（0.992 8）、召回率（0.988 9）、F值（0.990 8）。這比傳統(tǒng)的基于CRF算法的命名實體抽取方法的精確度高出10.39%，召回率高出20.2%，F(xiàn)值高出15.6%。

從以上的結(jié)論可以看出，深度表示的命名實體抽取方法比傳統(tǒng)的命名實體抽取的算法性能好，其原因分析如下：由于生物醫(yī)學(xué)上命名的主觀性，癥狀名稱的命名規(guī)則不統(tǒng)一[4,27]，并且臨床病歷的文本數(shù)據(jù)是由醫(yī)生手工書寫的中文字符，具有靈活多樣性，導(dǎo)致其利用較為困難[28]，使得傳統(tǒng)的CRF模型的標(biāo)注性能要略差于WENER下的命名實體抽取算法。另外，詞嵌入方法能夠隨意選擇特征的維數(shù)，并且不需要人為干預(yù)，與傳統(tǒng)的方法相比，能更好的利用詞的上下文特征。但是WENER方法依賴于分詞后的結(jié)果，而領(lǐng)域知識會影響到分詞系統(tǒng)的分詞效果，從而影響到命名實體識別系統(tǒng)的性能。

從表4中可以看到，雖然WENER方法中的SSVM模型和CRF模型的均值和標(biāo)準(zhǔn)差相差不大，但是SSVM模型的F值比CRF模型的F值有所提高。SSVM模型的性能比CRF的性能好是因為CRF模型是一種有代表性的序列標(biāo)注算法，它是一種有辨識度的無向概率圖判別模型[28]，而SSVM模型是基于結(jié)構(gòu)數(shù)據(jù)的最大化決策邊界模型[12]，如序列、二分圖和樹。SSVM模型結(jié)合了CRF算法和SVM算法的優(yōu)點，適用于序列標(biāo)注問題[15]。因此，SSVM模型的F值通常要比CRF模型的F值高[15-18,29]。

4 基于GENER方法的癥狀表型命名實體抽取方法研究

GENER方法是基于網(wǎng)絡(luò)嵌入方法node2vec生成的詞向量，其算法流程如下：首先構(gòu)建node2vec的網(wǎng)絡(luò)結(jié)構(gòu)圖，通過隨機游走的方式生成200維的詞向量，然后將生成的詞向量作為CRF和SSVM模型的輸入文件，最后計算CRF和SSVM兩種模型的評價指標(biāo)。其訓(xùn)練集和測試集同樣使用肝病現(xiàn)病史文本數(shù)據(jù)，并對肝病現(xiàn)病史數(shù)據(jù)進行長度限制處理和分詞處理。在分詞過程中，我們根據(jù)中文粒度的不同，將分別構(gòu)建基于字和基于詞特征的網(wǎng)絡(luò)，并測試不同網(wǎng)絡(luò)之間GENER方法的標(biāo)注性能。

（1）基于詞特征的GENER方法的實驗結(jié)果分析

從圖5所示可知，GENER方法的CRF模型的性能評價結(jié)果的平均值分別為精確度（0.950 1）、召回率（0.950 8）、F值（0.950 4）。相比傳統(tǒng)的CRF模型的性能精確度、召回率、F值分別提高了6.12%、16.39%、11.56%。

圖4 WENER方法的SSVM模型標(biāo)注性能

表4 WENER方法下的CRF方法和SSVM方法的性能對比

圖5 GENER方法CRF模型基于詞特征的標(biāo)注性能

圖6 GENER方法的SSVM模型基于詞特征的標(biāo)注性能

表5 GENER方法下基于詞特征的CRF模型和SSVM模型的性能對比

從圖6中可以看出，GENER方法在SSVM模型上的標(biāo)注性能結(jié)果的平均值為：精確度（0.983 3）、召回率（0.974 5）、F值（0.978 8）。結(jié)果比傳統(tǒng)的基于CRF的命名實體抽取算法的精確度高出9.44%，召回率高出18.76%，F(xiàn)值高出14.4%。

GENER方法在基于詞特征下的CRF模型和SSVM模型的性能的對比結(jié)果分析如表5所示。

從表5可以看出，在GENER方法下的基于詞特征的CRF模型和SSVM模型的評價指標(biāo)的對比，發(fā)現(xiàn)SSVM模型的F值比CRF模型的F值高0.36%，說明在基于網(wǎng)絡(luò)嵌入方法提取的特征上，雖然CRF和SSVM的F值相差不大，但是SSVM模型的性能還是要優(yōu)于CRF模型的性能。

圖7 GENER方法的CRF模型基于字特征的標(biāo)注性能

圖8 GENER方法的SSVM模型基于字特征的標(biāo)注性能

表6 GENER方法下基于字特征的CRF模型和SSVM模型的性能對比

（2）基于字特征的GENER方法的實驗結(jié)果及分析

在基于字特征的GENER方法下的CRF模型和SSVM模型的評價結(jié)果如圖7和圖8所示。

從表6可以看出，SSVM模型的精確度要比CRF模型的精確度高1.59%，召回率高8.4%，F(xiàn)值高5.34%。

無論是基于字還是基于詞的GENER方法，SSVM模型的精確率、召回率和F值與CRF模型相差不大，但是SSVM的性能指標(biāo)要略高于CRF模型的性能。再次驗證了對于SSVM模型和CRF模型在不同領(lǐng)域的比較，SSVM模型的性能通常優(yōu)于CRF模型的性能。

5 討論

在本文的研究中，我們提出了基于深度表示的中醫(yī)病歷中癥狀表示的命名實體抽取方法，CRF和SSVM兩種算法模型，實驗結(jié)果表示，深度表示的命名實體抽取性能要明顯高于傳統(tǒng)的命名實體抽取算法CRF模型的性能。傳統(tǒng)的非深度表示的命名實體抽取算法（CRF算法）的F值為0.834 8，而深度表示的算法的F值分別為（0.979 8，0.990 8，0.975 2，0.887 9，0.978 8,0.941 3），因此，其性能比傳統(tǒng)的非深度表示的命名實體抽取的算法性能好；而對于同一種詞向量特征下，SSVM模型的F值要比CRF模型的F值高。例如，在WENER方法下，SSVM的F值是0.990 8，而CRF的F值為0.979 8，SSVM的性能要高于CRF模型一個百分點。通過對不同的詞向量特征的比較發(fā)現(xiàn)，基于word2vec生成的詞向量下的CRF和SSVM模型的性能要高于基于node2vec生成的詞向量下的CRF和SSVM模型的性能。另外，SSVM模型與CRF模型在基于詞的網(wǎng)絡(luò)嵌入方法特征上的性能比基于字的網(wǎng)絡(luò)嵌入方法特征上的性能好，基于詞的網(wǎng)絡(luò)嵌入只有兩種判別類型，即是否為癥狀表型術(shù)語。而基于字的網(wǎng)絡(luò)判別類型三種：“B-S”、“E-S”、“O”。基于字的判別類型增加需要做出更多的判斷，可能造成性能的下降。而且，基于字的特征使得特征粒度減小，特征信息降低，而基于詞的特征粒度比基于字的粒度大，特征信息較強。

1 Jensen P B,Jensen L J,Brunak S.Mining electronic health records:towards better research applications and clinical care.Nat Rev Gen,2012,13(6):395.

2 劉凱,周雪忠,于劍,等.基于條件隨機場的中醫(yī)臨床病歷命名實體抽取.計算機工程,2014(9):312-316.

3 Feng L,Zhou X,Qi H,et al.Development of large-scale TCM corpus using hybrid named entity recognition methods for clinical phenotype detection:An initial studyComputational Intelligence in Big Data,2015.

4 王世昆,李紹滋,陳彤生.基于條件隨機場的中醫(yī)命名實體識別.廈門大學(xué)學(xué)報(自然版),2009,48(3):359-364.

5 Wang S K,Shao-Zi L I,Chen T S.Recognition of Chinese Medicine Named Entity Based on Condition Random Field.J Xiam Univ,2009,48(3):359-364.

6 Wang Y,Liu Y,Yu Z,et al.A preliminary work on symptom name recognition from free-text clinical records of traditional chinese medicine using conditional random fields and reasonable features.The Workshop on Biomedical Natural Language Processing,2012.

7 Xu Y,Wang Y,Liu T,et al.Joint segmentation and named entity recognition using dual decomposition in Chinese discharge summaries.J Am Med Inform Ass,2014,21:e84.

8 Zhou X,Wu L Z,Yi F.Integrative mining of traditional Chinese medicine literature and MEDLINE for functional gene networks.Artif Intell Med,2007,41(2):87-104.

9 Xu J,Wu Y,Zhang Y,et al.CD-REST:a system for extracting chemical-induced disease relation in literature.Database the Journal of Biological Databases&Curation,2016,baw036.

10 Zhang Y,Xu J,Hui C,et al.Chemical named entity recognition in patents by domain knowledge and unsupervised feature learning.Database the Journal of Biological Databases&Curation,2016:baw049.

11 Andrew G,Gao J.Scalable training of L1-regularized log-linear models,2007.

12 Tsochantaridis I,Joachims T,Hofmann T,et al.Large Margin Methods for Structured and Interdependent Output Variables.J Mach Learn Res,2005,6(2):1453-1484.

13 Bakir G,Hofmann T,Sch?lkopf B,et al.Support Vector Machine Learning for Interdependent and Structured Output SpacesInternational Conference on Machine Learning.ACM,2004.

14 袁玉虎,周雪忠,張潤順,等.面向中醫(yī)臨床現(xiàn)病史文本的命名實體抽取方法研究.世界科學(xué)技術(shù):中醫(yī)藥現(xiàn)代化,2017,19(1):70-77.

15 Tang B,Feng Y,Wang X,et al.A comparison of conditional random fields and structured support vector machines for chemical entity recognition in biomedical literature.J Cheminformatics,2015,7(S1):1-6.

16 Zhang Y,Wang J,Tang B,et al.UTH_CCB:A report for SemEval 2014-Task 7 Analysis of Clinical Text.International Workshop on Semantic Evaluation,2014.

17 Tang B,Wu Y,Jiang M,et al.A hybrid system for temporal information extraction from clinical text.J Am Med Inform Ass Jamia,2013,20(5):828-835.

18 Balamurugan P,Shevade S,Sundararajan S,et al.An Empirical Evaluation of Sequence-Tagging Trainers.Computer Science,2013.

19 Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and their Compositionality.Adv Neur Inform Process Sys,2013,26:3111-3119.

20 Lebret R,Collobert R.Word Emdeddings through Hellinger PCA.Computer Science,2014.

21 Levy O,Goldberg Y.Neural word embedding as implicit matrix factorization.Adv Neur Inform Process Sys,2014,3:2177-2185.

22 Li Y,Xu L,Tian F,et al.Word embedding revisited:a new representation learning and explicit matrix factorization perspectiveInternational Conference on Artificial Intelligence,2015.

23 Globerson A,Chechik G,Pereira F,et al.Euclidean Embedding of Cooccurrence Data.J Mach Learn Res,2007,8(4):2265-2295.

24 Levy O,Goldberg Y.Linguistic Regularities in Sparse and Explicit Word Representations.Eighteenth Conference on Computational Natural Language Learning,2014.

25 AlexRudnicky.Can Artificial Neural Networks Learn Language Models?.Proc Int Conf Spok Lang Proc.2000:202-205.

26 Wang Y,Yu Z,Chen L,et al.Supervised methods for symptom name recognition in free-text clinical records of traditional Chinese medicine:an empirical study.J Biomed Inform,2013,47(2):91-104.

27 胡俊鋒,陳蓉,陳源,等.一種松耦合的生物醫(yī)學(xué)命名實體識別算法.計算機應(yīng)用,2007,27(11):2866-2869.

28 Lafferty J,Mccallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data.Eight Int Conf Mach Learn,2002,53(2):282-289.

29 Lei J,Tang B,Lu X,et al.A comprehensive study of named entity recognition in Chinese clinical text.J Am Med Inform Ass,2014,21(5):808-814.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡