国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向醫(yī)療社交媒體的用戶評論情感分析研究

2017-01-12 08:48:32孫二冬
關鍵詞:分類器社交分類

孫二冬 ,王 剛,2

(1.合肥工業(yè)大學 管理學院,安徽 合肥 230009;2.過程優(yōu)化與智能決策教育部重點實驗室,安徽 合肥 230009)

面向醫(yī)療社交媒體的用戶評論情感分析研究

孫二冬1,王 剛1,2

(1.合肥工業(yè)大學 管理學院,安徽 合肥 230009;2.過程優(yōu)化與智能決策教育部重點實驗室,安徽 合肥 230009)

針對已有的文本情感分析方法并沒有關注到醫(yī)療社交媒體中用戶評論數(shù)據(jù)呈現(xiàn)非均衡分布的問題,將非均衡數(shù)據(jù)分類方法應用于醫(yī)療社交媒體用戶評論情感分析研究中,該方法主要包括基于取樣的方法和基于集成學習的方法,分別從數(shù)據(jù)層面和算法層面來解決醫(yī)療社交媒體中數(shù)據(jù)非均衡分布問題。與其他的方法相比,Random Subspace方法取得了最好的分類效果。實驗結果驗證了非均衡數(shù)據(jù)分類方法在醫(yī)療社交媒體用戶評論情感分析中應用的有效性。

醫(yī)療社交媒體;非均衡數(shù)據(jù)分類;文本情感分析;集成學習

一、引 言

隨著互聯(lián)網(wǎng)技術的迅速發(fā)展和廣泛普及,其已成為人們生活中必不可少的組成部分。根據(jù)最新的《中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告》顯示,截至2015年6月,我國網(wǎng)民規(guī)模已達6.68億,互聯(lián)網(wǎng)普及率為48.8%[1]?;ヂ?lián)網(wǎng)技術的迅速發(fā)展和廣泛普及推動了微博、論壇和貼吧等社交媒體的發(fā)展,在這些社交媒體上,用戶可以自由發(fā)布和傳播信息、分享觀點和經(jīng)驗,于是產(chǎn)生了大量用戶生成的主觀性文本。這些主觀性文本包含著用戶觀點、意見和態(tài)度等情感信息,對于互聯(lián)網(wǎng)用戶有著重要的作用[2][3]。例如電子商務網(wǎng)站中的商品評論可以幫助消費者了解到商品的質量和品質等信息,以及其他消費者對商品的態(tài)度傾向,從而輔助他們做出購買決策。

與電子商務領域的社交媒體類似,醫(yī)療社交媒體上也存在著大量用戶生成的主觀性文本,例如患者根據(jù)自己的就診經(jīng)歷,通過醫(yī)療社交媒體對醫(yī)院、醫(yī)生或者藥品等發(fā)表評論。一方面,患者可以從這些主觀性文本中了解到其他患者在治療方面的心得體會,以及他們對治療過程中的醫(yī)院、醫(yī)生和藥品的態(tài)度傾向,以此來幫助患者做出正確的治療決策。另一方面,醫(yī)院、醫(yī)生或者藥品的生產(chǎn)商也可以從患者反饋的信息中受益[4][5][6]。例如醫(yī)院可以根據(jù)這些主觀性評論文本來改善服務質量,提高醫(yī)院的知名度;醫(yī)生可以根據(jù)患者的評論,認識自身在行醫(yī)中的不足,積極改善服務水平,來緩解當下緊張的醫(yī)患關系;藥品生產(chǎn)商可以根據(jù)醫(yī)療社交媒體上的用戶對藥品的反饋信息,如藥品的副作用等,對藥品進行改進。因此,在醫(yī)療社交媒體上,這些用戶生成的主觀性文本同樣對用戶有著重要的作用。隨著醫(yī)療社交媒體的廣泛普及,醫(yī)療社交媒體上的主觀性文本的數(shù)量急劇增加,僅靠人工方法來處理和分析這類主觀性文本需要耗費大量的人力和時間。因此,如何利用計算機來分析和挖掘醫(yī)療社交媒體中用戶的立場、觀點、情緒等情感信息,進而對醫(yī)療社交媒體中用戶的情感傾向做出判斷,已成為當前迫切需要解決的問題,而文本情感分析技術正是解決這一問題的有效工具[3]。

從應用角度看,已有研究者將文本情感分析技術應用到醫(yī)療社交媒體中,對醫(yī)療社交媒體上用戶關于醫(yī)療機構、醫(yī)生以及藥品的評論文本進行分析。XiaL,Gentile AL,MunroJ(2009)使用文本情感分析技術將Patient Opinion 論壇中,患者對當?shù)蒯t(yī)療服務機構的評論文本進行分類,從而幫助相關醫(yī)療機構有針對性地改善醫(yī)療服務質量,引導患者選擇優(yōu)質的醫(yī)療資源。Alemi F,Torii M,ClementzL (2012)使用文本情感分析技術分析患者對醫(yī)生的評價,了解患者產(chǎn)生不滿的原因,進而改善醫(yī)生服務的不足之處,提升患者的滿意度,促進醫(yī)患關系的和諧穩(wěn)定。Na JC,Kyaing W(2012)使用文本情感分析技術對醫(yī)療論壇中患者對藥品的評論進行分析,確定使用者對該藥品的情感傾向,有助于其他患者了解藥品的治療效果,指導他們正確購買和使用藥品[6]。從研究方法角度看,與其他領域相類似,醫(yī)療社交媒體中的文本情感分析技術也主要可以分為基于情感知識的方法和基于機器學習的方法[2]。其中,基于情感知識的方法主要通過利用現(xiàn)有的情感詞典和語言知識來對醫(yī)療社交媒體中的主觀性文本的情感傾向進行分類,如POS Tragger,General Inquire,SentiWordNet等。基于情感知識的方法主要以自然語言處理為基礎,由于基于情感知識的文本情感分類方法需要事先構建情感知識庫,這大大限制了這類方法的進一步發(fā)展[7]。因此,基于機器學習的方法受到了越來越多研究者的關注。基于機器學習的方法主要是利用機器學習中的分類方法,來對醫(yī)療社交媒體中的主觀性文本包含的情感進行分析。其主要包括兩個步驟[3][8]:首先,對于醫(yī)療社交媒體中文本情感分析的特征構建,目前使用最多的特征構建方法是基于詞袋(Bag-of-Words)的框架下進行的,在詞袋的框架下,醫(yī)療社交媒體中的主觀性文本被看作是無序詞匯的集合,主要使用N-gram作為詞語特征。也有研究者通過借鑒自然語言處理技術,將那些被詞袋忽略的復雜特征添加到文本分類的樣本特征中,如否定詞、詞性等。但這些方法不僅沒有明顯提高分類器的分類精度,而且需要對樣本數(shù)據(jù)進行復雜的預處理操作,在訓練分類器時延長了學習時間。其次,使用NB (Naive Bayes)、ME (Maximum Entropy)和SVM (Support Vector Machine)等分類方法對醫(yī)療社交媒體中的主觀性文本進行分類。

目前,雖然基于機器學習的方法對于醫(yī)療社交媒體中的文本情感分析問題,已經(jīng)取得了較好的分類結果,但是對醫(yī)療社交媒體中用戶評論數(shù)據(jù)呈現(xiàn)非均衡的特點關注不足。已有的大多數(shù)經(jīng)典機器學習方法,一般都是基于數(shù)據(jù)類別分布均衡的假設,而在醫(yī)療社交媒體的用戶評論中,經(jīng)常會遇到數(shù)據(jù)類別分布非均衡的問題[9]。如果直接將這些傳統(tǒng)的分類方法應用于醫(yī)療社交媒體的非均衡數(shù)據(jù)分類問題,往往會將少數(shù)類樣本誤分為多數(shù)類。然而,在醫(yī)療社交媒體的非均衡數(shù)據(jù)分類問題中,少數(shù)類往往是關注的重點,對少數(shù)類的誤分會給患者帶來巨大的損失。為此,本文根據(jù)醫(yī)療社交媒體中用戶評論數(shù)據(jù)分布非均衡的特點,將非均衡數(shù)據(jù)分類方法應用于醫(yī)療社交媒體用戶評論情感分析研究中。非均衡數(shù)據(jù)分類方法主要包括基于取樣的方法和基于集成學習的方法[9],其中基于取樣的方法主要從數(shù)據(jù)層面來改變醫(yī)療社交媒體中用戶評論數(shù)據(jù)的非均衡分布,以降低數(shù)據(jù)的非均衡程度,進而減少數(shù)據(jù)非均衡分布給分類器帶來的負面影響;而基于集成學習的方法主要從算法層面來解決數(shù)據(jù)非均衡分布問題,提出新的適應非均衡分布數(shù)據(jù)的分類器,通過訓練多個分類器并將其結果進行整合,從而獲得比單個分類器更好的分類效果。為了驗證非均衡數(shù)據(jù)分類方法對醫(yī)療社交媒體上用戶評論文本情感分類的有效性,我們分別從快速問醫(yī)生和Ask A Patient網(wǎng)站上抓取用戶對藥品的評論數(shù)據(jù)進行實驗,實驗結果表明,非均衡數(shù)據(jù)分類方法總體上比傳統(tǒng)方法取得的分類結果要好,基于集成學習的方法在所有數(shù)據(jù)集上取得的分類結果都高于基于取樣的方法取得的分類結果,并且Random Subspace方法取得了比其他分類方法都好的實驗結果。

二、醫(yī)療社交媒體中基于非均衡數(shù)據(jù)分類的用戶評論情感分析研究

(一)醫(yī)療社交媒體中用戶評論情感分析的研究框架

互聯(lián)網(wǎng)技術的不斷普及促進了醫(yī)療社交媒體的出現(xiàn),醫(yī)療社交媒體已成為用戶及時發(fā)布新的醫(yī)療相關知識、實現(xiàn)網(wǎng)絡互動的交互平臺,如丁香園、醫(yī)脈通、快速問醫(yī)生等[10]。越來越多的用戶樂于在這些醫(yī)療社交媒體平臺上分享自己在就醫(yī)過程中的觀點和體驗,因而產(chǎn)生了大量用戶生成的主觀性文本,這類包含著用戶情感信息的主觀性文本為醫(yī)療社交媒體上的用戶、醫(yī)院、醫(yī)務人員和藥品生產(chǎn)商等提供了豐富的決策參考信息,成為其工作和生活中重要的信息來源。因此,如何準確地對醫(yī)療社交媒體上的用戶評論文本中所包含的情感信息進行分析,已經(jīng)成為當前研究的熱點問題之一。

本文考慮到醫(yī)療社交媒體中用戶評論數(shù)據(jù)呈現(xiàn)非均衡的特點,將非均衡數(shù)據(jù)分類方法應用于醫(yī)療社交媒體用戶評論情感分析中,主要分為四個步驟:第一步,從醫(yī)療社交媒體上獲取用戶評論作為實驗數(shù)據(jù)集;第二步,對從醫(yī)療社交媒體上獲取的用戶評論文本數(shù)據(jù)進行數(shù)據(jù)預處理;第三步,使用非均衡數(shù)據(jù)分類方法對醫(yī)療社交媒體上的用戶評論文本數(shù)據(jù)進行分類;第四步,使用評價指標分析比較各個非均衡數(shù)據(jù)分類方法對醫(yī)療社交媒體中用戶評論情感分類的效果。醫(yī)療社交媒體中用戶評論情感分析的研究框架如圖1所示。

圖1 醫(yī)療社交媒體中用戶評論情感分析的研究框架

(二)數(shù)據(jù)獲取和預處理

為了對醫(yī)療社交媒體上的用戶評論進行情感分析,需要獲取相關醫(yī)療社交媒體上的用戶評論文本。同時,為了方便后續(xù)對醫(yī)療社交媒體上的用戶情感進行分類,需要對醫(yī)療社交媒體上的用戶評論文本進行數(shù)據(jù)預處理,這些數(shù)據(jù)預處理工作對分類結果的準確性有著重要的作用。

第一步,為了保證實驗的有效性,本文分別從國內(nèi)外知名的醫(yī)療社交媒體上獲取用戶評論文本作為實驗數(shù)據(jù),目前數(shù)據(jù)獲取主要有兩種方法[10]:一種是通過開放接口(OpenAPI),另一種是通過網(wǎng)絡爬蟲技術[11]。為了更加方便、有效地獲取數(shù)據(jù),本研究使用自己編寫的網(wǎng)絡爬蟲程序來獲取醫(yī)療社交媒體上的用戶評論。

第二步,由于醫(yī)療社交媒體上的用戶評論文本都是非結構化的數(shù)據(jù),不便于直接使用機器學習的方法對醫(yī)療社交媒體上的用戶評論文本進行分類,所以必須對獲取的非結構化用戶評論文本數(shù)據(jù)進行預處理。只有通過數(shù)據(jù)預處理工作將醫(yī)療社交媒體上的用戶評論文本表示成分類特征,才能使用機器學習的方法對文本情感進行分類。在本研究中,數(shù)據(jù)預處理工作主要包括以下幾個步驟:第一,對醫(yī)療社交媒體上的用戶評論數(shù)據(jù)進行篩選,剔除評論數(shù)據(jù)中重復出現(xiàn)的評論,在此基礎上,剔除不一致的評論,有些評論內(nèi)容是正面的,但是用戶給的卻是差評,而有些評論內(nèi)容是負面的,用戶卻給好評,這類評論會對分類方法的有效性產(chǎn)生巨大的影響;最后,剔除用戶評論文本長度小于20個字節(jié)的評論。第二,文本預處理主要包括分詞、詞型轉換、去除標點符號、去除停用詞等操作。首先,對于醫(yī)療社交媒體中的英文評論文本,由于英文單詞間存在空格和標點符號,所以不需要進行分詞處理;但英文中存在時態(tài)和人稱的區(qū)別,需要利用stem方法對醫(yī)療社交媒體上的英文評論文本中的詞型進行轉換,如將does、did、done、doing統(tǒng)一轉換成do;在此基礎上,去除標點符號和停用詞,這些標點符號和停用詞出現(xiàn)頻率較高會給分類帶來噪音,因此需要剔除這些無用的詞條來降低特征維度,提高分類精度。其次,對于醫(yī)療社交媒體中的中文評論文本,需要使用中文分詞工具進行分詞處理,將連貫的文檔分割成詞的列表,本文利用中國科學院計算機所編寫的中文分詞工具ICTCLAS對醫(yī)療社交媒體上中文文本進行分詞;由于中文動詞與時態(tài)和人稱無關,所以不需要詞型轉換操作;而中文評論文本中同樣存在大量標點符號和停用詞,因此需要去除標點符號和停用詞操作,以此來提高分類器的分類精度。第三,把醫(yī)療社交媒體中的用戶評論文本表示成特征向量,這樣才能使用機器學習的方法對用戶評論文本進行分類。本研究采用已被其他研究廣泛使用的Tri-gram方法來表示醫(yī)療社交媒體中的用戶評論文本,并采用TF-IDF的方法來計算權重[3][13]。

(三)數(shù)據(jù)分類和結果分析

醫(yī)療社交媒體中用戶評論數(shù)據(jù)大多是分布非均衡的,而傳統(tǒng)機器學習的分類方法都是假定在類別分布大致相當情況下進行的,對于醫(yī)療社交媒體中用戶評論數(shù)據(jù)分布非均衡的特點關注較少,易造成對少數(shù)類別分類精度不高的問題。為此,本文運用非均衡數(shù)據(jù)分類方法對醫(yī)療社交媒體中的用戶評論情感進行分類,并對其分類結果進行分析。

第一步,使用非均衡數(shù)據(jù)分類方法對醫(yī)療社交媒體上的用戶評論文本數(shù)據(jù)進行分類。目前,主要有兩類基于機器學習的方法來解決非均衡數(shù)據(jù)分類問題,分別為基于取樣的方法和基于集成學習的方法[9][13]。基于取樣的方法主要是從醫(yī)療社交媒體中用戶評論的數(shù)據(jù)層面來解決非均衡數(shù)據(jù)的分類問題,其中,隨機取樣法是基于取樣的方法中較為常用的方法,其主要包括欠隨機取樣法(Under Sampling)和過隨機取樣法(Over Sampling)[9][13]。欠隨機取樣法通過減少醫(yī)療社交媒體中多數(shù)類的樣本數(shù)量,以此來提高少數(shù)類的分類精度,最簡單的方法就是隨機地過濾掉醫(yī)療社交媒體中部分多數(shù)類樣本,從而減小多數(shù)類的樣本規(guī)模,其存在的主要缺陷是無法充分利用多數(shù)類樣本中的信息,丟失了多數(shù)類中包含的一些重要信息。而過隨機取樣法主要通過增加醫(yī)療社交媒體中少數(shù)類的樣本數(shù)量,以此來提高少數(shù)類的分類精度,最簡單的方法就是隨機復制醫(yī)療社交媒體中的少數(shù)類樣本,該方法存在的主要缺陷是并沒有給醫(yī)療社交媒體中的少數(shù)類添加新的樣本,隨機添加的少數(shù)類樣本數(shù)據(jù)會增加分類器的訓練時間,并且可能會導致過度擬合。由于以上兩種方法都存在各自的缺陷,基于生成樣本的取樣方法受到了越來越多研究者的關注,其中SMOTE(Synthetic Minority Over-sampling Technique)方法是最常用的方法之一[14]。SMOTE方法假設少數(shù)類樣本間距離較近的樣本標簽與少數(shù)類的樣本標簽一致,其主要思想是通過相距較近的少數(shù)類樣本來“合成”新的少數(shù)類樣本,以此來縮小醫(yī)療社交媒體中多數(shù)類和少數(shù)類樣本數(shù)量的差距。由于SMOTE方法添加的少數(shù)類樣本并不存在于原始數(shù)據(jù)中,因此,可以避免取樣存在的過度擬合問題。

基于集成學習的方法作為非均衡數(shù)據(jù)分類的重要方法之一,近年來受到了研究者的廣泛關注?;诩蓪W習的方法針對醫(yī)療社交媒體中的非均衡數(shù)據(jù)分類問題使用多個學習器進行學習,并將各個分類器的結果進行集成,從而獲得比單個學習器更好的分類效果[12][15]。與單個學習器相比,基于集成學習的方法的泛化能力更強,能更好地解決醫(yī)療社交媒體中的非均衡數(shù)據(jù)分類問題。目前,已有很多基于集成學習的方法,主要包括基于數(shù)據(jù)劃分的方法和基于特征劃分的方法。其中基于數(shù)據(jù)劃分的方法主要通過對醫(yī)療社交媒體中的訓練樣本進行處理,以此來產(chǎn)生多個訓練集,分類器每次使用一個訓練集,并運行多次,該方法主要包括Bagging和Boosting等。而基于特征劃分的方法主要對樣本的特征進行劃分,生成多個特征子集,用作各個分類器訓練的輸入向量,該方法主要包括Random Subspace等。

Bagging方法的思想是從醫(yī)療社交媒體中的原始訓練集中有放回地抽取若干樣本,組成各個分類器的訓練集,并且各個分類器的訓練集數(shù)量與原始訓練集數(shù)量大致相等[12][15]。因此,原始訓練集中的部分樣本可能在各個分類器的訓練集中重復出現(xiàn),而一部分樣本可能一次也不出現(xiàn)。Bagging方法通過有放回地抽取訓練集,以此來增加各個分類器的差異性,從而提高了Bagging方法的泛化能力。

Boosting方法的思想是對醫(yī)療社交媒體中的原始訓練集中易被誤分的訓練樣本進行強化學習,首先給訓練集中的每個訓練樣本賦予相等的權重,然后利用訓練的學習器對這些訓練樣本進行測試,提高易被誤分的訓練樣本的權重,降低易被正確分類的訓練樣本的權重[12][15]。Boosting方法可以產(chǎn)生一系列的分類器,每個分類器的訓練集取決于其之前產(chǎn)生的分類器的分類性能,那些容易被誤分的樣本將以較大的概率出現(xiàn)在下一個分類器的訓練集中,因此新的分類器能夠很好地處理那些易被誤分的樣本。雖然Boosting方法具有較強的泛化能力,但是該方法可能過度偏向一些特別難分的樣本,因此Boosting方法的穩(wěn)定性較差,對噪聲數(shù)據(jù)較為敏感。Boosting是一類集成學習方法的總稱,其中AdaBoosting方法是Boosting方法中最為廣泛應用的方法。 與Bagging方法和Boosting方法不同,Random Subspace方法屬于基于特征劃分的集成學習方法,該方法首先從原始特征集中隨機選取一些特征構成多個不同的特征子集,然后在經(jīng)過不同特征子集過濾后的數(shù)據(jù)集上訓練,得到多個分類器,最后使用某種規(guī)則對分類器的結果進行集成[12][15]。由于Random Subspace方法對訓練集中的樣本特征進行劃分,因此Random Subspace方法較適用于特征維度較高的分類問題,比如文本分類。

第二步,本文采用AUC作為評價指標對非均衡數(shù)據(jù)分類方法的分類結果進行分析,主要是因為醫(yī)療社交媒體中用戶評論數(shù)據(jù)呈現(xiàn)非均衡的特點,傳統(tǒng)的評價指標已經(jīng)不能很好地反映分類器的分類性能,并且在非均衡數(shù)據(jù)分類領域中,目前普遍采用的是AUC指標。本文實驗設計部分將對AUC評價指標做詳細介紹。

三、實驗設計

(一)實驗數(shù)據(jù)

為了驗證非均衡數(shù)據(jù)分類方法對醫(yī)療社交媒體用戶評論情感分類的有效性,同時考慮到中英文文本之間的差異性,本研究分別從國內(nèi)外知名的醫(yī)療社交媒體上獲取用戶對藥品的評論作為語料庫。其中,對于中文用戶評論文本,本文從快速問醫(yī)生網(wǎng)站上(120ASK)獲取部分藥品的評論作為中文數(shù)據(jù)集;對于英文用戶評論文本,本文從Ask A Patient上獲取評論數(shù)量排名前五的藥品評論作為五個英文數(shù)據(jù)集。對獲取的六個數(shù)據(jù)集進行數(shù)據(jù)預處理操作,得到的實驗數(shù)據(jù)集如表1所示。

表1實驗數(shù)據(jù)集

(二)評價指標

由于醫(yī)療社交媒體用戶評論數(shù)據(jù)呈現(xiàn)出非均衡分布的特點,傳統(tǒng)的評價指標已經(jīng)不能很好地反映分類器的性能,因此本文采用AUC作為評價指標對非均衡數(shù)據(jù)分類方法的分類結果進行分析。目前AUC指標在非均衡數(shù)據(jù)分類中得到了廣泛應用,AUC的大小是用ROC(Receiver Operating Characteristic)曲線與坐標軸圍成的區(qū)域面積大小計算得到,AUC指標能夠很好地反映非均衡數(shù)據(jù)條件下分類器的分類效果[16]。AUC值總是在0和1之間,AUC越大說明分類器的分類性能越好。

(三)實驗流程

本研究采用的實驗環(huán)境——計算機CPU:Intel Core 2 Duo,內(nèi)存2GB,操作系統(tǒng)Microsoft Windows 2007,軟件WEKA3.7.0?;诸惼鞑捎肧upport Vector Machine (SVM),選取WEKA下的SMO模塊實現(xiàn),選取Bagging模塊、ADBoostM1模塊和Random Subspace模塊來具體實現(xiàn)Bagging、Boosting和Random Subspace方法,抽樣方法選取Under Sampling、Over Sampling和SMOTE等方法。本文采用了10倍交叉驗證法來提高實驗結果的可信度和有效性,即把初始樣本集化為10個近似相等的數(shù)據(jù)集,其中每個數(shù)據(jù)集中屬于各分類的樣本所占的比例與初始樣本集中的比例相等,在每次實驗中將9個數(shù)據(jù)集作為訓練集,另一個數(shù)據(jù)集作為測試集,輪流進行10次實驗,文中實驗結果均為10倍交叉驗證的平均值。

四、結果分析

(一)整體分析

根據(jù)以上實驗設計,得到實驗結果如表2所示,其中,120ASK表示快速問醫(yī)生網(wǎng)上的藥品評論數(shù)據(jù)集,ZYRTEC、LEVAQUIN、TOPAMAX、LAMICTA和LEXAPRO分別為Ask A Patient上的五種藥品評論數(shù)據(jù)集。原始方法表示用SVM作為基礎分類器,US(Under Sampling)表示欠取樣方法,OS(Over Sampling)表示過取樣方法,SMOTE表示使用SMOTE取樣方法,Bagging、Boosting、RS(Random Subspace)分別表示三種集成學習方法。

表2 實驗結果

根據(jù)表2的結果,我們可以看出,除OS方法外,非均衡數(shù)據(jù)分類方法取得的AUC值較基礎分類器SVM都有提高。例如在TOPAMAX數(shù)據(jù)集上,US方法取得的AUC為0.8446,SMOTE方法取得的AUC為0.8513,Bagging方法取得的AUC為0.8876,Boosting方法取得的AUC為0.8520,RS方法取得的AUC為0.9074,均高于SVM方法取得的AUC 0.8403,這說明非均衡數(shù)據(jù)分類方法對醫(yī)療社交媒體中用戶評論情感分類的有效性。

(二)對比分析

為了進一步分析各個非均衡數(shù)據(jù)分類方法在醫(yī)療社交媒體中用戶評論情感分析應用中的有效性,我們比較了非均衡數(shù)據(jù)分類方法相對于原始方法的改進比率,其中柱狀圖表示各個非均衡數(shù)據(jù)分類方法在原始方法上的改進比率,改進比率值越大,表示非均衡數(shù)據(jù)分類器分類性能越好。結果見圖2和圖3,其中改進比率公式如公式(1)。

(1)

從圖2可以看出,首先,取樣方法中的US和SMOTE方法在六個數(shù)據(jù)集上取得的分類效果較原始方法SVM都有所提高,而OS方法取得的分類效果略差于原始方法,主要是因為OS方法只是隨機地復制少數(shù)類樣本,并沒有給少數(shù)類添加新的信息,反而會導致過度擬合,降低了分類器的分類效果;其次,US方法取得的分類效果略好

于原始方法,主要是由于US方法減少了多數(shù)類的樣本數(shù)量,提高了少數(shù)類的分類性能;最后,SMOTE方法取得的分類效果比US和OS方法取得的分類效果都要好,主要是因為SMOTE方法增加的樣本并不在原來的樣本中,給少數(shù)類添加了新的信息,避免了OS方法的缺陷。

圖2 取樣方法改進比率

圖3 集成學習方法改進比率

從圖3可以看出,首先,集成學習的三種方法在六個數(shù)據(jù)集上取得的分類效果較原始方法SVM都有所提高,并且Bagging和RS方法取得相對較大的改進比率;其次,Bagging和RS方法在六個數(shù)據(jù)集上取得的分類結果都比Boosting方法所取得的分類結果要好,主要原因是Boosting方法比Bagging和RS方法對噪聲數(shù)據(jù)的敏感程度更高;最后,RS方法在所有數(shù)據(jù)集上取得了最好的分類結果,主要是因為在醫(yī)療社交媒體中,用戶評論文本的特征維度都相當高,而RS方法是屬于基于特征劃分的集成學習方法,所以RS方法在處理此類高維的數(shù)據(jù)集時取得的分類效果更好。

綜合比較取樣方法和集成學習方法,我們可以看出,集成學習方法在六個數(shù)據(jù)集上取得的分類效果都比取樣方法取得的分類效果好。例如在ZYRTEC數(shù)據(jù)集上,取樣方法中的SMOTE方法取得了最大改進比率為2.133%,而集成學習方法中的Boosting方法在這個數(shù)據(jù)集上取得的改進比率為3.19%;在TOPAMAX數(shù)據(jù)集上,集成學習方法中的Boosting方法取得了最小改進比率為1.392%,而取樣方法中的SMOTE方法在此數(shù)據(jù)集上取得的改進比率為1.309%。集成學習方法在六個數(shù)據(jù)集上取得的分類效果均好于取樣方法,主要原因可能是取樣方法從樣本數(shù)據(jù)層面來解決非均衡數(shù)據(jù)分類問題,會導致過度擬合或樣本信息利用不充分等問題,而集成學習方法是從算法層面來解決非均衡數(shù)據(jù)分類問題,通過構建差異性較大的多個分類器,再對各個分類器進行集成,來提高分類器的泛化能力,從而提高分類器的分類效果。因此,在醫(yī)療社交媒體的非均衡數(shù)據(jù)分類問題中,我們應該更多關注集成學習方法的應用和改進,從而獲得更好的分類效果。

五、結 論

近年來,隨著醫(yī)療社交媒體的不斷普及,醫(yī)療社交媒體上用戶生成的主觀性文本數(shù)量也迅速增長,如何幫助用戶來利用這些數(shù)據(jù)成為當前亟待解決的問題。目前已有大量的文本情感分析方法來解決以上問題,但這些方法大多都基于數(shù)據(jù)分布均衡的假設,對醫(yī)療社交媒體上的用戶評論數(shù)據(jù)呈現(xiàn)非均衡的特點關注不足,為此,本文使用非均衡數(shù)據(jù)分類方法對醫(yī)療社交媒體上的用戶評論文本進行情感分類。該方法主要包括基于取樣的方法和基于集成學習的方法,基于取樣的方法主要從數(shù)據(jù)層面入手,通過改變數(shù)據(jù)分布,降低非均衡程度,而基于集成學習的方法主要從算法層面入手,改進傳統(tǒng)的分類算法或者提出新的分類算法,使之適應非均衡數(shù)據(jù)分類問題。最后,本文抓取快速問醫(yī)生和Ask A Patient網(wǎng)站上用戶評論作為數(shù)據(jù)集進行實驗,實驗結果驗證了非均衡數(shù)據(jù)分類方法的分類效果總體上優(yōu)于傳統(tǒng)方法的分類效果。

在進一步的研究中,一方面,我們需要采集更大樣本量的數(shù)據(jù)集對本文的結果進行驗證,另一方面,對于醫(yī)療社交媒體中的用戶評論情感分析問題,對樣本進行標記需要耗費大量的人力物力,而大量無標記樣本卻很容易獲得,因此,未來的研究我們可以關注在醫(yī)療社交媒體中,如何利用少量有標記樣本和大量無標記樣本來對用戶評論進行情感分析。

[1]中國互聯(lián)網(wǎng)信息中心(CNNIC).第36次中國互聯(lián)網(wǎng)統(tǒng)計報告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf.[2]張紫瓊,葉 強,李一軍.互聯(lián)網(wǎng)商品評論情感分析研究綜述[J].管理科學學報,2010,13(6):84-96.

[3]王 剛,王 玨,楊善林.電子商務中基于非均衡數(shù)據(jù)分類和詞性分析的意見挖掘研究[J].情報學報,2014,33(3):313-325.

[4]Xia L,Gentile A L,Munro J, et al. Improving Patient Opinion Mining through Multi-step Classification [J]. Lecture Notes in Computer Science, 2009,(1): 70-76.

[5] Alemi F, Torii M, Clementz L, et al. Feasibility of real-time satisfaction surveys through automated analysis of patients' unstructured comments and sentiments [J]. Quality Management in Healthcare, 2012, 21(1): 9-19.

[6] Na J C, Kyaing W, Khoo C, et al. Sentiment Classification of Drug Reviews Using a Rule-Based Linguistic Approach [J]. The Outreach of Digital Libraries: A Globalized Resource Network, 2012,(4): 189-198.

[7] 趙妍妍, 秦 兵,劉 挺. 文本情感分析 [J]. 軟件學報, 2010, 21(8): 1834-1848.

[8] 陳立孚, 周 寧, 李 丹. 基于機器學習的自動文本分類模型研究 [J]. 現(xiàn)代圖書情報技術, 2005, 26(10): 23-27.

[9] Sun Y, Wong A K C, Kamel M S. Classification of imbalanced data: A review [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2009, 23(4): 687-719.

[10]朱 俊,馬 琳,魯 超,等.社交媒體在我國醫(yī)療實踐中的應用[J].中華醫(yī)學圖書情報雜志,2014,23(6):9-12.

[11]周德懋,李舟軍.高性能網(wǎng)絡爬蟲:研究綜述[J].計算機科學,2009,36(8):26-29.

[12]Wang G, Sun J, Ma J, et al. Sentiment classification: The contribution of ensemble learning [J]. Decision support systems, 2014, 57(4): 77-93.

[13] He H, Garcia E. Learning from imbalanced data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.

[14] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-sampling Technique [J]. Journal of Artificial Intelligence Research, 2011, 16(1): 321-357.

[15] Diettrich T G. Ensemble methods in machine learning [J]. Lecture Notes in Computer Science, 2000, 22(1): 1-15.

[16]汪云云,陳松燦.基于AUC的分類器評價和設計綜述[J].模式識別與人工智能,2011,24(1):64-71.

責任編校:陳 強,王彩紅

Study of Sentiment Analysis for User's Review in Healthcare Social Media

Sun Er-dong1,WANG Gang1,2

(1.School of Management, Hefei University of Technology, Hefei 230009, China;2. The Ministry of Education Key Laboratory of ProcessOptimization and Intelligent Decision, Hefei 230009, China)

Little attention has been paid to the imbalanced distribution of reviews datasets in healthcare social media. In this paper, the imbalanced data classification methods are applied to analyze users’ sentiment in healthcare social media. Imbalanced data classification methods include sampling methods and ensemble learning methods. These methods solve the above problem from the data level and algorithm level. Compared with other methods, Subspace Random obtained the best classification results. The experimental results reveal the validity of the imbalanced data classification methods in the application of user's reviews sentiment analysis research in healthcare social media.

healthcare social media;imbalanced data classification;text sentiment analysis;ensemble learning

2016-08-28

國家自然科學基金項目(71101042, 71471054);安徽省自然科學基金項目(1608085MG150)

孫二冬,男,安徽滁州人,碩士研究生,研究方向為數(shù)據(jù)挖掘和信息管理。 王 剛,男,江蘇連云港人,博士,副研究員,研究方向為商務智能和數(shù)據(jù)挖掘。

10.19327/j.cnki.zuaxb.1007-9734.2016.06.010

F270

A

1007-9734(2016)06-0063-08

猜你喜歡
分類器社交分類
社交之城
英語世界(2023年6期)2023-06-30 06:28:28
社交牛人癥該怎么治
意林彩版(2022年2期)2022-05-03 10:25:08
分類算一算
社交距離
分類討論求坐標
你回避社交,真不是因為內(nèi)向
文苑(2018年17期)2018-11-09 01:29:28
數(shù)據(jù)分析中的分類討論
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
教你一招:數(shù)的分類
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
嫩江县| 台南市| 内乡县| 温泉县| 合山市| 鹤岗市| 益阳市| 泽普县| 内乡县| 丰都县| 长白| 望城县| 二连浩特市| 玛曲县| 巴马| 乌什县| 图片| 锦屏县| 遂溪县| 黑河市| 花莲市| 玉田县| 玉龙| 临高县| 常州市| 龙里县| 汤原县| 南郑县| 安达市| 万盛区| 崇义县| 新源县| 光泽县| 佛学| 静海县| 台州市| 通城县| 峨眉山市| 辽宁省| 浑源县| 榆树市|