黃 偉,范 磊
(上海交通大學 信息安全工程學院,上海 200240)
基于多分類器投票集成的半監(jiān)督情感分類方法研究
黃 偉,范 磊
(上海交通大學 信息安全工程學院,上海 200240)
情感分類是目前自然語言處理領(lǐng)域的一個具有挑戰(zhàn)性的研究熱點,該文主要研究基于半監(jiān)督的文本情感分類問題。傳統(tǒng)基于Co-training的半監(jiān)督情感分類方法要求文本具備大量有用的屬性集,其訓練過程是線性時間的計算復雜度并且不適用于非平衡語料。該文提出了一種基于多分類器投票集成的半監(jiān)督情感分類方法,通過選取不同的訓練集、特征參數(shù)和分類方法構(gòu)建了一組有差異的子分類器,每輪通過簡單投票挑選出置信度最高的樣本使訓練集擴大一倍并更新訓練模型。該方法使得子分類器可共享有用的屬性集,具有對數(shù)時間復雜度并且可用于非平衡語料。實驗結(jié)果表明我們的方法在不同語種、不同領(lǐng)域、不同規(guī)模大小,平衡和非平衡語料的情感分類中均具有良好效果。
情感分類;集成學習;半監(jiān)督學習
隨著網(wǎng)絡(luò)的發(fā)展,人們已從單一地扮演信息接收者的角色,逐漸開始向信息發(fā)布者轉(zhuǎn)變,這些信息通常以產(chǎn)品評論、論壇帖子以及博客等形式存在。通過這些信息,政府可以獲取百姓的立場和輿論傾向,以便采取相應的措施和制定相應的政策;商家可以及時了解用戶的反饋從而有針對性地改善商品,滿足顧客需求;顧客可以通過其他人的評論來全方位地了解商品,從而為自己的購買決策提供有力指導[1]。隨著這些信息的迅速膨脹,僅靠人工已經(jīng)難以應對和處理這些海量數(shù)據(jù),因此迫切需要計算機工具幫助人們快速獲取和整理這些相關(guān)的評價信息[2]。
目前情感分類的主流研究方法可分為兩種思路:基于情感知識的方法以及基于特征分類的方法。前者主要是依靠一些人工收集的情感詞典或領(lǐng)域詞典從主觀文本中抽取帶有情感極性的組合評價單元進行統(tǒng)計,從而獲取文本的極性;后者主要是使用機器學習的方法,從文本中抽取大量有用的特征來完成分類任務[2]。
從當前的研究進展來看,在自然語言理解領(lǐng)域還有一些關(guān)鍵技術(shù)尚待研究,基于情感知識的方法雖然不需要標注樣本,但相比使用機器學習的算法,其性能并無明顯優(yōu)勢[3]。
盡管基于機器學習的方法對情感分類任務非常有效,但是監(jiān)督學習需要依賴大量的標注樣本,而獲取大量標注樣本的成本代價往往很高,需要花費大量的人力、物力。在真實世界中,隨著數(shù)據(jù)采集和存儲技術(shù)的飛速發(fā)展,收集大量未標記樣例并不困難。顯然如果只使用少量有標記的樣例,那么訓練出來的學習系統(tǒng)往往很難具有很強的泛化能力;另一方面,如果僅使用少量“昂貴的”標記樣本而忽略大量“廉價的”未標記樣本,則是對數(shù)據(jù)資源極大的浪費[4]。半監(jiān)督學習是一種結(jié)合少量標注樣本和大量未標注樣本進行學習的方法,本文主要基于半監(jiān)督情感分類進行研究。
在實際應用中,很多時候,人們只有少量的標記樣本,卻需要預測大量的未標記樣本,而這些測試集本身就提供了大量“廉價的”未標記樣本。本文的研究主要基于這種場景。
目前情感分類任務中最常用的半監(jiān)督學習方法是協(xié)同訓練,協(xié)同訓練(Co-training)是由Blum和Mitchell[5]在1998年提出的。該方法需要滿足兩個強條件:(1)樣本可以通過兩個冗余的獨立視圖進行表示;(2)每一個視圖都可以從訓練樣本中學習到一個強分類器[6]。
使用Co-training的半監(jiān)督學習方法來解決情感分類問題存在以下缺陷:
(1) 由于普通情感評論文本并沒有天然存在多個獨立視圖,所以必須以分割特征子空間的方式將文本特征空間分成多個部分作為多個獨立視圖,然而情感分類中有用的特征并不多,所以很有可能子空間分類器不包含這些有用的特征從而退化成弱分類器;
(2) 在標準的Co-training算法中每次只標記固定的常數(shù)個樣本,當未標注樣本的規(guī)模擴大一倍時,訓練過程中的迭代次數(shù)也隨之擴大一倍,算法達到了線性時間復雜度;
(3) 由于在真實情況下未標注樣本的平衡性很難預估,每次從未標注樣本中挑選多少個正面和負面樣本將會成為一個困難的問題。
Thomas G Dietterich[7]指出集成分類器能解決單個分類器訓練數(shù)據(jù)量小、假設(shè)空間小和局部最優(yōu)這三個問題,預測能力會優(yōu)于單個分類器的預測能力。已有一些學者將集成學習方法應用到了情感分類領(lǐng)域[8-10],并成功提高了分類器的性能。
每個子分類器都會根據(jù)自己學習到的模型單獨對未標記樣本進行預測。一般而言,子分類器意見一致的文本,預測準確率應該比那些子分類器意見有分歧的文本預測準確率更高,且分歧越大,預測的置信度將會越低。本文在大量的、不同領(lǐng)域的數(shù)據(jù)集上用實驗驗證了這個猜想:子分類器的意見越統(tǒng)一,預測的置信度越高。
針對上述問題,本文利用了集成學習的良好性能提出了基于多分類器投票集成的半監(jiān)督情感分類方法(Semi-supervised sentiment classification based on ensemble learning with voting combination,以下簡稱SSEV)。SSEV通過采用不同的訓練集、特征參數(shù)和分類方法構(gòu)建了一系列子分類器來取代傳統(tǒng)方法中使用不同的視圖,使得每個子分類器在保證差異性的前提下都能獨享整個特征視圖;每次通過簡單投票方法進行整合并按預測置信度從高到低選取和訓練集同樣規(guī)模的平衡語料連同它們的預測標簽一起加入訓練集,有效地將算法降低到了對數(shù)時間復雜度;自動識別剩余未標注樣本的平衡性,當剩余語料非平衡時結(jié)束迭代,兼顧了非平衡語料。實驗表明,SSEV適用于不同語種、不同領(lǐng)域、不同規(guī)模大小,平衡和非平衡語料的情感分類任務。
本文其他部分安排如下:第二節(jié)詳細介紹情感分類的相關(guān)工作;第三節(jié)提出了基于多分類器投票集成的半監(jiān)督情感分類方法;第四節(jié)給出實驗結(jié)果及分析;第五節(jié)給出相關(guān)結(jié)論,并對下一步工作進行展望。
2.1 基于監(jiān)督學習的情感分類方法研究
Pang and Lee[11]首次使用機器學習的方法來處理篇章級的情感分類任務,他們使用了不同的N-gram作為文本特征,BOOL和TF作為特征權(quán)重,嘗試了NB,ME和SVM這三種不同的文本分類方法。實驗結(jié)果表明Uni-gram作為文本特征效果最突出,在分類算法中,SVM的效果最佳。Cui等人[12]通過實驗證明,當訓練語料較少時,Uni-gram的效果的確最優(yōu),但隨著訓練語料規(guī)模的擴大,N-gram(n>3)的作用越來越顯著。Pang & Lee[13]在后來的工作中對原有方法加以了改進,增加了一個過濾器濾去電影評論中的客觀句,讓機器學習只把注意力放在主觀句上,使準確率從原來的82.9%顯著地提高到了86.4%。
在中文文本情感分類方面,譚松波等人[3]分別使用了N-gram以及名詞、動詞、形容詞和副詞作為文本特征,以互信息(MI)、信息增益(IG)、CHI統(tǒng)計量和文檔頻率(DF)作為不同的特征選擇方法,并對比了中心向量法、KNN、Winnow、Naive Bayes和SVM這幾種不同的文本分類方法,在不同的特征數(shù)量和不同規(guī)模的訓練集下,分別進行了中文情感分類實驗。他們的實驗結(jié)果表明采用Bi-grams特征作為文本特征、使用信息增益特征選擇方法和SVM分類方法,在訓練集足夠大和選擇適當數(shù)量特征的情況下,情感分類能取得較好的效果。
2.2 基于集成學習的情感分類方法研究
當下四種最流行的集成學習方法分別是Bagging[14]算法,Boosting[15]算法、Stacking[16]算法和Random subspace[17]算法。已有一些學者將不同的集成學習方法用于情感分類,并有效地提高了分類器的性能。Whitehead等人[8]通過實驗指出使用集成分類方法可以有效地提高文本分類的準確率,特別是使用bagging和subspace組合的集成學習算法效果最為突出;李壽山等人[9]將四種不同的分類方法應用于中文情感分類任務中,并且采用了一種基于Stacking的集成學習方法用于組合不同的分類方法。實驗結(jié)果表明該組合方法在每個領(lǐng)域都獲得了比最好基分類方法更好的分類效果;Su等人[10]通過實驗同樣發(fā)現(xiàn)基于Stacking的組合分類方法在所有領(lǐng)域都取得了較好的效果,他們同時還指出,這種方法的表現(xiàn)優(yōu)于簡單投票整合的方法。
所有上述學者在使用集成學習方法時都把注意力放在了提高整體的預測準確率上。而SSEV更關(guān)心的是如何通過集成分類器抽取一部分預測置信度較高的數(shù)據(jù)來擴展初始訓練樣本。
2.3 基于半監(jiān)督學習的情感分類方法研究
Wan[18]將英語和漢語作為兩個不同的獨立視圖,采用協(xié)同訓練方法進行半監(jiān)督情感分類;Li等[19]則是把評價語句分為個人視圖(Personal View)和非個人視圖 (Impersonal View)這兩個不同的獨立視圖,同樣使用了協(xié)同訓練方法進行半監(jiān)督情感分類。蘇艷等[6]對協(xié)同訓練方法進行改進,提出了基于動態(tài)隨機特征子空間的協(xié)同訓練算法,并通過實驗驗證了該方法明顯優(yōu)于基于靜態(tài)隨機特征子空間的協(xié)同訓練方法,特別是當特征子空間數(shù)目為4的時候,該半監(jiān)督學習方法能夠取得最好的分類性能。高偉等人[20]提出了一種基于一致性標簽的集成學習方法,用于融合兩種主流的半監(jiān)督情感分類方法:基于隨機特征子空間的協(xié)同訓練方法和標簽傳播方法。他們的實驗結(jié)果表明該方法能夠有效地降低未標注樣本的誤標注率,從而獲得比任一種半監(jiān)督學習方法更好的分類效果。
值得一提的是,本文假設(shè)的場景更貼近實際應用,在很多情況下,人們只有少量的有標記樣本,卻需要預測大量的未標記樣本,而這些測試集本身就包含了大量“廉價的”未標記樣本。雖然本文假設(shè)的半監(jiān)督學習在場景上看起來更像是直推學習。但與直推學習不同的是,SSEV并沒有將泛化能力有針對性地放在指定的“封閉的”測試集上,因此對于“開放世界”,SSEV很容易進行遷移并同樣適用。
3.1 基本猜想
每個子分類器都會根據(jù)自己學習到的模型單獨對未標記樣本進行預測。一般而言,子分類器意見一致的文本的預測準確率應該比那些子分類器意見有分歧的文本預測準確率更高,且分歧越大,預測的置信度將會越低?;诙喾诸惼魍镀奔傻陌氡O(jiān)督情感分類算法,主要基于這個猜想來利用集成分類器,從未標注樣本中抽取置信度較高的樣本,連同它們的預測標簽一同加入訓練集來擴充訓練集的規(guī)模。
下面是關(guān)于這個猜想的理論分析。
算法1通過偽代碼描述了投票整合的具體過程。設(shè)總共有m個子分類器(m最好為奇數(shù)),文本d初始的預測值pre(d)置為0,對于每一個子分類器fi,當fi對文本d的預測為正面時,pre(d)=pre(d)+1,當fi對文本d的預測為負面時,pre(d)=pre(d)-1。|pre(d)|的值越大,表示子分類器對文本d的預測意見越統(tǒng)一。
假設(shè)每個子分類器fi的預測準確率均為p,并且任意兩個子分類器對未標注樣本的預測結(jié)果是獨立的。若最終|pre(d)|=|m-2n|(n>m/2),則對于樣本d有兩種情況:
1.n個(大部分)子分類器預測正確,m-n個子分類器預測錯誤,投票整合正確;
2.m-n個(小部分)子分類器預測正確,n個子分類器預測錯誤,投票整合錯誤。
(1)
3.2 基于多分類器投票集成的半監(jiān)督情感分類算法
SSEV中的集成分類器一共包含九個子分類器,圖1顯示了SSEV方法的總體框架。
為了確保分類器之間的差異性,每個子分類器都根據(jù)bagging算法有放回地抽取訓練樣例,從而為每一個子分類器都構(gòu)造出一個跟訓練集同樣大小但各不相同的訓練集。
九個子分類器中的四個使用SMO分類算法,對于特征的選擇,首先過濾掉詞頻低于閾值5的詞語,然后根據(jù)CHI值來排列特征,選取前1 500維特征。(如果詞頻高于閾值的詞語不足1 500,特征可以小于1 500維),特征權(quán)重計算采用TF_IDF算法。
另外五個子分類器使用Voted perceptron (投票感知器)分類算法,特征的選擇方法和特征權(quán)重的計算方法和前四個子分類器完全相同。
為了保證訓練的平衡性,必須確保初始的訓練樣本是平衡的。在每一次的迭代過程中,分別使用每個子分類器對未標注測試集進行預測,然后通過投票的方式進行整合,對于任意測試樣本,均可以獲得一個預測值pre(d)。每一次將訓練集的大小擴充一倍,并且仍然設(shè)法保持訓練集的平衡性。設(shè)在某次迭代開始時,已標注訓練集的大小為m,待標注測試集的大小為n。我們通過以下的方式對訓練集進行擴充。
(1) 從pre(d)大于0的樣本中按|pre(d)|的值從大到小抽取規(guī)模為m/2的樣本連同它們的正面標簽一起加入訓練集;
(2) 從pre(d)小于0的樣本中按|pre(d)|的值從大到小抽取規(guī)模為m/2的樣本連同它們的負面標簽一起加入訓練集。
通過上述兩步的操作,在這一次迭代中,SSEV成功地完成了對m條測試樣本的標記,并將它們連同它們的標簽一起加入了訓練集。未被選入訓練集的待標注樣本則丟棄它們此輪迭代中獲得的pre(d)值,仍然處在待標記測試集中?,F(xiàn)在訓練樣本規(guī)模為2m,待標注測試集的數(shù)量則變成了n-m,在每一輪訓練過程中,訓練樣本的規(guī)模都會翻倍,所以SSEV方法的時間復雜度為對數(shù)級。
算法2用偽代碼詳細描述了這一過程,當滿足一定的條件時,迭代就會結(jié)束。在決定停止迭代的那一輪(也就是最后一輪迭代中),直接用集成分類器的預測結(jié)果來標注剩余所有的待標記測試集樣本。
其中P(d)表示預測為正面的文本集合,N(d)表示預測為負面的文本集合,SP(d)為置信度最高的m/2條預測為正面的文本集合,SN(d)為置信度最高的m/2條預測為負面的文本集合。
迭代結(jié)束的條件如下:
如果待標注的測試集遠大于已標注訓練集的規(guī)模時,SSEV選擇繼續(xù)迭代;當兩者的規(guī)模相差不大時,在此輪迭代后,剩余的測試集規(guī)模偏小,在這種情況下SSEV選擇直接結(jié)束迭代;當待標注的測試集與已標注的訓練集的規(guī)模不滿足上述條件的時候,SSEV考察待標注測試集的平衡性,如果待標注測試集的平衡性出現(xiàn)了偏差,為了保持訓練樣本的平衡性,立刻結(jié)束迭代。在極端的情況下,如果待標注的樣本嚴重失衡,SSEV會退化成完全監(jiān)督學習,SSEV的基本原則是如果在某種情況下,不能比完全監(jiān)督的方法達到更高的預測準確率,至少該算法不能讓它降低。
在某一次迭代過程中,已標注訓練集的樣本數(shù)為m,待標注測試集的樣本為n,集成分類器對n個測試樣本的預測結(jié)果是t個樣本被預測為正面,n-t個樣本被預測為負面。接下來SSEV需要從t個正面預測樣本中挑m/2個置信度最高的正面樣本和從n-t個負面預測樣本中挑選m/2個置信度最高的負面樣本連同它們的標簽一起加入訓練集。本文約定的具體規(guī)則是這樣的:
(1) 當2m≤t且2m≤n-t,繼續(xù)迭代;
(2) 當0.6≥t或0.6m≥n-t,結(jié)束迭代;
(3) 當不滿足條件(1)和(2)時,我們定義平衡
規(guī)則中提到的常數(shù)為SSEV中的經(jīng)驗閾值。
算法3用偽代碼詳細地描述了這一過程。
算法4描述了基于多分類器投票集成的半監(jiān)督情感方法的整體過程,最后將各迭代過程中標記的測試樣本進行匯總,并將它們的預測標簽與標準答案進行比較,從而獲得整個測試集的預測準確率,這個準確率也反映了我們方法的性能。
4.1 實驗設(shè)置
對于中文語料,SSEV首先使用中國科學院的分詞軟件ICTCLAS 2013對文本進行分詞,然后將所有繁體字轉(zhuǎn)換成簡體字,選取基于詞的Uni-gram + Bi-gram特征。
對于英語語料,SSEV的處理就簡單得多,將所有單詞小寫并且去除標點符號,然后按空格分詞,選取基于詞的Uni-gram特征。
實驗選擇的語料數(shù)據(jù)集涵蓋了英文和中文,覆蓋了不同的領(lǐng)域,并且數(shù)據(jù)集的規(guī)模也不盡相同。
1. Movie Dataset[21],正反各1 000篇;
2. Large Movie Dataset[22],正反各5 000篇;
3. Large Movie Unbalanced Dataset[22],正1 000篇,反2 000篇;
4. Blitzer et al.收集的Book語料[23],正反各1 000篇;
5. Blitzer et al.收集的DVD語料[23],正反各1 000篇;
6. Blitzer et al.收集的Electronic語料[23],正反各1 000篇;
7. Blitzer et al.收集的Kitchen語料[23],正反各1 000篇;
8. 譚松波整理的酒店評論語料[24],正反各2 000篇;
9. 譚松波整理的筆記本電腦評論語料[24],正反各2 000篇;
10. 譚松波整理的書本評論語料[24],正反各2 000篇;
說明:語料2和3是從原始的Large Movie Dataset中截取部分語料組成的。
實驗共分為兩個部分。在第一部分中,我們將在這些數(shù)據(jù)集上用實驗來驗證我們的猜想:子分類器的意見越統(tǒng)一,預測的置信度越高;在第二部分中,我們將考察基于多分類器投票集成的半監(jiān)督情感分類方法的實際效果。
4.2 猜想驗證
語料的編號可以參考4.1節(jié),P@N%的含義為置信度最高的前N%的測試樣本的預測準確率。具體的做法是將文本d按|pre(d)|的值從大到小排列,取|pre(d)|值大的前N%的語料,統(tǒng)計它們的準確率,從而獲得P@N%。不難得到P@100%即是整體準確率。
對于初始訓練集的選取,我們確保它們是平衡的。以語料3為例,語料3是非平衡語料,規(guī)模為3 000。當訓練集比例為25%時(訓練集大小為750),我們抽取整體語料中的375篇正面樣本和375篇負面樣本用于訓練,剩下的625篇正面樣本和1625篇負面樣本用于測試。表1顯示我們的實驗結(jié)果。
表1 P@N%對照表
① 當初始比例為75%時,需要1125篇正面樣本,語料中正面樣本總共只有1000篇,所以這里我們使用的初始比例為25%
續(xù)表
在實驗(1)、(2)和(9)、(10)中,我們使用了同一個訓練集,只是訓練集的比例不同。(1)、(2)是英語語料,(9)、(10)是中文語料;在實驗(4)中,我們的語料采用了非平衡語料;在實驗(2)、(3)中,我們的語料都是Movie領(lǐng)域,訓練集的比例相同,只是語料的規(guī)模不同;在實驗(5)~(8)和實驗(10)~(12)中,我們分別在英語和中文的不同領(lǐng)域中進行了實驗。通過在不同語種、不同規(guī)模、不同領(lǐng)域,平衡和非平衡的語料上,采用不同的訓練集比例,我們可以清晰地發(fā)現(xiàn)我們的猜測是正確的:子分類器的意見越統(tǒng)一,預測的置信度越高。
4.3 基于多分類器集成的半監(jiān)督情感分類結(jié)果
在本小節(jié)中,我們將基于多分類器投票集成的完全監(jiān)督方法作為Baseline,與我們的基于多分類器投票集成的半監(jiān)督學習算法進行對比,在本小節(jié)的最后,我們還將SSEV和基于隨機特征子空間的半監(jiān)督情感分類方法[6]進行了對比。
表2顯示了語料2(語料規(guī)模為10 000)在初始標注比例為1%時的表現(xiàn),由于SSEV的集成分類器中的每個子分類器,都根據(jù)bagging算法有放回地抽取訓練樣例, 從而為每一個子分類器都構(gòu)造出一個跟訓練集同樣大小但各不相同的訓練集。為了規(guī)避子分類器在抽取訓練樣例時的隨機性,對于每個訓練集我們都進行三次實驗。
表2 語料2在初始標注比例為1%的表現(xiàn)表
由于初始訓練集比例較低,隨機選取不同的訓練集可能會對結(jié)果產(chǎn)生一定的影響,為了規(guī)避這種影響,在每種初始比例下都隨機選取三組不同的訓練集,在每組選定的訓練集下都進行三組實驗,最終的Baseline值由這九組Baseline的值取平均,SSEV值也由這九組SSEV的值取平均,為了節(jié)省篇幅,接下來的實驗我們只給出最終取好平均的Baseline和SSEV值,不再如表2提供各輪迭代的具體數(shù)據(jù)。
語料規(guī)模后面的字母E表示是英語語料,C表示中文語料。
表3 Baseline與SSEV的預測準確率對比表
實驗結(jié)果(表3)表明SSEV對于不同語種、不同領(lǐng)域、不同規(guī)模大小,平衡和非平衡語料都有一定的提高。語料(1)和(2)都是Movie領(lǐng)域,語料(1)初始比例為5%的結(jié)果與語料(2)初始比例為1%的結(jié)果類似,語料(1)初始比例為10%的結(jié)果與語料(2)初始比例為2%的結(jié)果類似。我們可以推測SSEV的準確率與初始訓練集的規(guī)模有關(guān),而與訓練集的初始比例無關(guān)。語料(4)~(7)在初始比例為1%和2%的情況下(圖中的陰影部分)無論Baseline還是SSEV都沒有獲得較好的預測結(jié)果,這和初始訓練樣本的規(guī)模過小有關(guān)。
表4 SSEV與基于隨機特征子空間的半監(jiān)督情感分類方法的預測準確率對比表
雖然SSEV在每輪迭代過程中都使用同一個集成分類器,但是隨著新的訓練集的自動加入,每次都會有部分新的特征取代原有的特征,并且根據(jù)TF_IDF算法計算得到的特征權(quán)重也在不斷地發(fā)生著變化,所以每次的訓練模型都會發(fā)生很大的變化,這也是SSEV之所以奏效的重要原因。
情感分類的半監(jiān)督學習存在很多需要解決的問題,我們不僅需要利用未標記樣本提高學習結(jié)果的準確率,而且需要關(guān)注如何解決大量的未標記樣本的計算代價問題。本文提出的基于多分類器投票集成的半監(jiān)督情感分類方法,不僅利用未標記樣本提高了學習結(jié)果的準確率,而且同樣降低了使用大量未標記樣本的計算代價問題,有效地將計算代價降低到了對數(shù)時間復雜度,另外本文提出的方法也同時兼顧到了非平衡語料。
考慮到如果有三個分類器,其中一個分類器以90%的置信度給文本標上neg標簽,另外兩個分類器以30%的置信度給文本標上pos標簽,按照我們的方法,通過投票整合后,該文本將會被冠以pos標簽,實際上該文本的實際標簽很有可能是neg的。我們可以參考Zhou等[25]提出的方法,讓每個子分類器根據(jù)各自預測的置信度給予有權(quán)重的投票,直覺上這樣整合出來的結(jié)果,可以從待標注測試集中挑選出準確率更高的測試樣本,連同它們的標簽一起加入訓練集,可以減少誤標率,從而提高學習結(jié)果的準確率。
[1] 來火堯, 劉功申. 基于主題相關(guān)性分析的文本傾向性研究[J]. 信息安全與通信保密, 2009, 3: 77-81.
[2] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學報, 2010, 21(8): 1834-1848.
[3] 唐慧豐, 譚松波, 程學旗. 基于監(jiān)督學習的中文情感分類技術(shù)比較研究 [J]. 中文信息學報, 2007, 21(6): 88-94.
[4] 周志華, 王玨. 半監(jiān)督學習中的協(xié)同訓練風范[J]. 機器學習及其應用, 北京: 清華大學出版社, 2007: 259-275.
[5] Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the eleventh annual conference on computational learning theory. ACM, 1998: 92-100.
[6] 蘇艷, 居勝峰, 王中卿, 等. 基于隨機特征子空間的半監(jiān)督情感分類方法研究[J]. 中文信息學報, 2012, 26(4): 85-90.
[7] Dietterich T G. Ensemble methods in machine learning[M].Multiple classifier systems. Springer Berlin Heidelberg, 2000: 1-15.
[8] Whitehead M, Yaeger L. Sentiment mining using ensemble classification models[M].Innovations and Advances in Computer Sciences and Engineering. Springer Netherlands, 2010: 509-514.
[9] 李壽山, 黃居仁. 基于 Stacking 組合分類方法的中文情感分類研究[J]. 中文信息學報, 2010, 24(5): 56-61.
[10] Su Y, Zhang Y, Ji D, et al. Ensemble learning for sentiment classification[M]//Chinese Lexical Semantics. Springer Berlin Heidelberg, 2013: 84-93.
[11] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.
[12] Cui H, Mittal V, Datar M. Comparative experiments on sentiment classification for online product reviews[C]//Proceedings of the AAAI. 2006, 6: 1265-1270.
[13] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004: 271.
[14] Breiman L. Bagging predictors[J]. Machine learning, 1996, 24(2): 123-140.
[15] Schapire R E. The strength of weak learnability[J]. Machine learning, 1990, 5(2): 197-227.
[16] Wolpert D H. Stacked generalization[J]. Neural networks, 1992, 5(2): 241-259.
[17] Ho T K. The random subspace method for constructing decision forests[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1998, 20(8): 832-844.
[18] Wan X. Co-training for cross-lingual sentiment classification[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 235-243.
[19] Li S, Huang C R, Zhou G, et al. Employing personal/impersonal views in supervised and semi-supervised sentiment classification[C]//Proceedings of the 48th annual meeting of the association for computational linguistics. Association for Computational Linguistics, 2010: 414-423.
[20] 高偉, 王中卿, 李壽山. 基于集成學習的半監(jiān)督情感分類方法研究[J]. 中文信息學報, 2013, 27(3): 120-126.
[21] http://www.cs.cornell.edu/People/pabo/movie-review-data/
[22] http://ai.stanford.edu/~amaas/data/sentiment/
[23] Blitzer J, Dredze M, Pereira F. Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification[C]//Proceedings of the ACL.2007, 7: 440-447.
[24] http://www.searchforum.org.cn/tansongbo/corpus-senti.htm
[25] Zhou Y, Goldman S. Democratic co-learning[C]//Proceedings of the Tools with Artificial Intelligence, 2004. ICTAI 2004. 16th IEEE International Conference on. IEEE, 2004: 594-602.
Semi-supervised Sentiment Classification Based On Ensemble Learning with Voting
HUANG Wei, FAN Lei
(School of Information and Security Engineering, Shanghai Jiaotong University, Shanghai 200240, China)
Recently, sentiment classification has become a hot research topic in natural language processing. In this paper, we focus on semi-supervised approaches for this issue. In contrast to the traditional method based on co-training, this paper presents a semi-supervised sentiment classification via voting based ensemble learning. We construct a set of diversified sub classifiers by choosing different training sets, feature parameters and classification methods. During each voting round, samples with highest confidence are picked out to double the size of training set and then to update the model. This new method also allows sub classifiers to share useful attributes sets. It has a logarithmic time complexity and can be used for non-equilibrium corpus. Experiments show that this method has achieved good results in the sentiment classification task with corpus in different languages, areas, sizes, and both balanced and unbalanced corpus.
sentiment classification;ensemble learning;semi-supervised learning
黃偉(1990—),碩士研究生,主要研究領(lǐng)域為自然語言處理、情感分析。E?mail:huangwei.900721@163.com范磊(1975—),副教授,主要研究領(lǐng)域為數(shù)據(jù)挖掘、網(wǎng)絡(luò)安全管理、密碼學等。E?mail:fanlei@sjtu.edu.cn
1003-0077(2016)02-0041-09
2013-11-21 定稿日期: 2014-04-25
TP391
A