高陽++冉興萍++木合塔爾·艾爾肯
摘 要 在構(gòu)詞法上,主要通過詞根和詞干上加上各種詞綴而形成新的詞語,屬于黏著型語言。構(gòu)詞的詞綴豐富,有名詞詞綴、動詞詞綴、形容詞詞綴、數(shù)詞詞綴等。詞綴具有很強(qiáng)的專有性,其專有性在詞綴上會有明顯的表現(xiàn),可用來做情感分類特征。本文提出了使用切詞前綴的方式,研究了詞綴在SVM-KNN分類器中的表現(xiàn)。
關(guān)鍵詞 情感分類 詞綴 SVM-KNN 機(jī)器學(xué)習(xí)
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A DOI:10.16400/j.cnki.kjdkz.2016.09.063
A Study on the Characteristics of Prefix Letter in Uyghur
Language Text Sentiment Classification
GAO Yang[1], RAN Xingping[1], Muhtar Erkin[2]
([1] Department of Computer Engineering, Changji University, Changji, Xinjiang 831100;
[2] College of Software, Urumqi Vocational University, Urumqi, Xinjiang 830008)
Abstract In word formation, mainly through roots and stems with a variety of affixes and the formation of new words, which belongs to agglutinative language. Word formation affixes are rich, noun affixes, verb affixes, adjective affix and affix numerals. Affix has a strong specificity, its specificity in the affix will have a significant performance, can be used to do the characteristics of emotional classification. This paper proposes to use the prefix segmentation way, studied the affix to SVM-KNN classifier performance.
Key words sentiment classification; affix; SVM-KNN; machine learning
1 引言
1.1 文本情感分類研究的現(xiàn)狀
文本情感分類,也稱為意見挖掘,主要實(shí)現(xiàn)的是對帶有強(qiáng)烈情感傾向的文本進(jìn)行分類。在研究對象容量大小差別,出現(xiàn)了基于詞語、句子、篇章等級別的情感分類研究;在研究方法上,出現(xiàn)了基于資源的和基于統(tǒng)計(jì)的情感分類研究。近些年來,對文本情感分類領(lǐng)域的研究,主要的研究內(nèi)容集中在以下幾個方面:文本的情感極性分類、文本的主觀性分析、詞語的語義傾向性識別、觀點(diǎn)提取等。具體的研究工作分布在以下幾個領(lǐng)域:詞的極性分類、主客觀分類、基于機(jī)器學(xué)習(xí)的文本情感分類方法、基于情感詞標(biāo)注的文本情感分類。
1.2 基于機(jī)器學(xué)習(xí)的文本情感分類方法
下面將近年來國內(nèi)外這方面的研究做簡要的陳述。Pang等人最早使用基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法來研究文本情感分類問題,使用SVM、最大熵、樸素貝葉斯等分類器,同時(shí)以不同的特征選擇、特征降維方法對internet上的影評文本進(jìn)行情感分類研究。Pang等人還實(shí)現(xiàn)了另外一項(xiàng)工作,構(gòu)造了一個基于minimum-cut的分類器,從而把文本的極性分類問題轉(zhuǎn)化成求取句子連接圖的最小分割問題。Lin等人把分類問題的方法用于觀點(diǎn)識別問題,通過基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的分類算法解析詞的用法獲取文本的觀點(diǎn)。Bruce、Wiebe等人使用Bayes對句子進(jìn)行主客觀分類。Whitelaw等人提取文本中帶有形容詞的詞組和詞組的修飾語作為特征,用向量空間文檔表示,然后以SVM分類器進(jìn)行分類,從而區(qū)分文檔的褒貶情感傾向。在句子級別的文本情感分類領(lǐng)域,Yi等人以模式匹配的算法進(jìn)行了深入的研究。Goldberg和Zhu提出了一種新的基于圖的半監(jiān)督算法來解決電影評論的等級推定問題,與以前的多分類模型相比,性能大幅提高。Mei等人提出了一個新的Topic-Sentiment Mixture(TSM)概率模型,該模型能同時(shí)獲得文本的情感信息和主題信息,在沒有任何先驗(yàn)領(lǐng)域知識的情況下,也可以發(fā)現(xiàn)一個Weblog數(shù)據(jù)集所蘊(yùn)含的潛在主題。Ni等人以信息增益(Information Gain)和卡方作為特征選擇的方法,用Na ve Bayes、SVM和Rocchio,s算法對原來的情感文本作為二分類問題研究。
2 基于句子級別的情感分類
句子級別的情感分類,是指鑒別情感句的情感傾向后對其進(jìn)行歸類,也可以說是一種特殊的情感文本分類。文本情感分類根據(jù)其所研究的載體的粒度可分為三類:篇章級情感分類、句子級情感分類和詞/短語級情感分類。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,以及Web2.0的出現(xiàn),人們從早期被動地接受大型的網(wǎng)站信息平臺的信息,轉(zhuǎn)變到可以自主參與到信息的發(fā)布、產(chǎn)生,并能自主地參與平臺進(jìn)行信息交流,各信息受眾間也可以互相進(jìn)行信息交互,網(wǎng)絡(luò)上有帶有個人主觀性的信息就越來越多。為了獲得民眾網(wǎng)絡(luò)上出現(xiàn)的對諸如人物、事件、產(chǎn)品的評價(jià)信息,情感分類就應(yīng)運(yùn)而生了。
句子級別的情感分類,屬于特殊的文本情感分類,其所做的研究是以句子為載體。在用戶交互性、參與性很強(qiáng)的Web2.0時(shí)代,網(wǎng)上有個人主觀色彩的信息多是以單語句形式出現(xiàn),如電子商務(wù)網(wǎng)站的產(chǎn)品評論、網(wǎng)絡(luò)論壇對重大事件的態(tài)度以及民眾對重要時(shí)事、政策觀點(diǎn),尤其是微博、微信的出現(xiàn),這一特點(diǎn)體現(xiàn)的更為充分。對句子級別的情感分類的研究對于商品經(jīng)濟(jì)的發(fā)展、政府重大方針政策的制定、輿情監(jiān)控等都具有重要的意義。
2.1 SVM分類器
其原理為:假設(shè)樣本線性可分,訓(xùn)練出一個二類超平面,超平面滿足二類之間距離最大的,稱之為最優(yōu)超平面。在SVM中最為核心的內(nèi)容是:如何把訓(xùn)練超平面的問題,和統(tǒng)計(jì)理論中的二次優(yōu)化問題結(jié)合起來。根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,從而取得最優(yōu)解。首先給定一個用于訓(xùn)練的樣本集 = {(,),(,),…,( ,)},其中, = {}, = 1,2,…,。為訓(xùn)練樣本的總的個數(shù),為模式空間的維數(shù),為區(qū)分樣本的類標(biāo)。支持向量機(jī)要解決的是如下的一個最優(yōu)化問題:
() = + (1)
(· + )≥
≥0, = 1,2,3,4,…,
解決這個問題,通常依據(jù)最優(yōu)化理論,轉(zhuǎn)為其對偶問題
() = (2)
0≤≤, = 1,2…,, = 0
用下面的判別函數(shù)分類
( + ) = (()+ ) (3)
其中 = (),()為處理非線性SVM時(shí),將向量映射到高維空間的核函數(shù)。
2.2 KNN簡介
NN分類器的基本原理:輸入一個待標(biāo)明類別的樣本向量,與測試集中的每一個樣本比較,在樣本中找出K個與之相似的,將這個樣本中出現(xiàn)最多的類別作為標(biāo)志依據(jù),同時(shí)對相似度設(shè)定閥值,用于判定的類別。
KNN算法如下:
= () (, , , ) (4)
其中,為待標(biāo)記類別的樣本向量,為K個最鄰近的樣本向量中的第個文本,表示其所屬的類別;(,){0,1},當(dāng)?shù)念悇e屬于類別時(shí)取1,反之取0;是類別為確定閥值;(, )為待標(biāo)記類別的樣本向量與訓(xùn)練樣本之間的相似度值。
(, ) = =
=
其中,表示特征權(quán)重,N為特征向量的維數(shù)。
3 SVM-KNN分類器
3.1 對SVM分類機(jī)理的分析
SVM和KNN分類器,綜合運(yùn)用方面,中科院的李蓉等研究員,在原理上給出了嚴(yán)密的數(shù)學(xué)證明和推導(dǎo),并提出了定理。
在定理 中,SVM分類器相當(dāng)于一個每類只選擇一個代表點(diǎn)的1-NN分類器。
3.2 SVM-KNN分類器簡介
SVM-KNN原理:首先使用SVM分類器判斷待確定類別樣本點(diǎn)和超平面之間的距離,然后對距離設(shè)定閾值,對于超過閾值的樣本點(diǎn),使用SVM分類。對于在閾值之內(nèi)的點(diǎn),使用KNN分類器確定類別。
4 實(shí)驗(yàn)結(jié)果及分析
本實(shí)驗(yàn)采用SVM分類器,采用以切詞的前綴為特征,即在前述維吾爾語情感分類流程中,在去停頓詞后,然后以空格為標(biāo)記,將整篇文本分為一個個單個的詞,在對詞進(jìn)行切前綴取代詞來做特征,取代傳統(tǒng)的以詞做特征進(jìn)行分類的方式。
本實(shí)驗(yàn)中多類分類器的構(gòu)造,是使用“一對一”方法構(gòu)造()/2個二分類器實(shí)現(xiàn)的,依卡方為特征選擇方法。
本實(shí)驗(yàn)中所應(yīng)用的二分類器所使用的核函數(shù)均為多項(xiàng)式核函數(shù),() =[(*) + 1],核函數(shù)參數(shù)(0.5)。錯誤懲罰參數(shù)C的值為(4),分類閥值的值?。?.5)。
本實(shí)驗(yàn)使用的語料為三類情感語料:褒義、貶義、中性。從實(shí)驗(yàn)結(jié)果,以前綴作特征的方法比以詞做特征有著更好的性能。首先,能一定程度上提高分類的準(zhǔn)確率,尤其對于貶義類的情感句子的分類取得了較大的提高,最高可以提高14個百分點(diǎn)。使用詞綴作特征的另一個優(yōu)點(diǎn):能夠大幅度降維,這就一定程度地解決維數(shù)災(zāi)難的問題。在分類中,隨著維數(shù)的增加所需要的計(jì)算量通常是以指數(shù)級別增長的,實(shí)驗(yàn)證明詞綴的方法能夠?qū)稻S起到了良好的效果。當(dāng)取5個后綴字母的詞綴時(shí),特征維數(shù)變?yōu)?599,較之以詞做特征的15372個特征,下降了近50%之多。分別以詞、5個字母詞前綴、6個字母詞前綴、7個字母詞前綴作實(shí)驗(yàn)對比,總的特征維數(shù)分別為:15372,7599,9443,11370。從三類的實(shí)驗(yàn)結(jié)果可以看出,一般在特征維數(shù)選定在1500-2000時(shí),能獲得最優(yōu)的效果,準(zhǔn)確率達(dá)到最大值。
5 總結(jié)和展望
本文結(jié)合維吾爾語的特征,使用切前綴字母作特征,在SVM-KNN分類器中對非平衡文本數(shù)據(jù)進(jìn)行試驗(yàn),實(shí)驗(yàn)結(jié)果證明,在一定的維數(shù)范圍內(nèi),能夠提高分類的精度。
參考文獻(xiàn)
[1] Huang XJ, Zhao J. Sentiment analysis for Chinese text. Communications of CCF, 2008,4(2) (in Chinese with English abstract).
[2] 肖偉.基于語義的BLOG社區(qū)文本傾向性分析[D].2007.12.
[3] Bruce R, Wiebe J.Recognizing subjectivity:a case study in manual tagging.Natural Language Engineering,1999.5(2):1-16.
[4] Wiebe J,Riloff E.Creating subjective and objective sentence classifiers from unannotated texts.In Proc.of the 6th Int.Conf.on Computational Linguistics and Intelligent Text Processing,2005:486-497.
[5] Whitelaw C,Garg N,Argamon S.Using appraisal groups for sentiment analysis.In Proc.of the 14th ACM Int.Conf.on Information and Knowledge Management,2005:625-631.
[6] Yi J,Nasukawa T,Bunescu R,et a1.Sentiment analyzer:extracting sentiments about a given topic using natural language processing techniques.In Proc.of the 3rd IEEE Int.Conf.on Data Mining,2003:427-434.