姚珂
摘要:該文將基礎(chǔ)詞典和自定義詞典相結(jié)合,采用基于詞典和自定義規(guī)則的情感分類方法將文本分為正向、負向、中性三類。在此基礎(chǔ)上通過K折交叉驗證,對自定義規(guī)則的權(quán)重進行調(diào)整,并使得到的結(jié)果更具準(zhǔn)確性。實驗結(jié)果表明,基于詞典和規(guī)則的方法可以對文本的情感傾向性進行有效分類。
關(guān)鍵詞:自定義詞典;規(guī)則;情感分析;K折交叉驗證
中圖分類號:TP18 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)26-0162-02
國務(wù)院在2017年7月8日發(fā)布并實施的《新一代人工智能發(fā)展規(guī)劃》中自然語言處理技術(shù)被重點提及。它指出自然語言處理技術(shù)主要用于研究短文本的計算與分析技術(shù),跨語言文本挖掘技術(shù)和面向機器認知智能的語義理解技術(shù),多媒體信息理解的人機對話系統(tǒng)。
文本情感分析作為自然語言處理中的一個重點,是對帶有感情色彩的主觀性文本進行分析、處理、歸納和推理的過程[1]。在情感分析領(lǐng)域,文本可以劃分為兩類即積極的或消極的,也可以分為三類即積極的、消極的、中性(或不相關(guān))?,F(xiàn)在國內(nèi)外主要使用的技術(shù)可以分為兩大類:一類是基于情感詞典的方法[2],根據(jù)分詞后得到的情感詞數(shù)量來計算總體的情感分值,然后根據(jù)情感分值判斷情感走向;另一類是采用機器學(xué)習(xí)的方法[3],準(zhǔn)備訓(xùn)練集和測試集,對數(shù)據(jù)進行向量化,使用邏輯回歸、支持向量機、神經(jīng)網(wǎng)絡(luò)等分類器進行情感分類。
當(dāng)前各類媒體高度發(fā)達,海量的信息被制造和傳播,想要快速得到文本中的具體內(nèi)容與評價,需要我們使用情感分析的方法去解決閱讀和識別判斷數(shù)據(jù)的難題。此次實驗對2000條JSON格式的新聞類輿情數(shù)據(jù),進行數(shù)據(jù)處理分析,首先對文本進行處理,得到我們要分析的文本主題段落,之后將段落分割成句子,并對句子進行分詞,分詞過程中將文本中不需要的符號直接刪除,只保留對結(jié)果有影響的詞語,通過詞典匹配的方法對句子級情感傾向性(正向、負向、中性)進行評估。所以本文將基礎(chǔ)詞典和自定詞典進行結(jié)合,并定義規(guī)則對文本的情感傾向性進行分析,讓用戶可以從海量的數(shù)據(jù)中有效識別和判斷數(shù)據(jù)情感傾向。
1 相關(guān)工作
1.1 構(gòu)建詞典
要進行基于情感詞典和規(guī)則的情感傾向性分析,必須有情感詞典做基礎(chǔ)。其中情感詞典應(yīng)該包括基礎(chǔ)詞典和領(lǐng)域詞典。本次實驗中基礎(chǔ)情感詞典是將知網(wǎng)的“情感分析用詞語集”中的正向情感字典、正向評價詞典以及負向情感詞典、負向評價詞典中的這些被廣泛認同的情感詞,比如“錯”,“壞”,“差”等進行結(jié)合、去重。領(lǐng)域詞典是從文本中篩選出基礎(chǔ)詞典沒有的領(lǐng)域?qū)I(yè)詞匯,并通過手工標(biāo)注詞的正負向得到的自定義詞典,領(lǐng)域詞典可以讓正確率得到很大的提升。
1.2 定義規(guī)則
在文本情感傾向性分析領(lǐng)域,外國的處理技術(shù)明顯更為成熟,但是許多外文的處理技術(shù)中文是不能直接使用的。這是由于中文的語言特殊性,在對中文文本進行情感傾向性分析之前,必須對文本進行分詞。因此分詞是中文文本處理的基礎(chǔ),目前國內(nèi)應(yīng)用比較廣泛的分詞工具有清華大學(xué)自然語言處理與社會人文計算實驗室研制推出的THULAC、北京理工大學(xué)張華平博士研發(fā)的中文分詞系統(tǒng)NLPIR以及結(jié)巴分詞等。本次實驗采用應(yīng)用最為廣泛并支持自定義詞典的結(jié)巴分詞,在結(jié)巴分詞程序中加入自定義詞典對文本進行分詞。在完成分詞之后將分詞結(jié)果和情感詞典表進行匹配,從而確定文本出現(xiàn)正、負向詞的數(shù)量,根據(jù)出現(xiàn)的情感詞數(shù)量通過定義的規(guī)則來確定文本的情感傾向。
文本的傾向性計算規(guī)則需要將新聞段落碾平為句子并將其標(biāo)記為標(biāo)記為W1,W2…Wn,將句子進行分詞得到的情感詞中的正向詞標(biāo)記為P1,P2…Pn,負向詞標(biāo)記為Q1,Q2…Qn,不是正負向的詞直接設(shè)值為0,然后按照規(guī)則對文本的情感傾向進行計算,之后通過K折交叉驗證的方法調(diào)整權(quán)重a,以達到最好的效果。
其中句子的情感傾向計算規(guī)則如下:
W =[i=1nPi]+a[j=1nQj]
段落的情感傾向計算規(guī)則為:
E =[i=1nWi]/n
1.3 K折交叉驗證
在實驗中由于權(quán)重的不同常常會導(dǎo)致預(yù)測結(jié)果無法穩(wěn)定,調(diào)整權(quán)重之后最終的分?jǐn)?shù)是否會有改善也未知,因為我們不知道調(diào)整權(quán)重后是更好的發(fā)掘潛在關(guān)系了,還是過度擬合了。為了解答這個難題,Stone[4]在1974年首次提出了交叉驗證的方法,并通過驗證得出保留一個樣本數(shù)據(jù)集,其他的數(shù)據(jù)集用來訓(xùn)練模型,通過保留的樣本數(shù)據(jù)集去驗證模型會得到一個比較好的預(yù)測?,F(xiàn)在比較常見的交叉驗證類型有重復(fù)隨機子抽樣驗證、K折交叉驗證以及留一法交叉驗證。其中Geisser[5]在1975年提出的K折交叉驗證是將數(shù)據(jù)集平均分為K份,每次選一份做測試集,剩余的K-1份做訓(xùn)練集,最后將K次測試結(jié)果的平均值作為預(yù)測誤差的估計。
K折交叉驗證可以保證每一個樣本數(shù)據(jù)都能被用作訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),可以有效避免過度學(xué)習(xí)和欠學(xué)習(xí)狀態(tài)的發(fā)生,得到的結(jié)果比較具有說服力??紤]到k值越大偏差會越小而計算復(fù)雜度會越大,本次實驗采用十重交叉驗證的方法。為保證訓(xùn)練集、測試集與原數(shù)據(jù)集之間的偏差不會太大,把數(shù)據(jù)按照總數(shù)據(jù)集中正向、負向、中性數(shù)據(jù)量的比例將數(shù)據(jù)分成10等份,訓(xùn)練集和測試集中數(shù)據(jù)的比例與原數(shù)據(jù)集大致相同讓結(jié)果更具準(zhǔn)確性。
2 實驗過程與結(jié)果分析
2.1 實驗過程
基于詞典與規(guī)則對文本的情感傾向性進行分析的主要流程為:
首先將基礎(chǔ)詞典中的4558個正向詞、4439個負向詞和手工標(biāo)注的自定義詞典中的89個正向詞和260個負向詞相結(jié)合組成情感詞典,然后對數(shù)據(jù)進行篩選處理。將新聞段落碾平為句子,形成我們所需要的14710條句子數(shù)據(jù),其中正向數(shù)據(jù)共計5531條,中性數(shù)據(jù)共計1519條,負向數(shù)據(jù)共計6168條。采用十重交叉驗證的方法,每次用13239條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余的1471條作為測試數(shù)據(jù)。將訓(xùn)練數(shù)據(jù)用于自定義規(guī)則中權(quán)重的調(diào)整,將測試數(shù)據(jù)用于對文本情感傾向性預(yù)測分析。
2.2 K折交叉驗證確定權(quán)重
通過十重交叉驗證的方法按照原數(shù)據(jù)集中正向、負向、中性數(shù)據(jù)的比例將數(shù)據(jù)平均分為10等份份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),剩下的一份作為測試集,在進行訓(xùn)練過程中不斷調(diào)整權(quán)重,最后根據(jù)10次的訓(xùn)練得到最優(yōu)的權(quán)重。
為了更清楚地表示出權(quán)重對訓(xùn)練結(jié)果的影響,將其中4次訓(xùn)練的結(jié)果通過圖表的方式表示出來,其中不同顏色代表了每次訓(xùn)練時不同的權(quán)重,通過圖表可以看出灰色的條形圖在每次訓(xùn)練中都是最高的,因此可以得出結(jié)論當(dāng)權(quán)重為7時正確率會達到峰值。
3 結(jié)果與分析
通過十折交叉驗證在訓(xùn)練過程中對權(quán)重進行了選擇,保證了情感傾向計算規(guī)則的穩(wěn)定性,同時為保證測試結(jié)果的準(zhǔn)確性將10次測試結(jié)果取平均值作為最終的正確率。
4 結(jié)束語
本文將基礎(chǔ)詞典和自定義詞典相結(jié)合,基于詞典和規(guī)則對文本的情感傾向進行了分類,并且取得了有效的成果。但是本次實驗也存在較大的提升空間,之后的工作可以結(jié)合機器學(xué)習(xí)算法,并將語義分析應(yīng)用到實驗中,在情感分析過程中更好地結(jié)合上下文語境,以得到更好的預(yù)測效果。
參考文獻:
[1] 楊立公,朱儉,湯世平.文本情感分析綜述[J].計算機應(yīng)用,2013,33(6):1574-1578.
[2] Lunwei Ku, Tungho Wu, Liying Lee, et al. Construction of an Evaluation Corpus for Opinion Extraction [C] / /NTCIR-5,Japan. 2005:513-520.
[3] Dasgupta S, Ng V. Mine the Easy. Classify the Hard:SSemiSupervisedApproach to Automatic Sentiment:Classification [C] / /ACL,2009:701-709.
[4] Stone M. Cross validatory choice and assessment of statistical predictions. J. Roy Statist. Soc. Ser. B, 1974, 36:111-147.
[5] Geisser S. The predictive sample reuse method with applications. J. Amer. Statist.Assoc, 1975, 70:320-328.
[通聯(lián)編輯:唐一東]