陳發(fā)鴻
?
基于核方法的文本極性分類研究
陳發(fā)鴻
中共福建省委黨校
該文研究文本極性分類算法優(yōu)化問(wèn)題。目前算法多以計(jì)算詞的極性進(jìn)行文本極性分類,由于不能保證詞的主題相關(guān)性,導(dǎo)致文本情感分析準(zhǔn)確率較低。為了提高分類精度,該文提出一種新的文本極性分類方法,首先用tf/idf算法抽取主題詞確定文本主題句,然后對(duì)句子進(jìn)行句法分析,并利用核函數(shù)設(shè)計(jì)基于詞特征、詞義特征以及句法特征等多特征融合的句子極性計(jì)算方法,通過(guò)分析情感主題句的極性進(jìn)行文本情感傾向的判斷。新方法不僅考慮了詞本身的極性,還根據(jù)核函數(shù)區(qū)分詞的動(dòng)態(tài)極性,同時(shí)避免與主題無(wú)關(guān)的句子對(duì)分析結(jié)果的影響,進(jìn)行實(shí)驗(yàn)與其它分類算法作比較,證明新方法能夠有效提高文本情感分析的準(zhǔn)確率,可為設(shè)計(jì)提供實(shí)用有效的算法。
核函數(shù) 句法分析 主題句 極性分類 情感分析
文本極性分類主要是指利用計(jì)算機(jī)自動(dòng)分析帶有主觀性的句子或文檔,對(duì)它們的情感傾向進(jìn)行分類,從而判斷出用戶的態(tài)度[1]。文本極性分類近年來(lái)已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的熱點(diǎn)問(wèn)題,目前所采用的方法主要有兩種。第一種是基于機(jī)器學(xué)習(xí)的方法,首先將具有情感色彩的詞分成是正例和負(fù)例,然后以詞頻統(tǒng)計(jì)基礎(chǔ),建立一個(gè)二元的分類器,從而進(jìn)行簡(jiǎn)單的情感分類;另一種是基于語(yǔ)義的情感分析方法,首先進(jìn)行相關(guān)詞的語(yǔ)義傾向分析,然后計(jì)算整個(gè)文本的情感傾向指標(biāo)。例如,文獻(xiàn)[2] 計(jì)算文本中詞匯與HowNet中已標(biāo)注褒貶性詞匯間的相似度,獲取詞匯的極性。在此基礎(chǔ)上,選擇極性明顯的詞匯作為特征值,用SVM分類器分析文本的褒貶性。最后采用VSI否定規(guī)則匹配文本中的語(yǔ)義否定,以提高分類效果,以及處理程度副詞附近的褒貶義詞,以加強(qiáng)對(duì)文本褒貶義強(qiáng)度的識(shí)別。文獻(xiàn)[3] 通過(guò)標(biāo)記語(yǔ)料庫(kù)獲得文本中的極性元素,然后采用極性元素的分布、極性元素的密度和極性元素的語(yǔ)義強(qiáng)度三個(gè)度量指標(biāo)來(lái)對(duì)每個(gè)文本進(jìn)行統(tǒng)計(jì),得出文本褒貶分類和強(qiáng)度大小的結(jié)果。文獻(xiàn)[4]通過(guò)分析文本中的情感詞以及由這些情感詞構(gòu)造的短語(yǔ)模式,作為文本的情感特征,并利用這些特征實(shí)現(xiàn)文本的情感判別。文獻(xiàn)[5]利用HowNet提供的語(yǔ)義相似度和語(yǔ)義相關(guān)場(chǎng)計(jì)算功能,計(jì)算詞語(yǔ)間的相似程度,根據(jù)所得的語(yǔ)義傾向度量值判別其褒貶傾向,進(jìn)而進(jìn)行文本的傾向性分析。
這些方法多是單純從詞的傾向性分析入手,但是以詞為粒度的情感分析,不能保證所有被分析的詞匯都是主題相關(guān)的,這種不確定性將直接影響文本情感分析的準(zhǔn)確性。如果在進(jìn)行文本的情感分析時(shí),將與主題無(wú)關(guān)的詞語(yǔ)或者句子剔除,僅僅只對(duì)與文本主題相關(guān)的句子或詞語(yǔ)進(jìn)行分析,將有助于提高情感分析的準(zhǔn)確率。
基于以上的分析,本文以句子為例,主要研究如何有效提取文本中的主題情感句,設(shè)計(jì)并利用核函數(shù)通過(guò)計(jì)算相似度對(duì)情感主題句進(jìn)行情感傾向判斷,從而獲得文本的情感傾向,排除與主題無(wú)關(guān)的情感句對(duì)判斷準(zhǔn)確率的影響。
本文實(shí)現(xiàn)了文本情感主題句的自動(dòng)抽取和基于核函數(shù)的多特征融合句子傾向性分析,最后進(jìn)行文本傾向性的判斷。主要通過(guò)以下幾步進(jìn)行:首先,用tf/idf算法抽取主題詞,然后對(duì)主題詞進(jìn)行語(yǔ)義邏輯推理,將包含語(yǔ)義含義主題詞的句子作為候選主題句子,通過(guò)公式計(jì)算各個(gè)候選句子的重要度,最終確定文本情感主題句;然后對(duì)主題句子進(jìn)行句法分析,通過(guò)多特征融合的核函數(shù)計(jì)算得出主題句傾向度;最后累加主題句傾向度進(jìn)行全文的文本傾向性判斷。具體框架如圖1所示。實(shí)驗(yàn)結(jié)果表明,由于考慮了詞、詞義、句法等特征,句子傾向性分析的召回率和精確率有顯著的提高,并且計(jì)算整個(gè)文本情感傾向時(shí)排除了與主題無(wú)關(guān)的句子,從而也提高了算法的準(zhǔn)確率。
圖1 系統(tǒng)框架圖
主題詞即指能夠體現(xiàn)某個(gè)文本的主題屬性,并具有使之與其它主題有明顯分別的作用的詞。本文對(duì)所有訓(xùn)練語(yǔ)料進(jìn)行分詞、詞性標(biāo)注后,提取所有的名詞,接著采用類似TF-IDF的詞頻統(tǒng)計(jì)方法計(jì)算每個(gè)詞條Ti的權(quán)重Wi,公式如下:
其中TFi是詞條Ti在文檔中的詞頻,在統(tǒng)計(jì)詞語(yǔ)出現(xiàn)次數(shù)時(shí),考慮到文檔中不同位置內(nèi)容的重要性各不相同,因此通過(guò)分配適當(dāng)?shù)谋壤蜃觼?lái)對(duì)詞頻進(jìn)行加權(quán)調(diào)整。N為文檔中的句子總數(shù)目,ni是文檔中包含Ti的句子數(shù)目。
采用上述方法計(jì)算出文檔中所有詞條的權(quán)重,并進(jìn)行歸一化處理,使得詞條權(quán)值介于0和1之間。權(quán)值越大,則越能反映文檔的主題。將詞條按權(quán)值從大到小的順序排列,依次選取前面適當(dāng)數(shù)目(文中選前15個(gè))的詞條作為該文檔的主題詞,然后結(jié)合領(lǐng)域背景,構(gòu)建概念語(yǔ)義網(wǎng)絡(luò),對(duì)所得到的主題詞進(jìn)行語(yǔ)義邏輯推理,最后將所有包含符合語(yǔ)義含義的主題詞句子作為候選主題句子。
為了從候選集合中最終確定文本的主題句子,需要對(duì)句子重要程度進(jìn)行評(píng)估計(jì)算。本文以抽取的主題詞義項(xiàng)建立向量空間模型(VSM),并對(duì)所有待處理的候選主題句子建立對(duì)應(yīng)的向量S(T1,W1;T2,W2;...;Tn,Wn),其中Ti為句中包含的主題詞,Wi為詞條Ti的權(quán)重值。文檔中句子的重要性主要受以下幾個(gè)因素的影響:(1)句中所含主題詞的重要性。若主題詞權(quán)重之和越大,則認(rèn)為句子的重要性也越大。同時(shí)為了消除句子長(zhǎng)度的影響,本文采用了平均權(quán)重以避免句子越長(zhǎng)、權(quán)重越大的現(xiàn)象。(2)句子在文檔中的位置。研究表明,95%以上的科技文獻(xiàn)和大多數(shù)的其他文獻(xiàn)的標(biāo)題能很好地反映主題,因此一個(gè)詞如果出現(xiàn)在標(biāo)題中,那么它成為文獻(xiàn)主題詞的可能性就大得多,并且根據(jù)漢語(yǔ)的習(xí)慣,在首段或末尾段通常會(huì)對(duì)主題做一個(gè)總結(jié),因此標(biāo)題、段落開(kāi)頭和結(jié)尾處的句子應(yīng)該有較高的重要性。(3)句中是否包含提示詞。對(duì)于一些議論或評(píng)述性的文章,常包含“綜上所述”、“總之”等提示性短語(yǔ),這些句子往往是對(duì)文章主題進(jìn)行的概述,因此重要性相對(duì)較高。
綜合考慮上述因素,本文定義句子權(quán)重的計(jì)算方法如下:
核方法的基本思想就是在非線性可分的情況下,使用一個(gè)非線性變換φ(?)將樣本空間R中的數(shù)據(jù)映射到高維線性空間F中,即R→F,在F中基于準(zhǔn)則構(gòu)造新的分類函數(shù),達(dá)到線性可分的目的。若算法中各模式矢量間的相互作用僅限于內(nèi)積運(yùn)算,則不必顯式計(jì)算從樣本到高維線性空間的映射,只要利用樣本空間中預(yù)先定義的核函數(shù)直接計(jì)算映射空間中的點(diǎn)積即可,從而解決非線性變換帶來(lái)的“維數(shù)災(zāi)難”問(wèn)題。
在自然語(yǔ)言處理領(lǐng)域中,核函數(shù)的本質(zhì)是計(jì)算兩個(gè)樣本間的相似度,相同類別的樣本具有較高的核函數(shù)值,不同類別的樣本具有較低的核函數(shù)值。本文從詞語(yǔ)、詞性、語(yǔ)義以及位置等方面考慮了輸入樣本的特征,定義了詞語(yǔ)核函數(shù),詞序列核函數(shù),路徑核函數(shù),通過(guò)核函數(shù)計(jì)算樣本間的相似度以完成句子極性的判斷。
3.3.1相關(guān)概念
其中,no代表當(dāng)前詞在句中的位置;t代表原始詞語(yǔ)字符串輸入;pos代表詞性;s代表詞匯的極性(1代表褒義,-1代表貶義,0代表中性)。
其中,
,為詞語(yǔ)內(nèi)容相似度;
其中w是該節(jié)點(diǎn)中的詞;l是該節(jié)點(diǎn)與父節(jié)點(diǎn)的依存關(guān)系;p是父節(jié)點(diǎn);c是當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)集。
其中n代表該路徑節(jié)點(diǎn)所包含的當(dāng)前句法分析樹(shù)節(jié)點(diǎn);e代表當(dāng)前節(jié)點(diǎn)與下一個(gè)節(jié)點(diǎn)的依存方向(1代表當(dāng)前節(jié)點(diǎn)依存于下一個(gè)節(jié)點(diǎn),0代表下一個(gè)節(jié)點(diǎn)依存于當(dāng)前節(jié)點(diǎn))。
其中,pnkey代表路徑中的一個(gè)極性詞,相對(duì)于其它節(jié)點(diǎn),該節(jié)點(diǎn)將更大程度地影響兩條路徑的相似性。
其中,
其中,wkey代表極性詞,相對(duì)于其它詞而言,wkey更多地影響seqn之間的相似度。
例如:句子“奧迪外觀漂亮,性能好,我喜歡”根據(jù)定義10有三個(gè)極性詞,其所對(duì)應(yīng)的2元詞序列及其3條句法路徑如表1所示。圖1是例句句法分析的結(jié)果。
表1 例句的極性詞以及2元詞序列、句法路徑集合
圖1 例句句法分析的結(jié)果
其中,ei∈U1, ej∈U2,s1代表集合U1的元素個(gè)數(shù),1≤i≤s1;s2代表集合U2的元素的個(gè)數(shù), 1≤j≤s2;δ是一個(gè)很小的正整數(shù),它代表一個(gè)非空元素和空元素的相似度。K(ei,ej)代表集合中兩個(gè)元素之間的相似度,根據(jù)元素類型的不同分別按公式(4)、公式(9)和公式(11)計(jì)算。
3.3.2基于核的多特征融合極性分類算法
為了從文本的主題句集合Q中提取情感主題句,本文借助情感詞詞典,逐一找出具有極性詞的句子,同時(shí)利用Deparser對(duì)句子進(jìn)行句法分析,并設(shè)計(jì)詞語(yǔ)核函數(shù),詞序列核函數(shù),路徑核函數(shù),分別從詞法、語(yǔ)義、句法層方面對(duì)情感主題句進(jìn)行傾向性的判斷。三個(gè)核函數(shù)分別表示如下:
本文實(shí)驗(yàn)根據(jù)經(jīng)驗(yàn)并結(jié)合實(shí)驗(yàn)結(jié)果調(diào)整,選取α=0.5,β=0.4,γ=0.1作為相似度的計(jì)算權(quán)值。
例如,句子S1“我很喜歡蘋(píng)果”和句子S2“我非常喜歡蘋(píng)果”的極性相似度計(jì)算如下:
同理,句子S1和句子S3“我不喜歡蘋(píng)果” 的極性相似度計(jì)算為(因?yàn)榫渥覵3的極性詞前出現(xiàn)了否定詞,所以需要對(duì)極性詞“喜歡”極性取反后再按公式計(jì)算):
本文實(shí)驗(yàn)從新浪汽車(chē)論壇(http://bbs.auto.sina.com.cn/)有關(guān)汽車(chē)評(píng)論的主題貼中,去除語(yǔ)言不規(guī)范的文本,最終選出文本1200篇。將所有語(yǔ)料分為2個(gè)部分,其中800篇作為語(yǔ)料,其余400篇作為測(cè)試語(yǔ)料集合T。手工對(duì)測(cè)試語(yǔ)料集中的所有文本提取情感主題句,并標(biāo)注情感傾向(正面或反面),同時(shí)標(biāo)注每個(gè)文本的全文情感傾向,標(biāo)注結(jié)果中,218篇為正面傾向文本,182篇為反面傾向文本。
本文進(jìn)行2次實(shí)驗(yàn)。
實(shí)驗(yàn)1:目的是評(píng)估本文提取情感主題句方法的性能。首先對(duì)訓(xùn)練文檔集中的文本進(jìn)行人工聚類,篩選出正、負(fù)兩個(gè)類別共162個(gè)句子作為基句,然后從測(cè)試文本集中選出3190個(gè)句子作為測(cè)試句子(正面句子2134個(gè),反面句子1056個(gè)),對(duì)每一個(gè)測(cè)試句子分別按公式(16)和基句計(jì)算極性相似度,選取相似度最高的基句極性作為該句的極性。評(píng)價(jià)指標(biāo)采用標(biāo)注精確率(P)、召回率(R)和F值。為了說(shuō)明方法的有效性,本文還與文獻(xiàn)[6]所介紹的基于極性詞詞頻統(tǒng)計(jì)的方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如表2所示。
表2 本文方法和文獻(xiàn)[6]方法的比較
實(shí)驗(yàn)結(jié)果表明,本文方法的查準(zhǔn)率達(dá)到了72.8%,F(xiàn)值達(dá)到了74.3%,和文獻(xiàn)[6]方法相比F值提高了近15%,性能提高顯著。
上述實(shí)驗(yàn)數(shù)據(jù)及分析表明,文獻(xiàn)[6]召回率較低,原因是該方法只是通過(guò)簡(jiǎn)單的極性詞正負(fù)疊加來(lái)計(jì)算句子的情感類別導(dǎo)致一些反面傾向句子標(biāo)注錯(cuò)誤,如:句子“凱越HRV駕駛的時(shí)候,門(mén)窗是不會(huì)自動(dòng)上鎖的,這是一個(gè)很不安全的設(shè)計(jì)。”和“存放備胎的地方也發(fā)現(xiàn)了不和諧的聲音”。而本文方法不僅考慮了極性詞本身,還根據(jù)句法分析從上下文和句法層面捕獲極性信息,能從一定程度上區(qū)分詞的動(dòng)態(tài)極性,從而提高了分類準(zhǔn)確率。例如,“我為我們的祖國(guó)感到驕傲!”中“驕傲”為褒義詞,“這個(gè)人很驕傲!”中“驕傲”為貶義詞。
但是,考慮到算法的復(fù)雜性,本文沒(méi)在整棵句法樹(shù)上定義核函數(shù),而是從句法子樹(shù)來(lái)分析極性,因此對(duì)一些中性語(yǔ)句不能很好地識(shí)別,如:句子“奧迪A6的價(jià)格既不高也不低”。該句的局部帶有極性,情感“不高”的極性為正,“不低”的極性為負(fù),本文算法認(rèn)為該句為正極性,但事實(shí)上該句總體極性為中性。此外,算法也沒(méi)處理語(yǔ)氣問(wèn)題,其分類準(zhǔn)確率還有進(jìn)一步的提升空間。
實(shí)驗(yàn)2:目的是評(píng)估本文方法對(duì)文本情感分析判斷的影響。首先采用本文方法提取文本的情感主題句,將提取的結(jié)果應(yīng)用到傳統(tǒng)SVM分類器,對(duì)文本的情感進(jìn)行分析。同時(shí),采用傳統(tǒng)SVM分類器直接對(duì)文本進(jìn)行情感分析,將這兩種方法的情感分析結(jié)果進(jìn)行比較。
表3 本文方法和SVM方法的比較
由于本文方法首先去除了與主題無(wú)關(guān)的句子,排除了這些句子對(duì)整個(gè)文本情感判斷的影響,直接對(duì)與主題相關(guān)的情感句子進(jìn)行判斷,因此與傳統(tǒng)SVM分類器相比,其準(zhǔn)確率提高了近11%,F(xiàn)值提高了9%,實(shí)驗(yàn)結(jié)果證明了本文方法的有效性。
本文提出了基于核函數(shù)的多特征融合中文文本極性分類方法。通過(guò)語(yǔ)義邏輯推理確定文本主題概念,結(jié)合句子重要度計(jì)算,確定文本的主題句子。并定義核函數(shù),融合詞、詞義及句法特征對(duì)情感主題句進(jìn)行傾向性的判斷。情感主題句的提取研究對(duì)意見(jiàn)挖掘、情感分析等研究具有重要意義。在后繼的研究中將對(duì)句子進(jìn)行進(jìn)一步的語(yǔ)法、語(yǔ)義分析,提高模型的性能。
[1] 史西兵,王浩鳴.隱馬爾可夫模型解決信息抽取問(wèn)題的仿真研究[J].計(jì)算機(jī)仿真,2010, 27(5): 132-134.
[2] 徐琳宏,林鴻飛,楊志豪.基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007, 21(1): 96-100.
[3] B. Tsou, et al. Polarity Classification of Celebrity Coverage in the Chinese Press [A]. In: Proceedings of the International Conference on Intelligence Analysis [C]. McLean, USA: 2005.
[4] 宋光鵬. 文本的情感傾向性分析研究[M]. 北京:北京郵電大學(xué), 2008.
[5] 朱嫣嵐,閡錦,周雅倩,黃置普,吳立德.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):l4-20.
[6]M.Hu and B.Liu.Mining and Summarizing Customer Reviews.InProceedings of the ACM SIGKDD International Conference on Knowledge Discovery&Data Mining[C].Seattle,Washington,USA,Aug