張冠東, 盧方
(上海第二工業(yè)大學(xué),1.文理學(xué)部,2.計(jì)算機(jī)與信息工程學(xué)院,上海 201209)
文本語(yǔ)言的感情色彩一直是判斷輿論走向的一個(gè)重要因素,褒義和貶義的文本常常會(huì)影響閱讀者的主觀感受。隨著信息技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的來(lái)臨,人們獲取信息的方式也在迅速發(fā)生變化,但是閱讀各種社交媒體上的文本文字依然是人們了解信息的主要方式。換言之,人們對(duì)某些社會(huì)事件或者現(xiàn)象的看法,除了受到自身知識(shí)面的影響以外,還會(huì)受到社交媒體文字情感色彩或者社會(huì)輿情的間接影響。例如,一些金融新聞會(huì)對(duì)投資者的投資策略產(chǎn)生影響,從而改變投資者已有的投資習(xí)慣[1]。一些產(chǎn)品使用后的評(píng)論會(huì)對(duì)新聞閱讀者產(chǎn)生影響,從而左右其購(gòu)買決策[2]。
一般而言,在文本文字撰寫(例如評(píng)論、意見(jiàn)等)結(jié)束后,作者可能需要對(duì)該文本貼上文字標(biāo)簽以方便歸類。由于文字標(biāo)簽也是帶有感情色彩的,因此,如果標(biāo)簽感情色彩和內(nèi)容感情色彩能夠保持一致,那么就有助于這段文本被更好地歸類以及被更多人傳閱。然而,受到作者水平的限制,文字表達(dá)內(nèi)容的感情色彩往往與其標(biāo)簽有一定的偏差。所以,如何正確地選擇內(nèi)容和標(biāo)簽感情色彩一致的文本是值得探討和研究的話題。
本文通過(guò)對(duì)伽馬算法的改進(jìn)提出一種新的算法——伽馬對(duì)數(shù)(Gamma-Logarithm)算法——對(duì)帶有標(biāo)簽的文本文字的分類進(jìn)行分析,從而判斷文本感情色彩與標(biāo)簽的感情色彩是否一致。選用一些文本文字作為實(shí)驗(yàn)對(duì)象,實(shí)驗(yàn)結(jié)果表明伽馬對(duì)數(shù)算法比其他算法對(duì)文本情感識(shí)別的準(zhǔn)確率更高。在實(shí)際應(yīng)用中,可以將該模型用于大規(guī)模的文本情感篩選,從而判斷識(shí)別文本和標(biāo)簽情感是否匹配。在現(xiàn)實(shí)生活中,該模型可用于輿情分析從而快速有效地了解輿情趨勢(shì)。
由于文本感情色彩對(duì)于文本選擇而言十分重要,目前國(guó)內(nèi)外已經(jīng)有很多研究在討論文本情感色彩的重要性。在國(guó)內(nèi),趙澄等[3]利用支持向量機(jī)(support vector machines, SVM)模型對(duì)金融文本的情感進(jìn)行分析,使得股票預(yù)測(cè)方法準(zhǔn)確率有所提升。李源等[4]提出了一種基于字詞雙通道網(wǎng)絡(luò)的文本情感分析方法,該方法利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)字向量和詞向量分別進(jìn)行卷積運(yùn)算來(lái)對(duì)文本進(jìn)行分類,提高了文本分類的準(zhǔn)確率。
在國(guó)外,HALIM等[5]通過(guò)機(jī)器學(xué)習(xí)的方法采用特征提取的方式對(duì)郵件文本進(jìn)行分析,識(shí)別文本中的隱藏情感,這種方法不但能夠幫助收件人確定郵件的正負(fù)情緒,還能幫助收件人更好地回復(fù)郵件。針對(duì)特定的事件或者主題,ABDI等[6]提出了一種文本的感情色彩估計(jì)模型(the auxiliary dataset-Latent dirichlet allocation)來(lái)預(yù)計(jì)用戶的感情趨勢(shì),并取得了很好的效果。
雖然國(guó)內(nèi)外諸多研究使得文本情感識(shí)別取得了一定的進(jìn)展,但是由于文本情感的判斷較為復(fù)雜,且不同的讀者或用戶對(duì)語(yǔ)句的情感理解有一定的差異,因此文本的情感分析仍有不少的挑戰(zhàn)。此外,如果僅僅考慮文本情感的褒義或貶義色彩,那么很多中性的詞匯將很難進(jìn)行歸類。因此,本研究從文本的中性和非中性的角度對(duì)文本的情感色彩進(jìn)行識(shí)別。
伽馬函數(shù)(Gamma function)或者稱為歐拉第二積分,是一種階乘函數(shù),在分析學(xué)、概率論、偏微分方程和組合數(shù)學(xué)中有著重要的應(yīng)用。對(duì)于真實(shí)且為正的值,經(jīng)典伽馬函數(shù)公式[7]可表示為
(1)
伽馬函數(shù)是統(tǒng)計(jì)學(xué)上的一種常用分布函數(shù),目前已被用于多個(gè)領(lǐng)域的研究。CARDOSO等[8]采用伽馬函數(shù)矩陣進(jìn)行了全面數(shù)值計(jì)算。
對(duì)數(shù)函數(shù)是以冪為自變量的一種函數(shù),是為了尋求化簡(jiǎn)的計(jì)算方法而發(fā)明的。假設(shè)輸入變量x>0,其公式為
F(x)=Logax
(2)
這里a一般為正。對(duì)數(shù)函數(shù)在數(shù)據(jù)挖掘領(lǐng)域有著廣泛的應(yīng)用,例如,MOKKADEM等[9]的研究驗(yàn)證了迭代對(duì)數(shù)的緊湊特性。本文將該函數(shù)結(jié)合到新的數(shù)學(xué)模型中對(duì)文本的情感進(jìn)行研究。
k均值算法是一種常見(jiàn)的聚類算法。該算法通過(guò)計(jì)算每個(gè)類別的中心簇點(diǎn),將數(shù)據(jù)聚集在相近的簇點(diǎn)附近。k-means的距離計(jì)算一般以歐幾里得距離為基礎(chǔ),該距離的算法為
(3)
其中,X={x1,x2,…,xn},Y={y1,y2,…,yn} 分別表示n維空間中的兩個(gè)點(diǎn)?;跉W幾里得距離,k均值算法的一般步驟為先隨機(jī)從數(shù)據(jù)樣本點(diǎn)中選取k個(gè)點(diǎn)作為初始中心點(diǎn),然后計(jì)算樣本數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離并確定新的中心點(diǎn),再計(jì)算新的中心點(diǎn)到各數(shù)據(jù)樣本點(diǎn)的距離并再確定新的中心點(diǎn),一直循環(huán)直到中心點(diǎn)不再變化或達(dá)到最大的循環(huán)次數(shù)。k均值算法已經(jīng)在各種研究中被廣泛地應(yīng)用。張一迪等[10]基于觀測(cè)協(xié)方差矩陣相鄰特征值之差統(tǒng)計(jì)量構(gòu)成的五維矢量序列,利用k均值算法使數(shù)據(jù)分詞信號(hào)和噪聲2類取得了較好的精確度。由于k均值算法可以通過(guò)設(shè)定k的值來(lái)確定類別的數(shù)量,且文本的感情色彩可以分為中性和非中性色彩,因此本研究通過(guò)使k=2,將文本的情感色彩類別分成2類。
由于伽馬算法能夠?qū)φZ(yǔ)言信號(hào)進(jìn)行分類[11],因此在基于該算法的基礎(chǔ)上,本文結(jié)合對(duì)數(shù)函數(shù)提出一種新型的算法計(jì)算文本的情感值并進(jìn)行分類。假設(shè)文本T={t1,t2,…,tn}是由n個(gè)詞匯所組成的文本,伽馬對(duì)數(shù)算法可表示為
(4)
其中,Γ(*)為伽馬算法,Lg(*)是以10 為底的對(duì)數(shù)函數(shù)。由于SnowNLP是一種被用于計(jì)算文本情感的工具包,因此先用該方法計(jì)算出文本的情感色彩值,再運(yùn)用伽馬對(duì)數(shù)算法進(jìn)行綜合情感色彩計(jì)算。
分類模型中的精確率是用于判斷分類準(zhǔn)確率的一個(gè)重要指標(biāo),精確率通過(guò)真陽(yáng)性、真陰性、假陽(yáng)性和假陰性來(lái)定義。真陽(yáng)性(true positive,TP)指的是數(shù)據(jù)分類中將正確的類別判斷為正確;假陽(yáng)性(false positive,F(xiàn)P)表示數(shù)據(jù)分類中將錯(cuò)誤的類別判斷為正確;真陰性(true negative,TN)表示數(shù)據(jù)分類中將錯(cuò)誤的類別判斷為錯(cuò)誤;假陰性(false negative,F(xiàn)N)表示數(shù)據(jù)分類中將錯(cuò)誤的類別判斷為正確:因此,精確率(precision,P)可以表示為分類的項(xiàng)目中有多少是相關(guān)的[12]。由于本研究聚焦于通過(guò)文本的情感色彩劃分文本的類別,因此通過(guò)對(duì)文本內(nèi)容的情感色彩分類和該文本標(biāo)簽的情感色彩分類是否屬于同一類別來(lái)計(jì)算分類準(zhǔn)確率。
選用公共數(shù)據(jù)集(https:∥github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset)中的文本數(shù)據(jù)進(jìn)行研究,該數(shù)據(jù)集包含中文文本數(shù)據(jù)和其類別。由于該數(shù)據(jù)集中數(shù)據(jù)包含了文本內(nèi)容和標(biāo)簽,因此需要先將標(biāo)簽和內(nèi)容進(jìn)行分離,并進(jìn)行數(shù)據(jù)清洗后再做分析。通過(guò)對(duì)比研究幾個(gè)不同算法的情感值來(lái)檢驗(yàn)伽馬對(duì)數(shù)算法的優(yōu)劣,這些對(duì)比算法是對(duì)數(shù)算法、伽馬算法、整句文本情感計(jì)算,其流程示意圖如圖1所示。
圖1 流程圖
根據(jù)圖1,分別選取不同數(shù)量文本進(jìn)行分析,對(duì)比數(shù)據(jù)如表1~表3所示。
表1 匹配精確度
表2 準(zhǔn)確度提升率 %
表3 準(zhǔn)確率平均提升率 %
表1表示了文本情感色彩的匹配程度,1.0表示完全匹配,其結(jié)果說(shuō)明,和其他幾種算法相比,伽馬對(duì)數(shù)算法的情感識(shí)別準(zhǔn)確率較高。從表2的計(jì)算結(jié)果得出,伽馬對(duì)數(shù)算法比整句情感計(jì)算、對(duì)數(shù)算法和伽馬算法在分類精確度提升方面都超過(guò)了3%,而平均準(zhǔn)確率提升幅度也超過(guò)了5%(見(jiàn)表3),這說(shuō)明和其他幾個(gè)算法相比,伽馬對(duì)數(shù)算法在文本情感識(shí)別計(jì)算方面有了明顯的提升。
文本情感分析是文本分析中的一個(gè)重要研究方向,本研究在運(yùn)用SnowNLP得出情感色彩值的基礎(chǔ)上采用伽馬對(duì)數(shù)模型進(jìn)行情感識(shí)別分類,并取得了較高的準(zhǔn)確率。該研究的成功能夠?qū)浾搶?dǎo)向的網(wǎng)民情緒波動(dòng)、主流媒體的話語(yǔ)引導(dǎo)以及大規(guī)模統(tǒng)計(jì)文字語(yǔ)言的色彩偏向等方面起到量化分析研究的作用。此外,該模型的運(yùn)算過(guò)程簡(jiǎn)潔,適用于大規(guī)模的文本分析,可以幫助決策者在特定文本類別的前提下有效地掌握情感導(dǎo)向,從而做好事先的應(yīng)對(duì)。