俄語(yǔ)情感分析研究綜述

2022-09-06 11:07徐琳宏林鴻飛

計(jì)算機(jī)工程與應(yīng)用 2022年17期

關(guān)鍵詞：自動(dòng)識(shí)別俄語(yǔ)語(yǔ)料

徐琳宏，劉鑫，閻月，原偉，林鴻飛

1.大連外國(guó)語(yǔ)大學(xué) 語(yǔ)言智能研究中心，遼寧大連116044

2.錦州師范高等?？茖W(xué)校，遼寧錦州 121000

3.信息工程大學(xué) 洛陽(yáng)校區(qū)，河南洛陽(yáng) 471003

4.大連理工大學(xué) 計(jì)算機(jī)系，遼寧大連 116024

情感分析通過(guò)對(duì)信息的處理、識(shí)別和統(tǒng)計(jì)，獲取其中蘊(yùn)含的情感及分布規(guī)律，數(shù)據(jù)主要來(lái)源于社交媒體中用戶評(píng)論，是一個(gè)多學(xué)科交叉的研究方向。隨著移動(dòng)應(yīng)用和互聯(lián)網(wǎng)信息的不斷增加，分析龐大用戶群體的情感特征，提取其中有價(jià)值的信息成為一個(gè)研究熱點(diǎn)。情感分析的研究有助于了解民眾對(duì)時(shí)事熱點(diǎn)、政策規(guī)定和商貿(mào)產(chǎn)品等的真實(shí)態(tài)度和想法，能為政策的制定和調(diào)整提供依據(jù)。但目前情感分析的研究還是以英語(yǔ)為主，俄語(yǔ)情感分析方面無(wú)論是模型構(gòu)建還是數(shù)據(jù)儲(chǔ)備都處在不斷探索中。

在“一帶一路”倡議和合作共贏的大環(huán)境下，俄羅斯作為我國(guó)的全面戰(zhàn)略協(xié)作伙伴，是具有重要影響力的大國(guó)。同時(shí)俄語(yǔ)作為東斯拉夫語(yǔ)支的重要語(yǔ)種，在前蘇聯(lián)15個(gè)加盟共和國(guó)所在區(qū)域也是使用最廣泛的語(yǔ)言，其中俄羅斯聯(lián)邦、白俄羅斯、哈薩克斯坦和吉爾吉斯斯坦都把俄語(yǔ)作為官方語(yǔ)言。因此，解析俄語(yǔ)區(qū)民眾在社交媒體里表達(dá)的態(tài)度有助于探索與各國(guó)在經(jīng)濟(jì)等領(lǐng)域的合作模式，也對(duì)我國(guó)國(guó)際政策的順利開(kāi)展有積極的推動(dòng)作用。

社交媒體中蘊(yùn)含著大量的文本、語(yǔ)音和視頻信息，為情感分析的研究提供了大量真實(shí)的研究數(shù)據(jù)。目前俄羅斯的互聯(lián)網(wǎng)普及率達(dá)到83%，根據(jù)Deloitte[1]2020年發(fā)布的俄羅斯互聯(lián)網(wǎng)使用報(bào)告，YouTube、VKontakte、Instagram 和Odnoklassniki 是目前最為流行的四種社交媒體軟件，大約有77%的用戶周末在線時(shí)間超過(guò)3 小時(shí)，即使工作日也有68%的人使用社交媒體軟件。從用戶年齡角度分析，VKontakte的用戶主要集中在30歲以下的年輕人，而Odnoklassniki則以老年用戶為主。由此可見(jiàn)，在俄羅斯各個(gè)年齡段的人群均在長(zhǎng)時(shí)間地使用社交媒體，由此產(chǎn)生的海量信息為俄語(yǔ)情感分析提供了便利，同時(shí)也是一個(gè)巨大的挑戰(zhàn)。

本文的主要目的是梳理俄語(yǔ)情感分析的傳統(tǒng)模型和最新成果，在此基礎(chǔ)上總結(jié)現(xiàn)有研究的相關(guān)資源、識(shí)別方法和應(yīng)用場(chǎng)景，為后續(xù)俄語(yǔ)情感分析的系統(tǒng)研究提供依據(jù)，并發(fā)現(xiàn)進(jìn)一步探索的方向和研究熱點(diǎn)。

1 數(shù)據(jù)獲取方法及情感分析流程

本文以“emotion+russian”和“sentiment+russian”以及“俄語(yǔ)”“俄文”和“俄漢”與“情感”和“情緒”兩組詞的交叉組合作為檢索詞分別在Web of Science（WoS）、DataBase Systems and Logic Programming（DBLP）和CNKI 中進(jìn)行檢索，獲取相關(guān)文獻(xiàn)190 篇。閱讀每篇文獻(xiàn)并提取其中與俄語(yǔ)情感分析相關(guān)的參考文獻(xiàn)，最終篩選出與本文研究主題相關(guān)的73 篇文獻(xiàn)，對(duì)俄語(yǔ)情感分析的已有研究進(jìn)行細(xì)致梳理和總結(jié)。

情感分析研究的一般研究框架如圖1所示，首先選擇研究領(lǐng)域，獲取相關(guān)語(yǔ)料，接著完成數(shù)據(jù)的預(yù)處理，在合理的標(biāo)注規(guī)范和標(biāo)注原則指導(dǎo)下完成情感標(biāo)注工作，然后對(duì)數(shù)據(jù)進(jìn)行識(shí)別或分析。識(shí)別工作多采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型，借助詞典和形態(tài)分析工具等資源，以相關(guān)的評(píng)估指標(biāo)為指導(dǎo)，旨在完成更大規(guī)模語(yǔ)料的自動(dòng)識(shí)別。數(shù)據(jù)分析工作多是統(tǒng)計(jì)人工或自動(dòng)方式標(biāo)注的數(shù)據(jù)，發(fā)掘網(wǎng)絡(luò)中積極和消極情感的分布規(guī)律和傳播方式等。也有很多研究先通過(guò)機(jī)器自動(dòng)識(shí)別大規(guī)模的情感數(shù)據(jù)，再采用統(tǒng)計(jì)的方法分析數(shù)據(jù)的分布特征。本文將在后續(xù)的章節(jié)中按情感分析的研究框架逐一梳理俄語(yǔ)情感分析的研究工作。

圖1 情感分析研究框架Fig.1 Research framework of sentiment analysis

2 俄語(yǔ)情感分析資源

資源的使用貫穿于情感分析的每個(gè)階段，無(wú)論是語(yǔ)料預(yù)處理還是針對(duì)情感自動(dòng)識(shí)別的特征提取，都需要用到情感詞典和各類(lèi)相關(guān)工具。而數(shù)據(jù)集不但是開(kāi)展分析工作的基礎(chǔ)，也是研究結(jié)論可靠性和魯棒性的重要保障。與資源比較豐富的英語(yǔ)情感分析相比，俄語(yǔ)情感分析在規(guī)模和數(shù)量上相對(duì)比較匱乏，因此每個(gè)資源更顯得彌足珍貴，本章將介紹俄語(yǔ)的情感詞典和帶標(biāo)注數(shù)據(jù)集兩類(lèi)資源。

2.1 俄語(yǔ)情感詞典

表1 中列出了現(xiàn)有的俄語(yǔ)情感詞典資源，其中LinisCrowd和RuSentiLex是兩個(gè)規(guī)模較大、建設(shè)質(zhì)量較高、引用頻次較多的詞典。它們都是采用半自動(dòng)的方法創(chuàng)建，即先采用模式匹配的方法從大規(guī)模語(yǔ)料中自動(dòng)抽取候選詞列表，然后通過(guò)人工的篩選確定情感類(lèi)別，例如RuSentiLex詞典就采用了35種負(fù)面模式和20種正面模式獲取候選情感詞。自動(dòng)構(gòu)建詞典多是采用與種子詞計(jì)算相似度[13]、與帶標(biāo)注文檔計(jì)算PMI[14]或者利用圖傳播[12]的方法。一般來(lái)說(shuō)，完全自動(dòng)的方式構(gòu)建的詞典規(guī)模較大，但質(zhì)量相對(duì)較低。純手工創(chuàng)建的情感詞典雖然質(zhì)量較高，但考慮人工成本，詞典規(guī)模都不會(huì)太大，且大多局限于某個(gè)領(lǐng)域，例如Tutubalina2016 和Blinov2013語(yǔ)料分別來(lái)源于汽車(chē)和電影評(píng)論兩個(gè)領(lǐng)域，規(guī)模都在5 000詞左右。

表1 俄語(yǔ)情感詞典匯總Table 1 Russian sentiment lexicon

情感詞典的分類(lèi)以三分類(lèi)和二分類(lèi)居多，三分類(lèi)是將詞匯分為正面、負(fù)面和中性，而二分類(lèi)則是去掉中性類(lèi)別，五分類(lèi)就是在此基礎(chǔ)上將正面和負(fù)面分別劃分為強(qiáng)和弱兩種。單分類(lèi)的情感詞典只有Kamil2021 的辱罵語(yǔ)詞典，詞表中詞匯都是辱罵語(yǔ)。RuSentiLex詞典是四分類(lèi)的，它是三分類(lèi)的基礎(chǔ)上增加了一個(gè)亦正亦負(fù)的類(lèi)別，就是說(shuō)某些詞匯具有情感，但在不同語(yǔ)境下情感類(lèi)別不同，從單一詞匯角度無(wú)法確定極性，這類(lèi)詞匯在詞典中有291 個(gè)。其他詞典并沒(méi)有考慮詞匯在不同語(yǔ)境中情感的差異性，一個(gè)詞匯只能屬于單一類(lèi)別，這樣會(huì)影響詞匯表達(dá)語(yǔ)義時(shí)的多樣性，因此，這將是未來(lái)俄語(yǔ)情感詞典構(gòu)建工作需要加強(qiáng)和改進(jìn)的方面。

情感詞典的數(shù)據(jù)來(lái)源主要集中在已有詞典、新聞和評(píng)論幾種語(yǔ)料。LinisCrowd、RuSentiLex、Chen2014 和Kamil2021 都利用了已有的詞典和WordNet 等電子資源。而評(píng)論類(lèi)語(yǔ)料來(lái)源既包括餐館、酒店和銀行等實(shí)體對(duì)象，也包括電影、書(shū)籍、相機(jī)和汽車(chē)等產(chǎn)品。產(chǎn)品評(píng)論類(lèi)的情感詞匯多與產(chǎn)品的不同方面有關(guān)，主要應(yīng)用于方面級(jí)情感分析。語(yǔ)料大多源自相關(guān)的社交媒體平臺(tái)，如VKontakte、Twitter和LiveJournal等。此外，質(zhì)量較高的英語(yǔ)情感詞典LIWC也有相應(yīng)的俄語(yǔ)翻譯版本，未在表格中列出。從來(lái)源看，情感詞典在繼承已有知識(shí)的基礎(chǔ)上，語(yǔ)料來(lái)源比較廣泛，保證了詞匯的多樣性。未來(lái)可以考慮整合所有的情感詞典，同時(shí)還可以利用手工構(gòu)建的詞典進(jìn)一步評(píng)估自動(dòng)詞典的質(zhì)量，構(gòu)建一個(gè)規(guī)模更大、詞匯更加豐富和準(zhǔn)確的高質(zhì)量俄語(yǔ)情感詞典。

2.2 俄語(yǔ)情感分析數(shù)據(jù)集

表2中列出了俄語(yǔ)情感分析的相關(guān)數(shù)據(jù)集的規(guī)模、分類(lèi)方法、數(shù)據(jù)來(lái)源和模態(tài)等信息。與詞典構(gòu)建不同，大部分?jǐn)?shù)據(jù)集是人工參與標(biāo)注和審核的，單純自動(dòng)方式構(gòu)建的數(shù)據(jù)集只有7個(gè)，一般是根據(jù)用戶評(píng)分結(jié)果直接分類(lèi)[27-28]或者根據(jù)語(yǔ)句中的表情符號(hào)分類(lèi)[25]，目前還沒(méi)有發(fā)現(xiàn)使用自動(dòng)識(shí)別模型進(jìn)行標(biāo)注的數(shù)據(jù)集，這可能與俄語(yǔ)情感識(shí)別準(zhǔn)確率總體比較低，難以保證情感分類(lèi)質(zhì)量有關(guān)。在所有的數(shù)據(jù)集中，RuSentiment 和LinisCrowd2016 的質(zhì)量相對(duì)較高，都是五分類(lèi)的語(yǔ)料，RuTweetCorp 和RuReviews 規(guī)模相對(duì)較大，均是以自動(dòng)方式構(gòu)建的?，F(xiàn)有數(shù)據(jù)集以文本形式的語(yǔ)料為主，分為一般文本情感分析和方面級(jí)情感分析兩類(lèi)。

表2中包含8個(gè)與評(píng)測(cè)相關(guān)的數(shù)據(jù)集。俄語(yǔ)情感分析的評(píng)測(cè)從2011 開(kāi)始出現(xiàn)，分別由俄羅斯信息檢索研討會(huì)（ROMIP）、SentiRuEval 和SemEval 發(fā)起。ROMIP是一個(gè)類(lèi)似于TREC 的俄語(yǔ)競(jìng)賽，關(guān)于情感分析的競(jìng)賽項(xiàng)目集中在2011 和2012 年發(fā)布。SentiRuEval 和SemEval都是針對(duì)情感分析任務(wù)的競(jìng)賽，前者專門(mén)面向俄語(yǔ)情感分析，辦了2015 年和2016 年兩屆。SemEval包含各個(gè)語(yǔ)種的情感分析任務(wù)，每年都會(huì)舉辦，其中2016 年的任務(wù)5 是針對(duì)俄語(yǔ)情感分析的。上述三個(gè)競(jìng)賽的語(yǔ)料均來(lái)源于用戶評(píng)論，ROMIP 評(píng)測(cè)語(yǔ)料是來(lái)自Imhonet和Yandex網(wǎng)站用戶關(guān)于電影、書(shū)籍、相機(jī)評(píng)論，訓(xùn)練集根據(jù)用戶評(píng)分自動(dòng)分類(lèi)，測(cè)試集經(jīng)過(guò)人工標(biāo)注。SentiRuEval 是Twitter 中關(guān)于電信和銀行的評(píng)論，2016年的數(shù)據(jù)是在2015 年的基礎(chǔ)上追加了部分?jǐn)?shù)據(jù)，兩者有部分重合。SemEval 的任務(wù)5 是關(guān)于餐館評(píng)論的，除了正面、負(fù)面和中性的三分類(lèi)，還有少部分語(yǔ)料標(biāo)注為“沖突”類(lèi)。

表2 俄語(yǔ)情感數(shù)據(jù)集Table 2 Datasets of Russian sentiment analysis

SentiRuEval 和SemEval 都是對(duì)產(chǎn)品或餐館的某個(gè)方面進(jìn)行情感標(biāo)注，因此可以應(yīng)用于方面級(jí)情感分析的任務(wù)，但是語(yǔ)料中大部分?jǐn)?shù)據(jù)都是一條數(shù)據(jù)對(duì)應(yīng)一個(gè)方面，所以也可以用于一般的文本情感分類(lèi)任務(wù)。需要注意的是方面情感標(biāo)注中正面、負(fù)面和中性的數(shù)量是按方面計(jì)算，因?yàn)橐粋€(gè)評(píng)論可以包含多個(gè)方面，因此每類(lèi)標(biāo)注數(shù)量的總和會(huì)大于總評(píng)論數(shù)。從數(shù)據(jù)來(lái)源看，新聞和用戶觀點(diǎn)類(lèi)的語(yǔ)料主要來(lái)自VK、Twitter、LiveJournal和Censor，而產(chǎn)品評(píng)論類(lèi)的語(yǔ)料主要來(lái)源是電子商務(wù)類(lèi)的網(wǎng)站，包括Imhonet、Yandex、banki.ru、TripAdvisor 和Restoclub 等。從發(fā)布時(shí)間看，文本類(lèi)的情感標(biāo)注語(yǔ)料從2012年開(kāi)始，前期主要以手工標(biāo)注為主，近幾年開(kāi)始出現(xiàn)大規(guī)模的自動(dòng)標(biāo)注語(yǔ)料。語(yǔ)料發(fā)布集中在2012—2013 和2016—2017 這兩個(gè)時(shí)間段內(nèi)，這可能是因?yàn)槎碚Z(yǔ)情感分析的研究工作在2016年以后逐步獲得更多研究者的關(guān)注。從各情感類(lèi)別的數(shù)據(jù)分布看，大部分語(yǔ)料中性類(lèi)數(shù)據(jù)較多，正面和負(fù)面數(shù)據(jù)相對(duì)較少，正面和負(fù)面語(yǔ)料的比例也差異較大，數(shù)據(jù)的不平衡性比較明顯，這也為俄語(yǔ)情感分析的自動(dòng)識(shí)別提出了挑戰(zhàn)。

此外，數(shù)據(jù)集中還有兩個(gè)關(guān)于幽默的語(yǔ)料，Blinov Humor[26]和Pikabu2021[29]將文本分為幽默和非幽默兩類(lèi)，適用于俄語(yǔ)的幽默識(shí)別研究。除了文本語(yǔ)料外，表2還包含三個(gè)多模態(tài)語(yǔ)料，Ruslana[34]、Ramas[35]和Xu2021[36]。它們的情感類(lèi)別比較多，主要分為驚奇、幸福、憤怒、悲傷、恐懼和中性，Ramas 在Ruslana 的基礎(chǔ)上增加了“厭惡”類(lèi)別，這兩個(gè)語(yǔ)料庫(kù)都是以視頻形式展現(xiàn)，由專業(yè)演員演繹各類(lèi)情感。Ramas除了視頻模態(tài)，還采集了表演者的面部表情、語(yǔ)音、運(yùn)動(dòng)以及生理信號(hào)等信息。Xu2021則是以俄語(yǔ)情景劇《我是如何成為俄羅斯人的》的視頻為數(shù)據(jù)源，人工標(biāo)注完成。三個(gè)多模態(tài)語(yǔ)料中，Ramas 和Xu2021 都是會(huì)話式語(yǔ)料，數(shù)據(jù)包含多人的對(duì)話，上下句之間具有一定的情感連續(xù)性，而Ruslana是獨(dú)白式的語(yǔ)料，視頻中只出現(xiàn)一個(gè)人的自述，兩種類(lèi)型的語(yǔ)料在多模態(tài)情感分析的模型選擇上差異較大，不同的應(yīng)用場(chǎng)景需要選擇不同類(lèi)型的數(shù)據(jù)集。

3 俄語(yǔ)情感分析的方法

俄語(yǔ)情感分析的研究分為幾種類(lèi)型，一類(lèi)是針對(duì)固定領(lǐng)域的標(biāo)注語(yǔ)料進(jìn)行統(tǒng)計(jì)，解析社交網(wǎng)絡(luò)數(shù)據(jù)的規(guī)律和特點(diǎn)，為相關(guān)政策的制定和調(diào)整提供依據(jù)。還有一類(lèi)是從語(yǔ)言學(xué)的角度出發(fā)，重點(diǎn)分析俄語(yǔ)中情感詞匯的表達(dá)方式。此外，更多的研究是先構(gòu)建自動(dòng)識(shí)別模型，獲取大規(guī)模語(yǔ)料，然后在大規(guī)模語(yǔ)料上完成數(shù)據(jù)分析。成功構(gòu)建自動(dòng)識(shí)別模型是后續(xù)研究順利進(jìn)行的基礎(chǔ)，模型結(jié)果的準(zhǔn)確性也是研究結(jié)論正確與否的保障，因此這一章中側(cè)重綜述與俄語(yǔ)情感分析自動(dòng)識(shí)別模型相關(guān)的工作，并補(bǔ)充部分俄語(yǔ)情感詞匯分析和數(shù)據(jù)分析的研究文章。梳理過(guò)程中參考了已有的綜述文獻(xiàn)[37-41]，但與其他相關(guān)綜述不同的是本文以情感分析的流程為線索，分階段總結(jié)當(dāng)前俄語(yǔ)情感分析工作的特點(diǎn)，并且詳細(xì)列出了自動(dòng)模型的分類(lèi)方法和實(shí)驗(yàn)結(jié)果等信息。

3.1 俄語(yǔ)情感的自動(dòng)識(shí)別模型

隨著互聯(lián)網(wǎng)的高速發(fā)展，數(shù)量龐大的社交媒體用戶每天產(chǎn)生海量文本，單純依靠人工標(biāo)注方式難以獲取大規(guī)模的用戶情感數(shù)據(jù)，這就需要借助情感分析的自動(dòng)識(shí)別模型。早期的情感分析方法有基于規(guī)則和機(jī)器學(xué)習(xí)兩種，基于規(guī)則的方法通常以情感詞典為基礎(chǔ)，配合固定的情感表達(dá)模式，這種方法的準(zhǔn)確率取決于詞典的規(guī)模、質(zhì)量以及歸納的模式是否全面，很難應(yīng)對(duì)互聯(lián)網(wǎng)中層出不窮的新詞匯和表達(dá)方式。與基于規(guī)則的方法相比，機(jī)器學(xué)習(xí)的方法更節(jié)省人力資源，除了特征提取外多數(shù)工作依靠機(jī)器自動(dòng)完成，其中特征提取和機(jī)器學(xué)習(xí)模型的配合是研究的重點(diǎn)。2016年后，隨著深度學(xué)習(xí)方法廣泛應(yīng)用，許多研究者發(fā)現(xiàn)在俄語(yǔ)情感分析工作中，選擇和搭配適當(dāng)?shù)纳顚由窠?jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型更為重要。表3從數(shù)據(jù)來(lái)源、模型方法和分類(lèi)結(jié)果幾個(gè)方面對(duì)比和總結(jié)了俄語(yǔ)情感分析自動(dòng)識(shí)別的工作。

表3中的數(shù)據(jù)大體按其發(fā)表的年份排列，其中編號(hào)1～19的相關(guān)研究針對(duì)一般情感分析，編號(hào)20～23的工作是關(guān)于方面級(jí)情感分析的。該表匯總了在特定數(shù)據(jù)集上的最好結(jié)果，為了兼顧分類(lèi)結(jié)果的準(zhǔn)確率和召回率，本文以分類(lèi)評(píng)估最常用的宏平均（F1）作為主要的測(cè)量指標(biāo)，對(duì)于沒(méi)有提供F1值的部分研究，則給出其分類(lèi)結(jié)果的準(zhǔn)確率（accuracy，Acc）。有些工作中結(jié)合了多個(gè)模型實(shí)現(xiàn)俄語(yǔ)情感分析，表3中只列出了對(duì)應(yīng)文獻(xiàn)中特定數(shù)據(jù)集上效果最佳的模型及其實(shí)驗(yàn)結(jié)果。

從表3 中可以看出，2012 年到2016 年間，俄語(yǔ)情感自動(dòng)識(shí)別模型以機(jī)器學(xué)習(xí)為主，效果較好的模型包括SVM、NB、LR 和MaxEnt，大多研究工作在對(duì)比多種機(jī)器學(xué)習(xí)算法之后，發(fā)現(xiàn)SVM 效果最好。機(jī)器學(xué)習(xí)模型分類(lèi)的結(jié)果不僅依賴算法的選擇，更依賴特征的選擇，俄語(yǔ)情感分析中常用的特征包括詞匯級(jí)和語(yǔ)句級(jí)兩大類(lèi)。詞匯級(jí)特征在語(yǔ)料預(yù)處理階段主要體現(xiàn)在詞干化和形態(tài)還原等，模型輸入層多以情感詞典為基礎(chǔ)[28，43]，并通過(guò)同義詞和近義詞等方式進(jìn)行擴(kuò)充和分組。語(yǔ)句級(jí)的特征一般有Unigram、Bigram、Tf*idf[42]以及句法結(jié)構(gòu)[31，55]和語(yǔ)法關(guān)系[44-45]等。2016 年以后，俄語(yǔ)情感分析中開(kāi)始引入多種深度學(xué)習(xí)模型，其中包括CNN、LSTM和GRU 等，大部分研究者采用單一的神經(jīng)網(wǎng)絡(luò)模型[18，27，49，51，54]，少部分研究者則針對(duì)不同模型的優(yōu)點(diǎn)對(duì)其進(jìn)行組合和改進(jìn)[56]。

表3 俄語(yǔ)情感分析模型匯總Table 3 Summary of Russian sentiment analysis model

隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的不斷應(yīng)用，基于語(yǔ)言模型的詞向量技術(shù)也在不斷發(fā)展。早期的研究者多數(shù)使用Word2Vec、GloVe 和FastText 等靜態(tài)詞向量，但由于同一單詞在不同的語(yǔ)境中對(duì)應(yīng)的詞向量不變，故而很難解決一詞多義問(wèn)題。因此越來(lái)越多的研究者通過(guò)ELMo、GPT 和Bert 等預(yù)訓(xùn)練模型生成動(dòng)態(tài)詞向量，充分提取單詞的上下文特征信息，根據(jù)不同的語(yǔ)境動(dòng)態(tài)調(diào)整詞向量，較好地解決了一詞多義問(wèn)題。RuBert[41]是Bert 模型在大規(guī)模俄文語(yǔ)料上訓(xùn)練之后得到的預(yù)訓(xùn)練模型，它受到了許多學(xué)者的青睞，并在很多研究中取得較好的結(jié)果。值得一提的是，還有一些學(xué)者試圖融合重構(gòu)基于特征提取的機(jī)器學(xué)習(xí)模型和基于詞向量的深度學(xué)習(xí)模型，例如將詞向量作為特征輸入到傳統(tǒng)機(jī)器學(xué)習(xí)模型中[50]，或者將人工提取的特征加入到深度學(xué)習(xí)模型的各層架構(gòu)中[54]。

除了RuSentiment、RuTweetCorp、RuReviews、Linis-Crowd等常見(jiàn)語(yǔ)料庫(kù)之外，Kaggle、ROMIP和SentiRuEval等評(píng)測(cè)數(shù)據(jù)集也被眾多研究者所采用。部分研究工作涵蓋了多種數(shù)據(jù)集[29，46，51-53]，大部分工作的實(shí)驗(yàn)結(jié)論僅針某個(gè)單一的數(shù)據(jù)集。在各常用語(yǔ)料庫(kù)上，目前表現(xiàn)最好的模型及其分類(lèi)結(jié)果依次為：在RuSentiment 上采用預(yù)訓(xùn)練模型ELMo 與CNN[47]模型結(jié)合，最終獲得78.5%的F1值；在RuTweetCorp上采用雙向GRU（BiGRU）模型[51]獲得90.9%的F1 值；在RuReviews 上采用CNN 模型獲得75.5%[27]的F1 值。而在各種評(píng)測(cè)數(shù)據(jù)集上的研究現(xiàn)狀如下：RuBert 在SentiRuEval 的電信數(shù)據(jù)和銀行數(shù)據(jù)中分別獲得69.1%和79.5%的F1 值；Loukachevitch 等[28]將SVM 和最大熵模型分別應(yīng)用在ROMIP2011 和2012數(shù)據(jù)集上，并完成二分類(lèi)、三分類(lèi)和五分類(lèi)實(shí)驗(yàn)。觀察表3中的三分類(lèi)結(jié)果可以發(fā)現(xiàn)，其研究成果在2011年和2012 年的相機(jī)類(lèi)評(píng)論數(shù)據(jù)集上表現(xiàn)差異較大，F(xiàn)1 值從62.3%下降為48.0%，可見(jiàn)即使在同一領(lǐng)域的數(shù)據(jù)中，模型的波動(dòng)也較大。俄語(yǔ)情感分析領(lǐng)域的深度學(xué)習(xí)模型相對(duì)都比較簡(jiǎn)單，以RuSentiment 數(shù)據(jù)集上效果最好CNN模型為例，首先將詞向量嵌入到三個(gè)卷積中，每個(gè)卷積具有相同數(shù)量的過(guò)濾器和不同的內(nèi)核大小，經(jīng)ReLU 激活后進(jìn)行連接，最后通過(guò)softmax 激活，獲取最終結(jié)果[47]。具體模型如圖2所示。

圖2 Shallow-and-wide卷積神經(jīng)網(wǎng)絡(luò)Fig.2 Shallow-and-wide CNN

從評(píng)測(cè)的總體結(jié)果看，二分類(lèi)任務(wù)結(jié)果較高，接近90%，三分類(lèi)任務(wù)一般在75%左右，五分類(lèi)任務(wù)的結(jié)果最差，接近50%[19，28]。除了上述旨在提高自動(dòng)分類(lèi)結(jié)果的研究外，還有一些研究分析不同外在因素對(duì)分類(lèi)結(jié)果的影響，如Rubtsova[58]研究不同年份數(shù)據(jù)的自動(dòng)分類(lèi)性能差異，Araslanov 等[59]基于NB 和LR 算法評(píng)估俄語(yǔ)短文本預(yù)處理對(duì)分類(lèi)結(jié)果的影響。

在俄語(yǔ)情感分析中，以SVM、NB 等為代表的傳統(tǒng)機(jī)器學(xué)習(xí)模型具有較完美的數(shù)學(xué)理論解釋，面向海量數(shù)據(jù)時(shí)模型的訓(xùn)練時(shí)長(zhǎng)相對(duì)較短。深度學(xué)習(xí)則更偏重經(jīng)驗(yàn)主義驅(qū)動(dòng)，其多數(shù)模型的可解釋性研究進(jìn)展較為緩慢。然而，近年來(lái)越來(lái)越多的實(shí)驗(yàn)表明，深度學(xué)習(xí)模型在進(jìn)行訓(xùn)練學(xué)習(xí)時(shí)，能保留更多對(duì)于數(shù)據(jù)的擬合度、攜帶更多的語(yǔ)義信息，其性能優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型。

在深度學(xué)習(xí)模型中，主體由卷積層構(gòu)成的CNN 模型結(jié)構(gòu)相對(duì)簡(jiǎn)單，模型訓(xùn)練時(shí)并行運(yùn)算能力更強(qiáng)，對(duì)識(shí)別目標(biāo)任務(wù)的結(jié)構(gòu)具有一定的優(yōu)勢(shì)。以GRU 和LSTM為代表的RNN 模型訓(xùn)練時(shí)間相對(duì)較長(zhǎng)，但由于其記憶功能對(duì)序列識(shí)別建模具備優(yōu)勢(shì)，因此更為廣泛地應(yīng)用于多種NLP 任務(wù)。與上述深度學(xué)習(xí)模型相比，以ELMo、GPT 和BERT 等為代表的預(yù)訓(xùn)練模型提供了更好的模型初始化，通常具有更好的泛化性能，并能加速對(duì)目標(biāo)任務(wù)的收斂。

從近年來(lái)的研究結(jié)果來(lái)看，在情感分析任務(wù)中深度學(xué)習(xí)模型并未能全面超越傳統(tǒng)模型。例如，在Matheus2016 數(shù)據(jù)集上采用SVM 方法可取得61.0%的F1 值，其與CNN-BiLSTM 模型的結(jié)果相差不大。在多模態(tài)這一情感分析的最新研究領(lǐng)域中，目前針對(duì)俄語(yǔ)相關(guān)語(yǔ)料的自動(dòng)識(shí)別研究很少，尚處于起步階段。

綜上所述，在基于規(guī)則的情感分析方法之后，俄語(yǔ)情感自動(dòng)識(shí)別模型的發(fā)展具有較為鮮明的時(shí)代特征，可以劃分為傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩個(gè)階段，雖然分類(lèi)算法的選擇對(duì)模型的自動(dòng)識(shí)別效果很重要，但語(yǔ)料的預(yù)處理方法、特征提取和預(yù)訓(xùn)練模型的微調(diào)也會(huì)對(duì)識(shí)別準(zhǔn)確率產(chǎn)生較大影響，一個(gè)好的研究方案應(yīng)該綜合考慮上述多個(gè)方面。另外，俄語(yǔ)情感識(shí)別的結(jié)果普遍較低，當(dāng)數(shù)據(jù)集的規(guī)模較大時(shí)，三分類(lèi)的宏平均基本在75%左右，這與實(shí)際應(yīng)用的需求還有一定差距，尚有較大的提升空間。此外，模型的穩(wěn)定性也是自動(dòng)情感分類(lèi)算法未能大范圍推廣的重要原因，自動(dòng)識(shí)別算法的魯棒性和泛化性還有待進(jìn)一步提高。

3.2 俄語(yǔ)情感語(yǔ)料的數(shù)據(jù)分析

俄語(yǔ)情感的數(shù)據(jù)分析是在人工或者自動(dòng)標(biāo)注語(yǔ)料的基礎(chǔ)上，分析數(shù)據(jù)中情感表達(dá)的特點(diǎn)，進(jìn)而發(fā)掘公眾對(duì)新聞事件的觀點(diǎn)，探索用戶評(píng)論中蘊(yùn)含的情感以及情緒的分布和傳播規(guī)律等。按分析對(duì)象的粒度可以分為詞匯級(jí)和語(yǔ)句級(jí)，國(guó)內(nèi)有很多學(xué)者研究了俄語(yǔ)詞匯的情感表達(dá)，如研究俄語(yǔ)中帶有情感意義的成語(yǔ)[60]、俄語(yǔ)情感類(lèi)心理動(dòng)詞[61]、俄語(yǔ)情感態(tài)度動(dòng)詞以及俄語(yǔ)情感詞匯的表達(dá)手段[62-63】等。國(guó)內(nèi)以語(yǔ)句為單位的相關(guān)研究不多，原偉等[64]在構(gòu)建并分析俄漢可比語(yǔ)料庫(kù)的基礎(chǔ)上，發(fā)現(xiàn)俄文評(píng)論趨向使用長(zhǎng)評(píng)論、形容詞和動(dòng)詞表達(dá)情感，而中文網(wǎng)評(píng)趨向使用短評(píng)論、名詞和動(dòng)詞表達(dá)情感，俄文新聞評(píng)論中存在冗余消極評(píng)價(jià)的現(xiàn)象等。朱姍姍等[5]為考察俄語(yǔ)情感詞匯的表達(dá)手段，人工標(biāo)注了8 031條用戶評(píng)論，構(gòu)建了包括6 321條詞匯的俄語(yǔ)情感詞典，并在此基礎(chǔ)上分析了俄語(yǔ)情感表達(dá)的手段。

除了文本模態(tài)的詞匯外，語(yǔ)音等多模態(tài)情感詞匯的研究很早就已經(jīng)開(kāi)展，它們多以Ruslana語(yǔ)料庫(kù)為基礎(chǔ)，探索俄語(yǔ)情感表達(dá)中的聲學(xué)特征[65]，分析情感狀態(tài)對(duì)俄語(yǔ)擦音和塞擦音特征的影響[66]，探查持續(xù)時(shí)間、能量、共振峰和動(dòng)態(tài)范圍對(duì)俄語(yǔ)情緒表達(dá)的影響[67]，討論加入表達(dá)者的信息是否有助于語(yǔ)音情感識(shí)別[68]。

在國(guó)外，以情感自動(dòng)或手工創(chuàng)建的俄語(yǔ)情感語(yǔ)料為基礎(chǔ)，統(tǒng)計(jì)和分析數(shù)據(jù)的研究很多，文獻(xiàn)[40]中按數(shù)據(jù)來(lái)源的類(lèi)型劃分，詳細(xì)梳理了此類(lèi)相關(guān)的研究，這里不再贅述，本文在此補(bǔ)充部分未提及的俄語(yǔ)情感數(shù)據(jù)分析相關(guān)的研究。Litvinova等[69]研究欺騙檢測(cè)的問(wèn)題，分析俄語(yǔ)真假文本在統(tǒng)計(jì)上是否有顯著差異，發(fā)現(xiàn)男性和女性說(shuō)謊的方式不同，且應(yīng)為不同性別、年齡和心理特征的人設(shè)計(jì)不同的模型。Bodrunova等[70]分析俄語(yǔ)可解性與情感的關(guān)系，用統(tǒng)計(jì)學(xué)的方法探究自動(dòng)識(shí)別模型（LDA、WNTM 和BTM）和人工標(biāo)注在可解性方面的差異，發(fā)現(xiàn)可解釋的話題越多，負(fù)面情緒就越重。Alvarez等[71]研究Facebook廣告文本中的情感，發(fā)現(xiàn)與負(fù)面廣告比，大多數(shù)的廣告都有積極情緒，且廣告中的情感在2016美國(guó)總統(tǒng)大選前后波動(dòng)比較明顯。

4 俄語(yǔ)情感分析的述評(píng)及展望

本文以情感分析研究工作的具體流程為線索，詳細(xì)梳理了俄語(yǔ)情感分析的資源、自動(dòng)識(shí)別模型和數(shù)據(jù)分析三個(gè)方面的工作，總結(jié)了以往研究中的常用方法和當(dāng)前的主流模型。現(xiàn)有的俄語(yǔ)情感分析資源包括情感詞典和情感語(yǔ)料兩種類(lèi)型，在此基礎(chǔ)上總結(jié)了主流的自動(dòng)情感識(shí)別模型，機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型。主要的研究結(jié)論有以下幾點(diǎn)：

（1）資源建設(shè)方面，俄語(yǔ)情感分析的資源建設(shè)目前已經(jīng)初具規(guī)模，為情感分析的后續(xù)研究工作提供了保障。情感詞典中詞匯的數(shù)量已經(jīng)能涵蓋大部分俄語(yǔ)的常用情感詞匯，現(xiàn)有的數(shù)據(jù)集中也包含了一些大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù)，但數(shù)據(jù)來(lái)源有限，還需要進(jìn)一步拓展，同時(shí)對(duì)各類(lèi)資源的整合工作也需要加強(qiáng)。

（2）自動(dòng)識(shí)別方面，主流的模型分為傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩種，整體識(shí)別的效率和準(zhǔn)確率還有待提高。機(jī)器學(xué)習(xí)模型以SVM 算法為主，選擇的特征有NGram、詞法和句法等。深度學(xué)習(xí)模型選擇算法主要有CNN、RNN和RuBert等。在幾個(gè)大規(guī)模數(shù)據(jù)集中，三分類(lèi)的宏平均最好結(jié)果基本在75%左右。

（3）數(shù)據(jù)分析及應(yīng)用方面，目前大部分的數(shù)據(jù)分析工作是以大規(guī)模自動(dòng)識(shí)別的語(yǔ)料為基礎(chǔ)的，應(yīng)用范圍從宏觀的熱點(diǎn)話題監(jiān)控和輿情分析到微觀的產(chǎn)品和服務(wù)的創(chuàng)新和改進(jìn)，在多個(gè)領(lǐng)域都有廣泛的應(yīng)用價(jià)值。然而自動(dòng)識(shí)別模型的分類(lèi)效果難以像人工一樣準(zhǔn)確，因此對(duì)研究結(jié)論的有效性會(huì)產(chǎn)生一定影響。

俄語(yǔ)情感分析的研究工作雖然已經(jīng)取得了一定的進(jìn)展，但是與比較成熟的英文情感分析的綜述[72]和研究工作[73]相比，整體研究水平還處于初級(jí)階段，存在著很多的不足之處，主要體現(xiàn)在以下幾個(gè)方面：

（1）從俄語(yǔ)自身的特點(diǎn)出發(fā)構(gòu)建的模型較少。當(dāng)前的很多自動(dòng)識(shí)別工作是簡(jiǎn)單地參考英文情感分析模型，沒(méi)有考慮俄語(yǔ)自身的特性，導(dǎo)致識(shí)別的準(zhǔn)確率普遍較低。俄語(yǔ)作為一種高度屈折的語(yǔ)言，情感表達(dá)的方式有很多獨(dú)有的特點(diǎn)，未來(lái)可以將這些特性添加到模型中，提高識(shí)別的效果。

（2）資源共享性有待加強(qiáng)，語(yǔ)料來(lái)源需要不斷拓寬。雖然現(xiàn)有俄語(yǔ)情感分析的詞典和數(shù)據(jù)資源較多，但部分資源不能公開(kāi)獲取，例如大規(guī)模的語(yǔ)料資源RuSentiment，因?yàn)樯缃黄脚_(tái)的信息授權(quán)問(wèn)題不能繼續(xù)提供下載。此外，方面級(jí)語(yǔ)料資源多來(lái)自電影、餐館、銀行和相機(jī)等領(lǐng)域，范圍較窄，還需不斷收集不同領(lǐng)域的數(shù)據(jù)，拓寬研究范圍。

（3）利用資源豐富的其他語(yǔ)種語(yǔ)料庫(kù)的遷移工作比較少。英語(yǔ)等語(yǔ)種的情感分析的研究資源比較豐富，可以考慮采用遷移學(xué)習(xí)等手段，利用其他語(yǔ)種的現(xiàn)有資源，不斷擴(kuò)展俄語(yǔ)情感分析的研究方法和資源。

（4）俄語(yǔ)情感分析工作基本上都是文本模態(tài)，語(yǔ)音和圖像等多模態(tài)的研究工作還處于起步階段。情感表達(dá)是一個(gè)多層次、多角度的展現(xiàn)過(guò)程，單純依賴文本表達(dá)必然會(huì)損失很多情感信息，因此多種模態(tài)信息的互補(bǔ)以及與俄語(yǔ)語(yǔ)音等多個(gè)學(xué)科的交叉將是未來(lái)一個(gè)重要研究領(lǐng)域。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡