国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

俄語(yǔ)情感分析研究綜述

2022-09-06 11:07徐琳宏林鴻飛
關(guān)鍵詞:自動(dòng)識(shí)別俄語(yǔ)語(yǔ)料

徐琳宏,劉 鑫,閻 月,原 偉,林鴻飛

1.大連外國(guó)語(yǔ)大學(xué) 語(yǔ)言智能研究中心,遼寧 大連116044

2.錦州師范高等??茖W(xué)校,遼寧 錦州 121000

3.信息工程大學(xué) 洛陽(yáng)校區(qū),河南 洛陽(yáng) 471003

4.大連理工大學(xué) 計(jì)算機(jī)系,遼寧 大連 116024

情感分析通過(guò)對(duì)信息的處理、識(shí)別和統(tǒng)計(jì),獲取其中蘊(yùn)含的情感及分布規(guī)律,數(shù)據(jù)主要來(lái)源于社交媒體中用戶評(píng)論,是一個(gè)多學(xué)科交叉的研究方向。隨著移動(dòng)應(yīng)用和互聯(lián)網(wǎng)信息的不斷增加,分析龐大用戶群體的情感特征,提取其中有價(jià)值的信息成為一個(gè)研究熱點(diǎn)。情感分析的研究有助于了解民眾對(duì)時(shí)事熱點(diǎn)、政策規(guī)定和商貿(mào)產(chǎn)品等的真實(shí)態(tài)度和想法,能為政策的制定和調(diào)整提供依據(jù)。但目前情感分析的研究還是以英語(yǔ)為主,俄語(yǔ)情感分析方面無(wú)論是模型構(gòu)建還是數(shù)據(jù)儲(chǔ)備都處在不斷探索中。

在“一帶一路”倡議和合作共贏的大環(huán)境下,俄羅斯作為我國(guó)的全面戰(zhàn)略協(xié)作伙伴,是具有重要影響力的大國(guó)。同時(shí)俄語(yǔ)作為東斯拉夫語(yǔ)支的重要語(yǔ)種,在前蘇聯(lián)15個(gè)加盟共和國(guó)所在區(qū)域也是使用最廣泛的語(yǔ)言,其中俄羅斯聯(lián)邦、白俄羅斯、哈薩克斯坦和吉爾吉斯斯坦都把俄語(yǔ)作為官方語(yǔ)言。因此,解析俄語(yǔ)區(qū)民眾在社交媒體里表達(dá)的態(tài)度有助于探索與各國(guó)在經(jīng)濟(jì)等領(lǐng)域的合作模式,也對(duì)我國(guó)國(guó)際政策的順利開(kāi)展有積極的推動(dòng)作用。

社交媒體中蘊(yùn)含著大量的文本、語(yǔ)音和視頻信息,為情感分析的研究提供了大量真實(shí)的研究數(shù)據(jù)。目前俄羅斯的互聯(lián)網(wǎng)普及率達(dá)到83%,根據(jù)Deloitte[1]2020年發(fā)布的俄羅斯互聯(lián)網(wǎng)使用報(bào)告,YouTube、VKontakte、Instagram 和Odnoklassniki 是目前最為流行的四種社交媒體軟件,大約有77%的用戶周末在線時(shí)間超過(guò)3 小時(shí),即使工作日也有68%的人使用社交媒體軟件。從用戶年齡角度分析,VKontakte的用戶主要集中在30歲以下的年輕人,而Odnoklassniki則以老年用戶為主。由此可見(jiàn),在俄羅斯各個(gè)年齡段的人群均在長(zhǎng)時(shí)間地使用社交媒體,由此產(chǎn)生的海量信息為俄語(yǔ)情感分析提供了便利,同時(shí)也是一個(gè)巨大的挑戰(zhàn)。

本文的主要目的是梳理俄語(yǔ)情感分析的傳統(tǒng)模型和最新成果,在此基礎(chǔ)上總結(jié)現(xiàn)有研究的相關(guān)資源、識(shí)別方法和應(yīng)用場(chǎng)景,為后續(xù)俄語(yǔ)情感分析的系統(tǒng)研究提供依據(jù),并發(fā)現(xiàn)進(jìn)一步探索的方向和研究熱點(diǎn)。

1 數(shù)據(jù)獲取方法及情感分析流程

本文以“emotion+russian”和“sentiment+russian”以及“俄語(yǔ)”“俄文”和“俄漢”與“情感”和“情緒”兩組詞的交叉組合作為檢索詞分別在Web of Science(WoS)、DataBase Systems and Logic Programming(DBLP)和CNKI 中進(jìn)行檢索,獲取相關(guān)文獻(xiàn)190 篇。閱讀每篇文獻(xiàn)并提取其中與俄語(yǔ)情感分析相關(guān)的參考文獻(xiàn),最終篩選出與本文研究主題相關(guān)的73 篇文獻(xiàn),對(duì)俄語(yǔ)情感分析的已有研究進(jìn)行細(xì)致梳理和總結(jié)。

情感分析研究的一般研究框架如圖1所示,首先選擇研究領(lǐng)域,獲取相關(guān)語(yǔ)料,接著完成數(shù)據(jù)的預(yù)處理,在合理的標(biāo)注規(guī)范和標(biāo)注原則指導(dǎo)下完成情感標(biāo)注工作,然后對(duì)數(shù)據(jù)進(jìn)行識(shí)別或分析。識(shí)別工作多采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型,借助詞典和形態(tài)分析工具等資源,以相關(guān)的評(píng)估指標(biāo)為指導(dǎo),旨在完成更大規(guī)模語(yǔ)料的自動(dòng)識(shí)別。數(shù)據(jù)分析工作多是統(tǒng)計(jì)人工或自動(dòng)方式標(biāo)注的數(shù)據(jù),發(fā)掘網(wǎng)絡(luò)中積極和消極情感的分布規(guī)律和傳播方式等。也有很多研究先通過(guò)機(jī)器自動(dòng)識(shí)別大規(guī)模的情感數(shù)據(jù),再采用統(tǒng)計(jì)的方法分析數(shù)據(jù)的分布特征。本文將在后續(xù)的章節(jié)中按情感分析的研究框架逐一梳理俄語(yǔ)情感分析的研究工作。

圖1 情感分析研究框架Fig.1 Research framework of sentiment analysis

2 俄語(yǔ)情感分析資源

資源的使用貫穿于情感分析的每個(gè)階段,無(wú)論是語(yǔ)料預(yù)處理還是針對(duì)情感自動(dòng)識(shí)別的特征提取,都需要用到情感詞典和各類(lèi)相關(guān)工具。而數(shù)據(jù)集不但是開(kāi)展分析工作的基礎(chǔ),也是研究結(jié)論可靠性和魯棒性的重要保障。與資源比較豐富的英語(yǔ)情感分析相比,俄語(yǔ)情感分析在規(guī)模和數(shù)量上相對(duì)比較匱乏,因此每個(gè)資源更顯得彌足珍貴,本章將介紹俄語(yǔ)的情感詞典和帶標(biāo)注數(shù)據(jù)集兩類(lèi)資源。

2.1 俄語(yǔ)情感詞典

表1 中列出了現(xiàn)有的俄語(yǔ)情感詞典資源,其中LinisCrowd和RuSentiLex是兩個(gè)規(guī)模較大、建設(shè)質(zhì)量較高、引用頻次較多的詞典。它們都是采用半自動(dòng)的方法創(chuàng)建,即先采用模式匹配的方法從大規(guī)模語(yǔ)料中自動(dòng)抽取候選詞列表,然后通過(guò)人工的篩選確定情感類(lèi)別,例如RuSentiLex詞典就采用了35種負(fù)面模式和20種正面模式獲取候選情感詞。自動(dòng)構(gòu)建詞典多是采用與種子詞計(jì)算相似度[13]、與帶標(biāo)注文檔計(jì)算PMI[14]或者利用圖傳播[12]的方法。一般來(lái)說(shuō),完全自動(dòng)的方式構(gòu)建的詞典規(guī)模較大,但質(zhì)量相對(duì)較低。純手工創(chuàng)建的情感詞典雖然質(zhì)量較高,但考慮人工成本,詞典規(guī)模都不會(huì)太大,且大多局限于某個(gè)領(lǐng)域,例如Tutubalina2016 和Blinov2013語(yǔ)料分別來(lái)源于汽車(chē)和電影評(píng)論兩個(gè)領(lǐng)域,規(guī)模都在5 000詞左右。

表1 俄語(yǔ)情感詞典匯總Table 1 Russian sentiment lexicon

情感詞典的分類(lèi)以三分類(lèi)和二分類(lèi)居多,三分類(lèi)是將詞匯分為正面、負(fù)面和中性,而二分類(lèi)則是去掉中性類(lèi)別,五分類(lèi)就是在此基礎(chǔ)上將正面和負(fù)面分別劃分為強(qiáng)和弱兩種。單分類(lèi)的情感詞典只有Kamil2021 的辱罵語(yǔ)詞典,詞表中詞匯都是辱罵語(yǔ)。RuSentiLex詞典是四分類(lèi)的,它是三分類(lèi)的基礎(chǔ)上增加了一個(gè)亦正亦負(fù)的類(lèi)別,就是說(shuō)某些詞匯具有情感,但在不同語(yǔ)境下情感類(lèi)別不同,從單一詞匯角度無(wú)法確定極性,這類(lèi)詞匯在詞典中有291 個(gè)。其他詞典并沒(méi)有考慮詞匯在不同語(yǔ)境中情感的差異性,一個(gè)詞匯只能屬于單一類(lèi)別,這樣會(huì)影響詞匯表達(dá)語(yǔ)義時(shí)的多樣性,因此,這將是未來(lái)俄語(yǔ)情感詞典構(gòu)建工作需要加強(qiáng)和改進(jìn)的方面。

情感詞典的數(shù)據(jù)來(lái)源主要集中在已有詞典、新聞和評(píng)論幾種語(yǔ)料。LinisCrowd、RuSentiLex、Chen2014 和Kamil2021 都利用了已有的詞典和WordNet 等電子資源。而評(píng)論類(lèi)語(yǔ)料來(lái)源既包括餐館、酒店和銀行等實(shí)體對(duì)象,也包括電影、書(shū)籍、相機(jī)和汽車(chē)等產(chǎn)品。產(chǎn)品評(píng)論類(lèi)的情感詞匯多與產(chǎn)品的不同方面有關(guān),主要應(yīng)用于方面級(jí)情感分析。語(yǔ)料大多源自相關(guān)的社交媒體平臺(tái),如VKontakte、Twitter和LiveJournal等。此外,質(zhì)量較高的英語(yǔ)情感詞典LIWC也有相應(yīng)的俄語(yǔ)翻譯版本,未在表格中列出。從來(lái)源看,情感詞典在繼承已有知識(shí)的基礎(chǔ)上,語(yǔ)料來(lái)源比較廣泛,保證了詞匯的多樣性。未來(lái)可以考慮整合所有的情感詞典,同時(shí)還可以利用手工構(gòu)建的詞典進(jìn)一步評(píng)估自動(dòng)詞典的質(zhì)量,構(gòu)建一個(gè)規(guī)模更大、詞匯更加豐富和準(zhǔn)確的高質(zhì)量俄語(yǔ)情感詞典。

2.2 俄語(yǔ)情感分析數(shù)據(jù)集

表2中列出了俄語(yǔ)情感分析的相關(guān)數(shù)據(jù)集的規(guī)模、分類(lèi)方法、數(shù)據(jù)來(lái)源和模態(tài)等信息。與詞典構(gòu)建不同,大部分?jǐn)?shù)據(jù)集是人工參與標(biāo)注和審核的,單純自動(dòng)方式構(gòu)建的數(shù)據(jù)集只有7個(gè),一般是根據(jù)用戶評(píng)分結(jié)果直接分類(lèi)[27-28]或者根據(jù)語(yǔ)句中的表情符號(hào)分類(lèi)[25],目前還沒(méi)有發(fā)現(xiàn)使用自動(dòng)識(shí)別模型進(jìn)行標(biāo)注的數(shù)據(jù)集,這可能與俄語(yǔ)情感識(shí)別準(zhǔn)確率總體比較低,難以保證情感分類(lèi)質(zhì)量有關(guān)。在所有的數(shù)據(jù)集中,RuSentiment 和LinisCrowd2016 的質(zhì)量相對(duì)較高,都是五分類(lèi)的語(yǔ)料,RuTweetCorp 和RuReviews 規(guī)模相對(duì)較大,均是以自動(dòng)方式構(gòu)建的?,F(xiàn)有數(shù)據(jù)集以文本形式的語(yǔ)料為主,分為一般文本情感分析和方面級(jí)情感分析兩類(lèi)。

表2中包含8個(gè)與評(píng)測(cè)相關(guān)的數(shù)據(jù)集。俄語(yǔ)情感分析的評(píng)測(cè)從2011 開(kāi)始出現(xiàn),分別由俄羅斯信息檢索研討會(huì)(ROMIP)、SentiRuEval 和SemEval 發(fā)起。ROMIP是一個(gè)類(lèi)似于TREC 的俄語(yǔ)競(jìng)賽,關(guān)于情感分析的競(jìng)賽項(xiàng)目集中在2011 和2012 年發(fā)布。SentiRuEval 和SemEval都是針對(duì)情感分析任務(wù)的競(jìng)賽,前者專門(mén)面向俄語(yǔ)情感分析,辦了2015 年和2016 年兩屆。SemEval包含各個(gè)語(yǔ)種的情感分析任務(wù),每年都會(huì)舉辦,其中2016 年的任務(wù)5 是針對(duì)俄語(yǔ)情感分析的。上述三個(gè)競(jìng)賽的語(yǔ)料均來(lái)源于用戶評(píng)論,ROMIP 評(píng)測(cè)語(yǔ)料是來(lái)自Imhonet和Yandex網(wǎng)站用戶關(guān)于電影、書(shū)籍、相機(jī)評(píng)論,訓(xùn)練集根據(jù)用戶評(píng)分自動(dòng)分類(lèi),測(cè)試集經(jīng)過(guò)人工標(biāo)注。SentiRuEval 是Twitter 中關(guān)于電信和銀行的評(píng)論,2016年的數(shù)據(jù)是在2015 年的基礎(chǔ)上追加了部分?jǐn)?shù)據(jù),兩者有部分重合。SemEval 的任務(wù)5 是關(guān)于餐館評(píng)論的,除了正面、負(fù)面和中性的三分類(lèi),還有少部分語(yǔ)料標(biāo)注為“沖突”類(lèi)。

表2 俄語(yǔ)情感數(shù)據(jù)集Table 2 Datasets of Russian sentiment analysis

SentiRuEval 和SemEval 都是對(duì)產(chǎn)品或餐館的某個(gè)方面進(jìn)行情感標(biāo)注,因此可以應(yīng)用于方面級(jí)情感分析的任務(wù),但是語(yǔ)料中大部分?jǐn)?shù)據(jù)都是一條數(shù)據(jù)對(duì)應(yīng)一個(gè)方面,所以也可以用于一般的文本情感分類(lèi)任務(wù)。需要注意的是方面情感標(biāo)注中正面、負(fù)面和中性的數(shù)量是按方面計(jì)算,因?yàn)橐粋€(gè)評(píng)論可以包含多個(gè)方面,因此每類(lèi)標(biāo)注數(shù)量的總和會(huì)大于總評(píng)論數(shù)。從數(shù)據(jù)來(lái)源看,新聞和用戶觀點(diǎn)類(lèi)的語(yǔ)料主要來(lái)自VK、Twitter、LiveJournal和Censor,而產(chǎn)品評(píng)論類(lèi)的語(yǔ)料主要來(lái)源是電子商務(wù)類(lèi)的網(wǎng)站,包括Imhonet、Yandex、banki.ru、TripAdvisor 和Restoclub 等。從發(fā)布時(shí)間看,文本類(lèi)的情感標(biāo)注語(yǔ)料從2012年開(kāi)始,前期主要以手工標(biāo)注為主,近幾年開(kāi)始出現(xiàn)大規(guī)模的自動(dòng)標(biāo)注語(yǔ)料。語(yǔ)料發(fā)布集中在2012—2013 和2016—2017 這兩個(gè)時(shí)間段內(nèi),這可能是因?yàn)槎碚Z(yǔ)情感分析的研究工作在2016年以后逐步獲得更多研究者的關(guān)注。從各情感類(lèi)別的數(shù)據(jù)分布看,大部分語(yǔ)料中性類(lèi)數(shù)據(jù)較多,正面和負(fù)面數(shù)據(jù)相對(duì)較少,正面和負(fù)面語(yǔ)料的比例也差異較大,數(shù)據(jù)的不平衡性比較明顯,這也為俄語(yǔ)情感分析的自動(dòng)識(shí)別提出了挑戰(zhàn)。

此外,數(shù)據(jù)集中還有兩個(gè)關(guān)于幽默的語(yǔ)料,Blinov Humor[26]和Pikabu2021[29]將文本分為幽默和非幽默兩類(lèi),適用于俄語(yǔ)的幽默識(shí)別研究。除了文本語(yǔ)料外,表2還包含三個(gè)多模態(tài)語(yǔ)料,Ruslana[34]、Ramas[35]和Xu2021[36]。它們的情感類(lèi)別比較多,主要分為驚奇、幸福、憤怒、悲傷、恐懼和中性,Ramas 在Ruslana 的基礎(chǔ)上增加了“厭惡”類(lèi)別,這兩個(gè)語(yǔ)料庫(kù)都是以視頻形式展現(xiàn),由專業(yè)演員演繹各類(lèi)情感。Ramas除了視頻模態(tài),還采集了表演者的面部表情、語(yǔ)音、運(yùn)動(dòng)以及生理信號(hào)等信息。Xu2021則是以俄語(yǔ)情景劇《我是如何成為俄羅斯人的》的視頻為數(shù)據(jù)源,人工標(biāo)注完成。三個(gè)多模態(tài)語(yǔ)料中,Ramas 和Xu2021 都是會(huì)話式語(yǔ)料,數(shù)據(jù)包含多人的對(duì)話,上下句之間具有一定的情感連續(xù)性,而Ruslana是獨(dú)白式的語(yǔ)料,視頻中只出現(xiàn)一個(gè)人的自述,兩種類(lèi)型的語(yǔ)料在多模態(tài)情感分析的模型選擇上差異較大,不同的應(yīng)用場(chǎng)景需要選擇不同類(lèi)型的數(shù)據(jù)集。

3 俄語(yǔ)情感分析的方法

俄語(yǔ)情感分析的研究分為幾種類(lèi)型,一類(lèi)是針對(duì)固定領(lǐng)域的標(biāo)注語(yǔ)料進(jìn)行統(tǒng)計(jì),解析社交網(wǎng)絡(luò)數(shù)據(jù)的規(guī)律和特點(diǎn),為相關(guān)政策的制定和調(diào)整提供依據(jù)。還有一類(lèi)是從語(yǔ)言學(xué)的角度出發(fā),重點(diǎn)分析俄語(yǔ)中情感詞匯的表達(dá)方式。此外,更多的研究是先構(gòu)建自動(dòng)識(shí)別模型,獲取大規(guī)模語(yǔ)料,然后在大規(guī)模語(yǔ)料上完成數(shù)據(jù)分析。成功構(gòu)建自動(dòng)識(shí)別模型是后續(xù)研究順利進(jìn)行的基礎(chǔ),模型結(jié)果的準(zhǔn)確性也是研究結(jié)論正確與否的保障,因此這一章中側(cè)重綜述與俄語(yǔ)情感分析自動(dòng)識(shí)別模型相關(guān)的工作,并補(bǔ)充部分俄語(yǔ)情感詞匯分析和數(shù)據(jù)分析的研究文章。梳理過(guò)程中參考了已有的綜述文獻(xiàn)[37-41],但與其他相關(guān)綜述不同的是本文以情感分析的流程為線索,分階段總結(jié)當(dāng)前俄語(yǔ)情感分析工作的特點(diǎn),并且詳細(xì)列出了自動(dòng)模型的分類(lèi)方法和實(shí)驗(yàn)結(jié)果等信息。

3.1 俄語(yǔ)情感的自動(dòng)識(shí)別模型

隨著互聯(lián)網(wǎng)的高速發(fā)展,數(shù)量龐大的社交媒體用戶每天產(chǎn)生海量文本,單純依靠人工標(biāo)注方式難以獲取大規(guī)模的用戶情感數(shù)據(jù),這就需要借助情感分析的自動(dòng)識(shí)別模型。早期的情感分析方法有基于規(guī)則和機(jī)器學(xué)習(xí)兩種,基于規(guī)則的方法通常以情感詞典為基礎(chǔ),配合固定的情感表達(dá)模式,這種方法的準(zhǔn)確率取決于詞典的規(guī)模、質(zhì)量以及歸納的模式是否全面,很難應(yīng)對(duì)互聯(lián)網(wǎng)中層出不窮的新詞匯和表達(dá)方式。與基于規(guī)則的方法相比,機(jī)器學(xué)習(xí)的方法更節(jié)省人力資源,除了特征提取外多數(shù)工作依靠機(jī)器自動(dòng)完成,其中特征提取和機(jī)器學(xué)習(xí)模型的配合是研究的重點(diǎn)。2016年后,隨著深度學(xué)習(xí)方法廣泛應(yīng)用,許多研究者發(fā)現(xiàn)在俄語(yǔ)情感分析工作中,選擇和搭配適當(dāng)?shù)纳顚由窠?jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型更為重要。表3從數(shù)據(jù)來(lái)源、模型方法和分類(lèi)結(jié)果幾個(gè)方面對(duì)比和總結(jié)了俄語(yǔ)情感分析自動(dòng)識(shí)別的工作。

表3中的數(shù)據(jù)大體按其發(fā)表的年份排列,其中編號(hào)1~19的相關(guān)研究針對(duì)一般情感分析,編號(hào)20~23的工作是關(guān)于方面級(jí)情感分析的。該表匯總了在特定數(shù)據(jù)集上的最好結(jié)果,為了兼顧分類(lèi)結(jié)果的準(zhǔn)確率和召回率,本文以分類(lèi)評(píng)估最常用的宏平均(F1)作為主要的測(cè)量指標(biāo),對(duì)于沒(méi)有提供F1值的部分研究,則給出其分類(lèi)結(jié)果的準(zhǔn)確率(accuracy,Acc)。有些工作中結(jié)合了多個(gè)模型實(shí)現(xiàn)俄語(yǔ)情感分析,表3中只列出了對(duì)應(yīng)文獻(xiàn)中特定數(shù)據(jù)集上效果最佳的模型及其實(shí)驗(yàn)結(jié)果。

從表3 中可以看出,2012 年到2016 年間,俄語(yǔ)情感自動(dòng)識(shí)別模型以機(jī)器學(xué)習(xí)為主,效果較好的模型包括SVM、NB、LR 和MaxEnt,大多研究工作在對(duì)比多種機(jī)器學(xué)習(xí)算法之后,發(fā)現(xiàn)SVM 效果最好。機(jī)器學(xué)習(xí)模型分類(lèi)的結(jié)果不僅依賴算法的選擇,更依賴特征的選擇,俄語(yǔ)情感分析中常用的特征包括詞匯級(jí)和語(yǔ)句級(jí)兩大類(lèi)。詞匯級(jí)特征在語(yǔ)料預(yù)處理階段主要體現(xiàn)在詞干化和形態(tài)還原等,模型輸入層多以情感詞典為基礎(chǔ)[28,43],并通過(guò)同義詞和近義詞等方式進(jìn)行擴(kuò)充和分組。語(yǔ)句級(jí)的特征一般有Unigram、Bigram、Tf*idf[42]以及句法結(jié)構(gòu)[31,55]和語(yǔ)法關(guān)系[44-45]等。2016 年以后,俄語(yǔ)情感分析中開(kāi)始引入多種深度學(xué)習(xí)模型,其中包括CNN、LSTM和GRU 等,大部分研究者采用單一的神經(jīng)網(wǎng)絡(luò)模型[18,27,49,51,54],少部分研究者則針對(duì)不同模型的優(yōu)點(diǎn)對(duì)其進(jìn)行組合和改進(jìn)[56]。

表3 俄語(yǔ)情感分析模型匯總Table 3 Summary of Russian sentiment analysis model

隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的不斷應(yīng)用,基于語(yǔ)言模型的詞向量技術(shù)也在不斷發(fā)展。早期的研究者多數(shù)使用Word2Vec、GloVe 和FastText 等靜態(tài)詞向量,但由于同一單詞在不同的語(yǔ)境中對(duì)應(yīng)的詞向量不變,故而很難解決一詞多義問(wèn)題。因此越來(lái)越多的研究者通過(guò)ELMo、GPT 和Bert 等預(yù)訓(xùn)練模型生成動(dòng)態(tài)詞向量,充分提取單詞的上下文特征信息,根據(jù)不同的語(yǔ)境動(dòng)態(tài)調(diào)整詞向量,較好地解決了一詞多義問(wèn)題。RuBert[41]是Bert 模型在大規(guī)模俄文語(yǔ)料上訓(xùn)練之后得到的預(yù)訓(xùn)練模型,它受到了許多學(xué)者的青睞,并在很多研究中取得較好的結(jié)果。值得一提的是,還有一些學(xué)者試圖融合重構(gòu)基于特征提取的機(jī)器學(xué)習(xí)模型和基于詞向量的深度學(xué)習(xí)模型,例如將詞向量作為特征輸入到傳統(tǒng)機(jī)器學(xué)習(xí)模型中[50],或者將人工提取的特征加入到深度學(xué)習(xí)模型的各層架構(gòu)中[54]。

除了RuSentiment、RuTweetCorp、RuReviews、Linis-Crowd等常見(jiàn)語(yǔ)料庫(kù)之外,Kaggle、ROMIP和SentiRuEval等評(píng)測(cè)數(shù)據(jù)集也被眾多研究者所采用。部分研究工作涵蓋了多種數(shù)據(jù)集[29,46,51-53],大部分工作的實(shí)驗(yàn)結(jié)論僅針某個(gè)單一的數(shù)據(jù)集。在各常用語(yǔ)料庫(kù)上,目前表現(xiàn)最好的模型及其分類(lèi)結(jié)果依次為:在RuSentiment 上采用預(yù)訓(xùn)練模型ELMo 與CNN[47]模型結(jié)合,最終獲得78.5%的F1值;在RuTweetCorp上采用雙向GRU(BiGRU)模型[51]獲得90.9%的F1 值;在RuReviews 上采用CNN 模型獲得75.5%[27]的F1 值。而在各種評(píng)測(cè)數(shù)據(jù)集上的研究現(xiàn)狀如下:RuBert 在SentiRuEval 的電信數(shù)據(jù)和銀行數(shù)據(jù)中分別獲得69.1%和79.5%的F1 值;Loukachevitch 等[28]將SVM 和最大熵模型分別應(yīng)用在ROMIP2011 和2012數(shù)據(jù)集上,并完成二分類(lèi)、三分類(lèi)和五分類(lèi)實(shí)驗(yàn)。觀察表3中的三分類(lèi)結(jié)果可以發(fā)現(xiàn),其研究成果在2011年和2012 年的相機(jī)類(lèi)評(píng)論數(shù)據(jù)集上表現(xiàn)差異較大,F(xiàn)1 值從62.3%下降為48.0%,可見(jiàn)即使在同一領(lǐng)域的數(shù)據(jù)中,模型的波動(dòng)也較大。俄語(yǔ)情感分析領(lǐng)域的深度學(xué)習(xí)模型相對(duì)都比較簡(jiǎn)單,以RuSentiment 數(shù)據(jù)集上效果最好CNN模型為例,首先將詞向量嵌入到三個(gè)卷積中,每個(gè)卷積具有相同數(shù)量的過(guò)濾器和不同的內(nèi)核大小,經(jīng)ReLU 激活后進(jìn)行連接,最后通過(guò)softmax 激活,獲取最終結(jié)果[47]。具體模型如圖2所示。

圖2 Shallow-and-wide卷積神經(jīng)網(wǎng)絡(luò)Fig.2 Shallow-and-wide CNN

從評(píng)測(cè)的總體結(jié)果看,二分類(lèi)任務(wù)結(jié)果較高,接近90%,三分類(lèi)任務(wù)一般在75%左右,五分類(lèi)任務(wù)的結(jié)果最差,接近50%[19,28]。除了上述旨在提高自動(dòng)分類(lèi)結(jié)果的研究外,還有一些研究分析不同外在因素對(duì)分類(lèi)結(jié)果的影響,如Rubtsova[58]研究不同年份數(shù)據(jù)的自動(dòng)分類(lèi)性能差異,Araslanov 等[59]基于NB 和LR 算法評(píng)估俄語(yǔ)短文本預(yù)處理對(duì)分類(lèi)結(jié)果的影響。

在俄語(yǔ)情感分析中,以SVM、NB 等為代表的傳統(tǒng)機(jī)器學(xué)習(xí)模型具有較完美的數(shù)學(xué)理論解釋,面向海量數(shù)據(jù)時(shí)模型的訓(xùn)練時(shí)長(zhǎng)相對(duì)較短。深度學(xué)習(xí)則更偏重經(jīng)驗(yàn)主義驅(qū)動(dòng),其多數(shù)模型的可解釋性研究進(jìn)展較為緩慢。然而,近年來(lái)越來(lái)越多的實(shí)驗(yàn)表明,深度學(xué)習(xí)模型在進(jìn)行訓(xùn)練學(xué)習(xí)時(shí),能保留更多對(duì)于數(shù)據(jù)的擬合度、攜帶更多的語(yǔ)義信息,其性能優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型。

在深度學(xué)習(xí)模型中,主體由卷積層構(gòu)成的CNN 模型結(jié)構(gòu)相對(duì)簡(jiǎn)單,模型訓(xùn)練時(shí)并行運(yùn)算能力更強(qiáng),對(duì)識(shí)別目標(biāo)任務(wù)的結(jié)構(gòu)具有一定的優(yōu)勢(shì)。以GRU 和LSTM為代表的RNN 模型訓(xùn)練時(shí)間相對(duì)較長(zhǎng),但由于其記憶功能對(duì)序列識(shí)別建模具備優(yōu)勢(shì),因此更為廣泛地應(yīng)用于多種NLP 任務(wù)。與上述深度學(xué)習(xí)模型相比,以ELMo、GPT 和BERT 等為代表的預(yù)訓(xùn)練模型提供了更好的模型初始化,通常具有更好的泛化性能,并能加速對(duì)目標(biāo)任務(wù)的收斂。

從近年來(lái)的研究結(jié)果來(lái)看,在情感分析任務(wù)中深度學(xué)習(xí)模型并未能全面超越傳統(tǒng)模型。例如,在Matheus2016 數(shù)據(jù)集上采用SVM 方法可取得61.0%的F1 值,其與CNN-BiLSTM 模型的結(jié)果相差不大。在多模態(tài)這一情感分析的最新研究領(lǐng)域中,目前針對(duì)俄語(yǔ)相關(guān)語(yǔ)料的自動(dòng)識(shí)別研究很少,尚處于起步階段。

綜上所述,在基于規(guī)則的情感分析方法之后,俄語(yǔ)情感自動(dòng)識(shí)別模型的發(fā)展具有較為鮮明的時(shí)代特征,可以劃分為傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩個(gè)階段,雖然分類(lèi)算法的選擇對(duì)模型的自動(dòng)識(shí)別效果很重要,但語(yǔ)料的預(yù)處理方法、特征提取和預(yù)訓(xùn)練模型的微調(diào)也會(huì)對(duì)識(shí)別準(zhǔn)確率產(chǎn)生較大影響,一個(gè)好的研究方案應(yīng)該綜合考慮上述多個(gè)方面。另外,俄語(yǔ)情感識(shí)別的結(jié)果普遍較低,當(dāng)數(shù)據(jù)集的規(guī)模較大時(shí),三分類(lèi)的宏平均基本在75%左右,這與實(shí)際應(yīng)用的需求還有一定差距,尚有較大的提升空間。此外,模型的穩(wěn)定性也是自動(dòng)情感分類(lèi)算法未能大范圍推廣的重要原因,自動(dòng)識(shí)別算法的魯棒性和泛化性還有待進(jìn)一步提高。

3.2 俄語(yǔ)情感語(yǔ)料的數(shù)據(jù)分析

俄語(yǔ)情感的數(shù)據(jù)分析是在人工或者自動(dòng)標(biāo)注語(yǔ)料的基礎(chǔ)上,分析數(shù)據(jù)中情感表達(dá)的特點(diǎn),進(jìn)而發(fā)掘公眾對(duì)新聞事件的觀點(diǎn),探索用戶評(píng)論中蘊(yùn)含的情感以及情緒的分布和傳播規(guī)律等。按分析對(duì)象的粒度可以分為詞匯級(jí)和語(yǔ)句級(jí),國(guó)內(nèi)有很多學(xué)者研究了俄語(yǔ)詞匯的情感表達(dá),如研究俄語(yǔ)中帶有情感意義的成語(yǔ)[60]、俄語(yǔ)情感類(lèi)心理動(dòng)詞[61]、俄語(yǔ)情感態(tài)度動(dòng)詞以及俄語(yǔ)情感詞匯的表達(dá)手段[62-63】等。國(guó)內(nèi)以語(yǔ)句為單位的相關(guān)研究不多,原偉等[64]在構(gòu)建并分析俄漢可比語(yǔ)料庫(kù)的基礎(chǔ)上,發(fā)現(xiàn)俄文評(píng)論趨向使用長(zhǎng)評(píng)論、形容詞和動(dòng)詞表達(dá)情感,而中文網(wǎng)評(píng)趨向使用短評(píng)論、名詞和動(dòng)詞表達(dá)情感,俄文新聞評(píng)論中存在冗余消極評(píng)價(jià)的現(xiàn)象等。朱姍姍等[5]為考察俄語(yǔ)情感詞匯的表達(dá)手段,人工標(biāo)注了8 031條用戶評(píng)論,構(gòu)建了包括6 321條詞匯的俄語(yǔ)情感詞典,并在此基礎(chǔ)上分析了俄語(yǔ)情感表達(dá)的手段。

除了文本模態(tài)的詞匯外,語(yǔ)音等多模態(tài)情感詞匯的研究很早就已經(jīng)開(kāi)展,它們多以Ruslana語(yǔ)料庫(kù)為基礎(chǔ),探索俄語(yǔ)情感表達(dá)中的聲學(xué)特征[65],分析情感狀態(tài)對(duì)俄語(yǔ)擦音和塞擦音特征的影響[66],探查持續(xù)時(shí)間、能量、共振峰和動(dòng)態(tài)范圍對(duì)俄語(yǔ)情緒表達(dá)的影響[67],討論加入表達(dá)者的信息是否有助于語(yǔ)音情感識(shí)別[68]。

在國(guó)外,以情感自動(dòng)或手工創(chuàng)建的俄語(yǔ)情感語(yǔ)料為基礎(chǔ),統(tǒng)計(jì)和分析數(shù)據(jù)的研究很多,文獻(xiàn)[40]中按數(shù)據(jù)來(lái)源的類(lèi)型劃分,詳細(xì)梳理了此類(lèi)相關(guān)的研究,這里不再贅述,本文在此補(bǔ)充部分未提及的俄語(yǔ)情感數(shù)據(jù)分析相關(guān)的研究。Litvinova等[69]研究欺騙檢測(cè)的問(wèn)題,分析俄語(yǔ)真假文本在統(tǒng)計(jì)上是否有顯著差異,發(fā)現(xiàn)男性和女性說(shuō)謊的方式不同,且應(yīng)為不同性別、年齡和心理特征的人設(shè)計(jì)不同的模型。Bodrunova等[70]分析俄語(yǔ)可解性與情感的關(guān)系,用統(tǒng)計(jì)學(xué)的方法探究自動(dòng)識(shí)別模型(LDA、WNTM 和BTM)和人工標(biāo)注在可解性方面的差異,發(fā)現(xiàn)可解釋的話題越多,負(fù)面情緒就越重。Alvarez等[71]研究Facebook廣告文本中的情感,發(fā)現(xiàn)與負(fù)面廣告比,大多數(shù)的廣告都有積極情緒,且廣告中的情感在2016美國(guó)總統(tǒng)大選前后波動(dòng)比較明顯。

4 俄語(yǔ)情感分析的述評(píng)及展望

本文以情感分析研究工作的具體流程為線索,詳細(xì)梳理了俄語(yǔ)情感分析的資源、自動(dòng)識(shí)別模型和數(shù)據(jù)分析三個(gè)方面的工作,總結(jié)了以往研究中的常用方法和當(dāng)前的主流模型。現(xiàn)有的俄語(yǔ)情感分析資源包括情感詞典和情感語(yǔ)料兩種類(lèi)型,在此基礎(chǔ)上總結(jié)了主流的自動(dòng)情感識(shí)別模型,機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型。主要的研究結(jié)論有以下幾點(diǎn):

(1)資源建設(shè)方面,俄語(yǔ)情感分析的資源建設(shè)目前已經(jīng)初具規(guī)模,為情感分析的后續(xù)研究工作提供了保障。情感詞典中詞匯的數(shù)量已經(jīng)能涵蓋大部分俄語(yǔ)的常用情感詞匯,現(xiàn)有的數(shù)據(jù)集中也包含了一些大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù),但數(shù)據(jù)來(lái)源有限,還需要進(jìn)一步拓展,同時(shí)對(duì)各類(lèi)資源的整合工作也需要加強(qiáng)。

(2)自動(dòng)識(shí)別方面,主流的模型分為傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩種,整體識(shí)別的效率和準(zhǔn)確率還有待提高。機(jī)器學(xué)習(xí)模型以SVM 算法為主,選擇的特征有NGram、詞法和句法等。深度學(xué)習(xí)模型選擇算法主要有CNN、RNN和RuBert等。在幾個(gè)大規(guī)模數(shù)據(jù)集中,三分類(lèi)的宏平均最好結(jié)果基本在75%左右。

(3)數(shù)據(jù)分析及應(yīng)用方面,目前大部分的數(shù)據(jù)分析工作是以大規(guī)模自動(dòng)識(shí)別的語(yǔ)料為基礎(chǔ)的,應(yīng)用范圍從宏觀的熱點(diǎn)話題監(jiān)控和輿情分析到微觀的產(chǎn)品和服務(wù)的創(chuàng)新和改進(jìn),在多個(gè)領(lǐng)域都有廣泛的應(yīng)用價(jià)值。然而自動(dòng)識(shí)別模型的分類(lèi)效果難以像人工一樣準(zhǔn)確,因此對(duì)研究結(jié)論的有效性會(huì)產(chǎn)生一定影響。

俄語(yǔ)情感分析的研究工作雖然已經(jīng)取得了一定的進(jìn)展,但是與比較成熟的英文情感分析的綜述[72]和研究工作[73]相比,整體研究水平還處于初級(jí)階段,存在著很多的不足之處,主要體現(xiàn)在以下幾個(gè)方面:

(1)從俄語(yǔ)自身的特點(diǎn)出發(fā)構(gòu)建的模型較少。當(dāng)前的很多自動(dòng)識(shí)別工作是簡(jiǎn)單地參考英文情感分析模型,沒(méi)有考慮俄語(yǔ)自身的特性,導(dǎo)致識(shí)別的準(zhǔn)確率普遍較低。俄語(yǔ)作為一種高度屈折的語(yǔ)言,情感表達(dá)的方式有很多獨(dú)有的特點(diǎn),未來(lái)可以將這些特性添加到模型中,提高識(shí)別的效果。

(2)資源共享性有待加強(qiáng),語(yǔ)料來(lái)源需要不斷拓寬。雖然現(xiàn)有俄語(yǔ)情感分析的詞典和數(shù)據(jù)資源較多,但部分資源不能公開(kāi)獲取,例如大規(guī)模的語(yǔ)料資源RuSentiment,因?yàn)樯缃黄脚_(tái)的信息授權(quán)問(wèn)題不能繼續(xù)提供下載。此外,方面級(jí)語(yǔ)料資源多來(lái)自電影、餐館、銀行和相機(jī)等領(lǐng)域,范圍較窄,還需不斷收集不同領(lǐng)域的數(shù)據(jù),拓寬研究范圍。

(3)利用資源豐富的其他語(yǔ)種語(yǔ)料庫(kù)的遷移工作比較少。英語(yǔ)等語(yǔ)種的情感分析的研究資源比較豐富,可以考慮采用遷移學(xué)習(xí)等手段,利用其他語(yǔ)種的現(xiàn)有資源,不斷擴(kuò)展俄語(yǔ)情感分析的研究方法和資源。

(4)俄語(yǔ)情感分析工作基本上都是文本模態(tài),語(yǔ)音和圖像等多模態(tài)的研究工作還處于起步階段。情感表達(dá)是一個(gè)多層次、多角度的展現(xiàn)過(guò)程,單純依賴文本表達(dá)必然會(huì)損失很多情感信息,因此多種模態(tài)信息的互補(bǔ)以及與俄語(yǔ)語(yǔ)音等多個(gè)學(xué)科的交叉將是未來(lái)一個(gè)重要研究領(lǐng)域。

猜你喜歡
自動(dòng)識(shí)別俄語(yǔ)語(yǔ)料
基于數(shù)據(jù)挖掘的船舶航跡自動(dòng)識(shí)別系統(tǒng)
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
俄語(yǔ)歌曲在俄語(yǔ)教學(xué)中的應(yīng)用策略探究
淺議如何提高職業(yè)教育的俄語(yǔ)教學(xué)質(zhì)量
太陽(yáng)黑子自動(dòng)識(shí)別與特征參量自動(dòng)提取
基于衛(wèi)星遙感圖像的收費(fèi)站位置自動(dòng)識(shí)別與校核
船舶自動(dòng)識(shí)別系統(tǒng)對(duì)船舶救助的影響
瀕危語(yǔ)言與漢語(yǔ)平行語(yǔ)料庫(kù)動(dòng)態(tài)構(gòu)建技術(shù)研究
改進(jìn)俄語(yǔ)教學(xué)方法 提高俄語(yǔ)教學(xué)質(zhì)量
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
恭城| 东辽县| 青浦区| 余姚市| 酒泉市| 中山市| 鸡泽县| 建昌县| 上杭县| 楚雄市| 本溪| 新绛县| 桐乡市| 蒙城县| 监利县| 栾城县| 酒泉市| 黎平县| 梧州市| 罗平县| 天柱县| 博白县| 宝应县| 土默特右旗| 晋江市| 淮安市| 怀柔区| 遵义县| 黄浦区| 洞头县| 腾冲县| 南通市| 舞阳县| 万源市| 大丰市| 察隅县| 沈阳市| 延津县| 炎陵县| 绩溪县| 舞钢市|