提 要:俄語(yǔ)虛假新聞的數(shù)量猛增且影響范圍擴(kuò)大,其分析與自動(dòng)檢驗(yàn)問(wèn)題值得關(guān)注。本文基于語(yǔ)料庫(kù)采用計(jì)量文體學(xué)方法考察俄語(yǔ)虛假新聞在詞、句和情感表達(dá)上的特點(diǎn),結(jié)果發(fā)現(xiàn):虛假新聞詞匯豐富度較高,但信息量和難度偏低,更傾向于使用多句、短句、結(jié)構(gòu)簡(jiǎn)單的句子傳遞信息;14個(gè)詞計(jì)量特征、26個(gè)句計(jì)量特征和5個(gè)情感計(jì)量特征可用于真假新聞的自動(dòng)區(qū)分聚類(lèi)。該結(jié)果對(duì)于虛假新聞的文本計(jì)量研究、其他語(yǔ)種的虛假新聞分析、檢驗(yàn)和防范具有啟示意義。
關(guān)鍵詞:俄語(yǔ);虛假新聞;文體計(jì)量;語(yǔ)料庫(kù)
中圖分類(lèi)號(hào):H030 """"文獻(xiàn)標(biāo)識(shí)碼:A """"文章編號(hào):1000-0100(2024)06-0001-8
DOI編碼:10.16263/j.cnki.23-1071/h.2024.06.001
A Corpus-based Study on the Measurement of" the Stylistic Features of" Russian Fake News
WT5BZ〗Y(jié)uan Wei Liu Hai-tao
(College of Foreign Studies, National University of Defense Technology, Nanjing 210039, China;
School of International Studies, Zhejiang University, Hangzhou 310058, China)
The number of Russian fake news increases significantly, and analyzing and automatic checking them deserves attention. We investigated the characteristics of Russian fake news in terms of words, sentences, and emotions using a stylometric approach, and found that: fake news has a high lexical richness but low information content and difficulty, and tends to use multiple sentences, short sentences, and simple structure to convey information; 14 word metric features, 26 sentence metric features, and 5 emotion metric features can be effectively used to automatically differentiate real and fake news clustering. The results have implications for textual measurement of fake news and analyzing, investigating, and preventing fake news in other languages.
Key words:Russian; fake news; stylistic features; corpus
1 引言
虛假新聞是存在故意誤導(dǎo)或偽造的新聞(Allcott, Gentzkow" 2017:213),《科學(xué)》雜志近年刊發(fā)多文討論其科學(xué)屬性和影響危害(Grinberg" et al. 2019)。當(dāng)前,出于各種目的炮制的俄語(yǔ)虛假新聞在數(shù)量和規(guī)模上猛增,影響范圍日益擴(kuò)大(Ильичева,Кондрашов" 2018),其文本分析和自動(dòng)檢驗(yàn)的研究顯得尤為迫切。目前虛假新聞檢驗(yàn)主要依據(jù)文本特征、多模態(tài)特征或社交環(huán)境特征訓(xùn)練模型后采用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)。文本特征包括文體、符號(hào)、情感等表層特征(Choudhary, Arora" 2021)以及通過(guò)詞向量抽取的深層語(yǔ)義特征(Hanshal" et al." 2022)等,而文體特征對(duì)于虛假新聞?wù)鐒e、分析和檢驗(yàn)至關(guān)重要。
計(jì)量文體學(xué)(Stylometrics)通常采用詞匯和句法特征等計(jì)量指標(biāo)來(lái)考察特定文本或作家的語(yǔ)言特征(Yule 1939)。國(guó)外已有研究將文體計(jì)量指標(biāo)用于虛假新聞檢測(cè)和識(shí)別中,不乏代表性成果,例如融合使用文本的復(fù)雜性特征、可讀性指數(shù)、心理語(yǔ)言學(xué)特征和文體特征用于識(shí)別社交媒體的虛假新聞,取得較好的分類(lèi)效果(Garg, Sharma" 2022);也有研究使用N元語(yǔ)法、標(biāo)點(diǎn)、基于LIWC情感詞典的心理語(yǔ)言學(xué)特征、文本可讀性和基于上下文無(wú)關(guān)文法的句法模式等指標(biāo)開(kāi)展虛假新聞自動(dòng)檢測(cè)研究(Pérez-Rosas" et al." 2017)。值得關(guān)注的是,有學(xué)者嘗試提出一種與語(yǔ)言無(wú)關(guān)的分析模型,使用句平均詞數(shù)、句數(shù)、類(lèi)型符比、命名實(shí)體、大寫(xiě)字母、引用及詞類(lèi)頻數(shù)作為參數(shù)指標(biāo),研究英語(yǔ)、葡萄牙和西班牙語(yǔ)的虛假新聞識(shí)別問(wèn)題(Abonizio" et al. 2020),為本文研究提供了思路。
目前國(guó)外俄語(yǔ)虛假新聞研究主要集中在討論其危害及防范措施(Khaldarova, Pantti" 2020)上,有學(xué)者將N-gram詞袋特征與修辭結(jié)構(gòu)理論的相關(guān)特征相結(jié)合,用于俄語(yǔ)虛假新聞檢驗(yàn)(Kuzmin"" et al." 2020),但未見(jiàn)使用文體計(jì)量指標(biāo)研究俄語(yǔ)虛假新聞的相關(guān)成果。國(guó)內(nèi)有學(xué)者針對(duì)俄語(yǔ)名詞(王永" 劉海濤" 2013)和俄語(yǔ)視覺(jué)詩(shī)(王永" 李昊天" 2015)開(kāi)展計(jì)量分析研究,為本文研究提供了一些啟示。
可以看出,現(xiàn)有成果多數(shù)針對(duì)社交網(wǎng)絡(luò)上的英語(yǔ)虛假新聞檢測(cè)問(wèn)題開(kāi)展研究,方法上通常采用多特征融合的方式,而在俄語(yǔ)虛假新聞的文體計(jì)量研究方面還存在較大挖掘空間。此外,本文擬采取一種詞、句及情感特征計(jì)量相結(jié)合的方式針對(duì)俄語(yǔ)虛假新聞開(kāi)展研究,從研究方法和語(yǔ)種選擇上相關(guān)成果尚不多見(jiàn)。具體來(lái)說(shuō),擬整合網(wǎng)絡(luò)資源構(gòu)建語(yǔ)料庫(kù),采用計(jì)量文體學(xué)的相關(guān)指標(biāo),來(lái)量化考察俄語(yǔ)虛假新聞在詞匯和句法層面的文體特征,隨后使用顯著特征用于自動(dòng)聚類(lèi)實(shí)驗(yàn),以期在俄語(yǔ)計(jì)量研究方面作出一些貢獻(xiàn),并在方法和計(jì)量指標(biāo)方面為中文及其他語(yǔ)言的虛假新聞分析、檢驗(yàn)和防范工作提供一些啟示。著重回答以下研究問(wèn)題:(1)區(qū)別于真實(shí)新聞,虛假新聞的詞使用是否有顯著特點(diǎn);(2)虛假新聞的句使用是否有顯著特點(diǎn);(3)虛假新聞是否有顯著的情感語(yǔ)義特征;(4)能否基于詞、句和情感計(jì)量特征自動(dòng)甄別虛假新聞呢。
2 研究設(shè)計(jì)
2.1 研究數(shù)據(jù)
為考察上述問(wèn)題,本文收集了俄語(yǔ)虛假新聞和真實(shí)新聞文本建庫(kù)。虛假新聞?wù)Z料共計(jì)834篇(125,236形符,31,288類(lèi)符,8,315句),來(lái)源于Taigo開(kāi)源語(yǔ)料庫(kù)項(xiàng)目所加工的虛假新聞數(shù)據(jù)集,語(yǔ)料采集于俄羅斯“全景”新聞網(wǎng)(Panorama),以國(guó)際新聞為主,已有學(xué)者將其用于虛假新聞相關(guān)研究(Kuzmin" et al." 2020),語(yǔ)料的可信度和代表性較高;真實(shí)新聞?wù)Z料1140篇(124,652形符,24,264類(lèi)符,7,926句),語(yǔ)料采集于俄羅斯最權(quán)威的三大通訊社之一的國(guó)際文傳電訊社(Interfax),新聞?wù)Z料的代表性和真實(shí)性可以得到保障,同樣以國(guó)際新聞為主。兩類(lèi)語(yǔ)料總規(guī)模為1,974篇(約249,888形符,55,552類(lèi)符,16,241句),可比依據(jù)為語(yǔ)體相同、語(yǔ)料規(guī)模相當(dāng)且領(lǐng)域相同(原偉" 2017)。
在語(yǔ)料取樣方面,前期采集的真假新聞?wù)Z料總體規(guī)模相當(dāng),為方便語(yǔ)料比對(duì),以約10,000形符數(shù)為標(biāo)準(zhǔn),將樣本集切分組合,得到虛假新聞和真實(shí)語(yǔ)料樣本集各13個(gè),共計(jì)26個(gè),每個(gè)樣本集約70至100篇新聞。期間為保證文本結(jié)構(gòu)和語(yǔ)義的完整性,不對(duì)單篇新聞進(jìn)行文本細(xì)粒度分割。此后,訓(xùn)練集隨機(jī)抽取16個(gè)樣本集每類(lèi)8個(gè)(虛假新聞為FS1至FS8,真實(shí)新聞為RS1至RS8)用于計(jì)量文體差異;測(cè)試集使用剩余10個(gè)樣本集每類(lèi)5個(gè)(虛假新聞為FT1至FT5,真實(shí)新聞為RT1至RT5)用于自動(dòng)聚類(lèi)檢驗(yàn)。
在語(yǔ)料加工方面,所有語(yǔ)料通過(guò)SpaCy自然語(yǔ)言處理工具進(jìn)行過(guò)詞法標(biāo)注和句法標(biāo)注,主要基于斯坦福大學(xué)依存句法標(biāo)注體系,每篇語(yǔ)料的TXT格式文本以依存句法CoNLL-U列表的形式保存。每篇文本中包括詞序、詞形、詞語(yǔ)原形、詞性、語(yǔ)法特征等詞法信息,也包括核心論元、非核心依存關(guān)系、名詞依存關(guān)系、其他廣義依存關(guān)系等句法信息。在自動(dòng)標(biāo)注的結(jié)果基礎(chǔ)上,本文以人工審閱校對(duì)的方式加以輔助,以確保兩類(lèi)語(yǔ)料的準(zhǔn)確性和可靠性。
2.2 研究方法
針對(duì)上述4個(gè)研究問(wèn)題,本文擬分別從詞、句和情感特征3個(gè)層面考察俄語(yǔ)虛假新聞文體計(jì)量特點(diǎn),并將與真實(shí)新聞不同的差異性特征用于自動(dòng)聚類(lèi)試驗(yàn),檢驗(yàn)計(jì)量特征的區(qū)分效果。
在考察詞的計(jì)量特征時(shí),選用平均詞數(shù)、詞長(zhǎng)、類(lèi)型符比、詞匯密度、詞頻分布和詞類(lèi)占比作為主要特征值,來(lái)衡量考察俄語(yǔ)虛假新聞的詞使用特點(diǎn),俄語(yǔ)作為屈折語(yǔ)的典型代表,需要進(jìn)行詞形還原后計(jì)算。平均詞長(zhǎng)(字符總數(shù)/詞語(yǔ)總數(shù))可用來(lái)衡量文本復(fù)雜度,平均詞長(zhǎng)越大證明文本中較多使用長(zhǎng)詞,相應(yīng)文本內(nèi)容復(fù)雜度越高;類(lèi)形符比在一定程度上可以反映文本詞匯的豐富度,比值越大說(shuō)明詞匯越豐富;詞匯密度主要用來(lái)衡量實(shí)詞在文本中的占比,通常占比越高說(shuō)明文本信息量和閱讀難度也更大;詞頻分布通常能較好地區(qū)分不同語(yǔ)體的新聞文本;詞類(lèi)占比用于細(xì)粒度描述各詞類(lèi)在文本中的使用,以此發(fā)現(xiàn)詞匯使用的區(qū)別性差異。
在考察句子的計(jì)量特征時(shí),選用平均句長(zhǎng)、搭配復(fù)雜度、平均依存距離、依存關(guān)系占比作為主要特征值,來(lái)衡量虛假俄語(yǔ)新聞的句子使用特點(diǎn)。平均句長(zhǎng)可以用來(lái)衡量句子的復(fù)雜程度,通常與文本復(fù)雜度成正比;依存距離指有依存關(guān)系詞之間的線性距離,用于度量句法復(fù)雜度,通常依存距離越大則句子越復(fù)雜;依存關(guān)系占比是指核心論元、非核心依存關(guān)系、名詞依存關(guān)系和其他廣義依存關(guān)系在所有句法關(guān)系中的頻數(shù)占比,以此比較真假新聞在句法層面是否具有顯著差異。
在考察文本情感的計(jì)量特征時(shí),使用RuSentiment俄語(yǔ)情感詞典(Rogers" et al. 2018)作為參照,該詞典以單個(gè)詞為單位,每個(gè)詞的情感度量指標(biāo)包括強(qiáng)負(fù)面(值-5)、中負(fù)面(-3.3)、弱負(fù)面(值-2.5)、偏負(fù)面(-1.7),強(qiáng)正面(+5)、中正面(+3.3)、弱正面(+2.5)和偏正面(+1.7)8個(gè)級(jí)別。本文將依據(jù)該詞典分別考察真假新聞樣本中不同情感極性的詞匯占比,比較真假新聞在情感表達(dá)方面的差異,以此發(fā)現(xiàn)虛假新聞情感表達(dá)的區(qū)別性特征。
在自動(dòng)聚類(lèi)檢驗(yàn)方面,擬基于前3個(gè)階段的研究結(jié)果,使用詞匯及句法層面顯著區(qū)分計(jì)量指標(biāo),借助相關(guān)統(tǒng)計(jì)聚類(lèi)工具(SPSS)開(kāi)展檢驗(yàn),考察所得指標(biāo)能否較好地用于自動(dòng)區(qū)分俄語(yǔ)虛假新聞和真實(shí)新聞。
3 研究結(jié)果與討論
3.1 詞特征計(jì)量
通過(guò)比對(duì)8個(gè)虛假新聞樣本與8個(gè)真實(shí)新聞樣本(括號(hào)中為均值,各樣本計(jì)量值見(jiàn)表1),結(jié)果發(fā)現(xiàn):在平均詞數(shù)方面,虛假新聞每篇的平均詞數(shù)(187.04)較多,高于真實(shí)新聞(138.14),而平均詞長(zhǎng)較短(5.29lt;5.49),說(shuō)明虛假新聞傾向于使用多詞、短詞來(lái)傳遞信息,根據(jù)詞長(zhǎng)效應(yīng),文本難度相對(duì)較低。在類(lèi)型符比和詞匯密度方面,虛假新聞?lì)愋头雀哂谡鎸?shí)新聞(0.29gt;0.24),而詞匯密度略低于真實(shí)新聞(0.79lt;0.80),說(shuō)明雖然虛假新聞的詞匯豐富度高,但文本信息量和閱讀難度相對(duì)偏低,符合詞數(shù)和詞長(zhǎng)計(jì)量分析結(jié)果。隨后為了細(xì)粒度比對(duì)真假新聞8對(duì)樣本間差別,對(duì)上述特征開(kāi)展差異性檢驗(yàn)(獨(dú)立樣本T檢驗(yàn)),發(fā)現(xiàn)雖然二者詞長(zhǎng)和詞匯密度具有差異,但P值顯著性(雙尾)指標(biāo)大于0.05(分別為0.108和0.089),樣本差異不具備統(tǒng)計(jì)學(xué)意義,而平均詞數(shù)和類(lèi)形符比可以作為甄別虛假新聞的參考指標(biāo)(P值小于0.001,低于0.05參考值)。通過(guò)計(jì)量詞的總體特征(平均詞數(shù)、詞長(zhǎng)、類(lèi)型符比和詞匯密度特征)發(fā)現(xiàn),虛假新聞詞匯豐富度高,但信息量和難度偏低,平均詞數(shù)和類(lèi)形符比可作為甄別俄語(yǔ)虛假新聞的參考指標(biāo)。
在詞典分布特征方面,對(duì)虛假新聞和真實(shí)新聞8對(duì)樣本中詞頻總體排名前30的詞匯進(jìn)行統(tǒng)計(jì)(表2)。統(tǒng)計(jì)結(jié)果發(fā)現(xiàn),真假新聞?wù)Z料庫(kù)中共現(xiàn)詞匯為12對(duì)(в/在、и/和、на/在、не/不、быть/處于、с/同、что/什么、мы/我們、по/根據(jù)、о/關(guān)于、из/從、он/他/她、это/這、они/他們、который/那個(gè)、для/對(duì)、Россия/俄羅斯、за/為、год/年、к/向、то/那個(gè)、как/像、сказать/說(shuō)、этот/這個(gè)),以前置詞、代詞、連接詞為主。未共現(xiàn)詞為12個(gè),虛假新聞中6個(gè)詞(я/我、а/而、наш/我們、мочь/能、весь/所有、свой/自己的)以代詞為主,其中代詞“я”(我)的使用頻率達(dá)800次,初見(jiàn)虛假新聞與一般新聞報(bào)道的客觀性原則不符;真實(shí)新聞中6個(gè)詞以動(dòng)詞和名詞為主(сообщать/通知、заявлять/聲稱(chēng)、отмечать/注意、президент/總統(tǒng)、страна/國(guó)家、человек/人),未見(jiàn)明顯語(yǔ)義傾向。其次,對(duì)虛假新聞和真實(shí)新聞全文語(yǔ)料庫(kù)中總體詞頻進(jìn)行Zipf分布擬合檢驗(yàn),結(jié)果發(fā)現(xiàn)虛假新聞與真實(shí)新聞的詞頻分布均符合Zipf分布定律,虛假新聞的擬合優(yōu)度R2值(0.9867)與真實(shí)新聞的R2值(0.9729)差異并不明顯,難以作為區(qū)分俄語(yǔ)虛假新聞和真實(shí)新聞的參考指標(biāo)??赡芙忉屖?,兩個(gè)樣本均為新聞書(shū)面語(yǔ)體,詞頻分布特征不具備如同口語(yǔ)語(yǔ)體與書(shū)面語(yǔ)體之間那樣的顯著差異。通過(guò)計(jì)量詞頻分布特征發(fā)現(xiàn),真假新聞差異并不明顯,難以作為區(qū)分俄語(yǔ)虛假新聞和真實(shí)新聞的參考指標(biāo)。
在詞的占比特征方面,統(tǒng)計(jì)16個(gè)新聞樣本中各詞類(lèi)的使用頻率,再與總詞頻相除依次得到所占比例。從占比均值上來(lái)看,虛假新聞在語(yǔ)氣詞(高79.32%;高頻詞:бы/若、только/只、даже/連、же/該、вот/馬上、тоже/也)、代詞(高54.28%,高頻詞:мы/我們、который/哪個(gè)、он/他(她)、они/他們、я/我)、普通連接詞(高44.87%,高頻詞:и/同、а/而、но/但、или/或、также/甚至)、限定及物主代詞(高43.88%,高頻詞:наш/我們、этот/這個(gè)、весь/全部、свой/自己的、такой/那樣的)、副詞(高40.27%,高頻詞:уже/已經(jīng)、очень/非常、так/哪樣、рано/早、еще/還)、助動(dòng)詞(高30.44%,高頻詞:быть/作)、形容詞(高10.59%,高頻詞:российский/俄羅斯的、новый/新的、другой/其他的、первый/第一的、американский/美國(guó)的)和動(dòng)詞(高9.95%,高頻詞:мочь/能、сказать/說(shuō)、сообщать/通知、становиться/成為、заявлять/聲稱(chēng))的使用方面高于真實(shí)新聞,其中在語(yǔ)氣詞和代詞使用頻率上差異最為明顯;虛假新聞在數(shù)詞(低64.63%,高頻詞:один/一、несколько/幾個(gè)、два/二、три/三、пять/五)、專(zhuān)有名詞(低35.93%,高頻詞:Россия/俄羅斯、США/美國(guó)、Москва/莫斯科、Путин/普京、Германия/德國(guó))、前置詞(低14.88%,高頻詞:в/在、на/在、с/同、о/關(guān)于、по/根據(jù))和名詞(低9.88%,高頻詞:год/年、страна/國(guó)家、человек/人、время/時(shí)間、слово/詞)和從屬連接詞(低2.64%,高頻詞:что/什么、как/像、если/如果、чтобы/為了、когда/當(dāng))的使用頻率上低于真實(shí)新聞,其中在數(shù)詞和專(zhuān)有名詞使用頻率上差異最為明顯。據(jù)此可初步判定,虛假新聞與真實(shí)新聞詞類(lèi)使用方面存在差異(見(jiàn)圖2),差異顯著性從高到低依次是語(yǔ)氣詞、數(shù)詞、代詞、普通連接詞、物主代詞、副詞、專(zhuān)有名詞和助動(dòng)詞(高于30%);而在形容詞、動(dòng)詞、名詞和從屬連接詞使用頻率上雖有差異,但并不明顯(低于15%)。隨后對(duì)詞類(lèi)占比特征開(kāi)展差異性檢驗(yàn)(獨(dú)立樣本T檢驗(yàn)),發(fā)現(xiàn)除從屬連接詞和外語(yǔ)詞占比差異不顯著之外(P值為0.415和0.516),其他詞類(lèi)使用均有顯著差異,由此可以認(rèn)為,形容詞、前置詞、副詞、助動(dòng)詞、普通連接詞、限定詞、名詞、數(shù)詞、語(yǔ)氣詞、代詞、動(dòng)詞的占比可以作為甄別虛假新聞的參考指標(biāo)。通過(guò)計(jì)量詞類(lèi)占比特征發(fā)現(xiàn),形容詞、前置詞、副詞、助動(dòng)詞、普通連接詞、限定詞、名詞、數(shù)詞、語(yǔ)氣詞、代詞、動(dòng)詞的占比可以作為甄別俄語(yǔ)虛假新聞的參考指標(biāo)。
3.2 句特征計(jì)量
在句的總體特征方面,具體來(lái)說(shuō):虛假新聞8個(gè)樣本集中每篇新聞的平均句數(shù)(10.27)高于8個(gè)真實(shí)新聞樣本集(6.25),即傾向于使用多句傳遞信息;虛假新聞的平均句長(zhǎng)(18.41)低于真實(shí)新聞的平均句長(zhǎng)(22.10),平均依存距離(2.56)低于真實(shí)新聞(2.72),即句子復(fù)雜程度較低。由此可得,虛假新聞更傾向于使用復(fù)雜程度較低的多句、短句來(lái)傳遞信息。根據(jù)針對(duì)8對(duì)樣本進(jìn)行差異性檢驗(yàn)的結(jié)果(見(jiàn)表2),真假新聞在平均句數(shù)、句長(zhǎng)和依存距離上差異顯著(P值均小于0.001),可以作為甄別參考指標(biāo)。通過(guò)計(jì)量句總體特征(平均句數(shù)、句長(zhǎng)和依存距離)發(fā)現(xiàn)(見(jiàn)表2),俄語(yǔ)虛假新聞傾向于使用多句、短句、復(fù)雜度低的句子傳遞信息,平均句數(shù)、句長(zhǎng)和依存距離可以作為甄別參考指標(biāo)。
在句的依存關(guān)系方面,根據(jù)斯坦福通用依存(Universal Dependency)所采用的依存關(guān)系標(biāo)注體系,句法層面的依存關(guān)系可以分為狹義依存和廣義依存關(guān)系。狹義依存關(guān)系又可以分3類(lèi):核心依存關(guān)系(論元)、非核心依存關(guān)系和名詞依存關(guān)系;除此之外,廣義依存關(guān)系還包括其他類(lèi)型,在本文中統(tǒng)稱(chēng)為其他廣義依存關(guān)系。詳細(xì)的句法標(biāo)記規(guī)則和解析方法并不是本文討論的重點(diǎn),可參見(jiàn)圖1示例及相關(guān)資料(universaldependencies.org)。下文將針對(duì)上述4類(lèi)依存關(guān)系,分別統(tǒng)計(jì)它們?cè)谡Z(yǔ)料樣本所有依存關(guān)系中的使用頻率占比(特定依存關(guān)系的頻率數(shù)除以總依存關(guān)系數(shù)量),以此作為計(jì)量指標(biāo),衡量虛假新聞和真實(shí)新聞在句法層面的差異。研究結(jié)果包括4個(gè)方面:
(1)俄語(yǔ)虛假新聞總體較少使用核心依存關(guān)系,名詞做主部(或被動(dòng)意義)、補(bǔ)語(yǔ)、開(kāi)放從句補(bǔ)足語(yǔ)關(guān)系3類(lèi)核心依存關(guān)系的使用可作為甄別假新聞的參考指標(biāo)。具體來(lái)說(shuō),虛假新聞?shì)^少使用從句補(bǔ)足語(yǔ)(0.01%lt;0.02%)、名詞做主語(yǔ)(8.20%lt;8.48%)、名詞做主部(0.35%lt;0.53%)、開(kāi)放從句補(bǔ)足語(yǔ)(1.15%lt;0.82%)關(guān)系,較多使用根詞(5.67%gt;5.35%)和補(bǔ)語(yǔ)(3.80%>3.13%)關(guān)系,間接賓語(yǔ)的使用沒(méi)有差異。開(kāi)展細(xì)粒度差異性T檢驗(yàn)之后發(fā)現(xiàn),名詞做主部(或被動(dòng)意義)、補(bǔ)語(yǔ)及開(kāi)放從句補(bǔ)足語(yǔ)關(guān)系的使用與真實(shí)新聞存在差異顯著(P值均小于0.001)。
(2)俄語(yǔ)虛假新聞普遍較少使用名詞依存關(guān)系,除名詞從句修飾語(yǔ)、形容詞修飾語(yǔ)使用無(wú)顯著特點(diǎn)外,其他6項(xiàng)依存關(guān)系使用均可作為甄別假新聞的參考指標(biāo)。具體來(lái)說(shuō),虛假新聞在關(guān)系從句修飾語(yǔ)(0.57%lt;0.68%)、形容詞修飾語(yǔ)(11.53%lt;12.13)、同位語(yǔ)修飾語(yǔ)(1.29%lt;2.30%)、格支配關(guān)系(10.82%lt;14.14%)、名詞修飾語(yǔ)(11.92%lt;17.51%)、數(shù)詞修飾語(yǔ)(1.07%lt;2.17%)、區(qū)分大小寫(xiě)的數(shù)詞修飾語(yǔ)(0.35%lt;0.52%)的使用均低于真實(shí)新聞,僅名詞從句修飾語(yǔ)的使用高于真實(shí)新聞(0.07%gt;0.04%)。之后的差異性T檢驗(yàn)結(jié)果表明,除名詞從句修飾語(yǔ)、形容詞修飾語(yǔ)使用無(wú)顯著差異外,其他6項(xiàng)依存關(guān)系的使用均有顯著特點(diǎn)(P值均小于0.05)。
(3)俄語(yǔ)虛假新聞總體較少使用非核心依存關(guān)系,除話語(yǔ)要素關(guān)系外,其他8類(lèi)依存關(guān)系使用均可作為甄別假新聞的參考指標(biāo)。具體來(lái)說(shuō),虛假新聞在狀語(yǔ)從句修飾語(yǔ)(1.41%lt;1.87%)、助動(dòng)詞(0.35%lt;0.19%)、助動(dòng)詞被動(dòng)(0.39%lt;0.54%)、話語(yǔ)要素(0.04%lt;0.06%)、標(biāo)記(1.35%lt;1.84%)、間接格名詞(8.62%lt;10.20%)、間接格名詞被動(dòng)(0.09%lt;0.15%)等依存關(guān)系的使用上,均低于真實(shí)新聞,僅在狀語(yǔ)修飾語(yǔ)(6.31%gt;4.22%)和連接詞(0.51%gt;0.36%)關(guān)系使用上偏高。差異性T檢驗(yàn)結(jié)果表明,除話語(yǔ)要素的使用差異不明顯外,其他8類(lèi)關(guān)系的使用與真實(shí)新聞存在顯著差異。
(4)俄語(yǔ)虛假新聞總體較少使用廣義依存關(guān)系,其中6類(lèi)依存關(guān)系的使用均可作為甄別假新聞的參考指標(biāo)。具體來(lái)說(shuō),虛假新聞在復(fù)合表達(dá)式(0.01%lt;0.02%)、未確定依存關(guān)系(0.44%lt;0.46%)、連接詞(0.66%lt;1.03%)、固定多詞表達(dá)(0.32%lt;1.20%)、多詞表達(dá)式(0.87%lt;1.26%)、孤立詞(0.01%lt;0.03%)、無(wú)連詞并列(1.86%lt;2.65%)的使用方面低于虛假新聞,僅在并列連接(3.44%gt;2.56%)、連詞(4.13%gt;3.51%)的使用方面較高。差異性T檢驗(yàn)結(jié)果表明,除狀語(yǔ)修飾語(yǔ)、助動(dòng)詞被動(dòng)形式、間接格名詞使用沒(méi)有顯著特征外,其他6類(lèi)依存關(guān)系的使用均可作為甄別假新聞的參考指標(biāo)。
通過(guò)計(jì)量依存關(guān)系占比特征發(fā)現(xiàn),俄語(yǔ)虛假新聞?shì)^少使用復(fù)雜句法結(jié)構(gòu),句子復(fù)雜度較低,同時(shí)印證了通過(guò)計(jì)量平均句數(shù)、句長(zhǎng)和依存距離所得結(jié)論。
3.3 情感特征計(jì)量
使用情感詞典對(duì)8對(duì)新聞樣本進(jìn)行情感特征計(jì)量,計(jì)算情感詞匯占總詞匯的比例,結(jié)果發(fā)現(xiàn)(見(jiàn)表3):
(1)虛假新聞樣本的負(fù)面情感特征并不明顯,除強(qiáng)負(fù)面詞匯使用與真實(shí)新聞具有較大差異之外,其他正面情感詞匯使用基本一致。具體來(lái)說(shuō),虛假新聞的強(qiáng)負(fù)面情感詞匯的使用比例低于真實(shí)新聞(1.51%lt;2.09%,高頻詞:против/反對(duì)、проблема/問(wèn)題、запрет/禁止、сложный/復(fù)雜的、запрещать/禁止、недопустимый/不允許的、нарушение/破壞、жаловаться/抱怨、протест/抗議),中負(fù)面情感(0.19%lt;0.18%,高頻詞:неизвестный/不明的、старый/年老的、уголовный/刑事的、невозможный/不可能的、вооружённый/武裝的、лишний/多余的、разгромный/毀滅性的、дикий/野蠻的、оккупационный/占領(lǐng)的、недоступный/達(dá)不到的)、弱負(fù)面情感(0.26%lt;0.22%, 高頻詞:обвинять/指責(zé)、грозить/威脅、мешать/妨礙、забывать/遺忘、нарушать/破壞、бойкотировать/抵制、воровать/偷竊、отравлять/毒害、лишать/缺少、переживать/經(jīng)受)、偏負(fù)面情感(0.20%lt;0.22%,高頻詞:незаконный/非法的、судебный/司法的、алкогольный/酒精的、пустой/空虛的、тяжелый/沉重的、маргинальный/邊緣的、неудачный/不成功的)的詞匯使用差異不明顯。差異性T檢驗(yàn)結(jié)果表明,僅強(qiáng)負(fù)面情感詞匯的占比可作為甄別虛假新聞的參考指標(biāo)(P值小于0.001)。
(2)虛假新聞樣本的正面情感特征較為明顯,正面情感詞匯使用普遍高于真實(shí)新聞。具體來(lái)說(shuō),帶有強(qiáng)正面情感詞匯占比(1.76gt;0.75,高頻詞:известный/有名的、хороший/好的、современный/現(xiàn)代化的、победа/勝利、нужный/需要的、ведущий/主導(dǎo)的、хорошо/好、интересный/有趣的、чистый/干凈的)、中正面情感詞匯占比(高頻詞:первый/第一的、социальный/社會(huì)的、бесплатный/免費(fèi)的、популярный/流行的、сексуальный/性感的、реальный/真實(shí)的、учёный/有學(xué)問(wèn)的、нобелевский/諾貝爾獎(jiǎng)的、святой/神圣的)、弱正面情感詞匯占比(高頻詞:помогать/幫助、удаваться/成功、надеяться/希望、добиваться/獲得、обязательно/必然、уходить/逃脫、достигать/達(dá)成、чувствовать/感到、выигрывать/贏、дарить/贈(zèng)送)和偏正面情感詞匯占比(高頻詞:воздушный/空中的、денежный/錢(qián)的、космический/太空的、доступный/行得通的、целый/完整的、заметный/顯著的、домашний/家庭的、здоровый/健康的、особенный/特別的)均高于真實(shí)新聞。差異性T檢驗(yàn)結(jié)果表明,4個(gè)層級(jí)的正面情感詞匯占比可以作為甄別虛假新聞的參考指標(biāo)(P值小于0.001)。
綜上所述,虛假新聞具有情感傾向性,情感特征較真實(shí)新聞更明顯,情感詞匯使用頻率高于真實(shí)新聞(5.89%gt;4.71%),且正面情感較為顯著,強(qiáng)正面、中正面、弱正面、偏正面、強(qiáng)負(fù)面情感詞匯的使用占比可以作為甄別虛假新聞的參考指標(biāo)。
3.4 自動(dòng)聚類(lèi)檢驗(yàn)
根據(jù)3.1至3.2節(jié)的研究結(jié)果,選取虛假新聞不同于真實(shí)新聞的、具有顯著差異的14個(gè)詞計(jì)量特征(平均詞數(shù)、類(lèi)形符比以及形容詞、前置詞、副詞、助動(dòng)詞、普通連接詞、限定詞、名詞、數(shù)詞、語(yǔ)氣詞、代詞、動(dòng)詞的占比)、26個(gè)句計(jì)量特征(平均句數(shù)、句長(zhǎng)、依存距離、3類(lèi)核心依存關(guān)系、6類(lèi)名詞依存關(guān)系、8類(lèi)非核心依存關(guān)系和6類(lèi)廣義依存關(guān)系)和5個(gè)情感計(jì)量特征(強(qiáng)正面、中正面、弱正面、偏正面、強(qiáng)負(fù)面情感詞匯的使用占比)用于自動(dòng)聚類(lèi)檢驗(yàn)。檢驗(yàn)樣本為剩余的10個(gè)、5對(duì)真假新聞樣本,虛假新聞為樣本FT1至FT5,真實(shí)新聞樣本為RT1至RT5。對(duì)每個(gè)新聞樣本統(tǒng)計(jì)上述計(jì)量特征值,使用SPSS軟件進(jìn)行系統(tǒng)層級(jí)聚類(lèi)檢驗(yàn)(方法為組間鏈接;區(qū)間測(cè)量使用平方歐式距離;轉(zhuǎn)換值標(biāo)準(zhǔn)化使用Z得分),并生成聚類(lèi)結(jié)果的譜系圖。
圖2中由左至右分別為詞特征、句特征、情感特征及融合3類(lèi)特征的自動(dòng)聚類(lèi)結(jié)果,結(jié)果表明,45個(gè)詞、句以及情感計(jì)量特征能夠有效用于甄別俄語(yǔ)虛假新聞,自動(dòng)聚類(lèi)效果良好,差異性?xún)?yōu)劣排名為句特征優(yōu)于詞特征、優(yōu)于情感特征,融合3類(lèi)特征的聚類(lèi)效果提升不明顯。具體來(lái)說(shuō):(1)在區(qū)分虛假新聞樣本FT3、FT4和FT5時(shí),句特征的聚類(lèi)效果比詞特征更加細(xì)膩;(2)情感特征雖然能準(zhǔn)確區(qū)分真假新聞,但在小類(lèi)劃分上存在與使用前兩類(lèi)特征不一致的情況(體現(xiàn)在FT1和FT2的聚類(lèi)結(jié)果);(3)融合3類(lèi)特征后的聚類(lèi)結(jié)果,單獨(dú)使用詞或句特征的結(jié)果基本一致,聚類(lèi)的細(xì)致程度提升并不明顯。
4 結(jié)束語(yǔ)
本文采用基于語(yǔ)料庫(kù)的文體計(jì)量方法,考察俄語(yǔ)虛假新聞詞、句及情感特征,結(jié)果表明:
第一,俄語(yǔ)虛假新聞詞匯豐富度較高,但信息量和難度偏低;在甄別俄語(yǔ)虛假新聞時(shí),14個(gè)詞計(jì)量特征(平均詞數(shù)、類(lèi)形符比以及形容詞、前置詞、副詞、助動(dòng)詞、普通連接詞、限定詞、名詞、數(shù)詞、語(yǔ)氣詞、代詞、動(dòng)詞的占比)可以作為參考指標(biāo)。第二,俄語(yǔ)虛假新聞傾向于使用多句、短句、復(fù)雜度低的句子傳遞信息,較少使用復(fù)雜句法結(jié)構(gòu);在甄別時(shí),26個(gè)句計(jì)量特征(平均句數(shù)、句長(zhǎng)、依存距離、3類(lèi)核心依存關(guān)系、6類(lèi)名詞依存關(guān)系、8類(lèi)非核心依存關(guān)系和6類(lèi)廣義依存關(guān)系)可作為參考指標(biāo)。第三,俄語(yǔ)虛假新聞的情感傾向性較真實(shí)新聞更明顯,正面情感較顯著,負(fù)面情感不明顯,情感詞典中的強(qiáng)正面、中正面、弱正面、偏正面、強(qiáng)負(fù)面情感詞匯使用可以作為甄別虛假新聞的參考指標(biāo)。第四,使用句特征聚類(lèi)效果優(yōu)于詞特征,詞特征優(yōu)于情感特征,而融合3類(lèi)特征的聚類(lèi)精度提升并不明顯。
在未來(lái)的研究中,首先將對(duì)俄語(yǔ)虛假新聞和真實(shí)新聞的細(xì)粒度語(yǔ)言差異開(kāi)展實(shí)證分析,考察具有顯著差異的詞、句以及情感語(yǔ)義層面的細(xì)粒度差異,并采用更大規(guī)模語(yǔ)料庫(kù)驗(yàn)證所得結(jié)果。其次,在虛假新聞自動(dòng)聚類(lèi)方面,擬通過(guò)改進(jìn)方法和數(shù)據(jù)精度提升的準(zhǔn)確度和可靠性。最后,擬將對(duì)俄語(yǔ)虛假新聞文體研究的相關(guān)結(jié)論,在其他語(yǔ)言的虛假新聞中進(jìn)行比較與驗(yàn)證,嘗試發(fā)現(xiàn)多語(yǔ)言虛假新聞的共性特征,為應(yīng)用研究提供可靠基礎(chǔ)資源和理論支撐。
參考文獻(xiàn)
王 永 李昊天." 俄語(yǔ)視覺(jué)詩(shī)的計(jì)量特征——以卡緬斯基詩(shī)集《與母牛跳探戈》為中心[J]. 外國(guó)文學(xué)研究, 2015(5).‖Wang, Y., Li, H.-T." Quantitative Properties of" Russian Visual Poems: A Case Study of" Tango with Cows by V. Kamensky[J]. Foreign Literature Studies, 2015(5).
王 永 劉海濤." 俄語(yǔ)名詞的計(jì)量特征研究[J]. 浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版), 2013(6).‖Wang, Y.," Liu, H.-T. Quantitative Properties of Russian Nouns[J]. Journal of Zhejiang University(Humanities and Social Sciences), 2013(6).
原 偉." 俄漢新聞可比語(yǔ)料庫(kù)的構(gòu)建、評(píng)估及應(yīng)用展望[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào), 2017(6).‖Yuan, W. Building Russian-Chinese Comparable News Corpora, Their Comparablility Evaluations and Further Applications[J]." Journal of PLA University of Foreign Languages, 2017(6).
Abonizio, H.Q., De Morais, J.I., Tavares, G.M. et al. Language-independent Fake News Detection: English, Portuguese, and Spanish Mutual Features[J]. Future Internet, 2020(5).
Allcott," H., Gentzkow, M. Social Media and Fake News in the 2016 Election[J]." Journal of" Economic Perspectives, 2017(2).
Choudhary," A.," Arora, A. Linguistic Feature Based Learning Model for Fake News Detection and Classification[J]." Expert Systems with Applications, 2021(1).
Garg, S., "Sharma, D.K. Linguistic Features Based Framework for Automatic Fake News Detection[J]. Computers amp; Industrial Engineering, 2022(172).
Grinberg," N., Joseph, K.," L. Friedland" et al." Fake News on Twitter During the 2016 US Presidential Election[J]." Science, 2019(6425).
Khaldarova," I.," Pantti, M." Fake News: The Narrative Battle Over the Ukrainian Conflict[M]. London: Routledge, 2020.
Kuzmin, G.," Larionov, D., Pisarevskaya, D. et al. Fake News Detection for the Russian Language[P]." Procee-dings of" the 3rd International Workshop on Rumours and Deception in Social Media(RDSM). Barcelona: Asso-ciation for Computational Linguistics, 2020.
Hanshal, A.," Ucan, N.," Sanjalawe, K." Hybrid Deep Lear-ning Model for Automatic Fake News Detection[J]. Applied Nanoscience, 2022(1).
Pe’rez-Rosas, V., Kleinberg," B.," Lefevre, A.," Mihalcea, R. Automatic"" Detection of" Fake News[A]." Proceedings of" the 27th International Conference on Computational Linguistics[C]. Santa Fe: Association for Computational Linguistics, 2017.
Rogers, A., Romanov, A., Rumshisky, A. et al. RuSentiment: An Enriched Sentiment Analysis Dataset for Social Media in Russian[A]. Proceedings of the 27th International Conference on Computational Linguistics[C]. New Mexico: Association for Computational Linguistics, 2018.
Yule, G.U. On Sentence-length as a Statistical Characteristic of" Style in Prose: With Application to Two Cases of" Disputed Authorship[J]. Biometrika, 1939(3/4).
Ильичева, Л.Е., Кондрашов, А.О." Фальшивые новости как инструмент информационного противоборства[J]." Государственная служба, 2018(116).‖Ilyicheva, L.E., Kondrashov, A.O. Fake News as a Tool of Information Warfare[J]. Gosudarstvennaya Sluzhba, 2018(116).
定稿日期:2024-10-10【責(zé)任編輯 陳慶斌】