国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

攻擊性言論識別的研究

2021-11-21 00:29萬珂藍
現(xiàn)代計算機 2021年6期
關(guān)鍵詞:分類器攻擊性向量

萬珂藍

(四川大學(xué)計算機學(xué)院,成都610065)

0 引言

社交是人們?nèi)粘I钪兄匾幕顒又?。人們的社交渠道之所以產(chǎn)生了質(zhì)的飛躍,這都離不開互聯(lián)網(wǎng)的興起和發(fā)展。隨著各種網(wǎng)絡(luò)平臺的出現(xiàn),人們分享和獲取信息的成本變得十分低廉,然而方便的同時攻擊性言論也充斥在人們視野中。本文將攻擊性言論定義為能夠激怒個體或群體的文字內(nèi)容,其包含方面甚廣,涉及仇恨言論、人身攻擊、騷擾、嘲諷等。近年來,言論濫用相關(guān)的研究越來越得到重視。皮尤研究中心2017 年針對美國網(wǎng)絡(luò)騷擾的調(diào)查報告[1]指出,受調(diào)查的美國成年人中有41%曾在網(wǎng)絡(luò)上經(jīng)歷過騷擾行為;《2018 中國青少年互聯(lián)網(wǎng)使用與網(wǎng)絡(luò)安全情況調(diào)研報告》[2]也說明了受調(diào)查的青少年中有71.11%遭遇過暴力辱罵、77%經(jīng)歷過侮辱嘲笑。

防止攻擊性言論的濫用對維護社會和諧有重要意義。有效避免言論濫用的基礎(chǔ)是快速自動且準確地識別攻擊性言論。本文旨在對目前主流的攻擊性言論識別成果進行介紹。識別任務(wù)本質(zhì)是對文本進行分類,分類方法大致能分為兩種:一類是基于傳統(tǒng)機器學(xué)習(xí)的方法,該方法首先需要對文本進行特征的挖掘,然后使用合適的機器學(xué)習(xí)算法對特征進行分類。第二類是基于深度學(xué)習(xí)的方法,該方法需要將文本轉(zhuǎn)換為對應(yīng)的向量,將其作為輸入?yún)⑴c到深度學(xué)習(xí)模型的訓(xùn)練,訓(xùn)練好的模型則可以對文本進行分類。

1 文本特征

使用基于傳統(tǒng)機器學(xué)習(xí)的方法進行文本分類時,輸入的特征數(shù)據(jù)會對算法結(jié)果產(chǎn)生影響,所以為算法找到正確的特征是重點也是難點。對不同任務(wù),適用的特征可能不同,也可能需要多種特征混合使用以達到更優(yōu)的效果。

(1)詞典

使用字典/詞典是文本挖掘中最簡單的方法。此類方法需要構(gòu)建盡量完備的任務(wù)相關(guān)詞典,然后對目標文本進行關(guān)鍵詞匹配并計數(shù),匹配結(jié)果可直接作為特征,計數(shù)結(jié)果可用于計算程度得分。在攻擊性言論檢測中,使用到的詞典一般會包括:臟話、含有冒犯意味的代詞、俗語、常出現(xiàn)的網(wǎng)絡(luò)詞等。Elisa Bassignana 等人[3]創(chuàng)建了多語言仇恨詞匯詞典HurtLex,其中不僅包含相關(guān)詞匯,還帶有詞匯特性。經(jīng)過人工評估過濾后留下精準信息,機器翻譯為53 種語言,根據(jù)人工結(jié)果分為廣義和狹義兩個版本,可作為多語言的言論濫用檢測工具。詞典方法只負責為文本匹配提供基礎(chǔ),將句子看做詞匯或短語的集合,不考慮上下文關(guān)系。

(2)N-Grams

N-Grams 是文本檢測任務(wù)中最常用的技術(shù),同樣也是攻擊性言論識別任務(wù)中常使用的特征之一。最常見的N-Grams 方法是將句子中N 個連續(xù)單詞分為一組,然后枚舉所有組合并計算其出現(xiàn)次數(shù)。N-Grams相對于詞典,一定程度上考慮了上下文詞匯間的關(guān)系。在攻擊性言論檢測任務(wù)中,字符N-Grams 比單詞N-Grams 表現(xiàn)更好[4],這是由于用戶可能在發(fā)表攻擊性言論時為了避免詞典的搜索,對敏感詞匯進行了有意的錯誤拼寫。N-Grams 的難點在于N 值的選擇,N 值過大會影響文本處理速度,N 值過小則可能忽略掉關(guān)系信息直至退化為詞典方法。N-Grams 通常與其他特征結(jié)合時表現(xiàn)更優(yōu)。Cynthia Van Hee 等人[5]在社交媒體網(wǎng)絡(luò)欺凌檢測任務(wù)中使用了N-Grams 方法,通過驗證,當單獨使用特征時,表現(xiàn)最好的是單詞N-Grams 方法,在英文數(shù)據(jù)中F1 得分為0.60。但是結(jié)合了其他特征之后整體效果提高了4 個百分點。

(3)情感特征

文本情感分析是自然語言處理中一個不同于攻擊性言論識別的任務(wù),但情感特征在攻擊性言論識別中是有意義的。一般而言,攻擊性言論在情感極性上更有可能是消極負面的。當然,并非所有極性為負的言論都是攻擊性的,所以情感特征需要和其他特征結(jié)合在一起使用。在文本情感分析任務(wù)中,可以使用基于情感詞典的方法,還可以使用基于機器學(xué)習(xí)的方法。Hajime Watanabe 等人[6]在Twitter 仇恨言論檢測任務(wù)中使用了基于情感詞典的方法提取出的情感特征,從每條推文中提取正負詞匯數(shù)目、正負俚語數(shù)目、正負表情符號數(shù)目、正負標簽數(shù)目,然后計算得分值用于判斷極性。

列舉了攻擊性言論識別任務(wù)中常用的三種特征,識別任務(wù)中還有更多的特征:可用于故意錯誤拼寫檢測的距離度量特征、能提高語境重要性的詞性特征、主題分類特征、模式特征等。

2 基于機器學(xué)習(xí)的方法

基于傳統(tǒng)機器學(xué)習(xí)的方法在攻擊性言論識別任務(wù)中的應(yīng)用十分廣泛。此類方法通常會先提取文本特征,相應(yīng)特征的選擇基于特定的任務(wù)內(nèi)容,然后再使用機器學(xué)習(xí)算法作為分類器進行學(xué)習(xí),不同的算法對特征的適應(yīng)性不一,最后的效果也會有些許差別。當然,基于傳統(tǒng)機器學(xué)習(xí)的算法不僅可以用于檢測分類任務(wù),還可以用于特征提取任務(wù),但在攻擊性言論的特征提取任務(wù)中可能會因為數(shù)據(jù)稀疏而導(dǎo)致特征提取難度較大,所以主流使用傳統(tǒng)機器學(xué)習(xí)的方法都是先提取特征,然后再使用分類器進行分類。

2.1 相關(guān)技術(shù)

基于傳統(tǒng)機器學(xué)習(xí)的方法在分類器的選擇上提供了多種可能。一般研究都是以實驗結(jié)果為標準,然后再確定最合適的分類器。在攻擊性言論識別任務(wù)中常用的分類器有邏輯回歸、支持向量機、隨機森林、樸素貝葉斯等。

(1)邏輯回歸(Logistic Regression)

邏輯回歸又稱對數(shù)幾率回歸,常用于二分類問題,以估計目標屬于某一個類別的可能性。邏輯回歸因其簡單、可并行的特點而被廣泛使用。邏輯回歸首先假設(shè)數(shù)據(jù)服從某個分布,然后使用極大似然法進行估計。邏輯回歸可以簡單理解為以線性回歸模型為基礎(chǔ)的,使用了Sigmoid 函數(shù)以引入非線性因素的分類模型,其目標是為了盡量好地擬合非線性決策邊界。決策邊界可以標識出分類邊界,結(jié)合決策函數(shù)就能得出目標樣本的類別。

(2)支持向量機(SVM)

支持向量機也是一種線性分類器,是使用監(jiān)督學(xué)習(xí)方式進行二分類的廣義線性分類器。其目標是找到具有最大間隔的劃分超平面即決策邊界。SVM 在圖像、文本分類領(lǐng)域應(yīng)用廣泛。實際問題可分為線性可分與線性不可分兩種情況:線性可分即樣本特征空間中存在能使兩個類別分開且與之間隔最大的劃分超平面,在這種情況下,SVM 需要通過監(jiān)督學(xué)習(xí)找出這個超平面。線性不可分即樣本特征空間中存在的是超曲面,此時一般思路是將樣本從原始空間通過核函數(shù)映射到一個更高維的特征空間中,使得樣本在高維特征空間內(nèi)線性可分,以此將問題轉(zhuǎn)化,常用的核函數(shù)包括了高斯核函數(shù)、Sigmoid 核函數(shù)等。

(3)隨機森林(Random Forest)

隨機森林是包含了多個決策樹的機器學(xué)習(xí)算法,其分類結(jié)果由單個決策樹輸出類別的眾數(shù)決定。決策樹是基于樹結(jié)構(gòu)的,決策樹的葉節(jié)點對應(yīng)于決策樹的決策結(jié)果,通常需要經(jīng)過一系列判斷才能得到。決策樹的學(xué)習(xí)目標是找出準確分類邊界的同時樹的泛化能力能保持較強。在構(gòu)建樹的過程中會不斷剪枝優(yōu)化以防止出現(xiàn)過擬合現(xiàn)象降低模型的泛化能力。同時,決策樹的分類邊界有軸平行的特點,結(jié)合特殊的樹形結(jié)構(gòu)也使得結(jié)果相較于其他算法擁有較好的可解釋性。隨機森林在決策樹的基礎(chǔ)上,數(shù)據(jù)和待選特征都是隨機選取的。在攻擊性言論識別任務(wù)中,通常數(shù)據(jù)比較稀疏且類別不平衡,使用隨機森林可以在一定程度上平衡誤差。

2.2 國內(nèi)外研究

Thomas Davidson 等人[7]在研究仇恨言論自動識別的研究中,從Twitter 上獲取了隨機推文并分為仇恨、冒犯和中性三類。他們使用了多種N 值的N-Grams 特征以及語法特征,分類器使用了邏輯回歸、樸素貝葉斯、決策樹和線性SVM。實驗結(jié)果表明邏輯回歸和線性SVM 的效果顯著優(yōu)于其他算法。

Shervin Malmasi 等人[8]同樣在仇恨言論檢測的研究中使用了Twitter 數(shù)據(jù)。并且使用了基于字符的和基于詞匯的不同N 值的N-Grams 特征,然后直接使用線性SVM 作為多分類任務(wù)的分類器。通過實驗結(jié)果,發(fā)現(xiàn)使用4 個字符為一組的N-Grams 作為特征能得到最高的精確度,但是與基線模型還有一定差距,說明這些特征并不能很好地表示樣本。

Despoina Chatzakou 等人[9]在對Twitter 進行網(wǎng)絡(luò)欺凌檢測時使用了多種特征,基于用戶的、基于文本的以及基于社交網(wǎng)絡(luò)的特征。分類器在比較多種樹算法之后選擇了由10 棵決策樹組成的隨機森林。實驗在數(shù)據(jù)集上的結(jié)果精準度較高,也說明了結(jié)合多種類型的特征之后能提高分類的效果。

George W.Kennedy III 等人[10]在網(wǎng)絡(luò)騷擾的研究中使用了字符N-Grams、單詞N-Grams、情感極性等特征,然后以實驗效果最好的隨機森林作為分類器對特征進行學(xué)習(xí)。學(xué)習(xí)了從Twitter 和Reddit 上獲取的評論,分類F1 得分達到了0.90 的優(yōu)秀效果。

3 基于深度學(xué)習(xí)的方法

近年來,深度學(xué)習(xí)在自然語言處理中應(yīng)用范圍逐漸增加。深度學(xué)習(xí)可以通過簡單的表示來構(gòu)建復(fù)雜的表示,旨在學(xué)習(xí)樣本數(shù)據(jù)的規(guī)律和表示。簡單而言,深度學(xué)習(xí)可以自行學(xué)習(xí)樣本的特征,并進一步分析。盡管深度學(xué)習(xí)從屬于機器學(xué)習(xí)的范疇,但相比傳統(tǒng)機器學(xué)習(xí)算法,深度學(xué)習(xí)擁有較復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),能結(jié)合簡單特征形成復(fù)雜表示。在文本挖掘任務(wù)中使用深度學(xué)習(xí),首先需要將文本處理為合適的詞向量作為輸入,然后構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)用于訓(xùn)練。在攻擊性言論識別任務(wù)中,使用深度學(xué)習(xí)方法通常效果會比傳統(tǒng)機器學(xué)習(xí)方法更好,但詞向量的優(yōu)劣會對訓(xùn)練結(jié)果產(chǎn)生影響。

3.1 相關(guān)技術(shù)

在自然語言處理領(lǐng)域,詞向量的訓(xùn)練可以作為一個單獨的任務(wù),其成果也為下游任務(wù)提供了基礎(chǔ)。深度學(xué)習(xí)可以理解為表示學(xué)習(xí),起源于對神經(jīng)網(wǎng)絡(luò)的研究,通過增加隱層的數(shù)目使網(wǎng)絡(luò)結(jié)構(gòu)更深,將低層的特征表示轉(zhuǎn)化為高層的特征表示以完成更為復(fù)雜的任務(wù)。

(1)詞嵌入

詞嵌入是語言模型與表征學(xué)習(xí)的統(tǒng)稱,目的是將文本中的詞語映射為向量空間中的向量。簡單而言,就是把文本形式轉(zhuǎn)化為數(shù)字向量形式。最基本的詞嵌入方法為One-Hot 編碼,即獨熱編碼。獨熱編碼根據(jù)文本詞匯數(shù)目轉(zhuǎn)化為0/1 向量形式,只有對應(yīng)詞的位置為1,其余位置為0。獨熱編碼在表示詞向量時不考慮詞之間的相關(guān)性,而Word2Vec 方法[11]則會查看詞的上下文并以數(shù)字向量形式表示出來。Word2Vec 是目前較主流的詞向量表示方法,分為連續(xù)詞袋模型(CBOW)和Skip-gram 模型,CBOW 模型從上下文單詞預(yù)測目標單詞,Skip-gram 模型從目標單詞預(yù)測上下文單詞。近年,預(yù)訓(xùn)練模型的成果顯著,Glove 全局向量表示[12]、BERT 多語言預(yù)訓(xùn)練模型[13]等模型的分享,使詞嵌入技術(shù)進入新的高度。

(2)深度神經(jīng)網(wǎng)絡(luò)

在文本分類任務(wù)中,最常見的基礎(chǔ)深度神經(jīng)模型有卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)以及循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)。卷積神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層、輸出層構(gòu)成,其深度體現(xiàn)在隱含層的多層結(jié)構(gòu)中。隱含層主要包含對數(shù)據(jù)進行特征提取的卷積層、對信息進行過濾的池化層、對特征進行非線性組合的全連接層。卷積神經(jīng)網(wǎng)絡(luò)在進行文本建模時,通過卷積層的卷積核滑動窗口對文本向量做卷積操作,用以提取文本局部的特征。通常文本詞匯之間是有上下文序列關(guān)系的,此時需要有序列信息處理能力的深度網(wǎng)絡(luò),以此遞歸式的循環(huán)神經(jīng)網(wǎng)絡(luò)產(chǎn)生,其序列關(guān)系處理能力體現(xiàn)為每一刻的輸入都包含了上一刻隱層的輸出。最常見的循環(huán)神經(jīng)網(wǎng)絡(luò)是長短期記憶網(wǎng)絡(luò)(LSTM),比基本的RNN多出了遺忘的功能,只有算法認可的部分能被記憶,否則信息不重要被遺忘。

(3)注意力機制

注意力機制是對人類注意力行為的仿生模擬。當閱讀時,人類對詞匯注意力的分布是不均勻的,注意力機制的目標就是從任務(wù)中找到關(guān)鍵信息并賦予更高的權(quán)重。簡單來講,注意力機制就是強化關(guān)鍵信息,弱化無關(guān)信息。注意力機制通常會根據(jù)具體的任務(wù)調(diào)整關(guān)注方向和加權(quán)模型。Ashish Vaswani 等人[14]將注意力定義為將查詢和一組鍵值對映射到輸出的方法。注意力機制有時空之分,也可以根據(jù)作用范圍分為全局權(quán)值計算和局部權(quán)值計算兩種。

3.2 國內(nèi)外研究

Pinkesh Badjatiya 等人[15]在Twitter 仇恨言論檢測中使用了CNN 和LSTM 的方法,實驗表明深度學(xué)習(xí)效果在任務(wù)中的表現(xiàn)顯著優(yōu)于傳統(tǒng)機器學(xué)習(xí),并且單獨使用網(wǎng)絡(luò)時CNN 的效果比LSTM 效果更優(yōu),但結(jié)合梯度提升決策樹后LSTM 的效果明顯優(yōu)于CNN。

Ji Ho Park 等人[16]在言論濫用檢測任務(wù)中,考慮到Twitter 言論的特殊性,需要同時獲取詞匯級別和字符級別上的特征,所以使用了結(jié)合字符CNN 和單詞CNN的混合CNN 模型,同時提取不同級別的特征。從實驗結(jié)果可以看出結(jié)合之后的模型比單獨的模型效果更優(yōu)秀。但針對不同標簽的數(shù)據(jù),在數(shù)據(jù)平衡性不一的情況下,可能適用的算法不同。

Shiwei Zhang 等人[17]在嘲諷識別任務(wù)中,使用了從情感分析任務(wù)中遷移的結(jié)合注意力機制的雙向長短期記憶網(wǎng)絡(luò)。利用了在情感分析訓(xùn)練中學(xué)習(xí)到的隱式情緒特征,提高了模型檢測嘲諷言論中不協(xié)調(diào)性的能力。實驗也說明了相較于單一的神經(jīng)網(wǎng)絡(luò)方法,結(jié)合相關(guān)特征之后效果會很好,同時通過遷移學(xué)習(xí)效果可能會更好。

Pushkar Mishra 等人[18]在言論濫用檢測任務(wù)中使用了圖卷積網(wǎng)絡(luò),本質(zhì)上是加入了更多的相關(guān)信息如用戶個人信息、用戶社交信息等,而非單一的言論文本內(nèi)容。將特征作為圖節(jié)點輸入到圖卷積網(wǎng)絡(luò)中進行學(xué)習(xí),結(jié)合邏輯回歸和圖卷積網(wǎng)絡(luò)之后得到的結(jié)果令人驚喜。通過圖卷積網(wǎng)絡(luò),模型能夠直接捕捉用戶的語言行為和群體結(jié)構(gòu)特征。

4 結(jié)語

本文對攻擊性言論識別任務(wù)進行了研究。介紹了文本識別任務(wù)中可能使用到的典型文本特征,并歸類了兩種常用方法:基于傳統(tǒng)機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。攻擊性言論識別任務(wù)在近年來得到了很多關(guān)注,也有相關(guān)的比賽和研討會。攻擊性言論檢測可以應(yīng)用于網(wǎng)絡(luò)平臺的言論濫用對抗,也可以用在風(fēng)格遷移任務(wù)中。相信在未來,相關(guān)研究的熱度將持續(xù)。

猜你喜歡
分類器攻擊性向量
引入注意力機制的AdaBoost算法
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴增分類
向量的分解
學(xué)貫中西(6):闡述ML分類器的工作流程
兒童攻擊性行為的矯正策略
二維碼
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機集成算法
大學(xué)生運動員自尊與自我控制及攻擊性的關(guān)系
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
高邮市| 建阳市| 云龙县| 东乡| 刚察县| 玛沁县| 莱州市| 和硕县| 七台河市| 靖西县| 西青区| 泰来县| 恩施市| 双流县| 青海省| 大同县| 苏尼特左旗| 华亭县| 门源| 曲松县| 镇康县| 北碚区| 彭泽县| 无极县| 宜昌市| 定襄县| 陆良县| 永康市| 堆龙德庆县| 龙州县| 马公市| 德昌县| 西乌珠穆沁旗| 泸溪县| 绥德县| 宜黄县| 富民县| 昌宁县| 乐安县| 扬中市| 胶州市|