国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的網(wǎng)絡(luò)不良文本識別分析研究

2021-08-15 13:18武夢旭
統(tǒng)計理論與實(shí)踐 2021年7期
關(guān)鍵詞:用詞向量卷積

武夢旭

(燕山大學(xué) 理學(xué)院,河北 秦皇島066004)

一、引言

識別網(wǎng)絡(luò)不良文本問題的實(shí)質(zhì)是文本分類問題,即將網(wǎng)絡(luò)文本分為正常文本和不良文本兩類,其中不良文本多是敏感性、攻擊性、辱罵性的內(nèi)容。對于不良文本信息的攔截過濾技術(shù)研究可以追溯到21世紀(jì)初,Denning[1]首次提出了垃圾信息過濾的概念,在郵件的接收過程中可以通過郵件內(nèi)容判斷郵件的緊急性,以保證郵件接收者及時處理緊急郵件。近年來,許多研究人員在社交媒體安全性研究方面取得了長足進(jìn)步,對不良內(nèi)容的過濾許多都是基于黑白名單、關(guān)鍵字、規(guī)則表達(dá)式和分類技術(shù)等方法。Njaji、Zhang等[2]利用與仇恨言論相關(guān)的主觀性和語義特征,構(gòu)建包含仇恨動詞的詞典來檢測仇恨言論。Silva、Mondal等[3]根據(jù)句子結(jié)構(gòu)提出一個基本表達(dá)式來檢測Whisper和Twitter中的仇恨言論,并將這些仇恨言論通過人工標(biāo)記劃分細(xì)粒度。

隨著自然語言處理技術(shù)的發(fā)展以及計算機(jī)性能的提高,深度學(xué)習(xí)網(wǎng)絡(luò)模型逐漸應(yīng)用到文本分類領(lǐng)域,憑借其高效的特征提取方法,能夠有效的提升分類效果。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是深度神經(jīng)網(wǎng)絡(luò)的兩個主要結(jié)構(gòu)。Le、Botton等[4]在研究計算機(jī)圖像處理時首次提出卷積神經(jīng)網(wǎng)絡(luò),主要利用卷積核提取局部特征,效果優(yōu)于當(dāng)時其他技術(shù)。Socher、Huval等[5]利用矩陣和向量構(gòu)建了一個循環(huán)神經(jīng)網(wǎng)絡(luò)(MV-RNN),通過該網(wǎng)絡(luò)能夠從任意句法類型和長短不一的句子中學(xué)習(xí)潛在的語義關(guān)系,每個句子生成長度一致的特征向量,實(shí)驗(yàn)結(jié)果顯示相比傳統(tǒng)機(jī)器學(xué)習(xí)算法其效果更好。Yang、Zhang等[6]基于兩個前后連接的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)并結(jié)合注意力機(jī)制(Attention Mechanism)構(gòu)建分層注意力網(wǎng)絡(luò)模型,在單詞層面和句子層面應(yīng)用兩個級別的注意機(jī)制對文本內(nèi)容進(jìn)行編碼,取得較好的分類效果。

網(wǎng)絡(luò)不良文本多由網(wǎng)民自主創(chuàng)造,具有靈活多變的特點(diǎn)。深度學(xué)習(xí)模型能自主地學(xué)習(xí)文本中的特征,可以有效地避免人工標(biāo)準(zhǔn)特征存在的不足,并且深度學(xué)習(xí)模型能通過不斷的學(xué)習(xí)來適應(yīng)文本的變化。

二、基于特征融合的BiLSTM模型

(一)模型總體設(shè)計

將詞特征和語義特征結(jié)合,提出一種基于多特征融合的BiLSTM模型的網(wǎng)絡(luò)不良文本分類方法,用于提高檢測的性能,模型結(jié)構(gòu)圖如圖1所示。該方法主要由三部分組成,第一部分是利用N-Gram進(jìn)行文本詞特征的向量表示,第二部分是使用Word2Vec模型提取深層語義特征,第三部分是將這兩部分的特征向量拼接相融合并使用Softmax激活函數(shù)實(shí)現(xiàn)分類。

圖1 多特征融合的BiLSTM模型結(jié)構(gòu)圖

1.詞特征提取

選用語法特征作為詞特征。N-Gram是一種基于統(tǒng)計語言模型的算法,對文本內(nèi)容按照字節(jié)采取大小為N的滑動窗口操作,形成長度是N的字節(jié)片段序列,即將連續(xù)的N個詞作為向量空間中的一個維度。忽視一個文本的詞序、語法,句法,僅將其視為一個詞集合,且假設(shè)文中的每個詞的出現(xiàn)都是獨(dú)立的,不依賴于其他詞是否出現(xiàn),則從一個句子中提取N個連續(xù)的單詞,可以獲取到詞的前后信息。

N-Gram模型基于隱馬爾科夫假設(shè),各個詞出現(xiàn)的概率乘積就等于整個句子出現(xiàn)的概率,各個詞出現(xiàn)的概率可以直接通過語料統(tǒng)計計算得到。當(dāng)一個詞的出現(xiàn)只依賴于前一個詞,概率計算公式如下:

如果一個詞的出現(xiàn)僅依賴于它前面出現(xiàn)的兩個詞時,概率計算公式如下:

公式(1)和(2)中,n表示文本包含的詞數(shù)量,每一個詞用 wi表示,P(wi|wi-1)和 P(wi|wi-1wi-2)表示在文本中前1個詞是wi-1和前2個詞是wi-1、wi-2的條件下第i個詞是wi的概率。

在對n值的選取上,n越大計算所依賴的詞越多,可獲得的信息量越多,對未來的預(yù)測就越準(zhǔn)確,模型效果也越好。然而,考慮到網(wǎng)絡(luò)不良文本中存在較多拼寫錯誤和語法不規(guī)范問題,若n取值較大,可以獲得下一個詞更多的約束信息,但很容易出現(xiàn)訓(xùn)練集中沒有的詞,產(chǎn)生數(shù)據(jù)稀疏。若n取值較小,則在訓(xùn)練語料庫中出現(xiàn)的次數(shù)更多,統(tǒng)計結(jié)果更可信。所以n取值不宜過大,可以取n值為2,選用Bi-gram提取文本詞特征。

2.語義特征提取

采用結(jié)合Word2Vec預(yù)訓(xùn)練詞嵌入的BiLSTM(Bi-directional Long Short-Term Memory)模型提取深層語義特征。首先,采用Word2Vec方法中的CBOW模型進(jìn)行詞向量的表示。其次,BiLSTM作為文本特征的映射器,將CBOW模型學(xué)習(xí)到的文本詞向量輸入BiLSTM模型的數(shù)據(jù)通道中,在forward層從前向后計算一遍,在backward層從后往前運(yùn)算一遍,每個時刻結(jié)合forward層和backward層的相應(yīng)時刻輸出的結(jié)果,經(jīng)過映射和激活函數(shù)的處理,將得到一組輸出,并將其進(jìn)行全連接處理,作為文本語義特征。

(1)Word2Vec

Word2Vec在語料集訓(xùn)練上主要分為CBOW(Continuous Bag-of-Word Model)和 Skip-Gram兩種模式,結(jié)構(gòu)如圖2所示。其中CBOW是在NNLM的基礎(chǔ)上去除前向反饋神經(jīng)網(wǎng)絡(luò)中的非線性隱層,直接將中間層與輸出層連接,輸入層輸入詞的One-Hot向量,隱藏層直接對輸入的向量累加求和并取平均值的運(yùn)算,輸出層輸出當(dāng)前詞的某個向量概率,向量概率最大的位置代表的單詞為預(yù)測出的中間詞,即CBOW是從上下文到當(dāng)前詞的某種映射或者預(yù)測,CBOW模型的目標(biāo)函數(shù)是輸出的真實(shí)中心詞概率最大,計算公式為:

圖2 CBOW和Skip-Gram模型結(jié)構(gòu)示意圖

公式(3)中,wt表示當(dāng)前詞匯,wt-c,wt-1,wt+1,…,wt+c表示與wt距離c個單位以內(nèi)的詞匯,通過相鄰的c個詞匯可以計算wt的概率分布,然后使用中間隱藏層進(jìn)行均值計算得到詞匯wt的詞向量表示。Skip-Gram則是從當(dāng)前詞預(yù)測上下文,Skip-Gram模型的計算公式如下:

(2)BiLSTM

LSTM模型是RNN的一種變體,RNN存在梯度消失的問題且只有短期記憶。LSTM將短期記憶與長期記憶通過精妙的門控制結(jié)合起來,并且在一定程度上緩解了梯度消失的問題,LSTM結(jié)構(gòu)圖如圖3所示。LSTM模型只使用了上文的信息,而沒有考慮到下文的信息,而預(yù)測可能需要使用到整個輸入序列的信息,BiLSTM是結(jié)合文本從前到后作為輸入的LSTM和從后向前作為輸入的LSTM組合而成,BiLSTM結(jié)構(gòu)圖如圖4所示。

圖3 LSTM結(jié)構(gòu)圖

圖4 BiLSTM結(jié)構(gòu)圖

LSTM包括輸入門、遺忘門、輸出門三個“門”結(jié)構(gòu),通過對細(xì)胞狀態(tài)中信息遺忘和記憶新的信息使得對后續(xù)時刻計算有用的信息得以傳遞,而無用的信息被丟棄,并在每個時間步輸出隱層狀態(tài),遺忘門決定從細(xì)胞狀態(tài)中丟棄信息,通過上一個細(xì)胞狀態(tài)的輸出和當(dāng)前細(xì)胞的輸入,使用Sigmoid函數(shù)輸出一個在0到1之間的數(shù)值,1表示完全保留信息,0表示完全舍棄。其計算公式為:

輸出門確定輸出值。確定細(xì)胞狀態(tài)的輸出部分ot,然后對細(xì)胞狀態(tài)進(jìn)行過濾處理確定輸入部分ht:

其中xt為t時刻的輸入詞向量,ht-1表示循環(huán)單元上一時刻的隱層狀態(tài),Wf,Wi,Wo,WC分別表示上一時刻輸出值在遺忘門、記憶門、輸出門、臨時細(xì)胞狀態(tài)更新中的權(quán)重系數(shù),bf、bi、bo、bC表示遺忘門、記憶門、輸出門、臨時細(xì)胞狀態(tài)的更新偏置量。

3.輸出層

對本節(jié)模型的前兩部分的中間層輸出向量作拼接的靜態(tài)融合,得到該模型的特征向量,包含了詞和語義兩種特征,然后進(jìn)行協(xié)同訓(xùn)練使用Softmax激活函數(shù)將特征向量轉(zhuǎn)化成概率,根據(jù)概率判斷網(wǎng)絡(luò)文本是正常文本或不良文本,其計算公式為:

(二)模型實(shí)驗(yàn)

1.數(shù)據(jù)采集及標(biāo)注

通過網(wǎng)絡(luò)爬蟲的方式進(jìn)行網(wǎng)絡(luò)文本數(shù)據(jù)的采集。采用Scrapy框架在微博平臺上獲取相應(yīng)數(shù)據(jù),這個框架爬取數(shù)據(jù)的結(jié)構(gòu)圖如圖5所示。

圖5 微博數(shù)據(jù)爬取流程圖

網(wǎng)絡(luò)文本分析所需要的數(shù)據(jù)類型主要包括兩部分:網(wǎng)絡(luò)不良文本和網(wǎng)絡(luò)正常文本。從微博社區(qū)管理中心的舉報處理大廳收集來自人身攻擊類、辱罵低俗類的微博。從微博首頁收集正常微博,共搜集微博文本數(shù)據(jù)8000條,并對所有數(shù)據(jù)集按照8:2的比例分配給訓(xùn)練集和測試集。對于爬取到的微博文本數(shù)據(jù),根據(jù)其是否為不良文本用0和1對其進(jìn)行人工標(biāo)記,其中不良文本標(biāo)記為1,正常文本標(biāo)記為0,實(shí)驗(yàn)數(shù)據(jù)見表1。

表1 文本分類實(shí)驗(yàn)數(shù)據(jù)表

2.文本預(yù)處理

微博搜集的文本存在噪音干擾大的問題,針對微博文本采取以下方法對文本數(shù)據(jù)集進(jìn)行預(yù)處理,從而提高網(wǎng)絡(luò)不良文本的識別精確度。

(1)去噪

構(gòu)建正則表達(dá)式過濾html、url,去除@及用戶名、情感符號和非中英文的字符,保留文本中的標(biāo)簽信息以及將繁體字轉(zhuǎn)為簡體字等。html和url對于判斷文本是否屬于不良文本沒有任何實(shí)質(zhì)作用,故過濾掉html和url;針對帶有@及用戶名的文本,需要排除用戶名對文本的干擾,所以去除@及用戶名;為了防止干擾,將特殊字符及非中英文的字符統(tǒng)一去除掉;針對帶有“#標(biāo)簽#”的文本數(shù)據(jù),如果僅去除符號#和標(biāo)簽內(nèi)容,可能會影響微博用戶所要表達(dá)的意思,因此保留文本中的標(biāo)簽內(nèi)容。

(2)去除停用詞

對于一些沒有意義的詞,例如“的、了、哦”和一些標(biāo)點(diǎn)等,使用停用詞詞典進(jìn)行去除。在互聯(lián)網(wǎng)上中英文混用的現(xiàn)象非常普遍,而有些無意義的英文單詞的出現(xiàn)也會對不良文本識別產(chǎn)生影響,因此也需要將英文停用詞加入到停用詞典中。本文使用的停用詞詞典是基于哈工大停用詞詞表構(gòu)造的,在哈工大停用詞詞表的基礎(chǔ)上增加英文停用詞。哈工大停用詞詞表共含有768項(xiàng)中文、標(biāo)點(diǎn)以及特殊字符,在此基礎(chǔ)上增加英文停用詞640項(xiàng),新的停用詞詞典共1408項(xiàng)。

(3)分詞

現(xiàn)在的中文分詞工具有很多,本文使用基于結(jié)巴分詞的工具來對微博文本進(jìn)行中文分詞。結(jié)巴分詞工具中的自定義詞典可以添加一些最新的網(wǎng)絡(luò)熱詞以及縮略詞,但是還有一些不良詞匯及變體沒有收錄。因此,構(gòu)建不良詞匯詞典,并將不良詞匯詞典添加到結(jié)巴分詞工具的自定義詞典中,實(shí)現(xiàn)對文本更準(zhǔn)確的切分。

3.模型參數(shù)設(shè)置

模型中會有許多的超參數(shù)需要設(shè)置,不同超參數(shù)的設(shè)置會對模型的性能有不同的影響。對這些超參數(shù)論文進(jìn)行基準(zhǔn)值設(shè)定,超參數(shù)基準(zhǔn)設(shè)定如表2所示。

表2 超參數(shù)基準(zhǔn)設(shè)定值

4.評價標(biāo)準(zhǔn)

在對網(wǎng)絡(luò)文本分類過程中,評價指標(biāo)包括準(zhǔn)確率(precision)、召回率(recall)和F1值。在對網(wǎng)絡(luò)文本進(jìn)行分類過程中,有可能會出現(xiàn)4種結(jié)果,模型預(yù)測結(jié)果如表3所示。

表3 模型預(yù)測結(jié)果

準(zhǔn)確率表示在對網(wǎng)絡(luò)文本進(jìn)行分類的過程中,模型正確分類出來的網(wǎng)絡(luò)不良文本數(shù)和預(yù)測出來的網(wǎng)絡(luò)不良文本數(shù)的比值,準(zhǔn)確率的計算公式如下:

召回率表示在對網(wǎng)絡(luò)文本進(jìn)行分類的過程中,模型正確分類出來的網(wǎng)絡(luò)不良文本數(shù)和實(shí)際產(chǎn)生的網(wǎng)絡(luò)不良文本數(shù)的比值,召回率的計算方式如下:

F1值是用來對精確率以及召回率進(jìn)行調(diào)和的平均值。F1值是對模型的精確率和召回率進(jìn)行綜合的考慮,與精確率和召回率相比更能反應(yīng)模型的分類效果。F1值的計算方式如下:

5.實(shí)驗(yàn)結(jié)果分析

為了避免實(shí)驗(yàn)結(jié)果出現(xiàn)偶然性,對于模型均采用十折交叉驗(yàn)證取平均值。

(1)對于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,使用樸素貝葉斯分類器和SVM分類器。

SVM的懲罰系數(shù)設(shè)為1000,徑向基核函數(shù)參數(shù)設(shè)為0.001。

(2)Word2Vec-CNN模型:模型以Word2Vec模型作為詞向量模型,然后把詞向量輸入到CNN模型,CNN利用不同大小的卷積核提取每條數(shù)據(jù)中詞語的信息,多層CNN可以提取每條數(shù)據(jù)中的深層信息,然后通過Softmax對文本進(jìn)行分類。對于CNN設(shè)置3、4、5三種高度的卷積核,卷積核個數(shù)設(shè)置為100。

(3)Word2Vec-LSTM模型:模型以 Word2Vec模型作為詞向量模型,以LSTM模型對文本數(shù)據(jù)再次提取特征信息,最后通過Softmax對文本進(jìn)行分類。

(4)Word2Vec-BiLSTM模型:模型以Word2Vec模型作為詞向量模型,以BiLSTM模型對文本數(shù)據(jù)再次提取特征信息,最后通過Softmax進(jìn)行分類。

在數(shù)據(jù)集上,各個模型的實(shí)驗(yàn)結(jié)果如表4所示。

表4 各模型實(shí)驗(yàn)結(jié)果對比

從實(shí)驗(yàn)結(jié)果可以看出本文提出的模型在網(wǎng)絡(luò)網(wǎng)絡(luò)文本數(shù)據(jù)集中的評價指標(biāo)均優(yōu)于其他模型,驗(yàn)證了本文模型在網(wǎng)絡(luò)不良文本分類中的有效性。

實(shí)驗(yàn)數(shù)據(jù)顯示,在數(shù)據(jù)相同的條件下,深度學(xué)習(xí)方法在準(zhǔn)確率和召回率上相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法均有較大的提高,驗(yàn)證了深度學(xué)習(xí)模型在網(wǎng)絡(luò)不良文本分類上確實(shí)優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。

在實(shí)驗(yàn)結(jié)果中,樸素貝葉斯和線性SVM模型的分類效果較差,原因主要在于特征選取的方式是以詞頻和逆向詞頻為主,文本中每個詞出現(xiàn)的頻率都較低,無法通過統(tǒng)計詞頻大小進(jìn)行文本重要性的判斷,所以在網(wǎng)絡(luò)不良文本的分類中不占優(yōu)勢。

對比循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),在嵌入層輸入矩陣組成相同的情況下,循環(huán)神經(jīng)網(wǎng)絡(luò)比卷積神經(jīng)網(wǎng)絡(luò)有一定的提高。由于網(wǎng)絡(luò)文本存在長短不一的情況,卷積神經(jīng)網(wǎng)絡(luò)只能提取局部的信息,而沒有關(guān)心上下文的相關(guān)性,循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢就會顯現(xiàn)。

對比本文模型和Word2Vec-BiLSTM模型,本文模型在精確率、召回率和F1值上均有提高,原因在于本文模型使用的特征多了一個詞特征,在網(wǎng)絡(luò)文本分類的任務(wù)中,BiLSTM網(wǎng)絡(luò)通過結(jié)合詞特征和語特征就能較好地區(qū)分網(wǎng)絡(luò)不良文本。

三、結(jié)語

本文對網(wǎng)絡(luò)不良文本的特點(diǎn)做了相關(guān)分析,針對網(wǎng)絡(luò)不良文本分類時特征提取不足導(dǎo)致分類精度不高的問題,將N-Gram提取的詞特征和基于Word2Vec的BiLSTM提取文本語義特征融合,能有效避免文本信息損失,更好地提取文本信息。在數(shù)據(jù)集上實(shí)驗(yàn)并與其他分類方法進(jìn)行對比,結(jié)果表明,特征融合分類方法比傳統(tǒng)機(jī)器學(xué)習(xí)方法和單一特征提取的深度學(xué)習(xí)方法具有更好的網(wǎng)絡(luò)不良文本分類性能和效果?!?/p>

猜你喜歡
用詞向量卷積
強(qiáng)化詩詞用詞的時代性
向量的分解
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
聚焦“向量與三角”創(chuàng)新題
蒼涼又喧囂:《我與地壇》中的用詞
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
相似的內(nèi)容,靈動的表達(dá)
向量垂直在解析幾何中的應(yīng)用
宁波市| 乐清市| 理塘县| 广元市| 亳州市| 湾仔区| 炉霍县| 梁山县| 石柱| 乐安县| 麻江县| 兖州市| 峨眉山市| 克山县| 瓮安县| 册亨县| 阿坝县| 澄江县| 大足县| 吉木萨尔县| 东乌珠穆沁旗| 磐安县| 清水河县| 孟村| 瑞丽市| 吴川市| 肥东县| 灵寿县| 天水市| 景泰县| 洞头县| 四川省| 海原县| 平谷区| 玉环县| 措勤县| 大庆市| 溧水县| 紫云| 凤冈县| 桐梓县|