房偉偉,韓 猛
(聊城職業(yè)技術(shù)學(xué)院 山東 聊城 252000)
自然語言處理(natural language processing,NLP)是人工智能領(lǐng)域中的一個(gè)重要方向,致力于使計(jì)算機(jī)能夠理解和處理人類語言[1-2]。隨著社交媒體和在線論壇的廣泛應(yīng)用,大量用戶生成并分享了海量的文本數(shù)據(jù),使得暴力言論、仇恨言論等不良信息的傳播成了一個(gè)日益嚴(yán)重的問題[3-4]。在此情況下,發(fā)展有效的自然語言處理技術(shù)來自動(dòng)檢測或過濾暴力言論變得尤為重要。長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)作為一種重要的深度學(xué)習(xí)模型,具有良好的序列建模能力,特別適用于處理文本數(shù)據(jù)[5-6]。其能夠捕捉文本中的長期依賴關(guān)系,并具有一定的記憶能力,這使它在自然語言處理任務(wù)中表現(xiàn)出色。
本文旨在研究基于LSTM模型的暴力言論檢測系統(tǒng),提出了一種基于LSTM的架構(gòu)。通過在網(wǎng)絡(luò)文本數(shù)據(jù)上進(jìn)行測試,驗(yàn)證了該架構(gòu)的有效性和可行性。本文首先對(duì)LSTM網(wǎng)絡(luò)進(jìn)行了詳細(xì)的介紹,解釋了其結(jié)構(gòu)和工作原理;其次提出了一種基于LSTM的暴力言論檢測架構(gòu),該架構(gòu)利用LSTM網(wǎng)絡(luò)對(duì)輸入的文本進(jìn)行建模,并通過訓(xùn)練從中學(xué)習(xí)到暴力言論的特征表示;最后,使用網(wǎng)絡(luò)爬蟲抓取了大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù),并構(gòu)建了一個(gè)相應(yīng)的數(shù)據(jù)集,以評(píng)估所提出的架構(gòu)在實(shí)際環(huán)境中的性能。
本文的研究成果對(duì)于社交媒體平臺(tái)、在線論壇以及其他涉及用戶生成文本的應(yīng)用領(lǐng)域具有重要的實(shí)際意義。通過自動(dòng)化檢測和過濾暴力言論,可以維護(hù)網(wǎng)絡(luò)空間的安全和健康發(fā)展,減少惡意行為對(duì)用戶的傷害。同時(shí),本文還為基于深度學(xué)習(xí)的自然語言處理研究提供了一種新的思路和方法。
LSTM是一種具有記憶能力的遞歸神經(jīng)網(wǎng)絡(luò),被廣泛應(yīng)用于序列建模任務(wù)中。其獨(dú)特的結(jié)構(gòu)使其能夠有效地捕捉長期依賴關(guān)系,對(duì)于處理自然語言處理等序列數(shù)據(jù)具有重要意義。該網(wǎng)絡(luò)包含輸入層、隱藏狀態(tài)和輸出層三個(gè)基本結(jié)構(gòu),如圖1所示。
圖1 LSTM的基本結(jié)構(gòu)
LSTM的輸入層接收序列數(shù)據(jù),通常是文本、語音或時(shí)間序列數(shù)據(jù),在每個(gè)時(shí)間步中,輸入均被表示為向量形式。假設(shè)在時(shí)間步t時(shí),輸入向量為x(t)∈Rn,其中,n是輸入向量的維度。
LSTM中的隱藏狀態(tài)由兩個(gè)部分組成,分別是細(xì)胞狀態(tài)和隱藏狀態(tài)。細(xì)胞狀態(tài)負(fù)責(zé)存儲(chǔ)和傳遞長期記憶信息,而隱藏狀態(tài)負(fù)責(zé)在網(wǎng)絡(luò)中傳遞和共享信息。細(xì)胞狀態(tài)的更新通過遺忘門、輸入門和輸出門的控制來實(shí)現(xiàn),遺忘門決定了細(xì)胞狀態(tài)在當(dāng)前時(shí)間步保留多少以前的信息,輸入門決定了當(dāng)前時(shí)間步的輸入信息對(duì)細(xì)胞狀態(tài)的更新程度,輸出門決定了細(xì)胞狀態(tài)的輸出到隱藏狀態(tài)的程度。細(xì)胞狀態(tài)C(t)的更新方式為式(1)所示:
C(t)=f(t)⊙C(t-1)+i(t)⊙g(t)
(1)
式(1)中,⊙表示逐元素相乘操作,f(t)是遺忘門的輸出,i(t)是輸入門的輸出,g(t)是候選細(xì)胞狀態(tài),通過當(dāng)前輸入和先前隱藏狀態(tài)計(jì)算得到。隱藏狀態(tài)h(t)的計(jì)算通過輸出門對(duì)細(xì)胞狀態(tài)進(jìn)行調(diào)整為式(2)所示:
h(t)=o(t)⊙tanh(C(t))
(2)
式(2)中,o(t)是輸出門的輸出,tanh是雙曲正切函數(shù),用于引入非線性變換。
LSTM的輸出層根據(jù)具體任務(wù)的需求而定。對(duì)于分類任務(wù),通常使用softmax激活函數(shù)將隱藏狀態(tài)映射到預(yù)測類別的概率分布。假設(shè)有K個(gè)類別,LSTM的輸出向量h(t)∈Rm,其中m是隱藏狀態(tài)的維度。通過線性變換和softmax激活函數(shù),可以將隱藏狀態(tài)映射到K維的預(yù)測概率向量y(t)∈RK:
y(t)=softmax(W(h(t))+b)
(3)
式(3)中,W和b分別是可學(xué)習(xí)的權(quán)重和偏差。
基于LSTM的暴力言論檢測架構(gòu)旨在利用LSTM來自動(dòng)識(shí)別和過濾暴力言論。該架構(gòu)基于文本輸入,通過LSTM網(wǎng)絡(luò)對(duì)輸入文本進(jìn)行建模,并學(xué)習(xí)到暴力言論的特征表示,如圖2所示。
圖2 基于LSTM的暴力言論檢測架構(gòu)
(1)輸入層:該架構(gòu)接收文本作為輸入,通常是用戶生成的文本數(shù)據(jù),如社交媒體帖子、評(píng)論或論壇發(fā)言等。輸入文本經(jīng)過預(yù)處理,轉(zhuǎn)化為向量表示。
(2)LSTM層:輸入文本的向量表示被饋送到LSTM網(wǎng)絡(luò)中。LSTM網(wǎng)絡(luò)由多個(gè)LSTM單元組成,每個(gè)單元負(fù)責(zé)處理一個(gè)時(shí)間步的輸入。通過將輸入文本序列逐步輸入LSTM單元,網(wǎng)絡(luò)能夠?qū)ξ谋局械纳舷挛男畔⑦M(jìn)行建模,并捕捉長期依賴關(guān)系。LSTM單元中的遺忘門、輸入門和輸出門機(jī)制對(duì)細(xì)胞狀態(tài)進(jìn)行更新和調(diào)整,從而提供豐富的文本表示。
(3)特征提取:LSTM網(wǎng)絡(luò)的隱藏狀態(tài)可以看作是對(duì)輸入文本的編碼表示。為了從中提取有關(guān)暴力言論的特征,可以在LSTM層之后添加一些附加的全連接層或卷積層。這些層可以進(jìn)一步處理LSTM的隱藏狀態(tài),以捕捉更高級(jí)的語義和結(jié)構(gòu)信息。通過特征提取的過程,網(wǎng)絡(luò)能夠?qū)W習(xí)到更具區(qū)分性的暴力言論特征表示。
(4)分類器:在特征提取之后,得到的特征向量被輸入到分類器中進(jìn)行最終的分類判別。分類器可以采用多種算法,例如支持向量機(jī)[7-8]或多層感知器[9-10]。本架構(gòu)采用支持向量機(jī)對(duì)特征進(jìn)行分類。
給定一個(gè)訓(xùn)練數(shù)據(jù)集{xi,yi},其中xi是輸入的特征向量,yi∈{-1,1}表示樣本的類別標(biāo)簽。支持向量機(jī)通過最大化間隔的思想來進(jìn)行分類,其中間隔定義為超平面到最近的樣本點(diǎn)的距離。支持向量機(jī)的分類決策函數(shù)可以表示為式(4)所示:
f(x)=sign(wTx+d)
(4)
式(4)中,w是超平面的法向量,d是偏置(偏移)項(xiàng),sign是符號(hào)函數(shù),用于根據(jù)函數(shù)值的正負(fù)來判定樣本的類別。
支持向量機(jī)的目標(biāo)是找到最優(yōu)的w和d,使得分類決策函數(shù)能夠正確地將樣本分為不同的類別,并且間隔最大化。這可以轉(zhuǎn)化為一個(gè)優(yōu)化問題,即最小化目標(biāo)函數(shù),同時(shí)滿足約束條件。通常使用凸優(yōu)化方法來求解這個(gè)問題。支持向量機(jī)的優(yōu)化問題可以表達(dá)為式(5)、式(6)、式(7)所示:
(5)
subject:yi(wTxi+d)≥1-ξi,i=1,2,…,n
(6)
ξi≥0,i=1,2,…,n
(7)
式(5)、式(6)、式(7)中,||w||2是權(quán)重向量||w||2的L2范數(shù)的平方,C是正則化參數(shù),用于平衡間隔和分類誤差的權(quán)衡,ξi是松弛變量,用于處理樣本的不可分性。通過求解上述優(yōu)化問題,可以得到最優(yōu)的超平面參數(shù)w和d,從而構(gòu)建支持向量機(jī)分類器。
本研究用網(wǎng)絡(luò)爬蟲對(duì)微博評(píng)論進(jìn)行爬取,并將部分文本界定為暴力言論。在此過程中,首先選擇Scrapy網(wǎng)絡(luò)爬蟲工具[11-12]對(duì)微博平臺(tái)上的評(píng)論進(jìn)行抓取,通過設(shè)置爬蟲的初始鏈接和抓取規(guī)則,可以遍歷微博的相關(guān)頁面,提取評(píng)論數(shù)據(jù);在爬取評(píng)論數(shù)據(jù)后,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和文本清洗,包括去除HTML標(biāo)簽、特殊字符和表情符號(hào),并進(jìn)行分詞和去除停用詞等操作,以獲得干凈的文本數(shù)據(jù)。其次通過將評(píng)論數(shù)據(jù)與相應(yīng)的標(biāo)簽關(guān)聯(lián),可以建立一個(gè)訓(xùn)練集,這些數(shù)據(jù)集包含正面樣本(暴力言論)和負(fù)面樣本(非暴力言論)。
在使用數(shù)據(jù)集對(duì)基于LSTM的暴力言論檢測架構(gòu)進(jìn)行訓(xùn)練和測試的階段:
(1)數(shù)據(jù)集劃分:將準(zhǔn)備好的數(shù)據(jù)集劃分為訓(xùn)練集和測試集。采用交叉驗(yàn)證的方法,將數(shù)據(jù)集分為80%訓(xùn)練模型,剩下的20%用于評(píng)估模型的性能,并確保訓(xùn)練集和測試集的樣本分布和類別平衡。
(2)構(gòu)建LSTM模型:基于LSTM的暴力言論檢測架構(gòu)需要構(gòu)建一個(gè)包含LSTM層、特征提取層和分類器的模型。通過定義合適的網(wǎng)絡(luò)結(jié)構(gòu)、層數(shù)和節(jié)點(diǎn)數(shù),以及選擇合適的激活函數(shù)、優(yōu)化算法和損失函數(shù),建立一個(gè)有效的模型。在訓(xùn)練過程中,需要設(shè)置合適的超參數(shù),如學(xué)習(xí)率、批次大小和迭代次數(shù)等。
(3)模型訓(xùn)練:使用訓(xùn)練集對(duì)LSTM模型進(jìn)行訓(xùn)練。將清洗和預(yù)處理后的評(píng)論文本數(shù)據(jù)輸入到LSTM模型中,通過反向傳播算法和梯度下降優(yōu)化算法,更新模型的權(quán)重和偏置,以最小化損失函數(shù)。訓(xùn)練過程中,監(jiān)控模型在訓(xùn)練集上的損失和性能指標(biāo),確保模型能夠逐漸收斂并學(xué)習(xí)到評(píng)論文本的特征表示。
(4)模型評(píng)估:在訓(xùn)練過程完成后,使用測試集對(duì)訓(xùn)練好的模型進(jìn)行評(píng)估。將測試集的評(píng)論文本輸入到模型中,通過前向傳播算法獲得預(yù)測結(jié)果,并將其與真實(shí)標(biāo)簽進(jìn)行比較。使用評(píng)估指標(biāo),包括準(zhǔn)確率、召回率、F1分?jǐn)?shù)等,來評(píng)估模型在暴力言論檢測任務(wù)上的性能。
本研究用準(zhǔn)確率、召回率和F1分?jǐn)?shù)對(duì)該架構(gòu)的評(píng)估結(jié)果如表1所示。
表1 模型評(píng)估
對(duì)于暴力言論類別,模型正確預(yù)測了85個(gè)樣本,錯(cuò)誤預(yù)測了15個(gè)樣本,總共有100個(gè)正樣本。對(duì)于非暴力言論類別,模型正確預(yù)測了180個(gè)樣本,錯(cuò)誤預(yù)測了20個(gè)樣本,總共有200個(gè)正樣本。通過計(jì)算準(zhǔn)確率、召回率和F1分?jǐn)?shù),可以進(jìn)行數(shù)據(jù)分析。
準(zhǔn)確率表示模型正確預(yù)測的樣本占所有預(yù)測結(jié)果的比例。在該實(shí)驗(yàn)中,暴力言論和非暴力言論類別的準(zhǔn)確率分別為0.85和0.9,這意味著模型在預(yù)測暴力言論和非暴力言論時(shí)分別有85%和90%的準(zhǔn)確性;召回率衡量模型對(duì)正樣本的識(shí)別能力,即模型能夠正確預(yù)測多少個(gè)正樣本,暴力言論和非暴力言論類別的召回率分別達(dá)到了0.85和0.9;暴力言論和非暴力言論類別的F1分?jǐn)?shù)分別達(dá)到了0.85和0.9。這表明模型在暴力言論和非暴力言論的預(yù)測中有較好的平衡性能。
綜上所述,本文開發(fā)了一種基于LSTM的暴力言論檢測系統(tǒng),并對(duì)其在自然語言處理中的應(yīng)用進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在檢測暴力言論方面具有良好的性能和準(zhǔn)確性。通過合理設(shè)計(jì)和訓(xùn)練LSTM模型,能夠準(zhǔn)確地識(shí)別和分類暴力言論,為社交媒體平臺(tái)和在線社區(qū)提供一種有效的工具來過濾和管理不當(dāng)言論。然而在進(jìn)一步研究和應(yīng)用中仍存在一些挑戰(zhàn)和改進(jìn)空間:(1)數(shù)據(jù)集的構(gòu)建和標(biāo)定需要更加精細(xì)和全面,以提高模型的魯棒性和泛化能力;(2)優(yōu)化模型的超參數(shù)選擇和調(diào)整,以進(jìn)一步提升性能指標(biāo)的表現(xiàn)。此外,還可以考慮引入更多的特征工程和深度學(xué)習(xí)模型優(yōu)化方法,以提高暴力言論檢測的精度和效率。