国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)分層注意網(wǎng)絡(luò)和TextCNN聯(lián)合建模的暴力犯罪分級(jí)算法

2024-03-21 02:25張家偉高冠東宋勝尊
計(jì)算機(jī)應(yīng)用 2024年2期
關(guān)鍵詞:池化服刑人員編碼

張家偉,高冠東,肖 珂,宋勝尊

(1.河北農(nóng)業(yè)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 保定 071000;2.中央司法警官學(xué)院 數(shù)據(jù)科學(xué)與智能矯正技術(shù)研究中心,河北 保定 071000;3.中央司法警官學(xué)院 信息管理系,河北 保定 071000;4.河北省農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室(河北農(nóng)業(yè)大學(xué)),河北 保定 071000;5.中央司法警官學(xué)院 監(jiān)獄學(xué)學(xué)院,河北 保定 071000)

0 引言

暴力犯罪嚴(yán)重影響社會(huì)安全穩(wěn)定,運(yùn)用犯罪心理學(xué)內(nèi)容進(jìn)行暴力犯罪服刑人員矯治的關(guān)鍵性認(rèn)知任務(wù)在于分級(jí)、治療和解釋[1]。分級(jí)作為首位尤為重要,劃分是否科學(xué)合理將直接影響服刑人員處遇的效用價(jià)值;同時(shí)也能為監(jiān)管部門合理制定矯正教育方案、評(píng)估再犯罪風(fēng)險(xiǎn)提供科學(xué)依據(jù),從而促進(jìn)社會(huì)治安的持續(xù)穩(wěn)定。

目前,服刑人員的分級(jí)策略主要基于犯罪類型和風(fēng)險(xiǎn)等級(jí)。犯罪類型是對(duì)服刑人員行為的簡(jiǎn)化分類,忽視了行為的復(fù)雜性和異質(zhì)性,不能將服刑人員細(xì)分為有意義的心理和行為類別?;陲L(fēng)險(xiǎn)等級(jí)的評(píng)估主要通過(guò)VRS(Verbal Rating Scale)、OGRS(Offender Group Reconviction Score)和VRAG(Violence Risk Appraisal Guide)等量表,將服刑人員劃分為低、中、高再犯罪風(fēng)險(xiǎn)等級(jí),有助于管理監(jiān)管資源的分配,但無(wú)法反映服刑人員犯罪的原因,難以對(duì)癥矯治[2],因此還應(yīng)從服刑人員的氣質(zhì)[3]、性格等方面的特征著手,深層次剖析服刑人員的心理和行為內(nèi)容,分析其犯罪原因,實(shí)現(xiàn)多元化分級(jí),以達(dá)到對(duì)癥矯治的目的。

在心理學(xué)中,氣質(zhì)是指心理活動(dòng)中表現(xiàn)出的強(qiáng)度、靈活性和指向性等方面的穩(wěn)定心理特征,因此將服刑人員分為膽汁質(zhì)、多血質(zhì)、粘液質(zhì)、抑郁質(zhì)4 種類型[4]。膽汁質(zhì)服刑人員常因沖動(dòng)易怒而犯罪,傾向于單獨(dú)作案;多血質(zhì)服刑人員常因探索欲望而犯罪,傾向于團(tuán)伙作案;粘液質(zhì)服刑人員常因缺乏自我主張而犯罪,傾向于漸進(jìn)式犯罪;抑郁質(zhì)服刑人員常因自卑、無(wú)助而犯罪,傾向于自殺式犯罪[5]。4 種氣質(zhì)類型服刑人員的心理和行為表現(xiàn)特征各不相同,但都具有冷漠、自私和缺乏同情心等共性,因此通過(guò)犯罪行為描述文本信息實(shí)現(xiàn)歸因分類分級(jí)具有較大難度。

傳統(tǒng)的犯罪分析工具大多在服刑人員處于理性狀態(tài)時(shí)使用量表對(duì)他們進(jìn)行評(píng)估,易受到主觀因素干擾,影響了評(píng)估結(jié)果的準(zhǔn)確度[6]。而犯罪事實(shí)是服刑人員受到外界刺激,處于非理性狀態(tài)的外在表現(xiàn)。通過(guò)對(duì)犯罪事實(shí)的分析可以推斷出極端情況下服刑人員的歸因類型,結(jié)合服刑人員基本情況等信息可以進(jìn)一步提高歸因分類的準(zhǔn)確性,對(duì)服刑人員進(jìn)行針對(duì)性的教育和改造。近年來(lái),人工智能技術(shù)的應(yīng)用,為新一代的犯罪評(píng)估工具的發(fā)展提供了契機(jī)[7]。

因此,可將文本分類方法引入犯罪心理學(xué)領(lǐng)域,通過(guò)挖掘分析暴力犯罪服刑人員的犯罪事實(shí)和服刑人員基本情況,以端到端的方式對(duì)他們的氣質(zhì)類型進(jìn)行分類決策。目前文本分類模型可分為傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型兩大類[8]。深度學(xué)習(xí)具有自動(dòng)執(zhí)行特征學(xué)習(xí)捕獲判別信息等優(yōu)勢(shì),已廣泛用于各個(gè)領(lǐng)域[9-12],并在法律判決預(yù)測(cè)[13-14]、司法案例智能推薦和暴力傾向分級(jí)[15]等司法實(shí)踐領(lǐng)域任務(wù)上取得了不小的進(jìn)展。其中,TextCNN(Text Convolutional Neural Network)[16]為深度學(xué)習(xí)中常用的模型之一,由于采用了卷積濾波器,具有突出的局部特征捕捉能力。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[17-18]因?yàn)槟懿东@長(zhǎng)程依賴性而被認(rèn)為是有效的順序文本數(shù)據(jù)處理架構(gòu)。此外,Yang等[19]提出了一種名為HAN(Hierarchy Attention Network)的模型,通過(guò)句子和文檔兩個(gè)層次提取特征,提高文本語(yǔ)義信息的獲取能力。Baek 等[20]利用TextCNN 構(gòu)建了一種預(yù)測(cè)暴力傾向評(píng)分和犯罪類型的模型,旨在推動(dòng)智能警務(wù)技術(shù)的發(fā)展,但在提取上下文語(yǔ)義特征方面存在一定不足。Sadiq等[21]針對(duì)網(wǎng)絡(luò)暴力欺凌問(wèn)題,對(duì)攻擊性行為進(jìn)行智能分級(jí),通過(guò)手動(dòng)設(shè)計(jì)特征構(gòu)建多層感知機(jī),并采用CNN-LSTM(Convolutional Neural Network-Long Short-Term Memory)和CNN-BiLSTM(Convolutional Neural Network-Bi-directional Long Short-Term Memory)進(jìn)行自動(dòng)檢測(cè),但由于缺乏關(guān)鍵性語(yǔ)義的提取,它們的性能無(wú)法得到充分發(fā)揮。

以上研究表明,采用新的模型結(jié)構(gòu)和方法能更好地捕獲語(yǔ)義特征,是實(shí)現(xiàn)準(zhǔn)確的暴力傾向分級(jí)的關(guān)鍵,因此,本文利用自然語(yǔ)言處理(Natural Language Processing,NLP)分析服刑人員的氣質(zhì)信息進(jìn)行處理決策,并提出一種基于改進(jìn)HAN 與TextCNN 兩通道聯(lián)合建模的暴力犯罪分級(jí)模型——犯罪語(yǔ)義卷積分層注意網(wǎng)絡(luò)(Criminal semantic Convolutional Hierarchical Attention Network,CCHA-Net)。所提網(wǎng)絡(luò)分別分析犯罪事實(shí)和服刑人員基本情況的語(yǔ)義,自動(dòng)提取犯罪文本特征,并將服刑人員分為4 種類型:膽汁質(zhì)、多血質(zhì)、粘液質(zhì)和抑郁質(zhì)。首先,采用Focal Loss 同時(shí)替代兩通道中的Cross-Entropy 函數(shù)提升小樣本類別的分類準(zhǔn)確率;其次,在兩通道輸入層中,同時(shí)引入位置編碼以更好地對(duì)位置信息建模;改進(jìn)HAN 通道,為使編碼出的向量具備更明顯的類別特征,采用最大池化擴(kuò)展了顯著向量;最后,輸出層都采用全局平均池化(Global Average Pooling,GAP)替代全連接方法,從而規(guī)避過(guò)擬合。

1 研究方法

1.1 本文算法框架及流程

本文首先收集中國(guó)裁判文書網(wǎng)上關(guān)于暴力犯罪類型案件的判決書組成基礎(chǔ)數(shù)據(jù)集;其次,由本課題組的多位犯罪心理學(xué)專家進(jìn)行聯(lián)合評(píng)估標(biāo)注工作;隨后,將數(shù)據(jù)集劃分為犯罪事實(shí)與服刑人員基本情況兩部分,分別通過(guò)Jieba 分詞器進(jìn)行分詞操作,并從犯罪事實(shí)文本中抽取具有關(guān)鍵性表征的字、詞、短語(yǔ)等構(gòu)成基于暴力犯罪氣質(zhì)類型的關(guān)鍵詞詞典,將它作為犯罪事實(shí)部分Jieba 分詞器的用戶預(yù)定義詞典;最后,將兩部分分詞之后的結(jié)果通過(guò)CCHA-Net 模型進(jìn)行聯(lián)合建模,以端到端的方式自動(dòng)提取特征,并將暴力犯罪服刑人員劃分為膽汁質(zhì)、多血質(zhì)、粘液質(zhì)、抑郁質(zhì)4 種氣質(zhì)類型,監(jiān)管部門可根據(jù)氣質(zhì)類型間的差異個(gè)性化制定矯治方案,以實(shí)現(xiàn)對(duì)癥矯治的目的。圖1 描述了本文算法總體技術(shù)路線。

1.2 CCHA-Net暴力犯罪分級(jí)模型

為解決傳統(tǒng)模型在暴力犯罪文本分類中語(yǔ)義特征提取不足和缺乏對(duì)不同信息維度的融合分析問(wèn)題,本文提出一種基于改進(jìn)HAN 與TextCNN 兩通道聯(lián)合建模的暴力犯罪分級(jí)模型CCHA-Net。首先,利用HAN 通道提取非結(jié)構(gòu)化文本信息特征;其次,通過(guò)TextCNN 通道提取結(jié)構(gòu)化及半結(jié)構(gòu)化信息文本特征;最后,通過(guò)兩通道融合的方式充分利用不同信息維度的特點(diǎn),實(shí)現(xiàn)更全面的特征提取。這種模型設(shè)計(jì)能有效克服傳統(tǒng)模型在暴力犯罪分類任務(wù)中的缺陷,從而達(dá)到提升模型分類準(zhǔn)確性的效果。CCHA-Net 框架流程如圖2 所示,其中兩通道的輸入層和輸出層模塊相同,但特征提取層模塊存在差異。

圖2 CCHA-Net整體流程Fig.2 CCHA-Net overall process

本文構(gòu)建的數(shù)據(jù)集分為犯罪事實(shí)和服刑人員基本情況兩部分,且分別屬于兩種不同的信息維度。在刑事案件中,這兩個(gè)維度的重要性不同。其中,按照服刑人員檔案記錄數(shù)據(jù)項(xiàng)中的犯罪事實(shí)部分提取了中國(guó)裁判文書網(wǎng)有關(guān)暴力犯罪類型案件的判決書中的案件事實(shí)部分,反映了犯罪行為的具體情況,包括時(shí)間、地點(diǎn)、手段和對(duì)象等非結(jié)構(gòu)化數(shù)據(jù)信息。這些信息可以對(duì)服刑人員進(jìn)行更加精準(zhǔn)的分類和判定,本文采用HAN 通道對(duì)犯罪事實(shí)部分進(jìn)行語(yǔ)義建模。而服刑人員基本情況部分則提取了判決書中的首部和判決結(jié)果部分,由服刑人員的年齡、出生日期、文化程度、職業(yè)、面貌、婚否、籍貫、罪名、刑期、前科次數(shù)、主從犯、團(tuán)伙犯和累慣犯等多個(gè)短語(yǔ)組成。這些信息屬于結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)范疇,可用于對(duì)案件的背景和動(dòng)機(jī)進(jìn)行更深入的分析和理解。其中年齡、出生日期、刑期和前科次數(shù)屬于結(jié)構(gòu)化數(shù)據(jù),可直接提取數(shù)值特征,其余屬于半結(jié)構(gòu)化數(shù)據(jù),需要預(yù)處理后才能提取特征。本文采用TextCNN 通道對(duì)服刑人員基本情況部分進(jìn)行語(yǔ)義建模。

本文采用兩通道進(jìn)行網(wǎng)絡(luò)設(shè)計(jì),優(yōu)勢(shì)在于可以充分利用不同信息維度的特點(diǎn)和差異,更好地提取和分類特征。此外,采用兩通道設(shè)計(jì)還有利于模型的解釋和可解釋性,可以更清晰地展示不同信息維度的貢獻(xiàn)和作用。綜上所述,采用兩通道進(jìn)行網(wǎng)絡(luò)設(shè)計(jì)是基于犯罪案件信息特點(diǎn)和分類需求的合理選擇,有助于提高分類準(zhǔn)確性和解釋性。

兩通道輸入層分別解決了文本向量化、位置信息建模兩個(gè)問(wèn)題。首先,為解決犯罪文本存在的高維稀疏性問(wèn)題,采用Ngram2vec 方法對(duì)文本進(jìn)行向量化處理工作;其次,同時(shí)在兩通道中引入了位置編碼,以增強(qiáng)詞語(yǔ)之間位置信息的表達(dá)能力。

HAN 通道特征提取層分為句編碼、句注意力模塊、文檔編碼、文檔注意力4 個(gè)模塊。首先,在句編碼模塊,為獲取句子的序列信息,采用雙向門控循環(huán)單元(Bi-directional Gated Recurrent Unit,Bi-GRU)對(duì)句子中的詞進(jìn)行了建模表示;其次,在句注意力模塊,除了使用上下文向量外,本文提出了一種顯著向量,采用最大池化方法提取了詞向量每個(gè)維度上的最大值;最后,使用兩個(gè)向量共同打分,從而使句子編碼的類別特征更明顯。文檔編碼和文檔注意力模塊與句編碼和句注意力模塊類似。

TextCNN 通道特征提取層分為卷積、池化和拼接3 個(gè)模塊。首先,為提取局部短語(yǔ)特征,本文設(shè)計(jì)了3 個(gè)高度為3、4、5 的卷積核,進(jìn)行卷積操作,每種尺寸的卷積核有128 個(gè);其次,為抽取主要特征同時(shí)減少參數(shù)量,采用最大池化方法抽取了每個(gè)特征圖中的最大值;最后,將池化后的結(jié)果進(jìn)行拼接,得到服刑人員基本情況的特征表示。

兩通道輸出層分別解決分類輸出和聯(lián)合建模兩個(gè)問(wèn)題。首先,同時(shí)在兩通道中采用全局平均池化替代全連接方法進(jìn)行分類輸出,以解決過(guò)擬合問(wèn)題;其次,通過(guò)Softmax 分類器,獲得了各自的分類概率;最后,為實(shí)現(xiàn)聯(lián)合建模,采用軟投票機(jī)制融合兩通道的分類概率,得到了最終的分類結(jié)果。

此外,為提升小樣本類別的關(guān)注度,本文在兩通道中同時(shí)采用Focal Loss 替代了Cross-Entropy 函數(shù)。

1.3 基于位置編碼的兩通道輸入層

一個(gè)句子中詞語(yǔ)的先后順序不同,含義也會(huì)有所差異。隨著文本長(zhǎng)度的增加,模型無(wú)法充分利用到詞向量之間的位置信息。為解決此類問(wèn)題,本文提出在兩通道輸入層中同時(shí)引入了Vaswani 等[22]提出的位置編碼。假設(shè)輸入序列的長(zhǎng)度為L(zhǎng),每個(gè)單詞的向量表示維度為dmodel。對(duì)于每個(gè)位置pos和每個(gè)維度i,計(jì)算一個(gè)位置編碼,如式(1)、(2)所示:

其中:pos是當(dāng)前位置;i為當(dāng)前維度;dmodel指向量維度。是一個(gè)假設(shè)條件,用于確定不同維度之間的周期性,確保位置編碼不會(huì)重復(fù)和重疊。將位置編碼按元素加到對(duì)應(yīng)位置的詞向量中,得到新的向量表示便帶有了位置信息。

1.4 基于顯著向量的HAN通道特征提取層

在文本分類任務(wù)中,傳統(tǒng)的將文檔中的句子作為長(zhǎng)序列進(jìn)行處理的方法無(wú)法捕捉文檔中的層次結(jié)構(gòu)信息,導(dǎo)致信息的丟失。為了解決這個(gè)問(wèn)題,HAN 模型[19]應(yīng)運(yùn)而生,該模型通過(guò)學(xué)習(xí)文本的語(yǔ)義層次結(jié)構(gòu)進(jìn)行文本分類,由句子和文檔兩個(gè)級(jí)別的注意力機(jī)制組成,能形成每個(gè)句子和文檔級(jí)別的加權(quán)平均表示,進(jìn)而為文本分類任務(wù)提供更準(zhǔn)確的表示。

為深化具有明顯的類別特征權(quán)重,提升分類準(zhǔn)確度,本文在HAN 模型基礎(chǔ)上提出一種顯著向量,采用最大池化方法提取句子和文檔的向量以表示矩陣中每個(gè)維度上最重要的信息;同時(shí)利用上下文向量與顯著向量共同評(píng)價(jià)的方式使模型能夠聚焦到最具判別性的語(yǔ)義特征。

1.4.1 句編碼模塊

在句編碼模塊中,為了獲取句子的長(zhǎng)距離序列信息,采用RNN[17-18]將句子中的詞語(yǔ)按順序輸入進(jìn)行建模表示。由于RNN 的隱藏層變量會(huì)出現(xiàn)梯度消失和爆炸的問(wèn)題,因此本文采用RNN 的變體,即Bi-GRU 解決此類問(wèn)題。

假設(shè)對(duì)于數(shù)據(jù)集中犯罪事實(shí)部分的某一篇文檔S=[S1,S2,…,SL],Si代表該文檔中的第i(i∈[1,L])個(gè)句子。對(duì)于該文檔中的某一個(gè)句子Si=[xi1,xi2,…,xiT],xit代表第i個(gè)句子中第(tt∈[1,T])個(gè)單詞的向量表示。首先,使用Bi-GRU匯總兩個(gè)方向的信息獲得單詞的注解,如式(3)、(4)所示:

1.4.2 句注意力模塊

并非所有的詞都對(duì)句子意思的表達(dá)有同樣的重要性,因此,在句注意力模塊采用注意力機(jī)制評(píng)價(jià)每個(gè)單詞權(quán)重,再通過(guò)單詞及其得分形成句子的向量表示。

特別地,在句注意力模塊,為使模型更好地聚焦到最具判別性的語(yǔ)義信息,本文除了使用上下文向量Ug外,還創(chuàng)新性地為每個(gè)句子構(gòu)建了其獨(dú)有的顯著向量Us。設(shè)每個(gè)單詞的詞向量為xit=[xit1,xit2,…,xitW],W為詞向量的維度,每個(gè)維度都表示一個(gè)屬性信息。本文在計(jì)算每個(gè)句子獨(dú)有的顯著向量Uis時(shí),對(duì)句子中全部T個(gè)單詞的w個(gè)維度,提取每個(gè)維度的最大值,然后將它們進(jìn)行連接作為句子獨(dú)有的顯著向量Uis,使得具有明顯類別特征的語(yǔ)義信息更加突出,如式(6)、(7)所示:

其中:Uis為句子Si獨(dú)有的顯著向量;uij為Uis的第j維;xitj是句子Si中的第t個(gè)詞向量的第j維的值。同時(shí)設(shè)置一個(gè)上下文向量Ug以表示“哪些單詞對(duì)犯罪分析更為關(guān)鍵”,此向量取隨機(jī)初始值,并在訓(xùn)練過(guò)程中不斷迭代學(xué)習(xí)。

之后,首先通過(guò)一個(gè)單層的多層感知機(jī)(MultiLayer Perceptron,MLP)將詞的注解hit送入,得到,如式(8)所示:

其中:Ws表示可訓(xùn)練權(quán)重;bs為偏置項(xiàng)。然后對(duì)于句子中的所有單詞,分別計(jì)算它和兩個(gè)向量的相似度并歸一化,得到針對(duì)兩種向量的注意力得分,如式(9)、(10)所示:

其中:αit、βit分別為單詞注解hit對(duì)于Ug和Uis兩個(gè)向量的歸一化分?jǐn)?shù),如圖2 中分?jǐn)?shù)①和分?jǐn)?shù)②所示。最后,將兩個(gè)分?jǐn)?shù)求和作為最終的注意力得分,根據(jù)所有單詞和注意分?jǐn)?shù)得到最終的句子向量表示Si,如式(11)所示:

通過(guò)上下文向量和顯著向量共同評(píng)價(jià)的方式,既能得到文檔中每個(gè)句子對(duì)應(yīng)的向量表示,又能提升犯罪文本中具有明顯判別含義的特征權(quán)重,達(dá)到模型分類準(zhǔn)確率提升的效果。

文檔編碼及注意力模塊與句編碼及注意力模塊類似。在得到句子的向量表示Si之后,首先,通過(guò)文檔編碼模塊同樣輸入Bi-GRU,得到句子的注解;其次,通過(guò)文檔注意力模塊計(jì)算句子注解對(duì)于上下文向量Ud和本文提出的顯著向量UL的得分,如圖2 中分?jǐn)?shù)③和分?jǐn)?shù)④所示;最后將兩個(gè)分?jǐn)?shù)求和,以得到最終的包含了全部句子信息的文檔向量d。

1.5 TextCNN通道特征提取層

服刑人員基本情況是由許多獨(dú)立且不相關(guān)的短語(yǔ)組成,鑒于TextCNN[16]通過(guò)卷積操作,在捕獲局部短語(yǔ)特征方面表現(xiàn)出色,因此本文采用TextCNN 通道,分為卷積、池化和拼接3 個(gè)模塊,對(duì)服刑人員基本情況文本進(jìn)行特征提取。

在卷積模塊中,輸入矩陣的第i個(gè)到第i+h-1 個(gè)窗口內(nèi)的詞向量矩陣xi:i+h-1通過(guò)卷積操作提取到的特征oi如式(12)所示:

其中:f(·)是非線性激活函數(shù),W1為權(quán)值矩陣,b1是偏置項(xiàng)。卷積操作應(yīng)用于一個(gè)完整的服刑人員基本情況文本的詞向量{x1:h,x2:h+1,…,xn-h+1:n}會(huì)得到一個(gè)特征圖o,如式(13)所示:

在池化模塊中,最大池化方法用于提取每個(gè)特征圖中的最大值,具體運(yùn)算如式(14)所示:

其中Fmax表示池化后的結(jié)果。在拼接模塊中,需要將詞向量分別經(jīng)過(guò)高度為3、4、5 的卷積核進(jìn)行卷積,再進(jìn)行池化后輸出的特征向量Fmax3、Fmax4、Fmax5按順序進(jìn)行拼接,從而得到服刑人員基本情況的特征表示向量Ffinal_max,具體過(guò)程如式(15)所示:

1.6 基于全局平均池化和軟投票的兩通道輸出層

1.6.1 基于全局平均池的犯罪氣質(zhì)分類方法

經(jīng)典HAN 與TextCNN 模型輸出層中使用全連接方法進(jìn)行分類輸出,雖然應(yīng)用廣泛,但也有一些缺點(diǎn):首先,參數(shù)量巨大,降低了訓(xùn)練速度;其次,非常容易出現(xiàn)過(guò)擬合。為了解決這兩個(gè)問(wèn)題,本文同時(shí)在兩通道輸出層中采用全局平均池化替代了全連接方法,分別得到兩通道的分類輸出結(jié)果F1和F2。全局平均池化方法計(jì)算不需要設(shè)置大量參數(shù),計(jì)算量大幅減小,在避免出現(xiàn)全連接方法兩個(gè)主要缺點(diǎn)的同時(shí),可以達(dá)到全連接方法相同甚至更高的分類效果。

1.6.2 基于軟投票的犯罪語(yǔ)義聯(lián)合建模方法

為實(shí)現(xiàn)對(duì)犯罪事實(shí)與服刑人員基本情況的語(yǔ)義表示進(jìn)行聯(lián)合建模,本文采用軟投票機(jī)制進(jìn)行特征融合。首先將兩個(gè)通道得到的分類輸出結(jié)果Fn分別應(yīng)用于Softmax 分類器,從而得到兩個(gè)通道的預(yù)測(cè)概率;然后,對(duì)這兩個(gè)概率求算術(shù)平均,得到了最終的類別預(yù)測(cè)概率p,用于暴力犯罪氣質(zhì)的分類,如式(16)所示:

其中:n表示模型通道數(shù)2,Wi為可訓(xùn)練權(quán)重,bi為偏置項(xiàng)。

1.7 基于Focal Loss的小樣本類別關(guān)注度提升方法

為降低樣本數(shù)不均衡問(wèn)題帶來(lái)的影響,本文在兩通道中同時(shí)采用Lin 等[23]提出的Focal Loss 替代了Cross-Entropy 函數(shù)。Focal Loss 主要針對(duì)每一種類別數(shù)重新賦予不同的權(quán)重,易分辨的類別賦予較少的權(quán)重,較難分辨的類別賦予較高的權(quán)重,從而達(dá)到提升關(guān)注度的效果。Focal Loss 計(jì)算流程如式(17)、(18)所示:

其中:αi表示權(quán)重因子,Ci表示每個(gè)類的計(jì)數(shù)。在Cross-Entropy 中,通過(guò)參數(shù)γ≥0 的Focal Loss 添加調(diào)制因子(1 -pi)γ:若γ=0,則Focal Loss 效果與Cross-Entropy 相同;若γ增加,那么α便會(huì)減小。為了控制每個(gè)類別的損失權(quán)重,有效地利用了參數(shù)β和σ。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)來(lái)源及處理

2.1.1 數(shù)據(jù)集的獲取與標(biāo)記

首先,本文以中國(guó)裁判文書網(wǎng)為語(yǔ)料源,收集并選取了2015 年3 月26 日至2021 年8 月9 日暴力犯罪類型案件的判決書,得到4 665 條數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)集;其次,由本課題組的多位犯罪心理學(xué)家進(jìn)行聯(lián)合評(píng)估標(biāo)注工作;最后,得到膽汁質(zhì)2 232 條,多血質(zhì)1 963 條,粘液質(zhì)465 條,抑郁質(zhì)5 條。

2.1.2 基于暴力犯罪氣質(zhì)類型的關(guān)鍵詞詞典構(gòu)建

通過(guò)查看分詞器的效果,發(fā)現(xiàn)一些具有代表性的心理特征詞不能被很好地劃分,因此,本課題組的多位犯罪心理學(xué)專家從各類服刑人員的犯罪事實(shí)中選取了具有關(guān)鍵性表征的字、詞和短語(yǔ)等,構(gòu)建了4種暴力犯罪氣質(zhì)類型的關(guān)鍵詞詞典。

2.1.3 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理部分分別解決了分詞、刪除停用詞兩個(gè)問(wèn)題。首先,Jieba 分詞器可以有效識(shí)別犯罪文本中的一些實(shí)體信息,分詞效果較好。因此,本文采用Jieba 分別對(duì)犯罪事實(shí)和服刑人員基本情況兩部分進(jìn)行分詞操作;此外,為避免分詞過(guò)程中關(guān)鍵性語(yǔ)義特征的流失,將基于暴力犯罪氣質(zhì)類型的關(guān)鍵詞詞典作為犯罪事實(shí)部分Jieba 分詞器的用戶預(yù)定義詞典;其次,本文通過(guò)加載哈爾濱工業(yè)大學(xué)停用詞表,刪除了一些不相關(guān)的詞、標(biāo)點(diǎn)符號(hào)等內(nèi)容,以減少訓(xùn)練過(guò)程中的噪聲。

2.2 實(shí)驗(yàn)條件和環(huán)境

2.2.1 實(shí)驗(yàn)環(huán)境和超參數(shù)設(shè)置

本文使用的實(shí)驗(yàn)平臺(tái)為Ubuntu 18,硬件為Intel i7-9700處理器,32 GB 內(nèi)存,RTX 2080 GPU 處理器。編碼采用Python 3.7.11 版本,深度學(xué)習(xí)庫(kù)為PyTorch 1.9.1,機(jī)器學(xué)習(xí)庫(kù)為Sklearn 1.0.2。為了使模型取得更好的效果,本文通過(guò)大量實(shí)驗(yàn)選取了最優(yōu)的超參數(shù)設(shè)置,如表1 所示。

表1 超參數(shù)設(shè)置Tab.1 Hyperparameter setting

2.2.2 數(shù)據(jù)集劃分

為驗(yàn)證實(shí)驗(yàn)結(jié)果,按6∶2∶2 隨機(jī)劃分了4 665 條數(shù)據(jù),數(shù)據(jù)之間沒(méi)有交叉,數(shù)據(jù)集劃分如表2 所示。模型總共訓(xùn)練了50 個(gè)epoch。每100 個(gè)batch 后,對(duì)驗(yàn)證集數(shù)據(jù)進(jìn)行測(cè)試,以保存最好的模型。然后用在測(cè)試集上,得到最終結(jié)果。

表2 數(shù)據(jù)集劃分Tab.2 Dataset division

2.2.3 評(píng)價(jià)指標(biāo)

為統(tǒng)計(jì)本文所提模型CCHA-Net 與其他相關(guān)基線模型的顯著差異,本文使用了準(zhǔn)確率(Acc)、精確率(P)、召回率(R)、F1 分?jǐn)?shù)對(duì)模型進(jìn)行了綜合評(píng)價(jià)。同時(shí)考慮到數(shù)據(jù)集存在樣本數(shù)不均衡問(wèn)題,還引用了曲線下面積(Area Under Curve,AUC)值。由于本文是多分類問(wèn)題,所以采用宏平均和微平均兩種方式對(duì)精確率(Macro_P,Micro_P)、召回率(Macro_R,Micro_R)、F1 分?jǐn)?shù)(Macro_F1,Micro_F1)、AUC 值(Macro_AUC,Micro_AUC)進(jìn)行計(jì)算。

2.3 實(shí)驗(yàn)結(jié)果與分析

2.3.1 消融實(shí)驗(yàn)結(jié)果與分析

為深入分析兩通道單獨(dú)建模改進(jìn)內(nèi)容與聯(lián)合建模對(duì)暴力犯罪氣質(zhì)分類能力的影響,本文設(shè)計(jì)了消融實(shí)驗(yàn)進(jìn)行分析比較,結(jié)果如表3 所示。

表3 消融實(shí)驗(yàn)測(cè)試結(jié)果 單位:%Tab.3 Test results of ablation experiments unit:%

由表3 可知,在HAN 通道對(duì)犯罪事實(shí)進(jìn)行語(yǔ)義建模,將Focal Loss 替代Cross-Entropy 后,Macro_P 與Macro_F1 分別提升了2.96 和2.56 個(gè)百分點(diǎn)。這是由于Focal Loss 類似于一個(gè)獎(jiǎng)懲機(jī)制,對(duì)大樣本類別權(quán)重進(jìn)行懲罰,同時(shí)對(duì)小類別權(quán)重進(jìn)行獎(jiǎng)勵(lì),使模型在訓(xùn)練過(guò)程中能更多地關(guān)注小類別,從而提升分類效果。

在輸入層引入位置編碼后,Acc 與Macro_AUC 分別提升了1.08 和5.71 個(gè)百分點(diǎn)。這是由于詞語(yǔ)的先后順序?qū)Ψ缸镂谋镜暮x理解有偏差,而位置編碼能夠通過(guò)引入位置向量而提高模型對(duì)于位置信息的感知能力,以解決此類問(wèn)題。

在特征提取層句及文檔注意力模塊構(gòu)建顯著向量后,Acc 與Macro_P 分別提升了3.97 和4.08 個(gè)百分點(diǎn)。這是由于顯著向量的構(gòu)建,與上下文向量共同對(duì)句子中的單詞、文檔中的句子進(jìn)行打分,從而使句子及文檔編碼的類別特征更加明顯,模型能夠更好地關(guān)注到犯罪文本中最具差異性的信息。

在輸出層將全局平均池化替代全連接方法后,Acc 與Macro_P 分別提升了0.53 和0.87 個(gè)百分點(diǎn)。這是由于全局平均池化方法對(duì)全連接方法參數(shù)量大和易過(guò)擬合缺點(diǎn)進(jìn)行了避免。

在TextCNN 通道對(duì)服刑人員基本情況進(jìn)行了語(yǔ)義建模,各項(xiàng)改進(jìn)也得到了相應(yīng)的指標(biāo)提升。最終,將兩通道進(jìn)行聯(lián)合建模后,模型達(dá)到了最佳效果,其中Micro_F1、Macro_AUC和Micro_AUC 分別達(dá)到了99.57%、99.45%和99.89%。驗(yàn)證了本文提出的CCHA-Net 模型在暴力犯罪氣質(zhì)分類方面具備較好的應(yīng)用價(jià)值。

由 表3 中 的Macro_AUC 和Micro_AUC 可 知,HAN 和TextCNN 的表現(xiàn)最差,這是因?yàn)閮烧卟](méi)有對(duì)樣本數(shù)不均衡、位置信息建模和過(guò)擬合等問(wèn)題進(jìn)行優(yōu)化。HAN 到HAN+Focal Loss+位置編碼+顯著向量+GAP;TextCNN 到TextCNN+Focal Loss+位置編碼+GAP 的Macro_AUC 和Micro_AUC 指標(biāo)呈遞增趨勢(shì),這說(shuō)明本文提出的各項(xiàng)改進(jìn)措施都是有效的。而CCHA-Net 的Macro_AUC 和Micro_AUC 指標(biāo)則最高,這證明了本文提出的CCHA-Net 模型通過(guò)兩通道聯(lián)合建模后,在面對(duì)存在樣本數(shù)量不均衡問(wèn)題的犯罪文本時(shí),仍然能夠具備良好的分類效果。

2.3.2 相關(guān)模型對(duì)比實(shí)驗(yàn)結(jié)果與分析

為了與以往的犯罪分析工作進(jìn)行比較,同時(shí)驗(yàn)證本文提出的CCHA-Net 模型的優(yōu)越能力,本文在同一數(shù)據(jù)集上與17種相關(guān)模型進(jìn)行了對(duì)比實(shí)驗(yàn),包括9 種傳統(tǒng)機(jī)器學(xué)習(xí)已有相關(guān)基線模型:K最近鄰(K-Nearest Neighbor,KNN)[24]、多項(xiàng)式樸素貝葉斯(Multinomial Naive Bayes,MNB)[25]、高斯樸素貝葉斯(Gaussian Naive Bayes,GNB)[26]、伯努利樸素貝葉斯(Bernoulli Naive Bayes,BNB)[27]、決策樹(shù)(Decision Tree,DT)[28]、隨機(jī)森林(Random Forest,RF)[29]、支持向量機(jī)(Support Vector Machine,SVM)[30]、XGBoost(eXtreme Gradient Boosting)[31]和邏輯回歸(Logistic Regression,LR)[32],8 種深度學(xué)習(xí)已有相關(guān)基線模型:長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)[33]、雙向長(zhǎng)短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)[34]、門控循環(huán)單元(Gated Recurrent Unit,GRU)[35]、Bi-GRU[36]、Att-BiLSTM(Attentionbased Bidirectional Long Short-Term Memory networks)[37]、CLSTM[38]、CNN-BiLSTM[9]、AC-BiLSTM(Attention-based Bidirectional Long Short-Term Memory with Convolution layer)[39]??紤]到這些模型不是多通道模型,在實(shí)驗(yàn)過(guò)程中,將兩類數(shù)據(jù)按照犯罪事實(shí)、服刑人員基本情況的順序整合在一起輸入模型。結(jié)果如表4 所示。

表4 對(duì)比實(shí)驗(yàn)測(cè)試結(jié)果 單位:%Tab.4 Test results of comparative experiments unit:%

由表4 可知,在傳統(tǒng)機(jī)器學(xué)習(xí)模型中,GNB 表現(xiàn)最差,與CCHA-Net 相比,Acc 與Macro_R 分別低25.72 和28.14 個(gè) 百分點(diǎn)。這是由于膽汁質(zhì)與多血質(zhì)類型犯罪文本之間存在一定的相關(guān)性,GNB 在處理具有相關(guān)性的類別時(shí)效果不佳。與其中最優(yōu) 的SVM 相比,CCHA-Net 在Acc 和Macro_AUC 指 標(biāo)上分別高4.29 和9.30 個(gè)百分點(diǎn),表明CCHA-Net 在處理相關(guān)性較強(qiáng)的類別時(shí)具有更好的性能。

在深度學(xué)習(xí)模型中,LSTM 表現(xiàn)最差,與CCHA-Net 相比,Acc 與Macro_P 分別低15.88 和16.43 個(gè)百分點(diǎn)。這是由于LSTM 丟失建模信息過(guò)多,如層次結(jié)構(gòu)與后向信息等。與其中最優(yōu)的AC-BiLSTM 相比,CCHA-Net 在Acc 和Macro_P 指標(biāo)上分別高4.08 和3.09 個(gè)百分點(diǎn),表明CCHA-Net 具有更好的文本建模能力。

與所有模型相比,CCHA-Net 各項(xiàng)評(píng)價(jià)指標(biāo)最佳。Micro_F1,Macro_AUC,Micro_AUC 相較于次優(yōu)的AC-BiLSTM提高了4.08、5.59 和0.74 個(gè)百分點(diǎn),證明本文提出的CCHANet 模型能夠有效勝任暴力犯罪氣質(zhì)分類任務(wù)。

2.3.3 CCHA-Net兩通道復(fù)雜度分析

CCHA-Net 模型的有效性,本文從兩通道處理方式的復(fù)雜度視角出發(fā),進(jìn)行了計(jì)算量和參數(shù)量的測(cè)試工作,以評(píng)估時(shí)間復(fù)雜度和空間復(fù)雜度。具體測(cè)試結(jié)果如表5 所示。

表5 兩通道處理方式復(fù)雜度評(píng)估結(jié)果Tab.5 Complexity evaluation results of dual-channel processing method

由表5 可知,本文提出的CCHA-Net 模型采用了兩通道聯(lián)合建模機(jī)制,計(jì)算量和參數(shù)量相當(dāng)于兩個(gè)通道的總和。從計(jì)算量和參數(shù)量的角度來(lái)看,CCHA-Net 的復(fù)雜度較為合理,具有良好的可擴(kuò)展性和實(shí)用性。

3 結(jié)語(yǔ)

本文將文本分類方法引入犯罪心理學(xué)領(lǐng)域,提出了一種基于改進(jìn)HAN 與TextCNN 兩通道聯(lián)合建模的暴力犯罪分級(jí)算法CCHA-Net,通過(guò)分別剖析犯罪事實(shí)與服刑人員基本情況文本,以端到端的方式將服刑人員劃分為膽汁質(zhì)、多血質(zhì)、粘液質(zhì)和抑郁質(zhì)四種氣質(zhì)類型。首先,為提升小樣本類別的關(guān)注度,采用Focal Loss 同時(shí)替代兩通道中Cross-Entropy 函數(shù);其次,在兩通道輸入層中,同時(shí)引入了位置編碼,優(yōu)化了模型對(duì)詞語(yǔ)前后位置信息的感知能力;并改進(jìn)HAN 通道,為強(qiáng)化具有明顯的類別特征權(quán)重,采用最大池化構(gòu)建了顯著向量;最后,輸出層都采用全局平均池化替代全連接方法,以防止出現(xiàn)過(guò)擬合問(wèn)題。為驗(yàn)證CCHA-Net 的分類準(zhǔn)確率,將它與9 種傳統(tǒng)機(jī)器學(xué)習(xí)和8 種深度學(xué)習(xí)已有相關(guān)基線模型進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,CCHA-Net 在9 種主流評(píng)價(jià)指標(biāo)下均達(dá)到了最優(yōu),Micro_F1 為99.57%,Macro_AUC、Micro_AUC分別為99.45%和99.89%,三者相較于次優(yōu)的AC-BiLSTM 提高了4.08、5.59 和0.74 個(gè)百分點(diǎn)。驗(yàn)證了CCHA-Net 能夠有效完成暴力犯罪分級(jí)任務(wù),同時(shí)為后期監(jiān)管部門制定個(gè)性化矯正教育方案奠定基礎(chǔ)。

未來(lái)的工作將集中在樣本數(shù)不均衡問(wèn)題和數(shù)據(jù)集擴(kuò)充兩個(gè)方面。首先,由于數(shù)據(jù)集中存在樣本數(shù)不均衡的問(wèn)題,導(dǎo)致宏平均下的評(píng)價(jià)指標(biāo)不是很高,未來(lái)將嘗試改進(jìn)損失函數(shù)或設(shè)計(jì)重采樣方法,并執(zhí)行圖神經(jīng)網(wǎng)絡(luò)解決此類問(wèn)題。然后,本文將進(jìn)一步擴(kuò)充服刑人員樣本數(shù)據(jù)集,包括服刑人員訪談?dòng)涗?、日常康?fù)記錄、親情電話語(yǔ)音和通過(guò)各種傳感器采集的脈搏、心率、皮電和腦電信號(hào)等,通過(guò)多模態(tài)技術(shù)對(duì)服刑人員進(jìn)行綜合分級(jí),以實(shí)現(xiàn)個(gè)性化矯治。

猜你喜歡
池化服刑人員編碼
面向神經(jīng)網(wǎng)絡(luò)池化層的靈活高效硬件設(shè)計(jì)
基于Sobel算子的池化算法設(shè)計(jì)
卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
《全元詩(shī)》未編碼疑難字考辨十五則
監(jiān)獄管理局廳官充當(dāng)服刑人員“保護(hù)傘”
子帶編碼在圖像壓縮編碼中的應(yīng)用
服刑人員生育權(quán)論要
基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
Genome and healthcare