国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于法條知識(shí)的刑事類案推薦模型

2022-10-18 09:48吳歡棟
電腦知識(shí)與技術(shù) 2022年25期

吳歡棟

摘要:當(dāng)前中國(guó)裁判文書網(wǎng)很難滿足用戶自定義案情推薦的需求,類案推薦又區(qū)別于傳統(tǒng)的文本相似性研究,因?yàn)椴门形臅哂蟹蓪I(yè)性強(qiáng)、文本長(zhǎng)度較長(zhǎng)等特性,傳統(tǒng)文本相似性的研究方法在法律領(lǐng)域的可解釋性和效果通常都不盡如人意。為此,該文提出了一個(gè)基于法條知識(shí)的刑事類案推薦模型,使用預(yù)訓(xùn)練BERT對(duì)文書的文本序列進(jìn)行編碼,同時(shí)利用BiLSTM提取其上下文的法條知識(shí)特征,演化為多標(biāo)簽分類任務(wù),最終輸出對(duì)應(yīng)的法條向量,然后通過(guò)與本地的法條向量庫(kù)進(jìn)行余弦相似度匹配,挑選與輸出向量最相似向量對(duì)應(yīng)的裁判文書作為模型的推薦結(jié)果。

關(guān)鍵詞:裁判文書;法條知識(shí);類案推薦;BERT-BiLSTM模型

中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2022)25-0079-03

開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :

由于存在判決年份、地域、法院層級(jí)與執(zhí)法水平等諸多差異因素,導(dǎo)致社會(huì)上“類案不同判”的現(xiàn)象時(shí)有發(fā)生。為此,司法部也在逐步推進(jìn)“數(shù)字法治,智慧司法”建設(shè),上線了以中國(guó)裁判文書網(wǎng)為代表的一系列司法網(wǎng)站,急劇增長(zhǎng)的司法案件數(shù)量導(dǎo)致文書網(wǎng)數(shù)據(jù)庫(kù)的規(guī)模劇增,而文書網(wǎng)自帶的檢索系統(tǒng)只能提供關(guān)鍵字檢索服務(wù),當(dāng)司法工作者或者普通用戶需要搜索相似案情的判例做參考時(shí),仍需進(jìn)一步自行篩選相似文書,專業(yè)性的篩選給用戶帶來(lái)了極大的不便。

刑事類案推薦即從已有的裁判文書中找出與輸入案情在司法角度最相似的文書,屬于文本相似度的研究范疇。對(duì)于普通文本相似度的數(shù)據(jù)集,一般的深度學(xué)習(xí)模型都能有效應(yīng)對(duì),但是裁判文書有別于普通文本的相似研究,裁判文書存在著文本較長(zhǎng)、法律屬性強(qiáng)等特點(diǎn),傳統(tǒng)的文本相似度匹配模型在法律領(lǐng)域的效果并不理想。

近些年來(lái),得益于自然語(yǔ)言處理領(lǐng)域中預(yù)訓(xùn)練模型的迅速發(fā)展,越來(lái)越多的文本匹配研究都選擇BERT[1]等預(yù)訓(xùn)練模型作為詞嵌入層。基于此,本文提出一種基于法條語(yǔ)義信息的類案推薦模型,面向特定刑事文書,構(gòu)建法條屬性數(shù)據(jù)集,模型采用BERT+BiLSTM網(wǎng)絡(luò),用于學(xué)習(xí)用戶自定義輸入案情對(duì)應(yīng)的法條屬性從而來(lái)得到法條向量,再利用法條向量與已有的法條向量數(shù)據(jù)庫(kù)進(jìn)行向量匹配,進(jìn)而給用戶推薦相似案例,通過(guò)自動(dòng)理解用戶輸入案情的法條知識(shí)來(lái)進(jìn)行案例推薦,從而降低裁判文書的人工篩選成本。

1 相關(guān)研究

類案推薦作為智慧司法的重要研究方向之一,一直受到國(guó)內(nèi)外研究學(xué)者的關(guān)注。在以判例法為代表的英美等海洋法系國(guó)家中,法官主要依據(jù)過(guò)去的判例對(duì)當(dāng)前案件進(jìn)行判決,在判決文書中申明對(duì)以往判例的引用,自動(dòng)形成了一個(gè)案例引用網(wǎng)絡(luò)。Dhanani等人[2]提出了一種基于圖聚類的法律文件檢索系統(tǒng),在引文網(wǎng)絡(luò)中找到語(yǔ)義相關(guān)的判例,利用社區(qū)發(fā)現(xiàn)算法來(lái)聚類引文網(wǎng)絡(luò)和利用Doc2Vec 來(lái)捕獲集群內(nèi)判例之間的語(yǔ)義相關(guān)性。

但是,在成文法為代表的中國(guó)構(gòu)建大規(guī)模的引文網(wǎng)絡(luò)存在一定難度,在詞嵌入研究之前,主要以研究詞頻特征和LDA(Latent Dirichlet Allocation)為主。向李興[3]通過(guò)提取關(guān)鍵詞來(lái)計(jì)算詞頻,結(jié)合TF-IDF和余弦相似性進(jìn)行相似案件推薦。李銳等人[4]使用SimHash算法利用相似哈希模型查找出同類型判決書中相似度最高的判決書推薦給用戶。呂賓等人[5]提出基于LDA主題模型的案例檢索算法,挖掘文本隱含語(yǔ)義信息,并采用多粒度特征來(lái)表征文本。

隨著神經(jīng)網(wǎng)絡(luò)的普及和詞嵌入模型的逐漸出現(xiàn),類案推薦也逐漸與深度學(xué)習(xí)相結(jié)合。陳志奎等人[6]構(gòu)建一個(gè)多模態(tài)特征融合網(wǎng)絡(luò),將Skip-Gram模型與Elmo模型分別產(chǎn)生的詞向量構(gòu)建融合特征向量,再利用核密度估計(jì)的方法進(jìn)行案例聚類檢索。許梓濤[7]提出了一種上下文感知類案的推薦方法,其以BERT作為詞嵌入層,利用CNN獲取上下文的語(yǔ)義信息,得到文本向量再進(jìn)行類案匹配。但是,裁判文書作為專業(yè)屬性極強(qiáng)的法律文本,案例相似性和判決結(jié)果都直接取決于文本中涉及的法條知識(shí),因此,如果忽略法條知識(shí)只關(guān)注于文本本身的相似性研究,其法律的可解釋性和判決結(jié)果的準(zhǔn)確性都會(huì)存在問(wèn)題,因此從法條知識(shí)的角度來(lái)解決類案推薦是非常有必要的。

2 數(shù)據(jù)集制作

2.1 裁判文書爬取

在我國(guó),司法文書的下載網(wǎng)站包括中國(guó)裁判文書網(wǎng)、OpenLaw等,后者的文書數(shù)量遠(yuǎn)少于前者,而裁判文書網(wǎng)存在下載量上限、滑塊校驗(yàn)等反爬限制,本文通過(guò)IP代理池使用Selenium框架爬取文書網(wǎng)近5年的盜竊罪文書共計(jì)4300份,利用docx庫(kù)進(jìn)行數(shù)據(jù)清洗并轉(zhuǎn)成csv格式,每個(gè)案例對(duì)應(yīng)表中的一行,包含案件序號(hào)和案情描述等列。

2.2 法條知識(shí)標(biāo)注

在我國(guó),每種刑事犯罪的判決都是依據(jù)《中華人民共和國(guó)刑法》法條而定,而每條法條包含的知識(shí)要點(diǎn)與輸入案情之間的關(guān)聯(lián)程度直接決定了判決結(jié)果,因此,為了更好地表征輸入案情涉及的法條知識(shí),我們需要在爬取的案情中標(biāo)注出其中涉及的法條知識(shí)用于后續(xù)訓(xùn)練。在我國(guó),刑法犯罪的量刑都有相應(yīng)的建議性指導(dǎo)文件,在參考《關(guān)于常見犯罪的量刑指導(dǎo)意見(試行) 2021年》和總結(jié)盜竊罪涉及的刑法條文之后,可以得出下列一些相關(guān)的法條知識(shí),如表1所示,共計(jì)22種。

雖然裁判文書屬于非結(jié)構(gòu)性數(shù)據(jù),但是通常其格式和措辭都具有固定形式,因此可以利用正則庫(kù)re,對(duì)案情描述文本進(jìn)行標(biāo)注,例如通過(guò)re.compile(“供述”||“供認(rèn)不諱”||“坦白”||“交代”)便可以得到“坦白”對(duì)應(yīng)的標(biāo)簽,然后依次類似操作后,每個(gè)裁判文書可以得出一個(gè)1[×]22大小的法條標(biāo)簽,從而得到對(duì)應(yīng)數(shù)據(jù)集。

3 刑事類案推薦模型

3.1 詞嵌入層

詞嵌入層主要功能是將輸入文本轉(zhuǎn)化為文本向量,常用的文本編碼技術(shù)包含one-hot、Word2vec和BERT等,one-hot生成的向量會(huì)存在高維度性、稀疏性、無(wú)法體現(xiàn)詞語(yǔ)的順序性等缺點(diǎn),Word2vec相比one-hot可以獲得低維稠密的詞向量表征,但該種方案屬于靜態(tài)生成,無(wú)法適用于多義詞的場(chǎng)景。

因此,目前詞嵌入層通常是采用BERT模型,其是由Google AI研究院在2018年10月提出的一種預(yù)訓(xùn)練模型,完美地解決一詞多義的問(wèn)題。BERT的主體是基于Transformer架構(gòu)的雙向編碼網(wǎng)絡(luò),采用了前者的編碼器部分,通過(guò)掩碼語(yǔ)言模型和下文預(yù)測(cè)兩個(gè)任務(wù)進(jìn)行預(yù)訓(xùn)練。BERT由通用語(yǔ)料庫(kù)訓(xùn)練而來(lái),因此,只需要微調(diào)輸出層的參數(shù)便可用來(lái)提取每個(gè)案情序列對(duì)應(yīng)的詞向量。

3.2 特征提取網(wǎng)絡(luò)

在自然語(yǔ)言處理領(lǐng)域,常用于特征提取的網(wǎng)絡(luò)包括CNN模型、RNN模型及上述兩類的有關(guān)演化變種,例如TextCNN、LSTM、BiLSTM、GRU和BiGRU等。TextCNN由輸入層、卷積層、池化層和輸出層組成,它比傳統(tǒng)CNN更加簡(jiǎn)單,卷積層和池化層的層數(shù)更少,前一層的輸出作為當(dāng)前層的輸入,但是經(jīng)過(guò)卷積和池化操作后容易丟失詞匯順序等;RNN作為早期的時(shí)序神經(jīng)網(wǎng)絡(luò),主要應(yīng)用于自然語(yǔ)言處理領(lǐng)域,在RNN的反向傳播過(guò)程中,隨著序列過(guò)長(zhǎng)和網(wǎng)絡(luò)層數(shù)的增加,容易出現(xiàn)梯度爆炸和梯度消失的情況。因此,便逐漸出現(xiàn)LSTM、GRU等一系列RNN的演化網(wǎng)絡(luò)。

LSTM是RNN的一種變種,能夠?qū)W習(xí)長(zhǎng)距離依賴關(guān)系,主要由輸入門、遺忘門和輸出門三部分組成,結(jié)構(gòu)如圖1所示,隨著單元狀態(tài)在時(shí)間序列上的傳遞,通過(guò)門控機(jī)制來(lái)決定信息的丟棄或保留,三個(gè)門控單元都有各自的權(quán)重矩陣,從而實(shí)現(xiàn)對(duì)不同信息的選擇。但是,單向LSTM無(wú)法編碼從后向前的信息,很多場(chǎng)景又需要后向語(yǔ)義,因此出現(xiàn)了由一個(gè)前向的LSTM和一個(gè)后向的LSTM組成的BiLSTM網(wǎng)絡(luò),其兼顧雙向語(yǔ)義,特征提取效果往往優(yōu)于單向的LSTM。

GRU(Gated Recurrent Unit) 是RNN的另一種變種,GRU主要包含重置門和更新門兩部分,更新門類似于LSTM中的遺忘門和輸入門的結(jié)合,前者決定要丟棄的信息,后者決定需要向下傳遞的信息,由于它的張量操作和相關(guān)參數(shù)矩陣更少,在同等情況下,該模型的訓(xùn)練難度比LSTM小,通常也會(huì)與LSTM一起進(jìn)行性能比較。BiGRU與BiLSTM類似,是一個(gè)雙向的GRU組合網(wǎng)絡(luò),效果也一般優(yōu)于單向的GRU。

3.3 全連接層

在經(jīng)過(guò)特征提取層之后,詞向量需要全連接層進(jìn)行輸出,常用的激活函數(shù)包含Softmax和Sigmod等,前者適用于二分類、多分類,后者適用于多標(biāo)簽分類;由于22項(xiàng)法條知識(shí)中的大部分知識(shí)在一個(gè)判例中是可以同時(shí)存在的,比如被告人既是累犯、又有立功情節(jié)且自首,于是法條知識(shí)的表征問(wèn)題便可以演化為一個(gè)多標(biāo)簽文本分類問(wèn)題,因此選用Sigmod作為全連接層的激活函數(shù),其對(duì)應(yīng)的交叉熵?fù)p失函數(shù)L的計(jì)算公式如下所示。

[p=Sigmodz=11+e-z]

[L=-zlogp+1-zlog (1-p)]

3.4 網(wǎng)絡(luò)架構(gòu)

本類案推薦模型主要由輸入層、詞嵌入層、特征提取層、全連接層和輸出層等五層組成,輸入層為用戶自定義輸入的案情文本,刪除停用詞;詞嵌入層選用的BERT_BASE模型,模型輸出的詞向量為768維;詞向量序列經(jīng)過(guò)特征提取層和全連接層處理后,輸出22維向量,便可與法條向量庫(kù)中的向量進(jìn)行余弦相似度匹配,然后再推薦出與輸入案情最相似的判例。

4 實(shí)驗(yàn)?zāi)K

4.1 評(píng)價(jià)標(biāo)準(zhǔn)與模型比較

由于爬取的文書數(shù)據(jù)集的規(guī)模相對(duì)較小,共計(jì)4300份裁判文書,因此設(shè)置訓(xùn)練集與測(cè)試集的比例為7:3。模型的評(píng)價(jià)標(biāo)準(zhǔn)采用機(jī)器學(xué)習(xí)中常見的準(zhǔn)確率P、召回率R和F1值,其定義分別如下:

[P=TpTp+Fp×100%]

[R=TpTp+Fn×100%]

[F1=2PRP+R×100%]

為了挑選出最佳模型組合,總共設(shè)計(jì)了5組對(duì)照實(shí)驗(yàn),分別為BERT-TextCNN、BERT-LSTM、BERT-BiLSTM、BERT-GRU和BERT-BiGRU;由于BERT最多只能接受510個(gè)token的輸入,而文書的平均長(zhǎng)度在832字,采用頭尾截?cái)嗟姆椒ㄟM(jìn)行處理。最終,各模型的實(shí)驗(yàn)結(jié)果如表2所示:

從上述的實(shí)驗(yàn)結(jié)果可以看出,TextCNN的效果不如循環(huán)神經(jīng)網(wǎng)絡(luò),BiLSTM的模擬效果最佳,可能與其兼顧雙向語(yǔ)義的特性有關(guān),而LSTM與BiGRU的效果基本相近,因此最終選用F1值最高的BERT-BiLSTM模型作為特征提取網(wǎng)絡(luò)。

4.2 類案推薦模塊

由于此時(shí)BERT-BiLSTM模型已經(jīng)具有表征盜竊罪文書相關(guān)法條的能力,當(dāng)用戶向模型中輸入盜竊類案情時(shí),模型通過(guò)識(shí)別其中的法條知識(shí),輸出一個(gè)22維的法條向量X,即[x1,x2,…,x22 T],然后將X與本地已存在的4300條法條向量集合Y中的第i條向量Yi,即[yi_1,yi_2,…,yi_22 T],進(jìn)行特征向量相似度的度量就可以進(jìn)行判例相似比較,常見的相似度度量方法包括杰卡德相似系數(shù)、余弦相似度和歐氏距離等。此處,選擇余弦相似度作為評(píng)判標(biāo)準(zhǔn),最終,從4300條法條向量中挑選出與X之間的余弦相似度取得最大值的向量Yi,其對(duì)應(yīng)的裁判文書i作為推薦系統(tǒng)的推薦結(jié)果。

5 結(jié)束語(yǔ)

本文提出了一種基于法條知識(shí)的形式類案推薦算法模型,首先使用BERT模型將頭尾截?cái)嗟奈谋拘蛄修D(zhuǎn)化為詞向量,詞向量輸入至BiLSTM網(wǎng)絡(luò)來(lái)學(xué)習(xí)其上下文信息,根據(jù)對(duì)應(yīng)的法條知識(shí)標(biāo)簽來(lái)訓(xùn)練BiLSTM的參數(shù)矩陣,最后輸出對(duì)應(yīng)的法條向量。然后通過(guò)向量的余弦相似度,從本地的法條向量庫(kù)中選取相似度最大的判例文書作為最終模型的推薦結(jié)果。由于本模型只針對(duì)盜竊類的刑事案件,如果要擴(kuò)展到通用的單人單罪的類案推薦任務(wù),可以先進(jìn)行罪名預(yù)測(cè)任務(wù)得到罪名,然后根據(jù)量刑文件總結(jié)該罪名的法條知識(shí),后續(xù)的訓(xùn)練和預(yù)測(cè)流程則與本文基本一致。

參考文獻(xiàn):

[1] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL]. 2018:arXiv:1810.04805.https://arxiv.org/abs/1810.04805

[2] Dhanani J,Mehta R,Rana D.Legal document recommendation system:a cluster based pairwise similarity computation[J].Journal of Intelligent & Fuzzy Systems,2021,41(5):5497-5509.

[3] 向李興.基于自然語(yǔ)義處理的裁判文書推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].南京:南京大學(xué),2015.

[4] 李銳,游景揚(yáng),劉穩(wěn),等.基于SimHash算法的案件輔助判決系統(tǒng)研究[J].湖北工業(yè)大學(xué)學(xué)報(bào),2017,32(5):67-72.

[5] 呂賓,侯偉亮.基于主題模型的法院文本典型案例推薦[J].微電子學(xué)與計(jì)算機(jī),2018,35(2):128-132.

[6] 陳志奎,劉振嬌,原旭,等.基于深度多模態(tài)與核密度估計(jì)的法律文書推薦模型[J].西北師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,57(1):31-37.

[7] 許梓濤,黃炳森,潘微科,等.一個(gè)新的上下文感知類案匹配與推薦方法[J].太原理工大學(xué)學(xué)報(bào),2022,53(1):80-88.

【通聯(lián)編輯:光文玲】