馬建剛 張鵬 馬應(yīng)龍
摘 要:隨著全國(guó)司法機(jī)關(guān)智能化建設(shè)的深入推進(jìn),通過(guò)信息化建設(shè)應(yīng)用所積累的海量司法文書(shū)為開(kāi)展司法智能服務(wù)提供了司法數(shù)據(jù)分析基礎(chǔ)。通過(guò)司法文書(shū)的相似性分析實(shí)現(xiàn)類(lèi)案推送,可以為司法人員提供智能輔助辦案決策支持,從而提高辦案的質(zhì)量和效率。針對(duì)面向通用領(lǐng)域的文本分類(lèi)方法因沒(méi)有考慮特定司法領(lǐng)域文本的復(fù)雜結(jié)構(gòu)和知識(shí)語(yǔ)義而導(dǎo)致司法文本分類(lèi)的效能低問(wèn)題,提出一種基于司法知識(shí)塊摘要和詞轉(zhuǎn)移距離(WMD)的高效司法文檔分類(lèi)方法。首先為司法文書(shū)構(gòu)建領(lǐng)域本體知識(shí)模型,進(jìn)而基于領(lǐng)域本體,利用信息抽取技術(shù)獲取司法文檔中核心知識(shí)塊摘要; 然后基于司法文本的知識(shí)塊摘要利用WMD進(jìn)行司法文檔相似度計(jì)算; 最后利用K最近鄰算法進(jìn)行司法文本分類(lèi)。以兩個(gè)典型罪名的案件文檔集作為實(shí)驗(yàn)數(shù)據(jù),與傳統(tǒng)的WMD文檔相似度計(jì)算方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,所提方法能明顯提高司法文本分類(lèi)的正確率(分別有5.5和9.9個(gè)百分點(diǎn)的提升),同時(shí)也降低了文檔分類(lèi)所需的時(shí)間(速度分別提升到原來(lái)的52.4和89.1倍)。
關(guān)鍵詞:智慧檢務(wù);領(lǐng)域本體模型;文本分類(lèi);相似度計(jì)算;知識(shí)塊摘要;詞轉(zhuǎn)移距離
中圖分類(lèi)號(hào):TP309
文獻(xiàn)標(biāo)志碼:A
Abstract: With the deepening of intelligence construction of the national judicial organization, massive judicial documents accumulated through years of information technology application provide data analysis basis for developing judicial intelligent service. The quality and efficiency of case handling can be greatly improved through the analysis of the similarity of judicial documents, which realizes the push of similar cases to provide the judicial officials with intelligent assistant case handling decision support. Aiming at the low efficiency of most document classification approach for common domains in judicial document classification due to the lack of consideration of complex structure and knowledge semantics of specific judicial documents, an efficient judicial document classification approach based on knowledge block summarization and Word Movers Distance (WMD) was proposed. Firstly, a domain ontology knowledge model was built for judicial documents. Secondly, based on domain ontology, the core knowledge block summarization of judicial documents was obtained by information extraction technology. Thirdly, WMD algorithm was used to calculate judicial document similarity based on knowledge block summary of judicial text. Finally, KNearest Neighbors (KNN) algorithm was used to realize judicial document classification. With the documents of two typical crimes used as experimental data, the experimental results show that the proposed approach greatly improves the accuracy of judicial document classification by 5.5 and 9.9 percentage points respectively with the speed of 52.4 and 89.1 times respectively compared to traditional WMD similarity computation algorithm.
英文關(guān)鍵詞Key words: smart procuratorate; domain ontology model; document classification; similarity computation; knowledge block summarization; Word Movers Distance (WMD)
0 引言
隨著全國(guó)司法機(jī)關(guān)大數(shù)據(jù)戰(zhàn)略的深入實(shí)施,國(guó)家檢察機(jī)關(guān)的“智慧檢務(wù)”、法院系統(tǒng)的“智慧法院”等智能化建設(shè)正在逐步推進(jìn)[1]。首先是2014年1月統(tǒng)一業(yè)務(wù)應(yīng)用系統(tǒng)部署上線以來(lái)積累了海量的數(shù)據(jù),截至2016年12月31日,統(tǒng)一業(yè)務(wù)應(yīng)用系統(tǒng)中的全國(guó)檢察機(jī)關(guān)案件數(shù)據(jù)量已突破1100萬(wàn)件、電子卷宗200余萬(wàn)卷、各類(lèi)法律文書(shū)達(dá)1億多份;全國(guó)各級(jí)檢察機(jī)關(guān)在人民檢察院案件信息公開(kāi)網(wǎng)發(fā)布案件程序性信息4494548條、重要案件信息204738條、法律文書(shū)1587940份。司法機(jī)關(guān)通過(guò)多年的信息化建設(shè)應(yīng)用已經(jīng)積累了海量的司法文書(shū),如最高檢察院檢察信息公開(kāi)網(wǎng)2016年一年就發(fā)布起訴書(shū)779478份,最高法院的中國(guó)裁判文書(shū)網(wǎng)截止2018年6月已發(fā)布判決書(shū)4677萬(wàn)份,為開(kāi)展司法智能服務(wù)提供了數(shù)據(jù)基礎(chǔ)。
海量的司法文書(shū)包含著豐富的有價(jià)值的信息,通過(guò)挖掘分析為檢察官和法官提供智能輔助辦案服務(wù)。對(duì)法院來(lái)說(shuō),可以為法官提供與當(dāng)前案件相似的以往案件的判決文檔,通過(guò)類(lèi)案推送為當(dāng)前案件的審判提供參考;對(duì)檢察院而言,可以為公訴人對(duì)辦理案件的量刑建議提供參考,有效防止同案不同訴[2]。
基于文本相似度計(jì)算的海量司法文本自動(dòng)化分類(lèi)技術(shù)為輔助辦案提供了必要的、高效的智能化手段,可以將相同判決結(jié)果的司法文檔分成一類(lèi)。當(dāng)法官和檢察官處理一個(gè)案件的司法文檔時(shí),可以將其自動(dòng)分類(lèi)的結(jié)果與他們給出的人工的判決結(jié)果進(jìn)行比較,避免“同案不同判”現(xiàn)象的發(fā)生,進(jìn)而給法官裁判提供智能輔助,也為法院的院庭長(zhǎng)履行監(jiān)管職責(zé)、統(tǒng)一裁判尺度提供技術(shù)支撐。
文本自動(dòng)分類(lèi)在自然語(yǔ)言處理領(lǐng)域中是一個(gè)比較經(jīng)典的問(wèn)題。在傳統(tǒng)文本分類(lèi)方法中,文本分類(lèi)問(wèn)題通常采用特征工程和分類(lèi)器等方法[3]。特征工程分為文本預(yù)處理、特征提取、文本表示三個(gè)部分,最終目的是把文本轉(zhuǎn)換成計(jì)算機(jī)可理解的格式,并封裝足夠用于分類(lèi)的信息,即很強(qiáng)的特征表達(dá)能力[4-5]。常用的方法有詞頻逆文檔頻率(Term FrequencyInverse Document Frequency, TFIDF)、詞袋模型(Bag Of Words, BOW)[6]、向量空間模型(Vector Space Model, VSM)[7-8]、潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)[9]主題模型等。然而這些方法往往由于其文本表示通常是高維度高稀疏而導(dǎo)致特征表達(dá)能力很弱,因此針對(duì)司法文本的分類(lèi)結(jié)果并不理想。許多研究基于機(jī)器學(xué)習(xí)方法的分類(lèi)器來(lái)分類(lèi)司法文檔[10-11],如K最近鄰(KNearest Neighbors, KNN)、支持向量機(jī)(Support Vector Machine, SVM)[12-13]、最大熵[14]、決策樹(shù)[15]等。雖然詞向量(Word to Vector, Word2Vec)[16]分布表示模型可以通過(guò)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和重構(gòu)詞的語(yǔ)義環(huán)境[17-18],能以向量形式表示詞且可以表達(dá)詞之間相似度的差異,但是它無(wú)法清晰表達(dá)文檔級(jí)別的語(yǔ)義[19]。
傳統(tǒng)的面向通用領(lǐng)域的文本分類(lèi)方法因沒(méi)有考慮特定司法領(lǐng)域文本的復(fù)雜結(jié)構(gòu)和知識(shí)語(yǔ)義而導(dǎo)致司法文本分類(lèi)的效能很低,很難直接應(yīng)用到面向特定司法領(lǐng)域的司法文書(shū)分類(lèi)服務(wù)中。一方面,司法文書(shū)的文本分類(lèi)應(yīng)用涉及到刑事量刑等利益密切攸關(guān)的問(wèn)題,因此對(duì)分類(lèi)結(jié)果的準(zhǔn)確率有著極高的要求(如至少90%以上的分類(lèi)準(zhǔn)確率甚至更高),因此需要結(jié)合司法領(lǐng)域的特定知識(shí)對(duì)傳統(tǒng)的方法進(jìn)行性能改進(jìn); 另一方面,司法領(lǐng)域文本數(shù)量大且文本結(jié)構(gòu)復(fù)雜?,F(xiàn)有司法文書(shū)中涉及到各種各樣的不同案件,不同的案件涉及到不同的犯罪情節(jié)和量刑判決;在事實(shí)認(rèn)定和量刑判決方面也存在較大差異;不同犯罪的司法文檔在情節(jié)特征和法律文書(shū)書(shū)寫(xiě)規(guī)范上存在較大差異。
針對(duì)上述問(wèn)題,本文提出一種基于司法知識(shí)塊摘要和詞轉(zhuǎn)移距離(Word Movers Distance, WMD)模型[16]的高效司法文檔分類(lèi)方法,其關(guān)鍵在于通過(guò)信息抽取技術(shù)獲取司法文檔的核心知識(shí)塊摘要。一方面,知識(shí)塊摘要盡可能地保留了司法文檔核心語(yǔ)義知識(shí),去除了與分類(lèi)不相關(guān)的噪聲信息,從而試圖提升分類(lèi)準(zhǔn)確率; 另一方面,知識(shí)塊摘要與其原始的司法文本相比,在文檔容量上大幅降低了,這也無(wú)疑會(huì)減少后續(xù)文本相似度計(jì)算和文本分類(lèi)算法的執(zhí)行時(shí)間,從而提升總體的文本分類(lèi)效率。
本文首先為司法文書(shū)構(gòu)建領(lǐng)域本體知識(shí)模型,進(jìn)而基于領(lǐng)域本體,利用信息抽取技術(shù)獲取司法文檔中核心知識(shí)塊摘要; 然后基于司法文本的知識(shí)塊摘要利用WMD算法進(jìn)行司法文檔相似度計(jì)算; 最后利用KNN算法進(jìn)行司法文本分類(lèi)。本文以兩個(gè)典型罪名的案件數(shù)據(jù)進(jìn)行了相關(guān)實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,同傳統(tǒng)的WMD文檔相似度計(jì)算方法相比較而言,本文方法能明顯提高司法文本分類(lèi)的正確率,同時(shí)也大幅降低了文檔分類(lèi)所需的時(shí)間。
1 總體框架
本文采用方法的總體框架如圖1所示。首先,通過(guò)司法領(lǐng)域?qū)<遗c領(lǐng)域模型知識(shí)表示專(zhuān)家共同合作,著眼于司法領(lǐng)域已有的業(yè)務(wù)知識(shí)和數(shù)據(jù)信息,為司法文書(shū)構(gòu)建領(lǐng)域本體知識(shí)模型。本體知識(shí)模型從兩個(gè)角度進(jìn)行構(gòu)建:一方面,考慮到司法文書(shū)領(lǐng)域的共同特征為其構(gòu)建頂層本體,包含了各種司法文書(shū)的一些共有屬性;另一方面,針對(duì)不同類(lèi)型的司法文書(shū)為其構(gòu)建領(lǐng)域具體本體,包含該類(lèi)型文書(shū)特有的一些屬性。然后領(lǐng)域本體和頂層本體可以一種可擴(kuò)展方式進(jìn)行無(wú)縫集成,最終形成完整的司法文書(shū)領(lǐng)域知識(shí)模型。
基于領(lǐng)域本體,利用信息抽取技術(shù)獲取司法文檔中核心知識(shí)塊摘要。一個(gè)司法文檔的知識(shí)塊摘要,實(shí)際上指的是從該司法文檔中提取的最能反映該文檔內(nèi)容和特征的某種特定類(lèi)型的元素所組成的文本集合。組成元素類(lèi)型可以是短語(yǔ)、句子或段落等。不失一般性,本文的司法知識(shí)塊摘要基于段落類(lèi)型進(jìn)行抽取。另外,考慮到司法文檔中的數(shù)字信息對(duì)于定罪和量刑至關(guān)重要,因此需要根據(jù)現(xiàn)有中國(guó)法律,采用基于規(guī)則的方法添加一些附加知識(shí)到知識(shí)塊。
接下來(lái),首先將司法文檔和中文維基百科文本作為語(yǔ)料庫(kù),采用基于人工神經(jīng)網(wǎng)絡(luò)的方法為語(yǔ)料庫(kù)中的每個(gè)詞構(gòu)建對(duì)應(yīng)Word2Vec向量; 然后,基于司法文本的知識(shí)塊摘要,將每一個(gè)文檔知識(shí)塊摘要看成是一個(gè)詞的集合,進(jìn)一步利用WMD模型,計(jì)算任意兩個(gè)司法文檔的知識(shí)塊摘要之間的相似度; 基于該相似度,最后利用KNN算法進(jìn)行司法文本分類(lèi)。
2 司法文書(shū)領(lǐng)域知識(shí)模型
一個(gè)司法文書(shū)中包含大量信息,但文檔中不同部分的信息價(jià)值對(duì)分析司法文檔是不一樣的, 因此,構(gòu)造一個(gè)司法文書(shū)領(lǐng)域的知識(shí)模型對(duì)分析司法文書(shū)有很大幫助。于是基于犯罪構(gòu)成理論構(gòu)建司法文書(shū)領(lǐng)域知識(shí)模型,并利用本體知識(shí)表示技術(shù)[20]進(jìn)行領(lǐng)域知識(shí)建模。本體是一種形式化共享概念化的規(guī)范,可以顯式地表示領(lǐng)域知識(shí)用于知識(shí)重用、共享和推理等服務(wù)。司法領(lǐng)域本體知識(shí)模型從兩個(gè)角度進(jìn)行構(gòu)建:一個(gè)是頂層本體,用于描述據(jù)司法文書(shū)領(lǐng)域的共同特征和共有屬性; 另一個(gè)是領(lǐng)域具體本體,它是針對(duì)不同類(lèi)型的司法文書(shū)應(yīng)用的,包含該類(lèi)型文書(shū)特有的一些屬性。領(lǐng)域本體和頂層本體可以一種可擴(kuò)展方式進(jìn)行無(wú)縫集成,可以為具體領(lǐng)域的司法文書(shū)知識(shí)提供共享概念化模型。
對(duì)于司法判決書(shū)這一文書(shū)類(lèi)型,以危險(xiǎn)駕駛罪判決書(shū)作為其具體領(lǐng)域,如圖2所示。對(duì)于判決書(shū)來(lái)說(shuō),其頂層本體模型包含主體、客體、主觀方面、客觀方面、判決結(jié)果、刑事管轄權(quán)等方面??陀^方面又包括危害行為和危害結(jié)果;同時(shí)還包括文書(shū)基本信息(如文號(hào))和判決結(jié)果信息。刑法規(guī)定刑罰分為主刑和附加刑。主刑是對(duì)犯罪分子適用的主要刑罰,它只能獨(dú)立使用,不能相互附加適用。任何判決書(shū)都具有這些基本特征,無(wú)論其涉及危險(xiǎn)駕駛還是交通肇事等其他的具體領(lǐng)域。
對(duì)于領(lǐng)域具體本體而言,其內(nèi)容特征較頂層本體而言則更為具體。比如,主刑可以根據(jù)具體案例的不同可以是管制、拘役、有期徒刑、無(wú)期徒刑和死刑等類(lèi)型。附加刑可能包括罰金、剝奪政治權(quán)利、沒(méi)收財(cái)產(chǎn)和驅(qū)逐出境。文檔基本信息、主體、客觀方面、判決結(jié)果等部分類(lèi)似的也都更為具體,如文檔基本信息包括判決書(shū)文號(hào)、審判機(jī)關(guān)、公訴機(jī)關(guān)、審判員和審判時(shí)間等信息。主體和客觀方面這兩個(gè)概念來(lái)自刑法中的犯罪構(gòu)成要件: 主體則會(huì)具體指被告人的信息,包括姓名、職業(yè)、年齡、出生日期、是否有前科、是否累犯等信息; 客觀方面會(huì)涉及機(jī)動(dòng)車(chē)輛類(lèi)型、案發(fā)道路類(lèi)型,其中機(jī)動(dòng)車(chē)輛類(lèi)型包括客車(chē)、貨車(chē)、轎車(chē)和摩托車(chē)等,道路類(lèi)型包括公路、廣場(chǎng)、公共停車(chē)場(chǎng)等,危害行為包括醉酒駕駛、追逐競(jìng)駛等。
3 司法文檔知識(shí)塊摘要
本文的分類(lèi)標(biāo)準(zhǔn)依據(jù)是司法文檔中的客觀方面事實(shí)和判決結(jié)果,而文檔基本信息等內(nèi)容對(duì)于分類(lèi)而言是一種無(wú)效的信息,過(guò)多的無(wú)效信息無(wú)疑會(huì)增加噪聲而對(duì)分類(lèi)的準(zhǔn)確性造成影響, 而且分類(lèi)算法也會(huì)因?yàn)檫@些無(wú)效信息而大幅增加了不必要的分類(lèi)執(zhí)行時(shí)間, 因此排除無(wú)效信息對(duì)分類(lèi)的準(zhǔn)確度和效率有重要的意義。
司法文檔的知識(shí)塊摘要包括兩個(gè)步驟: 一是抽取出客觀方面部分, 客觀方面部分的內(nèi)容主要決定了案件的判決結(jié)果; 二是抽取出司法文書(shū)中的判決結(jié)果部分,并將標(biāo)準(zhǔn)化判決結(jié)果添加到知識(shí)塊摘要中,依此為司法文書(shū)分類(lèi),獲得可供實(shí)驗(yàn)用的帶標(biāo)簽的數(shù)據(jù)集。因?yàn)樗痉ㄎ臅?shū)在書(shū)寫(xiě)規(guī)范和書(shū)寫(xiě)風(fēng)格上因人而異、沒(méi)有統(tǒng)一規(guī)定,因此核心知識(shí)塊的內(nèi)容散布在文檔的不同位置,需要通過(guò)信息抽取技術(shù)進(jìn)行摘要。
3.1 客觀方面的抽取
司法文書(shū)作為特定領(lǐng)域的半結(jié)構(gòu)化文檔,其用詞和行文方式都有某種規(guī)律,因此本文采用基于規(guī)則匹配的方法來(lái)抽取客觀方面部分,并構(gòu)造了所需的規(guī)則庫(kù)。
3.2 基于規(guī)則的信息抽取、標(biāo)準(zhǔn)化及知識(shí)添加本文采用基于規(guī)則的方法抽取審判結(jié)果,通過(guò)大量的正則表達(dá)式規(guī)則進(jìn)行相關(guān)的信息抽取。例如,在司法文檔中,審判結(jié)果具有固定的用語(yǔ)和結(jié)構(gòu),即被告人+姓名+犯+罪名+判處+判決結(jié)果,利用這個(gè)規(guī)則,很容易就能提取出判決結(jié)果。再比如,不同的文書(shū)包含“導(dǎo)致…死亡…人”“致…人死亡”等涵義相同表達(dá)方式不同的用語(yǔ)。通過(guò)調(diào)研大量的判決書(shū)文本,找出一些通用表達(dá)方式并為其建立正則表達(dá)式。
另外,本文所抽取的審判結(jié)果主要是主刑部分,這樣就能得到形如“有期徒刑五年六個(gè)月”的判決結(jié)果部分。這里的“五年六個(gè)月”中的五和六在文檔中是漢字而不是阿拉伯?dāng)?shù)字,審判結(jié)果的標(biāo)準(zhǔn)化指的是將漢字轉(zhuǎn)化為阿拉伯?dāng)?shù)字,同時(shí)將月轉(zhuǎn)換為年,即將“五年六個(gè)月”轉(zhuǎn)化為5.5年,添加到知識(shí)塊摘要中。這樣做是為了方便根據(jù)刑期對(duì)司法文檔進(jìn)行分類(lèi)。
4 基于WMD模型的司法文檔分類(lèi)
本文對(duì)司法文檔分類(lèi)采用了三個(gè)步驟:首先,通過(guò)語(yǔ)料庫(kù)進(jìn)行中文分詞并訓(xùn)練其詞向量;然后,利用WMD模型計(jì)算每個(gè)司法文檔的知識(shí)塊摘要之間的相似度距離;最后,使用KNN模型對(duì)知識(shí)塊摘要進(jìn)行文本分類(lèi)從而間接地確定初始文檔的分類(lèi)。
WMD模型是一種最近被提出來(lái)的用于度量文本相似度的算法,其作者在論文中將之與幾種常用的相似度度量算法,如BOW、TFIDF、LDA、潛在語(yǔ)義索引(Latent Semantic Index,LSI)等進(jìn)行了比較,實(shí)驗(yàn)結(jié)果顯示,WMD模型在文本分類(lèi)任務(wù)中,分類(lèi)準(zhǔn)確率明顯優(yōu)于其他幾種算法,因此本文選擇WMD模型進(jìn)行文本的相似度度量。
4.1 基于Word2Vec的詞向量模型構(gòu)建
本文采用Word2Vec模型為司法文檔構(gòu)建詞向量模型。所訓(xùn)練的語(yǔ)料庫(kù)結(jié)合一部分司法文檔以及來(lái)自中文維基百科文本。詞向量具有良好的語(yǔ)義特性,也是表示詞語(yǔ)特征的常用方式。Word2Vec模型可以將所有的詞向量化,以表示、度量和挖掘詞與詞之間的定量關(guān)系。利用深度較淺的雙層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練可以為語(yǔ)料庫(kù)中的每個(gè)詞產(chǎn)生對(duì)應(yīng)的詞向量。利用Word2Vec詞向量模型,可以進(jìn)一步分析計(jì)算詞與詞之間的語(yǔ)義相關(guān)性。
4.2 基于WMD模型的文本相似度計(jì)算
WMD是一種距離度量的定義模型,可以用于自然語(yǔ)言處理領(lǐng)域的文本向量的相似度計(jì)算。在計(jì)算兩個(gè)文檔之間的WMD距離時(shí),首先,使用JieBa分詞工具對(duì)中文司法文檔進(jìn)行分詞,將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。
WMD使用正則化的詞袋模型(normalized BOW, nBOW)表示文檔,使用d∈Rn表示一篇文檔,其中n表示nBOW模型的長(zhǎng)度,即數(shù)據(jù)集中不同詞的數(shù)目(去除停用詞),代表文檔中第i個(gè)詞的di=ci/∑nj=1cj,其中ci是第i個(gè)詞在該文檔中出現(xiàn)的次數(shù)。同時(shí),WMD使用了詞向量技術(shù),這樣兩個(gè)詞i和j之間的距離可以自然地用二者在詞向量空間的歐氏距離表示,即c(i, j)=‖xi-xj‖2,為了避免混淆詞距離與文檔距離,將c(i, j)稱(chēng)為詞轉(zhuǎn)移代價(jià)。然后通過(guò)詞轉(zhuǎn)移代價(jià)可以進(jìn)一步計(jì)算文檔之間的距離。具體做法是:分別用d和d′表示兩篇不同的文檔, 令d中的每個(gè)詞都可以部分或全部的轉(zhuǎn)化為d′中的任何詞,那么將d中的全部詞轉(zhuǎn)化為d′中的全部詞所花費(fèi)的最小代價(jià)即是兩個(gè)文檔之間的距離。這里用一個(gè)流量矩陣T∈Rn×n表示d中的詞向d′中的詞的轉(zhuǎn)化情況,Tij表示d中第i個(gè)詞向d′中第j個(gè)詞的轉(zhuǎn)化量,為了保證d完全地轉(zhuǎn)化為了d′,需要滿足∑jTij=di,即詞i轉(zhuǎn)化到d′中各詞的量的總和等于di,同樣地,還需令∑iTij=dj′,這是為了滿足d中各詞轉(zhuǎn)化到詞j的量的總和等于dj′。在滿足以上兩個(gè)約束同時(shí),兩個(gè)文檔之間的距離可表示為:
4.3 基于KNN的文檔分類(lèi)
本文使用KNN算法進(jìn)行司法文檔分類(lèi),考慮到KNN算法簡(jiǎn)單高效。其核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別,并具有這個(gè)類(lèi)別上樣本的特性。通過(guò)WMD計(jì)算文檔之間的距離,來(lái)找到待分類(lèi)文檔的k個(gè)最相鄰的文檔,從而實(shí)現(xiàn)文檔分類(lèi),在分類(lèi)中只需要優(yōu)化KNN算法中的k,除此之外沒(méi)有其他需要優(yōu)化的參數(shù)。
5 司法文檔分類(lèi)實(shí)驗(yàn)與結(jié)果分析
5.1 司法文檔數(shù)據(jù)集
實(shí)驗(yàn)所用司法文檔為刑事案件判決書(shū),來(lái)源于中國(guó)裁判文書(shū)網(wǎng)(http://wenshu.court.gov.cn/),共1302份文檔,其中交通肇事罪有615份,危險(xiǎn)駕駛罪687份。危險(xiǎn)駕駛罪的判決書(shū)中主刑部分有兩種:拘役和有期徒刑(數(shù)罪并發(fā)情況)。因此根據(jù)主刑分類(lèi)將危險(xiǎn)駕駛罪文檔分成兩類(lèi),各類(lèi)文檔數(shù)量分別是340份和337份。交通肇事罪的主刑分為有期徒刑和拘役兩種,但在交通肇事罪中若出現(xiàn)被告人逃逸致人死亡的情節(jié)時(shí),則有期徒刑的刑期必然超過(guò)七年,因此將交通肇事罪文檔分為三類(lèi),即拘役、有期徒刑刑期七年以下和有期徒刑七年以上,各類(lèi)文檔數(shù)量分別是250份、250份和115份。這樣使得數(shù)據(jù)集預(yù)先就整理成了帶標(biāo)簽的實(shí)驗(yàn)數(shù)據(jù)。
5.2 司法文檔Word2Vec詞向量訓(xùn)練語(yǔ)料庫(kù)
WMD算法將文檔中的詞用詞向量表示,本文在一份由一萬(wàn)份包括各種罪名的司法文檔和中文維基百科語(yǔ)料庫(kù)組成的語(yǔ)料庫(kù)上訓(xùn)練了一個(gè)詞向量模型。在訓(xùn)練之前,移除了停用詞,最終在包括總共超過(guò)3百萬(wàn)不同詞的數(shù)據(jù)集上訓(xùn)練并得到了一個(gè)維度為400的詞向量模型。
5.3 實(shí)驗(yàn)設(shè)置與實(shí)驗(yàn)指標(biāo)
本實(shí)驗(yàn)使用Python語(yǔ)言進(jìn)行編程,在單核性能3.6GHz的CPU上進(jìn)行司法文檔分類(lèi)實(shí)驗(yàn)。實(shí)驗(yàn)指標(biāo)則分別用來(lái)比較知識(shí)塊摘要前后分類(lèi)算法的分類(lèi)準(zhǔn)確率、詞的平均數(shù)目以及平均執(zhí)行時(shí)間。
論文進(jìn)行如下4組實(shí)驗(yàn):
1)基于危險(xiǎn)駕駛罪原始判決書(shū)文檔,進(jìn)行WMD計(jì)算和KNN分類(lèi)。
2)基于交通肇事罪原始判決書(shū)文檔,進(jìn)行WMD計(jì)算和KNN分類(lèi)。
3)基于危險(xiǎn)駕駛罪文檔的知識(shí)塊摘要,進(jìn)行WMD計(jì)算和KNN分類(lèi)。
4)基于交通肇事罪文檔的知識(shí)塊摘要,進(jìn)行WMD計(jì)算和KNN分類(lèi)。
對(duì)于每組實(shí)驗(yàn),使用了重復(fù)隨機(jī)子抽樣驗(yàn)證的方法,每次將數(shù)據(jù)集隨機(jī)以4 ∶1的比例分為訓(xùn)練集和驗(yàn)證集,得出每次的實(shí)驗(yàn)結(jié)果,共重復(fù)5次,之后算得平均實(shí)驗(yàn)結(jié)果。
5.4 實(shí)驗(yàn)結(jié)果分析
6 結(jié)語(yǔ)
本文針對(duì)司法文書(shū)的相似性分析實(shí)現(xiàn)類(lèi)案推送并為司法人員提供智能輔助辦案服務(wù)的應(yīng)用場(chǎng)景,建立了司法文書(shū)的領(lǐng)域本體知識(shí)模型以及司法文書(shū)語(yǔ)義信息抽取方法,并基于該模型將WMD算法應(yīng)用到司法領(lǐng)域的文檔分類(lèi),進(jìn)行了兩個(gè)典型罪名的案件數(shù)據(jù)的驗(yàn)證,實(shí)驗(yàn)結(jié)果表明該方法明顯提高了分類(lèi)的正確率,且大幅降低了分類(lèi)所需的時(shí)間。下一步將把該領(lǐng)域知識(shí)模型擴(kuò)展到盜竊罪、故意傷害罪等常用罪名并進(jìn)行系統(tǒng)驗(yàn)證。
參考文獻(xiàn) (References)
[1] ??? 馬建剛.檢察實(shí)務(wù)中的大數(shù)據(jù)[M].北京:中國(guó)檢察出版社,2017: 17-23. (MA J G. Procuratorial Big Data[M]. Beijing: China Procurational Press, 2017:17-23.)
[2] ??? ZHANG N, PU Y, YANG S, et al. An ontological Chinese legal consultation system [J]. IEEE Access, 2017, 5:18250-18261.
[3] ??? CASARI A, ZHENG A. Feature Engineering for Machine Learning[M]. Sebastopol, CA: OReilly Media, 2018:247-251.
[4] ??? LI C L, SU Y C, LIN T W, et al. Combination of feature engineering and ranking models for paperauthor identification in KDD Cup 2013[C]// Proceedings of the 2013 KDD Cup 2013 Workshop. New York: ACM, 2013: Article No. 2.
[5] ??? XU Y, HONG K, TSUJII J, et al. Feature engineering combined with machine learning and rulebased methods for structured information extraction from narrative clinical discharge summaries[J]. Journal of the American Medical Informatics Association, 2012, 19(5): 824-832.
[6] ??? GALGANI F, COMPTON P, HOFFMANN A. LEXA: building knowledge bases for automatic legal citation classification[J]. Expert Systems with Applications, 2015, 42(17): 6391-6407.
[7] ??? SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.
[8] ??? HAMMOUDA K, KAMEL M. Phrasebased document similarity based on an index graph model[C]// Proceedings of the 2002 IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2002: 203-210.
[9] ??? BLEI D M, NG A Y, JORDAN M I, et al. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.
[10] ?? ROITBLAT H L, KERSHAW A, OOT P. Document categorization in legal electronic discovery: computer classification vs. manual review[J]. Journal of the Association for Information Science and Technology, 2010, 61(1): 70-80.
[11] ?? NOORTWIJK K V, NOORTWIJK K C. Automatic document classification in integrated legal content collections[C]// Proceedings of the 16th International Conference on Artificial Intelligence and Law. New York: ACM, 2017: 129-134.
[12] ?? SULEA O, ZAMPIERI M, MALMASI S, et al. Exploring the use of text classification in the legal domain[J/OL]. arXiv Preprint, 2017, 2017: arXiv:1710.09306 [2017-10-25]. https://arxiv.org/abs/1710.09306.
[13] ?? SARIC F, DALBELO B, MOENS M F, et al. Multilabel classification of croatian legal documents using eurovoc thesaurus[EB/OL].[2018-03-20].http://core.ac.uk/download/pdf/34600531.pdf.
[14] ?? BAJWA I S, KARIM F, NAEEM M A, et al. A semisupervised approach for catchphrase classification in legal text documents[J]. Journal of Computers, 2017, 12(5): 451-461.
[15] ?? SILVESTRO L D, SPAMPINATO D, TORRISI A. Automatic classification of legal textual documents using C4.5[EB/OL].[2018-03-20].http://www.ittig.cnr.it/Ricerca/Testi/SpampinatoDi_SilvestroTorrisi2009.pdf.
[16] ?? KUSNER M J, SUN Y, KOLKIN N I, et al. From word embeddings to document distances[C]// Proceedings of the 32nd International Conference on Machine Learning. New York: JMLR.org, 2015: 957-966.
[17] ?? MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J/OL]. arXiv Preprint, 2013, 2013: arXiv:1301.3781 (2013-01-16) [2013-09-07]. https://arxiv.org/abs/1301.3781.
[18] ?? MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. New York: Curran Associates, 2013: 3111-3119.
[19] ?? ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]// Proceedings of the 13th European Conference on Computer Vision. London: Springer, 2014: 818-833.
[20] ?? GOMEZPEREZ A, FERNANDEZLOPEZ M, CORCHO O. Ontological Engineering[M]. London: Springer, 2004:173-182.
[21] ?? SUN J J. Jieba Chinese word segmentation tool[CP/OL]. (2018-01-21) [2018-06-25]. https://github.com/fxsjy/jieba.
[22] ?? LEVENSHTEIN V I. Binary codes capable of correcting deletions, insertions, and reversals[J]. Soviet Physics Doklady, 1966, 10(8): 707-710.