国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DF-MAP:一種基于概率圖模型的案件判決路徑挖掘算法

2018-09-07 01:23彭敦陸
關(guān)鍵詞:案情法律文書頂點(diǎn)

高 丹,彭敦陸

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093) E-mail:gaodan223@126.com

1 引 言

隨著計(jì)算機(jī)技術(shù)的發(fā)展以及互聯(lián)網(wǎng)技術(shù)的飛速普及,海量法律文書數(shù)據(jù)產(chǎn)生.截至2017年3月22日,中國裁判網(wǎng)的文書總量達(dá)到27,248,664篇.如何有效地利用這些海量文本數(shù)據(jù)產(chǎn)生有價(jià)值的信息,是信息抽取領(lǐng)域要解決的重要任務(wù)之一.

審判事務(wù)中,案由確定是人民法院正確審判案件的基礎(chǔ)和保障,案由的準(zhǔn)確判斷直接關(guān)系到當(dāng)事人法律關(guān)系的認(rèn)定以及適用法律的正確選擇,一直以來備受社會各界關(guān)注.最高人民法院的司法數(shù)據(jù)表明法院新收、審執(zhí)結(jié)案件數(shù)量持續(xù)上升:2015年,全國法院新收各類案件17,659,861件,同比上升22.81%,審執(zhí)結(jié)案件16,713,793件,同比上升21.14%.同時(shí),法院編制人員約34萬,其中法官人員僅僅19.6萬.各項(xiàng)數(shù)據(jù)意味著:

1)全國法院平均每天處理的案件高達(dá)4萬多件;

2)“案多人少”成為各國法院的突出矛盾.以上事實(shí)均為構(gòu)建高效的審判服務(wù)體系,同時(shí)保證立案的準(zhǔn)確性提出了巨大的挑戰(zhàn).

針對上述挑戰(zhàn),自然語言處理作為一門實(shí)現(xiàn)人機(jī)間自然語言通信的學(xué)科,為其提供了實(shí)現(xiàn)的途徑.文獻(xiàn)[1]中提出一種短文本自動分類模型,該模型挖掘已有的語義單元進(jìn)行聚類,在此基礎(chǔ)上結(jié)合CNN的自動學(xué)習(xí)能力對短文本進(jìn)行自動分類;文獻(xiàn)[2]中作者深度剖析Tweet網(wǎng)站的領(lǐng)域特征,基于斯坦福CoreNLP與POS工具,運(yùn)用規(guī)則增強(qiáng)解析能力與語料庫,實(shí)現(xiàn)tweet的關(guān)鍵詞自動抽取.這些研究表明,人工智能與計(jì)算機(jī)技術(shù)的結(jié)合在文本信息自動挖掘方面具有重要的應(yīng)用價(jià)值.受上述研究的啟發(fā),論文試圖通過對海量歷史法律文書進(jìn)行深入分析,提取案情描述關(guān)鍵詞與適用法律中隱藏的規(guī)則集合,并基于Rete算法構(gòu)建Rete-PGM(Probability Graph Model Based on Rete Algorithm).在此基礎(chǔ)上,提出算法DF-MAP(Deep First Max A Posterior)對法律文書進(jìn)行高效的判決路徑挖掘過程.

在提取規(guī)則集合時(shí),本文試圖采用概率圖模型的相關(guān)理論來研究不同關(guān)鍵詞組合與適用法律同時(shí)出現(xiàn)的概率,并準(zhǔn)確描述它們之間的邏輯關(guān)系.概率圖模型是一類用圖模式表達(dá)基于概率相關(guān)關(guān)系的模型總稱,包含概率圖模型表示理論,概率圖模型推理理論和概率圖模型學(xué)習(xí)理論三部分[8].目前,基于概率圖的推理模型主要有4種:貝葉斯網(wǎng)絡(luò)、馬爾科夫網(wǎng)絡(luò)、混合網(wǎng)絡(luò)、動態(tài)貝葉斯網(wǎng).在此基礎(chǔ)上,論文提出了基于Rete算法的概率圖模型—Rete-PGM.Rete-PGM不僅反映了每條適用法律中包含的司法解釋與量刑標(biāo)準(zhǔn),而且還描述了特定案件中隱含的判決路徑的概率分布.利用提出的DF-MAP算法對Rete-PGM進(jìn)行最大可能路徑的挖掘,最終實(shí)現(xiàn)案件判決路徑的挖掘.

文章剩余部分組織如下:第二部分介紹Rete算法的相關(guān)研究工作;第三部分給出問題描述及法律文書數(shù)據(jù)的預(yù)處理過程;第四部分基于Rete算法構(gòu)建概率圖模型Rete-PGM,并對案件判決路徑挖掘算法DF-MAP進(jìn)行詳細(xì)描述;第五部分通過實(shí)驗(yàn)對所提算法進(jìn)行有效性驗(yàn)證;第六部分是論文的結(jié)論.

2 相關(guān)工作

Rete算法與Treat算法是最好的兩個(gè)規(guī)則匹配算法[3],本文引用Rete算法的匹配原則對各項(xiàng)法律法規(guī)的規(guī)則進(jìn)行抽取.1974年,Charles L Forgy在工作論文[4]中首次提及Rete算法,并相繼在1979年的博士論文[5]、1982年發(fā)表的論文[6]中詳細(xì)描述并部署Rete算法.除此之外,F(xiàn)orgy還提出Rete-II,Rete-III,Rete-NT等變種算法對Rete算法進(jìn)行完善,不僅提升了Rete算法的匹配效率,而且被應(yīng)用與各種推理引擎中.

作為針對基于規(guī)則知識表現(xiàn)的高效模式匹配算法之一,Rete算法是對一系列元組數(shù)據(jù)(Facts)匹配規(guī)則集(Rules)的過程描述.Rete算法的匹配過程由表示系統(tǒng)當(dāng)前狀態(tài)的事實(shí)庫(Working Memory,WM)和表示一系列規(guī)則集合的規(guī)則庫(Production Memory,PM)組成.其中,WM中每一個(gè)工作單元被稱為Working Memory Element(WME),由一個(gè)三元組表示:(identfier^attributevalue),表示將要被處理的數(shù)據(jù).例如,w1:(B1^onB2)中的B1為identfier,on為attribute,B2為value.PM的每一條規(guī)則由LHS(Left-Hand Side)與RHS(Right-Hand Side)兩部分構(gòu)成:LHS:使用邏輯符號and或or連接多個(gè)條件(Conditions),表示一條規(guī)則的條件前提;RHS:由一系列動作(Actions)組成,表示一條規(guī)則的結(jié)論部分.

Rete算法的匹配過程就是決定系統(tǒng)中當(dāng)前WM匹配哪一條規(guī)則,以及該WM中哪些WMEs匹配對應(yīng)條件的過程.Rete算法利用一個(gè)由alpha網(wǎng)絡(luò)、beta網(wǎng)絡(luò)構(gòu)成的數(shù)據(jù)流網(wǎng)絡(luò)對該匹配過程進(jìn)行描述.alpha網(wǎng)絡(luò)的功能是利用alphamemories(AMs)存儲符合模板的所有WMEs,并根據(jù)規(guī)則對其進(jìn)行過濾,篩選出符合這條規(guī)則的模式集合.其中,模板(Pattern)表示事實(shí)(Fact)的一個(gè)抽象模型,每一個(gè)WME都必須滿足模板庫中的一個(gè)模板.beta網(wǎng)絡(luò)則由Join Node和Beta Memory組成:Join Node對當(dāng)前兩個(gè)WME進(jìn)行匹配篩選操作,而Beta Memory則對當(dāng)前完成匹配過程并滿足條件的WMEs進(jìn)行存儲.

迄今,眾多學(xué)術(shù)研究都對Rete算法做出了不同程度的描述,并結(jié)合不同的技術(shù)應(yīng)用于不同領(lǐng)域.譬如,在自然語言處理領(lǐng)域中,Rete算法針對特定的詞匯與語料庫產(chǎn)生了一系列監(jiān)督式規(guī)則以提高提取關(guān)鍵詞等任務(wù)的速度[7].本文試圖基于Rete算法,引入概率圖模型的相關(guān)理論來解決案情特征多樣性問題,并完成法律文書的判決路徑挖掘任務(wù).論文中,首先分析并求解案情描述的關(guān)鍵詞與適用法律規(guī)則同時(shí)出現(xiàn)的概率關(guān)系,并使用提出的Rete-PGM來描述這種關(guān)系.然后,針對Rete-PGM圖集合,論文結(jié)合最大后驗(yàn)概率(Max A Posterior,MAP)[9]查詢思想,提出DF-MAP (Deep First Based on Max A Posterior)算法,對案件的判決路徑進(jìn)行挖掘.最后,在真實(shí)的海量法律文書數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),很好的驗(yàn)證了所提算法的有效性.

3 數(shù)據(jù)預(yù)處理

本小節(jié)首先給出案件判決路徑挖掘任務(wù)的問題描述,再介紹法律文書數(shù)據(jù)的預(yù)處理過程,以便后續(xù)章節(jié)的模型計(jì)算.3.1節(jié)對問題進(jìn)行描述,提出Rete-PGM的概念;3.2節(jié)基于Rete算法思想,對現(xiàn)有的各項(xiàng)法律法規(guī)進(jìn)行規(guī)則集合進(jìn)行抽取;3.3節(jié)提取法律文書數(shù)據(jù)中案情描述關(guān)鍵詞及適用法律集合.

3.1 問題描述

事實(shí):在法律條規(guī)中,影響量刑范圍的事實(shí)、行為,被稱為“事實(shí)”,記為f.

動作:法律條規(guī)中的量刑結(jié)果被稱為“動作”,記為a.

例如,交通肇事罪中,“死亡一人以上,負(fù)事故主要責(zé)任的,處三年以下有期徒刑或者拘役”,其中“死亡一人”、“負(fù)同等責(zé)任”為事實(shí),“三年以下有期徒刑”、“拘役”為動作.

定義1.法律規(guī)則是由若干事實(shí)f以及相應(yīng)的動作a構(gòu)成的序列,記為p=[f1,f2,…,fn,a].案件判決路徑挖掘過程被描述為求解最有可能的法律規(guī)則的過程.

通常,法律文書的正文部分包括:案件事實(shí)、證據(jù);立案理由、依據(jù)兩部分.其中,立案理由及依據(jù)必須滿足以下條件:準(zhǔn)確概括犯罪性質(zhì)、認(rèn)定罪名及犯罪情節(jié);準(zhǔn)確引用法律;準(zhǔn)確闡明定罪處罰的傾向意見;程式化寫明起訴決定.案件事實(shí)應(yīng)當(dāng)根據(jù)具體案件情況敘寫,同時(shí),分列相關(guān)證據(jù).立案理由與依據(jù)則需要法官對案情描述進(jìn)行分析,綜合考慮各項(xiàng)相關(guān)法律條文,給出準(zhǔn)確的罪名及依據(jù).通常,盡管海量歷史法律文書的案情描述細(xì)節(jié)存在差異性,但案件判決路徑卻相差無幾.因此,論文通過深入挖掘海量歷史法律文書的正文部分,基于Rete算法,引入概率圖模型,構(gòu)建Rete-PGM.再結(jié)合所提算法DF-MAP,對特定的案件進(jìn)行判決路徑進(jìn)行挖掘.

基于Rete算法抽取的實(shí)體法與程序法中蘊(yùn)涵的規(guī)則集合,構(gòu)成一個(gè)由alpha網(wǎng)絡(luò)與beta網(wǎng)絡(luò)組成的有向圖;同時(shí),從法律文書的案情描述中提取的關(guān)鍵詞直接影響到適用法律規(guī)則的選取,并且存在概率聯(lián)系.這里,用概率圖表示關(guān)鍵詞集合與規(guī)則集合的組合關(guān)系,稱之為Rete-PGM.

Rete-PGM:由網(wǎng)絡(luò)結(jié)構(gòu)G=(WMES,E)與參數(shù)模型P兩部分構(gòu)成.WMES為頂點(diǎn)集,由若干法律規(guī)則的事實(shí)、動作組成;E為有向邊集,表示兩個(gè)頂點(diǎn)之間的概率關(guān)系.P是網(wǎng)絡(luò)結(jié)構(gòu)G的概率分布模型,通過計(jì)算海量歷史法律文書中案情描述關(guān)鍵詞集合中每一個(gè)關(guān)鍵詞分別與每一條規(guī)則中的事實(shí)、動作共同出現(xiàn)的概率關(guān)系解得.

在Rete-PGM中,若兩個(gè)WMEA和B之間存在一條通路,表示A和B是串行組合關(guān)系,遵循順序匹配原則,若不存在,則表示A和B之間是并行組合關(guān)系,不存在數(shù)據(jù)匹配過程.圖2是一個(gè)案件文本的Rete-PGM示例圖.在圖2的網(wǎng)絡(luò)結(jié)構(gòu)G中,“死亡一人”和“重傷三人”為開始頂點(diǎn),也是并行組合關(guān)系,而“死亡一人”、“主要責(zé)任”以及結(jié)束頂點(diǎn)“有期徒刑”之間則是串行組合關(guān)系,所有的節(jié)點(diǎn)組合在一起是混合組合關(guān)系,共同構(gòu)成了一份法律文書的Rete-PGM的網(wǎng)絡(luò)結(jié)構(gòu)G.為了使網(wǎng)絡(luò)結(jié)構(gòu)G能夠更好地刻畫適用法律規(guī)則集合,經(jīng)深入分析海量歷史案件文書發(fā)現(xiàn)Rete-PGM中網(wǎng)絡(luò)結(jié)構(gòu)具有如下的特點(diǎn):

1)頂點(diǎn)互異性:在同一個(gè)Rete-PGM中不會出現(xiàn)兩個(gè)完全相同的事實(shí)、動作.

圖2 Rete-PGM示意圖Fig.2 Example of Rete-PGM

2)若干開始頂點(diǎn)和結(jié)束頂點(diǎn):一個(gè)Rete-PGM的開始點(diǎn)是指入度為0的頂點(diǎn),開始頂點(diǎn)對應(yīng)于規(guī)則集中可以用于首個(gè)匹配的事實(shí)集合,由適用法律包含的量刑標(biāo)準(zhǔn)中變量個(gè)數(shù)決定.結(jié)束頂點(diǎn)是指出度為0的頂點(diǎn),結(jié)束頂點(diǎn)對應(yīng)整個(gè)規(guī)則集中的動作集合,由適用法律中包含的刑罰類別決定.

3)任意開始頂點(diǎn)到結(jié)束頂點(diǎn)之間必連通,即存在通路:一個(gè)Rete-PGM中,開始頂點(diǎn)與結(jié)束頂點(diǎn)之間必然存在一條通路,且這條通路對應(yīng)法律規(guī)則庫中的一條規(guī)則.

3.2 法律規(guī)則提取

結(jié)合全國人民代表大會制定的刑法及全國人民代表大會常委會先后出臺的九個(gè)刑法修正案,至今刑法的罪名種類分為10大類,共468個(gè).在實(shí)體法及程序法中,每條法律均可以被細(xì)分到款、項(xiàng).在此,論文運(yùn)用Rete算法抽取各項(xiàng)條款中的規(guī)則,形成規(guī)則庫,便于獲取單個(gè)案件文檔中適用法律規(guī)則.對468個(gè)罪名的所有相關(guān)法律以及司法解釋、量刑標(biāo)準(zhǔn)進(jìn)行規(guī)則抽取,共獲得8603條規(guī)則,構(gòu)成規(guī)則庫R={r1,r2,…,rn},n為規(guī)則庫中規(guī)則的數(shù)目.以《最高人民法院關(guān)于審理交通肇事刑事案件具體應(yīng)用法律若干問題的解釋》第二條第一款第(一)項(xiàng)的具體內(nèi)容:“死亡一人或者重傷三人以上,負(fù)事故全部或者主要責(zé)任的,處三年以下有期徒刑或者拘役”為例,抽取的規(guī)則使用Rete數(shù)據(jù)流網(wǎng)絡(luò)表示如圖1所示.圖1中,右圖給出上述法律條款的所有模板規(guī)則集合P1、P2,左圖則給出了P1的具體匹配過程.

圖3 法律文書預(yù)處理過程
Fig.3 Preprocess of law case filies

3.3 關(guān)鍵詞與適用法律抽取

利用關(guān)鍵詞提取技術(shù),可以自動地選擇一個(gè)小特征項(xiàng)集對案情細(xì)節(jié)進(jìn)行概括.目前,針對關(guān)鍵詞提取技術(shù)的研究已經(jīng)取得較多的研究成果,如TF-IDF[10],LDA[11],Text-Rank[12],Rake[13].論文應(yīng)用HanLP自然語言處理包對案情描述部分進(jìn)行關(guān)鍵詞抽取,即Text-Rank方法.

算法1(圖3)詳細(xì)描述了法律文書中案情描述關(guān)鍵詞與適用法律集合的抽取過程.第1行建立空集合HK,HL分別用來存儲案情描述關(guān)鍵字、適用法律.2-9行依次遍歷所有文件抽取關(guān)鍵字及適用法律:第3行函數(shù)getDocContext()根據(jù)文件名獲取案件文書的內(nèi)容,并存儲為字符串格式;第4-5行利用HandLP工具抽取案情描述關(guān)鍵字;6-7行運(yùn)用準(zhǔn)確的正則表達(dá)式對適用法律進(jìn)行抽取;第8行將關(guān)鍵字與適用法律分別存入對應(yīng)的HashMap集合中.

4 Rete-PGM與案件判決路徑挖掘算法DF-MAP

第3節(jié)詳細(xì)闡述了法律文書數(shù)據(jù)的預(yù)處理及適用法律規(guī)則庫生成過程,本小節(jié)重點(diǎn)討論案件判決路徑的挖掘過程.首先基于Rete算法、概率圖模型建立Rete-PGM;然后結(jié)合最大后驗(yàn)概率(Max A Posterior,MAP)推理思想,提出算法DF-MAP對案件判決路徑進(jìn)行挖掘.

4.1 Rete-PGM

概率圖模型利用網(wǎng)絡(luò)結(jié)構(gòu)中變量的獨(dú)立性,將高維聯(lián)合概率分布為節(jié)點(diǎn)上低維概率分布的乘積.在此,論文首先分析法律規(guī)則庫,獲取事實(shí)、動作之間的條件概率分布,再結(jié)合案情描述關(guān)鍵詞與使用法律規(guī)則同時(shí)出現(xiàn)的概率,就可以解得Rete-PGM的參數(shù)模型.因此,Rete-PGM的參數(shù)模型包含兩種概率值:頂點(diǎn)WME本身具有的概率值,記為g;邊e∈E的概率值,記為f.

圖4 頂點(diǎn)結(jié)構(gòu)
Fig.3 Structure of node

本文采用鄰接表結(jié)構(gòu)對Rete-PGM進(jìn)行存儲,如圖4所示.data存儲頂點(diǎn);pro表示頂點(diǎn)本身的概率值g;next為指向第一個(gè)鄰接點(diǎn)的指針,默認(rèn)值為null.f為指向該鄰接點(diǎn)的概率值,初始值為0.

圖5 Rete-PGM構(gòu)建過程
Fig.5 Construction of Rete-PGM

圖6 DF-MAP算法
Fig.6 Algorithm of DF-MAP

算法2(圖5)詳細(xì)描述了構(gòu)建一篇法律文書的Rete-PGM過程.算法前兩行完成初始化:第1行通HK,HL過獲取關(guān)鍵字與適用法律集合K,L,第2行初始化Rete-PGM的鄰接表G為空集.第3行利用createReteNetwork()函數(shù)將適用法律轉(zhuǎn)換成Rete網(wǎng)絡(luò)結(jié)構(gòu).4-15行依次遍歷Rete網(wǎng)絡(luò)的模板pattern,構(gòu)建Rete-PGM的網(wǎng)絡(luò)結(jié)構(gòu):第5行completeMathes()進(jìn)行匹配,得到WMEs與Actions列表;第8-13行判斷是否該WME存在于鄰接鏈表中,若不存在則創(chuàng)建頂點(diǎn),并填充數(shù)據(jù)保存到鄰接表中;否則,第13行獲取頂點(diǎn),并指向下一個(gè)WME.最后,16-18行根據(jù)定義5更新Rete-PGM中每條邊的概率.

4.2 DF-MAP算法

結(jié)合前文描述的Rete-PGM 的特點(diǎn),運(yùn)用MAP推理思想,提出適用于Rete-PGM的案件判決路徑挖掘算法—DF-MAP算法.在DF-MAP算法中,案件判決路徑挖掘的基本思想是查找開始頂點(diǎn)到結(jié)束頂點(diǎn)的關(guān)鍵路徑,即尋找一條概率值最大(最有可能)的通路.圖6給出了DF-MAP算法的描述.算法可分為兩部分:尋找Rete-PGM中開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)的所有連通路徑(2-5行)和應(yīng)用MAP概率計(jì)算公式求解概率值最大的路徑(6-11行).

5 實(shí)驗(yàn)與分析

5.1 數(shù)據(jù)采集

實(shí)驗(yàn)在兩個(gè)數(shù)據(jù)集上進(jìn)行:真實(shí)數(shù)據(jù)集和模擬數(shù)據(jù)集.真實(shí)數(shù)據(jù)集是來自中國裁判網(wǎng)的一審刑事法律文書,共計(jì)13,853,580個(gè)文件.模擬數(shù)據(jù)是根據(jù)Rete-PGM特征隨機(jī)產(chǎn)生的10,000個(gè)模擬的Rete-PGM,包含300種概率值最大的路徑模式,為了驗(yàn)證所提算法對復(fù)雜的Rete-PGM查詢也有較好的計(jì)算效果,每個(gè)模擬Rete-PGM中開始頂點(diǎn)數(shù)和結(jié)束頂點(diǎn)數(shù)在4-11之間,中間結(jié)點(diǎn)在30-50之間,而真實(shí)數(shù)據(jù)集中的開始頂點(diǎn)數(shù)和結(jié)束頂點(diǎn)數(shù)一般在3-8個(gè).同時(shí),論文根據(jù)算法1對真實(shí)的法律文書數(shù)據(jù)集進(jìn)行了預(yù)處理,剔除無關(guān)信息,只保留了案情描述與適用法律部分,以便于計(jì)算.

圖7 不同數(shù)據(jù)集規(guī)模下算法的運(yùn)行時(shí)間比較Fig.7 Different algorithms runtime vs.data set

圖8 不同數(shù)據(jù)集規(guī)模下算法的F1-measure值比較Fig.8 F1-measure in different algorithms vs.data set

圖9 不同關(guān)鍵詞數(shù)目下的案件判決路徑的挖掘結(jié)果比較Fig.9 Case decision path mining in DF-MAP vs.key word number

5.2 實(shí)驗(yàn)結(jié)果與分析

第1組:考察DF-MAP算法的計(jì)算性能

實(shí)驗(yàn)1 驗(yàn)證DF-MAP算法的運(yùn)行效率.圖7中顯示了算法VE算法[14]、團(tuán)樹算法[15]和DF-MAP在數(shù)據(jù)集規(guī)模不同的情況下,尋找最大概率值路徑所需要的運(yùn)行時(shí)間.在數(shù)據(jù)集規(guī)模較小的情況下,相對其它兩種算法,算法DF-MAP在較短的時(shí)間內(nèi)找到最優(yōu)路徑.隨著數(shù)據(jù)的增加,每個(gè)算法運(yùn)行時(shí)間的上升趨勢逐漸減緩,這是因?yàn)殡S著數(shù)據(jù)集規(guī)模的增加,概率值最大的路徑模式增長減少,意味著需要的計(jì)算量也明顯減少.

實(shí)驗(yàn)2 驗(yàn)證DF-MAP算法的挖掘結(jié)果的有效性.圖8顯示了三個(gè)算法在數(shù)據(jù)集規(guī)模不同下尋找最大概率值路徑的結(jié)果.文獻(xiàn)[14,15]顯示,VE算法和團(tuán)樹算法能夠求解變量集的最有可能取值,而算法DF-MAP發(fā)現(xiàn)的結(jié)果與它們近乎相同.由此,可以認(rèn)為DF-MAP算法能夠有效地挖掘Rete-PGM中的最有可能的案件判決路徑.

第2組:在真實(shí)數(shù)據(jù)集上實(shí)現(xiàn)案件判決路徑的挖掘

上述兩個(gè)實(shí)驗(yàn)結(jié)果表明,DF-MAP算法在保證挖掘結(jié)果有效性的基礎(chǔ)上,較其它兩個(gè)算法能夠更高效地實(shí)現(xiàn)對最有可能的案件判決路徑挖掘.下面,將所提算法運(yùn)用到真實(shí)的法律文書數(shù)據(jù)集上進(jìn)行案件判決路徑挖掘,并對挖掘結(jié)果進(jìn)行分析.從下述兩個(gè)方面對所提算法DF-MAP進(jìn)行考察:

實(shí)驗(yàn)3考察在相同數(shù)據(jù)集規(guī)模下,案情描述的關(guān)鍵詞個(gè)數(shù)的變化對案件判決路徑挖掘結(jié)果的影響.已知在真實(shí)的法律文書數(shù)據(jù)集中,案情描述關(guān)鍵詞的選取對適用法律的選取具有決定性作用,關(guān)鍵詞數(shù)目太少無法完整而準(zhǔn)確地總結(jié)案情描述的細(xì)節(jié),而關(guān)鍵詞數(shù)目太多則降低算法的效率.實(shí)驗(yàn)中對關(guān)鍵詞數(shù)目在5-11之間取不同的值進(jìn)行測試.圖9中,折線圖和柱狀圖分別顯示了使用不同關(guān)鍵詞數(shù)目對案情進(jìn)行描述的情況下,案件判決路徑挖掘過程的運(yùn)行時(shí)間與挖掘結(jié)果的準(zhǔn)確率、召回率、F1值.柱狀圖的結(jié)果顯示,關(guān)鍵詞數(shù)目從5-7變化時(shí),三個(gè)指標(biāo)值逐漸提升,而當(dāng)其大于8后,三個(gè)指標(biāo)值則趨于平緩,反映了8個(gè)或8個(gè)以上的關(guān)鍵詞對案情描述部分能夠較為充分的對案情進(jìn)行描述.同時(shí)隨著關(guān)鍵詞數(shù)目的增加,算法DF-MAP的運(yùn)行時(shí)間逐漸上升,但上升的趨勢逐漸緩慢.對比圖9,可以發(fā)現(xiàn)選取8個(gè)或8個(gè)以上關(guān)鍵詞時(shí)案件判決路徑挖掘效果較好,既能保證挖掘結(jié)果有較高的準(zhǔn)確率、召回率,又能保證運(yùn)行時(shí)間較低.在實(shí)際應(yīng)用中,可結(jié)合實(shí)際需要來選擇關(guān)鍵詞數(shù)目.

圖10 不同類別法律文書的判決路徑挖掘結(jié)果比較Fig.10 Case decision path mining in different kind of case files

實(shí)驗(yàn)4 考查在相同數(shù)據(jù)集規(guī)模下,算法DF-MAP挖掘不同類別的法律文書數(shù)據(jù)集的結(jié)果分布情況.圖11給出的實(shí)驗(yàn)結(jié)果顯示,所提算法DF-MAP針對10個(gè)類別的法律文書數(shù)據(jù)集的案件判決路徑挖掘效果存在過大或過小的差異.其中,“破壞社會主義市場經(jīng)濟(jì)秩序罪”、“瀆職罪”的三個(gè)評估值都較低,這反映了其成因的復(fù)雜性,導(dǎo)致DF-MAP的挖掘結(jié)果缺乏準(zhǔn)確性.同時(shí),“危害國家安全罪”、“侵犯財(cái)產(chǎn)罪”、“妨害社會管理秩序罪”等類別的法律文書的挖掘結(jié)果的準(zhǔn)確度均接近74%,這反映了這些類別的案件具有明確、清晰的社會構(gòu)成因素.由此可見DF-MAP算法的案件判決路徑挖掘具有良好的效果.

6 總 結(jié)

構(gòu)建高效的案件判決路徑挖掘應(yīng)用不僅能夠?yàn)榉ü偬峁┛蓞⒖嫉姆晌臅矣欣诮鉀Q法院“案多人少”的困境.基于Rete算法的概率圖模型Rete-PGM充分反映了適用法律規(guī)則模式,同時(shí)形象地描述了案情描述關(guān)鍵詞組合與適用法律之間的概率關(guān)系.在此基礎(chǔ)上,提出了案件判決路徑挖掘算法—DF-MAP算法,并將所提算法應(yīng)用于真實(shí)的海量歷史法律文書數(shù)據(jù)集上,最終實(shí)現(xiàn)了對指定案情描述的案件判決路徑挖掘過程.此外,所提圖模型Rete-PGM還可以作為案情描述中關(guān)鍵詞選取的依據(jù).因此,在下一步的工作中,將首先對法律規(guī)則集的自動化抽取方法進(jìn)行研究;再結(jié)合Rete-PGM實(shí)現(xiàn)案情描述關(guān)鍵詞更加準(zhǔn)確地提取過程.

猜你喜歡
案情法律文書頂點(diǎn)
新時(shí)代法律文書課程教學(xué)創(chuàng)新有效策略研究
過非等腰銳角三角形頂點(diǎn)和垂心的圓的性質(zhì)及應(yīng)用(下)
過非等腰銳角三角形頂點(diǎn)和垂心的圓的性質(zhì)及應(yīng)用(上)
破解債務(wù)人“履行難”問題研究——法律文書生效后的提存探析
凌晨“案情”
是誰下的毒
論法律文書的概念修正
突出“四個(gè)環(huán)節(jié)” 規(guī)范文書制作
“兩高”刑事指導(dǎo)性案例的文本分析及改進(jìn)
數(shù)學(xué)問答