国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于結(jié)構(gòu)內(nèi)容特征的裁判文書(shū)自動(dòng)推薦研究

2022-03-07 08:29梁柱沈思葉文豪王東波
情報(bào)學(xué)報(bào) 2022年2期
關(guān)鍵詞:特征詞信息檢索語(yǔ)料

梁柱,沈思,葉文豪,王東波

(1.南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095;2.南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院,南京 210094;3.南京大學(xué)信息管理學(xué)院,南京 210023)

1 引言

互聯(lián)網(wǎng)時(shí)代,信息的快速傳播導(dǎo)致了新聞爆發(fā)式的涌現(xiàn)。與此同時(shí),關(guān)于案件類(lèi)新聞的討論也在微博、微信、知乎等各大社交平臺(tái)上展開(kāi)。雖然新媒體上法律案件類(lèi)新聞層出不窮,但是,這類(lèi)新聞信息缺乏專業(yè)的法律層面的解讀。因此,越來(lái)越多的學(xué)者關(guān)注到了法律領(lǐng)域信息搜尋的研究必要性。

2016年10月1日,《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書(shū)的規(guī)定》正式實(shí)施。截至2020年8月30日,裁判文書(shū)相關(guān)檢索網(wǎng)站就有中國(guó)裁判文書(shū)網(wǎng)、北大法寶網(wǎng)等,各大地方法院均有相應(yīng)的官方網(wǎng)站可進(jìn)行文書(shū)查詢。僅中國(guó)裁判文書(shū)網(wǎng)站,裁判文書(shū)總上傳量就已突破1億篇。自此,這類(lèi)裁判文書(shū)檢索系統(tǒng)為用戶提供了大量法律研究案例,為基本的法律案例檢索提供了數(shù)據(jù)保障。裁判文書(shū)記載人民法院審理的過(guò)程和結(jié)果,它是訴訟活動(dòng)結(jié)果的載體,里面包括了公訴機(jī)關(guān)、被告人、原告人、辯護(hù)人、審判機(jī)構(gòu)、證據(jù)信息、法院判定依據(jù)以及參考的法律條例。在現(xiàn)有的大數(shù)據(jù)背景下,裁判文書(shū)的應(yīng)用前景表現(xiàn)在:規(guī)范性、結(jié)構(gòu)性的裁判文書(shū)能被實(shí)現(xiàn)自動(dòng)化信息處理,其豐富的法律案例信息,能成為用戶潛在的知識(shí)獲取對(duì)象,但也需要法律領(lǐng)域大數(shù)據(jù)挖掘能力研究的提升;裁判文書(shū)的實(shí)用價(jià)值表現(xiàn)在裁判文書(shū)被審核多次,用詞謹(jǐn)慎,語(yǔ)言規(guī)范性好,案件解釋詳細(xì),可以為非專業(yè)用戶提供相關(guān)案件推送的定制化服務(wù)。具體來(lái)說(shuō),用戶根據(jù)特有的案例情況,可以獲取到相關(guān)的裁判文書(shū)文檔。

目前,裁判文書(shū)檢索系統(tǒng)的不足之處主要在于數(shù)據(jù)資源更新緩慢,以及缺乏對(duì)裁判文書(shū)橫向和縱向資源的檢索展示。中國(guó)裁判文書(shū)網(wǎng)提供了基于裁判文書(shū)的結(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)的關(guān)鍵詞檢索,北大法寶等網(wǎng)站對(duì)裁判文書(shū)進(jìn)行如案例焦點(diǎn)、核心術(shù)語(yǔ)等細(xì)粒度知識(shí)元標(biāo)引,并提供對(duì)應(yīng)檢索功能。這類(lèi)裁判文書(shū)檢索系統(tǒng)對(duì)用戶專業(yè)背景知識(shí)要求高,僅能滿足法律研究者和法律實(shí)踐者的檢索需求。針對(duì)這類(lèi)問(wèn)題,本文根據(jù)新聞、事件等事實(shí)性文本內(nèi)容特征,提出一種裁判文書(shū)自動(dòng)推薦技術(shù)。

本文將類(lèi)新聞的事實(shí)性文本作為查詢式,以結(jié)構(gòu)規(guī)范的裁判文書(shū)作為全文語(yǔ)料庫(kù),對(duì)裁判文書(shū)的傳統(tǒng)檢索方法進(jìn)行改進(jìn);利用裁判文書(shū)結(jié)構(gòu)內(nèi)容特征將專業(yè)性的檢索系統(tǒng)一般化,滿足缺乏法律知識(shí)的非專業(yè)用戶的檢索需求;提出“新聞-文書(shū)”自動(dòng)推薦系統(tǒng)框架,該框架可以實(shí)現(xiàn)為類(lèi)新聞的事實(shí)性文本推薦相關(guān)裁判文書(shū)文檔。

2 相關(guān)研究

裁判文書(shū)作為規(guī)范化的文本數(shù)據(jù),具有特定的文本結(jié)構(gòu)。目前傳統(tǒng)的關(guān)鍵詞檢索技術(shù)和傳統(tǒng)分類(lèi)體系受限于裁判文書(shū)的數(shù)據(jù)情況,對(duì)用戶領(lǐng)域知識(shí)要求高,限制了檢索系統(tǒng)的用戶范圍。但是,人工智能等新興的研究技術(shù)已經(jīng)對(duì)法律領(lǐng)域文本數(shù)據(jù)開(kāi)展了研究,法律類(lèi)信息抽取等研究領(lǐng)域已經(jīng)能逐漸滿足信息檢索技術(shù)發(fā)展的需要。在信息檢索領(lǐng)域,特殊領(lǐng)域知識(shí)的信息檢索技術(shù)已經(jīng)有所突破,但缺少面向案件、新聞等一般化數(shù)據(jù)的研究?jī)?nèi)容。

2.1 裁判文書(shū)特點(diǎn)

李振宇[1]總結(jié)了法律文獻(xiàn)特有的規(guī)范化的特征,規(guī)范化不僅反映在法律文書(shū)內(nèi)容的規(guī)范,也反映在法律文書(shū)的程式上,即文書(shū)的特定結(jié)構(gòu)特征。裁判文書(shū)作為法律應(yīng)用文獻(xiàn)中的法律文書(shū)文獻(xiàn),以司法文書(shū)為主,是反映司法活動(dòng)的原始憑據(jù)。

傳統(tǒng)的裁判文書(shū)分類(lèi)體系以法律條文的分類(lèi)體系為主,裁判文書(shū)涉及的量刑范圍、施用的法律條文差異性大,具有特殊性,不利于傳統(tǒng)搜索引擎按罪名分類(lèi)標(biāo)引體系進(jìn)行檢索。但是,此分類(lèi)體系有助于我們按類(lèi)別提取主題詞。提取的主題詞不僅有利于裁判文書(shū)做細(xì)粒度主題標(biāo)引,也有助于我們對(duì)事實(shí)性文本內(nèi)容進(jìn)行表達(dá)。

另外,裁判文書(shū)的結(jié)構(gòu)比較規(guī)范,主要分為原告(公訴機(jī)關(guān))及委托代理人、被告及委托代理人、原(被)告的辯訴、書(shū)面證據(jù)列舉、證人證言列舉、法院意見(jiàn)、引用的法律條文以及法院審判人員信息,數(shù)據(jù)結(jié)構(gòu)形式完整。

原告(公訴機(jī)關(guān))及委托代理人、被告及委托代理人、書(shū)面證據(jù)列舉、法院審判人員、引用的法律條文信息等結(jié)構(gòu)化的數(shù)據(jù)信息,主要適用于關(guān)鍵詞等傳統(tǒng)檢索方法,對(duì)用戶的專業(yè)程度要求高。

原(被)告的辯訴、書(shū)面證據(jù)列舉、證人證言列舉、法院意見(jiàn)等非結(jié)構(gòu)化信息,標(biāo)引程度低,傳統(tǒng)的檢索系統(tǒng)處理方式簡(jiǎn)單,檢索方式單一;但是,語(yǔ)言內(nèi)容邏輯推理強(qiáng),內(nèi)容豐富,目前缺乏更深層次的語(yǔ)義理解技術(shù)。

傳統(tǒng)的全文檢索技術(shù),忽略了裁判文書(shū)中的法院意見(jiàn)等關(guān)鍵結(jié)構(gòu)信息;并且,裁判文書(shū)的這種規(guī)范化特征導(dǎo)致了用戶的信息檢索活動(dòng)中,用戶需要具備特有的專業(yè)法律知識(shí),這種局限限制了檢索系統(tǒng)的使用人群。

2.2 法律信息智能處理技術(shù)發(fā)展

法律文書(shū)在人工智能方向的應(yīng)用已有國(guó)內(nèi)學(xué)者[2]進(jìn)行了詳細(xì)概述,主要在文本信息處理、文本信息檢索以及法律知識(shí)推理方向,甚至為中國(guó)相關(guān)法律的完善提供了依據(jù),包括由人工智能等引起的法律問(wèn)題。國(guó)外學(xué)者[3]總結(jié)了深度學(xué)習(xí)在大規(guī)模法律數(shù)據(jù)集上的使用,分別在文本分類(lèi)、信息抽取以及信息檢索三個(gè)研究方向進(jìn)行了展望。

Giri等[4]認(rèn)為法律文書(shū)用于信息檢索需要構(gòu)建語(yǔ)義網(wǎng)絡(luò),基本任務(wù)包括命名實(shí)體識(shí)別、詞性標(biāo)注、關(guān)系抽取等。張琳等[5]較早地使用了條件隨機(jī)場(chǎng)(conditional random field,CRF)模型,并使用法律領(lǐng)域知識(shí)的相關(guān)詞典對(duì)裁判文書(shū)中的罪名實(shí)體識(shí)別進(jìn)行了研究,為后續(xù)法律知識(shí)推理提供了研究基礎(chǔ)。黃菡等[6]在前人研究基礎(chǔ)上,將主動(dòng)學(xué)習(xí)過(guò)程的思想融入命名實(shí)體識(shí)別當(dāng)中,使用CRF模型分別對(duì)罪名、刑罰、法律原則、法律概念以及法律條文進(jìn)行識(shí)別,實(shí)現(xiàn)了對(duì)法律語(yǔ)料中的法律知識(shí)的自動(dòng)識(shí)別。高丹等[7]結(jié)合深度學(xué)習(xí)的技術(shù),在命名實(shí)體識(shí)別的基礎(chǔ)上,提出了基于裁判文書(shū)的實(shí)體關(guān)系抽取的模型,該模型具有較好的抽取效果和較高的計(jì)算效率。這些工作極大地豐富了裁判文書(shū)的研究工作,為后續(xù)裁判文書(shū)的信息檢索應(yīng)用提供了基礎(chǔ)。Li[8]提取英文法律文本的特征詞,對(duì)法律領(lǐng)域的英文文本進(jìn)行分類(lèi)研究,結(jié)果顯示,TF-IDF(term frequency-inverse document frequency)的 特 征 提 取算法能有效提升文本中法律條文的識(shí)別效果。陸偉等[9]和黃永等[10-12]在規(guī)范性文本上的結(jié)構(gòu)化識(shí)別任務(wù)研究上取得了很好的效果。Zhuang等[13]為了識(shí)別目前純文本的裁判文書(shū)潛在語(yǔ)義結(jié)構(gòu),提出了一種識(shí)別裁判文書(shū)結(jié)構(gòu)的方法,并輸出為XML文件形式,也為自動(dòng)化提取裁判文書(shū)的結(jié)構(gòu)信息奠定了基礎(chǔ)。因此,本文在裁判文書(shū)的結(jié)構(gòu)信息基礎(chǔ)上提出了一種融入裁判文書(shū)的結(jié)構(gòu)內(nèi)容特征的智能推薦算法。

在法律領(lǐng)域的信息檢索研究方向上,趙彥[14]論述了目前網(wǎng)絡(luò)檢索司法裁判文書(shū)的途徑,總結(jié)出目前裁判文書(shū)檢索的不足主要于在數(shù)據(jù)資源更新緩慢,以及缺乏對(duì)裁判文書(shū)橫向和縱向資源的檢索展示;認(rèn)為需要多樣化建立數(shù)據(jù)庫(kù),拓展裁判文書(shū)的智能檢索。黃都培[15-16]利用本體構(gòu)建的方法構(gòu)建了一個(gè)法律主題詞表,并提出了一個(gè)面向案例的法律信息語(yǔ)義檢索模型,為法律領(lǐng)域的知識(shí)管理和信息檢索提供了參考。邢啟迪等[17]設(shè)計(jì)了一個(gè)法律文獻(xiàn)關(guān)聯(lián)模型,實(shí)現(xiàn)了SPARQL檢索,從數(shù)據(jù)資源的層面上進(jìn)行信息組織,實(shí)現(xiàn)了對(duì)細(xì)粒度資源的檢索。Wagh等[18]基于裁判文書(shū)自身的專業(yè)性的特點(diǎn),提出了基于概念的法院判決結(jié)果相似度的方法,該方法融入了法律專業(yè)概念信息,在結(jié)果表現(xiàn)上具有很強(qiáng)的競(jìng)爭(zhēng)力。為了解決傳統(tǒng)信息檢索系統(tǒng)空間和時(shí)間利用的問(wèn)題,Padayachy等[19]利用圖數(shù)據(jù)庫(kù)對(duì)法律文本數(shù)據(jù)進(jìn)行存儲(chǔ),實(shí)驗(yàn)證明該方法有利于提高用戶的信息檢索效率,但是,該數(shù)據(jù)存儲(chǔ)模型僅在少量數(shù)據(jù)上進(jìn)行了驗(yàn)證。同樣地,Kanapala等[20]為了解決檢索法律類(lèi)文本過(guò)程中產(chǎn)生的空間和時(shí)間消耗大的問(wèn)題,提出了一種法律信息自動(dòng)摘要的系統(tǒng),結(jié)果顯示自動(dòng)摘要技術(shù)能有效提升信息檢索的效率。

在傳統(tǒng)信息檢索方法的基礎(chǔ)上,部分學(xué)者已經(jīng)將深度學(xué)習(xí)等方法應(yīng)用到法律領(lǐng)域的信息檢索研究中。Marques等[21]用XGboost的方 法和FastText提 取文本特征,對(duì)法律文獻(xiàn)的法律條文的推薦進(jìn)行了排序改良。陳文哲等[22]認(rèn)為,法律文書(shū)事件存在一個(gè)潛在的時(shí)間序列信息,利用文本中行為序列信息結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)語(yǔ)料進(jìn)行了法律條文預(yù)測(cè)。國(guó)內(nèi)外已有學(xué)者研究法律領(lǐng)域內(nèi)的知識(shí)問(wèn)答系統(tǒng),為用戶所提出的法律糾紛提供參考解決方案[23-24]。目前,比較成熟的法律領(lǐng)域的應(yīng)用方案是阿里實(shí)驗(yàn)室所提供的多任務(wù)下的電子商務(wù)法律人工智能,其利用特有的買(mǎi)賣(mài)雙方的交易相關(guān)數(shù)據(jù),為合同爭(zhēng)議提供自動(dòng)化解決方案[25]。但是,目前法律領(lǐng)域的智能檢索研究數(shù)據(jù)多樣性高,檢索條件苛刻,而本文裁判文書(shū)的自動(dòng)推薦框架檢索條件寬松,類(lèi)新聞的事實(shí)性文本更易于被用戶所接受。

本文所使用的數(shù)據(jù)是事實(shí)性較強(qiáng)的新聞數(shù)據(jù),用于模擬非專業(yè)用戶的查詢需求。新聞數(shù)據(jù)有口語(yǔ)化對(duì)事情經(jīng)過(guò)的描述特征,與非專業(yè)用戶的法律檢索查詢式描述相近。因此,本文將新聞?lì)愇谋竞筒门形臅?shū)等規(guī)范化文本進(jìn)行相似度匹配,擴(kuò)展傳統(tǒng)裁判文書(shū)檢索系統(tǒng)的檢索途徑,實(shí)現(xiàn)依據(jù)事實(shí)性文本智能推薦裁判文書(shū)的功能框架。

3 相關(guān)模型

本文為了將裁判文書(shū)的結(jié)構(gòu)信息和內(nèi)容信息融入裁判文書(shū)信息檢索系統(tǒng)中,利用BM25模型計(jì)算特征詞和文檔相似度,并用事實(shí)性文本中不同特征詞的BM25值作為多維度特征融入相似度算法中,從而獲得事實(shí)性文本和裁判文書(shū)的全局相似度。

BM25模型是一種評(píng)價(jià)搜索詞和文檔之間相關(guān)性的算法,其公式表達(dá)式為

本文利用SvmRank算法和LambdaMART算法對(duì)多維度特征詞的BM25值進(jìn)行擬合,實(shí)現(xiàn)對(duì)新聞?wù)Z料和裁判文書(shū)之間的整體相似度計(jì)算。

Joachims[26]提出了基于SVM(support vector ma‐chine)[27]的排序?qū)W習(xí)算法SvmRank,將排序問(wèn)題轉(zhuǎn)化為一個(gè)二值分類(lèi)問(wèn)題。其基本思想是給定一個(gè)數(shù)據(jù)集{xi,yi},其中yi∈{1,…,R},存在一個(gè)函數(shù)h(x)滿足h(xi)>h(xj)?yi>yj。因此,給定事實(shí)性文本的相關(guān)裁判文書(shū)文檔集{xi,yi},則相關(guān)裁判文書(shū)文檔關(guān)聯(lián)對(duì){xi,yi}及其相關(guān)性標(biāo)注y構(gòu)成訓(xùn)練數(shù)據(jù)ρ={(xi,xj),yi,j},yi,j表示裁判文書(shū)和事實(shí)性文本文檔對(duì)之間的關(guān)系。設(shè)m=|ρ|,則SvmRank的優(yōu)化問(wèn)題可以轉(zhuǎn)化為數(shù)學(xué)形式:

找到一個(gè)線性函數(shù)h(x),使訓(xùn)練語(yǔ)料集有相應(yīng)的一個(gè)順序,即有序回歸。該算法可以融入新聞?wù)Z料特征詞BM25值表示的多維度向量,并有效提升文檔相似度計(jì)算效果,從而計(jì)算新聞?wù)Z料中特征詞和裁判文書(shū)在整體上的相似度。

LambdaMART算法[28-30]目前在信息檢索領(lǐng)域,特別在Yahoo!Learning to Rank挑戰(zhàn)中取得了不錯(cuò)的成績(jī),其算法本質(zhì)可以廣泛應(yīng)用在排序任務(wù)中,包括但不限于廣告推薦、自動(dòng)打分等。LambdaMART算法是由RankNet、LambdaRank等算法改進(jìn)而來(lái)的。RankNet算法[28]基本思想是提供一個(gè)打分函數(shù)si=f(xi),其中xi表示事實(shí)性文本所提取的特征詞向量表示;然后計(jì)算裁判文書(shū)文檔i排在裁判文書(shū)文檔j之前的概率值,其計(jì)算公式是P(Ui?Uj)=其 損 失 函 數(shù)指的是裁判文書(shū)文檔i在裁判文書(shū)文檔j之前的真實(shí)概率,Pi,j是裁判文書(shū)文檔i在裁判文書(shū)文檔j之前的預(yù)測(cè)概率。LambdaRank算法在RankNet算法的基礎(chǔ)上提出了一個(gè)加速優(yōu)化的算法,為在公式中引入信息檢索評(píng)價(jià)指標(biāo)提供了可能。

LambdaMART算法在LambdaRank算法的基礎(chǔ)上采用MART(multiple additive regression tree)方法來(lái)優(yōu)化目標(biāo)函數(shù),基本思想是訓(xùn)練一個(gè)弱模型的集成,組合每一個(gè)弱模型的預(yù)測(cè),成為一個(gè)比單個(gè)模型的預(yù)測(cè)更強(qiáng)大和更準(zhǔn)確的最終模型。

本文依據(jù)不同結(jié)構(gòu)內(nèi)容建立特征詞索引,使用特征詞對(duì)事實(shí)性文本內(nèi)容進(jìn)行表達(dá),將多維度的特征詞信息融入相似度算法中,并對(duì)模型的目標(biāo)函數(shù)進(jìn)行優(yōu)化,從而計(jì)算事實(shí)性文本和裁判文書(shū)的全局相似度,以匹配具有多樣性特征的裁判文書(shū)。

4 基于結(jié)構(gòu)內(nèi)容特征的裁判文書(shū)自動(dòng)推薦框架

4.1 文本特征的選取

文本特征分為兩個(gè)部分:①查詢式的語(yǔ)義表達(dá)。本文使用新聞?lì)愂聦?shí)性文本語(yǔ)料作為非專業(yè)用戶的查詢式。②裁判文書(shū)結(jié)構(gòu)索引的構(gòu)建。本文使用具有明顯結(jié)構(gòu)特征的裁判文書(shū)作為語(yǔ)料庫(kù),構(gòu)建結(jié)構(gòu)索引。

4.1.1 法律文本語(yǔ)料的特征詞

(1)生產(chǎn)見(jiàn)習(xí)示教前30分鐘,示教老師在多媒體等教學(xué)設(shè)備輔助下進(jìn)行課程的講授;2)學(xué)生到病房對(duì)患者進(jìn)行生產(chǎn)實(shí)踐,歷時(shí)30分鐘詢問(wèn)患者病史并對(duì)患者進(jìn)行體格檢查;3)回到教室后用約1小時(shí)由學(xué)生與老師進(jìn)行總結(jié)。

裁判文書(shū)的刑事案件領(lǐng)域具有較強(qiáng)的粗粒度分類(lèi)標(biāo)準(zhǔn),即每個(gè)裁判文書(shū)都被賦予一個(gè)或多個(gè)的刑事罪名,該罪名的標(biāo)簽又可以視為裁判文書(shū)的標(biāo)引詞。因此,裁判文書(shū)的檢索系統(tǒng)多以刑事罪名的分類(lèi)系統(tǒng)作為裁判文書(shū)分類(lèi)檢索,也是目前最常見(jiàn)的檢索手段。

裁判文書(shū)類(lèi)的規(guī)范化文本具有較強(qiáng)的定性表達(dá),如罪名表述、案件定性等。但是,新聞?wù)Z料具有比較強(qiáng)的事件陳述性質(zhì),而裁判文書(shū)僅在庭審過(guò)程等結(jié)構(gòu)中存在事件陳述性質(zhì)的內(nèi)容。因此,本文探究了從這類(lèi)結(jié)構(gòu)內(nèi)容中提取關(guān)鍵詞以增強(qiáng)文本相似度計(jì)算效果的思路。

目前,比較常見(jiàn)的特征詞提取算法有TF-IDF算法、互信息、信息增益等。TF-IDF是一種經(jīng)典的文本關(guān)鍵詞提取算法,主要從特征詞在所有文檔中出現(xiàn)的次數(shù)和特征詞在本文檔出現(xiàn)的次數(shù)兩個(gè)方面出發(fā),計(jì)算特征詞對(duì)于文檔的相對(duì)權(quán)重,主要思想是弱化高頻詞、停用詞對(duì)文獻(xiàn)的影響。信息增益是通過(guò)計(jì)算該特征詞t是否為一篇文章在類(lèi)別c中出現(xiàn)的概率來(lái)得到的。互信息是通過(guò)計(jì)算特征詞t能為類(lèi)別c提供的信息量來(lái)獲得的。

TF-IDF算法能在規(guī)范化文本中忽略掉常用詞,提取與文本主題相似的主題詞,這類(lèi)主題詞能有效描述文本中的主要事件動(dòng)作,增強(qiáng)文本語(yǔ)義相似度計(jì)算效果。因此,本文選取TF-IDF作為特征詞選取算法,從裁判文書(shū)中提取與罪名類(lèi)型相關(guān)性高的特征詞。在此基礎(chǔ)上,用特征詞對(duì)事實(shí)性文本進(jìn)行語(yǔ)義表示,分別計(jì)算特征詞與裁判文書(shū)之間的BM25值,融入SvmRank算法和LambdaMART算法中,從而計(jì)算裁判文書(shū)與事實(shí)性文本之間的整體相似度。

4.1.2 裁判文書(shū)的結(jié)構(gòu)特征

裁判文書(shū)具有相對(duì)清晰的標(biāo)準(zhǔn)結(jié)構(gòu),而每個(gè)結(jié)構(gòu)之間存在著相對(duì)固定的功能,裁判文書(shū)的結(jié)構(gòu)范例如表1所示。

表1 裁判文書(shū)結(jié)構(gòu)信息范例

庭審過(guò)程內(nèi)容記載了辯護(hù)雙方所提供的證據(jù)和供詞,而法院意見(jiàn)部分一般為法院對(duì)事實(shí)部分的認(rèn)定和描述,以及罪刑的審判,這類(lèi)部分基本為半結(jié)構(gòu)化數(shù)據(jù)。其中,原告(公訴機(jī)關(guān))及委托代理人、被告及委托代理人這類(lèi)信息多以結(jié)構(gòu)化形式存儲(chǔ)于數(shù)據(jù)庫(kù)中,庭審過(guò)程和法院意見(jiàn)以非結(jié)構(gòu)化文本數(shù)據(jù)為主。結(jié)構(gòu)化數(shù)據(jù)已廣泛用于目前的信息檢索系統(tǒng)。

從裁判文書(shū)的非結(jié)構(gòu)化數(shù)據(jù)上看,法院意見(jiàn)是法院對(duì)案件事實(shí)認(rèn)定之后的陳述,對(duì)事件發(fā)生有較為明確的定性;而審判過(guò)程多為辯護(hù)雙方的陳述,事件描述性內(nèi)容較多,但是,部分事實(shí)法院不予認(rèn)定。因此,裁判文書(shū)的不同結(jié)構(gòu)內(nèi)容信息會(huì)對(duì)信息檢索系統(tǒng)在計(jì)算文本相似度時(shí)產(chǎn)生影響,主要表現(xiàn)在法院認(rèn)定的事實(shí)與雙方陳述意見(jiàn)存在差異,合理使用這類(lèi)差異有助于擴(kuò)大信息檢索系統(tǒng)的查全率和查準(zhǔn)率。陸偉等[9]、黃永等[10-12]對(duì)學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別開(kāi)展了一系列研究,論述了文獻(xiàn)結(jié)構(gòu)功能對(duì)信息檢索、關(guān)鍵詞提取等研究的積極作用。與此同時(shí),Zhuang等[13]在裁判文書(shū)結(jié)構(gòu)識(shí)別的研究上開(kāi)展了相關(guān)工作。因此,這類(lèi)智能化抽取裁判文書(shū)的結(jié)構(gòu)特征的研究有助于法律信息檢索技術(shù)的改良。

4.2 “新聞-裁判文書(shū)”推薦系統(tǒng)框架

本文的推薦系統(tǒng)框架主要分為:①裁判文書(shū)的結(jié)構(gòu)化索引構(gòu)建;②新聞?wù)Z料文本特征提取。裁判文書(shū)結(jié)構(gòu)索引構(gòu)建,主要目的是實(shí)現(xiàn)裁判文書(shū)文本結(jié)構(gòu)化,并對(duì)裁判文書(shū)不同的結(jié)構(gòu)信息建立索引。新聞?wù)Z料文本特征提取,主要目的是對(duì)新聞?wù)Z料進(jìn)行語(yǔ)義表示,提取特征詞增強(qiáng)長(zhǎng)文本檢索效果。最后,根據(jù)相似度排序算法進(jìn)行迭代學(xué)習(xí),并輸出相關(guān)裁判文書(shū)文檔集。具體框架如圖1所示。

圖1 “新聞-裁判文書(shū)”推薦系統(tǒng)框架

裁判文書(shū)結(jié)構(gòu)索引構(gòu)建,包括對(duì)裁判文書(shū)的文本結(jié)構(gòu)化和倒排索引的建立。本文所使用的裁判文書(shū)是結(jié)構(gòu)信息人工標(biāo)注規(guī)范的裁判文書(shū)文檔集。本文通過(guò)對(duì)裁判文書(shū)不同結(jié)構(gòu)信息的分詞等文本預(yù)處理,形成了具有結(jié)構(gòu)內(nèi)容信息的裁判文書(shū)倒排索引。

新聞?wù)Z料文本特征提取,包括對(duì)新聞?wù)Z料文本的預(yù)處理和特征詞提取。本文通過(guò)對(duì)文本進(jìn)行分詞處理剔除一些無(wú)意義的詞匯和低頻詞,形成相應(yīng)的新聞?wù)Z料文檔的詞集,并用特征詞提取算法形成的特征詞詞典對(duì)新聞?wù)Z料進(jìn)行特征詞語(yǔ)義表示。

本文根據(jù)新聞?wù)Z料的多類(lèi)別特征詞和裁判文書(shū)文檔的BM25值形成多維度語(yǔ)義向量,并使用相應(yīng)的文本相似度算法、LambdaMART算法和SvmRank算法計(jì)算新聞?wù)Z料和裁判文書(shū)的語(yǔ)義相似度。用戶可根據(jù)其算法按相關(guān)度降序排列推薦的裁判文檔,根據(jù)需求對(duì)相關(guān)度高的裁判文書(shū)進(jìn)行參考、獲取知識(shí),包括但不限于律師推薦、法律條文參考、證據(jù)固定等,滿足使用類(lèi)新聞的事實(shí)性文本內(nèi)容獲取相關(guān)法律類(lèi)信息的檢索需求。

5 實(shí)驗(yàn)設(shè)計(jì)與實(shí)施

5.1 實(shí)驗(yàn)語(yǔ)料集的建立

本文所使用的語(yǔ)料集,是以openlaw.cn提供的結(jié)構(gòu)化語(yǔ)料庫(kù)作為法律文書(shū)的全文語(yǔ)料集,用于提供相關(guān)法律文書(shū)的候選集。openlaw.cn提供的語(yǔ)料集不僅包含每個(gè)案例相應(yīng)的案件罪行,也提供了法律文書(shū)的結(jié)構(gòu)信息,方便用戶檢索。本次實(shí)驗(yàn)聚焦于刑事案件的文獻(xiàn),該類(lèi)型的法律文獻(xiàn)資料邏輯比較清晰,相關(guān)新聞多于民事案件,有助于數(shù)據(jù)的采集。其中,刑事案件文獻(xiàn)共7320篇,其裁判文書(shū)案件的類(lèi)型分布特點(diǎn)統(tǒng)計(jì)如表2所示。

表2 刑事案件的犯罪類(lèi)型統(tǒng)計(jì)(前10位)

從表2可以明顯看出,盜竊罪的犯罪類(lèi)型明顯高于其他罪刑;從第8位的搶劫罪開(kāi)始,其他犯罪類(lèi)型的文書(shū)數(shù)量有著明顯下降的趨勢(shì),并且,根據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,裁判文書(shū)涉及的犯罪類(lèi)型共計(jì)175種,可以發(fā)現(xiàn)裁判文書(shū)的罪刑類(lèi)別分布廣,傳統(tǒng)的分類(lèi)檢索體系加大了用戶的信息檢索難度。

另外,本文統(tǒng)計(jì)裁判文書(shū)記載的案件中所涉及的犯罪類(lèi)型數(shù),結(jié)果如表3所示。

從表3可知,法律文書(shū)涉及的罪名數(shù)呈階梯式分布,涉及1個(gè)罪名的文書(shū)數(shù)量占76.67%,涉及2個(gè)罪名的文書(shū)數(shù)量為18.51%,而不少于3個(gè)罪名的文書(shū)數(shù)量為5%左右。由表3可知,裁判文書(shū)案件性質(zhì)以單一罪名為主,但仍有約25%的裁判文書(shū)含有2個(gè)或2個(gè)以上的罪名。因此,裁判文書(shū)涉及的量刑范圍、施用的法律條文差異性大,具有特殊性,不利于傳統(tǒng)搜索引擎按罪名分類(lèi)標(biāo)引體系進(jìn)行標(biāo)引檢索。這項(xiàng)統(tǒng)計(jì)結(jié)果正符合上文所總結(jié)的裁判文書(shū)的內(nèi)容特點(diǎn),也從側(cè)面印證了本項(xiàng)實(shí)驗(yàn)研究的重要性。

表3 法律文書(shū)涉及的罪名數(shù)

本實(shí)驗(yàn)中的新聞?wù)Z料集源于法律新聞網(wǎng)(http://www.chinalawnews.cn/)刑事案件中的150篇新聞。通過(guò)以下步驟進(jìn)行處理:①篩選出經(jīng)法院審理之后的新聞?wù)Z料;②人工根據(jù)新聞內(nèi)容對(duì)語(yǔ)料進(jìn)行“案件類(lèi)型”標(biāo)注;③刪除有判決信息的內(nèi)容,只留下新聞陳述內(nèi)容。最終獲取到有效新聞?wù)Z料75篇,其中15篇作為測(cè)試集,用于評(píng)價(jià)模型效果。

相似度打分使用新聞?wù)Z料的罪刑類(lèi)型和法律文書(shū)的罪刑類(lèi)型進(jìn)行匹配評(píng)價(jià),主要算法為漢明距離,罪刑類(lèi)型越相近,相似度打分越高,即罪刑基本一致。其他語(yǔ)料的相關(guān)度默認(rèn)為不相關(guān)文獻(xiàn),即為0。

5.2 實(shí)驗(yàn)結(jié)果評(píng)價(jià)

5.2.1 實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)

本次測(cè)評(píng)實(shí)驗(yàn)是改進(jìn)檢索系統(tǒng)的檢索效果,使用NDCG(normalized discounted cumulative gain)對(duì)此次實(shí)驗(yàn)進(jìn)行評(píng)價(jià)。NDCG是根據(jù)累計(jì)增益(cu‐mulative gain,CG)、折損累計(jì)增益(discounted cu‐mulative gain,DCG)的評(píng)價(jià)方法逐步改進(jìn)而來(lái)的。

累計(jì)增益方法是指定位置上的相關(guān)性總和,指定位置p的CG計(jì)算公式為

其中,rel表示位置i上的文獻(xiàn)相關(guān)度。

折損累計(jì)增益方法是將檢索結(jié)果的排序信息加入對(duì)檢索結(jié)果的評(píng)價(jià)上,其位置p上的DCG計(jì)算公式為

評(píng)價(jià)指標(biāo)NDCG是比較預(yù)測(cè)出的結(jié)果和理想中的預(yù)測(cè)結(jié)果,對(duì)預(yù)測(cè)出的檢索結(jié)果進(jìn)行歸一化處理。前p個(gè)檢索結(jié)果的評(píng)價(jià)公式為

其中,IDCG表示理想中的檢索結(jié)果,即根據(jù)相關(guān)度大小降序排列相關(guān)文檔。

NDCG能很好地反映模型計(jì)算的相似度和理想相似度之間的差異,NDCG值越大,模型相似度估計(jì)的效果越好。本文將選取NDCG(1)、NDCG(5)來(lái)反映系統(tǒng)最相關(guān)文檔的排序情況,選取NDCG(10)、NDCG(20)來(lái)表示系統(tǒng)返回較多文檔時(shí),相關(guān)文檔的推薦情況,綜合評(píng)判文本匹配模型檢索效果。

本次實(shí)驗(yàn)的評(píng)價(jià)結(jié)果是取測(cè)試集中多個(gè)查詢式的NDCG的平均值作為最終的評(píng)價(jià)指標(biāo)。

5.2.2 實(shí)驗(yàn)結(jié)果比較

本次實(shí)驗(yàn)首先利用BM25算法對(duì)特征改進(jìn)算法的效果進(jìn)行了驗(yàn)證,主要包括將新聞?wù)Z料用詞袋模型表示,以及利用已知的裁判文書(shū)文本提取相關(guān)關(guān)鍵詞對(duì)新聞?wù)Z料進(jìn)行標(biāo)引,根據(jù)標(biāo)引結(jié)果進(jìn)行檢索。實(shí)驗(yàn)結(jié)果如表4所示。

表4 特征詞在BM25算法的表現(xiàn)

如表4所示,不使用特征的實(shí)驗(yàn)結(jié)果比利用TF-IDF提取特征詞之后的文本表達(dá)要差。不使用特征詞的BM25算法,由于新聞?wù)Z料的文本較長(zhǎng),潛在查詢?cè)~過(guò)多,增加了該算法相似度計(jì)算難度;并且文中含有的大量無(wú)意義詞匯,如人名,對(duì)相似度計(jì)算無(wú)促進(jìn)意義,因此,在使用特征詞提取算法后,選取內(nèi)涵豐富的非低頻詞,用于構(gòu)建事實(shí)性文本的查詢式,有利于提高事實(shí)性文本作為檢索式的推薦結(jié)果。在后續(xù)實(shí)驗(yàn)中,我們將使用TF-IDF算法提取文本關(guān)鍵詞,對(duì)文本進(jìn)行標(biāo)引,降低計(jì)算復(fù)雜度和提高模型的推薦效果。

同時(shí),本文也將裁判文書(shū)的文本結(jié)構(gòu)納入文本匹配模型的考慮范疇并設(shè)計(jì)實(shí)驗(yàn),結(jié)果如表5所示。

如表5所示,從不同文本匹配模型的表現(xiàn)結(jié)果來(lái)看,在法院意見(jiàn)部分,BM25模型表現(xiàn)結(jié)果最差,SvmRank模型和LambdaMART模型均有不同程度的提升。在使用審判過(guò)程和全文本結(jié)果結(jié)構(gòu)內(nèi)容特征時(shí),BM25模型的檢索效果僅在NDCG(1)和NDCG(5)的評(píng)測(cè)中高于SvmRank模型,在NDCG(10)和NDCG(20)的評(píng)測(cè)中,SvmRank效果明顯高于BM25。分析其原因,可能是裁判文書(shū)的內(nèi)容增加時(shí),利用關(guān)鍵詞匹配的方法,有利于文檔中詞的相互關(guān)聯(lián),使最相關(guān)文檔排位靠前;SvmRank模型是在全局?jǐn)?shù)據(jù)中找到一個(gè)有序回歸的最佳界限,使相關(guān)性高的文檔盡可能地排在相關(guān)性低的文檔之前,因此,其在NDCG(10)和NDCG(20)的NDCG表現(xiàn)結(jié)果依然好于BM25算法。而LambdaMART模型在不同的文本結(jié)構(gòu)下均優(yōu)于其他檢索模型。

表5 模型結(jié)果在不同結(jié)構(gòu)上的表現(xiàn)

從不同的結(jié)構(gòu)內(nèi)容來(lái)看,以表現(xiàn)較好的Lamb‐daMART模型為例。該模型在NDCG(1)和NDCG(5)的評(píng)測(cè)中表現(xiàn)較好的是僅使用法院意見(jiàn)結(jié)構(gòu)內(nèi)容特征,在NDCG(10)和NDCG(20)的評(píng)測(cè)中,表現(xiàn)較好的是僅使用審判過(guò)程結(jié)構(gòu)內(nèi)容特征,而將兩者綜合時(shí),模型的表現(xiàn)結(jié)果有一定程度的下降。分析其原因,可能是審判過(guò)程的文本中含有大量多角度陳述且事實(shí)不清的內(nèi)容,如雙方意見(jiàn)的陳述,其內(nèi)容一定程度上法院不予承認(rèn),造成了文本相似度計(jì)算的偏差;但是,該內(nèi)容有利于擴(kuò)展?jié)撛谙嚓P(guān)文檔。因此,在僅使用法院意見(jiàn)結(jié)構(gòu)內(nèi)容特征時(shí),Lamb‐daMART模型返回的前幾個(gè)結(jié)果相關(guān)度排序更加相關(guān),而使用審判過(guò)程結(jié)構(gòu)內(nèi)容特征時(shí),該模型能返回更多的相關(guān)文本。而使用全文本的匹配方式時(shí),模型效果趨于平均,不利于計(jì)算事實(shí)性文本和裁判文書(shū)之間的相似度。對(duì)于BM25算法而言,在對(duì)查詢式進(jìn)行特征提取之后,使用審判過(guò)程結(jié)構(gòu)內(nèi)容特征能有效提高查詢效果,可能原因是在使用審判過(guò)程結(jié)構(gòu)內(nèi)容特征之后,BM25算法可以獲得較大的匹配概率。而SvmRank算法在不同的結(jié)構(gòu)內(nèi)容特征下,其表現(xiàn)波動(dòng)情況和LambdaMART模型類(lèi)似,由于其結(jié)果表現(xiàn)太差,不具備對(duì)比條件。

因此,LambdaMART模型利用特征詞提取算法構(gòu)建文檔相關(guān)度矩陣,并使用文本結(jié)構(gòu)特征能有效提高僅使用全文本內(nèi)容的檢索效果,而使用法院意見(jiàn)的文本內(nèi)容和使用審判過(guò)程的文本內(nèi)容各有優(yōu)劣。對(duì)于裁判文書(shū)推薦來(lái)說(shuō),本次實(shí)驗(yàn)使用的是有限的語(yǔ)料數(shù)據(jù)集,在目前裁判文書(shū)網(wǎng)所形成的大量數(shù)據(jù)集的情況下,利用法院意見(jiàn)部分做文本推薦工作會(huì)有較好的結(jié)果。

6 結(jié)語(yǔ)與展望

本文為了解決目前法律類(lèi)搜索引擎在非專業(yè)用戶中的局限性,擴(kuò)大法律類(lèi)信息檢索的用戶范圍,在傳統(tǒng)搜索引擎的法律條文檢索和細(xì)粒度知識(shí)元的檢索之外,提出了一種利用類(lèi)新聞?wù)Z料文本的智能推薦框架,來(lái)解決非專業(yè)用戶在法律領(lǐng)域的信息檢索問(wèn)題。

裁判文書(shū)特有的內(nèi)容特征為非專業(yè)用戶的信息檢索帶來(lái)了困難,但也有助于我們從結(jié)構(gòu)內(nèi)容特征方向上對(duì)相關(guān)文檔進(jìn)行深度標(biāo)引。從裁判文書(shū)的主題特征,即引用的法律條文、法院認(rèn)定的罪型名稱來(lái)看,裁判文書(shū)涉及罪刑廣、牽涉法律條文多且部分裁判文書(shū)涉及多個(gè)罪名的認(rèn)定,傳統(tǒng)的分類(lèi)體系不利于用戶的信息檢索。從裁判文書(shū)的結(jié)構(gòu)內(nèi)容特征來(lái)看,其結(jié)構(gòu)比較明顯,但是在不同的結(jié)構(gòu)內(nèi)容中呈現(xiàn)為不同的數(shù)據(jù)形式。裁判文書(shū)的結(jié)構(gòu)化數(shù)據(jù)已經(jīng)廣泛用于目前的檢索系統(tǒng)當(dāng)中,而對(duì)于部分非結(jié)構(gòu)化數(shù)據(jù),以現(xiàn)有檢索技術(shù)無(wú)法降低用戶的檢索難度。

針對(duì)非專業(yè)用戶的裁判文書(shū)檢索問(wèn)題,本文利用裁判文書(shū)的特征詞和結(jié)構(gòu)內(nèi)容特征,提出了一個(gè)基于結(jié)構(gòu)內(nèi)容特征的裁判文書(shū)自動(dòng)推薦框架,改良了傳統(tǒng)全文檢索模型BM25在使用類(lèi)新聞?wù)Z料的事實(shí)性文本中進(jìn)行檢索的不足。在此基礎(chǔ)之上,本文利用SvmRank算法和LambdaMART算法,融入裁判文書(shū)的結(jié)構(gòu)內(nèi)容信息,提升了依據(jù)類(lèi)新聞?wù)Z料的事實(shí)性文本進(jìn)行信息檢索的效果,從而更好地實(shí)現(xiàn)了非專業(yè)用戶的法律信息檢索需求。

最后,結(jié)合本次實(shí)驗(yàn)研究,裁判文書(shū)未來(lái)可以研究的主要方向包括:

(1)證據(jù)信息和陳述信息的信息抽取研究。本文在進(jìn)行相似度計(jì)算時(shí),由于目前信息抽取技術(shù)的局限性,無(wú)法將證據(jù)信息納入相似度計(jì)算中,這類(lèi)信息有助于幫助用戶尋找關(guān)鍵信息點(diǎn)。

(2)裁判文書(shū)的知識(shí)圖譜構(gòu)建。未來(lái)研究可以重視法院意見(jiàn)和證據(jù)信息、陳述信息的關(guān)系抽取研究,有助于構(gòu)建法律知識(shí)圖譜,從實(shí)體、屬性、關(guān)系三維度提高知識(shí)表示學(xué)習(xí)、知識(shí)獲取、知識(shí)計(jì)算等模型效果,從而實(shí)現(xiàn)法律類(lèi)信息搜索系統(tǒng)的自動(dòng)問(wèn)答。

猜你喜歡
特征詞信息檢索語(yǔ)料
高校圖書(shū)館信息檢索課程教學(xué)改革分析
基于Simhash改進(jìn)的文本去重算法
基于類(lèi)信息的TF-IDF權(quán)重分析與改進(jìn)①
面向低資源神經(jīng)機(jī)器翻譯的回譯方法
一種面向財(cái)務(wù)文本分類(lèi)的TF-IDF改進(jìn)算法
瀕危語(yǔ)言與漢語(yǔ)平行語(yǔ)料庫(kù)動(dòng)態(tài)構(gòu)建技術(shù)研究
計(jì)算機(jī)信息檢索技術(shù)的發(fā)展及問(wèn)題研究
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
公共圖書(shū)館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書(shū)館為例
英語(yǔ)教學(xué)中真實(shí)語(yǔ)料的運(yùn)用
延吉市| 克什克腾旗| 滕州市| 阿鲁科尔沁旗| 桓台县| 新竹县| 淅川县| 康保县| 通山县| 方正县| 资源县| 怀柔区| 湖口县| 独山县| 旬邑县| 互助| 汤原县| 贵州省| 绥化市| 克什克腾旗| 江都市| 三明市| 桓台县| 阜宁县| 卢湾区| 焉耆| 安顺市| 岳阳县| 泊头市| 南漳县| 高碑店市| 塔城市| 华蓥市| 五寨县| 广东省| 体育| 鹤山市| 六枝特区| 鄂托克旗| 临泉县| 永新县|