曹奇敏
摘要:將司法裁判文書進(jìn)行上網(wǎng)公布是為了進(jìn)一步地推動(dòng)司法公開,然而,網(wǎng)上公開的裁判文書大部分內(nèi)容以大段文本的形式出現(xiàn),可以分析的外部特征較少。為了滿足法治工作的需要,文章將文本挖掘應(yīng)用于司法裁判文書中,通過提取待分析的字段,實(shí)現(xiàn)對(duì)裁判文書數(shù)據(jù)的復(fù)用和深度挖掘,通過搭建數(shù)據(jù)采集和文本挖掘平臺(tái),實(shí)現(xiàn)基于內(nèi)容的可視化分析,并對(duì)部分應(yīng)用實(shí)例進(jìn)行了介紹。
關(guān)鍵詞:文本挖掘;司法裁判文書;信息抽取;數(shù)據(jù)采集
中圖分類號(hào):TP18 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)13-0014-02
為推進(jìn)司法公開,最高人民法院以上網(wǎng)公布司法裁判文書為抓手,出臺(tái)了相應(yīng)規(guī)定,例如,2010年11月頒布了《關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》;2014年,《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》正式實(shí)施,同時(shí)設(shè)立中國裁判文書網(wǎng),用于公布各級(jí)人民法院的裁判文書。2020年的《最高人民法院工作報(bào)告》,指出截至2020年4月,中國裁判文書網(wǎng)公布文書9195萬份。然而,網(wǎng)絡(luò)上公開的裁判文書,雖然在一些商業(yè)數(shù)據(jù)庫中(比如威科先行·法律信息庫、北大法寶等)也整理出了一些外部特征,比如標(biāo)題、案號(hào)、審理法院、裁判時(shí)間、審理法官等,但是其余的信息仍以大段文本的形式進(jìn)行內(nèi)容組織,比如裁判文書中的原告、被告、律師、律所、標(biāo)的額等信息,都是以自然行文的形式包含在了裁判文書中。對(duì)于法治評(píng)價(jià)工作來說,數(shù)據(jù)庫中提供的這些字段還遠(yuǎn)遠(yuǎn)不夠,只有在數(shù)據(jù)的數(shù)量和種類足夠多的情況下,才能實(shí)現(xiàn)更全面、更深入地挖掘,以揭示事物之間的關(guān)聯(lián)和規(guī)律,提升數(shù)據(jù)對(duì)決策工作的實(shí)際效用。那么如何實(shí)現(xiàn)針對(duì)不同主題領(lǐng)域的個(gè)性化字段定制需求,如何實(shí)現(xiàn)字段之間的關(guān)聯(lián)關(guān)系分析,如何跟蹤某一案件的發(fā)展趨勢(shì)等,成了亟待解決的問題。本文通過將文本挖掘應(yīng)用于司法裁判文書,使這些問題得以解決。
1 文本挖掘相關(guān)技術(shù)
文本挖掘作為數(shù)據(jù)挖掘的一個(gè)分支,主要是指從非結(jié)構(gòu)文本數(shù)據(jù)中提取能夠滿足用戶需求的、有價(jià)值的模式和知識(shí)[1]。在司法裁判文書應(yīng)用到的文本挖掘方法有分類分析、聚類分析、時(shí)序分析、關(guān)聯(lián)分析、信息抽取等。其中信息抽取主要用于前期數(shù)據(jù)處理階段,分類分析、關(guān)聯(lián)分析等主要用于數(shù)據(jù)可視化分析階段。分類分析主要是將未知類別的數(shù)據(jù)歸入指定類別中[2],比如將知識(shí)產(chǎn)權(quán)案件分為專利類、著作權(quán)類、商標(biāo)類等。聚類分析主要是在未知數(shù)據(jù)類別的情況下,將數(shù)據(jù)集聚集成若干子集[3],比如將不同案件中原被告按行業(yè)進(jìn)行聚集分組。關(guān)聯(lián)分析主要用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中有意義的聯(lián)系[4]。比如,分析不同案件中原被告性別、地域、律師、律所之間的關(guān)系,實(shí)現(xiàn)字段間的關(guān)聯(lián)關(guān)系分析。時(shí)序分析主要是預(yù)測(cè)序列未來的發(fā)展情況、分析序列的基本趨勢(shì)[5]。使用時(shí)序分析可以分析某一類案件隨時(shí)間變化的趨勢(shì)。信息抽取主要是將半結(jié)構(gòu)化或非結(jié)構(gòu)化的信息進(jìn)行結(jié)構(gòu)化處理[6]。使用信息抽取技術(shù)可以提取案件要素,比如案件的受理時(shí)間、原被告的身份地域信息、聘用律師情況等,可以針對(duì)不同主題領(lǐng)域的進(jìn)行個(gè)性化定制服務(wù)。
在信息抽取部分,主要使用正則表達(dá)式匹配的技術(shù)手段,正則表達(dá)式匹配是基于規(guī)則的信息抽取方法的核心技術(shù),它的性能是影響信息抽取結(jié)果的決定性因素之一。正則表達(dá)式,又叫規(guī)則表達(dá)式,實(shí)際是一種邏輯公式,用于描述或匹配一系列符合某種規(guī)則的字符串[6]。一條正則表達(dá)式一般被稱作一個(gè)模式,通過一些元字符,也就是一些特殊的符號(hào)規(guī)則,可以方便地對(duì)字符串進(jìn)行搜索、替換、刪除等處理。圖1展示的是一個(gè)正則表達(dá)式匹配的流程圖。實(shí)現(xiàn)正則表達(dá)式匹配的常規(guī)方法是把待匹配的正則表達(dá)式編譯成對(duì)應(yīng)的有限自動(dòng)機(jī),再以自動(dòng)機(jī)為基礎(chǔ)對(duì)正則表達(dá)式進(jìn)行匹配。
2 文本挖掘平臺(tái)
通過搭建裁判文書的文本挖掘平臺(tái),實(shí)現(xiàn)數(shù)據(jù)格式的轉(zhuǎn)化、待分析字段的提取與深度挖掘以及數(shù)據(jù)可視化分析。平臺(tái)的開發(fā)環(huán)境為PyCharm和Visual Studio。通過編寫代碼實(shí)現(xiàn)了數(shù)據(jù)格式從Word、PDF等格式轉(zhuǎn)化為txt文檔,然后從txt文檔中提取待分析的字段。圖2展示的是數(shù)據(jù)格式轉(zhuǎn)化的部分代碼。該平臺(tái)支持對(duì)司法裁判文書的審理時(shí)長、地域、法官、法條引用、律師、律所、標(biāo)的額等字段的抽取和深度挖掘。圖3展示的是信息抽取完成時(shí)的一個(gè)截圖。
對(duì)司法裁判文書數(shù)據(jù)進(jìn)行分析的框架和研究流程如圖4所示。在數(shù)據(jù)處理階段,基于裁判文書的全文數(shù)據(jù),采用自然語言處理和文本挖掘方法,基于正則表達(dá)式的文本匹配功能,對(duì)裁判文書的待分析字段進(jìn)行提取,通過數(shù)據(jù)清洗,包括去重、規(guī)范化等流程,最終對(duì)每一份裁判文書提取到標(biāo)題、案號(hào)、審理法院、案件類型、文書類型、案由、原告、被告、受理時(shí)間、判決時(shí)間、原告地域、被告地域、法定代表人、委托代理人、上訴人、被上訴人、標(biāo)的額、賠償、裁定賠償?shù)?0余字段。在數(shù)據(jù)分析階段,分別從裁判文書量、文書類型、案件量、案件類型、審理程序、審理時(shí)長、地域分布、案由、審判人員、當(dāng)事人、律師、標(biāo)的額等維度展開對(duì)裁判文書總體分析以及專利類案件裁判文書專題分析等。
3 應(yīng)用實(shí)例
目前已經(jīng)開展《抗“疫”專題“哄抬物價(jià)”之與“非法經(jīng)營罪”相關(guān)的司法案例數(shù)據(jù)分析報(bào)告》《抗“疫”專題之與“不可抗力”相關(guān)的司法案例數(shù)據(jù)分析報(bào)告》《北京、上海、廣州知識(shí)產(chǎn)權(quán)法院近五年專利類裁判文書科學(xué)計(jì)量分析報(bào)告》等不同法律領(lǐng)域的裁判文書科學(xué)計(jì)量分析,分析報(bào)告通過會(huì)議、集刊、微信公眾平臺(tái)和其他法制網(wǎng)站發(fā)布,報(bào)告一經(jīng)發(fā)布,獲得學(xué)者、媒體、法律工作者等多方關(guān)注,被轉(zhuǎn)載多次。
4 結(jié)論
通過將文本挖掘技術(shù)應(yīng)用于裁判文書中,提取出需要分析的字段,實(shí)現(xiàn)了對(duì)裁判文書數(shù)據(jù)的復(fù)用和深度挖掘,通過搭建數(shù)據(jù)采集和文本挖掘平臺(tái),實(shí)現(xiàn)基于內(nèi)容的可視化分析,進(jìn)而探究裁判文書背后所涵蓋的法律問題,可以為法學(xué)學(xué)科相關(guān)研究提供數(shù)據(jù)支持,最終實(shí)現(xiàn)進(jìn)一步推動(dòng)法治服務(wù)質(zhì)量的提升。
參考文獻(xiàn):
[1] 朱顥東.文本挖掘中若干核心技術(shù)研究[M].北京:北京理工大學(xué)出版社,2017.
[2] 李尚,張宏莉,葉麟,等.基于深度學(xué)習(xí)的法律文本處理研究進(jìn)展[J].智能計(jì)算機(jī)與應(yīng)用,2021,11(8):83-86,91.
[3] 胡佳宇.數(shù)據(jù)挖掘技術(shù)應(yīng)用與研究[J].信息通信,2020,33(8):128-129.
[4] 黃解軍,潘和平,萬幼川.數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(2):45-48.
[5] 朱東妹.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概念、方法及圖書館應(yīng)用[M].蕪湖:安徽師范大學(xué)出版社,2017.
[6] 黃埔.文本信息抽取優(yōu)化關(guān)鍵技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2019.
【通聯(lián)編輯:唐一東】