高 璐,趙小兵
(1. 中央民族大學(xué) 中國少數(shù)民族語言文學(xué)學(xué)院,北京 100081;2. 邯鄲學(xué)院 軟件學(xué)院,河北 邯鄲 056005;3. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;4. 國家語言資源監(jiān)測(cè)與研究少數(shù)民族語言中心,北京 100081)
事件信息是司法案情的核心,司法事件抽取旨在識(shí)別司法案件中的多維事件要素,輔助司法工作者快速重構(gòu)案件事實(shí)畫像,厘清爭(zhēng)議焦點(diǎn),疏通司法痛點(diǎn)、堵點(diǎn)、難點(diǎn)問題,為類案推送、量刑輔助、偏離預(yù)警、判決結(jié)果預(yù)測(cè)等下游司法任務(wù)提供技術(shù)支持。圖1為某司法文書陳述片段(1)西藏自治區(qū)類烏齊縣人民法院刑事判決書,(2022)藏0323刑初1號(hào),通過撬開、潛入、盜取、揮霍、鑒定、扣押等一連串事件及其要素,重塑盜竊場(chǎng)景,助力法官全過程研討案情,掌握案件脈絡(luò),以便對(duì)犯罪嫌疑人的各種行為及其程度進(jìn)行量化,并根據(jù)現(xiàn)有法律標(biāo)準(zhǔn)對(duì)其進(jìn)行處罰,為司法工作賦能增效。
截至2022年12月17日,中國裁判文書網(wǎng)(2)中國裁判文書網(wǎng),https://wenshu.court.gov.cn公開的文書總量已達(dá)1.37億篇,訪問總量近千億人次,日均新增裁判文書10萬多篇;雙語審判工作進(jìn)一步推進(jìn),蒙古語、藏語、維吾爾語、朝鮮語和哈薩克語等民族語言裁判文書體量呈上升趨勢(shì),滿足了各族群眾多層次、多樣化的司法需求。以西藏為例,部分西藏基層80%左右的案件審理會(huì)用到藏語,涉及案件立案、審判、執(zhí)行、文書制作等環(huán)節(jié)[1]。截至2022年12月,藏文裁判文書累計(jì)公開上網(wǎng) 11 685 篇,涉及刑事、民事、行政、賠償、執(zhí)行等多種案件類型,保障了藏族群眾在訴前、訴中、訴后各個(gè)階段的監(jiān)督權(quán)、知情權(quán)、參與權(quán),最大限度消除了當(dāng)事人的訴訟不便及信息不對(duì)稱,提高了人民群眾的獲得感和滿意度。
借助海量公開的中文裁判文書,Yao Feng[2]等構(gòu)建了一個(gè)大規(guī)模的中文法律事件檢測(cè)數(shù)據(jù)集LEVEN(3)LEVEN, https://github.com/thunlp/LEVEN,包括8 116份法律文件、108個(gè)事件類型、150 977個(gè)人工注釋的事件提及(4)事件提及是指描述一個(gè)事件的短語或句子。中國法律智能技術(shù)評(píng)測(cè)(CAIL2022)(5)CAIL2022, http://cail.cipsc.org.cn/新增事件檢測(cè)賽道,以LEVEN數(shù)據(jù)集為基礎(chǔ),提供基于BERT的深度學(xué)習(xí)模型作為基線,極大促進(jìn)了中文法律事件檢測(cè)技術(shù)的提升。近年來,藏文裁判文書呈現(xiàn)數(shù)據(jù)量豐富、公開率高、案件種類多、實(shí)時(shí)性強(qiáng)等特點(diǎn)。然而,相較于中文,其蘊(yùn)含的大量案由、案件事實(shí)、爭(zhēng)議焦點(diǎn)、法律適用等有價(jià)值的數(shù)據(jù)資源有待充分挖掘,藏文司法事件抽取技術(shù)面臨以下資源挑戰(zhàn)。
數(shù)據(jù)欠缺目前缺乏公開的藏文司法事件數(shù)據(jù)集,無法提供足量的訓(xùn)練信號(hào),建立統(tǒng)一的技術(shù)評(píng)測(cè)更是無從談起,直接限制了深度學(xué)習(xí)等技術(shù)在藏文司法事件抽取方面的探索與優(yōu)化。迫切需要構(gòu)建高質(zhì)量的藏文司法事件數(shù)據(jù)集,并以此為基準(zhǔn),推動(dòng)藏文司法事件抽取技術(shù)的評(píng)測(cè)與發(fā)展。
事件模式不相容ACE2005制定了面向通用領(lǐng)域的事件Schema體系,其定義了8大類33小類的事件類型,DuEE構(gòu)建的事件類型甚至高達(dá)65種。但上述成熟的事件Schema體系無法直接應(yīng)用到藏文司法領(lǐng)域,原因有二: ①覆蓋度低。通用領(lǐng)域預(yù)定義的事件知識(shí)無法覆蓋真實(shí)的藏文司法文本,部分事件類型出現(xiàn)頻次較低甚至從未出現(xiàn)過; ②刻畫粒度粗糙。司法數(shù)據(jù)中的案件要素更加注重司法業(yè)務(wù)相關(guān)的屬性,刻畫的粒度更小、更細(xì)[3]。如“盜竊”事件涉及“盜竊者”“被盜人”“盜竊贓物”“盜竊地點(diǎn)”“盜竊時(shí)間”“盜竊金額”等事件要素,而非通用領(lǐng)域泛指的“人物”“地點(diǎn)”“時(shí)間”等命名實(shí)體信息。需要構(gòu)建契合藏文司法文本的事件模式,滿足藏文司法事件抽取的實(shí)際需要。
鑒于上述問題,本文面向藏文司法領(lǐng)域,以中國裁判文書網(wǎng)公布的藏文裁判文書為研究對(duì)象,通過深入挖掘案件描述信息,探索事件、人員、財(cái)物、外部信息等數(shù)據(jù)要素之間的關(guān)聯(lián)關(guān)系,以半自動(dòng)的方式構(gòu)建了面向司法領(lǐng)域的藏文事件數(shù)據(jù)集TiEvent,以期探尋事件抽取技術(shù)在藏文司法智能領(lǐng)域應(yīng)用的深度和廣度。本文的貢獻(xiàn)主要包括以下三點(diǎn):
(1) 設(shè)計(jì)了“類別分組-主題建?!眱呻A段的契合藏文司法領(lǐng)域的事件模式。受ACE2005、DuEE等事件Schema構(gòu)建理論啟發(fā),借助LDA主題建模技術(shù),制定了藏文司法領(lǐng)域事件Schema體系,以更好地指導(dǎo)藏文司法事件數(shù)據(jù)標(biāo)注工作。
(2) 采用模型驅(qū)動(dòng)的事件觸發(fā)詞預(yù)標(biāo)注與事件要素人工標(biāo)注相結(jié)合的半自動(dòng)化數(shù)據(jù)標(biāo)注方式,構(gòu)建了藏文司法事件數(shù)據(jù)集TiEvent。TiEvent共定義了3個(gè)大類、12個(gè)小類的事件類型,涉及1 863篇藏文刑事裁判文書、2 249個(gè)人工標(biāo)注的事件提及。這可能是目前已知的首個(gè)藏文司法事件數(shù)據(jù)集。
(3) 對(duì)數(shù)據(jù)集進(jìn)行了全面評(píng)估。搭建了BiLSTM、BiLSTM-CRF、CINO-CRF等事件抽取框架,并在該數(shù)據(jù)集上進(jìn)行全要素、多維度質(zhì)量評(píng)估。實(shí)驗(yàn)表明,在藏文司法文本上,TiEvent具有較高的事件覆蓋度和事件要素完整度,能夠滿足藏文司法事件抽取工作的基本需要。
隨著事件抽取技術(shù)從特征工程到神經(jīng)網(wǎng)絡(luò)模型的轉(zhuǎn)變,有關(guān)事件抽取的數(shù)據(jù)集也愈加豐富和多樣化。就領(lǐng)域而言,ACE2005[4]、TAC-KBP[5-7]、MAVEN[8]、DuEE1.0[9]等數(shù)據(jù)集具有良好的事件類型覆蓋度,為通用事件抽取技術(shù)統(tǒng)一評(píng)測(cè)提供了數(shù)據(jù)基準(zhǔn)。然而,通用領(lǐng)域數(shù)據(jù)集包含的事件知識(shí)(事件類型、詞匯形式、句子結(jié)構(gòu)等)與特定領(lǐng)域具有實(shí)質(zhì)性差異,因此很多研究者轉(zhuǎn)而基于特定領(lǐng)域文本構(gòu)建相應(yīng)的數(shù)據(jù)集,如CASIE[10]、CySecED[11]面向網(wǎng)絡(luò)安全領(lǐng)域,DuEE-Fin[12]面向金融領(lǐng)域,CEC(6)https://github.com/shijiebei2009/CEC-Corpus面向突發(fā)事件領(lǐng)域,LEVEN、CLEE[13]面向法律領(lǐng)域等。就語種而言,MAVEN、DuEE1.0、CASIE、LEVEN等均為單語數(shù)據(jù)集,也有研究人員構(gòu)建多語數(shù)據(jù)集,對(duì)多語言事件模型進(jìn)行了全面評(píng)估,如ACE2005、TAC-KBP均包含3種語言(7)ACE2005包括英語、中文、阿拉伯語3種語言;TAC-KBP包含英語、中文、西班牙語3種語言。,TempEval-2[14]包含6種語言(8)6種語言為中文、英語、法語、意大利語、韓語和西班牙語。,MINION[15]包含8種語言(9)8種語言為英語、西班牙語、葡萄牙語、波蘭語、土耳其語、印地語、日語和韓語。等。
“以賽促研”是目前技術(shù)突破的主流渠道,事件抽取技術(shù)近幾十年取得的進(jìn)步與MUC[16]、ACE、TAC-KBP、TDT、TERQAS、BioNLP[17-19]等各個(gè)國際評(píng)測(cè)會(huì)議的推動(dòng)密不可分。語言與智能技術(shù)競(jìng)賽連續(xù)三屆(2019—2021)(10)http://lic2021.ccf.org.cn/涉及事件抽取任務(wù),設(shè)置了豐富的數(shù)據(jù)集合和評(píng)測(cè)維度;CCKS(11)全國知識(shí)圖譜與語義計(jì)算大會(huì)(China Conference on Know ledge Graph and Semantic Computing,CCKS)評(píng)測(cè)同樣開辟了面向醫(yī)療、通信、金融等各個(gè)領(lǐng)域的事件抽取任務(wù)賽道,從準(zhǔn)確性、魯棒性和泛化性等多角度對(duì)中文事件抽取效果進(jìn)行綜合評(píng)價(jià)。司法領(lǐng)域方面,中國法律智能技術(shù)評(píng)測(cè)(Challenge of AI in Law, CAIL)在最高人民法院和中國中文信息學(xué)會(huì)的指導(dǎo)下已順利舉辦五屆,提供大量標(biāo)簽化的法律文本作為數(shù)據(jù)集,先后吸引了來自海內(nèi)外高校和企業(yè)組織的近 5 000支隊(duì)伍參賽,成為中國法律智能技術(shù)評(píng)測(cè)的重要平臺(tái)。CAIL 2022年首次將事件檢測(cè)納入賽道,除此之外,還開辟了司法考試、文書校對(duì)、類案檢索、涉法輿情摘要、論辯理解、信息抽取、可解釋類案匹配等7個(gè)賽道,任務(wù)設(shè)置更貼合現(xiàn)實(shí)世界中的法律環(huán)境痛點(diǎn)。
本文結(jié)合藏文司法數(shù)據(jù)的實(shí)際特點(diǎn),設(shè)計(jì)了“類別分組-主題建?!眱呻A段的事件層級(jí)體系;同時(shí)參照ACE框架,針對(duì)某類事件,對(duì)該事件類型下對(duì)應(yīng)的事件論元進(jìn)行人工約束,最終完成事件及其要素的完整定義。
類別分組對(duì)1 863篇藏文刑事裁判文書(12)數(shù)據(jù)來源參見3.1。進(jìn)行類別分組,經(jīng)統(tǒng)計(jì),文書類別主要圍繞危害公共安全罪、侵犯財(cái)產(chǎn)罪、侵犯公民人身權(quán)利罪、擾亂公共秩序罪等刑事案件展開,其中涉及盜竊罪的文書620篇,占總文書的30%左右(13)盜竊罪屬于侵犯財(cái)產(chǎn)罪之一。。為了確保事件類型在真實(shí)文書中有更多的事件提及,剔除比例較少的擾亂公共秩序等類別,最終確定的事件類別為危害公共安全、侵犯財(cái)產(chǎn)、侵犯公民人身權(quán)利,并對(duì)1 863篇文書分門別類。
主題建模首先對(duì)原始文本完成分詞、停用詞處理等數(shù)據(jù)清洗操作,其中分詞器的選擇,本文在李亞超開源的TIP-LAS[20]基礎(chǔ)上,充分利用第二屆少數(shù)民族語言分詞技術(shù)評(píng)測(cè)提供的2萬句藏文分詞語料[21]進(jìn)行訓(xùn)練,得到了較好的藏文分詞效果。然后利用開源第三方Python工具包Gensim(14)https://pypi.org/project/gensim/提供的LDA模型處理接口,對(duì)三個(gè)類別文書內(nèi)容分別進(jìn)行主題建模,得到各個(gè)類別的主題表示和所屬主題概率。根據(jù)主題建模結(jié)果,對(duì)主題詞進(jìn)行過濾、歸一與抽象。最終確定的事件類型為盜竊、藏匿、詐騙、抓捕、鑒定、倒賣、購買、死亡、醉酒駕駛、故意傷害、交通肇事、搶劫等12個(gè)事件類型。
“類別分組-主題建模”兩階段的事件類型層級(jí)體系構(gòu)建流程如圖2所示。
對(duì)于每個(gè)事件類型,遵循ACE2005框架體系,由法學(xué)院專業(yè)人士人工確定對(duì)應(yīng)的事件論元及論元限定類型。在確保事件要素在真實(shí)文本覆蓋度的同時(shí),維護(hù)事件Schema體系的專業(yè)性。以“盜竊”事件為例,各事件要素限定類型如表1所示。
表1 “盜竊”事件要素及其限定類型
最終的事件類型及其論元如表2所示。
表2 事件類型及論元
數(shù)據(jù)集TiEvent構(gòu)建包含事件Schema制定、數(shù)據(jù)處理、事件核心詞預(yù)標(biāo)注、事件要素人工標(biāo)注四個(gè)階段,構(gòu)建流程見圖3。其中事件Schema制定在第2節(jié)已詳細(xì)闡述,下面重點(diǎn)闡述其余部分。
圖3 TiEvent構(gòu)建流程
本文以中國裁判文書網(wǎng)公開的藏文裁判文書為原始文檔來源。藏文文書欄目共包含刑事、民事、行政、賠償、執(zhí)行等多種案件類型,但沒有分門別類,所有文書糅雜在一起。本文窮盡式爬取藏文全量文書11 685篇(截止2022年12月),由于數(shù)據(jù)量較大,考慮網(wǎng)站響應(yīng)負(fù)載與反爬機(jī)制,數(shù)據(jù)采集策略為:
(1) 將11 685篇全量文書對(duì)應(yīng)的ID、Title、Court、Link、Time等信息爬取并存儲(chǔ)在本地;
(2) 編寫Shell腳本批量下載Link對(duì)應(yīng)的PDF文書,并按照對(duì)應(yīng)ID進(jìn)行命名;
(3) 根據(jù)文書Title篩選出刑事類文書1 863篇。
整個(gè)數(shù)據(jù)采集流程如圖4所示。
由于下載的藏文文書均為PDF文件,不能直接使用,需要進(jìn)行一定的預(yù)處理:
(1)OCR識(shí)別利用西藏大學(xué)的開源系統(tǒng)(15)http://bmfx.utibet.edu.cn/socr.fds進(jìn)行OCR識(shí)別,由于該系統(tǒng)僅支持對(duì)圖片的處理,故首先將所有的PDF文件批量轉(zhuǎn)為JPEG,再進(jìn)行OCR識(shí)別。
(2)人工降噪OCR系統(tǒng)對(duì)藏文字符識(shí)別準(zhǔn)確率較高,但對(duì)于阿拉伯?dāng)?shù)字、部分特殊字符的識(shí)別稍有偏差,因此本文對(duì)系統(tǒng)識(shí)別噪聲較大的文字、數(shù)字、特殊符號(hào)等進(jìn)行人工降噪,并將校準(zhǔn)后的正確內(nèi)容轉(zhuǎn)儲(chǔ)為TXT文本文件,方便后續(xù)標(biāo)注及處理。
(3)關(guān)鍵內(nèi)容摘錄根據(jù)任務(wù)需求,本文將司法文本中的案例描述、被告及證人陳述內(nèi)容摘錄出來,作為我們數(shù)據(jù)集標(biāo)注的初始語料文本。
本文采用開源標(biāo)注平臺(tái)DoTAT(16)https://github.com/FXLP/MarkTool進(jìn)行多人協(xié)同標(biāo)注[22]。標(biāo)注過程遵循MATTER理念[23](圖5),依照“生成數(shù)據(jù)集、模型訓(xùn)練與測(cè)試、問題數(shù)據(jù)分析、更新策略、重新生成數(shù)據(jù)集”的輪次不斷迭代。在迭代的早期,盡量使得基線在數(shù)據(jù)集上正常收斂;在迭代的中期,重點(diǎn)關(guān)注基線在開發(fā)集上的表現(xiàn),留意數(shù)據(jù)泄露問題;在迭代的后期,更多關(guān)注問題數(shù)據(jù)。通過驗(yàn)證可用性,盡早實(shí)現(xiàn)數(shù)據(jù)集迭代閉環(huán)。
數(shù)據(jù)標(biāo)注采用半自動(dòng)化方式進(jìn)行,分為事件核心詞預(yù)標(biāo)注和事件要素人工標(biāo)注兩個(gè)環(huán)節(jié)。事件核心詞預(yù)標(biāo)注即事件觸發(fā)詞的定位,采用基于預(yù)訓(xùn)練模型CINO-CRF驅(qū)動(dòng)的方式自動(dòng)進(jìn)行事件觸發(fā)詞檢測(cè)(圖6),其中CINO層獲得輸入上下文的語義特征,CRF層習(xí)得狀態(tài)序列的關(guān)系,解碼并計(jì)算最優(yōu)的序列標(biāo)注,最終完成事件核心詞預(yù)標(biāo)注。這種自動(dòng)的事件核心詞標(biāo)注方法一方面能夠提升標(biāo)注效率,另一方面將包含相應(yīng)事件的事件句篩選出來,為每個(gè)事件類型生成對(duì)應(yīng)的待標(biāo)注集,降低無效句子干擾。然而,模型預(yù)標(biāo)注的準(zhǔn)確率并不高,對(duì)于模型預(yù)標(biāo)注結(jié)果,需要人工介入進(jìn)行二次審查。
圖6 基于CINO-CRF的事件核心詞預(yù)標(biāo)注
事件要素標(biāo)注即確定事件論元,并為每個(gè)提取的論元分配特定的論元角色,采用人工方式進(jìn)行,標(biāo)注流程如圖7所示。
圖7 事件要素人工標(biāo)注流程
培訓(xùn)我們從法學(xué)院邀請(qǐng)母語人士,包括兩名標(biāo)注人員和1名審核人員,進(jìn)行標(biāo)注指南解讀以及DoTAT標(biāo)注平臺(tái)操作培訓(xùn)。
標(biāo)注每個(gè)文本分別指派給兩名注釋者獨(dú)立標(biāo)注,標(biāo)注者需人工審查上一環(huán)節(jié)模型自動(dòng)標(biāo)注的事件觸發(fā)詞及其對(duì)應(yīng)的事件類型。由于事件類型一旦確定,所有待標(biāo)注的論元角色會(huì)被自動(dòng)確認(rèn),因此,要求標(biāo)注者提取事件論元,并以類似的方式為每個(gè)提取的論元分配特定的論元角色。根據(jù)標(biāo)注指南定義,對(duì)于預(yù)定義的事件類型,其觸發(fā)詞是必須的,但事件論元可缺省。另外,一個(gè)事件論元可以在同一文本中扮演不同的角色,多個(gè)事件論元也可以分配給同一個(gè)論元角色。整個(gè)標(biāo)注過程一旦存疑,隨時(shí)翻閱標(biāo)注平臺(tái)里嵌入的標(biāo)注指南,防止標(biāo)注漂移。
審核根據(jù)標(biāo)注指南,每個(gè)文本被獨(dú)立注釋兩次,兩次的標(biāo)注會(huì)產(chǎn)生結(jié)果完全一致、部分一致、完全不一致三種可能性,審核人員需要對(duì)兩次標(biāo)注結(jié)果進(jìn)行一致性檢驗(yàn)、手動(dòng)合并和調(diào)整,得到黃金標(biāo)注數(shù)據(jù)。
迭代數(shù)據(jù)集構(gòu)建并非一蹴而就,需要進(jìn)行多次迭代。依據(jù)各階段迭代目標(biāo),對(duì)數(shù)據(jù)集的測(cè)試結(jié)果進(jìn)行錯(cuò)誤分析,回溯模式設(shè)計(jì)階段,不斷地更新標(biāo)注策略,校正和豐富數(shù)據(jù)集。
以“醉酒駕駛”事件為例,標(biāo)注樣例如圖8所示。
TiEvent共定義了3個(gè)大類、12個(gè)小類的事件類型,涉及1 863篇藏文刑事文檔、63個(gè)事件要素(此處包含事件觸發(fā)詞,后面同理),和2 249個(gè)人工標(biāo)注的事件提及,平均每個(gè)文本包含事件提及1.2個(gè),是目前已知的首個(gè)藏文司法事件數(shù)據(jù)集。
本文進(jìn)一步分析了事件類型和論元角色的數(shù)據(jù)分布,結(jié)果分別如圖9、圖10所示。部分事件類型由于文書篇數(shù)較少,在Schema規(guī)劃初期就已排除在外,因此,本數(shù)據(jù)集涉及的事件類型分布較為均衡,即使數(shù)量最少的“購買”事件,也包含42個(gè)事件提及。然而,事件論元分布情況較為復(fù)雜: ①各事件類型包含不定數(shù)目的事件論元, 如“鑒定”事件包含3個(gè)事件論元,而“搶劫”類事件則包含多達(dá)7個(gè)事件論元,經(jīng)分析,每個(gè)事件類型平均包含5個(gè)事件論元。②部分論元事件提及偏少,長尾現(xiàn)象嚴(yán)重,如在“搶劫”事件中,每個(gè)文本都會(huì)涉及“搶劫者”“搶劫物品”等事件要素,但“搶劫工具”“搶劫金額”卻不一定存在,事件本身的特性決定了論元的稀疏性。
總體而言,TiEvent面向藏文真實(shí)司法文本,涵蓋12種事件類型和63個(gè)事件要素,標(biāo)注較為全面,一定程度上可以滿足藏文司法事件抽取任務(wù)的需求。
本文按照8∶1∶1將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,采用宏平均的精確率、召回率和F1得分作為實(shí)驗(yàn)的評(píng)估指標(biāo)。
本文選擇了幾種成熟通用的基線模型,從多個(gè)維度對(duì)數(shù)據(jù)集進(jìn)行全面評(píng)估,包括: ①BiLSTM: 利用雙向LSTM作為特征提取器; ②BiLSTM-CRF: 引入CRF,在雙向LSTM建模的輸出端,添加可依賴的約束; ③mBERT: 利用mBERT進(jìn)行上下文語義表征及參數(shù)微調(diào); ④mBERT-CRF: 在mBERT的輸出端,添加CRF進(jìn)行語義約束; ⑤CINO: 利用CINO進(jìn)行特征提取及參數(shù)微調(diào)[24]; ⑥CINO-CRF: 在CINO輸出端,添加CRF進(jìn)行語義約束。
由表3、表4可知,從橫向抽取階段來看,事件觸發(fā)詞檢測(cè)效果(F1最高75.36%)明顯優(yōu)于論元識(shí)別(F1最高70.98%)。產(chǎn)生這種結(jié)果的原因可能是: 事件觸發(fā)詞是必須的,每一個(gè)事件提及至少伴隨著一個(gè)事件的產(chǎn)生(即觸發(fā)詞的出現(xiàn)),觸發(fā)詞分布均衡且覆蓋度大;而事件論元的分布差異明顯,部分論元數(shù)量少,如論元“傷害部位”僅涉及16個(gè)事件提及,無法提供足量穩(wěn)定的訓(xùn)練特征,影響了論元識(shí)別整體效果,這也從側(cè)面論證了數(shù)據(jù)集數(shù)據(jù)分布(4.2節(jié))情況。因此,對(duì)于部分稀疏論元,需要進(jìn)行數(shù)據(jù)增廣,改善事件論元分布現(xiàn)狀,優(yōu)化論元識(shí)別效果。
表3 觸發(fā)詞檢測(cè) (單位: %)
表4 論元識(shí)別 (單位: %)
從縱向模型結(jié)構(gòu)來看,無論在事件觸發(fā)詞檢測(cè)階段還是論元識(shí)別階段,CRF結(jié)構(gòu)對(duì)抽取效果都有一定提升。此外,通過BiLSTM-CRF、mBERT-CRF、CINO-CRF三個(gè)模型對(duì)比可知,由于數(shù)據(jù)集規(guī)模有限,提供的訓(xùn)練特征不足,BiLSTM沒能獲取有效的訓(xùn)練信號(hào),F1_AVG(17)F1_AVG為Trigger Detection和Argument Recognition的F1平均值。僅40.25%;mBERT雖為多語言預(yù)訓(xùn)練模型,但其訓(xùn)練語料不包含藏語,提供的多語言語義信息雖有價(jià)值,但優(yōu)勢(shì)并不明顯;CINO 是HFL發(fā)布的首個(gè)面向少數(shù)民族語言的多語言預(yù)訓(xùn)練模型,提供了藏語、蒙古語、維吾爾語、哈薩克語、朝鮮語、壯語、粵語等少數(shù)民族語言與漢語方言的理解能力,彌補(bǔ)了低資源語言數(shù)據(jù)規(guī)模帶來的語義限制,提升了藏文事件抽取技術(shù)的效果,其F1_AVG高達(dá)73.17%。不可否認(rèn)的是,目前藏文司法事件數(shù)據(jù)集的質(zhì)量和規(guī)模與高資源語言相比仍有很大差距,需要進(jìn)一步迭代完善。
我們對(duì)表現(xiàn)最佳的CINO-CRF模型的測(cè)試結(jié)果進(jìn)行了錯(cuò)誤分析與總結(jié),方便后期數(shù)據(jù)優(yōu)化迭代。通過分析發(fā)現(xiàn),錯(cuò)誤主要集中在論元角色重疊和論元跨句兩種類型,具體分析如下:
表5 錯(cuò)誤分析
本文面向藏文司法領(lǐng)域,對(duì)1 863篇藏文刑事裁判文書進(jìn)行爬取、整理、降噪、分析、標(biāo)注,制定了契合藏文司法實(shí)際的事件Schema體系,構(gòu)建了首個(gè)開源的藏文司法事件數(shù)據(jù)集TiEvent。該數(shù)據(jù)集標(biāo)注了12種事件類型和63個(gè)事件要素,涵蓋1 863個(gè)藏文真實(shí)司法文本的2 249個(gè)事件提及。與此同時(shí),本文評(píng)估了幾種成熟基線模型在TiEvent上的測(cè)試結(jié)果并進(jìn)行了誤差分析。實(shí)驗(yàn)結(jié)果表明,該數(shù)據(jù)集標(biāo)注較為全面,能夠?yàn)椴匚乃痉ㄊ录槿〖夹g(shù)的統(tǒng)一評(píng)測(cè)提供基準(zhǔn),為藏文司法領(lǐng)域的下游任務(wù)提供基礎(chǔ)。相對(duì)于中英文等高資源語言,其規(guī)模和質(zhì)量需進(jìn)一步優(yōu)化迭代。