文本解析技術(shù)及其在法律實(shí)踐中的應(yīng)用*

2019-05-06 07:54:06邱昭繼

中國(guó)法律評(píng)論 2019年2期

邱昭繼

內(nèi)容提要：文本解析技術(shù)的突破與IBM的“沃森”和“辯論者”程序的研發(fā)團(tuán)隊(duì)的努力密不可分?！拔稚被谖谋镜男畔⑻崛〖夹g(shù)展現(xiàn)了不同凡響的問(wèn)答本領(lǐng)，“辯論者”已經(jīng)學(xué)會(huì)了論證挖掘。深度問(wèn)答、信息提取和論證挖掘這些技術(shù)用更一般性的術(shù)語(yǔ)講就是文本解析。人工智能與法律研究者和技術(shù)專家將文本解析與法律推理和法律論證的計(jì)算模型整合在一起，創(chuàng)建了一些新的法律應(yīng)用程序。這些法律應(yīng)用程序不僅僅是將法律人的處理過(guò)程計(jì)算機(jī)化和標(biāo)準(zhǔn)流程化，更是創(chuàng)造性地處理了一些法律人過(guò)去無(wú)法完成的任務(wù)。文本解析技術(shù)的迅速發(fā)展將深刻地改變法律實(shí)踐、法律職業(yè)、法律教育和法學(xué)研究。

引言

2011年2月，由戴維·費(fèi)魯奇（David Ferrucci）領(lǐng)導(dǎo)的IBM研發(fā)團(tuán)隊(duì)開(kāi)發(fā)的認(rèn)知計(jì)算系統(tǒng)“沃森”（Watson）參加了美國(guó)著名智力問(wèn)答競(jìng)賽電視節(jié)目“危險(xiǎn)邊緣！”（Jeopardy?。Ｔ摴?jié)目以一種獨(dú)特的問(wèn)答形式進(jìn)行：它以答案形式提供各種線索，參賽者以問(wèn)題的形式做出簡(jiǎn)短回答。問(wèn)題設(shè)置非常廣泛，參賽者需具備歷史、文學(xué)、藝術(shù)、流行文化、科技、地理、政治、體育等多方面知識(shí)，還需要理解隱語(yǔ)、反諷等表述方式?！拔稚痹诠?jié)目中表現(xiàn)神勇，一舉擊敗了連勝紀(jì)錄保持者肯·詹寧斯（Ken Jennings）和最高獎(jiǎng)金得主布拉德·魯特爾（Brad Rutter）。這是IBM歷史上繼“深藍(lán)”計(jì)算機(jī)于1997年打敗國(guó)際象棋衛(wèi)冕世界冠軍加里·卡斯帕羅夫（Gary Kasparov）后，又一次成功地挑戰(zhàn)人類?！拔稚痹诠?jié)目中能夠回答微妙、復(fù)雜、語(yǔ)義雙關(guān)的問(wèn)題，這開(kāi)啟了認(rèn)知計(jì)算的新紀(jì)元，也標(biāo)志著人工智能寒冬的終結(jié)。1Dr. John E. Kelly III：《認(rèn)知計(jì)算和我們的未來(lái)——人類和機(jī)器如何鍛造認(rèn)知新時(shí)代》，載 IBM商業(yè)價(jià)值研究院：《認(rèn)知計(jì)算與人工智能》，東方出版社2016年版，第7頁(yè)。2014年春季，IBM研究院總監(jiān)約翰·凱利三世在米爾肯研究所年度會(huì)議上演示了“辯論者”（Debater）程序?！稗q論者”是IBM公司研發(fā)出來(lái)的新的人工智能項(xiàng)目，它使用“沃森”程序的一些文本處理技術(shù)來(lái)執(zhí)行論證挖掘。

文本解析技術(shù)的突破與IBM的“沃森”和“辯論者”程序的研發(fā)團(tuán)隊(duì)的努力密不可分?！拔稚被谖谋镜男畔⑻崛〖夹g(shù)展現(xiàn)了不同凡響的問(wèn)答本領(lǐng)，“辯論者”已經(jīng)學(xué)會(huì)了論證挖掘。深度問(wèn)答、信息提取和論證挖掘這些技術(shù)用更一般性的術(shù)語(yǔ)講就是文本解析。“文本解析也稱為文本挖掘，是從文本數(shù)據(jù)中獲得高質(zhì)量和可操作信息和見(jiàn)解所遵循的方法和過(guò)程。這涉及使用自然語(yǔ)言處理、信息檢索和機(jī)器學(xué)習(xí)從語(yǔ)法上把非結(jié)構(gòu)化文本數(shù)據(jù)解析成更結(jié)構(gòu)化的形式，并從這些數(shù)據(jù)中提取出對(duì)終端用戶有幫助的模式和洞見(jiàn)?！?［印度］迪潘簡(jiǎn)·撒卡爾：《Python文本分析》，閆龍川、高德荃、李君婷譯，機(jī)械工業(yè)出版社2018年版，第35頁(yè)。該書(shū)的譯者將“text analytics”翻譯成“文本分析”，我將這個(gè)概念翻譯成“文本解析”。當(dāng)被解析的文本是法律時(shí)，人們將其稱之為法律文本解析。3Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 5.法律文本解析（legal text analytics）又稱之為法律文本挖掘（legal text mining），是指“使用語(yǔ)言的統(tǒng)計(jì)的和機(jī)器學(xué)習(xí)的技術(shù)自動(dòng)發(fā)現(xiàn)法律文本數(shù)據(jù)檔案中的知識(shí)”。4Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 397.法律文本解析簡(jiǎn)稱為法律解析。深度問(wèn)答、信息提取和論證挖掘成為了法律文本解析的核心技術(shù)。

“沃森”和“辯論者”程序雖然不會(huì)進(jìn)行法律推理和法律論證，但它們?yōu)榉赏评砗驼撟C的計(jì)算模型提供了文本解析技術(shù)。兩位有遠(yuǎn)見(jiàn)的作者呼吁法律界認(rèn)真對(duì)待“沃森”技術(shù)對(duì)未來(lái)法律實(shí)踐的影響。他們指出，“沃森”是應(yīng)用于法律的最重要的技術(shù)，“沃森”改變了人們對(duì)于法律知識(shí)結(jié)構(gòu)的理解，降低了法律成本，促進(jìn)了法律信息和數(shù)據(jù)的組織管理，給年輕律師提供了更多的出人頭地的機(jī)會(huì)，給法律教學(xué)帶來(lái)了全新的挑戰(zhàn)，讓法學(xué)與工程學(xué)科的交叉融合提供了可能性，等等。5Paul Lippe and Daniel Martin Katz, "10 predictions about how IBM's Watson will impact the legal profession", October 2, 2014, 載http://www.abajournal.com/legalrebels/article/10_predictions_about_how_ibms_watson_will_impact，2018年10月8日訪問(wèn)。法律文本解析是人工智能時(shí)代廣泛應(yīng)用于法律實(shí)踐的一項(xiàng)新技術(shù)。本文試圖對(duì)法律文本解析及其在法律實(shí)踐中的應(yīng)用問(wèn)題做一番初步的探討。本文將逐一闡述深度問(wèn)答、信息提取和論證挖掘技術(shù)及其在法律實(shí)踐中的應(yīng)用情況。

*本文是國(guó)家社會(huì)科學(xué)基金項(xiàng)目“司法裁判過(guò)程中的人工智能應(yīng)用研究”（項(xiàng)目編輯18BFX008）階段性成果。

**邱昭繼，西北政法大學(xué)教授，法學(xué)理論教研室主任。

一、深度問(wèn)答技術(shù)及其在法律中的應(yīng)用

深度問(wèn)答技術(shù)是IBM“沃森”的核心技術(shù)?！拔稚笔腔谧匀徽Z(yǔ)言處理、機(jī)器學(xué)習(xí)和高級(jí)數(shù)據(jù)解析的高級(jí)問(wèn)答系統(tǒng)。2011年2月，在美國(guó)電視節(jié)目“危險(xiǎn)邊緣！”游戲中，“沃森”“在回答問(wèn)題時(shí)能夠搜索其巨大的資料庫(kù)，并判斷預(yù)估答案的可信度，當(dāng)對(duì)答案有充分把握時(shí)，搶先于人類按動(dòng)了搶答器”，6［美］約翰·E. 凱利、史蒂夫·哈姆：《機(jī)器智能》，馬雋譯，中信出版社2016年版，第3—4頁(yè)。從而一戰(zhàn)成名。

（一）IBM沃森的深度問(wèn)答

為了在“危險(xiǎn)邊緣！”游戲中獲勝，IBM組建了一支由二十多位科學(xué)家組成的核心研發(fā)團(tuán)隊(duì)，這些科學(xué)家是自然語(yǔ)言處理、信息檢索、知識(shí)表示、自動(dòng)推理、機(jī)器學(xué)習(xí)和高性能計(jì)算等領(lǐng)域的頂尖專家。他們經(jīng)過(guò)五年多時(shí)間的研究和開(kāi)發(fā)，實(shí)現(xiàn)了技術(shù)的突破?！拔稚笔亲鳛橐粋€(gè)問(wèn)答計(jì)算系統(tǒng)創(chuàng)建的。研發(fā)者為“沃森”創(chuàng)造了一種叫做深度問(wèn)答的學(xué)習(xí)能力系統(tǒng)。深度問(wèn)答技術(shù)包括問(wèn)題解析和分類、問(wèn)題分解、自動(dòng)源獲取與評(píng)價(jià)、實(shí)體和關(guān)系檢測(cè)、邏輯形式生成、知識(shí)表達(dá)和推斷等內(nèi)容?！拔稚睂C(jī)器學(xué)習(xí)提升到了一個(gè)新高度。對(duì)于每一個(gè)問(wèn)題，“沃森”學(xué)習(xí)如何從數(shù)據(jù)庫(kù)的數(shù)百萬(wàn)個(gè)文本中提取問(wèn)題的候選答案，學(xué)習(xí)使其能夠識(shí)別該類問(wèn)題的答案的各種證據(jù)，學(xué)習(xí)與文本相連的各種證據(jù)的可信度。研發(fā)者“訓(xùn)練沃森識(shí)別各類信息，如名人、地點(diǎn)和關(guān)系，同時(shí)也解析語(yǔ)言。之后，他們又設(shè)計(jì)了一套統(tǒng)計(jì)方法，用來(lái)學(xué)習(xí)不同語(yǔ)境中詞語(yǔ)的使用情況。這種技術(shù)組合使“沃森”從數(shù)據(jù)中學(xué)習(xí)，而不是僅僅按照指示工作。從某種意義上說(shuō)，“沃森”將學(xué)習(xí)人類的學(xué)習(xí)方式，接觸大量的事情并從中得出推論并習(xí)得經(jīng)驗(yàn)”。7同上注，第36—37頁(yè)。深度問(wèn)答架構(gòu)將自動(dòng)問(wèn)答問(wèn)題視為大規(guī)模平行假設(shè)生成和評(píng)價(jià)任務(wù)。深度問(wèn)答的結(jié)果不僅僅是提問(wèn)與回答，而且是一個(gè)執(zhí)行不同診斷的系統(tǒng)。這個(gè)系統(tǒng)基于各種數(shù)據(jù)收集、分析和評(píng)估每個(gè)結(jié)果的置信水平。通過(guò)問(wèn)題、主題、案例或一組相關(guān)問(wèn)題，深度問(wèn)答在輸入語(yǔ)言中找到重要的概念及其關(guān)系，構(gòu)建用戶信息需求的表示，然后通過(guò)搜索生成許多可能的回應(yīng)。對(duì)于每個(gè)可能的回應(yīng)，它產(chǎn)生獨(dú)立和競(jìng)爭(zhēng)的線索，這些線索從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中收集、評(píng)估和組合不同類型的證據(jù)。它可以提供排序的回應(yīng)列表，每個(gè)回應(yīng)都與證據(jù)配置文件相關(guān)聯(lián)，該證據(jù)配置文件描述了深度問(wèn)答內(nèi)部算法是如何對(duì)支持證據(jù)進(jìn)行加權(quán)的。8參見(jiàn)IBM“沃森”研究團(tuán)隊(duì)關(guān)于深度問(wèn)答架構(gòu)的描述，載https://researcher.watson.ibm.com/researcher/view_group_subpage.php?id=2159，2018年10月3日訪問(wèn)。深度問(wèn)答軟件架構(gòu)是根據(jù)非結(jié)構(gòu)化信息管理架構(gòu)（Unstructured Information Management Architecture，UIMA）標(biāo)準(zhǔn)建立的。UIMA是一個(gè)用于問(wèn)答系統(tǒng)的開(kāi)源阿帕奇（Apache）框架，在這個(gè)架構(gòu)中文本注釋器被組織到文本處理管道，將語(yǔ)義分配給文本區(qū)域。

通過(guò)自然語(yǔ)言處理和各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源組合，“沃森”擁有理解復(fù)雜上下文的能力。它可以“讀”文本、“看”圖像、“聽(tīng)”自然語(yǔ)言，它解讀那些信息，提取信息并對(duì)信息進(jìn)行標(biāo)記和注釋，同時(shí)伴有推論和推理過(guò)程，提供候選答案并對(duì)它們成為一個(gè)正確答案的可能性進(jìn)行評(píng)估和排名。其實(shí)，“沃森”并不真正“知道”答案?！拔稚币矔?huì)犯錯(cuò)。在第一天的比賽將結(jié)束時(shí)，“危險(xiǎn)邊緣！”游戲的終局節(jié)目是“美國(guó)城市，分值400美元”。答案是“它最大的機(jī)場(chǎng)以第二次世界大戰(zhàn)的英雄命名；它第二大的機(jī)場(chǎng)以第二次世界大戰(zhàn)的一場(chǎng)戰(zhàn)役命名。”沃森給出的答案是“多倫多是什么？？？？？”，正確的答案是“芝加哥是什么？”芝加哥的第一大機(jī)場(chǎng)是以“二戰(zhàn)”英雄海軍王牌少校指揮官愛(ài)德華·亨利·布奇·奧黑爾（Edward Henry “Butch” O’ Hare）的名字命名的，第二大機(jī)場(chǎng)中途機(jī)場(chǎng)（Midway Airport）是以“二戰(zhàn)”著名的太平洋海戰(zhàn)命名的。稍有常識(shí)的人都知道多倫多是加拿大城市，不是美國(guó)城市?！拔稚崩Щ笥谶@個(gè)問(wèn)題的原因有很多，在美國(guó)確實(shí)有一些叫多倫多的城市，比如伊利諾伊州的多倫多、印第安納州的多倫多，并且加拿大的多倫多藍(lán)鳥(niǎo)隊(duì)的確參加美國(guó)棒球聯(lián)盟的比賽。結(jié)果，“沃森”的置信水平非常低，只有14%，正如5個(gè)問(wèn)號(hào)所示，它對(duì)答案沒(méi)有信心。然而，“沃森”能夠從錯(cuò)誤中學(xué)習(xí)，通過(guò)大規(guī)模機(jī)器學(xué)習(xí)，“沃森”能從訓(xùn)練和運(yùn)用中不斷改善。9參見(jiàn)Dr. John E. Kelly III：《認(rèn)知計(jì)算和我們的未來(lái)——人類和機(jī)器如何鍛造認(rèn)知新時(shí)代》，載 IBM商業(yè)價(jià)值研究院：《認(rèn)知計(jì)算與人工智能》，東方出版社2016年版，第9—10頁(yè)。

圖1 IBM“沃森”深度問(wèn)答架構(gòu)

（二）深度問(wèn)答技術(shù)在法律中的應(yīng)用

“沃森”和“辯論者”程序雖然不會(huì)進(jìn)行法律推理和法律論證，但它們?yōu)榉赏评砗驼撟C的計(jì)算模型提供了文本解析技術(shù)。IBM試圖將“沃森”的深度問(wèn)答技術(shù)應(yīng)用于法律領(lǐng)域。“沃森”的基本任務(wù)是回答問(wèn)題。法律問(wèn)答可以讓法律知識(shí)更容易獲得。IBM的總法律顧問(wèn)羅伯特·韋伯（Robert Weber）指出，深度問(wèn)答技術(shù)能在幾毫秒內(nèi)解析數(shù)億頁(yè)內(nèi)容并挖掘它們以獲取事實(shí)和結(jié)論。雖然深度問(wèn)答技術(shù)不會(huì)取代律師，但它讓律師如虎添翼。這項(xiàng)技術(shù)將在兩個(gè)方面派上用場(chǎng)：收集事實(shí)和建構(gòu)法律論證時(shí)識(shí)別觀點(diǎn)。這項(xiàng)技術(shù)甚至可以在法庭上近乎實(shí)時(shí)地發(fā)揮作用。如果證人說(shuō)某些似乎不可信的內(nèi)容，律師現(xiàn)場(chǎng)就能檢查其準(zhǔn)確性。10參見(jiàn)Robert C. Weber, "Why 'Watson' matters to lawyers", The National Law Journal, Feb. 18, 2011, https://www.law.com/nation allawjournal/almID/1202481662966/，2018年8月25日訪問(wèn)。

阿什利想象了一個(gè)“法律危險(xiǎn)邊緣！”游戲。主持人透露類別是“體育法”。答案是“美國(guó)棒球聯(lián)盟球隊(duì)在經(jīng)濟(jì)罷工期間不能合法雇用替補(bǔ)球員”。“沃森”搶答道：“多倫多藍(lán)鳥(niǎo)隊(duì)是什么？”主持人宣布：“答案正確！多倫多藍(lán)鳥(niǎo)隊(duì)在經(jīng)濟(jì)罷工期間不能雇傭替補(bǔ)工人?！薄拔稚被卮疬@個(gè)問(wèn)題的方式不同于法律人。法律人首先想到的是美國(guó)棒球聯(lián)盟球隊(duì)所在國(guó)家和州的勞動(dòng)法規(guī)定，看看這些法律規(guī)定是否禁止球隊(duì)在經(jīng)濟(jì)罷工期間雇用替補(bǔ)球員。然而，“沃森”不知道多倫多的位置或所屬國(guó)家也能正確地回答問(wèn)題?！拔稚笔且蕾囌Z(yǔ)料庫(kù)中的信息提取答案。根據(jù)1995年《福德姆國(guó)際法期刊》發(fā)表的《多倫多藍(lán)鳥(niǎo)隊(duì)的替補(bǔ)球員？——在加拿大安大略省替補(bǔ)工人法與美國(guó)替補(bǔ)工人法之間取得恰當(dāng)?shù)钠胶狻芬晃?，美?guó)的國(guó)家勞動(dòng)關(guān)系法案允許美國(guó)的棒球隊(duì)在球員罷工期間雇用替補(bǔ)球員，而多倫多藍(lán)鳥(niǎo)隊(duì)受加拿大安大略省勞動(dòng)法的約束，根據(jù)安大略省的勞動(dòng)關(guān)系法案，多倫多藍(lán)鳥(niǎo)隊(duì)在球員罷工期間不能雇傭替補(bǔ)球員。11Jordan Lippner, "Replacement players for the Toronto Blue Jays? Striking the appropriate balance between replacement worker law in Ontario, Canada, and the United States", Fordham International Law Journal, 1995 (38), pp.2026-2029.只要“沃森”的語(yǔ)料庫(kù)中包含這篇文章，稍加訓(xùn)練的“沃森”就可以學(xué)會(huì)將其識(shí)別為與此類問(wèn)題相關(guān)的信息，從中提取相關(guān)答案，并評(píng)估其對(duì)答案正確性的置信水平。“沃森”很可能無(wú)法解釋它所提取的答案。解釋答案需要人們理解與法律選擇和法律主題相關(guān)的規(guī)則和概念，而“沃森”不掌握這些知識(shí)也不可能使用這些知識(shí)。經(jīng)過(guò)適當(dāng)訓(xùn)練的“沃森”可以學(xué)習(xí)識(shí)別相關(guān)問(wèn)答對(duì)的證據(jù)類型，包括語(yǔ)義線索，如“合法雇用”“替代工人”“經(jīng)濟(jì)罷工”等概念和關(guān)系。在評(píng)估答案的置信水平時(shí)，“沃森”能夠?qū)W習(xí)根據(jù)這些證據(jù)給予答案多大的權(quán)重。12參見(jiàn)Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017,pp. 17-18。

“沃森”的深度問(wèn)答技術(shù)被廣泛應(yīng)用于法律市場(chǎng)。法律問(wèn)答讓法律知識(shí)的獲取變得更容易?！胺缮显训馈保↙egal OnRamp）是一個(gè)使用IBM“沃森”解析合同的應(yīng)用程序。公司的合同信息推動(dòng)了大多數(shù)業(yè)務(wù)運(yùn)營(yíng)：收入確認(rèn)、薪酬、服務(wù)和產(chǎn)品交付、風(fēng)險(xiǎn)評(píng)估、大量研發(fā)和知識(shí)產(chǎn)權(quán)資產(chǎn)創(chuàng)造。當(dāng)重大的公司活動(dòng)或交易發(fā)生時(shí)，公司都會(huì)聘請(qǐng)法律顧問(wèn)審查合同。公司法律顧問(wèn)希望能夠輕松回答以下問(wèn)題：哪些合同包括特定約定？哪些合同包括諸如對(duì)間接損失的免責(zé)聲明？包含在合同正文而不是附錄中的特定類型的約定針對(duì)的是哪些合同？使用普通的信息檢索工具無(wú)法輕松可靠地回答此類問(wèn)題?！胺缮显训馈睂⒑贤峁┙oIBM“沃森”和其他機(jī)器學(xué)習(xí)工具，以自動(dòng)回答法律問(wèn)題并加快人工審查流程。由于“法律上匝道”直接與公司合作，因此它可以獲得比任何律師事務(wù)所更多的合同。在回答問(wèn)題時(shí)，“沃森”分解問(wèn)題，從合同文本語(yǔ)料庫(kù)中搜索候選答案，并根據(jù)每個(gè)候選答案解決問(wèn)題的信心對(duì)候選答案進(jìn)行排序。13Ibid., p. 27。

加拿大多倫多大學(xué)的學(xué)生團(tuán)隊(duì)創(chuàng)建的“羅斯”（Ross）是運(yùn)用深度問(wèn)答技術(shù)研發(fā)出來(lái)的法律應(yīng)用程序，被稱為法律領(lǐng)域的“沃森”?！傲_斯”于2015年1月參加了IBM的“沃森”挑戰(zhàn)競(jìng)賽并獲得了第二名的好成績(jī)。“羅斯”利用“沃森”提供的自然語(yǔ)言和認(rèn)知計(jì)算平臺(tái)的優(yōu)勢(shì)，以開(kāi)發(fā)者云為基礎(chǔ)向客戶提供法律問(wèn)答服務(wù)。他們給“羅斯”取了一個(gè)有趣的綽號(hào)——“遇見(jiàn)超級(jí)聰明的律師羅斯”?！傲_斯”幾乎模仿人類閱讀過(guò)程，識(shí)別文本中的模式，并提供有關(guān)文檔片段的語(yǔ)境化答案?！傲_斯”接受以簡(jiǎn)明英語(yǔ)提出的問(wèn)題，并根據(jù)制定法、判例法和其他法律淵源提供答案。比如，你問(wèn)“羅斯”：“破產(chǎn)公司還能開(kāi)展業(yè)務(wù)嗎？”“羅斯”就會(huì)提供了一個(gè)帶有引文的答案，并向你提供一些與該主題相關(guān)的讀物?！傲_斯”的演示視頻列出了該程序可以處理的示例問(wèn)題，包括：（1）加拿大公司需要保留哪些公司記錄？（2）加拿大公司的董事可以加入一類股票的國(guó)家資本賬戶嗎？（3）員工可以開(kāi)展競(jìng)爭(zhēng)業(yè)務(wù)嗎？（4）如果員工沒(méi)有達(dá)到銷售目標(biāo)并且無(wú)法完成他們的工作要領(lǐng)，他們可以在不事先通知的情況下被解聘嗎？14Brian Jackson, "Meet Ross, the Watson-Powered 'Super Intelligent' Attorney". https://www.itbusiness.ca/news/meetross-the-watson-powered-super-intelligent-attorney/53376,2018年9月12日訪問(wèn)。在回答最后一個(gè)問(wèn)題時(shí)，“羅斯”屏幕引用了加拿大的雷吉娜訴阿瑟斯案（Regina v.Arthurs，1967）以及該案的摘錄和文本?！傲_斯”對(duì)這個(gè)答案給出的置信水平為94%?！傲_斯”總結(jié)道：如果一名員工犯了嚴(yán)重的不當(dāng)行為，習(xí)慣性疏忽職守，無(wú)能，或與其職責(zé)不符，或者對(duì)雇主的業(yè)務(wù)造成損害，或者如果他有在實(shí)質(zhì)上對(duì)雇主的命令故意不服從，法律承認(rèn)雇主有權(quán)立即解雇不盡責(zé)的雇員?！傲_斯”建議額外閱讀關(guān)于“正當(dāng)理由終止”的制定法、判例法、法律備忘錄和其他淵源中的讀物?！傲_斯”具有從用戶反饋中學(xué)習(xí)的能力。例如，“羅斯”在雷吉娜訴阿瑟斯案這個(gè)答案后跟著一個(gè)詢問(wèn)，如果答案是準(zhǔn)確的，請(qǐng)用戶按豎起的大拇指，如果答案是不準(zhǔn)確的，請(qǐng)用戶按朝下的大拇指。15Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, pp. 351-352.反饋旨在告知“羅斯”這個(gè)答案的準(zhǔn)確率，這也為“羅斯”更新答案提供信息。

“羅斯”具有四個(gè)方面的優(yōu)勢(shì)：（1）設(shè)計(jì)高度直觀，易于使用，羅斯可以無(wú)縫地引入律師的工作流程；（2）通過(guò)尖端的人工智能技術(shù)，律師能夠更智能、更快速、更流暢地工作；（3）通過(guò)大幅減少研究和流程準(zhǔn)備所需的勞動(dòng)時(shí)間來(lái)提高效率；（4）通過(guò)加快工作流程和提高效率，人們能夠?qū)r(shí)間和金錢花在高價(jià)值的咨詢?nèi)蝿?wù)和復(fù)雜的法律事務(wù)上，從而提高盈利能力。16https://rossintelligence.com/，2018年9月15日訪問(wèn)。北美律師事務(wù)所按小時(shí)收費(fèi)，平均每小時(shí)收取400美元的勞務(wù)報(bào)酬。由于北美律師收費(fèi)高昂，許多法律文書(shū)工作外包給了印度等其他國(guó)家，這些國(guó)家的勞動(dòng)力成本低，他們的律師收費(fèi)低、服務(wù)質(zhì)量也有保證?！傲_斯”問(wèn)世后法律行業(yè)將發(fā)生巨大的變化。律師事務(wù)所可以將許多工作交給“羅斯”去完成?！傲_斯”大大地降低了法律服務(wù)的成本，也極大地提高了律師的效率、準(zhǔn)確率和盈利能力。根據(jù)“羅斯”官網(wǎng)的統(tǒng)計(jì)，“羅斯”相比基于“布爾”的搜索節(jié)省了30.3%的時(shí)間，相比基于自然語(yǔ)言的搜索節(jié)省了22.3%的時(shí)間，讓每位律師增加了13,067美元的年收入。17同上注。

二、從法律文本中自動(dòng)提取信息

人工智能長(zhǎng)期以來(lái)尋求從文本中識(shí)別和提取語(yǔ)義要素，如概念及其關(guān)系。計(jì)算機(jī)程序從法律文本中提取語(yǔ)義信息，并用它幫助人類解決法律問(wèn)題。“信息提取是計(jì)算機(jī)從人類語(yǔ)言書(shū)寫(xiě)的文檔中提取可識(shí)別的信息的行為?！?8［美］Douglas Downing,Michael Covington, Melody Covington, Catherine Anne Barrett, Sharon Covington編：《巴朗行業(yè)詞典—計(jì)算機(jī)與網(wǎng)絡(luò)》，清華大學(xué)出版社2015年版，“信息提取”詞條。典型的信息提取系統(tǒng)的內(nèi)部工作過(guò)程主要包括五個(gè)步驟：（1）用一組信息模式描述感興趣的信息；（2）對(duì)文本進(jìn)行“適度的”詞法、句法及語(yǔ)義分析，并作各種文本標(biāo)引；（3）使用模式匹配方法識(shí)別指定的信息；（4）進(jìn)行上下文關(guān)聯(lián)、指代、引用等分析和推理，確定信息的最終形式；（5）輸出結(jié)果，例如生成一個(gè)關(guān)系數(shù)據(jù)庫(kù)或給出自然語(yǔ)句陳述等。19參見(jiàn)孫斌：《信息提取技術(shù)概述》（上），載《術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù)》2002年第3期。信息提取是從非結(jié)構(gòu)化的機(jī)器可讀文檔中自動(dòng)提取結(jié)構(gòu)化信息的任務(wù)。自動(dòng)提取信息是法律文本解析技術(shù)的一個(gè)重要特征。在法律專家系統(tǒng)中，專業(yè)知識(shí)體現(xiàn)在人類專家用于解決此類問(wèn)題的規(guī)則中，這些規(guī)則通常由工程師在知識(shí)獲取過(guò)程中手動(dòng)構(gòu)建。而在認(rèn)知計(jì)算中，知識(shí)體現(xiàn)在文本語(yǔ)料庫(kù)中，計(jì)算機(jī)程序從中提取候選解決方案或解決方案元素，并根據(jù)它們與問(wèn)題的相關(guān)性對(duì)解決方案進(jìn)行排序。計(jì)算機(jī)程序用于評(píng)估相關(guān)性的知識(shí)主要不是手動(dòng)獲取，而是通過(guò)使用機(jī)器學(xué)習(xí)從特定領(lǐng)域的數(shù)據(jù)集中提取模式而自動(dòng)獲取。20參見(jiàn)Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 13。從法律文本中自動(dòng)提取信息的技術(shù)包括：幫助法律信息檢索系統(tǒng)考慮意義，將機(jī)器學(xué)習(xí)應(yīng)用于法律文本以及從法律法規(guī)和法律判決中自動(dòng)提取語(yǔ)義信息等方面。21參見(jiàn)Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, pp. 31-32。

（一）用機(jī)器學(xué)習(xí)從案例語(yǔ)料庫(kù)中提取信息

機(jī)器學(xué)習(xí)是一種自動(dòng)化分析模型構(gòu)建的數(shù)據(jù)分析方法，它是人工智能的一個(gè)分支。機(jī)器學(xué)習(xí)算法可以從數(shù)據(jù)中學(xué)習(xí)、識(shí)別文本特征模式、總結(jié)模型中的模式并做出決策。根據(jù)學(xué)習(xí)方式的不同，機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。機(jī)器學(xué)習(xí)為從法律文本中提取信息提供了關(guān)鍵的技術(shù)支持。將機(jī)器學(xué)習(xí)應(yīng)用于法律文本分為兩個(gè)步驟。第一步是收集和處理原始數(shù)據(jù)，即自然語(yǔ)言法律文本的語(yǔ)料庫(kù)。第二步是使用一些語(yǔ)言處理來(lái)轉(zhuǎn)換原始文本數(shù)據(jù)，以標(biāo)記、規(guī)范和注釋文本，然后法律文檔被表示為特征向量。法律文本中機(jī)器學(xué)習(xí)的目標(biāo)是對(duì)文檔進(jìn)行分類或進(jìn)行預(yù)測(cè)。在涉及法律案件的機(jī)器學(xué)習(xí)語(yǔ)境中，目標(biāo)可能是通過(guò)句子在法律意見(jiàn)中發(fā)揮的功能對(duì)句子進(jìn)行分類，例如，分為“法律決定或法律裁決”的句子或“基于證據(jù)的發(fā)現(xiàn)”的句子。在成文法條款的機(jī)器學(xué)習(xí)語(yǔ)境中，目標(biāo)可能是按行政法、私法、環(huán)境法或刑法等主題對(duì)條款進(jìn)行分類。22Ibid., pp. 236-237。

圖2 先前案例檢索系統(tǒng)的處理模塊

“萬(wàn)律歷史項(xiàng)目”（Westlaw History Project）是用機(jī)器學(xué)習(xí)從法律案件語(yǔ)料庫(kù)中提取有用信息的典型系統(tǒng)。該系統(tǒng)“從法院意見(jiàn)中提取信息，并用這些信息建議新案件應(yīng)當(dāng)鏈接的先前案例”。23Peter Jackson, Khalid Al-Kofahi, Alex Tyrrell, and Arun Vachher,"Information extraction from case law and retrieval of prior cases", 150Artificial Intelligence 1-2 (2003), p. 240.先前案例檢索識(shí)別當(dāng)前案件中的歷史語(yǔ)言影響的案例。所有案例都應(yīng)以上訴鏈接（appellate chains）的形式與法律援引集數(shù)據(jù)庫(kù)連接在一起?！皻v史項(xiàng)目”系統(tǒng)把來(lái)自文本語(yǔ)料庫(kù)的信息提取、基于提取的信息的候選案例的信息檢索以及基于機(jī)器學(xué)習(xí)的關(guān)于候選案例的判斷結(jié)合在一起。如圖2所示，先前案例檢索系統(tǒng)的處理模塊包括三個(gè)主要的組件：信息提取、信息檢索和做出決定。信息提取組件處理法院意見(jiàn)及其首部，提取當(dāng)事人姓名、法院、日期、案卷號(hào)和歷史語(yǔ)言；信息檢索組件生成查詢，并把它們提交到法律援引數(shù)據(jù)集以檢索先前案例的候選案例；決定做出組件采用機(jī)器學(xué)習(xí)算法決定哪個(gè)候選案例是當(dāng)前案件的真正先例。24Ibid., pp.274-276.

標(biāo)題匹配可以有效地減少候選先例的數(shù)量，并幫助候選先例的排序。但標(biāo)題信息不足以確保好的結(jié)果。特征提取和表示模塊從法院意見(jiàn)、案卷號(hào)、法院和歷史語(yǔ)言中提取額外的信息。為了最佳地表示每個(gè)案例以達(dá)到機(jī)器學(xué)習(xí)的目的，每個(gè)候選案例用八個(gè)特征表示為特征向量。八個(gè)特征包括：（1）標(biāo)題相似性特征，衡量當(dāng)前案件的標(biāo)題與候選先例標(biāo)題的相似性；（2）歷史語(yǔ)言特征，這是一個(gè)二進(jìn)制標(biāo)志，如果自然語(yǔ)言組件直接從當(dāng)前案件報(bào)告中提取歷史語(yǔ)言，則該特征賦值為“1”；（3）案卷號(hào)匹配特征，這是一個(gè)二進(jìn)制特征，當(dāng)且僅當(dāng)當(dāng)前案件和候選先例被分配了相同的案卷號(hào)，則該特征賦值為“1”；（4）檢查上訴特征，根據(jù)在法院層級(jí)中法院之間的關(guān)系估計(jì)一個(gè)法院成為當(dāng)前法院的先前法院的概率；（5）先前案例的概率特征，估計(jì)當(dāng)前案件實(shí)際上具有一個(gè)先前案例的概率；（6）引用案例特征，這是一個(gè)二進(jìn)制標(biāo)志，當(dāng)且僅當(dāng)檢索的先前候選案例在當(dāng)前案件中被引時(shí)，這個(gè)特征賦值為“1”；（7）標(biāo)題權(quán)重特征，估計(jì)當(dāng)前案件標(biāo)題中包含的信息；（8）AP1搜索特征，這是一個(gè)二進(jìn)制標(biāo)志，當(dāng)且僅當(dāng)先前案例的候選案例通過(guò)一個(gè)查詢檢索到并且這個(gè)查詢是從當(dāng)前案件的“上訴行”生成時(shí)，該特征賦值為“1”。25Ibid., pp.282-283.歷史項(xiàng)目團(tuán)隊(duì)為了完成任務(wù)，采用監(jiān)督學(xué)習(xí)并使用支持向量機(jī)作為機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)算法可以根據(jù)文本中的證據(jù)區(qū)分事實(shí)和法律討論，并學(xué)會(huì)識(shí)別和區(qū)分法律案件段落的事實(shí)和討論。

（二）從法律法規(guī)文本中自動(dòng)提取信息

法律是指引和協(xié)調(diào)人的行為的社會(huì)規(guī)范。從普通公民到政府官員和法律職業(yè)人士都需要理解法律法規(guī)文本，了解法律規(guī)范的要求并按法律的要求行為。人工智能與法律研究長(zhǎng)期以來(lái)致力于從電子化的法律法規(guī)文本中自動(dòng)提取有關(guān)規(guī)范要求的信息。從法律法規(guī)文本中提取的信息可以用于自動(dòng)法律推理和法律論證。自動(dòng)提取信息技術(shù)可以通過(guò)各種方式支持認(rèn)知計(jì)算。

從法律法規(guī)中提取的信息主要包括如下類型：（1）法律規(guī)范的功能類型，如禁止性法律規(guī)范、命令性法律規(guī)范和授權(quán)性法律規(guī)范；（2）與功能相關(guān)的特征，一些法律規(guī)范的功能類型將更具體的信息作為要素或參數(shù)，如義務(wù)或責(zé)任的承擔(dān)者和受益人；（3）法律規(guī)范的邏輯構(gòu)成，法律規(guī)范在邏輯上由“前提條件”、“行為模式”和“法律后果”三部分構(gòu)成；（4）法律規(guī)范所屬的部門法類型，如刑法、民法、行政法、環(huán)境法或勞動(dòng)與社會(huì)保障法；（5）出現(xiàn)在法律詞庫(kù)或本體中的規(guī)章概念，如“歐盟合同”、“少數(shù)群體保護(hù)”和“漁業(yè)管理”。從法律法規(guī)文本中自動(dòng)提取功能信息對(duì)于概念信息檢索非常有用。

為了從法律法規(guī)文本中提取功能信息，意大利的人工智能與法律研究者設(shè)計(jì)了自動(dòng)化方法。這種方法包括四個(gè)主要的模塊：（1）交叉引用解析器，旨在檢測(cè)交叉引用和建構(gòu)相關(guān)的統(tǒng)一命名；（2）結(jié)構(gòu)解析器，旨在自動(dòng)化遺留內(nèi)容的可擴(kuò)展標(biāo)記語(yǔ)言的網(wǎng)上規(guī)范轉(zhuǎn)換；（3）條款自動(dòng)分類器，根據(jù)條款的模式自動(dòng)將段落分類為條款類型；（4）條款論證提取器，旨在自動(dòng)提取條款論證。條款自動(dòng)分類器能夠自動(dòng)檢測(cè)立法文本中包含的條款類型。它主要由文本分類算法構(gòu)成。條款自動(dòng)分類器的輸入是法律條款的文本段落，輸出是從一組候選類別中選擇的預(yù)測(cè)類型或條款類別。26E.Francesconi and A.Passerini, "Automatic classification of provisions in legislative texts", Artificial Intelligence and Law,2007 (15), pp. 6-7.條款論證提取器的輸入是文本段落和預(yù)測(cè)類型，輸出的是條款的功能信息和特征。下面舉一例說(shuō)明條款論證提取器的輸入和輸出。27Ibid., p.3.

輸入：《意大利個(gè)人數(shù)據(jù)保護(hù)法典》第7條第1款規(guī)定：“打算處理屬于本法案適用范圍的個(gè)人數(shù)據(jù)的控制人必須通知其擔(dān)保人?！?/p>

類型：義務(wù)

輸出：系統(tǒng)提取功能信息：

特征：

接收者：“控制人”

行為：“注意”

對(duì)應(yīng)方：“擔(dān)保人”

被提取的功能信息可以作為元數(shù)據(jù)應(yīng)用于語(yǔ)義標(biāo)記中的條款。一旦此類信息納入制定法條款的本體索引，人類用戶就可以搜索所有分配“控制人”向“擔(dān)保人”通知的義務(wù)的條款。研究者將機(jī)器學(xué)習(xí)和知識(shí)工程方法以互補(bǔ)的方式應(yīng)用于法律條款。機(jī)器學(xué)習(xí)提取了更多抽象的功能類型，如“義務(wù)”。知識(shí)工程規(guī)則提取了更具體的角色扮演者，如被賦予義務(wù)的“控制人”。機(jī)器學(xué)習(xí)和知識(shí)工程方法各有優(yōu)劣。機(jī)器學(xué)習(xí)方法手動(dòng)注釋訓(xùn)練實(shí)例，自動(dòng)使用機(jī)器學(xué)習(xí)算法來(lái)生成區(qū)別于實(shí)例訓(xùn)練集的特征。這種方法更靈活，更少領(lǐng)域依賴，并且需要較少的專業(yè)知識(shí)，但需要足夠大的手動(dòng)注釋訓(xùn)練實(shí)例集。知識(shí)工程方法為每種類型的條款確定清晰的易于觀察的模式，并手動(dòng)構(gòu)建規(guī)則以識(shí)別新文本中的模式并提取相關(guān)信息。這種方法不要求手動(dòng)注釋的訓(xùn)練數(shù)據(jù)，但需要手動(dòng)創(chuàng)建的專家分類規(guī)則來(lái)捕獲與每類條款相關(guān)聯(lián)的標(biāo)準(zhǔn)短語(yǔ)。28參見(jiàn)Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, pp. 263-266。

三、論證挖掘技術(shù)及其在法律中的應(yīng)用

論證挖掘（argument mining）是以語(yǔ)料庫(kù)為基礎(chǔ)的話語(yǔ)分析的新發(fā)展，包括自動(dòng)識(shí)別話語(yǔ)的論證結(jié)構(gòu)，例如前提、結(jié)論和每個(gè)論證的論證型式，以及文檔中論證與子論證以及論證與反駁的關(guān)系。論證挖掘的成功要求自然語(yǔ)言技術(shù)、語(yǔ)義學(xué)、語(yǔ)用學(xué)、話語(yǔ)理論、人工智能、論證理論和論證的計(jì)算模型等學(xué)科提供的跨學(xué)科方法，還需要不同領(lǐng)域的不同類型的來(lái)源創(chuàng)建和注釋高質(zhì)量的論證語(yǔ)料庫(kù)。29ACL-AMW, "3d Workshop on Argument Mining at the Association of Computational Linguistics" (ACL 2016). http://argmining2016.arg.tech/,2018年9月22日訪問(wèn)。

（一）IBM的“辯論者”

論證挖掘技術(shù)的發(fā)展與IBM“沃森”的兄弟項(xiàng)目“辯論者”（Debater）緊密地聯(lián)系在一起?！稗q論者”是IBM公司研發(fā)出來(lái)的新的人工智能項(xiàng)目，它使用“沃森”程序的一些文本處理技術(shù)來(lái)執(zhí)行論證挖掘?！稗q論者”不僅能從文本中提取信息，還能“理解”信息并運(yùn)用它們進(jìn)行推理。2014年春季，IBM研究院總監(jiān)約翰·凱利三世在米爾肯研究所年度會(huì)議上演示了“辯論者”程序。演示的辯論主題為“向未成年人出售暴力視頻游戲應(yīng)該被禁止”?！稗q論者”的任務(wù)是檢測(cè)相關(guān)主張并返回對(duì)正方主張和反方主張的預(yù)測(cè)。“辯論者”以近乎完美的英語(yǔ)回應(yīng)道：“掃描了400萬(wàn)篇維基百科文章，返回10篇最相關(guān)的文章，掃描了這10篇文章中的3000個(gè)句子，檢測(cè)到包含候選主張的句子，確定了候選主張的邊界，評(píng)估候選主張是支持正方還是反方，構(gòu)建了一個(gè)具有最高主張預(yù)測(cè)的演示演講，然后準(zhǔn)備提交！”“辯論者”能夠自動(dòng)地從維基百科中提取信息，消化所提取的信息，并運(yùn)用這些信息進(jìn)行推理，然后用自然語(yǔ)言呈現(xiàn)它的論證?！稗q論者”在視頻中的輸出是聽(tīng)覺(jué)的，可以用視覺(jué)術(shù)語(yǔ)呈現(xiàn)其輸出的文本。圖3頂部框包含論辯的命題。與實(shí)線相連的主張支持該命題，與虛線相連的主張攻擊該命題。從輸入主題到輸出論證的時(shí)間是3—5分鐘。值得注意的是，“辯論者”并不真正理解所提取內(nèi)容，它只是在數(shù)據(jù)上運(yùn)行算法并進(jìn)行概率分析以得出結(jié)論。30George Dvorsky, "IBM's Watson Can Now Debate Its Opponents", 2014年5月5日, https://io9.gizmodo.com/ibms-wats on-can-now-debate-its-opponents-1571837847，2018年9月23日訪問(wèn)。

圖3 IBM“辯論者”針對(duì)暴力視頻游戲主題輸出的論證 31

2018年6月18日，“辯論者”程序在舊金山IBM辦公室舉辦的辯論賽中擊敗了人類頂尖辯手。它的對(duì)手是以色列國(guó)際辯論協(xié)會(huì)主席丹·扎菲爾（Dan Zafrir）和2016年以色列國(guó)家辯論冠軍諾亞·奧瓦迪亞（Noa Ovadia）。這次辯論賽共分兩場(chǎng)，以現(xiàn)場(chǎng)觀眾的感受判斷輸贏。兩場(chǎng)辯論賽的題目分別是“我們是否應(yīng)該資助太空探索”和“我們是否應(yīng)該更多地使用遠(yuǎn)程醫(yī)療”?！稗q論者”程序皆為正方。給定一個(gè)辯題后，“辯論者”程序迅速搜索其龐大的語(yǔ)料庫(kù)，尋找最相關(guān)的證據(jù)，然后挑選最有說(shuō)服力、多樣性的論點(diǎn)，并安排論點(diǎn)來(lái)構(gòu)建一個(gè)具有完整說(shuō)服力的敘述，以此來(lái)支持或反對(duì)論點(diǎn)。32參見(jiàn)Lee：《人工智能如何參與辯論》，載《電腦報(bào)》2018年6月25日。

IBM“辯論者”團(tuán)隊(duì)開(kāi)發(fā)了一種手動(dòng)注釋訓(xùn)練集的方法，以便機(jī)器學(xué)習(xí)可以從文本中提取信息?！稗q論者”檢測(cè)上下文的主張，直接支持或辯駁特定主題的一般性陳述，還檢測(cè)依賴上下文的證據(jù)，在給定主題的語(yǔ)境中支持依賴上下文的主張的文本片段。在給定主題和相關(guān)文章的情況下，句子組件選擇200個(gè)最佳句子，邊界組件在每個(gè)句子中界定候選主張，排名組件根據(jù)句子和邊界分?jǐn)?shù)選擇50個(gè)最佳候選主張。“辯論者”使用機(jī)器學(xué)習(xí)完成句子選擇、邊界設(shè)置和候選主張排名這三個(gè)步驟?！稗q論者”的機(jī)器學(xué)習(xí)取決于人類注釋者執(zhí)行高質(zhì)量的訓(xùn)練文檔集注釋的能力。注釋者被要求將文本片段標(biāo)記為依賴上下文的主張?！稗q論者”團(tuán)隊(duì)開(kāi)發(fā)了一種系統(tǒng)的方法來(lái)組織人工注釋工作以最大化可靠性。33參見(jiàn)Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, pp. 306-307。

論證挖掘技術(shù)已被用于法律文本解析。論證挖掘技術(shù)自動(dòng)地識(shí)別案例文本中最終可用的與論證相關(guān)的信息，并隨之產(chǎn)生法律實(shí)踐中智能技術(shù)的新典范：基于論證相關(guān)信息的可靠的概念法律信息檢索，也稱為論證檢索。34Ibid., p. 12。論證挖掘支持律師從法律文本中提取信息建構(gòu)回答手頭問(wèn)題的論證。論證簡(jiǎn)單地說(shuō)，就是舉出理由以支持某種主張或判斷。35參見(jiàn)顏厥安：《法與實(shí)踐理性》，中國(guó)政法大學(xué)出版社2003年版，第88頁(yè)。有關(guān)法律主張、判斷、決定或裁判的證明或辯護(hù)就是法律論證。論證挖掘就是要識(shí)別和提取法律文本中與法律論證有關(guān)的信息。與法律論證相關(guān)的信息包括：法律論證的命題、前提或結(jié)論，連接前提與結(jié)論的論證型式和論證規(guī)則，陳述法律規(guī)則的句子，陳述案件事實(shí)的句子，影響論證強(qiáng)度的信息等。

（二）從案例文本中提取與論證相關(guān)的信息

使用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理和提取規(guī)則從案例文本中提取與論證相關(guān)信息的項(xiàng)目有很多，比如莫查萊斯和莫恩斯研發(fā)的系統(tǒng)、智能索引學(xué)習(xí)（Smart Index Learner，SMILE）項(xiàng)目和法律領(lǐng)域的非結(jié)構(gòu)化信息管理架構(gòu)（Legal UIMA，LUIMA）系統(tǒng)。莫查萊斯和莫恩斯研發(fā)的系統(tǒng)在法律論證挖掘方面做出了開(kāi)拓性的貢獻(xiàn)，它確定了在論證中起作用的句子，應(yīng)用機(jī)器學(xué)習(xí)將句子劃分為命題、前提或結(jié)論。智能索引學(xué)習(xí)是基于問(wèn)題的預(yù)測(cè)程序的自然語(yǔ)言界面，它充當(dāng)問(wèn)題的自然語(yǔ)言描述和預(yù)測(cè)案例結(jié)果的計(jì)算模型之間的橋梁。智能索引學(xué)習(xí)項(xiàng)目致力于識(shí)別和提取實(shí)質(zhì)性法律因素和事實(shí)模式，它們加強(qiáng)或削弱一方的法律主張。非結(jié)構(gòu)化信息管理架構(gòu)是用于問(wèn)答系統(tǒng)的開(kāi)源阿帕奇架構(gòu)，IBM“沃森”的技術(shù)就是建立在UIMA基礎(chǔ)上的。36參見(jiàn)Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 287。LUIMA是應(yīng)用于法律領(lǐng)域的以UIMA為基礎(chǔ)的類型系統(tǒng)。它聚焦于概念、關(guān)系和提及，以識(shí)別司法裁判中句子的論證功能。LUIMA系統(tǒng)是一種非常成熟的法律文本解析技術(shù)，因而本文主要介紹LUIMA系統(tǒng)提取與論證相關(guān)的信息的方法。

LUIMA采用基于規(guī)則的注釋器和機(jī)器學(xué)習(xí)注釋器用語(yǔ)義信息注釋案例文檔。句子分割是注釋案例文檔的第一步。句子分割是將案例文本語(yǔ)料庫(kù)分解成句子的過(guò)程。任何文本語(yǔ)料庫(kù)都是文本的集合，其中每一段落都包含多個(gè)句子。執(zhí)行句子分割有多種技術(shù)，基本技術(shù)包括在句子之間尋找特定的分隔符，例如句號(hào)（.）、換行符（）或者分號(hào)（；）。37參見(jiàn)［印度］迪潘簡(jiǎn)·撒卡爾：《Python文本分析》，閆龍川、高德荃、李君婷譯，機(jī)械工業(yè)出版社2018年版，第80頁(yè)。LUIMA注釋還標(biāo)記了一些預(yù)設(shè)信息，包括事實(shí)和語(yǔ)言概念以及與受規(guī)制領(lǐng)域相關(guān)的提及。LUIMA注釋在案例文本中標(biāo)識(shí)此類預(yù)設(shè)信息為：（1）術(shù)語(yǔ)，例如疫苗術(shù)語(yǔ)，疾病術(shù)語(yǔ)，因果關(guān)系術(shù)語(yǔ)。（2）提及，例如疫苗提及，其中包括疫苗首字母縮寫(xiě)與疫苗術(shù)語(yǔ)［“麻腮風(fēng)（MMR）疫苗”］，疫苗接種事件提及，因果關(guān)系提及。（3）規(guī)范化，疫苗提及的規(guī)范化，疾病提及的規(guī)范化，即句子中提到的疫苗或疾病的規(guī)范名稱。38參見(jiàn)Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 302。基于規(guī)則的注釋器根據(jù)提及和子句類型自動(dòng)注釋句子。如果一個(gè)句子包括提及原告、必須關(guān)系的術(shù)語(yǔ)（比如，證明），那就把這個(gè)句子注釋為“法律標(biāo)準(zhǔn)表述”（Legal Standard Formulation）。在“根據(jù)該標(biāo)準(zhǔn)，請(qǐng)求人必須證明疫苗接種更可能是受到傷害的原因”這個(gè)句子中，包括“請(qǐng)求人”術(shù)語(yǔ)和“證明”術(shù)語(yǔ)，因而把這個(gè)句子注釋為表示法律標(biāo)準(zhǔn)的句子。

LUIMA注釋案例文檔的另一種技術(shù)是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)將案例文檔的句子分為三類：法律規(guī)則句子，基于證據(jù)發(fā)現(xiàn)的句子，不屬于這兩類句子的句子（標(biāo)記為“非注釋”句子）。出于機(jī)器學(xué)習(xí)的目的，句子文本被表示為特征向量。每個(gè)特征向量的值是這個(gè)特征在文本中沿著特征維度的量。量可以是“0”，表示文檔不具有該特征，或“1”表示它具有該特征。比如，在“羅珀訴衛(wèi)生與公眾服務(wù)部部長(zhǎng)”一案中，“在本案的證詞中，萊西博士進(jìn)一步解釋了他的觀點(diǎn)，即破傷風(fēng)疫苗接種可能導(dǎo)致請(qǐng)求人羅珀女士的胃輕癱”被注釋為證據(jù)句子，而不是基于證據(jù)發(fā)現(xiàn)的句子，因?yàn)樗鼒?bào)告的不是法官做出的結(jié)論，而是專家證人萊西博士做出的結(jié)論。因此，機(jī)器學(xué)習(xí)注釋器將這個(gè)句子表示為“非注釋”句子。

LUIMA然后根據(jù)注釋過(guò)的信息執(zhí)行論證檢索，即識(shí)別和提取與論證有關(guān)的信息。論證檢索幫助人類用戶建構(gòu)支持一種主張的可行論證或反擊對(duì)手的最佳論證。論證挖掘技術(shù)使法律推理和法律論證的計(jì)算模型能夠直接處理法律數(shù)字文檔，幫助人們預(yù)測(cè)和證成法律結(jié)果。在疫苗傷害賠償?shù)陌咐?，?qǐng)求人必須證明疫苗接種更可能是受到傷害的原因。只有在疫苗接種導(dǎo)致傷害的情況下，請(qǐng)求人才能獲得賠償。因而必須確定疫苗接種與傷害之間存在因果關(guān)系。請(qǐng)求人必須通過(guò)優(yōu)勢(shì)證據(jù)確定：（1）疫苗類型與傷害類型之間有著“醫(yī)學(xué)理論上的因果關(guān)系”；（2）特定疫苗接種與特定傷害之間存在“因果關(guān)系的邏輯順序”；（3）疫苗接種和傷害之間存在“近似時(shí)間關(guān)系”。法律論證的計(jì)算模型將適用的制定法和規(guī)章要求表示為“規(guī)則樹(shù)”，即權(quán)威性規(guī)則條件以及法律判決中的推理鏈，將證據(jù)斷言與特殊法官對(duì)這些規(guī)則條件的事實(shí)發(fā)現(xiàn)聯(lián)系起來(lái)。39Ibid., p. 161。

四、結(jié)語(yǔ)：法律文本解析對(duì)未來(lái)法治的影響

深度問(wèn)答、信息提取和論證挖掘這些文本解析技術(shù)為法律實(shí)踐帶來(lái)了革命性的變化。IBM“沃森”、“辯論者”和UIMA等為這種變革種下了革命的種子。人工智能與法律研究者和技術(shù)專家將法律文本解析與計(jì)算模型整合在一起，創(chuàng)建了一些新的法律應(yīng)用程序。這些法律應(yīng)用程序能完成許多傳統(tǒng)上只能由人完成的智能任務(wù)。法律應(yīng)用程序在定制商品化法律服務(wù)中發(fā)揮重要作用。它能用法律文本推理，使實(shí)踐系統(tǒng)能夠根據(jù)人類用戶的特定問(wèn)題定制其輸出。“法律應(yīng)用程序不僅會(huì)以適合人類用戶特定問(wèn)題的方式選擇、預(yù)訂、突出和匯總信息，還會(huì)探索信息并以前所未有的新方式與數(shù)據(jù)互動(dòng)。”40Kevin D. Ashley, Artificial Intelligence and Legal Analytics: New Tools for Law Practice in the Digital Age, Cambridge University Press, 2017, p. 13.法律文本解析技術(shù)產(chǎn)生時(shí)間較短，但在不到十年的時(shí)間里卻涌現(xiàn)了六十余種成熟的法律應(yīng)用程序。41Jonathan Marciano, "Automating the Law: A Landscape of AISolutions", Jun 10, 2017, 載https://www.topbots.com/automatingthe-law-a-landscape-of-legal-a-i-solutions/，2018年10月4日訪問(wèn)。代表性的法律應(yīng)用程序包括美國(guó)的法律集中營(yíng)（LegalZoom）、法律機(jī)器（Lex Machina）、法律機(jī)器人（Legal Robot）、拉威爾（Ravel）、既判力（Judicata）和法律過(guò)濾器（Legal sifter）、加拿大的織布解析（Loom Analytics）、英國(guó)的法律智能支持助理機(jī)器法律人（Robot Lawyer LISA）、以色列的LawGeex和愛(ài)爾蘭的布賴特旗（Brightflag）等。這些新興的法律應(yīng)用程序不僅僅是將法律人的處理過(guò)程計(jì)算機(jī)化和標(biāo)準(zhǔn)流程化，而是創(chuàng)造性地處理一些法律人過(guò)去無(wú)法完成的任務(wù)。

法律文本解析或許是這個(gè)時(shí)候最重要的技術(shù)，它的迅速發(fā)展將深刻改變法律實(shí)踐、法律職業(yè)、法律教育和法學(xué)研究。薩斯坎德（Susskind）指出，許多信息技術(shù)是顛覆性的，這些技術(shù)不支持或兼容傳統(tǒng)的工作方式，它們將徹底挑戰(zhàn)和改變傳統(tǒng)習(xí)慣。對(duì)法律行業(yè)也是如此，這些無(wú)處不在、急速增長(zhǎng)的信息技術(shù)會(huì)顛覆和改造律師和法院的運(yùn)作方式。42［英］理查德·薩斯坎德：《法律人的明天會(huì)怎樣？》，何廣越譯，北京大學(xué)出版社2015年版，第23頁(yè)。數(shù)百年來(lái)，訴訟律師運(yùn)用法律方法分析案件的事實(shí)構(gòu)成，總結(jié)案件的爭(zhēng)議焦點(diǎn)，尋找適用于手頭案件的法律法規(guī)或判例，推理將事實(shí)涵攝于法律之下，最后提出訴訟策略并做出法律預(yù)測(cè)。法律文本解析顛覆了律師的工作方式，它將法律工作分解為不同的任務(wù)并逐項(xiàng)以盡可能高效的方式完成。訴訟律師的工作可以分解為文件審閱、法律研究、項(xiàng)目管理、訴訟支持、電子披露、策略、戰(zhàn)術(shù)、談判和法庭辯論等任務(wù)。這九項(xiàng)任務(wù)中除了策略、戰(zhàn)術(shù)和法庭辯論，其他的重復(fù)性事務(wù)性的工作任務(wù)都可以用不同方式分包出去。43同上注，第41—42頁(yè)。這些分包出去的工作都可以由法律應(yīng)用程序而非法律人完成。法律文本解析挖掘案件文件和卷宗中的數(shù)據(jù)，然后匯總這些數(shù)據(jù)，從中發(fā)現(xiàn)一些有用的洞見(jiàn)，包括法官、律師、法院、律師事務(wù)所和當(dāng)事人的各種信息。訴訟律師使用法律文本解析來(lái)揭示過(guò)去訴訟中的趨勢(shì)和模式，然后根據(jù)這些趨勢(shì)和模式制定手頭案件的訴訟策略并預(yù)測(cè)法律結(jié)果。44Owen Byrd, "Legal Analytics vs. Legal Research: What's the Difference?" June 12, 2017,載https://www.lawtechnolog ytoday.org/2017/06/legal-analytics-vs-legal-research/，2018年8月21日訪問(wèn)。法官運(yùn)用智能審判系統(tǒng)實(shí)現(xiàn)對(duì)起訴狀、答辯狀、庭審筆錄等案件卷宗信息的智能解析和信息提取，提取各類卷宗材料文書(shū)所需的核心信息，然后自動(dòng)生成判決、裁定等法律文書(shū)。法律文本解析技術(shù)在法律實(shí)踐中的廣泛應(yīng)用將極大地節(jié)省律師和法官處理案件的時(shí)間，過(guò)去他們花上數(shù)周完成的工作現(xiàn)在幾分鐘就能完成。

法律職業(yè)也將因法律文本解析技術(shù)的應(yīng)用而發(fā)生翻天覆地的改變。如果法律應(yīng)用程序能夠完成許多以前只能由法律職業(yè)者完成的工作，那么部分法律職業(yè)者將要失業(yè)。2013年9月，牛津大學(xué)的卡爾·弗瑞（Carl Frey）和邁克爾·奧斯本（Michael Osborne）發(fā)表了《就業(yè)的未來(lái)》研究報(bào)告，調(diào)查各項(xiàng)工作在未來(lái)二十年被計(jì)算機(jī)取代的可能性。根據(jù)他們研發(fā)的算法估計(jì)，到2033年，法律秘書(shū)有98%的概率會(huì)失業(yè)，律師助理的概率為94%，行政法官和聽(tīng)證官的概率為64%，書(shū)記員的概率為41%，法官和地方法官的概率為40%。45Carl Benedikt Frey and Michael A. Osborne, "The Future of Employment: How Susceptible Are Jobs to Computerisation?",17 September 2013, pp. 62-71. https://www.oxfordmartin.ox.ac.uk/downloads/academic/The_Future_of_Employment.pdf，2019年1月5日訪問(wèn)。又見(jiàn)［以色列］尤瓦爾·赫拉利：《未來(lái)簡(jiǎn)史》，林俊宏譯，中信出版社2017年版，第293頁(yè)。當(dāng)然，淘汰傳統(tǒng)的法律的工作的同時(shí)也會(huì)產(chǎn)生一些新的法律工作。根據(jù)薩斯坎德的總結(jié)，法律人的新工作包括法律知識(shí)工程師、法律技術(shù)專家、跨學(xué)科法律人才、法律流程分析師、法律項(xiàng)目管理師、在線糾紛解決師、法律管理咨詢師和法律風(fēng)險(xiǎn)管理師。例如，法律知識(shí)工程師負(fù)責(zé)研發(fā)法律標(biāo)準(zhǔn)和流程，在計(jì)算機(jī)系統(tǒng)中組織和表達(dá)法律知識(shí)。法律技術(shù)專家是同時(shí)具備法律和系統(tǒng)工程及信息技術(shù)管理兩個(gè)領(lǐng)域的訓(xùn)練和經(jīng)驗(yàn)的專業(yè)人士。46［英］理查德·薩斯坎德：《法律人的明天會(huì)怎樣？》，何廣越譯，北京大學(xué)出版社2015年版，第129—131頁(yè)。這些新的法律職業(yè)人士從事的工作迥異于傳統(tǒng)法律職業(yè)者所做的事情。

法律文本解析技術(shù)將改變法律教育的內(nèi)容和教學(xué)方式。多年來(lái)，如何利用技術(shù)去講授法律一直是一個(gè)法學(xué)界不關(guān)注的問(wèn)題，現(xiàn)在漠視技術(shù)發(fā)展的時(shí)代將要終結(jié)。技術(shù)讓法學(xué)教育變得更有效更實(shí)際提供了可能性?，F(xiàn)如今，同步遠(yuǎn)程學(xué)習(xí)模式、非同步遠(yuǎn)程學(xué)習(xí)模式、大規(guī)模開(kāi)放式網(wǎng)絡(luò)課程、翻轉(zhuǎn)課堂、在線教學(xué)、在線協(xié)作等創(chuàng)新技術(shù)已經(jīng)廣泛地應(yīng)用于法學(xué)院的法律教育。47［美］米歇爾·皮斯托：《法學(xué)院與技術(shù)——我們現(xiàn)在何處并將駛向何方》，周亞玲譯，邱昭繼校，載王翰主編：《法學(xué)教育研究》第15卷，法律出版社2016年版，第259—272頁(yè)。IBM“沃森”為法律教育開(kāi)辟了新的可能性。法學(xué)院擅長(zhǎng)的蘇格拉底教學(xué)法將受到嚴(yán)重的挑戰(zhàn)，老師在《合同法》課程中提出的各種問(wèn)題都可以交由法律應(yīng)用程序回答，在線課程將逐漸取代面授課程。法律人工作方式的改變對(duì)法律教育提出了新的要求。傳統(tǒng)的法律教育以培養(yǎng)專業(yè)基礎(chǔ)扎實(shí)、熟練掌握法律職業(yè)技能的法律人才為目標(biāo)，未來(lái)的法律教育應(yīng)根據(jù)法律實(shí)踐的變化做出相應(yīng)的調(diào)整。根據(jù)理查德·格拉納特（Richard Granat）和馬克·勞里森（Marc Lauritsen）的調(diào)查，美國(guó)有10所法學(xué)院非常重視法律文本解析技術(shù)，開(kāi)設(shè)了多門相關(guān)課程或成立了相關(guān)的研究中心。比如，密歇根州立大學(xué)法學(xué)院建立了一個(gè)再造法律實(shí)驗(yàn)室，開(kāi)設(shè)了電子發(fā)現(xiàn)、創(chuàng)業(yè)律師、法律信息工程與技術(shù)、法律解析、訴訟、數(shù)據(jù)、理論、實(shí)踐、過(guò)程、律師定量分析和21世紀(jì)的法律實(shí)踐等法律實(shí)踐技術(shù)方面的課程。薩?？舜髮W(xué)法學(xué)院建立了法律實(shí)踐技術(shù)與創(chuàng)新研究所。法學(xué)院提供智能機(jī)器時(shí)代的律師培訓(xùn)、流程改進(jìn)和法律項(xiàng)目管理、法律文件自動(dòng)化和21世紀(jì)律師和決策支持系統(tǒng)的調(diào)查等課程。48Richard Granat and Marc Lauritsen, "Teaching the technology of practice: the 10 top schools", Law Practice Magazine,2014: (4) ，載www.americanbar.org/publications/law_practice_magazine/2014/july-august/teachingthe-technology-of-practicethe-10-top-schools.html. 2018年10月3日訪問(wèn)。

法律文本解析技術(shù)將導(dǎo)致法學(xué)研究產(chǎn)生相應(yīng)的變化，它將促使法學(xué)與理工科的交叉融合。法學(xué)與哲學(xué)、社會(huì)學(xué)、政治學(xué)、人類學(xué)、經(jīng)濟(jì)學(xué)等哲學(xué)社會(huì)科學(xué)的緊密聯(lián)系人們已經(jīng)很熟悉了，而法律文本解析技術(shù)將法學(xué)與統(tǒng)計(jì)學(xué)、信息科學(xué)、計(jì)算機(jī)科學(xué)和腦科學(xué)等學(xué)科緊密地聯(lián)系在一起。著名法學(xué)家霍姆斯早在120年前就預(yù)言：“對(duì)于法律的理性研究而言，研究歷史文本的人或許是現(xiàn)在的主人，而未來(lái)的主人則屬于研究統(tǒng)計(jì)學(xué)之人和經(jīng)濟(jì)學(xué)專家。”49［美］霍姆斯：《法律的道路》，載［美］霍姆斯：《法律的生命在于經(jīng)驗(yàn)——霍姆斯法學(xué)文集》，明輝譯，清華大學(xué)出版社2007年版，第221頁(yè)。法律的經(jīng)濟(jì)學(xué)研究早在20世紀(jì)70年代就異軍突起，成為法學(xué)界的顯學(xué)。人們沒(méi)有想到的是，統(tǒng)計(jì)學(xué)會(huì)成為法學(xué)研究的主導(dǎo)學(xué)科。人工智能時(shí)代，統(tǒng)計(jì)學(xué)的重要性越發(fā)凸顯，人工智能法學(xué)的研究越來(lái)越需要統(tǒng)計(jì)學(xué)的支持。

法律文本解析技術(shù)方興未艾，這是我國(guó)法治發(fā)展的重大戰(zhàn)略機(jī)遇。法律文本解析技術(shù)在法律信息搜索、法律咨詢、法律解釋、證據(jù)收集、案例分析、法律文件閱讀與分析、法律推理和法律論證等方面大有用武之地。它的應(yīng)用是我國(guó)智慧法院、智慧檢察院、智慧律所、智慧公安和人工智能法學(xué)院建設(shè)的重要抓手。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡