□ 申衛(wèi)星 劉 云
內(nèi)容提要 可計算的法律發(fā)展道路是以計算機作為工具的背景下,對法律的運行機制進行符號化抽象并設計可以自動執(zhí)行的法律智能系統(tǒng),以此來推動法律的發(fā)展。在法律發(fā)展路徑上,需要理解計算范式轉(zhuǎn)型是一種普遍趨勢,法律本身具有很強的可計算性,可計算法律的發(fā)展過程具有階段性;可計算法律的實現(xiàn)方法主要有三大類,包括規(guī)則推理建模、數(shù)據(jù)推理建模和規(guī)則+數(shù)據(jù)融合推理建模。為了實現(xiàn)可計算的法律發(fā)展道路,法學研究需要開展可復用的法律知識工程,構(gòu)建可高效處理的法律數(shù)據(jù)集,法學教育需要培養(yǎng)具有計算思維的法律人才。
法律的發(fā)展有賴于司法案例的積累,有賴于學說的總結(jié)與提升,有賴于在案例和學說推動下促進立法的科學化。霍姆斯在第二次工業(yè)革命時期提出,法律研究主要是在閱讀大量案例、法條和相關(guān)文獻以將法律概括、簡化為一個體系,最終目的則是為了準確預測今后的法律行為方式。①信息時代的到來,需要站在新的歷史起點來審視未來法律的發(fā)展道路。我們探索的可計算法律研究內(nèi)容包括利用計算方法開展法律大數(shù)據(jù)分析,以及結(jié)合計算技術(shù)研究法律科技,是計算法學中的兩大研究方向。②可計算理論始于丘奇圖靈論題,其確立了“可計算性”的數(shù)學含義,即凡是可計算的函數(shù)都是一般遞歸函數(shù),圖靈機則是實現(xiàn)遞歸函數(shù)的方式。③所謂的遞歸就是將一個待求解的問題一步步地轉(zhuǎn)化為一個已知信息基礎上的有限計算過程,可計算理論可以泛化解釋為人類將未知問題轉(zhuǎn)化為可知信息的過程。在計算機全面普及應用的時代,計算主要是指通過設計一定的方法并將其編寫為可執(zhí)行的程序,使計算機對數(shù)據(jù)進行處理,從而得到目標結(jié)果;可計算法律是指那些能夠按照抽象符號對問題進行表示,通過計算規(guī)則(算法)可在有限的步驟內(nèi)得到目標結(jié)果,其計算過程也是可記錄的法律任務。當前可計算法律的主要表現(xiàn)形式是可以通過計算機運行而自動化求解,運用自動化工具不僅僅可減少人工勞動力消耗,同時有利于促進法律的公平公正實施和理解,也是古老的法律應對社會全面數(shù)字化變革所必須啟動的匹配性轉(zhuǎn)型。以下將從認識論、方法論和實踐論三個維度來探索可計算法律的發(fā)展道路需要確定哪些法律任務具有可計算性,可計算法律的實現(xiàn)路徑有哪些,以及為了擴大法律可計算范圍需要做出哪些努力。
在大數(shù)據(jù)繁榮發(fā)展的當前時期,計算范式轉(zhuǎn)型蘊含了數(shù)據(jù)、理論、算法的融合,增加了學科之間的對話和結(jié)合,體現(xiàn)了在大數(shù)據(jù)的基礎上探索方法融合的可能性。④在計算范式轉(zhuǎn)型的趨勢之下,出現(xiàn)了一批計算法學、計算社會科學、計算經(jīng)濟學、計算物理學、計算數(shù)學、計算化學等等以“計算+X”為名的研究方向。計算范式之所以成為一種新趨勢,主要源于可計算能力和數(shù)據(jù)應用價值都得到了提升。在可計算能力方面,計算在社會變革中日益發(fā)揮著重要作用,我們可以利用計算分析工具幫助診斷社會問題,通過計算程序建立的網(wǎng)絡社會可以塑造人們理解社會問題的方式,計算技術(shù)的可計算領域和限度有助于技術(shù)和社會的辯證反饋,計算技術(shù)的應用可以使得一些長期存在的社會問題重新凸顯。⑤這種計算能力的發(fā)展正在不斷地創(chuàng)新我們理解社會的方式。在數(shù)據(jù)應用價值方面,海量的數(shù)據(jù)及其處理能力使得我們能夠以前所未有的通用性、實用性和可控性均衡來研究更廣泛的問題: 平行理論中的數(shù)字社會與現(xiàn)實社會發(fā)生重疊,越來越多的行為可通過各種靈活的方式用電子數(shù)據(jù)來記錄,數(shù)據(jù)的獲取便利度讓變量的控制不再具有侵入性,數(shù)據(jù)的迭代收集和利用可以提高預測能力。⑥在數(shù)據(jù)廣泛應用之下,甚至出現(xiàn)了大數(shù)據(jù)導致“理論死亡”的超前假設,⑦其實質(zhì)是豐富的數(shù)據(jù)在我們的認知中產(chǎn)生了決定性作用,從而為計算范式發(fā)展創(chuàng)造新的機遇。
計算范式轉(zhuǎn)型中出現(xiàn)了社會計算(Social Computing)和計算社會科學(Computational Social Science)兩個方向,其各有側(cè)重并相互促進。社會計算也被稱之為社會軟件(Social Software),是以信息技術(shù)為目標來研究社會問題。⑧目前,中國人工智能學會就專門成立了社會計算與社會智能專業(yè)委員會,其旨在以人工智能、大數(shù)據(jù)等信息技術(shù)為科學工具,構(gòu)建“社會計算試驗場,剖析社會計算與社會智能的內(nèi)在機制,實現(xiàn)對新型社會現(xiàn)象的發(fā)現(xiàn)與機理揭示”。⑨社會計算的研究目標是通過開發(fā)計算系統(tǒng)來支持各類社會活動,其實例包括輔助通信的即時通訊軟件,協(xié)助開展知識編輯的百科詞條,支持法官辦案的智慧法院系統(tǒng),提供收益預測的智能投顧系統(tǒng)……由此可知,社會計算的本質(zhì)是軟件工程和算法研發(fā)為代表的計算機科學。狹義的計算社會科學也被稱之為量化分析,以解決社會科學問題為目標而借用了計算工具。人類各樣的行為在數(shù)字化時代都留下了記錄,這些數(shù)據(jù)中蘊含的關(guān)于個人和群體行為的規(guī)律足以改變我們對個人生活、組織機構(gòu)乃至整個社會的認知,計算社會科學研究則可以從這些海量的數(shù)據(jù)中挖掘人類和社會運行中的規(guī)律。⑩計算社會科學本質(zhì)上是協(xié)作研究: 社會科學家為相關(guān)研究問題、數(shù)據(jù)源和獲取方法提供重要背景和洞察力,而計算科學家則在開發(fā)數(shù)學模型和計算工具方面貢獻專業(yè)知識。?計算范式轉(zhuǎn)型同時促進了法學等社會科學與計算科學的雙向賦能,兩大領域的目標不同而分別選用了社會計算和計算社會科學的名稱,這也符合融合與分工相協(xié)調(diào)的基本邏輯。
法律適用是一個以事實為依據(jù)、以法律為準繩的推理過程,代碼(Code)一詞源于拉丁語“Codex”,其含義就是“規(guī)則體系”(a system of laws),法律的種種可計算特性在歷史上演化出了“法律公理體系之夢”。受到歐洲理性主義哲學傳統(tǒng)的影響,計算科學二進制的發(fā)明人萊布尼茨把理論的真理性論證歸結(jié)于一種計算的結(jié)果,認為:當問題和法律都被正確理解時,所有法律問題都有唯一的正確答案。?萊布尼茨及其之后的實證主義相信,法學乃是一門科學,它自在于其理由與體系之中,而非陷身于雜亂無序的價值泥潭。?19 世紀的德國形成了法律公理體系之夢,眾多一流的法學家致力于探索法律內(nèi)部存在的某種前后和諧貫通的體系,希望將法律體系的各個原則、規(guī)則和概念厘定清晰,像“門捷列夫化學元素表”一樣精確、直觀,法官按圖索驥,就能夠確定每個法律原則、規(guī)則、概念的位序、構(gòu)成元素、分量以及計算方法。?從原理而言,法律是以規(guī)則的方式對社會秩序進行描述,計算則是以計算機語言的方式對社會機制予以復現(xiàn),客觀的描述、統(tǒng)一的規(guī)則、嚴密的邏輯、準確的結(jié)果是法律和計算運行機制的共同特征,探索最有效的代碼任務就如同尋找最公平的法律規(guī)則。自20 世紀50年代以來,在人工智能的第一次、第二次和當前第三次的熱潮中,法律科技理論和技術(shù)產(chǎn)品都分別取得了長足進步,這反映出法律的可計算性理論借助計算機技術(shù)的發(fā)展展現(xiàn)出很強的適用性。
盡管傳統(tǒng)的大陸法系和英美法系存在推理邏輯差異,但是這兩種推理邏輯都具有很強的可計算性,而且其方法已經(jīng)呈現(xiàn)出深度融合的趨勢。在大陸法系中,法律適用的邏輯模式主要是三段論,即完整的法律規(guī)范構(gòu)成大前提,具體的案件事實是小前提,結(jié)論是根據(jù)法律規(guī)范給予案件事實的后果。拉倫茨把這些邏輯語式稱為“確定法效果的三段論法”。在其中,一個完全的法條構(gòu)成大前提,將某具體的案件事實視為一個“事例”,而將之歸屬法條構(gòu)成要件之下的過程,則是小前提。結(jié)論則意指: 對此案件事實應賦予該法條所規(guī)定的法效果。?上述法律推理屬于一種演繹邏輯,與決策樹算法具有很強的同理性,這也是規(guī)則驅(qū)動的人工智能邏輯基礎(第一代人工智能)。在英美法系中,法律適用的邏輯模式是基于過往案例(先例)的推理?;裟匪固岢觯骸胺傻纳辉谟谶壿?,而在于經(jīng)驗。對時代需要的感知,流行的道德和政治理論,對公共政策的直覺,不管你承認與否,甚至法官和他的同胞所共有的偏見對人們決定是否遵守規(guī)則所起的作用都遠遠大于三段論。法律包含了一個民族許多世紀的發(fā)展歷史。它不能被當作由公理和推論組成的數(shù)學書?!?需要說明的是,霍姆斯并非反對法律的邏輯性,而是認為在邏輯之外還有一些經(jīng)驗中潛在的相關(guān)性需要得到重視,這種法律推理屬于一種歸納邏輯,與機器學習算法具有很強的相通性,也即數(shù)據(jù)驅(qū)動的人工智能邏輯基礎(第二代人工智能)。在霍姆斯生活的年代,這種經(jīng)驗歸納只能依靠法律人經(jīng)年累月的積累和個性化的總結(jié);在計算科學技術(shù)繁榮發(fā)展的今天,大量的經(jīng)驗都被數(shù)字化記錄,借助機器學習算法來歸納/預測這種過往案件/同類案件的經(jīng)驗已經(jīng)成為一個日益成熟的技術(shù),這導致大數(shù)據(jù)基礎上人們對法律進行的歸納認知必將走向法律計算化的發(fā)展道路。
從法律科技的發(fā)展條件來看,法律任務是否具有可計算性不僅取決于問題本身,同時也會直接或者間接地受到計算環(huán)境的限制。根據(jù)系統(tǒng)工程設計理論,在設計一個可計算系統(tǒng)時,我們需要設定目標、必要條件、效用函數(shù)、約束、資源成本分配、設計樹,然而,在初試階段我們并不真正地知道目標是什么,必要條件及其權(quán)重在持續(xù)變化,效用函數(shù)無法以增量方式求值,約束在持續(xù)變化,需求很容易出現(xiàn)膨脹或者蠕變,設計樹往往是一邊設計一邊探索……?這種設計上存在的困境在法律人工智能系統(tǒng)中也比比皆是。與此同時,現(xiàn)代的計算科學將抽象(abstraction)和自動化(automation)作為計算方法的本質(zhì),并將計算機程序設計、系統(tǒng)論、模型化等計算機科學領域或者非計算機科學領域的應用理論都納入到了計算框架中。?在這個計算框架下,可計算法律至少需要具備四個特征:其一,可以進行符號化表達,這要求可計算的法律內(nèi)容能夠用計算語言進行客觀記錄而不能是一種“只可意會不可言傳”的主觀認識。其二,具有確定的答案,這決定了那些尚處于爭議之中的法律概念、法律規(guī)則、法律程序、法律價值無法納入可計算任務之中。其三,能夠在可負擔的步驟內(nèi)得解,這決定了可計算的法律任務在模型構(gòu)建、數(shù)據(jù)處理、目標設計等內(nèi)容必須控制在當前階段可操作的范圍之內(nèi)。其四,算法的能力決定了計算結(jié)果,這導致各類基于規(guī)則的算法、基于數(shù)據(jù)的算法等所存在的優(yōu)勢和劣勢必然地會傳導給可計算的法律模型,可計算法律的模型效果也據(jù)此與計算科學的發(fā)展水平密切相關(guān)。
從人工智能原理的角度而言,抽象和形式化的任務對人類而言是最困難的腦力任務之一,對計算機而言卻屬于最容易的。然而,人工智能的真正挑戰(zhàn)在于解決那些對人來說很容易執(zhí)行但很難形式化描述的任務,如識別人們所說的話或圖像中的臉。?我們需要以階段性的認識觀來理解,螺旋式上升的方式探索可計算法律的適用范圍、解決方法和應用效果。從計算科學發(fā)展史來看,復雜計算科學在不斷地探索新的計算方法: 很多在過去不可計算的問題在今天可以通過計算機得到滿意的處理,很多在今天難以處理的隨機性、復雜性、抽象性僅僅是我們還有尚未發(fā)現(xiàn)的數(shù)據(jù)和算法。所謂的“不可計算”只是證明我們還沒為這個系統(tǒng)建立完整的模型,在計算理論上只有當前算力、算法、數(shù)據(jù)尚無法承擔的計算任務,并沒有理論上不可計算的絕對任務。史蒂芬·沃爾夫勒姆甚至提出,任何看起來比較復雜的社會運作系統(tǒng),他們的復雜度都是相同的,而且都達到了復雜性的極限,因為他們都可以從最簡單的元胞自動機演化形成,這種元胞自動機是一個根據(jù)特定規(guī)則演化的離散系統(tǒng)并且可以被我們所認識和實現(xiàn)。?在法律工作數(shù)字化轉(zhuǎn)型的未來,我們需要不斷探索可計算的法律道路,更多、更好地實現(xiàn)數(shù)字化、標準化、自動化的法治目標,從而提高法治的可及性和透明度。
可計算法律的方法論是法學方法論在計算機環(huán)境下的應用,其目標都是找到一個解決法律問題的正確道路。在法學方法論中,拉倫茨、阿列克西、恩吉施、考夫曼、麥考密克等法學家提出了各自的法律方法論體系,對于法律人如何識別、解釋和解決法律問題做了深入的思考,對案件事實的形成、法律適用的解釋、法律漏洞填補等問題分別提出了解決思路,將法律邏輯、法律語言、法律解釋、法律修辭等作為其科學體系的組成部分。在計算機環(huán)境下,法律邏輯學的研究成果對于可計算法律模型構(gòu)建具有重要的啟示意義,傳統(tǒng)的命題邏輯、謂詞邏輯、類邏輯、關(guān)系邏輯、模態(tài)邏輯、道義邏輯(規(guī)范邏輯)和晚近發(fā)展起來的模糊邏輯、對話邏輯、可廢止邏輯(非形式邏輯)?都可以直接支持法律智能化系統(tǒng)的開發(fā)。從目前法律人工智能的發(fā)展來說,我們可以把可計算法律的構(gòu)建方法劃分為規(guī)則推理、數(shù)據(jù)推理以及規(guī)則+數(shù)據(jù)融合推理三種模式。
目前構(gòu)建可計算法律系統(tǒng)最實用的方法是基于形式邏輯,也即規(guī)則驅(qū)動(Rule Driven)的法律人工智能。在現(xiàn)代國家的法律體系中,立法者都希望將寬泛的行動原則具體化為相對穩(wěn)定、明確、細致和可以客觀地加以理解的規(guī)則形式,并提供一個應用于人際間的可信賴的和可接受的程序,以使得這些規(guī)則付諸實施。因此,在“法治”觀念下強調(diào)尊重法律合理性的現(xiàn)代法律模式內(nèi),適用規(guī)則的邏輯就成為法律的核心邏輯,規(guī)則驅(qū)動的演繹推理也就成為最廣泛應用的計算方法。這種規(guī)則驅(qū)動的計算方法可以公式化地表達為 “R+F=C”(規(guī)則+事實=結(jié)論),也可以理解為只要F 所表示的情形發(fā)生,那么與之相關(guān)的C 必然會發(fā)生。其中的規(guī)則是假設的規(guī)范性命題,它確保一旦確定了特定的情勢(有效事實),那么相應的特定結(jié)果就必然或者應當?shù)玫綀?zhí)行。?由于法律規(guī)則可以邏輯地表達,計算機可以演繹推理,因此用計算機建構(gòu)成文法推理模型在理論上是容易實現(xiàn)的。人們只需將事實情況輸入計算機程序,程序識別相關(guān)規(guī)則,決定規(guī)則的條件是否得到滿足,并根據(jù)適用或者不適用的規(guī)則解釋答案。?其主要方法可以歸納為兩個基本步驟:第一,將事實和法律規(guī)則分別表示為形式邏輯中的符號;第二,構(gòu)建相關(guān)符號之間的計算模型以自動推理得到法律結(jié)果。這種規(guī)則驅(qū)動的可計算方法還有一些獨特的優(yōu)勢,如透明度高、可解釋性強、實用性佳,這成為落地應用的法律人工智能系統(tǒng)所廣泛采用的一種方法。
規(guī)則驅(qū)動的可計算方法是對成熟規(guī)則的模擬和建構(gòu),其重點在于制定可計算的規(guī)則、識別可以予以涵攝的法律事實,其中規(guī)則本身的明確性往往成為決定系統(tǒng)效果的關(guān)鍵。例如,道路交通法規(guī)則的可計算性很強,有力地支撐了電子交通警察成為一個廣泛普及的可計算法律模型。此外,由于立法技術(shù)的時代局限性,許多法律條文是具有解釋空間的模糊規(guī)則,這導致規(guī)則在適用過程中也經(jīng)常不能夠?qū)崿F(xiàn)自身的實際功效?;诖耍瑢τ谝?guī)則的解釋、分類、相關(guān)性等問題,都是規(guī)則驅(qū)動的法律推理模型中需要解決的問題。對于規(guī)則的類型,哈特提出了“兩級規(guī)則”的理論,認為我們通常看到的法條都屬于第一級規(guī)則(主要規(guī)則),而第二級規(guī)則(次要規(guī)則)包括承認規(guī)則、改變規(guī)則、審判規(guī)則三種。根據(jù)次要規(guī)則,人們可以引進新的主要規(guī)則,或修改、取消原有的主要規(guī)則,或決定主要規(guī)則的范圍或控制其實施。規(guī)則驅(qū)動的可計算模型在目前大部分是應用主要規(guī)則,次要規(guī)則的使用是今后需要重點突破的內(nèi)容。為了解決兩級規(guī)則的問題,麥考密克提出了二次證明的法律推理模式,這種二次證明是為了輔助規(guī)則的適用而做的條件證明工作,?有利于緩解法律計算的復雜性。不過,二次證明的數(shù)量可能也是多項任務,那么就會增強規(guī)則驅(qū)動計算模型的開發(fā)成本和難度。從可計算法律的發(fā)展階段性來看,規(guī)則驅(qū)動的可計算方法在簡單案件和復雜案件的階段性任務中具有良好的發(fā)展空間。例如,我國司法機關(guān)近年來大力推動案件繁簡分流工作,在這類案件中可以支持當事人表格化地填寫訴訟請求和依據(jù),法官也可以要素式地進行審判并通過智能審判輔助系統(tǒng)而自動化地生成裁判文書。
數(shù)據(jù)驅(qū)動(Data-Driven)的可計算方法是近年來被寄予厚望的法律科技新路線,是以統(tǒng)計學為理論基礎,利用神經(jīng)網(wǎng)絡、決策樹等算法處理海量的法律數(shù)據(jù)從而基于相關(guān)性得出推理的結(jié)論。隨著數(shù)據(jù)的可用性、結(jié)構(gòu)化和不斷更新,理論和實證研究人員可以推進我們對復雜適應系統(tǒng)法律制度的理解。?數(shù)據(jù)驅(qū)動的機器學習和法律推理過程之間的相似之處不僅僅體現(xiàn)在判例法中,將法律規(guī)則應用于一組社會事實就是一個依賴于概念和規(guī)則之間的相互作用的算法過程,這些概念和規(guī)則在不同的概括性級別上表達,原則上與神經(jīng)分層和將相對權(quán)重分配給新的信息輸入沒有什么不同,這些新的信息輸入具有深度學習中使用的人工神經(jīng)網(wǎng)絡的特征。數(shù)據(jù)推理建模相較于規(guī)則推理建模,能夠讓法律人的操作經(jīng)驗以數(shù)據(jù)記錄的形式輸入到模型進行訓練,模型可以隨著數(shù)據(jù)的變化而進行優(yōu)化,進而可以與時俱進地提高模型泛化應用能力。數(shù)據(jù)推理建模路徑近年來主要表現(xiàn)為機器學習的方法,其模型中應用的算法包括分類、回歸、聚類、降維四大類別。在開發(fā)類案推薦系統(tǒng)時,其任務是比較相關(guān)案件之間的近似性或者差異性,我們往往會選擇分類算法;在離婚糾紛中進行是否做出離婚判決預測時,其任務是選擇離婚或者選擇不離婚,我們往往會選擇回歸算法;在開展刑事罪名預測時,其任務是將復雜的案件事實轉(zhuǎn)化為特定的罪名,此時可以選擇聚類算法;在幾乎大多數(shù)對數(shù)據(jù)進行預處理的過程中,如裁判文書的可計算表示,一般需要用降維的方法。在一個實用的可計算法律模型中,往往會用到多種算法,甚至對同一個任務采取多種算法來提升模型的準確性、召回率。
根據(jù)不同任務下的數(shù)據(jù)質(zhì)量和目標任務,數(shù)據(jù)驅(qū)動的人工智能模型開發(fā)可以分別采用無監(jiān)督、半監(jiān)督和有監(jiān)督的機器學習算法。其中,無監(jiān)督的機器學習算法只利用訓練樣本的數(shù)據(jù)分布或樣本間的關(guān)系將樣本劃分到不同的聚類簇或給出樣本對應的低維結(jié)構(gòu),主要被用于對樣本進行聚類或降維,典型的算法包括尺均值聚類和主成分分析等。在加工原始法律數(shù)據(jù)時,為了減少人工處理數(shù)據(jù)的成本,可以利用無監(jiān)督的方法對數(shù)據(jù)進行預處理,僅僅應用無監(jiān)督的方法一般難以達到落地可用的效果。半監(jiān)督的機器學習算法是在有標簽樣本較少的情況下,基于對數(shù)據(jù)結(jié)構(gòu)特征的平滑假設(Smoothness Assumption)、聚類假設(Cluster Assumption)、流型假設(Maniford Assumption),利用隱藏在大量無標簽樣本中的數(shù)據(jù)分布信息來提升僅使用少量有標簽樣本時的學習性能。在特定法律任務下,如果能夠?qū)ξ礃俗?shù)據(jù)的整體結(jié)構(gòu)做出上述假設,則可以在少量標注下利用大數(shù)據(jù)進行學習。然而,法律人工智能的實踐應用中最常用的依然是有監(jiān)督的機器學習方法,所有的回歸算法和分類算法都屬于有監(jiān)督學習,這樣建模路徑下用于模型訓練的法律數(shù)據(jù)樣本需要人工標注,從而形成一個有輸入有輸出的先驗知識積累,也即樣本和樣本標簽成對出現(xiàn)。監(jiān)督學習的目標是從訓練樣本中學習一個從樣本到標簽的有效映射,使其能夠預測未知樣本的標簽; 支持向量機(SVM)、神經(jīng)網(wǎng)絡、K-近鄰算法、決策樹、樸素貝葉斯、邏輯回歸都是有監(jiān)督模型中的常用算法類型。
規(guī)則推理建模代表了符號主義的人工智能路徑,數(shù)據(jù)推理建模代表了連接主義的人工智能路徑,他們分別具有一定的優(yōu)點和缺點。以可計算法律模型構(gòu)建中常用的自然語言處理技術(shù)為例,根植于數(shù)據(jù)基礎上的大規(guī)模預訓練模型形成了“力大者為王”的道路,其道路寬廣,順風而下,但貌似快走到盡頭; 根植于規(guī)則基礎上的小數(shù)據(jù)、富知識、因果推理形成了“智深者為上”的道路,其道路狹窄,逆風而上,但應該會悠長雋永。?為了達到一種可負擔、可落地的效果,學術(shù)界和產(chǎn)業(yè)界都在開始探索第三代人工智能路徑,也即知識+數(shù)據(jù)+算法+算力相融合的建模路徑。?算法和算力是計算科學的基礎知識而非計算法學的主要研究目標,廣義的知識包括了數(shù)據(jù)標簽和推理規(guī)則,依賴專家知識而形成數(shù)據(jù)標簽已經(jīng)在數(shù)據(jù)推理建模中得到較好應用,下一代可計算法律模型發(fā)展中需要強調(diào)的是融合推理規(guī)則和訓練數(shù)據(jù),故而在探索可計算法律的道路中應當提出“規(guī)則+數(shù)據(jù)”相融合的新方法。這種模式體現(xiàn)了人機協(xié)作的人工智能發(fā)展階段,其適中的績效狀態(tài)往往也能夠較好地滿足實用目的,故而成為了當前可落地人工智能模型開發(fā)中最實用的方法。近年來,在國際法律人工智能領域享有盛譽的ROSS Intelligence 也充分利用了規(guī)則+數(shù)據(jù)相融合的建模路徑,其引入法律知識突破,同時依托的IBM Watson 自動處理大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),進而訓練形成一個可以在破產(chǎn)糾紛等特定案由領域落地的法律人工智能系統(tǒng)。
相比于規(guī)則推理建模路徑和數(shù)據(jù)推理建模路徑,規(guī)則+數(shù)據(jù)融合推理不是嚴格意義上的新方法,其主要體現(xiàn)的是一種可落地應用的工程思維。在一個多功能的法律輔助系統(tǒng)中,務實的工程方法也是根據(jù)不同的任務而分別選擇規(guī)則推理建模、數(shù)據(jù)推理建模的方法,從而根據(jù)任務環(huán)境做出最佳選擇。例如,在一個罪名預測的任務中,我們可以用數(shù)據(jù)推理建模的方法對案件適用的法條進行預測,然后根據(jù)規(guī)則確定目標任務的罪名結(jié)果。同理,在一個類案推薦任務中,我們可以用數(shù)據(jù)建模的方法對案件的爭議焦點、適用法條、案件事實分別進行預測,然后根據(jù)預測結(jié)果和相應的推理規(guī)則來確定類案匹配任務的方案。在智慧法院的建設工作中,最高人民法院近年來積極推動要素式審判,其主要內(nèi)容是對固定案情的基本事實要素進行提煉,就各要素是否存在爭議進行歸納,包括要素式庭審和要素式裁判文書制作兩個方面。在該機制下,可計算法律模型會設定案件事實自動抽取任務、法律規(guī)范自動推薦任務、裁判文書自動生成任務等,其任務的實現(xiàn)方法一般都需要用規(guī)則+數(shù)據(jù)融合的推理路徑。
可計算法律的實踐是一個跨學科、跨部門的系統(tǒng)工程,需要法律實務部門、法學研究機構(gòu)、計算機研究機構(gòu)、信息系統(tǒng)開發(fā)企業(yè)等共同參與,需要使用計算機的基礎知識、前沿技術(shù),也需要對法律知識進行挑選、總結(jié)和再造,下文從法學研究和法學教育的角度提出實踐路徑。
在可計算法律的實踐發(fā)展中,我們要盡可能將法律人的思維方式賦予智能法律系統(tǒng)。按照法學知識體系,法律概念、法律行為、行為主體、權(quán)利義務、法律關(guān)系等等構(gòu)成了法律人進行邏輯思維的基礎,這可以讓法律人將各類生活中的事實轉(zhuǎn)化為法律中的事實,進而得出法律領域的計算結(jié)果。然而,人類所使用的自然語言與計算機所使用的編程語言是存在差異的,將人類語言表達的法律知識轉(zhuǎn)化為計算機可以處理的信息就是法律知識工程的任務,也可以稱之為知識表示任務。在計算機科學的發(fā)展過程中,知識表示的方法主要有本體、語義網(wǎng)、知識圖譜三個遞進的方法,同時也包括謂詞邏輯、框架、產(chǎn)生式規(guī)則、決策樹、貝葉斯網(wǎng)絡、馬爾科夫邏輯網(wǎng)絡等。?目前的法律知識表示工作依然處于一事一議的個性化研究階段,這導致相關(guān)的法律知識工程成果可復用性差,進而增加了可計算法律系統(tǒng)的開發(fā)成本、降低了相關(guān)工作的可持續(xù)性。在可計算法律的發(fā)展歷史中,我們需要補足長期開展而一直沒有形成有效成果的法律本體構(gòu)建,同時也需要結(jié)合近年來的技術(shù)發(fā)展趨勢構(gòu)建不同領域的法律知識圖譜。
要在計算機環(huán)境中表示法律知識,首先就要構(gòu)建法律領域的本體模型,這也是法律語義網(wǎng)、法律知識圖譜建設的基礎。本體能在語義和知識層次上表示專業(yè)領域的概念及概念間的相互關(guān)系,從而讓計算機理解法律數(shù)據(jù)中所蘊含的專業(yè)知識,而非將計算機記錄的信息僅僅作為字符串存在的原始數(shù)據(jù)。包括法律本體在內(nèi)的本體構(gòu)建工程有超過半個世紀的探索,國外已經(jīng)形成了計算機科學家與法律專家合作并得到政府部門支持的研究項目和研究成果,故而相關(guān)成果可以直接應用; 國內(nèi)的相關(guān)研究工作則主要是由計算機科學家根據(jù)其模型開發(fā)需要而從法律專業(yè)資料中選擇部分內(nèi)容作為依據(jù),故而只能是一種展示計算能力的原型系統(tǒng)。?需要說明的是,法律知識工程是一個耗時耗力的工作,國內(nèi)外都存在一些以壯志豪心啟動而以較低成效收場的法律知識工程,其主要原因在于法律本體構(gòu)建往往與法律智能系統(tǒng)開發(fā)綁定在一起而增加了工程負擔。例如,日本文部省在1993年提出了法律專家系統(tǒng)的五年開發(fā)計劃(1993—1998),該專家系統(tǒng)設定的一些自動推理目標沒有按預期實現(xiàn),反映出同時開展法律本體構(gòu)建、自動推理等復雜系統(tǒng)工作是存在巨大困難的。法律本體構(gòu)建作為法律知識工程的一個初期工作,其本身就具有獨立的價值,需要將法律本體構(gòu)建工作放在更加基礎性的位置。
法律知識圖譜構(gòu)建是大數(shù)據(jù)應用時代,知識表示技術(shù)在法律領域的應用。隨著計算機的普及應用,法律工作中的大量知識以電子數(shù)據(jù)的形式被記錄下來,然而其往往是以無邏輯關(guān)系的字符串方式存在。知識圖譜是一種用三元組方式來表達實體、概念及其之間各種語義關(guān)系的技術(shù),其能夠在法律本體庫的基礎上,于法律大數(shù)據(jù)中構(gòu)建起連接關(guān)系,最終用圖的數(shù)據(jù)結(jié)構(gòu)或者網(wǎng)絡的形式去存儲和表達知識。從目前法律人工智能的研發(fā)來看,結(jié)合人工標注形成的數(shù)據(jù)集和知識特征工程,按照法律要素框架,開展命名實體識別、關(guān)系抽取、屬性抽取、事件抽取,進而形成一個可用的法律知識圖譜模型。目前,構(gòu)建知識圖譜的方法主要是眾包法、爬蟲、機器學習、專家法等,可計算法律模型的開發(fā)中主要依賴專家經(jīng)驗、機器學習,而未來的方向則是實現(xiàn)相對少量的人工標記+大規(guī)模機器學習相結(jié)合的新路徑。
法律大數(shù)據(jù)的存在方便了計算處理,基于大數(shù)據(jù)形成的各種算法模型則有力地促進了可計算法律系統(tǒng)的落地開發(fā),而法律計算任務中所利用的數(shù)據(jù)在實踐中還有很多亟待完善的地方。數(shù)據(jù)是構(gòu)建計算系統(tǒng)所必需的關(guān)鍵基礎設施,其在很大程度上決定了計算系統(tǒng)的性能、公平性、穩(wěn)健性、安全性和可擴展性。在目前的人工智能產(chǎn)業(yè)中,大多數(shù)組織對不可見、費力且理所當然的數(shù)據(jù)工作缺乏系統(tǒng)認識,計算科學專家都想做模型而非數(shù)據(jù)工作,這導致了糟糕的數(shù)據(jù)實踐,進而引發(fā)數(shù)據(jù)庫級聯(lián)及一系列的數(shù)據(jù)質(zhì)量和倫理問題。?我們需要意識到原始采集的數(shù)據(jù)僅僅是一個記錄功能,用于模型訓練的數(shù)據(jù)則需要篩選出那些有必要作為正確樣例進行學習的樣本,同時也需要讓數(shù)據(jù)融入法律知識工程并以更加結(jié)構(gòu)化的方式被法律智能系統(tǒng)所理解。這些工作,往往不是計算機科學家可以解決的問題,而是需要本行業(yè)的專家對數(shù)據(jù)進行篩選和標記,從而形成可以被高效處理的法律數(shù)據(jù)集。
法律數(shù)據(jù)集構(gòu)建需要經(jīng)歷從無到有、從劣到優(yōu)的不同階段。隨著數(shù)字化轉(zhuǎn)型的發(fā)展,法律數(shù)據(jù)集已經(jīng)基本完成從無到有的階段性任務,法律智能系統(tǒng)研發(fā)組可通過各種公開渠道或者合作渠道獲取法律數(shù)據(jù)。可公開獲取的法律數(shù)據(jù)集包括三類:其一,各類政府機關(guān)建立的法律信息服務平臺所存儲的數(shù)據(jù);其二,其他組織或者個人發(fā)布的法律數(shù)據(jù)集;其三,研究人員在發(fā)表論文等科研成果時所發(fā)布的數(shù)據(jù)集。計算機技術(shù)的發(fā)展減輕了知識生產(chǎn)的勞動強度,同時也讓低質(zhì)量的知識生產(chǎn)更加容易,有意的粗制濫造和無意義的知識復制增加了知識的復雜度,還有一些低質(zhì)量的知識也能夠被持久地記錄和廣泛地傳播,這要求我們警惕“法學偽劣知識無序積累”的局面。?如果我們不加區(qū)分地對這些知識形成的法律數(shù)據(jù)進行處理,那么基于此而形成的機器學習模型自然也就缺乏可信度。?在商業(yè)領域開發(fā)的個性化推薦算法即便所依賴的數(shù)據(jù)存在偏差也不會產(chǎn)生實質(zhì)的影響;然而法律關(guān)涉人的權(quán)利義務,準確性是法律取得公信力的生命線。所以,我們需要篩選形成可信的數(shù)據(jù)集,如可以成為學習樣本的案例庫、可以識別有效性的法律法規(guī)庫,以避免數(shù)據(jù)中存在的偏差通過法律智能系統(tǒng)被錯誤地固化。
在目前的法律數(shù)據(jù)集來源中,研究者發(fā)布的數(shù)據(jù)在法律智能系統(tǒng)任務開發(fā)中的可用性最高,但是其往往只能用于特定范圍的小任務; 政府和企業(yè)發(fā)布的數(shù)據(jù)可復用性強,但是其往往服務于信息公開或者知識產(chǎn)品服務,這些數(shù)據(jù)對于法律智能系統(tǒng)任務而言可用性較差或者成本較高。面向未來,法律智能系統(tǒng)開發(fā)實踐需要更多能夠用較小處理成本獲取的高質(zhì)量數(shù)據(jù)集。由于法律智能輔助任務豐富多樣,法律數(shù)據(jù)本身也在不斷更新發(fā)展,所以在實踐中不可能形成一勞永逸的數(shù)據(jù)集。但是,我們可以建立通用數(shù)據(jù)集+特色數(shù)據(jù)集相結(jié)合的法律數(shù)據(jù)中心,在裁判文書、法律法規(guī)、學術(shù)文獻等通用領域建立高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)庫以成為公共產(chǎn)品,在合同文本、起訴狀、特定案由裁判規(guī)則等領域推廣優(yōu)秀數(shù)據(jù)集以鼓勵特色數(shù)據(jù)集的創(chuàng)造。結(jié)合法律知識工程的成果,我們還需要完善數(shù)據(jù)采集和存儲的技術(shù)標準,提高法律數(shù)據(jù)的操作性和可復用性。例如,最高人民法院統(tǒng)一裁判文書編號、統(tǒng)一案由分類,這些都是提升數(shù)據(jù)質(zhì)量的具體方法。此外,正如《歐洲數(shù)據(jù)治理條例(草案)》所提出的,我們必須建立一個單一的聯(lián)絡點,以支持研究人員和創(chuàng)新企業(yè)能夠利用合適的數(shù)據(jù)來提高技術(shù)能力。在中國可計算法律的發(fā)展道路上,我們期待一個協(xié)調(diào)有力的組織推動法律數(shù)據(jù)標準體系的完善,協(xié)調(diào)法律數(shù)據(jù)的生產(chǎn)和利用。
目前,計算思維已經(jīng)成為一種與實證思維、理論思維相并列的解決問題的思考方式,其內(nèi)涵是運用計算科學的基本理念來解決問題、設計系統(tǒng)以及理解人類行為,數(shù)據(jù)、分解、模型、模擬、自動化、算法是計算思維所需要深入掌握的基本概念,“輸入→算法模型→輸出”程序是可計算法律設計的基本形式。也有觀點進一步提出計算法學思維,其要求法律人在解析法學研究問題時能夠意識到怎樣的法學問題有可能被數(shù)據(jù)化,并適合通過計算機實現(xiàn),設想出將問題分解為計算機可實現(xiàn)問題的路徑,并能進一步了解實現(xiàn)需要的方法和條件是否存在,以及掌握建立條件、運用方法讓計算機系實現(xiàn)研究的能力。?
開創(chuàng)具有計算思維的法學教育也是一個正處于發(fā)展之中的行動,不論中外,許多法學院都已經(jīng)明確把促進交叉學科創(chuàng)新和培養(yǎng)科技運用能力作為其學院的整體發(fā)展使命之一。?例如,美國律師協(xié)會未來法律服務委員會的研究報告指出,法學教育很可能正處于一個時代的轉(zhuǎn)折點,在這個時代中,法律科技應用技術(shù)類課程的數(shù)量比以往任何時候都要以更快的速度增長。?然而,將計算思維納入法學教育是一個存在難度且具有爭議的問題。根據(jù)我們的跟蹤觀察,目前大多數(shù)高校的法律與科技項目都偏重于知識產(chǎn)權(quán)法、信息技術(shù)法、數(shù)據(jù)法的研究,真正開設有計算思維法律人才培養(yǎng)項目或者課程的只有斯坦福大學等少數(shù)學校的法學院。在這種背景之下,有人假想在麻省理工學院專門創(chuàng)辦理工特色法學院的可行性,從而區(qū)別于傳統(tǒng)的文科法學院,培養(yǎng)符合21 世紀新需求的法律人。?未來,我們需要充分認識在法學院進行科技創(chuàng)新可能面臨的種種障礙,這些障礙包括傳統(tǒng)認知、未知的壓力、過時的課程、教學和評估方法、法學院排名、教師抵制、對現(xiàn)有技術(shù)的無效利用以及法律教育成本的上升。?法學教育應當維護傳統(tǒng)還是鼓勵創(chuàng)新,這是一個長期爭論的問題。計算法學的法學教育者在發(fā)展過程中需要平衡短期利益和長遠前景之間的關(guān)系,主管部門和評價機構(gòu)也應當為法學教育創(chuàng)新探索提供必要的試驗空間和鼓勵措施。近年來,法律創(chuàng)新實驗室正在成為培養(yǎng)計算思維法律人才的基礎設施,國外法學院在21世紀興起了法律創(chuàng)新實驗室建設趨勢,?我國教育部在2021年12月公布了首批文科實驗室建設名單。我們期待以此類實驗室為載體激發(fā)法學和計算科學融合的新思維,倡導協(xié)作工作、基于實踐和基于工具的研究方法,形成對法律創(chuàng)新發(fā)展具有實用性和創(chuàng)新性支持的研究成果。
科學發(fā)展的主要目標是降低復雜度、提高可計算性,而當代的計算能力突出體現(xiàn)在計算科學技術(shù)之中。計算法學的發(fā)展需要我們從可計算的思維創(chuàng)新法學知識的生產(chǎn)和服務方式,進一步強化法律規(guī)則的權(quán)威性、裁判標準的統(tǒng)一性和知識內(nèi)容的數(shù)據(jù)化、標準化。面向未來,我們需要在法律知識表示方法、法律數(shù)據(jù)利用能力、法律可計算建模技術(shù)、智慧司法程序創(chuàng)新、未來法律知識中心、復合型人才培養(yǎng)等方面完善計算法學研究方法和學科體系。在計算法學的研究之中,法律人要善于以數(shù)據(jù)輸入+算法模型+結(jié)果輸出的思維定義法律任務,計算科學人也要更加全面地引入法律知識和復雜任務。此外,在法學學生中進行AI4Law和Law4AI 的雙向?qū)W習,有利于更好地培養(yǎng)法律思維和創(chuàng)新精神,更好地適應未來社會的發(fā)展需求。
注釋:
①Oliver Wendell Holmes,Jr.,The Path of the Law,Harvard Law Review,Vol.10,No.8(Mar.25,1897),pp.457-478.
②申衛(wèi)星、劉云:《法學研究新范式:計算法學的內(nèi)涵、范疇與方法》,《法學研究》2020年第5 期。
③張寅生:《計算理論解析》,清華大學出版社2016年版,第5 頁。
④蘇毓淞、劉江銳:《計算社會科學與研究范式之爭:理論的終結(jié)? 》,《復旦學報(社會科學版)》2021年第2 期。
⑤Rediet Abebe et al.,Roles for Computing in Social Change,Proceedings of the 2020 Conference on Fairness,Accountability,and Transparency,January 2020,pp.252-260,available at https://dl.acm.org/doi/abs/10.1145/33510 95.3372871.
⑥Ray M.Changa,Robert J.Kauffman,YoungOk Kwon,Understanding the Paradigm Shift to Computational Social Science in the Presence of Big Data,Decision Support Systems,Volume 63,July 2014,pp.67-80.
⑦Chris Anderson,The End of Theory: The Data Deluge Makes the Scientific Method Obsolete,WIRED,June 24,2008.
⑧Fei-Yue Wang,Toward a Paradigm Shift in Social Computing: The ACP Approach,IEEE Intelligent Systems,Volume 22 Issue 5,September/October 2007,p.65.
⑨3583-34 社會計算與社會智能專業(yè)委員會,參見https://caai.cn/index.php?s=/home/article/detail/id/1031.html。
⑩David Lazer et al.,Computational Social Science,Science,6 Feb 2009,Vol.323,Issue 5915,pp.721-723.
?Winter Mason,Jennifer Wortman Vaughan & Hanna Wallach,Computational Social Science and Social Computing,Machine Learning,Volume,2014(95),p.257.
?Alberto Artosi and Giovanni Sartor,Leibniz as Jurist,at The Oxford Handbook of Leibniz,edited by Maria Rosa Antognazza,New York:Oxford University Press,2018.Leibniz,Gottfried Wilhelm,Dissertatio de Arte Combinaoria(1666).
?李紅勃、王潔:《萊布尼茨論法學及其研究方法》,《中國社會科學報》2015年12月23日。
?舒國瀅:《尋訪法學的問題立場——兼談“論題學法學”的思考方式》,《法學研究》2005年第3 期。
?[德]卡爾·拉倫茨:《法學方法論》,陳愛娥譯,商務印書館2003年版,第150 頁。
?[美]霍姆斯:《普通法》,冉吳、姚中秋譯,中國政法大學出版社2006年版,第1 頁。
?[美] Frederick P.Brooks:《設計原本——計算機科學巨匠Frederick P.Brooks 的反思》,機械工業(yè)出版社2013年版,第15~30 頁。
?董榮勝:《計算思維的結(jié)構(gòu)》,中國工信出版社集團、人民郵電出版社2017年版,第6 頁。
?[美]伊恩·古德費洛、[加]約書亞·本吉奧、[加]亞倫·庫維爾:《深度學習》,趙申劍、黎彧君、符天凡、李凱譯,中國工信出版社、人民郵電出版社2017年版,第1~2 頁。
?Stephen Wolfram,A New Kind of Science,Wolfram Media Inc,2002,p.1.
?雷磊:《什么是法律邏輯? ——烏爾里?!た吮R格〈法律邏輯〉介評》,《政法論壇》2016年第1 期。
??[英]尼爾·麥考密克:《法律推理與法律理論》,姜峰譯,法律出版社2018年版,前言第2~3、120 頁。
?[美]凱文·D.阿什利:《人工智能與法律解析——數(shù)字時代法律實踐的新工具》,商務印書館2020年版,第46 頁。
?J.B.Ruhl & Daniel Martin Katz,Harnessing Legal Complexity: Bring Tools of Complexity Science to Bear on Improving Law,Science,March 31,2017,Vol.355 Issue 6332,p.1377.
?孫茂松:《自然語言處理一瞥:知往鑒今瞻未來》,載微信公眾號“中國人工智能學會”,2022年3月3日。
?張鈸、朱軍、蘇航:《邁向第三代人工智能》,《中國科學·信息科學》2020年第9 期。
?肖仰華等編著:《知識圖譜》,中國工信出版社、電子工業(yè)出版社2020年版,第10 頁。
?何慶、湯庸、黃永釗:《基于本體的法律知識庫的研究與實現(xiàn)》,《計算機科學》2007年第2 期。
?Sambasivan,Nithya et al.Everyone wants to do the model work,not the data work: Data Cascades in High-Stakes AI.Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems(2021),Article No.39,pp.1-15.
?舒國瀅、王夏昊、梁迎修:《法學方法論問題研究》,中國政法大學出版社2007年版,第6 頁。
?Jerrold Tsin Howe SOH,Building Legal Datasets,SMU Research Collection School Of Law(2021),pp.1-7.
?鄧矜婷:《計算法學方法初階》,法律出版社2021年版,第10 頁。
?Irene Scharf & Vanessa Merton,Table of Law School Mission Statements,University of Massachusetts School of Law:Faculty Publications,2016,pp.1-121.
?American Bar Association,The Delivery of legal Services in the United States: The Commission's Findings,in A Report on The Future of Legal Services In The United States,2016,p.19.
?Daniel Martin Katz,The MIT School of Law? A Perspective on Legal Education in the 21st Century,University of Illinois Law Review,2014,p.1460.
?John O.Sonsteng,A Legal Education Renaissance: A Practical Approach for the Twenty-first Century,William Mitchell Law Review,Vol.34 Issue1(2007),p.333.
?Martha F.Davis,Institutionalizing Legal Innovation:The(Re)Emergence of the Law Lab,Journal of Legal Education,Vol.65,No.1(August 2015),pp.190-206.