□涂 釩
(華東政法大學(xué) 法律學(xué)院,上海 200042)
我國(guó)司法大數(shù)據(jù)的深度應(yīng)用助力法治工作理念創(chuàng)新、提質(zhì)增效,支撐現(xiàn)代化訴訟服務(wù)體系的全面建立。大數(shù)據(jù)應(yīng)用正持續(xù)深入司法決策體系之中,成果頗豐惠民便民。同時(shí),也應(yīng)識(shí)別大數(shù)據(jù)陷阱,提前防范應(yīng)用風(fēng)險(xiǎn)。因?yàn)轱L(fēng)險(xiǎn)已經(jīng)在美國(guó)發(fā)生,尤以美國(guó)犯罪數(shù)據(jù)在司法實(shí)踐中的應(yīng)用爭(zhēng)議最為明顯。數(shù)據(jù)本身的陷阱及需要防范的風(fēng)險(xiǎn)具有普遍性和本質(zhì)性,是所有裹身進(jìn)入大數(shù)據(jù)和人工智能時(shí)代的國(guó)家都需審慎應(yīng)對(duì)的,尤其對(duì)已占有司法人工智能領(lǐng)域高地的我國(guó)來(lái)說(shuō),更具有現(xiàn)實(shí)意義。
傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)時(shí)代是采取傳統(tǒng)統(tǒng)計(jì)學(xué)方法,先假設(shè)后對(duì)各種犯罪相關(guān)指標(biāo)、絕對(duì)數(shù)進(jìn)行驗(yàn)證,將犯罪現(xiàn)象轉(zhuǎn)化為數(shù)據(jù)形式進(jìn)行記錄和觀察,實(shí)現(xiàn)“測(cè)量犯罪狀況及其對(duì)社會(huì)造成的損失程度、分析犯罪原因,預(yù)測(cè)犯罪動(dòng)向與趨勢(shì)的目的”[1](p85)。
美國(guó)傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)時(shí)代的特征十分鮮明,包括數(shù)據(jù)來(lái)源窄、人為介入因素多、數(shù)據(jù)收集功效弱,綜合概括為美國(guó)統(tǒng)計(jì)數(shù)據(jù)時(shí)代是拓展數(shù)據(jù)集邊界的人工摸索。
數(shù)據(jù)來(lái)源窄。運(yùn)用傳統(tǒng)統(tǒng)計(jì)學(xué)分析犯罪的研究方法在19世紀(jì)孕育,大西洋彼岸的英國(guó)于1856年開(kāi)始探索犯罪統(tǒng)計(jì)數(shù)據(jù)的應(yīng)用,致力于衡量英國(guó)刑法法典化改革的成效,以及為未來(lái)刑法的發(fā)展提供思路[2](p485)。那時(shí)的美國(guó)研究因缺乏統(tǒng)一的刑法典而十分依賴各種形式的官方數(shù)據(jù),以研究犯罪活動(dòng)、監(jiān)獄活動(dòng)為主,旨在提高司法實(shí)踐的效率與公正。
19世紀(jì)末,犯罪學(xué)研究的先驅(qū)威廉·道格拉斯·莫里森率先將司法數(shù)據(jù)的應(yīng)用研究基礎(chǔ)分為三類,即警務(wù)數(shù)據(jù)(Police statistics)、司法審判數(shù)據(jù)和監(jiān)獄數(shù)據(jù),并依據(jù)權(quán)威的官方統(tǒng)計(jì)衡量了三類數(shù)據(jù)的價(jià)值權(quán)重,得出警務(wù)數(shù)據(jù)最優(yōu)的結(jié)論[3](p2)。莫里森指出“監(jiān)獄數(shù)據(jù)以服刑統(tǒng)計(jì)為主,必須有經(jīng)過(guò)司法過(guò)程認(rèn)定的違法行為,但并不是所有的違法者、被法律裁定的有罪者都會(huì)被判監(jiān)禁刑罰;司法審判數(shù)據(jù)是司法機(jī)關(guān)在刑事訴訟過(guò)程中所做的犯罪統(tǒng)計(jì),只反應(yīng)審判過(guò)程及結(jié)果;而警務(wù)數(shù)據(jù)來(lái)源于一系列在警局備案的犯罪調(diào)查和記錄,是對(duì)年度犯罪情況最全面、綜合性最強(qiáng)的統(tǒng)計(jì),具有司法審判數(shù)據(jù)和監(jiān)獄數(shù)據(jù)無(wú)可比擬的優(yōu)勢(shì)”[3](p4)。
20世紀(jì)中期,數(shù)據(jù)應(yīng)用的思維和研究發(fā)生了變化。為了增加可供取樣的司法數(shù)據(jù)集合,美國(guó)犯罪統(tǒng)一報(bào)告計(jì)劃(UCR)開(kāi)始了①全稱“Uniform Crime Reporting Program”,包括四個(gè)數(shù)據(jù)集:國(guó)家事件報(bào)告系統(tǒng)(NIBRS),摘要報(bào)告系統(tǒng)(SRS),執(zhí)法人員被殺和被攻擊(LEOKA)計(jì)劃以及仇恨犯罪統(tǒng)計(jì)計(jì)劃。。首個(gè)被害者調(diào)查計(jì)劃新鮮出爐,致力于找出公眾所知但警方未記錄的犯罪數(shù)據(jù)。被害人回憶的價(jià)值被重新認(rèn)識(shí),這被視作犯罪學(xué)研究的一個(gè)重大突破。遺憾的是,被調(diào)查者似乎原先被認(rèn)為回憶犯罪行為是一件容易的事,因?yàn)榉缸镄袨橥ǔ]^為不平凡,但事實(shí)上記憶衰退和自我記憶修正使回憶無(wú)法精準(zhǔn)復(fù)刻。因而,數(shù)據(jù)來(lái)源始終未能充分?jǐn)U大。
人為介入因素多。新理論的出現(xiàn)對(duì)官方數(shù)據(jù)衡量犯罪行為的可靠性和完整性提出了質(zhì)疑。有限的數(shù)據(jù)集因人為介入因素過(guò)多,引發(fā)了數(shù)據(jù)分析結(jié)果的異常。警務(wù)數(shù)據(jù)的價(jià)值討論最為激烈。賦予其高階價(jià)值的觀點(diǎn)認(rèn)為應(yīng)以立案、起訴和審判數(shù)據(jù)為衡量犯罪發(fā)生率、影響范圍的主要指標(biāo)[4](p4)。我國(guó)部分學(xué)者也稱,基于“漏斗效應(yīng)”,警方的立案、抓捕統(tǒng)計(jì)最接近實(shí)際犯罪數(shù)量,應(yīng)是犯罪統(tǒng)計(jì)中最有價(jià)值的數(shù)據(jù)集[1](p88)。
然而,由于警務(wù)記錄通常與犯罪行為、政策措施和警民關(guān)系有著復(fù)雜的多向關(guān)系,公眾的不信任感似乎也在情理之中②本杰明·迪斯雷利的名言是,“世界上有三種謊言:謊言、鬼話連篇和統(tǒng)計(jì)”(There are three kinds of lies:lies,damned liesand statistics)。。1940年,反對(duì)者也曾提出,警局的立案數(shù)據(jù)、抓捕數(shù)據(jù)會(huì)為了歌頌當(dāng)?shù)卣?jī)而文過(guò)飾非,也因誣告、無(wú)聊指控和假想防衛(wèi)有不可靠?jī)A向,雖然并不絕對(duì),但此類情形當(dāng)然存在[3](p5)。著名的心理學(xué)家及人權(quán)擁護(hù)者拉爾夫·克勞肖諷刺地說(shuō),“有時(shí)候,原本應(yīng)該保護(hù)我們安全的人卻成為我們最害怕的人”[5](p375)。無(wú)獨(dú)有偶,警務(wù)數(shù)據(jù)的可靠性在英國(guó)的地位始終居于司法數(shù)據(jù)之下。英國(guó)官方司法統(tǒng)計(jì)報(bào)告表示,“司法統(tǒng)計(jì)結(jié)果之表格乃最重要、最確定、最精準(zhǔn)的犯罪數(shù)據(jù)統(tǒng)計(jì),警務(wù)數(shù)據(jù)次之,居附屬地位”[6](p10)。
數(shù)據(jù)收集功效弱。收集方法主要是國(guó)家主導(dǎo)與零星的公民報(bào)告相結(jié)合。1930年,國(guó)會(huì)授權(quán)國(guó)家移民局身份識(shí)別及信息搜集與編輯部門統(tǒng)計(jì)全美犯罪數(shù)據(jù)③Federal Bureau of Investigation.History.[2019-05-26].https://www.fbi.gov/history/timeline.,開(kāi)啟了建立在小數(shù)據(jù)之上的全國(guó)犯罪數(shù)據(jù)應(yīng)用分析方法。以警務(wù)數(shù)據(jù)集為重點(diǎn),公民報(bào)告與監(jiān)獄數(shù)據(jù)次之,再輔以調(diào)查研究、定義描述與概念構(gòu)建、量化模型等手段。警務(wù)數(shù)據(jù)的價(jià)值爭(zhēng)議上文已述,其他研究方法成效也不明顯,功效性較弱。
公民報(bào)告數(shù)據(jù)的搜集主要是通過(guò)基于“特殊電話亭”到“雙向無(wú)線電交流”等輿情應(yīng)答系統(tǒng)①最早有記可考的輿情應(yīng)答記錄回溯到了英格蘭時(shí)期,那時(shí)的警員手持響鈴,民眾一旦發(fā)現(xiàn)新情況就主動(dòng)報(bào)告,警員立即用響鈴?fù)ㄖ渌ぷ骰锇?。發(fā)展而來(lái)的緊急通訊熱線實(shí)現(xiàn)的。而專門從事犯罪人研究的監(jiān)獄機(jī)構(gòu),天然有著便捷抽出“犯罪人”樣本的途徑,監(jiān)獄數(shù)據(jù)也有統(tǒng)計(jì)學(xué)意義上的可靠性。但是,二者的樣本數(shù)量都偏少。據(jù)統(tǒng)計(jì),80%的公民撥打熱線都是因?yàn)橥话l(fā)事件影響了自身生活,譬如噪音投訴、報(bào)告路邊無(wú)人認(rèn)領(lǐng)的汽車,只有不到20%的公民打求助電話是因?yàn)閲?yán)重的刑事案件發(fā)生[5](p380)。而辯訴交易的存在讓大部分刑事案件都未進(jìn)入最后的司法程序,降低了監(jiān)獄犯罪人數(shù)統(tǒng)計(jì)數(shù)量。
此外,UCR報(bào)告也未能破除管中窺豹的問(wèn)題。因?yàn)橹挥型ㄟ^(guò)刑偵找到佐證,具備“事實(shí)上的違法要件”的犯罪才會(huì)錄入U(xiǎn)CR報(bào)告[4](p5),“不是所有犯罪都達(dá)到了被警署重視的程度,不是所有犯罪在指數(shù)統(tǒng)計(jì)時(shí)都有足夠重要的分量,不是每次富有意義的指標(biāo)展現(xiàn)出充分規(guī)律時(shí)就有要案發(fā)生旁以佐證”②Federal Bureau of Investigation.History.[2019-05-26].https://www.fbi.gov/history/timeline.。
時(shí)代背景的局限。20世紀(jì)50年代計(jì)算機(jī)科學(xué)的誕生為大規(guī)模集成數(shù)據(jù)拉開(kāi)序幕,但對(duì)統(tǒng)計(jì)學(xué)家在更大空間區(qū)域內(nèi)搜集數(shù)據(jù)信息的助益十分有限。一是緣于當(dāng)時(shí)的計(jì)算機(jī)在物理硬件、編程技術(shù)與投入成本等方面的束縛明顯。二是核心處理程序?qū)崿F(xiàn)了處理復(fù)雜信息的能力,消除了原本耗費(fèi)四分之一總計(jì)算時(shí)間進(jìn)行數(shù)據(jù)人工排序的沉沒(méi)成本。但并未找到程序與人腦邏輯處理問(wèn)題匹配度高的范式,即人類語(yǔ)言邏輯與計(jì)算機(jī)處理的數(shù)據(jù)之間存在顯著差異,未實(shí)現(xiàn)人機(jī)對(duì)話等交互式智能應(yīng)用。三是計(jì)算能力的提升打破了傳統(tǒng)統(tǒng)計(jì)只能在結(jié)構(gòu)化數(shù)據(jù)源中檢索的限制,使獲取非結(jié)構(gòu)化信息成為可能,簡(jiǎn)化了統(tǒng)計(jì)圖表的表達(dá),但建模的情境對(duì)話還處在初級(jí)階段,格式匹配等處理程序還處于初級(jí)階段。
抽樣調(diào)查方法的局限。在小數(shù)據(jù)時(shí)代,數(shù)據(jù)化基礎(chǔ)薄弱,數(shù)據(jù)化的信息較少,信息傳播速度較慢,信息實(shí)時(shí)共享功能尚未開(kāi)發(fā),抽樣調(diào)查測(cè)量分析方法是當(dāng)時(shí)的最優(yōu)解。在解決簡(jiǎn)單問(wèn)題時(shí),抽樣調(diào)查可以發(fā)現(xiàn)快速變化的量,找到數(shù)據(jù)之間的特殊函數(shù)關(guān)系。但是,它卻無(wú)法迅速地發(fā)現(xiàn)慢變量,即隱藏著深刻影響力的變量。并且,測(cè)量方法設(shè)計(jì)的再完善也無(wú)法避免漏掉在“未抽樣”信息中的重要數(shù)據(jù),數(shù)據(jù)之間的相關(guān)性也不會(huì)總表現(xiàn)出結(jié)構(gòu)性。
許多學(xué)者指出,傳統(tǒng)數(shù)據(jù)時(shí)代的實(shí)驗(yàn)邏輯使統(tǒng)計(jì)數(shù)據(jù)系統(tǒng)性的少計(jì)算了犯罪行為,無(wú)法反映事實(shí)全貌,未被假設(shè)的結(jié)論自然也不在計(jì)算實(shí)驗(yàn)的考量之內(nèi)。那些未被納入的所謂的“隱藏的犯罪事例”被稱為“犯罪暗數(shù)”。其概念十分模糊,既可以指“那些在某一標(biāo)準(zhǔn)上可被定義為犯罪的事件,卻沒(méi)有被任意一個(gè)數(shù)據(jù)提供機(jī)構(gòu)當(dāng)作犯罪行為記錄儲(chǔ)存”[4](p1),也可以指“人們對(duì)尚未發(fā)現(xiàn)的犯罪行為和犯罪人的圖景或意象”[8](p4)。暗數(shù)曾經(jīng)一度使美國(guó)的下層社會(huì)承擔(dān)了更多壓力,尤其是居住在偏遠(yuǎn)地區(qū)的青少年,他們被看作是犯罪亞文化的潛在成員[8](p14)。
傳統(tǒng)統(tǒng)計(jì)結(jié)果的局限。預(yù)測(cè)結(jié)果的局限一是因?yàn)橹R(shí)獲取與邏輯耦合存在客觀困難,使統(tǒng)計(jì)結(jié)果的輸出頻率較低。這是當(dāng)時(shí)的硬件,譬如計(jì)算機(jī)內(nèi)存無(wú)法滿足復(fù)雜推理計(jì)算能力的現(xiàn)實(shí)所導(dǎo)致的,又因?yàn)榇笠?guī)模知識(shí)獲取的困難使大規(guī)模邏輯推理進(jìn)展緩慢。傳統(tǒng)數(shù)據(jù)分析結(jié)果集中在回答“為什么”,試圖用圖標(biāo)或表格式呈現(xiàn)因果關(guān)系。但小微信息難以捕捉,預(yù)測(cè)出現(xiàn)異常規(guī)律時(shí)傳統(tǒng)方法也難以認(rèn)可。二是在數(shù)據(jù)來(lái)源增多后,雖然突破了知識(shí)獲取的瓶頸,卻暫時(shí)無(wú)法媲美人工精密篩選與摘取的數(shù)據(jù)質(zhì)量,未能提高樣本標(biāo)準(zhǔn),無(wú)法對(duì)干擾數(shù)據(jù)信息進(jìn)行有效排除,使數(shù)據(jù)輸入呈現(xiàn)了低質(zhì)量“垃圾輸入,廢物輸出”①“garbagein,garbageout.”狀態(tài),統(tǒng)計(jì)結(jié)果的可靠程度十分有限,客觀規(guī)律亦只能在某一限定區(qū)域內(nèi)反復(fù)證明。
以此為據(jù)的預(yù)測(cè)引發(fā)的擔(dān)憂主要有兩點(diǎn)。一方面,預(yù)測(cè)結(jié)果滯后,缺乏時(shí)效性。統(tǒng)計(jì)預(yù)測(cè)結(jié)果質(zhì)量的保障之一即信息更新及時(shí),尤其是商品零售價(jià)格指數(shù)、房地產(chǎn)開(kāi)發(fā)投資消費(fèi)指數(shù)等具備重要指導(dǎo)性功能的月度國(guó)家統(tǒng)計(jì)數(shù)據(jù),如若不能穩(wěn)固發(fā)布頻率,及時(shí)對(duì)上月統(tǒng)計(jì)數(shù)據(jù)有效分析,則無(wú)法準(zhǔn)確發(fā)揮宏觀調(diào)控職能對(duì)通貨膨脹規(guī)律進(jìn)行預(yù)測(cè)。另一方面,樣本應(yīng)用次數(shù)有限,統(tǒng)計(jì)成本高。樣本中的數(shù)據(jù)篩選通常只為了滿足單一用途,樣本不具備頻繁反復(fù)適用功能,因而為了滿足其他需求只能重新采集數(shù)據(jù),這導(dǎo)致統(tǒng)計(jì)成本隨之增加。不僅限制了統(tǒng)計(jì)學(xué)發(fā)揮作用的范圍,也無(wú)法展開(kāi)對(duì)非數(shù)據(jù)化的行業(yè)領(lǐng)域數(shù)據(jù)的處理分析。
此外,二十一世紀(jì)后,司法數(shù)據(jù)的應(yīng)用已不再局限于官方統(tǒng)計(jì),也不再囿于犯罪研究,而是悄然深入生活的各個(gè)方面,后大數(shù)據(jù)時(shí)代的來(lái)臨開(kāi)啟了數(shù)據(jù)智能新時(shí)代。
進(jìn)入2012年,膨脹的數(shù)據(jù)使物理、金融等各領(lǐng)域全面開(kāi)啟了量化進(jìn)程,吹響了以“容量巨大、速度迅捷、種類繁多”為特征的大數(shù)據(jù)時(shí)代[7](p949)顛覆統(tǒng)計(jì)數(shù)據(jù)的應(yīng)用邏輯思維,重新賦予統(tǒng)計(jì)學(xué)更多含義的號(hào)角。短短數(shù)年,數(shù)據(jù)的信息含量和載體形式呈現(xiàn)出與傳統(tǒng)數(shù)據(jù)完全不同的豐富圖景,以往無(wú)法想象可以量化的人的物理行為軌跡、社交媒體活躍狀態(tài)、醫(yī)療保健臨床信息等領(lǐng)域?qū)Α皵?shù)據(jù)處理”思路提出了更高挑戰(zhàn),推動(dòng)以數(shù)據(jù)為核心的“第四次工業(yè)革命”迅速進(jìn)入了后大數(shù)據(jù)時(shí)代。所謂后大數(shù)據(jù)時(shí)代即融合人類智能、人工智能以及海量非結(jié)構(gòu)化數(shù)據(jù)的智能數(shù)據(jù)時(shí)代,諸多學(xué)科迅速頻繁地交叉融合,以算法為驅(qū)動(dòng),結(jié)合數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人機(jī)交互、可視化等技術(shù)做出“預(yù)測(cè)”與“決策”[8](p2)。以全域采集為目標(biāo)的司法數(shù)據(jù)、以預(yù)測(cè)警務(wù)為向?qū)У乃痉▽?shí)踐、以人工智能為依據(jù)的司法量刑為代表的三大數(shù)據(jù)智能應(yīng)用已在當(dāng)下來(lái)臨,爭(zhēng)議,也隨之而來(lái)。
預(yù)計(jì)在2021年徹底淘汰傳統(tǒng)UCR計(jì)劃里摘要報(bào)告系統(tǒng)的國(guó)家事故報(bào)告系統(tǒng)②全稱National Incident Based Reporting System,簡(jiǎn)稱“NIBRS”。宣告全美范圍內(nèi)的司法數(shù)據(jù)從抽樣統(tǒng)計(jì)向全樣本數(shù)據(jù)采集過(guò)渡,智能數(shù)據(jù)集成管理系統(tǒng)逐漸完善。
其優(yōu)勢(shì)十分顯著。第一,數(shù)據(jù)質(zhì)量整體提升。系統(tǒng)記錄了每一起犯罪事件的來(lái)龍去脈,包括共同犯罪中的單獨(dú)犯罪行為,受害者與已知罪犯之間的關(guān)系等全景信息;第二,違法行為標(biāo)簽增多。系統(tǒng)收集了52項(xiàng)違法行為的整體數(shù)據(jù),提供十項(xiàng)違規(guī)行為的犯罪地點(diǎn),案發(fā)時(shí)間及犯罪背景的匹配;第三,比較分析能力提升。執(zhí)法部門借此可以看到犯罪行為的諸多面相,以及非結(jié)構(gòu)化因素之間隱藏的多重關(guān)聯(lián)[9]。同時(shí),對(duì)司法數(shù)據(jù),尤其是犯罪數(shù)據(jù)的深入挖掘展示了更為清晰的社會(huì)犯罪圖景。
但是,NIBRS的司法數(shù)據(jù)無(wú)法實(shí)現(xiàn)對(duì)政治性扭曲或操作的完全免疫。事實(shí)上,越是高質(zhì)量的數(shù)據(jù)越有可能是偽裝和矯飾的產(chǎn)物,因?yàn)樗碇绹?guó)對(duì)于司法實(shí)踐中犯罪控制活動(dòng)的積極態(tài)度,而負(fù)面數(shù)據(jù)或消極證據(jù)或許會(huì)被執(zhí)法機(jī)構(gòu)自動(dòng)忽視。而且從程序上來(lái)說(shuō),項(xiàng)目決策的隱秘性也很強(qiáng)[10](p150)。
此外,生態(tài)謬論的傾向性較為明顯。對(duì)此最直接的理解是,用高層次、大范圍的集合數(shù)據(jù)為基數(shù)展開(kāi)分析,推出低層次、窄范圍的個(gè)體結(jié)論。例如,從未有過(guò)任何犯罪記錄的羅伯特·麥克丹尼爾卻意外地被芝加哥警署人員登門警告他不要逾矩,原因是芝加哥警署依據(jù)抓捕記錄和犯罪地點(diǎn)制作了犯罪高發(fā)區(qū)域預(yù)警名單,麥克丹尼爾成為400人名單上的一員[11](p12)。這是智能警務(wù)預(yù)測(cè)系統(tǒng)的結(jié)果,也是數(shù)據(jù)智能可能陷入生態(tài)謬論的直接表現(xiàn)。
以預(yù)防犯罪為主導(dǎo)的司法態(tài)度的轉(zhuǎn)變以智能警務(wù)預(yù)測(cè)系統(tǒng)的大范圍運(yùn)用為標(biāo)志。智能警務(wù)預(yù)測(cè)尚未有統(tǒng)一概念,有人說(shuō)“是從不同的集成源里摘取犯罪數(shù)據(jù)進(jìn)行分析預(yù)測(cè),實(shí)現(xiàn)對(duì)已發(fā)生罪案的有效應(yīng)答,阻止未來(lái)犯罪的發(fā)生”[12](p16)。
基本共識(shí)是,它是從對(duì)犯罪人的空間分布轉(zhuǎn)向?qū)Ψ缸镄袨榈目臻g分布研究的成果之一。理論基礎(chǔ)是,“罪案的發(fā)生是當(dāng)?shù)丨h(huán)境條件、侵害者與受害者在情景中的不同決策交互作用的結(jié)果,警員每日有規(guī)律地巡邏可以改變或摧毀為罪惡提供溫床的環(huán)境條件,然而犯罪發(fā)生的概率不會(huì)整齊劃一的按照時(shí)間或空間排布,智能警務(wù)預(yù)測(cè)軟件可以有效彌補(bǔ)這個(gè)缺陷,在海量數(shù)據(jù)中直接鎖定非均勻發(fā)生的罪案模型”[13](p1399)。
預(yù)測(cè)警務(wù)的正效果得到多方肯定①預(yù)測(cè)警務(wù)的正效果包括“除夕之夜里士滿的突發(fā)槍聲減少了47%,繳械武器數(shù)量提高了246%,實(shí)現(xiàn)了提高效率與降低成本的目的,節(jié)省資金15 000美元”,以及英國(guó)肯特警署的服務(wù)分析部門表示“軟件預(yù)測(cè)率比數(shù)據(jù)分析部門預(yù)測(cè)率平均每周高出3.16%,四個(gè)月內(nèi)犯罪率降低了6%”等。。美國(guó)洛杉磯與英國(guó)肯特警局采取隨機(jī)對(duì)照實(shí)驗(yàn)的田野調(diào)查[17](p1401)表明,警員們利用算法繪制的路線巡邏平均減少了7.4%的犯罪率,而依據(jù)人類犯罪學(xué)家預(yù)測(cè)的統(tǒng)計(jì)信息巡邏,對(duì)犯罪率基本無(wú)影響②對(duì)比的參照物一個(gè)是運(yùn)用ETAS算法繪制的美國(guó)洛杉磯警署的三個(gè)轄區(qū),另一個(gè)來(lái)源于犯罪學(xué)家分析的英國(guó)肯特警署的兩個(gè)轄區(qū)。The Epidemic Type Aftershock-Sequences(ETAS)模型反應(yīng)的是一定地理區(qū)域中地震活動(dòng)的隨機(jī)點(diǎn)過(guò)程,需要精確度高、反應(yīng)度靈敏的計(jì)算機(jī)數(shù)據(jù)。。
然而,“預(yù)測(cè)無(wú)用”之聲似乎更多。針對(duì)路易斯安納州什里夫波特城的一項(xiàng)隨機(jī)對(duì)照實(shí)驗(yàn)結(jié)果表明,在該區(qū)域,無(wú)法得出因?yàn)閼?yīng)用了新科技,就顯著減少知識(shí)產(chǎn)權(quán)犯罪案件的結(jié)論[14]。
爭(zhēng)議不止于此。一是企圖“先發(fā)制人”的警務(wù)預(yù)測(cè)變相地把未來(lái)的風(fēng)險(xiǎn)當(dāng)作現(xiàn)實(shí)的危險(xiǎn),就像把犯罪率等指標(biāo)的下降當(dāng)作犯罪被消除的標(biāo)志一樣,也許會(huì)引發(fā)更多麻煩。自由主義倡導(dǎo)者們的觀點(diǎn)認(rèn)為,看似通過(guò)犯罪預(yù)測(cè)模型開(kāi)展的活動(dòng),卻無(wú)法代表所有犯罪行為的表象。而且,預(yù)測(cè)系統(tǒng)實(shí)際上試圖阻止的人,他根本還沒(méi)有犯罪,還不是法律意義上的“嫌疑人”?!胺缸飻?shù)據(jù)的不可靠性、非全面性、易篡改性、及隱含的種族歧視性是眾所周知的”[15]。二是傳統(tǒng)被動(dòng)反應(yīng)式警務(wù)轉(zhuǎn)為以司法數(shù)據(jù)主導(dǎo)式預(yù)防性警務(wù)時(shí),直覺(jué)、經(jīng)驗(yàn)、常識(shí)在各種模型中被摒棄,雖然迎合了“防范勝于未然”的設(shè)想,但是,即便是在“數(shù)據(jù)加工廠的生產(chǎn)下,警方可以每天向普通市民提供類似天氣預(yù)報(bào)那樣的“犯罪預(yù)報(bào)”[16](p17),數(shù)字化的“標(biāo)簽”也無(wú)法完全概括每位自然人的道德操行,其所作“預(yù)報(bào)”也無(wú)法像地震預(yù)報(bào)般準(zhǔn)確靈敏。
正確的量刑是法官的重要責(zé)任,這是一個(gè)懲罰犯罪、預(yù)防再犯風(fēng)險(xiǎn)、預(yù)測(cè)再犯可能的綜合裁量過(guò)程[17](p1530)。在美國(guó),智能風(fēng)險(xiǎn)評(píng)估系統(tǒng)逐漸代替法官對(duì)刑事司法量刑工作深度干預(yù)。
最初的風(fēng)險(xiǎn)評(píng)估軟件是作為保釋和假釋的裁判依據(jù),起到了良好的保護(hù)社區(qū)的作用③譬如,美國(guó)最高法院裁決加州監(jiān)獄嚴(yán)重違憲,判決認(rèn)為監(jiān)獄人滿為患,為囚犯帶來(lái)“不必要的痛苦和死亡”,并支持了下級(jí)法院做出的加州監(jiān)獄系統(tǒng)必須減少3萬(wàn)囚犯的裁決。如今加州正在一邊減少監(jiān)獄人口,一邊運(yùn)用風(fēng)險(xiǎn)評(píng)估系統(tǒng)分析被提早釋放的囚犯對(duì)社區(qū)可能造成的威脅。。隨著公眾焦點(diǎn)集中到降低累犯、重視證據(jù)等方面,更多的法院和懲戒署開(kāi)始了參考風(fēng)險(xiǎn)評(píng)估報(bào)告作為重要刑事案件判刑依據(jù)的摸索,由此掀起了“不能任由計(jì)算機(jī)把人們關(guān)進(jìn)監(jiān)獄”的評(píng)論熱潮。
艾瑞克·盧米斯的案件極受關(guān)注④美國(guó)威斯康星州適用量刑輔助軟件COMPAS的評(píng)估報(bào)告,判處有犯罪歷史并因偷竊警車而被判刑的盧米斯六年有期徒刑及五年延期監(jiān)督。COMPAS顯示盧米斯“暴力風(fēng)險(xiǎn)高,再犯風(fēng)險(xiǎn)高,預(yù)審風(fēng)險(xiǎn)高,是對(duì)社區(qū)構(gòu)成高風(fēng)險(xiǎn)的人”。參見(jiàn):朱體正,《人工智能輔助刑事裁判的不確定性風(fēng)險(xiǎn)及其防范——美國(guó)威斯康星州訴盧米斯案的啟示》,載《浙江社會(huì)科學(xué)》2018年第6期,第77頁(yè)。,在威斯康星州最高法院稱“COMPAS報(bào)告為他們的決定帶來(lái)了有價(jià)值的信息”[18],裁決駁回了盧米斯的上訴案以后,美國(guó)首席大法官約翰·羅伯茨在一期訪談中談到,“人工智能更多地介入法庭調(diào)查程序,有爭(zhēng)議性的司法決策頻出,司法部門正面臨著強(qiáng)壓”。
巨大的問(wèn)號(hào)懸掛在量刑輔助風(fēng)險(xiǎn)評(píng)估系統(tǒng)的上方。在紐約北部的懲戒所里服刑的格倫·羅德里格斯也因COMPAS的評(píng)估報(bào)告被拒絕假釋,即便他有著近乎完美的服刑表現(xiàn)[19]。評(píng)估系統(tǒng)內(nèi)部的調(diào)查過(guò)程、報(bào)告細(xì)節(jié)、推理和歸納結(jié)論的過(guò)程人們都一無(wú)所知。推測(cè)該文件可能包含大量生活數(shù)據(jù)、犯罪歷史數(shù)據(jù)、與司法活動(dòng)有關(guān)的數(shù)據(jù)、自動(dòng)生成地蘊(yùn)含規(guī)律的犯罪行為圖表,譬如所在居住地、受教育水平、關(guān)系親密人群的犯罪狀況、以量化羅德里格斯的生活,行為和重新犯罪的可能性。還可能包括他的年齡,種族,性別認(rèn)同,瀏覽習(xí)慣,也許還有一些看起來(lái)不相關(guān)的問(wèn)題,譬如“頭骨維度等,以此評(píng)估被告人在一定時(shí)期內(nèi)重新犯罪的可能性”[20](p122)。
此外,系統(tǒng)量刑的公平性也飽受質(zhì)疑。一方面缺乏透明度影響了司法公平。這些軟件的開(kāi)發(fā)商以商業(yè)秘密為由,即便是面對(duì)法院頒發(fā)禁制令都不會(huì)公開(kāi)任何技術(shù)細(xì)節(jié)[23]。另一方面可能強(qiáng)化既存于犯罪數(shù)據(jù)集中的種族、性別差異。一篇研究分析了種族對(duì)犯罪歷史和累犯的影響,表明未再犯的黑人被告被錯(cuò)誤預(yù)測(cè)的概率為44.9%,幾乎是白人被告的兩倍[21]。這意味著白人被告容易被評(píng)估為低風(fēng)險(xiǎn),黑人被告更難從評(píng)估結(jié)果中獲得自由。
數(shù)據(jù)應(yīng)用引發(fā)地諸多爭(zhēng)議的解決還應(yīng)回歸數(shù)據(jù)本身。因?yàn)橐詳?shù)據(jù)為核心的應(yīng)用研究,必然受到采集數(shù)據(jù)集本身固有缺陷的影響,即便“數(shù)據(jù)應(yīng)用在中美之間,存在著話語(yǔ)與實(shí)踐層面的認(rèn)識(shí)差異、態(tài)度上的冷熱不均”[22](p53),究其根本,還是因研究方式、驅(qū)動(dòng)緣由、實(shí)踐目的不同,激發(fā)了數(shù)據(jù)缺陷或數(shù)據(jù)陷阱在不同地緣地貌中映射出多樣化的表象,孕育出個(gè)異化的內(nèi)涵。
“數(shù)據(jù)陷阱”在統(tǒng)計(jì)學(xué)中與“數(shù)據(jù)信仰”常自動(dòng)匹配,數(shù)據(jù)信仰者認(rèn)為統(tǒng)計(jì)數(shù)據(jù)即為科學(xué),對(duì)漂亮的圖表極度自信,反而容易因?qū)?shù)據(jù)的盲信,落入數(shù)據(jù)陷阱之中。誠(chéng)然,數(shù)據(jù)普遍存在的問(wèn)題及特征,由此引發(fā)的正負(fù)效果,都是共通的。數(shù)據(jù)陷阱是司法數(shù)據(jù)研究,乃至整個(gè)司法大數(shù)據(jù)研究都無(wú)法繞越的障礙,是中美都需應(yīng)對(duì)的共同課題。
數(shù)據(jù)化基礎(chǔ)參差,智能化程度不足。全樣本數(shù)據(jù)的原理是,當(dāng)數(shù)據(jù)體量足夠大時(shí),越容易對(duì)不確定的事做出判斷,越能畫出結(jié)構(gòu)化的規(guī)律,越有利于法院做出公正裁決。法律文書電子化、法律信息數(shù)據(jù)化、司法應(yīng)用智能化是獲得全樣本數(shù)據(jù)的三大基石。盡管美國(guó)2002年就開(kāi)始建設(shè)電子化法庭[23](p570),猶他州、密歇根州法院已實(shí)現(xiàn)較高智能化水平[24],現(xiàn)有的數(shù)據(jù)采集已實(shí)現(xiàn)犯罪行為的縱橫比較,譬如2017年有10 236人犯了縱火罪,主要集中在成人年齡段[25]等。國(guó)內(nèi)人臉識(shí)別的高端技術(shù)天眼系統(tǒng)已對(duì)接全國(guó)20多個(gè)省,智慧法院研究中心,天平司法大數(shù)據(jù)分析平臺(tái)已然確立,投入使用科技法庭28 055個(gè)。但是,因?yàn)閿?shù)據(jù)化基礎(chǔ)在全域范圍內(nèi)的發(fā)展不均,智能化程度仍需提升等現(xiàn)實(shí)問(wèn)題的存在,使大數(shù)據(jù)本身并不具備完整性。
智能化法院不是簡(jiǎn)單的轉(zhuǎn)移傳統(tǒng)審判空間或硬件升級(jí),而是司法與互聯(lián)網(wǎng)技術(shù)的深度融合。國(guó)內(nèi)部分中西部法院電子卷宗隨案同步生成率不足一半,近25%的法院未開(kāi)通案件警示系統(tǒng),許多法院雖然開(kāi)始使用了初級(jí)的智能軟件,但尚未有能力拓展大數(shù)據(jù)的應(yīng)用并形成報(bào)告。此外,司法管理系統(tǒng)的完備性較強(qiáng),但安全性仍需提升[26]。
數(shù)據(jù)閉環(huán)流通,開(kāi)放與共享不充分。裁判文書上網(wǎng)總量已接近七千萬(wàn)篇①http://wenshu.court.gov.cn,數(shù)據(jù)截止于2019年6月10日。,審判流程信息公開(kāi)網(wǎng)、執(zhí)行信息公開(kāi)網(wǎng)的縱向推進(jìn)已使我國(guó)司法數(shù)據(jù)的開(kāi)放體量居于世界領(lǐng)先地位。美國(guó)的數(shù)據(jù)智能更多源自市場(chǎng)對(duì)大數(shù)據(jù)分析和挖掘急迫需求的推動(dòng),所以依托數(shù)據(jù)智能整合的搜索引擎,如vtesify,提供法律建議的預(yù)測(cè)系統(tǒng),如lexmachine.com等應(yīng)用似春筍般勃發(fā),實(shí)現(xiàn)了一定程度的數(shù)據(jù)開(kāi)放與共享。
但無(wú)論是橫亙?cè)诠矙C(jī)關(guān)、人民法院、人民檢察院之間的數(shù)據(jù)壁壘,還是美國(guó)本就獨(dú)立運(yùn)行的兩個(gè)司法系統(tǒng),都是司法大數(shù)據(jù)流的分隔符,控制著數(shù)據(jù)在各自閉環(huán)里流通。國(guó)內(nèi)的一體化辦公系統(tǒng)尚未鋪開(kāi),技術(shù)與業(yè)務(wù)之間的壁壘還在,國(guó)外法院的類案同判主要依靠聯(lián)邦最高法院的判例引導(dǎo),打通司法數(shù)據(jù)的全域流通更是難題。深化司法數(shù)據(jù)共享還在通往高速的路上。
優(yōu)質(zhì)數(shù)據(jù)較為缺乏。數(shù)據(jù)爆炸式增長(zhǎng)的同時(shí),質(zhì)量標(biāo)準(zhǔn)應(yīng)處首位。機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí),強(qiáng)化學(xué)習(xí)的完善和迭代促成了人工智能與各個(gè)領(lǐng)域的結(jié)合,是上海刑事案件智能輔助辦案系統(tǒng)的核心引擎,也是美國(guó)犯罪數(shù)據(jù)應(yīng)用開(kāi)發(fā)的主要方式。因此,不良數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)應(yīng)用產(chǎn)生不連貫、不完整或不準(zhǔn)確的結(jié)果。
如果提前將給機(jī)器學(xué)習(xí)的數(shù)據(jù)集作摘選、甄別處理,就能為應(yīng)用模型提供優(yōu)質(zhì)數(shù)據(jù),確保數(shù)據(jù)集準(zhǔn)確、一致、有用,較大程度地減少低質(zhì)輸出的概率。尤其是刑事司法領(lǐng)域的預(yù)測(cè)活動(dòng)極度依賴輸入的數(shù)據(jù),一旦算法無(wú)法調(diào)整長(zhǎng)久以來(lái)深埋在數(shù)據(jù)源里的瑕疵,不良結(jié)果會(huì)在未來(lái)更多次的重復(fù)應(yīng)用中不斷固化[27](p550)。
自我誘發(fā)的數(shù)據(jù)偏差。數(shù)據(jù)偏差包括具有結(jié)構(gòu)性缺陷、數(shù)據(jù)所含并非關(guān)鍵性內(nèi)容、數(shù)據(jù)于真實(shí)情況相背離等表現(xiàn)。許多人把谷歌流感預(yù)測(cè)失敗的原因歸結(jié)于算法,實(shí)際上,搜索引擎的表現(xiàn)完全符合人們的期待,反而是數(shù)據(jù)源出現(xiàn)了問(wèn)題,自我誘發(fā)了數(shù)據(jù)偏差①谷歌的流感預(yù)測(cè)引擎搜集了大量的與流感有關(guān)的問(wèn)卷,依據(jù)搜集的數(shù)據(jù)開(kāi)始預(yù)測(cè)。在取得了些許成功后,該引擎完美地錯(cuò)過(guò)了2009年流感病毒爆發(fā)的預(yù)警,固執(zhí)地過(guò)度預(yù)測(cè)了2011年至2014年爆發(fā)流感的情形。。
一份針對(duì)警務(wù)數(shù)據(jù)對(duì)于預(yù)測(cè)模型影響的實(shí)證研究報(bào)告指出,所記錄的犯罪數(shù)據(jù)會(huì)從兩個(gè)方面產(chǎn)生極具偏差的預(yù)測(cè)結(jié)果。一方面,原始數(shù)據(jù)存在的偏差直接導(dǎo)致了預(yù)測(cè)結(jié)果的偏離。另一方面,警官們?cè)谲浖?biāo)注的區(qū)域內(nèi)巡邏,不斷地在系統(tǒng)里更新著新發(fā)案件的記錄,隨著時(shí)間的推移,這些累積的數(shù)據(jù)被填充進(jìn)算法里作為基礎(chǔ)數(shù)據(jù)時(shí),對(duì)于該范圍預(yù)測(cè)的偏差將不可避免地越來(lái)越大[31](p547)。
如果數(shù)據(jù)是原材料,算法就是把雜亂紛繁的數(shù)據(jù)轉(zhuǎn)化為特定決策依據(jù)的工具,司法決策中的算法是司法決策數(shù)據(jù)化的需求與計(jì)算機(jī)程序相結(jié)合的產(chǎn)物。公眾對(duì)司法的信任建立在司法透明的基礎(chǔ)上,實(shí)現(xiàn)看得見(jiàn)的正義。而司法量刑中試用算法“一錘定音”的美國(guó)正處于這風(fēng)口浪尖上。
缺乏透明度的“技術(shù)恐怖”。行為表現(xiàn)算法(behavioral algorithms)已在猶他州實(shí)行,弗吉尼亞州用算法判刑也有十年經(jīng)驗(yàn)。美國(guó)政府并不開(kāi)發(fā)自己使用的算法,而是將流程外包給私營(yíng)企業(yè)。這意味著,購(gòu)買者僅根據(jù)所有者告知的內(nèi)容,在有限的程度上知道機(jī)器決策的過(guò)程。當(dāng)我們不理解百度競(jìng)價(jià)廣告的排序方式或淘寶推薦商品的算法時(shí),并不影響我們的生活,因?yàn)檫@和決定命運(yùn)的司法裁判的利害關(guān)系完全不同。
理想中立卻有現(xiàn)實(shí)偏見(jiàn)。算法中立是數(shù)據(jù)智能應(yīng)用中最常見(jiàn)的觀念,認(rèn)為無(wú)倫理的計(jì)算機(jī)不關(guān)心堂下案犯的性別或膚色,只依據(jù)他一直以來(lái)的社會(huì)行為及犯罪行為判定是否有罪。一篇調(diào)查計(jì)算機(jī)決策與一個(gè)人面部特征關(guān)聯(lián)性的研究表明,那些嘴唇較小,上唇較曲,眼距較近的人更容易被貼上罪犯的標(biāo)簽,原因并不清楚。正是存在許多的不清楚,遮蓋了司法決策中算法偏見(jiàn)幾乎與性別和種族偏見(jiàn)一樣客觀存在的事實(shí)②Oleksii Kharkovyna.AIis entering judicial system,Do we want it there?[EB/OL].(2018-04-13)[2019-06-20].https://medium.com/@oleksii_kh/ai-is-entering-judicial-system-do-we-want-it-there-632f56347c51.。許多軟件公司也提出了類似隱憂,如向警局售賣犯罪預(yù)測(cè)軟件的“市民之景”公司①見(jiàn)https://www.civicscape.com/官網(wǎng)。,將部分源代碼的一個(gè)版本公布在互聯(lián)網(wǎng)上,提醒司法機(jī)關(guān)切勿使用此版本,因?yàn)闈撛谄詈茈y從模型中排除②Dave Gershgom.Software Used to Predict Crime Can Now Be Scoured for Bias[EB/OL].QUARTZ,(2017-03-22)[2019-06-20].https://qz.com/938635/a-predictive-policing-startup-released-all-its-code-so-it-canbe-scoured-for-bias/.。
逐漸探入量刑深處的隱憂。上海刑事案件智能輔助辦案系統(tǒng)敢為全球之先,以及時(shí)發(fā)現(xiàn)、及時(shí)提示進(jìn)入系統(tǒng)的刑事案件中的證據(jù)標(biāo)準(zhǔn)不統(tǒng)一、辦案程序不統(tǒng)一、證據(jù)的瑕疵以及證據(jù)間的矛盾等問(wèn)題,實(shí)現(xiàn)防止冤假錯(cuò)案,減少司法任意性的目標(biāo)[28]。目前,智審系統(tǒng)實(shí)現(xiàn)了庭審智能化基礎(chǔ)之上的證據(jù)把關(guān),尚未成為真正的“智能法官”對(duì)刑事案件的裁判結(jié)果直接給出評(píng)估建議。但是,系統(tǒng)終將探入刑事裁判的核心環(huán)節(jié),左右法官的自由心證。至?xí)r,如何實(shí)現(xiàn)如目前類案檢索般能見(jiàn)度高、可重復(fù)驗(yàn)證的算法邏輯,是數(shù)據(jù)智能逐步改變司法審判中的直覺(jué)主義[29](p70)的高階挑戰(zhàn)。
數(shù)據(jù)道德文化的缺失剝奪了公民的隱私權(quán)。數(shù)據(jù)公民很難清除數(shù)據(jù)痕跡,發(fā)現(xiàn)個(gè)人信息在上游機(jī)構(gòu)的復(fù)制、移植、分析、截取活動(dòng),更無(wú)法掌控個(gè)人數(shù)據(jù)的下游市場(chǎng)使用。智能審判無(wú)法像承辦法官一樣受“終身負(fù)責(zé)制”監(jiān)督和束縛,人工智能只是在無(wú)道德與無(wú)感情的狀態(tài)下迭代,更無(wú)法成為平衡道德和法律的代理人,正如控制自動(dòng)駕駛汽車的算法可能被編程為拯救乘客的生命而不是行人的。
數(shù)據(jù)主體責(zé)任的空白逃脫了法律的問(wèn)責(zé)機(jī)制。由于它不具備法律上追責(zé)的主體資格,由它制造的“冤假錯(cuò)案”以技術(shù)滯后與缺陷為由一筆帶過(guò),那么誰(shuí)來(lái)為人工智能法官的判決買單呢。從數(shù)據(jù)應(yīng)用的流程上看,機(jī)器學(xué)習(xí)是標(biāo)簽化法律話語(yǔ)的過(guò)程,在充分挖掘法律文本的基礎(chǔ)之上,仔細(xì)分析、篩選,打上標(biāo)簽。背負(fù)著耗費(fèi)大量工時(shí)將文本錄入數(shù)據(jù)集,面臨著“數(shù)據(jù)信息處理能力的提升帶來(lái)信息處理范圍的擴(kuò)大,信息處理負(fù)擔(dān)進(jìn)一步加劇”[30](p72)的風(fēng)險(xiǎn)的司法人員是否要被追責(zé);開(kāi)發(fā)數(shù)據(jù)應(yīng)用、建立案件訴訟請(qǐng)求、爭(zhēng)議焦點(diǎn)、適用法條等要素間單雙向相關(guān)性[31](p251)程序的計(jì)算機(jī)學(xué)家和工程師們是否要被追責(zé)。這些不確定性與不精確性尚缺乏法律規(guī)制。
此外,司法實(shí)踐中對(duì)數(shù)據(jù)的依賴與日俱增。每天沿著智能地圖規(guī)劃地行車路線駕駛,每晚聽(tīng)著音樂(lè)軟件依據(jù)偏好推薦的單曲,個(gè)性化服務(wù)仿佛多股無(wú)形的線,限縮了生活,限定了行為模式。犯罪數(shù)據(jù)定制了犯罪模式,司法數(shù)據(jù)定制了司法量刑。也許在我們還未嘗到甜頭時(shí),已不知不覺(jué)被它左右。這種過(guò)度依賴十分危險(xiǎn)。犯罪學(xué)家賽林說(shuō)過(guò),“犯罪數(shù)據(jù)的價(jià)值正日益降低,因?yàn)樗蛟S拉開(kāi)了我們與真實(shí)的犯罪情況的距離”[32](p335)。
數(shù)字不是唯一的數(shù)據(jù),定量研究并不是唯一方式。司法數(shù)據(jù)本質(zhì)上說(shuō),都是將存在于一個(gè)多因素影響的、多元素并存的復(fù)雜環(huán)境中的,一系列出于特殊偏好、特定目標(biāo)、特別因由的司法行為,轉(zhuǎn)化為數(shù)字形式的資料、圖表或指標(biāo)的過(guò)程。在量化過(guò)程中許多零散的經(jīng)驗(yàn)、或未符合大致規(guī)律的信息容易丟失,且不是所有資料都能被成功量化。“強(qiáng)盜、持械搶劫者、詐騙犯和他們的同伙都表明了他們對(duì)調(diào)查問(wèn)卷或大范圍的社會(huì)調(diào)查的熱情,人種學(xué)研究、生活史、口述史、傳記和新聞報(bào)道將會(huì)是非常寶貴的財(cái)富”[8](p160]。
上海高院“206工程”的先鋒創(chuàng)舉,北京高院“睿法官”和四川崇州法院“小崇”法官的順利上線,都顯示出我國(guó)司法大數(shù)據(jù)應(yīng)用的廣闊前景。因此美國(guó)犯罪數(shù)據(jù)應(yīng)用面臨的問(wèn)題、存在的風(fēng)險(xiǎn)是我們深度開(kāi)發(fā)司法大數(shù)據(jù)應(yīng)當(dāng)警惕的,應(yīng)在堅(jiān)持司法大數(shù)據(jù)應(yīng)用輔助性地位的前提下,深挖本土司法資源,貼合國(guó)情社情,警惕數(shù)據(jù)陷阱,防范數(shù)據(jù)風(fēng)險(xiǎn)。
一是以信息化基礎(chǔ)建設(shè)雙管齊下為動(dòng)力,夯實(shí)司法改革的科技支撐。作為官方提倡與推動(dòng),市場(chǎng)配合、市場(chǎng)發(fā)起而官方繼續(xù)回應(yīng)的雙重驅(qū)動(dòng)的產(chǎn)物[33](p142),要以司法系統(tǒng)基礎(chǔ)設(shè)施網(wǎng)絡(luò)的互聯(lián)互通為前提,夯實(shí)司法大數(shù)據(jù)使用主體,即司法機(jī)關(guān)的信息化建設(shè),重視數(shù)據(jù)應(yīng)用的開(kāi)發(fā),提升人臉識(shí)別、身份驗(yàn)證等技術(shù),提高科技法庭應(yīng)用率,實(shí)現(xiàn)在數(shù)據(jù)應(yīng)用智能化整合的條件下,簡(jiǎn)單司法事務(wù)自動(dòng)化高水平辦公。并且依托市場(chǎng)信息化建設(shè)的廣泛維度,豐滿“信息球”,構(gòu)建立體、綜合、統(tǒng)一的數(shù)據(jù)收集、應(yīng)用、流通的信息化平臺(tái)。
同時(shí),政策指引資本加大投資市場(chǎng)信息化基礎(chǔ)設(shè)施的建設(shè)。典型的例子就是實(shí)現(xiàn)了人與物互聯(lián)新格局的5G技術(shù)的出現(xiàn),利用更少的物理連接、更輕便的智能設(shè)備,提供更快的挖掘分析速度,推動(dòng)未來(lái)數(shù)據(jù)中心規(guī)模呈幾何倍數(shù)增加,打破體量巨大、靈活性較小的大數(shù)據(jù)應(yīng)用中心結(jié)構(gòu),任意部署存儲(chǔ)于分散的云端的迷你數(shù)據(jù)中心,司法數(shù)據(jù)應(yīng)用又將迎來(lái)新一輪的硬核升級(jí)。
二是以司法改革需求引領(lǐng)大數(shù)據(jù)應(yīng)用方向,助推司法智能化的高度實(shí)現(xiàn)。誠(chéng)然,人工智能輔助量刑系統(tǒng)存在一定的風(fēng)險(xiǎn),但量刑輔助、要素審判、風(fēng)險(xiǎn)預(yù)警、類案推送等智能輔助類應(yīng)用已經(jīng)成為法律與事實(shí)的中介,是類案穩(wěn)定裁判的平衡器。司法人員對(duì)抽象的法律術(shù)語(yǔ)進(jìn)行自我解讀,在寬幅性的法定刑幅度內(nèi)做出選擇。而犯罪事實(shí)與法律裁判的心證之間缺乏一種媒介,類案裁判容易出現(xiàn)量刑偏差,甚至畸輕畸重[34](p58)。
司法智能化的高度實(shí)現(xiàn)一方面得益于硬實(shí)力的提升。微法院智能系統(tǒng)、高清數(shù)字化法庭、語(yǔ)言智能識(shí)別系統(tǒng)、電子卷宗隨案卷自動(dòng)生成等現(xiàn)代科技的應(yīng)用升級(jí)了司法系統(tǒng)的硬件表現(xiàn)能力,拓寬了法院、檢察院提供司法服務(wù)的局限。另一方面離不開(kāi)軟實(shí)力的增強(qiáng)。逐步實(shí)現(xiàn)輔助復(fù)雜審判工作的數(shù)據(jù)應(yīng)用在更大程度上挖掘判例等文本、數(shù)字信息,拓展了案例指導(dǎo)制度中對(duì)裁判理由和裁判摘要援引的局限,將判例進(jìn)行多維類比,緊密聯(lián)結(jié)法律與事實(shí),加大法官、檢察官在審判管理、決策分析等司法活動(dòng)中科技支撐的分量,還將在未來(lái)大幅提升法官、檢察官在審判、決策工作方面的精確度和定向化程度,維護(hù)法律系統(tǒng)的穩(wěn)定運(yùn)轉(zhuǎn)。
應(yīng)高效生產(chǎn)優(yōu)質(zhì)標(biāo)簽數(shù)據(jù),提升司法數(shù)據(jù)挖掘能力,提升數(shù)據(jù)質(zhì)量。算法運(yùn)行之前,海量數(shù)據(jù)需通過(guò)人工和自動(dòng)兩種方式進(jìn)行調(diào)整,并按照特定分類建立特征要素庫(kù)。除了人機(jī)共同修補(bǔ)不完整數(shù)據(jù)、修正錯(cuò)誤、去除冗余數(shù)據(jù)和臟數(shù)據(jù)之外,數(shù)據(jù)中的偏差可以通過(guò)優(yōu)化數(shù)據(jù)集,提升審判質(zhì)效的方式在源頭調(diào)整。
我國(guó)司法大數(shù)據(jù)較為豐富,圖片、語(yǔ)音和文字識(shí)別技術(shù)的準(zhǔn)確率非常高,還擁有全球最大的司法信息資源庫(kù),尤其是中國(guó)司法大數(shù)據(jù)研究院的建立,實(shí)時(shí)匯聚了全國(guó)3523個(gè)法院的司法審判信息資源。但是,獲取大量的、專業(yè)的行業(yè)知識(shí)標(biāo)簽數(shù)據(jù),全覆蓋法律專業(yè)標(biāo)簽數(shù)據(jù)仍是一個(gè)艱巨的長(zhǎng)期工程,因?yàn)檫@可能需要許多懂法律的計(jì)算機(jī)學(xué)家與懂計(jì)算機(jī)的法律專家共同完成。當(dāng)前,提升審判質(zhì)效,裁判文書質(zhì)量,減少地域性裁判差異、預(yù)防數(shù)據(jù)污染,是以審判為中心的訴訟體制改革的應(yīng)有之意,也是數(shù)據(jù)源偏差的一種防治之法。
應(yīng)抓住國(guó)家現(xiàn)代化治理契機(jī),轉(zhuǎn)變數(shù)據(jù)應(yīng)用評(píng)估思路,革新評(píng)估模式。為了防止已暗含偏差的數(shù)據(jù)在算法中反復(fù)固化,轉(zhuǎn)變數(shù)據(jù)智能應(yīng)用工具的評(píng)估方式或許是一個(gè)思路。譬如預(yù)測(cè)軟件,通常以定期統(tǒng)計(jì)預(yù)測(cè)結(jié)果是否真實(shí)發(fā)生、概率為何來(lái)判定預(yù)測(cè)工具的優(yōu)與劣,留與棄。在以社區(qū)或個(gè)人為單位的預(yù)測(cè)系統(tǒng)中,一旦識(shí)別危險(xiǎn)則在該區(qū)域加強(qiáng)巡邏或采取逮捕或拘留等執(zhí)法措施。而逮捕拘留的人數(shù)多少又會(huì)作為衡量警員表現(xiàn)的重要標(biāo)準(zhǔn),變相地鼓勵(lì)了警員們?yōu)榱藰I(yè)績(jī)最大化頻繁巡邏固定區(qū)域、刻意增加使用司法手段,硬性拔高了正確率。
在推進(jìn)國(guó)家現(xiàn)代化治理體系和治理能力的契機(jī)之下,新時(shí)代“楓橋經(jīng)驗(yàn)”的基層治理模式提供了評(píng)估方式的新視角。公正司法、司法為民是恒定的價(jià)值理念,匯集民力、尊重民意,讓網(wǎng)格化的基層社區(qū)成為評(píng)估效果的最終裁判者。將司法機(jī)構(gòu)作為連接社會(huì)問(wèn)題的導(dǎo)管,而非專門回應(yīng)某片法律區(qū)域范圍內(nèi)多如牛毛的社會(huì)問(wèn)題的司法工具[35](p27)。譬如開(kāi)辟統(tǒng)一的社區(qū)意見(jiàn)反饋平臺(tái),定期發(fā)布專業(yè)調(diào)查問(wèn)卷,評(píng)分內(nèi)容包括群眾獲得公平正義的感受、對(duì)某一具體案件裁判的看法、對(duì)司法機(jī)構(gòu)的信任程度、對(duì)數(shù)據(jù)搜集和分析的態(tài)度,以及對(duì)智能化司法服務(wù)的期待等。
首先,秉持司法公開(kāi)原則,為算法設(shè)定適當(dāng)標(biāo)準(zhǔn)的透明度。高科技的運(yùn)用有利于縱深比較社會(huì)綜合治理大維度下,人民群眾是否在個(gè)案中感受到公平正義,深化執(zhí)法司法公開(kāi),贏得公眾信任①譬如杭州互聯(lián)網(wǎng)法院首創(chuàng)“5G+區(qū)塊鏈”涉網(wǎng)執(zhí)行新模式,法院執(zhí)行指揮中心、執(zhí)行現(xiàn)場(chǎng)和申請(qǐng)執(zhí)行人在三個(gè)不同物理空間的畫面無(wú)遲延同頻播放,實(shí)現(xiàn)了執(zhí)行正義的全程可視化。。在美國(guó),知識(shí)產(chǎn)權(quán)保護(hù)優(yōu)先于司法公開(kāi)的價(jià)值取向,市場(chǎng)逐利性與司法公正性經(jīng)常摩擦,以商業(yè)秘密為由拒絕公開(kāi)算法仿佛成了訴訟中的“免死金牌”。在我國(guó),正義要以看得見(jiàn)的方式實(shí)現(xiàn),這無(wú)疑對(duì)人工智能時(shí)代的司法審判提出了更高要求。雖然目前存在雙向知識(shí)人才較少,計(jì)算機(jī)專家開(kāi)發(fā)的智審系統(tǒng)無(wú)法完全匹配司法人員的司法習(xí)慣,數(shù)據(jù)應(yīng)用與司法實(shí)踐不能無(wú)縫銜接等短板,但適度公開(kāi)算法的政策呼吁得到了越來(lái)越多積極的市場(chǎng)回應(yīng)。包括百度宣布邊緣計(jì)算開(kāi)源、騰訊阿里等大型企業(yè)的積極投入與參與,銜接了行業(yè)內(nèi)孤島的、零散的標(biāo)準(zhǔn),順應(yīng)了我國(guó)司法大數(shù)據(jù)應(yīng)用的需求和陽(yáng)光司法的精神。
其次,注重產(chǎn)權(quán)保護(hù)原則,對(duì)算法進(jìn)行必要法律規(guī)制。保護(hù)知識(shí)產(chǎn)權(quán)、塑造良好營(yíng)商環(huán)境與陽(yáng)光司法之間的取舍與協(xié)調(diào)需要審慎。美國(guó)近期看似出現(xiàn)了“以公開(kāi)為主、不公開(kāi)為例外”的技術(shù)使用信條。加州上訴法院做出了一項(xiàng)歷史性的裁決,被告公司軟件的源代碼必須向原告披露,該案現(xiàn)已成為對(duì)抗商業(yè)機(jī)密不公開(kāi)的重要先例②See:People v.Chubbs,Court of Appeal of California,2015 WL 139069(2015),該案不是個(gè)例。一個(gè)研發(fā)網(wǎng)絡(luò)犯罪調(diào)查軟件的機(jī)構(gòu)試圖援引商業(yè)秘密證據(jù)特權(quán)拒絕公開(kāi)源代碼。盡管考慮到秘密的掃描計(jì)算機(jī)硬件違背了第四憲法修正案,法院仍然做出了相同裁決。還有臉部識(shí)別技術(shù)的開(kāi)發(fā)者拒絕公開(kāi)用戶名單,變相阻礙了辯護(hù)專家衡量軟件是否存在只允許特定用戶登錄的種族歧視。。同時(shí),有關(guān)智能工具是否應(yīng)承擔(dān)刑事責(zé)任的討論甚多,而歐洲議會(huì)則直接承認(rèn)了機(jī)器法律主體的地位,明確權(quán)力及義務(wù)。但是,這場(chǎng)博弈的大局似乎并未動(dòng)搖。因?yàn)樗惴ㄊ撬袛?shù)據(jù)智能工具的核心,是市場(chǎng)要“扎緊的籬笆”③譬如紐約在2017年出臺(tái)了專項(xiàng)法案,創(chuàng)立特別行動(dòng)組,調(diào)查各機(jī)構(gòu)使用算法是否存在偏見(jiàn),并提出整改報(bào)告。但是一年半過(guò)去,特別行動(dòng)組面臨著解散。因?yàn)樗惴ㄉ婕昂诵纳虡I(yè)機(jī)密,至今他們?nèi)晕蠢砬甯鳈C(jī)構(gòu)的算法到底是如何操作運(yùn)行的。。所以,如何公開(kāi)、公開(kāi)到什么程度,都是要在接下來(lái)的司法實(shí)踐中繼續(xù)探索的。
此外,應(yīng)減少核心軟件技術(shù)外包,加大自主研發(fā)力度。自主研發(fā)有其必要性。發(fā)揮市場(chǎng)在資源配置的關(guān)鍵性作用是必須的,然而各地發(fā)展并非齊頭并進(jìn),外包技術(shù)公司能力也參差不齊,不必然有助于智慧司法的建設(shè),還可能影響司法公信。在尊重市場(chǎng)經(jīng)濟(jì)規(guī)律的前提下,減少核心軟件的技術(shù)外包,使各級(jí)法院不同的智能系統(tǒng)從硬件到平臺(tái)有效對(duì)接、暢通基礎(chǔ)信息共享。自主研發(fā)有其生命力?!爸茈m舊邦,其命維新”,自主創(chuàng)新的傳統(tǒng)在中華文明長(zhǎng)河中貢獻(xiàn)良多,新中國(guó)成立后第一個(gè)計(jì)算機(jī)中文信息處理系統(tǒng)就由我國(guó)自主研發(fā),數(shù)據(jù)處理技術(shù)早已與發(fā)達(dá)國(guó)家同步,體量上更占優(yōu)勢(shì)。以捍衛(wèi)司法公信為價(jià)值導(dǎo)向,節(jié)約成本,提高自主開(kāi)發(fā)能力,司法系統(tǒng)可以探索擺脫向第三方購(gòu)買軟件,與高校、學(xué)科合作共同研發(fā),或配備專業(yè)團(tuán)隊(duì)獨(dú)立研發(fā)。
換臉軟件“ZAO”的霸王授權(quán)協(xié)議使企業(yè)免費(fèi)使用、授權(quán)、和再許可用戶肖像權(quán)事件,讓人工智能深度偽造技術(shù)浮出水面。與公眾生活聯(lián)系最為緊密、起到定紛止?fàn)幾饔玫乃痉C(jī)關(guān)一旦在未來(lái)出現(xiàn)大數(shù)據(jù)偽造、核心信息泄露情形將十分危險(xiǎn)。因此,需要高度警惕司法大數(shù)據(jù)偽造風(fēng)險(xiǎn),加固司法核心數(shù)據(jù)保護(hù)和個(gè)人信息保護(hù),提升司法監(jiān)督等多維監(jiān)督的管控能力。
應(yīng)加快完善個(gè)人隱私相關(guān)立法。中國(guó)網(wǎng)民權(quán)益調(diào)查報(bào)告顯示,近幾年僅北京就有超過(guò)2億條個(gè)人信息被泄露。設(shè)計(jì)數(shù)據(jù)運(yùn)用的道德準(zhǔn)則,并將透明度、責(zé)任和可審計(jì)性納入其中,用法律制度解決道德困境,保護(hù)數(shù)字化時(shí)代的數(shù)據(jù)足跡①數(shù)據(jù)足跡的受保護(hù)的權(quán)力應(yīng)包括所有權(quán)、知情權(quán)、采集權(quán)、保存權(quán)、使用權(quán)及隱私權(quán)。,這也是數(shù)據(jù)智能時(shí)代人與產(chǎn)品之間的倫理挑戰(zhàn)。
需要指出的是,公共利益和個(gè)人利益之間的權(quán)衡又是一道難題。如德國(guó)的“信息自決權(quán)”,原則上每個(gè)人都應(yīng)知道并自行決定由誰(shuí)收集和處理有關(guān)他的哪些數(shù)據(jù),這在實(shí)踐中引發(fā)了公共安全和個(gè)人隱私孰輕孰重的激辯。誠(chéng)然,在信息化改革是司法主要驅(qū)動(dòng)力的我國(guó)來(lái)說(shuō)此法不太可取,并且,只有數(shù)據(jù)處理在具體損害自由或構(gòu)成損害自由的特別危險(xiǎn)時(shí),才應(yīng)與基本權(quán)利相結(jié)合。
還應(yīng)加強(qiáng)司法監(jiān)督,兼用智能監(jiān)督與人力監(jiān)督。一方面,運(yùn)用數(shù)據(jù)智能系統(tǒng)開(kāi)拓機(jī)械性、流程化、結(jié)構(gòu)化的科技監(jiān)督,包括要素偏離度分析系統(tǒng)、數(shù)據(jù)化證據(jù)標(biāo)準(zhǔn)應(yīng)用系統(tǒng)、審判運(yùn)行態(tài)勢(shì)分析應(yīng)用等;另一方面,發(fā)揮司法人員主觀能動(dòng)性和經(jīng)驗(yàn)智慧,定期核驗(yàn)智審系統(tǒng),定時(shí)維護(hù)技術(shù)設(shè)備,定量分析運(yùn)用效果,把控司法大數(shù)據(jù)的流動(dòng)和研發(fā)方向。
再者,應(yīng)堅(jiān)持?jǐn)?shù)據(jù)應(yīng)用輔助性地位,發(fā)揮好工具性的“鏡子”作用。雖然,偏重邏輯與實(shí)證的英美法系司法傳統(tǒng)正不斷地將數(shù)據(jù)智能應(yīng)用拉入審判核心環(huán)節(jié)。譬如市場(chǎng)開(kāi)發(fā)的司法結(jié)果預(yù)測(cè)系統(tǒng)如“解剖法律”,已經(jīng)可以分析法院文書資料的語(yǔ)言邏輯和特點(diǎn)②原名Ravel Law的搜索引擎可實(shí)現(xiàn)查找某一法官受用或排斥的某類用語(yǔ)、修辭和類比,同時(shí)標(biāo)注應(yīng)對(duì)該法官最具說(shuō)服力的語(yǔ)言風(fēng)格和引文出處(見(jiàn)https://home.ravellaw.com/官網(wǎng))。。法官也對(duì)律師明確提出使用智能應(yīng)用的鼓勵(lì),安大略高院在判處一筆有爭(zhēng)議的律師費(fèi)時(shí)說(shuō)道,“如果律師做功課時(shí)運(yùn)用了人工智能軟件,毫無(wú)疑問(wèn)將會(huì)顯著減少準(zhǔn)備時(shí)間、降低律師費(fèi)用”③Cassv.1410088 Ontario Inc.,2018 ONSC 6959.Court File No:51145/09,Date:2018-11-22.。
無(wú)疑,中國(guó)文明傳統(tǒng)堅(jiān)持?jǐn)?shù)據(jù)應(yīng)用的輔助性地位的做法更值得堅(jiān)守。在激勵(lì)市場(chǎng)主體的前提下對(duì)其進(jìn)行必要的限制。國(guó)務(wù)院在《新一代人工智能發(fā)展規(guī)劃》中提出,“建立人工智能法律法規(guī)、倫理規(guī)范和政策體系,形成人工智能安全評(píng)估和管控能力”。許多法學(xué)專家也認(rèn)為,“智能機(jī)器愈是以假亂真,愈能在更深的層次和更廣的范圍提高人類改造自然和改造自身的能力,機(jī)器人不能擔(dān)任法官,堅(jiān)守司法應(yīng)是人類爭(zhēng)端解決的最后一道防線”④來(lái)源于2018年“智匯司法、相得益彰”清華RONG系列論壇之司法大數(shù)據(jù)專場(chǎng)討論會(huì)上諸多專家學(xué)者的發(fā)言。。因此,在構(gòu)建未來(lái)人機(jī)關(guān)系的格局上,應(yīng)強(qiáng)調(diào)通過(guò)法律和政策予以規(guī)范,以社會(huì)的穩(wěn)定有序發(fā)展為前提,回歸對(duì)司法從業(yè)人員本身價(jià)值的堅(jiān)定認(rèn)可。
信息超載是自人類開(kāi)始認(rèn)識(shí)外部世界以來(lái)始終面臨的重大問(wèn)題,外部環(huán)境所蘊(yùn)含的信息遠(yuǎn)遠(yuǎn)超乎想象[36](p71)。深度應(yīng)用司法大數(shù)據(jù),以識(shí)別陷阱、防范風(fēng)險(xiǎn)為雙前提,以科技創(chuàng)新與改革創(chuàng)新為雙驅(qū)動(dòng),以多重剖析與精準(zhǔn)預(yù)測(cè)為雙目標(biāo),全面建設(shè)集約高效、開(kāi)放互動(dòng)、交融共享的現(xiàn)代化訴訟服務(wù)體系,為實(shí)現(xiàn)看得見(jiàn)、摸得著的公平正義提供有力司法服務(wù)和保障。