国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代法律實(shí)證研究的困境與應(yīng)對(duì)

2020-12-09 04:40朱嘉珺
關(guān)鍵詞:法律研究

朱嘉珺

一、引言:大數(shù)據(jù)對(duì)法律實(shí)證研究的積極影響

自電子計(jì)算機(jī)誕生以來,數(shù)據(jù)就開始作為一支新興生產(chǎn)力正式登上了人類發(fā)展史的舞臺(tái),而互聯(lián)網(wǎng)的產(chǎn)生,更是讓數(shù)據(jù)與個(gè)人信息緊密聯(lián)系在了一起。當(dāng)虛擬空間與現(xiàn)實(shí)空間相互銜接、密不可分時(shí),數(shù)據(jù)信息就成為了撥動(dòng)整個(gè)世界運(yùn)轉(zhuǎn)引擎的一把鑰匙,誰掌握了數(shù)據(jù)信息,誰就能挑動(dòng)整個(gè)地球。而被稱為人類認(rèn)知世界“第四范式”的大數(shù)據(jù)技術(shù),則是對(duì)數(shù)據(jù)處理方式的又一次革新。“大數(shù)據(jù)時(shí)代將要釋放出的巨大價(jià)值使得我們選擇大數(shù)據(jù)的理念和方法不再是一種權(quán)衡,而是通往未來的必然改變。”①(1)①[英]維克托·邁爾-舍恩伯格、肯尼思·庫克耶:《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,盛楊燕、周濤譯, 浙江人民出版社2013年版,第94頁。自此,大數(shù)據(jù)開始以非凡的姿態(tài)成為各行各業(yè)爭(zhēng)相關(guān)注并引入的先進(jìn)技術(shù)。

大數(shù)據(jù)對(duì)法律界的輻射亦不小。大數(shù)據(jù)最核心的功能是預(yù)測(cè),通過深度數(shù)據(jù)挖掘與細(xì)致運(yùn)算,大數(shù)據(jù)能根據(jù)既往的數(shù)據(jù)分布情況預(yù)測(cè)出研究事物的運(yùn)行軌跡并指導(dǎo)決策。據(jù)此,大數(shù)據(jù)成為了在律師行業(yè)、司法訴訟領(lǐng)域以及警務(wù)系統(tǒng)廣受歡迎的預(yù)測(cè)工具。從世界范圍來看,大數(shù)據(jù)的應(yīng)用主要包括:(1)預(yù)測(cè)法律糾紛結(jié)果;(2)進(jìn)行電子化證據(jù)開示;(3)衡量犯罪嫌疑人的社會(huì)危害性,以確定保釋金數(shù)額;(4)預(yù)測(cè)再犯可能性,作為量刑和批準(zhǔn)假釋的依據(jù);(5)輔助犯罪偵查,包括類型化犯罪趨勢(shì)預(yù)判、金融犯罪欺詐甄別等;(6)輔助律師辦案,包括輔助審閱、自動(dòng)檢索、分析撰寫合同以及文本糾錯(cuò)等。①(2)①See generally Lyria Bennett Moses & Janet Chan, “Using big data for legal and law enforcement decisions: testing the new tools”, UNSW Law Journal, Vol.37, No.2, 2014, pp.643-645; Gema Bello-Orgaz, Jason J. Jung, & David Camacho, “Social big data: Recent achievements and new challenges”, Information Fusion, Vol.28, 2016, pp.45-59; Avaneesh Marwaha, Seven Benefits of Artificial Intelligence for Law Firms, at: http://www.lawtechnologytoday.org/2017/07/seven-benefits-artificial-intelligence-law-firms/, last visited: 2018-07-13.就我國(guó)而言,司法領(lǐng)域也因?yàn)榇髷?shù)據(jù)的發(fā)展而展開了深刻的變革:2016年7月,《國(guó)家信息化發(fā)展戰(zhàn)略綱要》中明確將建設(shè)“智慧法院”列為了國(guó)家信息化發(fā)展戰(zhàn)略;2016年12月,國(guó)務(wù)院印發(fā)《“十三五”國(guó)家信息化規(guī)劃》強(qiáng)調(diào)支持“智慧法院”建設(shè),推行電子訴訟,建設(shè)完善公正司法信息化工程;2017年7月,我國(guó)首個(gè)司法大數(shù)據(jù)研究機(jī)構(gòu)——中國(guó)司法大數(shù)據(jù)研究院建立;2017年8月,全球首家“在線法院”杭州互聯(lián)網(wǎng)法院掛牌成立;2017年11月30日中國(guó)司法大數(shù)據(jù)服務(wù)網(wǎng)正式開通;同年11月,《最高檢關(guān)于人民檢察院全面深化司法改革專項(xiàng)報(bào)告》中提出,將發(fā)布檢察大數(shù)據(jù)行動(dòng)指南,推進(jìn)“一中心、四體系”建設(shè),即建設(shè)國(guó)家檢察大數(shù)據(jù)中心、建設(shè)檢察大數(shù)據(jù)標(biāo)準(zhǔn)體系、應(yīng)用體系、管理體系和科技支撐體系;2018年9月,北京互聯(lián)網(wǎng)法院掛牌成立。這一系列的有力舉措都標(biāo)志著大數(shù)據(jù)對(duì)我國(guó)司法建設(shè)的深刻影響,也意味著我國(guó)的法律體系正從傳統(tǒng)型向數(shù)據(jù)型和智慧型轉(zhuǎn)變。

大數(shù)據(jù)提高了偵查效率,簡(jiǎn)化了訴訟程序,節(jié)約了訴訟成本,給法律界帶來了許多新氣象;尤其是在人類活動(dòng)與互聯(lián)網(wǎng)深度融合的大背景下,大數(shù)據(jù)極大豐富了法律實(shí)證研究的數(shù)據(jù)樣本,革新了實(shí)證研究的技術(shù)水平,推動(dòng)實(shí)證研究朝著更規(guī)范、更科學(xué)的方向發(fā)展。但在迎接大數(shù)據(jù)的同時(shí),我們更應(yīng)注意到大數(shù)據(jù)的內(nèi)在局限,以及給傳統(tǒng)法學(xué)理論造成威脅的可能。國(guó)外已有學(xué)者指出,社會(huì)科學(xué)實(shí)證研究者們正呈現(xiàn)出逃避學(xué)術(shù)理論的傾向,他們的思維被困守在了由數(shù)據(jù)科學(xué)家所構(gòu)建和維護(hù)的社交媒體、電商平臺(tái)以及其他商業(yè)機(jī)構(gòu)內(nèi)。②(3)②See Ben Williamson, “The death of the theorist and the emergence of data and algorithms in digital social research”, The Impact Blog, 10 February, 2014. Available at: http://blogs.lse.ac.uk/impactofsocialsciences/2014/02/10/the-death-of-the-theorist-in-digital-social-research/, last visited: 2018-08-01.這意味著,當(dāng)實(shí)證研究者們習(xí)慣于大數(shù)據(jù)所帶來的全新數(shù)據(jù)樣本和運(yùn)算工具時(shí),很可能會(huì)將一切變化視作理所當(dāng)然,從而忽略大數(shù)據(jù)運(yùn)算機(jī)理中的內(nèi)在局限,以及與研究事物可能發(fā)生的結(jié)構(gòu)性矛盾。尤其對(duì)于法律實(shí)證研究而言,法律不僅是研究的核心主題,也是制定研究策略的重要理論依據(jù),以及引領(lǐng)實(shí)踐操作的關(guān)鍵要素。因此,當(dāng)大數(shù)據(jù)以技術(shù)性的姿態(tài)滲入到法學(xué)研究領(lǐng)域時(shí),其實(shí)質(zhì)不單是對(duì)傳統(tǒng)研究操作的顛覆,更可能對(duì)主導(dǎo)研究理論和研究規(guī)劃的法學(xué)思維形成嚴(yán)峻挑戰(zhàn)。本文即以大數(shù)據(jù)在法律實(shí)證研究操作中體現(xiàn)出的內(nèi)在局限,以及大數(shù)據(jù)運(yùn)行與法律思維間可能存在的多種困境做一個(gè)梳理和分析,或可為我國(guó)法律實(shí)證研究在現(xiàn)階段的發(fā)展提供一個(gè)不一樣的審視視角。

二、大數(shù)據(jù)帶給法律實(shí)證研究的操作困境

大數(shù)據(jù)技術(shù)給法律實(shí)證研究帶來的巨大影響,一方面突破了人們對(duì)研究對(duì)象數(shù)據(jù)化的想象力,另一方面也促使研究者打破傳統(tǒng)的研究視角,來重新研判行為、事件的發(fā)展規(guī)律和立法走向。不過,大數(shù)據(jù)雖然具有遠(yuǎn)超傳統(tǒng)數(shù)據(jù)庫軟件工具范疇的優(yōu)勢(shì),“極大地改變了我們的研究思維方式,重塑了我們的知識(shí)結(jié)構(gòu)、研究流程、對(duì)信息的接受和處理能力,以及對(duì)現(xiàn)實(shí)的本質(zhì)和歸類的重新認(rèn)識(shí)”③(4)③danah boyd, & Kate Crawford, “Critical questions for Big Data: Provocations for a cultural, technological, and scholarly phenomenon”, Information, Communication and Society, Vol.15, No.5, 2012, at 665.……但是大數(shù)據(jù)的現(xiàn)實(shí)發(fā)展似乎并不像它的擁躉們所描述的那樣萬能。傳統(tǒng)的法律實(shí)證研究,實(shí)質(zhì)“是一種以數(shù)據(jù)分析為中心的經(jīng)驗(yàn)性法學(xué)研究”。④(5)④左衛(wèi)民:《一場(chǎng)新的范式革命?——解讀中國(guó)法律實(shí)證研究》,載《清華法學(xué)》2017年第3期,第46頁。對(duì)這種既強(qiáng)調(diào)定性又強(qiáng)調(diào)定量的研究方法而言,對(duì)數(shù)據(jù)的收集、統(tǒng)計(jì)分析與理論闡釋就成為了研究的關(guān)鍵。⑤(6)⑤左衛(wèi)民:《一場(chǎng)新的范式革命?——解讀中國(guó)法律實(shí)證研究》,載《清華法學(xué)》2017年第3期,第49-53頁。然而,仔細(xì)梳理大數(shù)據(jù)的運(yùn)行機(jī)理與演算模式卻會(huì)發(fā)現(xiàn),無論在模型搭建的理論運(yùn)用上,還是在數(shù)據(jù)采集與分析的具體操作上,大數(shù)據(jù)的內(nèi)在局限呈現(xiàn)的與傳統(tǒng)法律實(shí)證研究的相悖性都足以引起實(shí)證研究者的警惕。

(一)法律實(shí)證研究的認(rèn)識(shí)論困境:“理論終結(jié)”對(duì)因果關(guān)系論的沖擊

早在2008年,《Wired雜志》首席編輯Chris Anderson就提出了“數(shù)據(jù)噴涌而來將導(dǎo)致既有科學(xué)方法過時(shí),理論不再”①(7)①Chris Anderson, “The end of theory: The data deluge makes the scientific method obsolete”, Wired Magazine, 23 June, 2008. Available at: https://www.wired.com/2008/06/pb-theory/ , last visited: 2018-08-01.的論斷。此后,隨著Schonberger和Cukier對(duì)該論斷的進(jìn)一步闡釋,“理論終結(jié)”的理念立刻引起了社科研究者們的強(qiáng)烈關(guān)注。盡管Schonberger和Cukier并沒有全然贊同Anderson的觀點(diǎn),但他們也認(rèn)為大數(shù)據(jù)只注重結(jié)論而不講求因果關(guān)系的特點(diǎn),將對(duì)傳統(tǒng)社會(huì)科學(xué)的研究理念帶來巨大的挑戰(zhàn)——因?yàn)椤叭绻灰笾馈裁?即數(shù)據(jù)指代的涵義)’而無須明確‘為什么(即數(shù)據(jù)能得出具體結(jié)論的原因)’,則推翻了數(shù)百年來已經(jīng)確立的實(shí)證方法體系,并且挑戰(zhàn)了人們做出判斷和掌握現(xiàn)實(shí)的機(jī)理?!雹?8)②[英]維克托·邁爾-舍恩伯格、肯尼思·庫克耶:《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,盛楊燕、周濤譯,浙江人民出版社2013年版,第14頁。同期,犯罪學(xué)家Richard Berk和Justin Bleich也證實(shí),用大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法(例如“隨機(jī)森林”)預(yù)測(cè)犯罪人的再犯可能性,運(yùn)算結(jié)果具有優(yōu)越性,雖然這些大數(shù)據(jù)預(yù)測(cè)工具的開發(fā),并不關(guān)心“為什么特定的程序能促進(jìn)預(yù)測(cè)的準(zhǔn)確性,也并沒有人去解釋實(shí)現(xiàn)這些預(yù)測(cè)的背后原理?!雹?9)③Richard Berk and Justin Bleich, “Statistical procedures for forecasting criminal behavior”, Criminology & Public Policy, Vol.12, No.3, 2013, pp.516-517.至此,圍繞著大數(shù)據(jù)的發(fā)展會(huì)否最終導(dǎo)致實(shí)證研究中的“理論終結(jié)”,不同觀點(diǎn)的學(xué)者們展開了激烈的交鋒。

“數(shù)據(jù)驅(qū)動(dòng)認(rèn)識(shí)論”學(xué)派認(rèn)為,數(shù)據(jù)本身即可直接窺測(cè)問題實(shí)質(zhì),而無須探求其中的因果關(guān)系,正是不可知論的具體體現(xiàn)。這一觀點(diǎn)秉持的是18世紀(jì)蘇格蘭哲學(xué)家大衛(wèi)·休謨的主張:“我們無從得知因果之間的關(guān)系,只能得知某些事物總是會(huì)連結(jié)在一起,而這些事物在過去的經(jīng)驗(yàn)里又是從不曾分開過的。我們并不能看透連結(jié)這些事物背后的理性為何,我們只能觀察到這些事物的本身,并且發(fā)現(xiàn)這些事物總是透過一種經(jīng)常的連結(jié)而被我們?cè)谙胂笾袣w類?!雹?10)④休謨:《人類理智研究》,呂大吉譯,商務(wù)印書館1999年版,第66頁。盡管強(qiáng)調(diào)“因果性、必然性和規(guī)律性”的決定論在20世紀(jì)一度大行其道,并成為了許多著名科學(xué)家和哲學(xué)家,如愛因斯坦、波爾、馬克思和波普爾等人所共同采用的觀點(diǎn),但是“混沌理論”的出現(xiàn)給篤定數(shù)學(xué)公式即可準(zhǔn)確預(yù)測(cè)自然界規(guī)律的傳統(tǒng)理論一記重?fù)?。?11)⑤混沌理論以整體、連續(xù)的數(shù)據(jù)關(guān)系來解釋和預(yù)測(cè)行為,打破了長(zhǎng)期以來依靠單一的數(shù)據(jù)因果關(guān)系來描述和預(yù)測(cè)事物運(yùn)行規(guī)律的傳統(tǒng)認(rèn)知。參見[美]艾伯特-拉斯洛·巴拉巴西:《爆發(fā):大數(shù)據(jù)時(shí)代預(yù)見未來的新思維》,馬慧譯,北京聯(lián)合出版公司2017年版。據(jù)此,數(shù)據(jù)驅(qū)動(dòng)認(rèn)識(shí)論者認(rèn)為,“混沌理論”之所以能在航空、航天等領(lǐng)域廣泛適用,正說明了理論不再是解決問題的關(guān)鍵,只要確認(rèn)數(shù)據(jù)與問題之間存在關(guān)聯(lián),就無須證明特定模式形成的原因和機(jī)理。⑥(12)⑥See Nathan Jurgenson, “View from nowhere”, The New Inquiry, Oct.9,2014. Available at: https://thenewinquiry.com/view-from-nowhere/, last visited: 2018-08-01.

而“理論驅(qū)動(dòng)認(rèn)識(shí)論”的維護(hù)者則以多種方式來回應(yīng)數(shù)據(jù)驅(qū)動(dòng)認(rèn)識(shí)論的挑戰(zhàn)。一種普遍觀點(diǎn)是,數(shù)據(jù)關(guān)聯(lián)無因果性讓數(shù)據(jù)結(jié)論的可信度大減。由于大數(shù)據(jù)的運(yùn)算機(jī)理是龐大的數(shù)據(jù)集合,數(shù)據(jù)與數(shù)據(jù)間的耦合方式無法直接窺視,據(jù)此認(rèn)為運(yùn)算結(jié)果正確,更像是用結(jié)論來套前提,用結(jié)果來湊假設(shè),而非令人確信的真正結(jié)果。⑦(13)⑦See Janet Chan and Lyria Bennett Moses, “Is Big Data challenging criminology?”, Theoretical Criminology, Vol.20, No.1, 2016, p.29.此外,包括微生物學(xué)、社會(huì)科學(xué)等多領(lǐng)域的學(xué)者都提出,數(shù)據(jù)模型目前得出的結(jié)論仍然相對(duì)粗糙,且數(shù)據(jù)的搜羅過程中存在著諸多瑕疵,當(dāng)這些龐大的未經(jīng)檢驗(yàn)的數(shù)據(jù)樣本匯總時(shí),形成的滾雪球般的誤差也許是驚人的。⑧(14)⑧See Hamid Ekbia, Michael Mattioli, Inna Kouper, et al., “Big data, bigger dilemmas: a critical review”, Journal of the Association for Information Science and Techology, Vol.66, No.8, 2015, p.1529.當(dāng)然,除了對(duì)理論驅(qū)動(dòng)認(rèn)識(shí)論的極端維護(hù),還有相對(duì)中立的“科學(xué)感知論”的支持者,他們認(rèn)為“科學(xué)理論無法超越人類感知”,既然無法確定經(jīng)由大數(shù)據(jù)推廣放大的數(shù)據(jù)科學(xué)究竟是否屬于數(shù)據(jù)密集型科學(xué),那么不妨將科學(xué)視作實(shí)踐中的工程,盡管依據(jù)傳統(tǒng)理論,科學(xué)和工程的發(fā)展是由不同理論推動(dòng)的。⑨(15)⑨See Werner Callebaut,“Scientific perspectivism: A philosopher of science’ response to the challenge of Big Data biology”, Studies in History and Philosophy of Biological and Biomedical Science, Vol.43, No.1, 2012, pp.69-80.

不同學(xué)派理論的交鋒體現(xiàn)出大數(shù)據(jù)帶給學(xué)術(shù)界的強(qiáng)烈沖擊,尤其對(duì)于需要依靠理論進(jìn)行建模,依賴?yán)碚撽U釋結(jié)果的法律實(shí)證研究而言,“理論終結(jié)”的觀點(diǎn)對(duì)傳統(tǒng)因果論的撼動(dòng)更需引起重視。當(dāng)然,傳統(tǒng)實(shí)證研究理論與大數(shù)據(jù)應(yīng)用間的不相適應(yīng),并不意味著要拋棄或全盤否定舊理論,只不過,需要警惕已經(jīng)出現(xiàn)的奉行“拿來主義”將大數(shù)據(jù)純粹作為一種新型研究工具的做法,因?yàn)榇髷?shù)據(jù)對(duì)法律實(shí)證研究的改變是從認(rèn)識(shí)論開始的。

(二)法律實(shí)證研究的方法論困境:大數(shù)據(jù)技術(shù)的多種偏誤對(duì)研究結(jié)果的誤導(dǎo)

實(shí)證研究的核心在于數(shù)據(jù),數(shù)據(jù)樣本的選擇、統(tǒng)計(jì)和分析構(gòu)成了傳統(tǒng)法律實(shí)證研究的主要脈絡(luò)。進(jìn)入大數(shù)據(jù)時(shí)代,這條研究主脈絡(luò)卻因?yàn)閿?shù)據(jù)在“質(zhì)”與“量”上的巨大飛躍而產(chǎn)生了實(shí)質(zhì)變革。對(duì)大數(shù)據(jù)來說,“大”除了體現(xiàn)數(shù)據(jù)的規(guī)模,更具有“量變引發(fā)質(zhì)變”的深刻內(nèi)涵,也因此,無論在樣本的選擇、統(tǒng)計(jì)還是分析上,大數(shù)據(jù)的實(shí)證研究路徑都與傳統(tǒng)路徑有著本質(zhì)不同。然而,雖然大數(shù)據(jù)實(shí)證研究具有諸多優(yōu)勢(shì),當(dāng)前的技術(shù)進(jìn)展程度和應(yīng)用效果卻遠(yuǎn)未達(dá)到理想狀態(tài),具體實(shí)踐中存在包括選擇偏誤、混雜偏誤、測(cè)量偏誤與確認(rèn)偏誤等多種問題。這些問題出現(xiàn)在法律實(shí)證研究的各個(gè)階段,既與大數(shù)據(jù)的技術(shù)本質(zhì)相關(guān),又與當(dāng)前的應(yīng)用方法和環(huán)境相關(guān),因此需要高度重視。

1.樣本選擇階段的“選擇偏誤”與“數(shù)據(jù)碎片化”:傳統(tǒng)的樣本選擇是從收錄角度出發(fā),劃定符合研究需要的樣本參數(shù)與條件,并在相關(guān)數(shù)據(jù)庫中挑選的過程?!皵?shù)據(jù)的收集會(huì)牽涉到各種利益的社會(huì)代表,而在社會(huì)產(chǎn)生的過程中又不可避免地會(huì)存在不能公開或必須內(nèi)部封存的情況?!雹?16)①Rasmus Helles, & Klaus Bruhn Jensen, “Introduction to the special issue ‘Making data—Big data and beyond’”, First Monday, Vol.18, No.10, 2013. Retrieved from http://firstmonday.org/ojs/index.php/fm/article/view/4860, last visited: 2018-08-01.長(zhǎng)期以來,由于技術(shù)和利益考量等因素導(dǎo)致樣本選擇出現(xiàn)目的性傾斜,或程序性疏漏的情況,也被稱為“選擇偏誤”。該種問題通常發(fā)生在非隨機(jī)選擇時(shí),是研究者對(duì)某些特定參量帶入個(gè)人理解和偏好所產(chǎn)生的選擇失衡,進(jìn)而扭曲測(cè)量結(jié)果的現(xiàn)象。②(17)②Sharona Hoffman, “Big Data Analytics: What Can Go Wrong”, Indiana Health Law Review, Vol. 15, 2018, 235.為解決這一問題,大數(shù)據(jù)技術(shù)研究員們嘗試從數(shù)據(jù)選取變更為數(shù)據(jù)清理,依靠不同的需求特性和變量對(duì)數(shù)據(jù)庫內(nèi)的數(shù)據(jù)進(jìn)行清理和調(diào)整。③(18)③數(shù)據(jù)清理的技術(shù)原理在于,大數(shù)據(jù)收錄的數(shù)據(jù)量異常龐大,因此對(duì)數(shù)據(jù)樣本的確定不能大海撈針般從數(shù)據(jù)庫中進(jìn)行擇取,而應(yīng)當(dāng)進(jìn)行清理,排除掉明顯不符合要求的部分,剩下的就是可以進(jìn)行演算的內(nèi)容。See generally O’Reilly Media, “Big Data now”, CA: O’Reilly Media, 2011.“數(shù)據(jù)清理”確實(shí)極大豐富了實(shí)證研究的數(shù)據(jù)樣本量,并在一定程度上規(guī)避了傳統(tǒng)方法的缺陷,卻因操作方法的改變而產(chǎn)生了新的難點(diǎn):一是各行業(yè)機(jī)構(gòu)使用的數(shù)據(jù)采集儀器不同,也未形成數(shù)據(jù)標(biāo)準(zhǔn)一致、可交互兼容的協(xié)作關(guān)系,因而存在數(shù)據(jù)重復(fù)、關(guān)鍵信息缺失、同一行業(yè)不同機(jī)構(gòu)數(shù)據(jù)無法協(xié)調(diào)等嚴(yán)重問題——這也是“數(shù)據(jù)碎片化”問題產(chǎn)生的根源;二是數(shù)據(jù)篩選中的需求特性與變量設(shè)定值的量化問題,即使排除一切主觀因素干擾,許多數(shù)據(jù)在輸入過程中都存在政策約束和用語習(xí)慣的限制,即同一個(gè)意思的不同用語表達(dá)在數(shù)據(jù)量化過程中會(huì)產(chǎn)生嚴(yán)重偏差;④(19)④該問題可根據(jù)語義學(xué)中的缺乏“語義協(xié)調(diào)性”來理解。語義協(xié)調(diào)性指,通過校驗(yàn),將不同表達(dá)中的數(shù)據(jù)納入到單一連貫的邏輯觀點(diǎn)中的過程,以此可避免多種釋義。See James A. Cunningham et al., Nine Principles of Semantic Harmonization, 2016 Amia Ann. Symp. Proc. Archive 45, 451 (2016).三是大數(shù)據(jù)的樣本收錄來源過于龐雜,大量涉及隱私范疇的消費(fèi)記錄、網(wǎng)絡(luò)社交狀況、移動(dòng)通信定位等信息都被囊括其中,而物聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)共享、數(shù)據(jù)流通更是讓隱私風(fēng)險(xiǎn)激增。⑤(20)⑤See Patrick Tucker, “Has Big Data made anonymity impossible?”, MIT Technology Review, 2013. Retrieved from https://www.technologyreview.com/s/514351/has-big-data-made-anonymity-impossible/, last visited: 2018-08-01.因此,樣本選擇再度面臨新的關(guān)鍵難點(diǎn):在實(shí)現(xiàn)算法過濾的前提下,如何判定哪些數(shù)據(jù)應(yīng)當(dāng)被剔除?

2.樣本統(tǒng)計(jì)階段的“測(cè)量偏誤”與“確認(rèn)偏誤”:目前,大數(shù)據(jù)的數(shù)據(jù)采集主要來自兩部分,一部分是對(duì)歷史記錄的再收錄,還有一部分則是目前廣泛應(yīng)用于醫(yī)療、工業(yè)、物流等行業(yè)的統(tǒng)計(jì)數(shù)據(jù),這部分?jǐn)?shù)據(jù)的生成主要來自一線檢測(cè)設(shè)備的測(cè)量,并經(jīng)電腦中樞系統(tǒng)或云端匯總,最終演算出結(jié)果。由此,一線檢測(cè)設(shè)備的測(cè)量精準(zhǔn)度就成為了影響統(tǒng)計(jì)結(jié)果的關(guān)鍵。然而,受制于技術(shù)水平,目前各行業(yè)的監(jiān)測(cè)設(shè)備質(zhì)量良莠不齊,儀器校驗(yàn)參數(shù)也缺乏統(tǒng)一標(biāo)準(zhǔn),再加上技術(shù)人員對(duì)新型儀器的操作方法等問題,都導(dǎo)致了“測(cè)量偏誤”的產(chǎn)生。此外,在大數(shù)據(jù)的實(shí)際應(yīng)用中,另一個(gè)問題也較為突出:哥倫比亞大學(xué)統(tǒng)計(jì)學(xué)教授Andrew Gelman指出,統(tǒng)計(jì)學(xué)研究中常會(huì)出現(xiàn)一種情況,研究者們會(huì)千方百計(jì)進(jìn)行各種“為了驗(yàn)證而驗(yàn)證”的研究,設(shè)計(jì)多種實(shí)驗(yàn)?zāi)0?,直至獲取能得出預(yù)設(shè)結(jié)果的模板作為研究結(jié)論。這就是統(tǒng)計(jì)學(xué)中常見的“確認(rèn)偏誤”①(21)①See Andrew Gelman, “Statistical significance and the dangerous lure of certainty”, Statistical modeling, causal inference, and social science, 2013. Retrieved from https://andrewgelman.com/2013/08/08/statistical-significance-and-the-dangerous-lure-of-certainty/, last visited: 2018-08-01.。然而,大數(shù)據(jù)技術(shù)的運(yùn)用也并不能規(guī)避這種問題的出現(xiàn)。學(xué)者danah boyd和Kate Crawford將之稱為“現(xiàn)象上的幻想性錯(cuò)覺”(phenomenon apophenia):由于大數(shù)據(jù)的運(yùn)算原理基于的是數(shù)據(jù)與數(shù)據(jù)的相互關(guān)聯(lián),極有可能出現(xiàn)因?yàn)閿?shù)據(jù)的全方位輻射的相關(guān)性,導(dǎo)致雖然測(cè)試樣本的結(jié)果分布與假設(shè)一致,但實(shí)際的檢驗(yàn)?zāi)0宀⒉淮嬖诘那闆r。②(22)②danah boyd, & Kate Crawford, “Critical questions for Big Data: Provocations for a cultural, technological, and scholarly phenomenon”, Information, Communication and Society, Vol.15, No.5, 2012, pp.668-669.由于大數(shù)據(jù)技術(shù)的實(shí)質(zhì)是在對(duì)事物描繪的基礎(chǔ)上反映事物的表征,因此即使樣本選擇存在偏誤,也會(huì)出現(xiàn)符合預(yù)期結(jié)論的可能,這意味著數(shù)據(jù)統(tǒng)計(jì)所反映出的結(jié)論并不必然是客觀和公正的。有鑒于此,如何驗(yàn)證大數(shù)據(jù)技術(shù)下的數(shù)據(jù)統(tǒng)計(jì)客觀性和正確性則是操作中必須慎重對(duì)待的問題。

3.樣本分析階段的“可視化失真”與“混雜偏誤”:由于大型數(shù)據(jù)集無法完全展示所有數(shù)據(jù),因此統(tǒng)計(jì)結(jié)果用圖表方式呈現(xiàn)成為了實(shí)證研究者建模和進(jìn)行交流的關(guān)鍵要素。作為大數(shù)據(jù)可視化的一個(gè)直觀體現(xiàn),制圖軟件(mapping)意在“設(shè)計(jì)良好的數(shù)據(jù)可視化呈現(xiàn)方式,用相對(duì)簡(jiǎn)單的感知推論替代認(rèn)知計(jì)算,并促進(jìn)對(duì)事物的了解、記憶,有助于做出決斷”③(23)③Jeffery Heer, Michael Bostock, & Vadim Ogievetsky, “A tour through the visualization zoo”, Communications of the ACM, 2010, 53(6), at 59.。然而,數(shù)據(jù)的可視化轉(zhuǎn)換卻蘊(yùn)藏著不少失真風(fēng)險(xiǎn)。英國(guó)學(xué)者M(jìn)ichael Hohl就指出,通過不透明的、從美觀角度出發(fā)的算法操作得出的結(jié)果,是不能真正評(píng)估結(jié)果的正確性和實(shí)質(zhì)含義的。④(24)④Michael Hohl, Ranulph Glanville, “From abstract to actual: Art and designer-like enquiries into data visualization”, Kybernetes, 2011, 40(7/8), at 1039.目前,大數(shù)據(jù)在可視化過程中的失真原因主要包括:(1)可視化的技術(shù)盲點(diǎn)(數(shù)據(jù)集到視覺設(shè)計(jì)中存在的障礙空間);⑤(25)⑤Jeffery Heer, Michael Bostock, & Vadim Ogievetsky, “A tour through the visualization zoo”, Communications of the ACM, 2010, 53(6), at 59..(2)可視化編碼的設(shè)計(jì)路徑差異(眾多編碼路徑中很難確定最理想的設(shè)計(jì)方案);⑥(26)⑥See Charles Kostelnick, “The visual rhetoric of data displays: The conundrum of clarity”, IEEE Transactions on Professional Communication, 2007, 50(4), at 285.以及(3)可視化轉(zhuǎn)碼過程中可能出現(xiàn)的決定性數(shù)據(jù)丟失問題。⑦(27)⑦See Annette N. Markham, “Undermining ‘data’: A critical examination of a core term in scientific inquiry”, First Monday, 2013, 18(10).這些目前技術(shù)發(fā)展亟待解決的問題,都給數(shù)據(jù)樣本的準(zhǔn)確分析形成了障礙。此外,大數(shù)據(jù)的非因果性還在樣本分析中產(chǎn)生了“混雜偏誤”的問題。該偏誤主要表現(xiàn)為,研究因素與結(jié)果的關(guān)聯(lián)被其他外部因素所干擾而產(chǎn)生的結(jié)論誤導(dǎo)。例如,先實(shí)施方案A,再實(shí)施方案B,產(chǎn)生的結(jié)果C既可以解讀為B直接導(dǎo)致的,A無效,也可以理解為A和B共同導(dǎo)致的,還可能解釋為實(shí)施A的效果直到實(shí)施B后才體現(xiàn)出來??梢?,關(guān)于因素A和結(jié)果C之間的聯(lián)系,“混雜變量”B在其中的作用具有相當(dāng)干擾性。因而,在樣本分析中,必須通盤考慮并調(diào)整所有潛在的混雜變量,以減少由此產(chǎn)生的“混雜偏誤”。⑧(28)⑧See Sharona Hoffman, “Big Data Analytics: What Can Go Wrong”, Indiana Health Law Review, Vol. 15, 2018, 236-237.

(三)法律實(shí)證研究的倫理困境:數(shù)據(jù)共享的必然與對(duì)隱私權(quán)的侵犯

大數(shù)據(jù)時(shí)代,法律實(shí)證研究面臨的一個(gè)全新難題就是數(shù)據(jù)采集的越界問題。當(dāng)前,依靠數(shù)據(jù)網(wǎng)絡(luò)進(jìn)行工作、學(xué)習(xí)、商貿(mào)和交流溝通已經(jīng)成為常態(tài),而在這些日常行為的背后,卻是個(gè)人信息被政府機(jī)關(guān)和各大互聯(lián)網(wǎng)企業(yè)大量收集的現(xiàn)實(shí)。這些被收集的信息既包括通過網(wǎng)絡(luò)平臺(tái)公開的姓名、性別、住址和常用聯(lián)系方式等,也包括未直接公開但通過網(wǎng)絡(luò)后臺(tái)信息關(guān)聯(lián)可采集到的如婚史、不動(dòng)產(chǎn)登記、生育記錄等,還包括非直接關(guān)聯(lián)但通過大數(shù)據(jù)分析間接得到的興趣愛好、關(guān)注動(dòng)向、消費(fèi)軌跡等。對(duì)于企業(yè)而言,利用大數(shù)據(jù)收集目標(biāo)客戶的信息數(shù)據(jù)來制定相應(yīng)的產(chǎn)品和服務(wù)策略,已經(jīng)成為了一種普遍做法。但是,什么數(shù)據(jù)是不得泄露的個(gè)人隱私和商業(yè)機(jī)密,什么又是可以被公開和使用運(yùn)算的信息,法律并沒有清晰明確的界定標(biāo)準(zhǔn)。此外,即使排除了現(xiàn)有法律明文規(guī)定的個(gè)人隱私信息,是不是就意味著其他個(gè)人信息就能被隨便收集了,也是一個(gè)頗具爭(zhēng)議的話題。例如,有廣告商為了了解潛在用戶的購物喜好,在搜集特定區(qū)域的社交媒體賬號(hào)發(fā)帖信息后,通過對(duì)公開的元數(shù)據(jù)進(jìn)行匯編,整理出了一份地區(qū)居民購物傾向文件。這種做法遭到了國(guó)外不少學(xué)者的批評(píng),認(rèn)為行為本質(zhì)就是對(duì)他人隱私權(quán)的侵犯,盡管收集的數(shù)據(jù)都是公開的。①(29)①例如從超市潛在顧客的關(guān)注信息和購物選擇上推算出顧客的懷孕指數(shù)和預(yù)產(chǎn)期,并定期郵寄母嬰產(chǎn)品清單的做法就受到了諸多質(zhì)疑。See Omer Tene, Jules Polonetsky, “Big data for all: Privacy and user control in the age of analytics”, Northwestern Journal of Technology and Intellectual Property, 2013, 11(5), pp.253-254.不可回避的是,信息網(wǎng)絡(luò)的快速發(fā)展已經(jīng)使得數(shù)據(jù)共享成為了數(shù)字社會(huì)建設(shè)的必然組成,并隨著云端、物聯(lián)網(wǎng)的密集鋪設(shè)而在進(jìn)一步擴(kuò)張共享范圍。就法律實(shí)證研究而言,數(shù)據(jù)共享的范圍越大,意味著可供使用的樣本量越豐富,也意味著更多新問題的產(chǎn)生,包括數(shù)據(jù)重復(fù)、數(shù)據(jù)權(quán)屬的界定、數(shù)據(jù)庫的壁壘等,這些都是大數(shù)據(jù)應(yīng)用中必須直面的困境。

其中,最大的隱患來自互聯(lián)網(wǎng)商業(yè)巨頭對(duì)用戶個(gè)人信息的全面掌握。2018年最轟動(dòng)互聯(lián)網(wǎng)界的一件事莫過于Facebook創(chuàng)始人扎克伯格就如何處理用戶數(shù)據(jù)和隱私公開接受參議院的質(zhì)詢。在聽證會(huì)上,參議員質(zhì)疑的問題包括Facebook作為超大型社交媒體存在的數(shù)據(jù)信息壟斷、是否利用移動(dòng)設(shè)備的音頻功能對(duì)用戶的個(gè)人信息進(jìn)行監(jiān)聽、是否將數(shù)據(jù)共享設(shè)置為默認(rèn)選項(xiàng),以及是否泄露用戶的政治傾向數(shù)據(jù)給俄羅斯或其他機(jī)構(gòu)以達(dá)到干預(yù)甚至操縱2016年美國(guó)總統(tǒng)大選等。盡管扎克伯格的回答獲得了公共演講和危機(jī)專家的好評(píng),但不難看出,他實(shí)際回避了很多問題。而對(duì)于用戶個(gè)人信息保護(hù)的態(tài)度,國(guó)內(nèi)互聯(lián)網(wǎng)巨頭百度創(chuàng)始人李彥宏的回答,同樣模棱兩可。大數(shù)據(jù)時(shí)代,從互聯(lián)網(wǎng)技術(shù)開源平臺(tái)的設(shè)立,到云端存儲(chǔ)的布局,數(shù)據(jù)共享早已經(jīng)成為了一柄雙刃劍,如何合理劃分?jǐn)?shù)據(jù)邊界,有效保護(hù)個(gè)人隱私,是個(gè)任重道遠(yuǎn)的課題。同樣,實(shí)證研究大數(shù)據(jù)庫的建設(shè)也無法規(guī)避數(shù)據(jù)隱私權(quán)的確立、數(shù)據(jù)收集的合法合規(guī),以及與政府機(jī)關(guān)和互聯(lián)網(wǎng)公司合作等問題。這進(jìn)一步凸顯出,大數(shù)據(jù)實(shí)證研究與法律規(guī)制同步建設(shè)的緊迫性與必要性。

三、大數(shù)據(jù)帶給法律實(shí)證研究的思維結(jié)構(gòu)困境

從法律合同的自動(dòng)生成,到法律服務(wù)的私人定制,從區(qū)域犯罪發(fā)展預(yù)測(cè),再到再犯可能性的量化……大數(shù)據(jù)技術(shù)越來越向法律界展現(xiàn)出其蓬勃的野心。然而,在向法律人展現(xiàn)其優(yōu)勢(shì)的同時(shí),大數(shù)據(jù)也逐漸顯現(xiàn)出了與法律在結(jié)構(gòu)上的矛盾。這些矛盾,反映在具體研究中,就是大數(shù)據(jù)的運(yùn)行實(shí)質(zhì)帶給法律實(shí)證研究思維的結(jié)構(gòu)困境。法律實(shí)證研究的中心脈絡(luò)是法律思維,對(duì)研究者而言,從模型搭建到過程分析,從結(jié)果闡釋到規(guī)范適用,研究走勢(shì)始終遵循著法律的實(shí)質(zhì)、在法律思維的指導(dǎo)下進(jìn)行,然而,大數(shù)據(jù)的介入?yún)s極有可能中斷傳統(tǒng)研究前行的齒輪。比較大數(shù)據(jù)的運(yùn)行機(jī)理與法律實(shí)證研究的運(yùn)轉(zhuǎn)實(shí)質(zhì),主要存在如下四點(diǎn)對(duì)立。

(一)數(shù)據(jù)建模的“循舊”與法律演進(jìn)的“向前”

大數(shù)據(jù)有一個(gè)廣為人知的定義,即包含所謂的“3V”特性——大容量(Volume)、高速度(Velocity),以及多種類(Variety)。依靠前所未有的數(shù)據(jù)收集能力和演算方式,大數(shù)據(jù)超脫了傳統(tǒng)統(tǒng)計(jì)學(xué)的應(yīng)用范疇,被視作“一種結(jié)合了技術(shù)手段、分析功能和高階智能的文化、科技與學(xué)術(shù)現(xiàn)象?!雹?30)②danah boyd, & Kate Crawford, “Critical questions for Big Data: Provocations for a cultural, technological, and scholarly phenomenon”, Information, Communication and Society, Vol.15, No.5, 2012, at 663.而引發(fā)這一現(xiàn)象的關(guān)鍵在于:量變引起質(zhì)變?!按髷?shù)據(jù)的核心功能是預(yù)測(cè),通過將數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測(cè)事情發(fā)生的可能性……系統(tǒng)的數(shù)據(jù)越多,算法就能更好地改善自己的性能?!雹?31)③姚海鵬、王露瑤、劉韻潔:《大數(shù)據(jù)與人工智能導(dǎo)論》,人民郵電出版社2017年版,第4頁?;诖?,大數(shù)據(jù)在犯罪學(xué)界廣受歡迎,因?yàn)閭鹘y(tǒng)的警務(wù)預(yù)測(cè)方法就是依靠對(duì)過往的相關(guān)數(shù)據(jù)進(jìn)行收集和分析,例如熱點(diǎn)分析、犯罪制圖等,而大數(shù)據(jù)工具的應(yīng)用可使數(shù)據(jù)收集更為細(xì)致完整,運(yùn)算結(jié)果更加準(zhǔn)確。④(32)④See Janet Chan and Lyria Bennett Moses, “Is Big Data challenging criminology?”, Theoretical Criminology, Vol.20, No.1, 2016, at 27.然而,隨著大數(shù)據(jù)的進(jìn)一步應(yīng)用,一些深層次的問題暴露了出來。因?yàn)榇髷?shù)據(jù)的支持者認(rèn)為“有充分的證據(jù)證明,人類的大部分行為都受制于規(guī)律、模型以及原理法則,而且它們的可重現(xiàn)性和可預(yù)測(cè)性與自然科學(xué)不相上下”①(33)①[美]艾伯特-拉斯洛·巴拉巴西:《爆發(fā):大數(shù)據(jù)時(shí)代預(yù)見未來的新思維》,馬慧譯,北京聯(lián)合出版公司2017年版,第13頁。,因此,利用大數(shù)據(jù)的預(yù)測(cè)功能對(duì)犯罪嫌疑人進(jìn)行犯罪風(fēng)險(xiǎn)評(píng)估開始大行其道。不過,一項(xiàng)研究表明,這種針對(duì)個(gè)人的再犯可能性預(yù)測(cè)非常不可靠,因?yàn)轭A(yù)測(cè)軟件設(shè)計(jì)公司將大量諸如工作收入、受教育水平、家庭環(huán)境等一般因素作為參考變量,卻忽略了個(gè)人成長(zhǎng)中的不確定因素,這導(dǎo)致參考變量在運(yùn)算模式中的占比可能存在隱形歧視。②(34)②參見騰訊研究院等:《人工智能》,中國(guó)人民大學(xué)出版社2017年版,第551-554頁。例如,財(cái)產(chǎn)性犯罪可能多發(fā)于收入較低人群,嚴(yán)重暴力犯罪可能多發(fā)于低受教育、成長(zhǎng)環(huán)境糟糕的人群,但是這并不能排除高收入、高知個(gè)體的再犯可能性。如果沒有充分考慮個(gè)體發(fā)展的變量,僅依照過去的一般規(guī)律作為預(yù)測(cè)標(biāo)準(zhǔn),很可能會(huì)導(dǎo)致嚴(yán)重的群體歧視。

然而,大數(shù)據(jù)的建模模式?jīng)Q定了對(duì)信息的收集只可能是對(duì)既往數(shù)據(jù)的收集:決定大數(shù)據(jù)預(yù)測(cè)核心能力的機(jī)器學(xué)習(xí),“就是從已知的知識(shí)(特征)出發(fā),利用概率統(tǒng)計(jì)等數(shù)學(xué)計(jì)算方法來得到某種數(shù)學(xué)規(guī)律(模型),并利用所得數(shù)學(xué)規(guī)律來計(jì)算完成任務(wù)?!雹?35)③姚海鵬、王露瑤、劉韻潔:《大數(shù)據(jù)與人工智能導(dǎo)論》,人民郵電出版社2017年版,第26頁。可見,對(duì)大數(shù)據(jù)而言,它做出的所有判斷和預(yù)測(cè)都是對(duì)以往事實(shí)和經(jīng)驗(yàn)的高階總結(jié)。從傳統(tǒng)實(shí)證角度出發(fā),機(jī)器學(xué)習(xí)的容錯(cuò)度較高,是一種非常好的統(tǒng)計(jì)工具;不過,一旦將大數(shù)據(jù)廣泛應(yīng)用到法律領(lǐng)域,尤其是影響決策制定時(shí),很可能結(jié)果并不如預(yù)想的那樣。因?yàn)榇髷?shù)據(jù)應(yīng)用的關(guān)鍵是尋找規(guī)律,所以在應(yīng)用過程中會(huì)“制定容納‘硬’信息的框架,而排除只適用于個(gè)別情形的策略信息或‘軟’信息,以保證只有符合預(yù)設(shè)‘相關(guān)’的信息數(shù)據(jù)才會(huì)被收集。”④(36)④Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 405.當(dāng)建立在歷史數(shù)據(jù)上的結(jié)論生成并指導(dǎo)決策制定后,新決策又會(huì)作為歷史數(shù)據(jù)再一次被大數(shù)據(jù)所收集,并成為下一次決策制定的數(shù)據(jù)基礎(chǔ)……周而復(fù)始,指導(dǎo)決策制定的信息類型越來越雷同,而信息渠道也會(huì)趨于單一。然而,法律實(shí)證研究的根本目的是推動(dòng)法治社會(huì)的進(jìn)步,這也意味著法律是絕不會(huì)永恒地躺在立法預(yù)設(shè)的框架內(nèi)的——“從社會(huì)學(xué)角度來看,顯而易見,從習(xí)性到慣例,再由慣例到法律的過渡是變動(dòng)不居的?!雹?37)⑤Weber Max, “Economy and Society”, in Guenther Roth and Claus Wittich (ed.), An Outline of Interpretive Sociology, CA: University of California Press, p.325. 轉(zhuǎn)引自[德]Hubert Rottleuthner, Matthias Mahlmann:《法律的基礎(chǔ)》,張萬洪、丁鵬主譯,武漢大學(xué)出版社2010年版,第25頁。在社會(huì)發(fā)展中,科技的革新帶來生產(chǎn)力的爆發(fā),經(jīng)濟(jì)的發(fā)展又帶來物質(zhì)條件的改善和生活方式的轉(zhuǎn)變,伴隨著人的理念的轉(zhuǎn)換,舊的法律規(guī)范或被廢除或被修正,而新的更符合人們行為慣例的法律規(guī)范被制定??梢姡傻难葸M(jìn)過程中摻入了大量的新鮮因子,包含政治、經(jīng)濟(jì)、文化等各方面的因素共同推動(dòng)著新老法則的更迭,而這種不斷吸納新變量的向前模式恰好與大數(shù)據(jù)不斷排錯(cuò)的“循舊”方向相左。

(二)數(shù)據(jù)關(guān)聯(lián)的“單一”與法律解釋的“多元”

“當(dāng)社會(huì)允許生物學(xué)成為工程化的學(xué)科,會(huì)讓科學(xué)淪落為改變世界卻不明所以的狀態(tài),這工程化的生物學(xué)也許仍然能告訴我們?nèi)绾蔚竭_(dá)目的地,然而它卻并不知道所謂的目的地究竟是個(gè)什么地方?!雹?38)⑥John H. Zammito, A nice derangement of epistemes: Post-positivism in the study of science from Quine to Latour, Chicago: University of Chicago Press, 2004, p.173.Woese的這番警告雖然是針對(duì)生物學(xué),卻揭示了一個(gè)簡(jiǎn)單卻深刻的現(xiàn)實(shí):建立在數(shù)據(jù)關(guān)聯(lián)上的大數(shù)據(jù)預(yù)測(cè),也許能展現(xiàn)給人們某些事實(shí)或答案,卻無法告訴真相。Janet Chan打過這樣一個(gè)比方:對(duì)一個(gè)等式而言,Y是Z的因子,通過調(diào)整Y就可以改變Z,也即當(dāng)Y被新的因子Y’所替代時(shí),Z值也就成了Y’導(dǎo)致的結(jié)果;假設(shè)Z代表某地區(qū)的犯罪率,而Y代表警方想要調(diào)整的因素,則警方必須要證明Y不僅與Z具有關(guān)聯(lián),而且是導(dǎo)致Z的原因之一。⑦(39)⑦See Janet Chan and Lyria Bennett Moses, “Is Big Data challenging criminology?”, Theoretical Criminology, Vol.20, No.1, 2016, at 32.換句話說,當(dāng)數(shù)據(jù)對(duì)結(jié)果的作用力大小無法證明時(shí),則想要利用大數(shù)據(jù)去研究某個(gè)社會(huì)現(xiàn)象或推動(dòng)法治的進(jìn)程,幾乎是不可能的——因?yàn)閿?shù)據(jù)對(duì)結(jié)果的呈現(xiàn)是“單一化”的,同樣的結(jié)果卻會(huì)因?yàn)樽饔靡蜃拥牟煌哂型耆煌囊饬x,展現(xiàn)出對(duì)社會(huì)迥異的影響力。例如,對(duì)同一地區(qū)的不同兩所學(xué)校歷年的學(xué)生違法犯罪數(shù)據(jù)進(jìn)行收集和分析,發(fā)現(xiàn)兩校學(xué)生都是在一年前犯罪率開始激增,且都有嚴(yán)重暴力化的傾向。如果僅從數(shù)據(jù)關(guān)聯(lián)性來看,因?yàn)閮尚_^往的地理位置、社會(huì)環(huán)境、生源等都相近,則無法判斷各自犯罪率激增的成因。而如果引入變量,對(duì)數(shù)據(jù)的占比進(jìn)行調(diào)整后就會(huì)發(fā)現(xiàn),一年前分別有兩種文化對(duì)兩校學(xué)生進(jìn)行了侵蝕:暴力游戲動(dòng)漫和“古惑仔”式黑社會(huì)文化。顯然,如果沒有對(duì)關(guān)聯(lián)數(shù)據(jù)的進(jìn)一步細(xì)分和解讀,對(duì)兩校犯罪率成因的判斷很可能趨同,從而對(duì)犯罪治理造成阻礙。

與數(shù)據(jù)關(guān)聯(lián)的“單一”呈現(xiàn)不同,法律最突出的特征之一就是解釋?!拔覀兊姆纱嬖谟趯?duì)我們的整個(gè)法律實(shí)踐的最佳論證之中,存在于對(duì)這些法律實(shí)踐做出盡可能最妥善的敘述之中?!雹?40)①[美]羅納德·德沃金:《認(rèn)真對(duì)待權(quán)利》,信春鷹、吳玉章譯,上海三聯(lián)出版社2008年版,第147頁。雖然法律解釋一般存在法律發(fā)現(xiàn)和文義的澄清與確定兩種思辨,但有一點(diǎn)比較明確,即無論是英美法系還是大陸法系,法官在具體案件中作出的對(duì)法律文本的解釋,更能體現(xiàn)法律解釋的本質(zhì)。②(41)②參見肖光輝:《法理學(xué)專題研究》,上海社會(huì)科學(xué)院出版社2016年版,第240頁。因此,當(dāng)法律成為實(shí)證研究的對(duì)象,或者當(dāng)需要應(yīng)用到法律實(shí)證的研究結(jié)果時(shí),對(duì)法律的釋義也就成為了必然要求。同時(shí),由于“法律的適用是個(gè)殊化的,受限于特定的情景,具有彈性而就勢(shì)隨形”③(42)③[德]Hubert Rottleuthner, Matthias Mahlmann:《法律的基礎(chǔ)》,張萬洪、丁鵬主譯,武漢大學(xué)出版社2010年版,第211-212頁。,也意味著,對(duì)法律的解釋雖然遵循一定的標(biāo)準(zhǔn)和原則,但并沒有恒定的結(jié)論,從而導(dǎo)致了擴(kuò)大解釋、限縮解釋乃至法官造法。例如,刑法在制定之初并不存在虛擬財(cái)產(chǎn)的概念,因此電子貨幣、游戲裝備是否屬于“財(cái)物”就存在爭(zhēng)議。可社會(huì)生活的快速變革要求司法必須盡快對(duì)相關(guān)問題作出合理的回應(yīng),這時(shí),適度拓展“財(cái)物”的內(nèi)涵和外延,以包容評(píng)價(jià)虛擬財(cái)產(chǎn)的價(jià)值屬性就成為必然。④(43)④參見廣東省高級(jí)人民法院發(fā)布2017年度涉互聯(lián)網(wǎng)十大案件: http://www.gdcourts.gov.cn/web/content/41842-?lmdm=1000, 2018年10月10日訪問。顯然,相對(duì)于機(jī)械的數(shù)據(jù)解碼,法律更像是一種修辭和語言的游戲。⑤(44)⑤Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 379.它的邏輯中蘊(yùn)含開放,規(guī)則中暗藏靈活的特性,使法律實(shí)證研究對(duì)變量和結(jié)論的闡釋較數(shù)據(jù)運(yùn)算有著更高的要求。

(三)數(shù)據(jù)預(yù)測(cè)的“趨同”與規(guī)范適用的調(diào)整

哥倫比亞法學(xué)院教授Bernad Harcourt指出,用基于歷史數(shù)據(jù)的關(guān)聯(lián)性得出的決策進(jìn)行預(yù)測(cè),會(huì)形成反饋環(huán)路,從而削弱或摧毀干擾因素的影響,而這種干擾因素往往是推動(dòng)決策改進(jìn)的關(guān)鍵。⑥(45)⑥See Nernard E. Harcourt, Against Prediction: Profiling, Policing and Punishing in an Actuarial Age, Chicago, 2017, IL: University of Chicago Press.因?yàn)闄C(jī)器學(xué)習(xí)缺乏人類思維的創(chuàng)新,它只能通過不斷增加既往的判斷結(jié)果和衡量因子,在最初預(yù)設(shè)的運(yùn)算框架內(nèi)進(jìn)行最優(yōu)選擇。實(shí)際上,它觀察到的數(shù)據(jù)改變并不是研究條件變化時(shí)形成的,更有可能是之前輸出的數(shù)據(jù)再次輸入的結(jié)果——如此,輸入和輸出循環(huán)往復(fù),容易形成一個(gè)閉環(huán)。⑦(46)⑦Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 409.這也意味著,如果沒有外來的新鮮因子被不斷輸入數(shù)據(jù)庫的話,只依靠大數(shù)據(jù)自運(yùn)算,最終的預(yù)測(cè)結(jié)果將陷入停滯不前的泥淖中。這一點(diǎn)顯然與人類的發(fā)展軌跡并不相符。“其興也勃焉,其亡也忽焉”,人類的發(fā)展歷程雖然有很多相似點(diǎn)可尋,但同時(shí)又充滿不可捉摸的波動(dòng)性和分叉點(diǎn)。⑧(47)⑧[美]艾伯特-拉斯洛·巴拉巴西:《爆發(fā):大數(shù)據(jù)時(shí)代預(yù)見未來的新思維》,馬慧譯,北京聯(lián)合出版公司2017年版,第III-IV頁??梢赃@么說,正是不斷的試驗(yàn)與創(chuàng)新推動(dòng)著人類一路曲折前行,這過程充斥著意外和各種思想火花的迸發(fā)與匯集,而非沿著既定的線路而走。試想,當(dāng)大數(shù)據(jù)應(yīng)用于指導(dǎo)人們的行為習(xí)慣時(shí),對(duì)行為軌跡的預(yù)判主要來自經(jīng)驗(yàn)數(shù)據(jù)的演算,盡管可以根據(jù)某些特定情勢(shì)調(diào)整經(jīng)驗(yàn)數(shù)據(jù)輸入的范圍,但是這種調(diào)整都是基于一般邏輯的推斷。然而情勢(shì)的變化往往突然而至,一旦情勢(shì)的轉(zhuǎn)變偏離預(yù)測(cè)軌道的話,大數(shù)據(jù)的預(yù)算就會(huì)變成一股保守的力量,從而阻礙創(chuàng)新的發(fā)展。⑨(48)⑨Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 405.

此外,由于這種運(yùn)算模式強(qiáng)調(diào)的是一般規(guī)律的遵守,排除意外的變量因子,最終或可能導(dǎo)致對(duì)多樣性的排斥?!岸鄻有允菓?yīng)對(duì)不可預(yù)知的環(huán)境條件改變的關(guān)鍵,過度的行為一致性將增加系統(tǒng)運(yùn)行的風(fēng)險(xiǎn)。”①(49)①Ian Ayres, Joshua Mitts, “Anti-Herding Regulation”, Harvard Business Law Review, 2015, 5(1), at 14.Caryn Devins等人通過對(duì)網(wǎng)絡(luò)社交媒體的用戶使用情況進(jìn)行分析,得出結(jié)論:大數(shù)據(jù)不僅能預(yù)測(cè)人們的行為,還能影響人們的行為,甚至在過程中影響權(quán)力的分布。②(50)②這類社交網(wǎng)站會(huì)將他們認(rèn)為的“最佳輸出結(jié)果”作為參量置入最初設(shè)計(jì)的運(yùn)行框架內(nèi),當(dāng)算法持續(xù)進(jìn)行時(shí),最初的參量會(huì)在無數(shù)次循環(huán)中逐漸放大影響,引發(fā)的直接后果就是認(rèn)同并發(fā)布與“最佳輸出結(jié)果”一致言論的群體日漸集中,而相左言論或者來自競(jìng)爭(zhēng)對(duì)手網(wǎng)站的信息影響力會(huì)逐漸減弱。此外,由于人的社交需求性,其他原本持中立意見的用戶會(huì)逐漸向影響力擴(kuò)大的一方靠攏,而不愿靠攏的少數(shù)人會(huì)最終被迫退出。See Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 357.由此,當(dāng)數(shù)據(jù)運(yùn)算應(yīng)用于法律實(shí)證研究、尤其是司法裁決時(shí)就更要警惕了——過于一致性會(huì)導(dǎo)致司法僵化,甚至社會(huì)發(fā)展的停滯?!皩?duì)法律‘運(yùn)用規(guī)則’的運(yùn)用使各種社會(huì)制度事實(shí)得以產(chǎn)生,在此基礎(chǔ)上特定的活動(dòng)成為可能……法律規(guī)則的形構(gòu)力量,即創(chuàng)造新事實(shí)的機(jī)能。”③(51)③[德]Hubert Rottleuthner, Matthias Mahlmann:《法律的基礎(chǔ)》,張萬洪、丁鵬主譯,武漢大學(xué)出版社2010年版,第34頁。需知,司法裁決與規(guī)范適用絕不是為了排斥少數(shù)異見,而是一個(gè)從多數(shù)社會(huì)群體的共同利益出發(fā),兼顧少數(shù)、弱勢(shì)群體的聲音,并不斷改進(jìn)的過程。因此,在研究中必須深刻意識(shí)司法裁決的目的,認(rèn)清規(guī)范的適用固然需要一根準(zhǔn)繩,但社會(huì)的變化又需要規(guī)范做出適度調(diào)整的現(xiàn)實(shí)需求,警惕完全一致的行動(dòng)、思維的傾向,依靠匯集不同方向的力量和聲音,共同完成對(duì)規(guī)范運(yùn)行軌跡的調(diào)整。因此,對(duì)大數(shù)據(jù)的預(yù)測(cè)功能,不能盲目依賴。

(四)數(shù)據(jù)決策的“暗箱”與司法裁決的公開

前述指出,大數(shù)據(jù)為了更為直觀地表達(dá)運(yùn)算結(jié)果而進(jìn)行的數(shù)據(jù)和圖表轉(zhuǎn)換過程,暗藏著關(guān)鍵數(shù)據(jù)丟失的風(fēng)險(xiǎn)。這個(gè)局限性同樣影響著大數(shù)據(jù)在法律領(lǐng)域的應(yīng)用?!皵?shù)據(jù)不經(jīng)過壓縮成為理論或更精簡(jiǎn)的敘述的話,就不具有任何意義?!雹?52)④Gregory Chaitin, Newton da Costa, & Francisco Antonio Doria, Godel’s way: exploits into an undecidable world, Leiden: CRC Press, 2011, p.62.由于大數(shù)據(jù)的運(yùn)算數(shù)據(jù)量過于龐大,將運(yùn)算過程全部展示出來根本不現(xiàn)實(shí),因此,對(duì)運(yùn)算結(jié)果進(jìn)行轉(zhuǎn)換和壓縮就成為了必然。然而數(shù)據(jù)的換算是極其復(fù)雜、多層次的,其中某一個(gè)環(huán)節(jié)的數(shù)據(jù)換算出錯(cuò),經(jīng)過多環(huán)節(jié)的換算,這個(gè)錯(cuò)誤就可能被放大無數(shù)倍。同樣的,假使換算的結(jié)果誤差在可容許的范圍之內(nèi),結(jié)果還需要經(jīng)歷一道更為復(fù)雜的語義轉(zhuǎn)換,也即對(duì)數(shù)據(jù)進(jìn)行壓縮。如果是涉及法律應(yīng)用的話,則案件越復(fù)雜,需要描繪的情形越多,數(shù)據(jù)越冗長(zhǎng),壓縮的程度也就越厲害。這時(shí)會(huì)讓人產(chǎn)生一個(gè)疑問:原本用以表達(dá)某個(gè)細(xì)節(jié)的數(shù)據(jù),會(huì)否因?yàn)閿?shù)據(jù)鏈的壓縮而就此丟失?然而,已知的數(shù)據(jù)關(guān)系只有離散的關(guān)聯(lián),具體某個(gè)數(shù)據(jù)與確切事實(shí)的因果關(guān)系并不可查,也就是說,即使意識(shí)到了可能存在的失真風(fēng)險(xiǎn),也并不能找到具體的原因。那么,當(dāng)大數(shù)據(jù)被應(yīng)用到司法裁判,因?yàn)閿?shù)據(jù)壓縮而導(dǎo)致裁判結(jié)果嚴(yán)重偏差卻又找不到具體原因時(shí),問題就非同小可了。

“裁判公開與審理公開是審判公開制度的兩大基本內(nèi)容,其有利于顯示司法民主、遏制司法腐敗、保障正義實(shí)現(xiàn)、提高訴訟效益、培育法官素養(yǎng)、保證裁判質(zhì)量、發(fā)現(xiàn)法律漏洞和促進(jìn)學(xué)術(shù)研究?!雹?53)⑤尹西明:《裁判公開制度研究》,載《河北法學(xué)》2003年第5期,第57頁。人們依靠審判公開制度,對(duì)公正司法實(shí)行有效監(jiān)督,可以說裁判過程、法官的釋法說理能最大限度滿足社會(huì)公眾的知情權(quán),是司法制度穩(wěn)定運(yùn)行的重要保證。然而,當(dāng)大數(shù)據(jù),如它的堅(jiān)定擁躉所言,完全取代法官實(shí)行量化裁判后,人們就會(huì)發(fā)現(xiàn),原先仰賴裁判公開的信任基礎(chǔ)消失了——因?yàn)閿?shù)據(jù)運(yùn)算無法釋義。冗長(zhǎng)的關(guān)聯(lián)數(shù)據(jù)間的耦合是阻擋人們解讀的第一重障礙,因?yàn)闆]有因果關(guān)系而不存在推理過程是第二重障礙,除非進(jìn)行語義壓縮,否則無法呈現(xiàn)結(jié)果是第三重障礙,如此一來,整個(gè)裁判過程好比一個(gè)無法打開的“暗箱”。大數(shù)據(jù)帶來一個(gè)悖論:一方面人們搜集更多的數(shù)據(jù)和證據(jù)為了對(duì)觀察的現(xiàn)象有更全面和準(zhǔn)確的了解;另一方面,人們搜集的數(shù)據(jù)越多,越需要對(duì)其簡(jiǎn)化才能窺視其中有用的信息。⑥(54)⑥See Caryn Devins, Teppo Felin, Stuart Kauffman, & Roger Koppl, “The law and big data”, Cornell Journal of Law and Public Policy, 2017, 27, at 358.簡(jiǎn)化過程究竟拋棄了多少因果關(guān)系的細(xì)節(jié)無人知曉,更何況其中還存在著初始結(jié)構(gòu)設(shè)計(jì)時(shí)的數(shù)據(jù)收集偏差,這些因素聚攏于一個(gè)無人可窺探的“暗箱”里,極容易產(chǎn)生武斷的裁決,而這樣的裁決,顯然不符合人們對(duì)司法公平、公正和公開的要求。

四、大數(shù)據(jù)時(shí)代我國(guó)法律實(shí)證研究的應(yīng)對(duì)舉措

毋庸置疑,大數(shù)據(jù)正以超乎想象的速度影響并占領(lǐng)社會(huì)生活的方方面面,這是科技爆發(fā)的大勢(shì)所趨?!翱萍技炔皇呛玫?,也不是壞的,更不是中立的?!雹?55)①M(fèi)elvin Kranzberg, “Technology and History: ‘Kranzberg’s Laws’,” Technology and Culture, 1986, 27, at 545.當(dāng)前,數(shù)字社會(huì)與物聯(lián)網(wǎng)的加速建設(shè),更多的生活、生產(chǎn)信息以數(shù)據(jù)的形式被納入到社會(huì)秩序監(jiān)管的框架中,這讓大數(shù)據(jù)技術(shù)參與到社會(huì)治理和法治建設(shè)成為必然。此前,輿論曾經(jīng)彌漫過一種擔(dān)憂,認(rèn)為“社會(huì)科學(xué)是被N=all程式撼動(dòng)得最為激烈的學(xué)科之一……社科研究者們也許將喪失他們?cè)谠擃I(lǐng)域的主導(dǎo)地位”②(56)②[英]維克托·邁爾-舍恩伯格、肯尼思·庫克耶:《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,盛楊燕、周濤譯,浙江人民出版社2013年版,第65頁。。誠(chéng)然,目前的數(shù)據(jù)化趨勢(shì)的確顛覆了非數(shù)據(jù)化的人文社科理念,但并不意味著新技術(shù)對(duì)舊理論的全盤取代。從前述分析可以看出,大數(shù)據(jù)無論在自身的技術(shù)發(fā)展,還是實(shí)際的研究應(yīng)用上都存在著不可忽視的局限,同時(shí)也給智能時(shí)代法律實(shí)證研究的沿革帶來了無法回避的困境。因此,在面對(duì)“大數(shù)據(jù)潮”來臨的當(dāng)下,有必要確立客觀、審慎的思考模式,既要大膽擁抱科學(xué)進(jìn)步帶來的優(yōu)勢(shì),更需謹(jǐn)慎鑒別新科技的局限與引入的風(fēng)險(xiǎn),充分做好應(yīng)對(duì)各種困境的必要準(zhǔn)備,才能真正獲得新技術(shù)帶來的益處。以前文剖析的大數(shù)據(jù)帶給法律實(shí)證研究的多個(gè)困境為前提,目前研究領(lǐng)域可做如下三個(gè)方向的應(yīng)對(duì)準(zhǔn)備。

(一)理論應(yīng)對(duì):構(gòu)筑科學(xué)、前瞻的理論陣地

一個(gè)重要的,且逐漸為學(xué)界所意識(shí)到的真相是,大數(shù)據(jù)對(duì)法律的影響絕不僅限于作為某種技術(shù)工具?!霸诖髷?shù)據(jù)的世界中,經(jīng)過大規(guī)模的數(shù)據(jù)分析,排除人類的偏見、不稱職和錯(cuò)誤后,法律被推定為可以校準(zhǔn)的方式實(shí)現(xiàn)政策目標(biāo)和最佳的人類行為?!雹?57)③Benjamin Alarie, Anthony Niblett, & Albert H, Yoon, “Regulation by machine”, 30th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain, at 5. Retrieved from: http://www.mlandthelaw.org/papers/alarie.pdf, last visited: 2018-09-02.裁決量化一直是人們?cè)趯で蟮哪繕?biāo),可當(dāng)大數(shù)據(jù)聲稱能實(shí)現(xiàn)這一目標(biāo)時(shí),新的擔(dān)憂又產(chǎn)生了:在大數(shù)據(jù)運(yùn)算的無因果性與承載因果關(guān)系理論的法律中間,似乎存在著難以調(diào)和的矛盾。是先有數(shù)據(jù)關(guān)聯(lián)才有了因果關(guān)系的理論,還是先有了理論才能找到相關(guān)的數(shù)據(jù)?——這個(gè)疑問似乎成為了大數(shù)據(jù)應(yīng)用于法律研究的一個(gè)先期阻礙。然而,必須指出的是,無論大數(shù)據(jù)的無因果性與傳統(tǒng)理論間的隔閡有多深,都不能成為盲目阻絕大數(shù)據(jù)進(jìn)入法律界的理由。因?yàn)閿?shù)據(jù)是無限的,輸入?yún)s是有限的,而“所有的觀測(cè)(數(shù)據(jù))都包含著理論的釋義”④(58)④Karl R. Popper, “A realist view of logic, physics, and history”, in Objective Knowledge: An Evolutionary Approach (Rev. ed.), New York: Oxford University Press, 1979, pp.285-295.。大數(shù)據(jù)收集的數(shù)據(jù)范圍不僅是可控的,而且是必須用理論控制的。一旦認(rèn)識(shí)到這點(diǎn),就會(huì)發(fā)現(xiàn),在大數(shù)據(jù)技術(shù)和法律實(shí)證研究之間隱含著多個(gè)理論銜接點(diǎn),而要想實(shí)現(xiàn)自然科學(xué)與社會(huì)科學(xué)的有效對(duì)接和充分融合,則需要首先構(gòu)筑一個(gè)科學(xué)、前瞻性的理論陣地。

首先,“科學(xué)性”是指泛在的,同時(shí)涵蓋自然科學(xué)與社會(huì)科學(xué)在內(nèi)的,并契合國(guó)內(nèi)實(shí)際需要與現(xiàn)狀的理論。一方面要意識(shí)到,我國(guó)的法律實(shí)證研究正處于難得的理論拓展機(jī)遇期?!暗靡嬗诜蓴?shù)據(jù)的幾何級(jí)增長(zhǎng),法律實(shí)證研究在中國(guó)遇上了最好的時(shí)代?!蓪?shí)證研究在當(dāng)下中國(guó)又遇上了最壞的時(shí)代,因?yàn)榭此曝S富的數(shù)據(jù)海洋下面,實(shí)際上處處存在暗礁?!雹?59)⑤程金華:《邁向科學(xué)的法律實(shí)證研究》,載《清華法學(xué)》2018年第4期,第160頁。在大數(shù)據(jù)推動(dòng)我國(guó)各項(xiàng)法律數(shù)據(jù)庫快速建立的背后,是我國(guó)的法律實(shí)證研究長(zhǎng)期處于數(shù)據(jù)不足,理論欠缺,操作隨意的現(xiàn)狀。⑥(60)⑥程金華:《邁向科學(xué)的法律實(shí)證研究》,載《清華法學(xué)》2018年第4期,第158-164頁。因此,從理論發(fā)展的獨(dú)特現(xiàn)實(shí)出發(fā),我國(guó)當(dāng)前的法律實(shí)證研究需要把握兩個(gè)特殊點(diǎn):一是大數(shù)據(jù)不同于傳統(tǒng)實(shí)證研究的技術(shù)內(nèi)涵大大縮短了我國(guó)與國(guó)外早已形成科學(xué)理論體系的法律實(shí)證研究的差距;二是法律實(shí)證研究的傳統(tǒng)理論正面臨數(shù)字化的嚴(yán)峻挑戰(zhàn),也意味著我國(guó)的理論拓展正處于追趕和變革的雙重關(guān)鍵期。另一方面還要認(rèn)識(shí)到,當(dāng)前數(shù)字社會(huì)的建設(shè)標(biāo)志著自然科學(xué)與社會(huì)科學(xué)深度融合的態(tài)勢(shì),因此,對(duì)法律實(shí)證研究理論的革新應(yīng)當(dāng)站在全新的視角,充分研判不同學(xué)科的優(yōu)勢(shì)與劣勢(shì),以兼收并蓄的姿態(tài)尋求多學(xué)科的銜接,探索符合法律規(guī)律的新型實(shí)證研究理論。

其次,“前瞻性”是指能充分預(yù)估信息技術(shù)的發(fā)展趨勢(shì),深度挖掘大數(shù)據(jù)技術(shù)應(yīng)用于法學(xué)研究中存在的本質(zhì)問題和技術(shù)難點(diǎn),并具有高適應(yīng)性和兼容性的基礎(chǔ)理論。“機(jī)器學(xué)習(xí)已遍及各個(gè)領(lǐng)域,且隨著電子數(shù)據(jù)的激增可能會(huì)在大數(shù)據(jù)時(shí)代發(fā)揮更重要的作用?!裉欤覀?nèi)匀豢梢允褂脗鹘y(tǒng)計(jì)算機(jī)運(yùn)行機(jī)器學(xué)習(xí)和完成其他計(jì)算任務(wù),但從長(zhǎng)期來看我們可能需要考慮其他方式?!雹?61)①[美]Kalman Toth:《人工智能時(shí)代》,趙俐譯,人民郵電出版社2017年版,第215頁??茖W(xué)家已經(jīng)宣告了信息技術(shù)日新月異的變革節(jié)奏,而法律研究領(lǐng)域需要做的就是以發(fā)展的眼光提前構(gòu)筑理論沿革的路徑曲線,大膽預(yù)設(shè),小心求證。具體而言,可從三方面進(jìn)行著手:(1)從法理學(xué)的角度,研究深度學(xué)習(xí)算法與法律理論的聯(lián)系與矛盾;(2)就實(shí)證研究方法,探索新技術(shù)條件下傳統(tǒng)實(shí)證理論的變遷與沿革、算法歧視的有效規(guī)避、數(shù)據(jù)樣本的權(quán)屬界定等;(3)以5G網(wǎng)絡(luò)生態(tài)的發(fā)展態(tài)勢(shì)為前提,思考在物聯(lián)網(wǎng)的建設(shè)布局下,大數(shù)據(jù)實(shí)證研究的拓展、數(shù)據(jù)監(jiān)管和產(chǎn)業(yè)間的規(guī)范銜接等問題。要明確,目前初步開展的以司法數(shù)據(jù)庫為基礎(chǔ)的實(shí)證研究尚屬于“大量數(shù)據(jù)的研究”,而“基于大量數(shù)據(jù)的研究并非嚴(yán)格意義上的大數(shù)據(jù)研究”②(62)②左衛(wèi)民:《邁向大數(shù)據(jù)法律研究》,載《法學(xué)研究》2018年第4期,第142頁。,因此,真正的大數(shù)據(jù)實(shí)證研究的基礎(chǔ)理論建設(shè)平臺(tái)亟待鋪就。

(二)技術(shù)應(yīng)對(duì):建立嚴(yán)密、完善的操作糾偏機(jī)制

由于大數(shù)據(jù)存在著諸多技術(shù)性瑕疵,法律實(shí)證研究中,會(huì)給樣本選擇、樣本統(tǒng)計(jì)和樣本分析等階段帶來多重技術(shù)性偏誤,同時(shí),大數(shù)據(jù)的運(yùn)行實(shí)質(zhì)還涉及侵犯隱私權(quán)等倫理問題。因此,必須改進(jìn)舊有的研究操作步驟,建立一套嚴(yán)密、完善的研究操作糾偏機(jī)制,從技術(shù)角度來切實(shí)解決已出現(xiàn)的操作問題。

首先,對(duì)樣本選擇階段的“選擇偏誤”和“數(shù)據(jù)碎片化”,著重需要解決的是數(shù)據(jù)樣本的選擇失衡,以及不同行業(yè)、產(chǎn)業(yè)間的數(shù)據(jù)樣本重復(fù)、采集標(biāo)準(zhǔn)不統(tǒng)一等問題。對(duì)此,需要在各行業(yè)內(nèi)加快建立統(tǒng)一的大數(shù)據(jù)庫,制定嚴(yán)格的行業(yè)數(shù)據(jù)采集、管理標(biāo)準(zhǔn)和規(guī)范,改進(jìn)和強(qiáng)化各類數(shù)據(jù)測(cè)量?jī)x器的生產(chǎn)標(biāo)準(zhǔn),盡可能實(shí)現(xiàn)行業(yè)內(nèi)不同機(jī)構(gòu)間的規(guī)范數(shù)據(jù)共享和數(shù)據(jù)互通,同時(shí)分別從技術(shù)、規(guī)范雙重角度推動(dòng)行業(yè)用語的統(tǒng)一,以減少數(shù)據(jù)樣本碎片化傾向;同時(shí),在數(shù)據(jù)樣本篩選環(huán)節(jié)設(shè)置變量檢測(cè)指標(biāo),利用大數(shù)據(jù)對(duì)行業(yè)內(nèi)常見的目的性傾斜、程序性疏漏等選擇失衡表征進(jìn)行分析,搭建變量檢測(cè)模型,以排除樣本篩選中的一般失衡因素;此外,還需要設(shè)立個(gè)人隱私信息鑒別篩查口,制定適用于行業(yè)一般操作標(biāo)準(zhǔn)的個(gè)人隱私信息鑒別機(jī)制,在大數(shù)據(jù)樣本中提前過濾涉?zhèn)€人隱私的數(shù)據(jù),盡可能避免對(duì)他人隱私的侵犯。

其次,對(duì)樣本統(tǒng)計(jì)階段的“測(cè)量偏誤”和“確認(rèn)偏誤”,需要著重解決的是數(shù)據(jù)樣本的失真和研究模板的“偶然性結(jié)果確認(rèn)”問題。要實(shí)現(xiàn)數(shù)據(jù)樣本的保真,不僅要嚴(yán)格規(guī)范數(shù)據(jù)測(cè)量?jī)x器的規(guī)格和生產(chǎn)標(biāo)準(zhǔn),還要強(qiáng)化對(duì)具有數(shù)據(jù)采集功能的芯片、儀器的生產(chǎn)企業(yè)的數(shù)據(jù)庫監(jiān)管,同時(shí)加速驅(qū)動(dòng)各行業(yè)間的數(shù)據(jù)互聯(lián)互通,規(guī)劃構(gòu)建微小企業(yè)數(shù)據(jù)存儲(chǔ)與流通監(jiān)督機(jī)制,大力推動(dòng)協(xié)調(diào)政府機(jī)構(gòu)、互聯(lián)網(wǎng)平臺(tái)、數(shù)字芯片儀器生產(chǎn)企業(yè)三方權(quán)益的云存儲(chǔ)數(shù)據(jù)庫的規(guī)范運(yùn)行和安全監(jiān)管,以科學(xué)審慎的態(tài)度迎接5G時(shí)代基于物聯(lián)網(wǎng)的真正大數(shù)據(jù)實(shí)證研究的到來;此外,為保證實(shí)驗(yàn)?zāi)P偷目茖W(xué)性和準(zhǔn)確性,需要為實(shí)驗(yàn)結(jié)果的驗(yàn)證設(shè)立“多重確認(rèn)審核機(jī)制”,對(duì)數(shù)據(jù)樣本和參量進(jìn)行多次調(diào)整,盡可能減少“確認(rèn)偏誤”的發(fā)生。

再次,對(duì)樣本分析階段的“可視化失真”和“混雜偏誤”,需要著重解決的是數(shù)據(jù)轉(zhuǎn)化保真的技術(shù)難點(diǎn),以及變量結(jié)果間的因果關(guān)系誤導(dǎo)問題。前述指出,數(shù)據(jù)可視化失真的風(fēng)險(xiǎn)主要來源于編碼路徑的選擇、數(shù)據(jù)丟失和技術(shù)盲點(diǎn)等三個(gè)原因,除了技術(shù)盲點(diǎn)屬于操作中不可控的因素外,前兩點(diǎn)原因?qū)е碌钠`都可通過技術(shù)性干預(yù)予以矯正。目前大數(shù)據(jù)應(yīng)用于法律界出現(xiàn)的較大問題在于,法律想要實(shí)現(xiàn)的目的與具體編碼設(shè)計(jì)間存在不小差異,這種差異一方面源自程序設(shè)計(jì)員對(duì)法律需求和實(shí)質(zhì)的誤讀,另一方面源自設(shè)計(jì)方案路徑選擇中缺乏與法律專業(yè)人士切實(shí)的溝通及其指導(dǎo)。因此,必須加速跨學(xué)科大數(shù)據(jù)法律實(shí)證研究人才的培養(yǎng),有針對(duì)性地提升程序設(shè)計(jì)員對(duì)數(shù)字的法律化建構(gòu)能力和法律專業(yè)人士對(duì)法律的數(shù)字化解讀能力,從而真正實(shí)現(xiàn)對(duì)數(shù)據(jù)樣本編碼路徑的最佳化選擇,以及對(duì)決定性數(shù)據(jù)丟失的判定。此外,明確“混雜偏誤”產(chǎn)生的關(guān)鍵在于“干擾變量”的誤導(dǎo),需要強(qiáng)化樣本分析環(huán)節(jié)的因果關(guān)系解讀,在統(tǒng)計(jì)學(xué)和法學(xué)專家的指導(dǎo)下修正樣本規(guī)模,進(jìn)行混雜變量的調(diào)整,以此減少不合理的因果關(guān)系解讀選項(xiàng)。

最后,對(duì)數(shù)據(jù)采集的越界問題,關(guān)鍵需要實(shí)現(xiàn)的是個(gè)人隱私信息保護(hù)機(jī)制的建立和完善。一方面,亟待確立科學(xué)合理的個(gè)人隱私信息界定標(biāo)準(zhǔn)。目前,國(guó)內(nèi)對(duì)個(gè)人信息保護(hù)的重要參考對(duì)象是歐盟的《通用數(shù)據(jù)保護(hù)條例》和《以犯罪預(yù)防、調(diào)查、偵查、起訴或刑罰執(zhí)行為目的的自然人個(gè)人數(shù)據(jù)保護(hù)指令》,但是這些規(guī)定對(duì)個(gè)人隱私信息的范疇界定都比較模糊,忽略了人工智能時(shí)代數(shù)據(jù)信息動(dòng)態(tài)多變的特點(diǎn)。因此,對(duì)隱私信息的界定可以從個(gè)人主觀層面和社會(huì)客觀層面進(jìn)行差異化的動(dòng)態(tài)判斷,這實(shí)際要求構(gòu)建一個(gè)明確合理的隱私信息量化標(biāo)準(zhǔn)。①(63)①朱嘉珺:《數(shù)字時(shí)代刑事偵查的隱私權(quán)保護(hù)界限——以美國(guó)卡平特案大討論為切入口》,載《環(huán)球法律評(píng)論》2020年第3期,第55頁。另一方面,需要建設(shè)一個(gè)圍繞數(shù)據(jù)信息權(quán)屬的信息保護(hù)均衡機(jī)制。數(shù)字社會(huì),尤其是物聯(lián)網(wǎng)的鋪設(shè),不僅在大中小企業(yè)、機(jī)構(gòu)里出現(xiàn)了密織的數(shù)據(jù)庫,同時(shí)數(shù)據(jù)共享機(jī)制和開源平臺(tái)的出現(xiàn)更是讓數(shù)據(jù)流動(dòng)成為常態(tài)。與此同時(shí),大量個(gè)人信息被理所當(dāng)然地掌握在了企業(yè)、機(jī)構(gòu)的手中,這也意味著數(shù)據(jù)信息的主體并非數(shù)據(jù)信息的存儲(chǔ)方,而數(shù)據(jù)信息的存儲(chǔ)也并不代表對(duì)信息享有絕對(duì)的所有權(quán)和控制權(quán)。因此,有必要構(gòu)建個(gè)人、商業(yè)機(jī)構(gòu)和政府三方協(xié)調(diào)的信息保護(hù)均衡機(jī)制,既能對(duì)個(gè)人關(guān)鍵信息實(shí)現(xiàn)監(jiān)管和保護(hù),又要考慮到數(shù)據(jù)在數(shù)字社會(huì)的資源利用價(jià)值,以動(dòng)態(tài)的方式維護(hù)信息保護(hù)和數(shù)據(jù)循環(huán)再利用間的平衡。

(三)結(jié)構(gòu)應(yīng)對(duì):創(chuàng)設(shè)協(xié)調(diào)、規(guī)范的風(fēng)險(xiǎn)控制系統(tǒng)

根據(jù)大數(shù)據(jù)運(yùn)行機(jī)理與法律實(shí)證研究思維結(jié)構(gòu)間的矛盾分析,可以看出,二者主要在研究模型建構(gòu)、法律釋義、規(guī)范適用和司法裁決等四個(gè)方面存在實(shí)質(zhì)性的結(jié)構(gòu)互斥。這種互斥不單是數(shù)據(jù)原理與立法規(guī)律間的矛盾,也是自然科學(xué)與人文社會(huì)科學(xué)間體系性沖突的一種表現(xiàn)。雖然依照大數(shù)據(jù)的理念,任何社會(huì)現(xiàn)象都可以數(shù)字方式進(jìn)行呈現(xiàn)和解釋,但就技術(shù)現(xiàn)實(shí)發(fā)展而言,這種理念始終是理想化的,而橫亙于抽象與具象學(xué)科間的溝壑卻是實(shí)際存在且無法全然填補(bǔ)的。因此,要想使大數(shù)據(jù)有機(jī)作用于法律,必須創(chuàng)設(shè)一個(gè)風(fēng)險(xiǎn)控制系統(tǒng),從整體對(duì)大數(shù)據(jù)和法律實(shí)證研究的運(yùn)行兼容性進(jìn)行把控,充分發(fā)揮二者的優(yōu)勢(shì),調(diào)和二者的矛盾,以期實(shí)現(xiàn)數(shù)字時(shí)代法律實(shí)證研究變革的最優(yōu)化。

就整體而言,一個(gè)良好風(fēng)險(xiǎn)監(jiān)控系統(tǒng)的建立,需要在遵循研究流程的同時(shí)對(duì)每一個(gè)結(jié)構(gòu)碰撞下產(chǎn)生的癥結(jié)進(jìn)行風(fēng)險(xiǎn)監(jiān)控,因此,圍繞著大數(shù)據(jù)應(yīng)用于法律實(shí)證研究的多個(gè)環(huán)節(jié),該系統(tǒng)主要從數(shù)據(jù)建模、樣本采集、統(tǒng)計(jì)分析,到結(jié)果釋義進(jìn)行分步檢驗(yàn),以此對(duì)結(jié)構(gòu)型矛盾可能產(chǎn)生的風(fēng)險(xiǎn)實(shí)現(xiàn)層層遞減。

首先,需要在建構(gòu)研究模型時(shí)增設(shè)“軟信息”填補(bǔ)平臺(tái),以抵御大數(shù)據(jù)“循舊”模式的僵化。利用大數(shù)據(jù)對(duì)既往信息的高歸納和總結(jié)特性,可在某種程度上實(shí)現(xiàn)對(duì)社會(huì)運(yùn)行和事物發(fā)展規(guī)律的一般性預(yù)測(cè)。然而,這種預(yù)測(cè)是高度概括的,以純粹的經(jīng)驗(yàn)為經(jīng)驗(yàn),在數(shù)據(jù)樣本篩選時(shí)就對(duì)少數(shù)的、新鮮的數(shù)據(jù)很不友好,顯示出僵硬的“循舊”傾向。因此,在大數(shù)據(jù)預(yù)測(cè)時(shí)必須注意兩點(diǎn):一是嚴(yán)格區(qū)分群體與個(gè)體、一般與個(gè)別的決策適用,高度警惕市面上已經(jīng)出現(xiàn)的各類針對(duì)個(gè)體的決策類應(yīng)用模型,很可能這類模型構(gòu)建的數(shù)據(jù)基礎(chǔ)只是基于群體的一般性數(shù)據(jù)歸納;二是在數(shù)據(jù)建模時(shí)增設(shè)“軟信息”填補(bǔ)平臺(tái)(注:一般將適用于個(gè)別或少數(shù)情形的信息稱為“軟信息”),定期檢測(cè)新數(shù)據(jù)因子的出現(xiàn)頻率和影響力,當(dāng)頻率和影響力達(dá)到一定閾值后,則可認(rèn)定個(gè)別情形已經(jīng)上升為了一般情形,則該數(shù)據(jù)因子成為決策制定的必要輸入數(shù)據(jù),以此對(duì)數(shù)據(jù)模型進(jìn)行調(diào)整,可在一定程度上防止因重復(fù)吸納不斷精簡(jiǎn)的相同經(jīng)驗(yàn)數(shù)據(jù)而產(chǎn)生的“循舊型”模式僵化。

其次,需要在樣本采集和統(tǒng)計(jì)分析時(shí)強(qiáng)化“多預(yù)案”設(shè)計(jì),以應(yīng)對(duì)因果關(guān)系的錯(cuò)位和結(jié)論閉環(huán)的產(chǎn)生。大數(shù)據(jù)講求數(shù)據(jù)關(guān)聯(lián)而不注重因果關(guān)系的原因在于,事物或現(xiàn)象構(gòu)成的原因過于復(fù)雜,存在太多人類所無法窺知的生成因素,因此只能尋求數(shù)據(jù)與結(jié)論之間的關(guān)聯(lián),而無法確切得知其中的因果關(guān)系。然而,要想通過研究推動(dòng)事物改變或社會(huì)進(jìn)步,僅僅能得出結(jié)論是遠(yuǎn)遠(yuǎn)不夠的,必須找到形成結(jié)論的關(guān)鍵因子或變量,找到問題現(xiàn)象出現(xiàn)的癥結(jié),才能予以修正。同時(shí),大數(shù)據(jù)“自運(yùn)行”本身還具有趨同排異、從舊斥新的特點(diǎn),這也讓大數(shù)據(jù)在做出預(yù)測(cè)時(shí)容易陷入結(jié)論閉環(huán)的困境,給規(guī)范適用的調(diào)整和立法更新形成阻礙。面對(duì)這些問題,傳統(tǒng)單線程的研究思路顯然無法予以解決,需要將樣本采集和統(tǒng)計(jì)分析進(jìn)行階段性整合,強(qiáng)化“多預(yù)案”設(shè)計(jì),具體包括:(1)在遵循統(tǒng)計(jì)學(xué)規(guī)律的前提下,科學(xué)調(diào)整數(shù)據(jù)采樣范圍,多層次多角度思考數(shù)據(jù)與結(jié)果間的因果組合,以找出明確的關(guān)鍵影響因子為目標(biāo);(2)在統(tǒng)計(jì)分析中警惕“過度一致性”趨勢(shì),要在尊重多數(shù)群體選擇的基礎(chǔ)上考慮少數(shù)群體的權(quán)益,必須在決策制定中保障多樣性的存在、維護(hù)目標(biāo)系統(tǒng)運(yùn)轉(zhuǎn)的適度靈活和可持續(xù)發(fā)展,依靠定期對(duì)統(tǒng)計(jì)結(jié)果在變化的社會(huì)環(huán)境背景下的適用反饋,調(diào)節(jié)研究系統(tǒng)和采樣范圍,以實(shí)現(xiàn)最大程度的利益普惠。

最后,需要在結(jié)果釋義中進(jìn)行“明細(xì)化”展示,以規(guī)范裁決量化中出現(xiàn)的“暗箱”情形。由于大數(shù)據(jù)的復(fù)雜性,無法直接呈現(xiàn)運(yùn)算過程,因此在具體實(shí)務(wù)中很容易陷入“一步到位”的裁決模式中,即依靠歸納既往裁決的關(guān)鍵變量構(gòu)建裁決模型,在研究中輸入相應(yīng)采樣數(shù)據(jù)直接得出結(jié)論的做法。例如,對(duì)青少年校園欺凌案進(jìn)行裁決量化,主要提取被告年齡、被害人年齡、被告行為特征、被害人受到的損害等關(guān)鍵信息,通過模型搭建,可實(shí)現(xiàn)一個(gè)簡(jiǎn)單直觀的校園欺凌同類案件裁判預(yù)測(cè)/衡量平臺(tái)。但實(shí)際上,這類裁判平臺(tái)對(duì)大眾并不友好,不僅因?yàn)殛P(guān)鍵因子的提取缺乏司法評(píng)判標(biāo)準(zhǔn),同時(shí)這類數(shù)字化的操作缺乏細(xì)致的釋法明理,使得此類裁決模式缺乏公開性、法理性和普遍性。因此,在大數(shù)據(jù)技術(shù)無法進(jìn)行過程展示的前提下,需要對(duì)裁決流程首先進(jìn)行模塊劃分,如審前、審中、審后,在審判模塊中進(jìn)一步分為公訴方、被告方、附帶民事訴訟原告方、法庭意見,再依據(jù)審判細(xì)節(jié)可再分為公訴方的起訴依據(jù)、被告方的抗辯理由、雙方質(zhì)證環(huán)節(jié)、法庭認(rèn)定事實(shí)和理由、法律依據(jù)、裁判結(jié)果以及社會(huì)環(huán)境和輿論影響等,通過將整體審判流程按縱向或橫向劃分為若干個(gè)模塊,對(duì)每個(gè)單一模塊再提取關(guān)鍵變量建立子模型,同時(shí)對(duì)各模塊依照參與方或?qū)徟协h(huán)節(jié)等建立多個(gè)對(duì)照組,則可在一定程度上向公眾提供審判推論的細(xì)節(jié)展示,保障裁決量化的合理合法,體現(xiàn)司法權(quán)威。

猜你喜歡
法律研究
法律的兩種不確定性
FMS與YBT相關(guān)性的實(shí)證研究
2020年國(guó)內(nèi)翻譯研究述評(píng)
遼代千人邑研究述論
法律解釋與自然法
法律講堂之——管住自己的饞嘴巴
法律講堂之——交通安全我最棒
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
EMA伺服控制系統(tǒng)研究
新版C-NCAP側(cè)面碰撞假人損傷研究
铜陵市| 和林格尔县| 西充县| 南投市| 陇西县| 庄浪县| 栖霞市| 峨山| 天门市| 通榆县| 武陟县| 郁南县| 闻喜县| 婺源县| 云南省| 子长县| 江阴市| 闽侯县| 禹城市| 南昌市| 灌南县| 奉化市| 朝阳县| 平陆县| 新源县| 金秀| 儋州市| 响水县| 加查县| 鹤岗市| 临夏县| 乾安县| 江安县| 宝清县| 和政县| 如东县| 玉林市| 元江| 澎湖县| 左云县| 牙克石市|