(四川大學,四川成都 610207)
內(nèi)容提要:風險社會背景下隨著信息網(wǎng)絡的廣泛運用,算法成為了連通風險社會和數(shù)據(jù)的重要防控節(jié)點。一方面算法作為工具被廣泛運用于風險的預測與防控,另一方面因為算法程序客觀性、智能性以及可解釋性的不足,算法本身也成為了風險源頭的一部分,并貫穿始終。尤其在法律領域,算法在緩解司法壓力的同時,更滋生出如算法損害、技術黑箱、算法權力操縱與算法歧視等多重問題。對此,如何科學地選擇錨點和基礎算法來設計搭建算法模型,通過數(shù)據(jù)訓練并成功運用到實務操作,在規(guī)避減弱風險的同時滿足任務需求,消減算法傷害,最終達到風險預警與防控,便是算法研究的關鍵問題。
“風險社會”這一概念最初由德國學者烏爾利希·貝克提出,核心觀點在于風險由人而生,并相較以往帶有更大的不確定性和偶然性。當前社會也由于人為危險的廣泛存在而成為具有多類型風險的不安定環(huán)境,譬如群體性醫(yī)鬧為代表的公共安全事件、傳染性疫病為代表的公共衛(wèi)生事件、類型犯為代表的特征性犯罪等,其風險源頭都跟人本身緊密關聯(lián)。在基于犯罪防控目的的刑事司法領域,則因為由危險向風險的關注轉(zhuǎn)變,即將對犯罪人個人人身危險性的處遇與矯正移向事前的犯罪風險預警、事中的風險應急處理及事后的風險控制,從而實現(xiàn)刑罰個別化和犯罪行為中心論之間邏輯的協(xié)調(diào)。而更高層面來講,在大數(shù)據(jù)時代背景下,基于效益主義和精算司法思想的傳播,無論從侵權違約風險、犯罪風險的發(fā)現(xiàn),分類及排序到最終的控制矯正,還是人工智能司法科技等防控關節(jié)點的研究完善,都需要借助信息技術來達成數(shù)據(jù)的處理與運用。而其中技術難點之一便在于算法的構建及運用,并且基于算法本身的特性,從算法的設計、選擇、組合、訓練到最后的實務運用,如何做到“既回應社會效益之要求,又一并消減風險”便是算法設計研究中值得思考的問題。
如前所述,對科技的過度迷戀為風險之肇始,風險社會背景下的風險實質(zhì)上是一種“人造”風險,而人作為源頭蘊含著關于諸多不確定性,不同個體、群體甚至人造物也關聯(lián)著不同的風險類型和烈度,數(shù)據(jù)時代下與算法結合其影響范圍更是涉及社會倫理[1]、金融商務[2]、信息網(wǎng)絡[3]、教育醫(yī)療[4]和行政法制等諸多領域。如法律領域中,民事領域因食品、醫(yī)療等問題產(chǎn)生的侵權風險,因債權引發(fā)的失信與違約風險;刑事領域中則表現(xiàn)以人身危險性為要素的犯罪風險,以及恢復社會關系與信任的矯正修復風險等;而在司法科技領域更多的是算法本身缺陷帶來的系統(tǒng)性歧視和司法信任等風險。就犯罪而言,侵權與犯罪風險無法量化和類型化,但是促成人身危險性較高的背后卻是可被分解量化的具體風險因素,如行為暴力程度(1~10級)、社會征信評級、反社會化程度等等,這也符合安塞爾(MarcAncel)的新社會防衛(wèi)思想的觀點——“行為人格是可以被抽象化從而分級分類量化評估的”。所以從某種程度上來講,風險在具備多元化的同時也具備了可解釋性,可以通過風險類型和程度的差異來進行分析比較。
而在如今大數(shù)據(jù)時代的背景下,面對包括類型化犯罪、重大疫情在內(nèi)的公共安全事件時,我們往往具備兩雙眼睛,一雙是生理上的眼睛,用肉眼觀察人的行為;另一雙則是數(shù)據(jù)之眼,以個人數(shù)據(jù)為例,包含身份信息、身體信息、社會關系、行為軌跡以及物流信息等個人信息以音頻圖像、表格數(shù)字等方式來展現(xiàn),匯總之后通過算法處理,便是被量化的社會風險和群體反應。通過對這些數(shù)據(jù)的分析,更進一步便可以防患于未然,及時控制治理,甚至達到準確預測。就如同偵探福爾摩斯那般,能從煙葉的成色狀態(tài)及當事人的外觀語言推測出人物的籍貫來歷甚至職業(yè),他能做到并非神機妙算,而在于掌握大量的信息,足夠串聯(lián)起平常不起眼事物間的聯(lián)系。而法律部門作為國家機關,在掌握著諸多公民信息的同時,更享有依法取得境內(nèi)其他機構與個人數(shù)據(jù)的權力,天然具有信息話語權的優(yōu)勢。同時,有限司法資源和訴訟壓力的矛盾也驅(qū)使著法律部門進行大數(shù)據(jù)處理的嘗試與優(yōu)化。
而在留痕性和證據(jù)法定主義的要求下,司法執(zhí)法過程中獲取、保存數(shù)據(jù)后,還需要將其轉(zhuǎn)化成滿足證據(jù)能力與證明力的法定證據(jù)或輔助性證據(jù),譬如網(wǎng)絡空間行為軌跡、電子錄音轉(zhuǎn)化后文本、未成年犯調(diào)查報告等。線下的數(shù)據(jù)匯總與線上實時產(chǎn)生的數(shù)據(jù)洪流,超過了人腦處理速度,就為算法流水處理提供了空間。凡是接觸必留下痕跡(Everycontactleavestrace),不同于線下信息的龐雜性,反映在網(wǎng)絡空間的行為痕跡,更存在著大量冗余噪聲,很多時候以二進制式數(shù)據(jù)的機器語言的形式存在,我們可以感知到它,卻無法直接理解它的意思,更不必談去解讀其背后蘊含的風險意義。要打破此中關節(jié),實現(xiàn)風險數(shù)據(jù)可視化的關鍵橋梁便是算法的運用。在掌握足夠全面的數(shù)據(jù)后,分類別和烈度列出風險項并計算出其發(fā)生的概率,建立對應的決策樹后形成合理風險預案,從而達到防范風險的效果,這些都可以通過算法實現(xiàn)。
所以總的來說,社會主體產(chǎn)生數(shù)據(jù),但數(shù)據(jù)已經(jīng)產(chǎn)生卻往往不再掌握在個人手中,形成最初的隱私泄露風險。而數(shù)據(jù)通過算法進行處理分析,算法在數(shù)據(jù)訓練喂養(yǎng)后反饋修正,自身讓數(shù)據(jù)“開口講話”的同時強化學習并升級,從而更有效地抓取數(shù)據(jù)并識別風險,實現(xiàn)有效風險防控。而在此過程中,算法處理、學習和結果應用的階段則分別聯(lián)系不透明與權利操縱風險、系統(tǒng)性偏見與歧視風險、權利侵害與權力異化風險以及責任主體模糊等。就此,從圖1我們可以較清晰地看到三者形成了一個基本循環(huán),而如何以算法為切入點,深入了解挖掘后進行針對性風險防控,從而實現(xiàn)風險、數(shù)據(jù)與算法的有序銜接,也成為了下一步要解決的問題。
圖1 司法數(shù)據(jù)、算法與風險關系圖
目前的算法主要有符號學派、聯(lián)結學派、進化學派、貝葉斯學派及類推學派,[5]而算法也因為功能和用途的不同,被分為順序、平行、互動、分布式、實時、混合和量子等算法,[6]同時在經(jīng)典算法基礎上又衍生出諸多子類及其他新型算法,如支持向量機算法、流形學習算法等。還有學者認為可分為宏觀的兩大類,分別是以專家系統(tǒng)為代表的“知識圖譜”類算法,以邏輯推理為基礎,特征也傾向于符號算法和決策樹算法,以符號和推理方式模擬人腦思考,實務中在智能輔助量刑系統(tǒng)、類案檢索系統(tǒng)上多有運用;以 “深度學習”“強化學習”為代表的統(tǒng)計算法,以數(shù)據(jù)概率為基礎,在統(tǒng)計學原理上結合神經(jīng)網(wǎng)絡技術建立算法模型,[7]特征類似貝葉斯學派中概率論的分析表達,在確定維度錨點和特征標簽后通過數(shù)據(jù)擬合來實現(xiàn)識別和預測,實踐中在美國COMPAS犯罪風險評估系統(tǒng)、訊飛語音文字轉(zhuǎn)換系統(tǒng)等上多有運用。而第二類統(tǒng)計概率型算法因為潛力空間巨大、可操作性更強的優(yōu)點,也是實務研究的重點突破口。
算法由于類型和功能的不斷發(fā)展,本身無法嚴格被定義,但其本質(zhì)基本可被界定為人為設計來完成特定指令目的任務的系統(tǒng)性代碼,也就是通常被大眾認為的計算機程序。[8]其構建、調(diào)試到實務運用過程如圖2所示,算法基本遵循 “特定目的需求→算法選擇→代碼設計→模型搭建及組合→數(shù)據(jù)訓練→反饋修正→實務運用”的道路,從而完成虛擬到實踐的轉(zhuǎn)化,實現(xiàn)算法目的。
圖2 算法構建與運用的路徑
關于算法的風險分類,有學者基于算法規(guī)制設想的角度,按照算法的可解釋性和自主性將其劃分為白箱、灰箱、黑箱、感知與奇異算法[9],其透明程序依次由低到高,甚至奇異算法已經(jīng)產(chǎn)生了實質(zhì)意義上的AI(Artificial Intelligence的縮寫,譯為人工智能)生命。此外有外國學者從可控性的角度,認為可將其分為政策中立性算法(Policy-neutral lgorithm)與政策導向性算法(Policy-oriented Algorithm)兩類,并分別結合與之匹配的機器學習類型,比如政策導向性算法一般與監(jiān)督、半監(jiān)督學習相聯(lián)系,可控性更強,算法風險多發(fā)于算法過程和后端,出現(xiàn)算法權力操縱和人為歧視等問題;而政策中立性算法更多的運用無監(jiān)督學習方法進行數(shù)據(jù)訓練,風險源多集中于算法程序前端,對數(shù)據(jù)源的純度和算法程序的可解釋性要求更高。
就算法及其風險的理論研究而言,法學界更多集中在算法應用層面的大數(shù)據(jù)處理、人工智能以及算法黑箱問題,近兩年才轉(zhuǎn)向算法風險層面,觀察算法歧視與權力操縱問題,但都集中在設計理念跟應用層面,針對其具體的算法搭建則一直作為技術“黑箱”被對待,例如分別有基于算法智能推薦的倫理風險研究(2018年,胡萬鵬),針對算法權力異化風險的限權與賦權研究(2019年,張凌寒),基于算法隱私侵害風險的用戶畫像和個人信息保護研究(2019年,丁曉東)等??梢钥吹蕉嗍菄L試以打開“黑箱”提升透明度的路徑進行改善,因為黑箱本身信息披露的成本較高,算法的搭建更涉及計算機學、數(shù)學等眾多學科,專業(yè)性較強,單純的源代碼披露并不能幫助解決實際社會問題,反而可能引發(fā)類似于谷歌公司搜索引擎算法披露后被惡意商業(yè)操縱的算法推薦風險。但同時也有學者提出可以采用事后問責結合有限制披露的方法,側重事后救濟的方式進行風險防范的新思路。[10]所以結合已有研究成果,文章采用風險防控的思路,以應用問題反觀算法具體設計搭建的角度進行探索規(guī)制。
而針對算法及其風險的法律規(guī)制,歐盟與美國發(fā)展水平處于前列,故選取與我國情況對比參考。歐盟更加注重對信息相對人的權利侵害風險防范,強調(diào)公民個人信息權隱私設計保護,在可視透明的基礎上保障信息生命周期里端到端的安全,2018年5月于歐洲頒布并生效的《數(shù)據(jù)保護通例》,即GDPR(General Data Protection Regulation)也在其序言第71條及正文第13條、14條、15條和22條對算法的解釋權加以規(guī)定,相比于原有的《歐盟數(shù)據(jù)保護指令》中“算法相對人有權拒絕基于數(shù)據(jù)的自動化處理編隊某些個人方面作出的可能產(chǎn)生法律后果或重要影響的評價”的規(guī)定,進一步保障算法相對人“要求算法使用者向其提供與非完全自動化算法決策的目的、處理邏輯以及可能產(chǎn)生的影響及相關信息”的權利,[11]再結合已確立的數(shù)據(jù)領域的知情與訪問權、更正擦除權、攜帶權以及《隱私設計保護意見》(簡稱EDPS)等,從而初步明確了歐盟在法律領域關于算法解釋權的保護與救濟。[12]美國則是更加關注算法開發(fā)創(chuàng)新與監(jiān)管審查的平衡,鼓勵公眾參與,私營企業(yè)建議、行業(yè)自律和行政律令三方攜手打造風控機制。就法律規(guī)范上,其政府也繼2016年發(fā)布 《人工智能報告和戰(zhàn)略規(guī)劃》后于2020年發(fā)布《人工智能應用監(jiān)管指南》,列舉細化了需要在假定人工智能并不完善的前提下理解、分類和防范人工智能系統(tǒng)產(chǎn)生的風險內(nèi)容。[13]紐約市政府更是于2017年出臺了《算法問責法》,在公用事業(yè)領域進行算法問責,并確立算法的一應評估標準、救濟程序與權利等要求。
而我國更多地通過宏觀法律的架構對算法及其風險進行原則性的規(guī)制與防范,目前雖尚無關于具體算法風險的專門法律規(guī)制,但在十九大報告上強調(diào)統(tǒng)籌 “傳統(tǒng)安全與非傳統(tǒng)安全”的同時,相關國家機構也分別于2016年、2018年、2019年出臺了 《網(wǎng)絡安全法》《電子商務法》《中國證監(jiān)會監(jiān)管科技總體建設方案》《金融科技發(fā)展規(guī)劃》等法律條例,在宏觀上確立了對算法進行初步的監(jiān)管。
作為風險社會理論探尋風險社會出路的兩條路徑,制度主義和文化主義暗自指向彌合“工具理性”與“價值理性”之間的鴻溝,在風險意識啟蒙后從人性角度去審視當代風險問題。其中尤其要做到風險治理主體上的多元性與參與度,風險治理過程的開放透明性;以及風險治理責任的清晰明確[14]。算法作為處理數(shù)據(jù)的基站,是數(shù)據(jù)被正式匯總后所將面對的核心分流器,而算法程序的運行結果則在很大程度上決定了數(shù)據(jù)下一步的用途,承接了來自數(shù)據(jù)及應用的部分社會風險之外,作為風控工具的本身人們對此也有失控之虞。所以作為一道目的導向型的實現(xiàn)程序,從設計理念、基礎算法選擇到最后的算法模型搭建也就將遵循著智能、高效、精準、客觀四大原則展開,同時為實現(xiàn)真正意義上的風險管理,在結合特定任務需求進行的算法對比篩選環(huán)節(jié),最后的大量數(shù)據(jù)訓練環(huán)節(jié),都應結合風控理念進行完善和修正,將科技研發(fā)和實務反饋結合,將技術手段約束與社會層面規(guī)律結合,多層面進行過程透視與責任分流,使得算法與任務目的盡可能匹配的情況下消減風險與傷害。
1.科學性原則。面對科學造成的風險,貝克曾提出 “在反思性科學化條件下將風險轉(zhuǎn)化為機會的路徑”的觀點??茖W理性作為風險治理的一大原則,同樣適用于算法演進的風控。因為算法程序本質(zhì)是一道計算機運行的程序,始終遵循著程序語言的規(guī)則,穩(wěn)定性、安全性以及簡練性便是檢驗程序是否科學可信的三大標準。算法程序的穩(wěn)定性在于多種軟硬件環(huán)境下保持持續(xù)穩(wěn)定的運行工作,不會產(chǎn)生較多的程序漏洞與不必要的冗余值溢出,程序漏洞即BUG會直接破壞程序的穩(wěn)定,造成算法程序的卡頓甚至崩潰,并為計算機蠕蟲等病毒留下縫隙通道,直接影響到算法本身的安全。當然安全性要求不僅包括對木馬程序等病毒的防御能力,還包括對算法本身后門的設置。設置程序后門雖是當下業(yè)界的一條不成文習慣,但亦應以不危害用戶本身信息安全及利益為限,不得人為非法地截取轉(zhuǎn)存和擴散。
其次,簡練性則要求算法設計之初便要考慮程序運行時所占的內(nèi)存容量,達到盡可能的“輕便”,這也與穩(wěn)定性要求相符合,穩(wěn)定性較高的算法程序大多具備最簡練的底層邏輯架構,不冗長的代碼也具備更小的BUG產(chǎn)生幾率,不會產(chǎn)生太多的錯誤結果和冗余值,并將其算法“噪聲”降至最低,從而提升程序的效度。同時簡練性并不是簡單純粹的追求代碼的“短”和空間占比的“小”,而是通過構建穩(wěn)定的框架和洗練科學的錨點來達成簡約而有效的任務需求。以設計以人臉識別的算法模型為例,在構建此算法時會以面部要素為錨點,分類建立起參考坐標,并對錨點進行分別評估賦值。五官為基礎錨點,發(fā)型、眉毛、瞳色、眼瞼、膚色、胡須等則為次級錨點,而對基礎錨點和次錨點如何進行選擇與取舍,并對應賦予恰當?shù)臄?shù)值的過程則成為算法設計的關鍵點。因為此時錨點的數(shù)量、數(shù)值或占比則決定了算法結果是否可以比較準確而快捷地對人臉加以匹配識別,錨點數(shù)量越多,賦值越精準,其參考體系無疑會更加全面而準確,容錯率也進一步提升,但牽一發(fā)動全身,由于引入的要素數(shù)量上升,隨之而來算法程序需要更大的可供內(nèi)存消耗空間,BUG檢測調(diào)試的工作量激升,現(xiàn)實數(shù)據(jù)的收集分類工作的任務也更重。
實務中亦有對此的相關研究,在面對數(shù)據(jù)量較大的情況,生成錨點并計算樣本點和錨點之間的相似度矩陣是關鍵步驟,而錨點的選擇一般有隨機選擇方法和K-means方法兩種。對此羅曉慧等人提出了計算復雜度更小的,采用平衡二叉樹結構的層次平衡K-means(BKHK)方法,簡稱 BKHK,[15]效果如圖 3 所示。
圖3 層次平衡K-means(BKHK)方法下的錨點生成
2.客觀中立原則。堅持客觀中立是破除極化信息繭房悖論的有效方法,因為算法個性化推薦被人詬病的一點便在于會加重信息極化,久而久之形成堪比階級封鎖的信息封閉,從“人常常選擇使自己愉悅的信息”到“人只選擇喜歡使自己愉悅的信息”。[16]但已有研究表明,形成繭房的根本原因在于人天生就具有偏愛喜惡的區(qū)分,算法智能化推薦只是加速了它的形成,但同時算法真正意義上的客觀中立設計原則會基于用戶興趣推移、水平與垂直媒體的共存交織、數(shù)據(jù)源內(nèi)容與層次的增加等因素對信息偏差極化進行矯正,從而幫助打破信息繭房,促進信息偶遇,進行更廣意義的構建。
此外,算法的客觀中立性因為契合司法獨立的理念,被引入司法實務進行程序輔助乃至實體裁量的參考,而客觀中立原則也隨之內(nèi)化成為其法理基礎的一部分。算法的客觀中立性一部分來源于機器語言的最底層邏輯無法更改,會永遠恪守其設計之初的“底層原則”按既定程序運行,不會像人被情緒所干擾。所以保證客觀中立的第一步確保便是設計理念的中立客觀,不存在惡意的后門可供操縱,也不存在先天的算法漏洞導致算法歧視的風險。后門可以通過風險調(diào)試和木馬攻擊進行測試檢查,而先天算法歧視因為原因的復雜而需要區(qū)分對待。
刨除算法設計者本身能力的不足,一般來說,設計階段時算法錨點設置和賦值,模型搭建階段時算法組合的銜接,訓練階段時數(shù)據(jù)樣本的選擇出現(xiàn)偏頗失誤都可能引起算法歧視,錨點、標簽賦值的錯誤會直接產(chǎn)生升維時的偏差,而數(shù)據(jù)“喂養(yǎng)”時失誤因為“深度學習”的存在則會擴大這種偏差形成歧視,就如同一名問題兒童在出生之時便有缺陷,在青少年時期的成長又受到社會的不良影響,從問題兒童變成了不良少年甚至走向犯罪。以美國COMPAS系統(tǒng)為例,已被其本國調(diào)查性新聞機構ProPublica調(diào)查證實,依據(jù)COMPAS系統(tǒng)算法會導致更可能將黑人列入 “高犯罪風險及犯罪潛力人群”,其概率接近將白人列入此選項的兩倍。而諷刺的是,實證研究卻發(fā)現(xiàn)被COMPAS系統(tǒng)認定相同風險等級時,白人在被假釋后卻更容易再次犯罪,從而證實了該系統(tǒng)對黑人所構成的系統(tǒng)性歧視。[17]造成這般算法偏見甚至的歧視的原因便是數(shù)據(jù)“訓練”和算法設計的失誤。所以堅持客觀中立原則必須貫穿始終,從算法設計時參考因素與變量統(tǒng)計的取舍(針對性別、取向、膚色種族、宗教信仰等的非回避化與匿名化處理,但應警惕為消除政治或道德風險而在算法中故意排除統(tǒng)計學意義上重要因素的做法,從而妨礙到預測指標在統(tǒng)計學上的顯著性檢測),到結合個性化與社會均值的合理錨點賦值,再到數(shù)據(jù)源與樣本事前選擇的全面客觀(代表性、層次性、全面性和個別非典型性),都應該有所體現(xiàn)。
而客觀中立的另一部分則來源于算法計算過程的可解釋性,可解釋性是指整套算法模型的關鍵步驟是透明的,并且有足夠的理由支撐解釋為何會得出這樣的計算結果。算法中深度學習的存在導致技術“黑箱”出現(xiàn),可解釋性便成為算法設計的一大難題。因為機器語言無法被人類直接所理解,而算法的基礎邏輯和語言便是由其構成。尤其是以“深度學習”“強化學習”為代表的概率統(tǒng)計類算法,采用了一種“端到端”(end-to-end)的運行模式,所以在設定好算法后輸入數(shù)據(jù)到獲得結果的過程是不透明的,甚至大部分情況下算法的源代碼和數(shù)據(jù)也是不為外界所知,人們也無法得知計算結果的如何得出與為何得出。但實務中仍堅持著對算法進行解釋的可視化探索,并取得了一定成效。谷歌大腦計劃研究員Cheis Olah完成了一項名為 “可解釋性的基礎構件”(The Building Block of Interpretability)的研究成果,該成果可以對算法程序的運作狀態(tài)“翻譯”成人類可以理解的形式,從而一定程度上揭開“黑箱”的神秘面紗[18]。學界還提出了如升維可視化等解決設想,比如將原有錨點維度劃分并擴展為多個新維度,并使用鄧恩指數(shù)和正確率來量化評估Radviz(徑向可視化技術)的可視化聚類效果,對原有維度,尤其是與真實分類結果相關性高的維度進行進一步的合理升維處理,可以較大幅度地提高Radviz的最佳可視化聚類效果,從而在總體上改善不同維度錨點排序情況下的數(shù)據(jù)投影結果。[19]
3.智能性原則。就如同法國學者伽洛曼·屈秀所言,智能化是21世紀后無主機械發(fā)展的終點。雖有夸大成分,但智能性的確已經(jīng)與高效性、精準性、便捷性發(fā)生交叉重疊甚至將其涵蓋,也代表著當下信息科技發(fā)展的主流方向。作為采用機器語言的算法程序也不例外,人工智能作為當下法律領域研究的熱門方向,從公安系統(tǒng)里以PGIS為代表的犯罪情報研判體系構建[20],到法院體系中的智慧法院建設工作以及紅圈律所開發(fā)的工作協(xié)助系統(tǒng),也都未放棄對智能化的研究。以四川省為例,四川省高級人民法院牽頭組織研發(fā)的道路交通事故糾紛要素式審判信息系統(tǒng),通過對內(nèi)部算法程序的合理構建組合,可對交通事故一類案件進行要素識別后分類整理,結合既定裁判規(guī)則對庭審筆錄文本智能識別后抓取整理,并自動形成裁判文書,關于事故造成的損失在確認既定數(shù)據(jù)無誤后也可一鍵生成。[21]在規(guī)范了案件處理流程的同時,也極大地提升原有司法裁判文書制作的效率,緩解了訴訟爆炸帶來的訴累壓力。
其次我們可以看到,網(wǎng)站人流量數(shù)據(jù)量的長期滿額運行或者過載運行,會造成反應遲滯卡頓甚至崩潰。以中國裁判文書網(wǎng)為例,由于長期被諸多社會機構以數(shù)據(jù)爬蟲的形式占領用于實時抓取案例數(shù)據(jù),導致網(wǎng)站因此不堪重負,極其卡頓,這就提示著算法的智能化還需要包括優(yōu)化其對外部的負載能力和對內(nèi)的推薦優(yōu)化能力。因為算法推薦技術一方面擁有強化信息繭房的風險,可能造成信息控制與技術依賴的負面影響,但另一方面卻能夠有效解決信息過載的問題,在結合人工推送和內(nèi)容審核后,達到“以技制技”的效果,而精準的內(nèi)容推薦和類案推送也無疑會受到廣大法律從業(yè)者的青睞。所以總的來說,法律領域的人工智能的發(fā)展方向是突破簡單的“數(shù)學+科技+法律”組合,在概率統(tǒng)計的數(shù)據(jù)基礎上結合“專家知識圖譜”,在數(shù)據(jù)流的壓力測試下適應完善,達到“超級人腦”的思考效果。
最后,由于法律視角和價值選擇的差異,不同的立場和法律條文帶來的是對同一案件事實的不同解讀,加上算法不像人類具備“常識”,無法完全理解語言的豐富涵義,[22]導致生成“符號接地問題”甚至陷入語境悖論。所以如何貫徹社會風控的溝通理念,打破機器語言與人類語言的圈層壁壘,實現(xiàn)一定程度上的對話互通,便成為破解算法智能化難題的關鍵環(huán)節(jié)。實現(xiàn)一定程度語義互通后,才能進而制定一套相對權威完善的專家評價體系,對法律原則和價值位階等要素進行梳理整合,并分別提煉賦值,從而為算法在法律判定評價上的智能化飛躍奠定基礎。
事實上,在接觸到具體任務需求之后,我們往往并不需要再設計一套全新的算法。因為基于風險測試和現(xiàn)實成本的考量,一套全新的相對完善的算法除了前期設計構建外還需要通過反復的數(shù)據(jù)訓練和調(diào)試才能逐步被采用,其間需要人物財力不間斷投入打磨。而在市面上已經(jīng)存在許多已經(jīng)被驗證過,風險系數(shù)較低且相對成熟的算法,所以我們組建自己算法模型的第一步則是先在這類算法中比較挑選,再加以改良完善甚至重造,從而設計出自己需要的算法。
具體到算法,以為不同場景算法應用為例,面對支持算法程序的硬件要求,選擇SVM訓練算法時,Chunking算法因可以通過某種迭代方式逐步排除非支持向量,從而滿足降低訓練過程對存儲器容量的要求;而分解算法(decomposition algorithm)是目前有效解決大規(guī)模數(shù)據(jù)問題的主要方法,分解算法衍生出的特例序列最小優(yōu)化算法(sequential minimal optimization)更是優(yōu)化了其迭代過程中循環(huán)策略與判優(yōu)條件,滿足了任務算法速度的要求;而增量算法(incremental algorithm)增量學習是機器學習系統(tǒng)在新增樣本時逐一進行后續(xù)優(yōu)化,并能夠只就原學習結果中與新樣本有關的部分進行增刪修改,與之無關的部分則不被觸及,從而考慮到了算法初期草創(chuàng)時需要頻繁修改優(yōu)化的靈活性需求。[23]
而具體場景適用的算法優(yōu)劣,比如兩種同為針對證明力評估的概率統(tǒng)計型算法,一種采用比例算法,一種采用基于貝葉斯公式或莫蘭系數(shù)的蓋然性算法,我們更多的會考慮后者。簡單的比例方法用于評價證明存在很大缺陷,同時因為賦值的粗糙和風險阻斷的缺少,往往結果并不盡如人意,而基于貝葉斯公式的似然率被廣泛用于司法實務中,如法庭科學中經(jīng)常運用數(shù)值概率的DNA證據(jù);統(tǒng)計學方面的專家受邀就給定案件情況發(fā)生某種犯罪的概率進行作證,以及犯罪矯正學方面以傳統(tǒng)多道儀測試技術為基礎的品性評估 (CDA,Credibility and Disposition Assessment)。這種方法為刻畫和量化證據(jù)與待證事實之間的推論關系提供形式框架,并在法庭科學領域獲得顯著效果。
再比如說,在犯罪矯正領域,入矯人員的人物畫像工作因為標簽錨點的缺失或不夠合理,往往導致下一步的分類分級評估工作難以展開。因此有學者提出了堆找泛化(Stacking)模型融合方法,因為采用樹行計算方法的集成學習方法,與人類解決問題的大腦思維模式相接近,而且模型樹行化符合問題本身的邏輯,精確率和召回率呈穩(wěn)態(tài)正相關。因此采用樹行計算方法的Stacking方法可以整合不同模型的最好表現(xiàn),貼近算法意義上的帕累托最優(yōu)點,使模型融合更加科學化,最終提升模型的預測準確率和泛化能力。[24]
如前所述,算法程序可分為專家型“知識圖譜”算法和統(tǒng)計概率型的“深度學習”算法兩大類,兩類算法各有優(yōu)缺點。“知識圖譜”算法前期由對應的專業(yè)領域人士打底進行知識塑造,幫助機器識別與使用來自不同數(shù)據(jù)源的數(shù)據(jù),并以符號圖標的方式對符號邏輯進行半自動地編排,具有較高的透明性和邏輯性,但技術和人力成本較高,難度更大,適用領域?qū)I(yè)化的同時也消解了普適性。“強化學習”“深度學習”類的概率性算法具有較高的通用性和可預測性,獎勵函數(shù)的存在也使得算法本身在“糾正—激勵—行動提升”的模式下?lián)碛袠O大的上升潛力,錨點的設置和調(diào)整也更加靈活,但另一方面此類算法解決人文社科類問題的智能化程度較低,中期數(shù)據(jù)訓練環(huán)節(jié)對數(shù)據(jù)源的純凈度、樣本選擇和結構、樣本數(shù)量都有較高要求,技術黑箱的風險也使得人類對其保有極大的警惕。所以在單個或單類算法無法更好現(xiàn)實解決問題的情況下,結合多個算法進行組合搭配構成一套相對完整的算法模型也就勢在必行。事實上,眾多已經(jīng)平穩(wěn)進入實務適用階段的算法程序,也大多是多個算法組合而成,比如類案推送系統(tǒng)、再犯罪風險評估系統(tǒng)等等。
而在法律運用領域,算法模型的搭建要兼顧法律實務的需求,實現(xiàn)司法的程序正當與可預測性,降低公民對司法不信任的風險。這就要在前文所述權重賦值的基礎上,設置一定比例透明度更高、解釋性更好的算法模塊,需要在模塊搭建時留出一定可審計空間,并對關鍵模塊進行信息和主體標注,因為算法披露牽扯到用戶權利保護尺度、知識產(chǎn)權糾紛與商業(yè)秘密等眾多問題,法律規(guī)制尚不完善,披露范圍難以把握,目前只能依照“有限事前披露+事中審計監(jiān)督+事后問責救濟”的模式進行透明化處理。同時留有學習型算法進行錨點處理和強化學習,理順算法模型對事實認知和法律解釋之間的路徑,并不斷反饋、修正、遞進,最終提升算法程序的智能性,形成算法解釋、法律決定和社會反應的良性循環(huán)。
最后,算法模型構建還必須要處理好算法銜接的問題。溝通作為社會風控的重要概念,是維持各個社會子系統(tǒng)間動態(tài)穩(wěn)定的重要閥門。而具體到算法銜接,則主要分成數(shù)據(jù)統(tǒng)一轉(zhuǎn)化、算法兼容性問題以及數(shù)據(jù)庫銜接問題的解決。一方面,由于大數(shù)據(jù)時代下數(shù)據(jù)類型的多樣化,結構格式不一,異種算法對待數(shù)據(jù)處理的方式和口徑也參差不齊。要做好算法銜接,就必須要在數(shù)據(jù)匯總后進行口徑的統(tǒng)一化處理,并洗掉數(shù)據(jù)中的錯誤、冗余信息。另一方面對算法兼容性進行測試調(diào)整以及針對性修復,而這個環(huán)節(jié)將經(jīng)歷設計理念考量環(huán)節(jié)、數(shù)據(jù)訓練環(huán)節(jié)和實際調(diào)試操作,并一直持續(xù)到外部專家審查,從而確保模型沒有超出預設的偏離度。而在此過程中,算法數(shù)據(jù)庫的銜接也需要引起重視。通常對算法是“喂養(yǎng)”以數(shù)據(jù),即手動或半自動的方式開啟數(shù)據(jù)庫權限,但不同算法所對應的數(shù)據(jù)庫權限以及類型也不一致,尤其是針對包含個人敏感信息的數(shù)據(jù)庫,在算法銜接時并不意味著數(shù)據(jù)庫銜接,否則容易引發(fā)數(shù)據(jù)泄露的“撞庫”風險以及算法樣本的混亂,進一步導致算法訓練方向的偏離。
以當下的法律大數(shù)據(jù)為例,其中算法應用主要集中在云計算、人工智能、區(qū)塊鏈三大方面。[25]簡單來講,云計算起步最早,廣泛運用于司法輔助系統(tǒng)中,并多側重于處理海量數(shù)據(jù),進行篩選歸類和統(tǒng)計,并進行針對性的用戶推薦,比如司法自主統(tǒng)計、中國裁判文書網(wǎng)上的案由分類、共同主體檢索以及類案指引與智能推送系統(tǒng)等,算法的選擇上注重高效便捷和數(shù)據(jù)抓取的精準全面,很大程度上緩解了司法資源不足的壓力。但同時實證調(diào)查發(fā)現(xiàn),一線法官使用類似系統(tǒng)時,也存在因為數(shù)據(jù)庫的不完整、類案分類的不合理以及算法推薦的不滿意而導致使用率不高的現(xiàn)象,可見負責數(shù)據(jù)分類的“強化及深度學習”仍有較長一段路要走。即便是人工操作下針對電子數(shù)據(jù)的算法取證,基于犯罪防控的考量,存在難以公開的數(shù)據(jù)清洗和篩選環(huán)節(jié),導致取證的可信性上存在缺陷。
另一方面,人工智能在基礎的數(shù)據(jù)處理上提出了更高要求,通過數(shù)據(jù)訓練反饋來完成對算法模型中錨點標簽的修正,從而達到模擬人腦思考的效果,運用在實務中的例如我國的智慧法院建設中出現(xiàn)的AI虛擬導訴法官和智能輔助量刑系統(tǒng),公安系統(tǒng)的智能巡邏機器人等,算法的構建上對數(shù)據(jù)的深度學習和擬人化能力都有較高要求。
最后,區(qū)塊鏈技術運用則由于自身去中心化的特征,更多運用在公證、證據(jù)領域,尤其是在電子數(shù)據(jù)的提取、運輸和固定保全的過程中,區(qū)塊鏈潛力巨大,其算法選擇也多注重保密性和穩(wěn)定性。其次區(qū)塊鏈技術中涉及的加密、解密算法也是算法發(fā)展的一個應用分支,首先使用非對稱加密算法對交易進行確認和驗證,從而確保不會有人為偽造的交易數(shù)據(jù)被寫入;同時采用哈希函數(shù)并將區(qū)塊鏈各部分聯(lián)接在一起,在保持同步更新的情況下可以保證交易數(shù)據(jù)不被篡改,并保證歷史數(shù)據(jù)的可追溯性可去中心化。
在科技與網(wǎng)絡的催化下,算法的廣泛應用是通過機器解放人力的必然趨勢。除開智能化和客觀中立的大方向,此外由于任務需求的多元化以及針對風險種類的不同,算法在擴大化運用的基礎上也將出現(xiàn)更加適配性的專業(yè)分工。因算法本身邏輯既定的特征,不同的任務需求而回流反推到算法設計,從而應更加注重算法的初始的設計區(qū)別,做到面對不同風險情形,追求在漸近性能和現(xiàn)有信息條件下取得數(shù)據(jù)挖掘的最優(yōu)結果,從而為事物識別、評價和預測提供參考。
以支持向量機算法 (Support Vector Machines,簡稱SVM)為例,雖同為作為建立在統(tǒng)計理論學習基礎上的算法,在針對精細化的風險種類和“小”“微”數(shù)據(jù)的運用需求,應對其錨點設置難題時,可以嘗試粒度支持向量機算法(GSVM)的信息粒構建獲得靈感方向;在預防算法抓取精度不足導致偏見風險和“大”數(shù)據(jù)的任務需求下,破解算法推薦和信息檢索問題則可以選擇排序支持向量機(RSVM),在數(shù)據(jù)“降噪”的要求下更傾向選擇模糊支持向量機(FSVM)[26]。
其次,算法應用將更加注重對算法權力和風險的防范。算法本身作為解放人力規(guī)避風險的工具,卻由于本身的發(fā)展上限而成為風險的一部分,甚至是風險轉(zhuǎn)為實害的一大節(jié)點。因此,針對算法應用的自身風險管控也是題中之義。
畢竟算法秉承人的意志而生,為的是彌補人腦和人力的缺點,從誕生起便可見其具備的巨大潛力和利好。但凡事皆有兩面,一方面算法發(fā)展迅速并在社會風險防控中起到了關鍵節(jié)點作用,另一方面其自身也分擔著來自人的風險,自然也對應著許多或不可知的風險。
算法的作用巨大,在掌握足夠全面數(shù)據(jù)后其運算結果可以影響甚至決定一個人的社會對待和資源分配。在信息社會和風險社會中,信息數(shù)據(jù)的獲取與分析都十分重要,而算法便是其數(shù)據(jù)抓取和理解的重要工具,對應產(chǎn)生的便是算法權力。但算法權力的神秘更多的體現(xiàn)在技術黑箱上,其本質(zhì)并不神秘。權力的本質(zhì)在多數(shù)狀態(tài)下體現(xiàn)為話語權,如封建社會中的王權、信息社會下的信息獲取與獨占權。而公民在物理電子設備(手機、相機、錄音筆、監(jiān)控器等)和網(wǎng)絡平臺(博客空間、APP后臺數(shù)據(jù)、出行起居記錄等)上的數(shù)據(jù)逸散后,被個人、社會團體或國家機構收集以算法模型進行分析,從而進行針對性反應,所以從這個角度講,算法權力本質(zhì)來源亦是公民個人信息權利的集合。但個人權利到算法權力的讓渡過程中,個人同意和權力邊界卻是仍需要研究關注的兩大方向。個人對算法的選擇權、知情權如何保障?社會機構利用網(wǎng)絡空間的半公開信息數(shù)據(jù)進行算法判定是否構成侵權?國家機構是否能無需前置許可便依據(jù)算法結果對公民采取風險評級并納入包含征信機制的預警觀察體系?諸此種種,目前都是尚待研究的問題。
封建社會時代,人們會建造木像石像作為神靈來祭祀信仰,甚至王權也會借助這類“神”的名義來幫助統(tǒng)治百姓。而某種意義上,算法亦可以看作是當下科技創(chuàng)造出的 “神像”,代表著AI浪漫主義里對科技萬能的一種極端想象。算法由于技術黑箱的緣故不被人所直接感知,在保持神秘的同時也被人們神化,但在體驗到算法的強悍功能的同時也應該感受到其解釋分析復雜對象的不足和失真,以及背后潛在的算法歧視、算法權力與操縱和責任主體模糊等諸多風險。因為究其深層原因,算法本身也只是風險構成的一部分。在未出現(xiàn)真正意義上的人工AI生命之前,作為社會的客體映射,算法也仍遵循著程序運行的基本路徑,代表著設計者與操作者的價值取向和社會選擇,而這些社會問題并不能完全通過科技去解答。
科技并非萬能,并非所有的東西都可以被數(shù)據(jù)量化代替,將人完全交于人造物來統(tǒng)治管理無疑走向了另一段深淵。我們應該警惕著這種失去對人性和生命敬畏的風險,生命不是一串簡單的阿拉伯數(shù)字。同樣,法律的生命力也在于經(jīng)驗與邏輯而非機械與科技。感性的經(jīng)驗與理性的邏輯才是構成“人”的一體兩面,當主要依靠甚至完全交由算法來施行法律時,法律也就將失去它本身的溫度。而這樣的直接結果便是算法公正與“人道公正”沖突,算法持續(xù)“失溫”,并引發(fā)后續(xù)一系列的算法傷害和風險。
算法傷害主要包括四個層面:用戶畫像、算法黑箱、算法歧視、算法操縱[27]。分別涉及用戶的個人信息數(shù)據(jù)的隱私保護問題,算法的不透明性和不易解釋性問題,算法設計缺陷或數(shù)據(jù)訓練環(huán)節(jié)的污染導致用戶被不公正的區(qū)別對待問題以及對人為操縱算法權力問題的擔憂。
算法黑箱的存在,可以通過保障算法相對人的算法解釋請求權來進行規(guī)制。對算法源代碼和核心數(shù)據(jù)的披露存在一定風險,但堅持對算法決策過程進行法定披露,事前算法信息公示,事后算法問責[28],尤其是發(fā)生算法損害后算法的設計者與運營主體應當對爭議和關注點進行有效解釋并接受審查,以及對相對人進行補償性、懲罰性的雙重損害賠償?shù)确芍撇茫詈笤诩夹g上加以針對性的更正優(yōu)化,多重手段制約下,算法不透明性導致的惡性后果便能得到一定改善。其次,剩余三種情況同樣值得注意,首先關于用戶畫像風險,個人隱私老生常談,但司法工作人員的畫像卻鮮有提及,尤其是判例法國家中法官的裁量權極大,根據(jù)歷史判例和相關公開半公開資料對其畫像后采取針對性的訴訟策略和外部施壓,同樣有違司法公正精神,2019年法國出臺的 《2018-2020年規(guī)劃與司法改革法》便禁止了對司法人員進行類型化畫像的行為。
其次關于算法歧視風險,社會環(huán)境導致設計者認知的歧視已經(jīng)超出算法設計層面,更多的是屬于對網(wǎng)絡空間對現(xiàn)實社會的一種反照,但類似的如谷歌的職位推送廣告和犯罪矯正的品性評估,確是因為算法因為深度學習會深化標簽效應,導致歧視進一步固化,不同的學歷、膚色、性別、年齡甚至犯罪類型和喜好都被數(shù)據(jù)要素化分類,如同現(xiàn)實中的抖音、今日頭條等APP的算法推薦,使用的時間越長,數(shù)據(jù)處理量越大,越會產(chǎn)生私人定制般的效果。因為算法在信息科技中的廣泛應用,經(jīng)歷了兩個時代積淀發(fā)展的機械和信息科技,會引發(fā)一道比階級遷躍更難跨過的社會鴻溝。尤其是在司法領域,由于身體刑、自由刑的強制性和不可逆性,相對人因算法歧視所遭受的損失更嚴重。一旦受到類似傷害,在信息輿論環(huán)境下渲染傳播,對司法信任破壞很大,這無疑與時下的恢復性司法的理念相背離。
最后是關于人為算法操縱導致的風險,除了上文提過的算法歧視和誘導,還包括算法損害和人為信息繭房效應,網(wǎng)絡服務提供者可以通過多種途徑獲得用戶相關數(shù)據(jù)后,進行大數(shù)據(jù)“殺熟”,或通過對其需求預測和信息過濾性封鎖,從而利用算法對用戶進行決策甚至代替用戶進行決策,導致用戶本身利益受損。
總的來說,文章嘗試從法律領域中算法運用的角度倒流反哺算法的構架設計,以實踐循證促進算法理論完善提升,其中眾多設想因為學科類別的跨越可能存在大量的疏漏和偏差,在實踐操作起來具備較高的挑戰(zhàn)性,也還待進一步的驗證。但不可否認的是,算法的發(fā)展應用之路雖然充滿風險,但將風險轉(zhuǎn)為實害還是利好卻是“人”的要素起到核心作用,因為風險本質(zhì)就是多種可能性的集合。我們要對算法進行去魅,防止其濫權,對技術黑箱進行進一步“洗白”,并在量化調(diào)整方面進行升溫,但同時也不應該因噎廢食,將其看作洪水猛獸,從而浪費了算法本身在諸多社會領域方面的巨大潛力。