徐繼敏 嚴(yán)若冰
2022年11月,美國(guó)公司OpenAI推出的預(yù)訓(xùn)練生成式通用大語(yǔ)言模型(Large Language Model,LLM)(1)“大語(yǔ)言模型”也稱(chēng)“大型語(yǔ)言模型”或“語(yǔ)言大模型”,均指英語(yǔ)中的LLM(Large Language Model),可以作完全相同理解。ChatGPT獲得巨大反響。用戶(hù)通過(guò)瀏覽器訪(fǎng)問(wèn)的ChatGPT聊天機(jī)器人是基于ChatGPT模型形成的產(chǎn)品,但目前較少對(duì)兩者進(jìn)行區(qū)分(2)ChatGPT既是OpenAI發(fā)布的聊天機(jī)器人的名字,也是產(chǎn)生該聊天機(jī)器人的大語(yǔ)言模型的名字,即大語(yǔ)言模型與大語(yǔ)言模型產(chǎn)品同名。報(bào)道和研究常稱(chēng)產(chǎn)生ChatGPT聊天機(jī)器人的大語(yǔ)言模型為GPT-3.5,但根據(jù)OpenAI官網(wǎng)上的ChatGPT常見(jiàn)問(wèn)題解答(ChatGPT General FAQ),更準(zhǔn)確地說(shuō),ChatGPT模型是以GPT-3.5為基礎(chǔ)進(jìn)行微調(diào)得到的。2023年3月14日,OpenAI發(fā)布了GPT-4模型,升級(jí)后以GPT-4模型為基礎(chǔ)的聊天機(jī)器人叫作ChatGPT Plus。。ChatGPT是單一模態(tài)大語(yǔ)言模型,理解和生成信息都限于文本(含代碼)形式,而OpenAI在2023年3月發(fā)布的GPT-4為多模態(tài)大語(yǔ)言模型,在理解圖像、處理復(fù)雜任務(wù)等方面有所提升。兩者都缺乏對(duì)數(shù)據(jù)截止時(shí)間后相關(guān)信息的了解,且給出的回答不一定正確,大語(yǔ)言模型的這些錯(cuò)誤被稱(chēng)為“幻覺(jué)”(hallucination)(3)如GPT-4的數(shù)據(jù)截止時(shí)間為2021年9月,參見(jiàn):“GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses,” OpenAI, updated March 15,2023, accessed May 22, 2023, https://openai.com/product/gpt-4。。3月23日,ChatGPT允許用戶(hù)通過(guò)添加插件進(jìn)行聯(lián)網(wǎng),實(shí)現(xiàn)了信息實(shí)時(shí)檢索等功能,能力得到進(jìn)一步提升(4)“ChatGPT plugins,” OpenAI, updated March 23, 2023, accessed May 22, 2023, https://openai.com/blog/chatgpt-plugins.。在國(guó)內(nèi),百度于3月16日發(fā)布大語(yǔ)言模型“文心一言”(5)文心一言可以生成文本、語(yǔ)音、圖像和視頻等內(nèi)容,具備多模態(tài)能力。根據(jù)筆者自3月17日參加內(nèi)測(cè)的情況,文心一言與ChatGPT尚有明顯差距,但是可以參與文稿初步生成、文字校對(duì)、文本翻譯等日常工作。,阿里于4月7日開(kāi)放“通義千問(wèn)”大語(yǔ)言模型體驗(yàn)申請(qǐng),商湯科技于4月10日發(fā)布大語(yǔ)言模型產(chǎn)品“商量”,我國(guó)的大語(yǔ)言模型也在不斷推進(jìn)。關(guān)于大語(yǔ)言模型對(duì)文字行業(yè)的影響,我們可以從AI繪畫(huà)對(duì)繪畫(huà)行業(yè)的影響中窺見(jiàn)一些線(xiàn)索。AI繪畫(huà)工具能夠基于文字提示生成圖像,成本低、效率高,自推出時(shí)就受到繪畫(huà)行業(yè)的抵制(6)陶鳳、李想《“離譜”AI繪畫(huà)賺錢(qián)不離譜》,《北京商報(bào)》2023年2月2日,第4版。。筆者通過(guò)對(duì)國(guó)內(nèi)游戲從業(yè)者的訪(fǎng)談了解到,目前AI繪畫(huà)對(duì)游戲美術(shù)業(yè)務(wù)的沖擊已經(jīng)顯現(xiàn),游戲公司的美術(shù)外包業(yè)務(wù)甚至內(nèi)部美術(shù)團(tuán)隊(duì)都面臨著被裁撤的風(fēng)險(xiǎn),因?yàn)槔L畫(huà)行業(yè)的抵制行動(dòng)難以對(duì)抗企業(yè)降低成本的意愿。
可以預(yù)見(jiàn),大語(yǔ)言模型將廣泛深入地參與到社會(huì)生活中。首先,大語(yǔ)言模型已受到各科技企業(yè)和科研團(tuán)隊(duì)的高度重視,國(guó)外有谷歌的Bard、Anthropic的Claude、Meta的BlenderBot3等,國(guó)內(nèi)有百度的文心一言、阿里的通義千問(wèn)、商湯科技的商量、華為的盤(pán)古、騰訊的混元、中國(guó)科學(xué)院自動(dòng)化研究所的紫東太初等。其次,大語(yǔ)言模型有較成熟的技術(shù)和已經(jīng)落地且取得商業(yè)成功的產(chǎn)品,其熱度性質(zhì)與暫時(shí)缺少技術(shù)鋪墊的元宇宙概念不同。再次,大語(yǔ)言模型作為基石性模型(Foundational Model)具有較強(qiáng)拓展?jié)摿?可以和搜索引擎、內(nèi)容平臺(tái)等應(yīng)用相結(jié)合,也可以與各種公共服務(wù)場(chǎng)景相結(jié)合(7)於興中、鄭戈、丁曉東《生成式人工智能與法律的六大議題:以ChatGPT為例》,《中國(guó)法律評(píng)論》2023年第2期,第2頁(yè)。。最后,大語(yǔ)言模型與個(gè)人生活工作結(jié)合緊密,有潛力成為新的樞紐平臺(tái)。ChatGPT允許聯(lián)網(wǎng)后,用戶(hù)可以通過(guò)它進(jìn)行訂餐、訂機(jī)票和訂酒店。ChatGPT獨(dú)特的產(chǎn)品能力和工作性能或可吸引一批用戶(hù)改變?cè)镜幕ヂ?lián)網(wǎng)消費(fèi)習(xí)慣,轉(zhuǎn)而以ChatGPT作為新的信息處理樞紐,甚至通過(guò)路徑依賴(lài)形成深度綁定。隨著大語(yǔ)言模型的鋪展,大語(yǔ)言模型材料將大量出現(xiàn)并得到普遍運(yùn)用。
目前大語(yǔ)言模型產(chǎn)品的主要形式是聊天機(jī)器人和搜索引擎,雖然兩者都非新興事物,但是大語(yǔ)言模型相比以往技術(shù)的區(qū)別存在諸多特殊性,至少包括以下四項(xiàng):第一,大語(yǔ)言模型材料以生成性的文本(含代碼)為主,多模態(tài)大語(yǔ)言模型材料還可能包括圖片、語(yǔ)音和視頻;第二,大語(yǔ)言模型是基石性模型,未來(lái)許多產(chǎn)品和功能可以在其基礎(chǔ)上搭建,大語(yǔ)言模型材料的形態(tài)和運(yùn)用將非常豐富(8)於興中、鄭戈、丁曉東《生成式人工智能與法律的六大議題:以ChatGPT為例》,《中國(guó)法律評(píng)論》2023年第2期,第2頁(yè)。;第三,大語(yǔ)言模型能通過(guò)自然語(yǔ)言與使用者進(jìn)行交流,甚至能讓使用者察覺(jué)不到自己在與機(jī)器對(duì)話(huà),難以意識(shí)到大語(yǔ)言模型材料的存在;第四,大語(yǔ)言模型有很強(qiáng)的黑箱效應(yīng),而且ChatGPT、GPT-4和文心一言等主要大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)和模型均未公開(kāi),使大語(yǔ)言模型及其形成材料的可解釋性受到更深質(zhì)疑。
由上可知,大語(yǔ)言模型材料的廣泛出現(xiàn)將帶來(lái)新的法律問(wèn)題,而證據(jù)問(wèn)題在其中尤為突出。比如在民事領(lǐng)域,大語(yǔ)言模型如果有不當(dāng)廣告行為,使用者和監(jiān)管機(jī)構(gòu)如何進(jìn)行證據(jù)提取和審查;在刑事領(lǐng)域,大語(yǔ)言模型可能被利用來(lái)進(jìn)行犯罪活動(dòng),公檢法機(jī)關(guān)應(yīng)如何調(diào)查取證和運(yùn)用證據(jù);在行政領(lǐng)域,大語(yǔ)言模型如果被用于政府建設(shè)(9)如張效羽認(rèn)為,GPT技術(shù)的長(zhǎng)處與法治政府建設(shè)的基本需求具有技術(shù)親和性,未來(lái)法治政府建設(shè)要為人工智能嵌入行政執(zhí)法程序做好充分準(zhǔn)備。參見(jiàn):張效羽《ChatGPT等人工智能內(nèi)容生成技術(shù)對(duì)法治政府建設(shè)的影響及應(yīng)對(duì)》,《電子政務(wù)》2023年第4期,第12-14頁(yè)。,可以在多大程度上影響甚至取代行政機(jī)關(guān)工作人員的行政行為,是否會(huì)出現(xiàn)智能行政行為,行政相對(duì)人如何在復(fù)議、訴訟中運(yùn)用大語(yǔ)言模型材料等。雖然尚無(wú)案例出現(xiàn),但隨著大語(yǔ)言模型研究和運(yùn)用的深化,大語(yǔ)言模型材料進(jìn)入證明活動(dòng)或許是司法實(shí)踐和學(xué)術(shù)研究必然要面對(duì)的挑戰(zhàn)。目前大語(yǔ)言模型在產(chǎn)品應(yīng)用上還相對(duì)保守,主要以聊天機(jī)器人和搜索引擎的形式呈現(xiàn),但大語(yǔ)言模型產(chǎn)品的未來(lái)遠(yuǎn)不止這些:ChatGPT、GPT-4已經(jīng)開(kāi)放聯(lián)網(wǎng),使用者可以通過(guò)下載插件實(shí)現(xiàn)實(shí)時(shí)檢索等多項(xiàng)需求;微軟宣布將GPT-4集成到Copilot,今后Office系列軟件的使用方式將發(fā)生巨大變化;超三百家公司宣布與文心一言合作,涵蓋媒體、文娛、金融等行業(yè)領(lǐng)域。當(dāng)大語(yǔ)言模型作為一項(xiàng)基礎(chǔ)工具與我們?nèi)粘I畹姆椒矫婷娼Y(jié)合,它產(chǎn)生的材料將遠(yuǎn)比本文能夠看到的更加復(fù)雜。正如電子數(shù)據(jù)隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)進(jìn)入法律實(shí)踐,或許大語(yǔ)言模型證據(jù)也將占有類(lèi)似的重要地位。
大語(yǔ)言模型材料是指與大語(yǔ)言模型使用行為相關(guān)的、在證明活動(dòng)中可能作為證據(jù)使用的材料。廣義的大語(yǔ)言模型材料包括人機(jī)交流材料、大語(yǔ)言模型本體相關(guān)材料和大語(yǔ)言模型運(yùn)行環(huán)境信息三個(gè)部分;狹義的大語(yǔ)言模型材料則僅指由大語(yǔ)言模型生成的材料(10)由于缺少既有研究,“大語(yǔ)言模型材料”和“大語(yǔ)言模型證據(jù)”均為本文提出的概念。。從概念關(guān)系上看,大語(yǔ)言模型屬于人工智能技術(shù),如果承認(rèn)大語(yǔ)言模型材料可以成為證據(jù),那么,“大語(yǔ)言模型證據(jù)”也屬于人工智能證據(jù)的范疇。人工智能證據(jù)已經(jīng)受到司法實(shí)踐和法學(xué)研究的關(guān)注,可以成為研究大語(yǔ)言模型材料的重要參考。目前實(shí)踐中還缺少將大語(yǔ)言模型材料作為證據(jù)的情形,而且大語(yǔ)言模型材料的具體內(nèi)容和證據(jù)資格問(wèn)題暫無(wú)學(xué)術(shù)共識(shí)或規(guī)范依據(jù)。為求穩(wěn)妥,本文主要稱(chēng)“大語(yǔ)言模型材料”而非“大語(yǔ)言模型證據(jù)”,不過(guò)本文認(rèn)為大語(yǔ)言模型材料可以成為證據(jù),因此也將適當(dāng)使用“大語(yǔ)言模型證據(jù)”的提法。
自然語(yǔ)言處理(Nature Language Processing,NLP)技術(shù)被廣泛應(yīng)用于搜索引擎、智能客服、機(jī)器翻譯、輿情監(jiān)測(cè)、自動(dòng)摘要等領(lǐng)域,大語(yǔ)言模型是自然語(yǔ)言處理領(lǐng)域的前沿成果(11)傳統(tǒng)人機(jī)交互由人類(lèi)以機(jī)器語(yǔ)言、編程語(yǔ)言實(shí)現(xiàn)和機(jī)器的交流,而自然語(yǔ)言處理旨在讓機(jī)器理解和生成人類(lèi)語(yǔ)言,通過(guò)機(jī)器對(duì)人類(lèi)語(yǔ)言的適應(yīng)實(shí)現(xiàn)人機(jī)交互。自然語(yǔ)言理解(NLU)支持機(jī)器理解人類(lèi)自然語(yǔ)言文本的內(nèi)容,自然語(yǔ)言生成(NLG)支持機(jī)器以自然語(yǔ)言文本的形式輸出信息。因此總體來(lái)說(shuō),自然語(yǔ)言理解和自然語(yǔ)言生成都屬于自然語(yǔ)言處理。除自然語(yǔ)言處理外,人工智能領(lǐng)域還有計(jì)算機(jī)視覺(jué)(Computer Vision,CV)、計(jì)算機(jī)聽(tīng)覺(jué)(Computer Audition,CA)等研究方向,與人類(lèi)的自然感知系統(tǒng)形成對(duì)應(yīng)關(guān)系。。ChatGPT、GPT-4、文心一言、通義千問(wèn)等都屬于預(yù)訓(xùn)練生成式通用大語(yǔ)言模型,具有通用性、超多參數(shù)、生成式等特點(diǎn)。通用性是指模型不局限于某一行業(yè)或細(xì)分領(lǐng)域,旨在理解和回應(yīng)常識(shí)性、通用性問(wèn)題。ChatGPT、通義千問(wèn)是單一模態(tài)大語(yǔ)言模型,GPT-4和文心一言則具備多模態(tài)能力?;谕ㄓ谩⒍嗄B(tài)的模型特點(diǎn),大語(yǔ)言模型材料的內(nèi)容也具有通用性,可能包含文字、圖片、語(yǔ)音和視頻等多種模態(tài)。
模型指通過(guò)學(xué)習(xí)算法(Learing Algorithm)“從數(shù)據(jù)中學(xué)得的結(jié)果”(12)周志華《機(jī)器學(xué)習(xí)》,清華大學(xué)出版社2016年版,第1頁(yè)。,大模型和小模型以參數(shù)量(Parameter Size)為劃分標(biāo)準(zhǔn),ChatGPT的參數(shù)量達(dá)到千億級(jí),GPT-4的參數(shù)量據(jù)說(shuō)更達(dá)到兆級(jí)(13)目前ChatGPT和文心一言參數(shù)量均未公布,此處ChatGPT和GPT-4參數(shù)量數(shù)據(jù)采用美國(guó)網(wǎng)站Semafor援引8名知情人士消息。參見(jiàn):Reed Albergotti, “The secret history of Elon Musk, Sam Altman, and OpenAI,” Semafor, updated March 25, 2023, accessed May 22, 2023, https://www.semafor.com/article/03/24/2023/the-secret-history-of-elon-musk-sam-altman-and-openai.。大模型和知識(shí)圖譜(Knowledge Graph,KG)是人工智能發(fā)展的不同路徑(14)大語(yǔ)言模型是給一個(gè)有超多參數(shù)的模型網(wǎng)絡(luò)喂海量文本數(shù)據(jù)進(jìn)行訓(xùn)練,再對(duì)其進(jìn)行微調(diào);知識(shí)圖譜則是顯式地抽取出實(shí)體、關(guān)系等信息,構(gòu)成由節(jié)點(diǎn)(Node,表示實(shí)體)和邊(Edge,表示關(guān)系)組成的關(guān)系網(wǎng)絡(luò)。,由于ChatGPT的成功,許多人認(rèn)為大語(yǔ)言模型更可能是未來(lái)發(fā)展的方向,但知識(shí)圖譜仍然可以作為大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)或以外接方式發(fā)揮作用(15)根據(jù)2023年3月16日百度公司文心一言發(fā)布會(huì)內(nèi)容,文心一言以5500億事實(shí)的知識(shí)圖譜為訓(xùn)練數(shù)據(jù)。知識(shí)圖譜的“事實(shí)”指由節(jié)點(diǎn)a,關(guān)系r,節(jié)點(diǎn)b共同構(gòu)成的一個(gè)三元組。。知識(shí)圖譜的成本相對(duì)較低,且能夠通過(guò)直觀可視的關(guān)系網(wǎng)絡(luò)呈現(xiàn),可解釋性較強(qiáng);大語(yǔ)言模型以“大算力+強(qiáng)算法”為重要特征,內(nèi)部極為復(fù)雜,可解釋性較差。大語(yǔ)言模型的可解釋性弱決定了大語(yǔ)言模型材料容易受到質(zhì)疑,但這不意味著大語(yǔ)言模型材料缺乏證據(jù)法上的可靠性。
大語(yǔ)言模型能夠生成新的內(nèi)容,其生成材料屬于人工智能生成內(nèi)容AIGC(AI Generated Content)。AIGC包括AI繪畫(huà)、AI翻唱、大語(yǔ)言模型寫(xiě)作等,雖然在著作權(quán)上存在爭(zhēng)議(16)如“AI孫燕姿”、“AI周杰倫”等翻唱作品引發(fā)著作權(quán)相關(guān)討論。參見(jiàn):顧敏、陳月飛等《技術(shù)迅猛發(fā)展,AI如何“向善”》,《新華日?qǐng)?bào)》2023年5月16日,第5版;李欣璐《專(zhuān)家:“AI歌手”或涉嫌多項(xiàng)侵權(quán)》,《四川法治報(bào)》2023年5月17日,第5版;劉凡《解碼AI歌手習(xí)藝之道》,《海南日?qǐng)?bào)》2023年5月22日,第B09版。,但是已經(jīng)得到企業(yè)和個(gè)人的廣泛運(yùn)用。4月11日,國(guó)家網(wǎng)信辦就《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》公開(kāi)征求意見(jiàn),涉及對(duì)大語(yǔ)言模型生成材料進(jìn)行規(guī)范。從生成式特點(diǎn)出發(fā),大語(yǔ)言模型材料屬于深度合成內(nèi)容。我國(guó)在深度合成治理上走在世界前列,2022年11月出臺(tái)的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》對(duì)深度合成進(jìn)行了定義和規(guī)范。但大語(yǔ)言模型的深度合成能力超越以往算法,給立法提出了新的挑戰(zhàn),要求深度合成立法從算法治理走向人工智能治理(17)張凌寒《深度合成治理的邏輯更新與體系迭代——ChatGPT等生成型人工智能治理的中國(guó)路徑》,《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2023年第3期,第38-51頁(yè)。。
大語(yǔ)言模型材料是復(fù)合型材料,可以被分解為三個(gè)主要部分:人機(jī)交流材料、大語(yǔ)言模型本體相關(guān)材料和大語(yǔ)言模型運(yùn)行環(huán)境信息。由于大語(yǔ)言模型本體材料和云計(jì)算服務(wù)平臺(tái)環(huán)境信息提取收集的難度極高,且對(duì)證明一般案件的案件事實(shí)作用不大,大語(yǔ)言模型材料在實(shí)踐中或?qū)⒅饕匀藱C(jī)交流材料和使用者本地環(huán)境信息的形式呈現(xiàn)。
1.使用者與大語(yǔ)言模型交流形成的材料
使用者與大語(yǔ)言模型交流的材料(簡(jiǎn)稱(chēng)為“人機(jī)交流材料”) 以文本(含代碼)為主,可能包含圖片、語(yǔ)音和視頻,一般載于計(jì)算機(jī)或者移動(dòng)設(shè)備的網(wǎng)頁(yè),呈現(xiàn)為人類(lèi)使用者與大語(yǔ)言模型一問(wèn)一答組成的連續(xù)性對(duì)話(huà)。以同一使用者為范圍,涉及的人機(jī)交流材料可以被分為三個(gè)層次。第一,最低層次材料是使用者與大語(yǔ)言模型一問(wèn)一答形成的“問(wèn)答”,均由使用者先輸入信息或提出問(wèn)題,再由大語(yǔ)言模型進(jìn)行回答。第二,中間層次材料是由連續(xù)問(wèn)題組成的“對(duì)話(huà)”,這是人機(jī)交流材料中最重要的單位,適宜成為一份人機(jī)交流材料的基礎(chǔ)范圍?!皩?duì)話(huà)”并不以話(huà)題內(nèi)容和時(shí)間間隔為識(shí)別標(biāo)準(zhǔn),而是要考慮大語(yǔ)言模型的“記憶”范圍。本文所稱(chēng)“記憶”指大語(yǔ)言模型聯(lián)系上下文的能力,在“記憶”范圍內(nèi),如果使用者能夠通過(guò)恰當(dāng)?shù)摹疤崾尽?Prompt)引導(dǎo)對(duì)話(huà),大語(yǔ)言模型將給出更加精確的回答。這種與大模型進(jìn)行交流、得到更優(yōu)結(jié)果的方法被稱(chēng)為提示工程(Prompt Engineering),已經(jīng)受到技術(shù)和產(chǎn)業(yè)領(lǐng)域的肯定和重視(18)百度創(chuàng)始人李彥宏預(yù)測(cè)稱(chēng),十年以后全世界或有50%的工作會(huì)是提示詞工程(Prompt Engineering)。參見(jiàn):《李彥宏獨(dú)家回應(yīng)36氪:如何看待AI代替人類(lèi)工作》,36氪,2023年3月22日發(fā)布,2023年5月23日訪(fǎng)問(wèn),https://36kr.com/newsflashes/2182652773859072。。目前影響大語(yǔ)言模型記憶范圍的因素主要有:問(wèn)答是否屬于大語(yǔ)言模型產(chǎn)品中的同一對(duì)話(huà)框,以及技術(shù)公司設(shè)置的大語(yǔ)言模型產(chǎn)品記憶上限,如微軟的必應(yīng)就有記憶問(wèn)答的上限。第三,最高層次材料是同一使用者賬號(hào)下的所有人機(jī)交流材料,它包括同一使用者與大語(yǔ)言模型的所有對(duì)話(huà)。需要注意的是,賬號(hào)所有者與大語(yǔ)言模型使用者未必是同一人,需要結(jié)合使用者本地環(huán)境信息、相關(guān)言詞證據(jù)等進(jìn)行綜合判斷。
使用者輸入的材料是大語(yǔ)言模型理解的對(duì)象。根據(jù)GPT-4和文心一言的多模態(tài)能力,使用者輸入大語(yǔ)言模型的材料可以是文本(含代碼)和圖像,且以文本為主要形式。從證據(jù)角度看,使用者輸入大語(yǔ)言模型的材料至少具有以下價(jià)值。第一,能夠反映使用者的主觀心態(tài),比如體現(xiàn)使用者對(duì)某類(lèi)信息的需求和認(rèn)知。刑事案件中犯罪嫌疑人在瀏覽器留下的相關(guān)搜索記錄能證明其主觀上對(duì)犯罪行為的認(rèn)識(shí)和心態(tài),今后或許會(huì)有嫌疑人就類(lèi)似問(wèn)題向大語(yǔ)言模型產(chǎn)品提問(wèn),那么證據(jù)也相應(yīng)地從電子數(shù)據(jù)轉(zhuǎn)為大語(yǔ)言模型材料。第二,能夠反映大語(yǔ)言模型生成的材料是否合理。大語(yǔ)言模型生成的材料應(yīng)與使用者輸入材料有一定對(duì)應(yīng)關(guān)系,兩者過(guò)于不匹配或說(shuō)明大語(yǔ)言模型生成材料的可靠性較弱。第三,能夠反映使用者對(duì)大語(yǔ)言模型生成材料的認(rèn)識(shí)。在人機(jī)連續(xù)對(duì)話(huà)環(huán)境中,使用者輸入的材料除了獨(dú)立表達(dá)意思,還是對(duì)大語(yǔ)言模型生成材料的回復(fù),因此能反映大語(yǔ)言模型生成材料對(duì)使用者的影響,比如使用者是否受到了不正當(dāng)廣告行為的誘導(dǎo)。
大語(yǔ)言模型生成的材料可以被看作是最狹義的大語(yǔ)言模型材料。目前大語(yǔ)言模型可以生成的材料類(lèi)型包括文本(含代碼)、圖像、語(yǔ)音甚至視頻。本文認(rèn)為大語(yǔ)言模型生成材料包含了“機(jī)器意見(jiàn)”和“人類(lèi)意見(jiàn)”兩種元素,“機(jī)器意見(jiàn)”指大語(yǔ)言模型的創(chuàng)新性元素,“人類(lèi)意見(jiàn)”指使用者的指令、干預(yù)、引導(dǎo)元素?!皺C(jī)器意見(jiàn)”的可靠性不強(qiáng),即使是目前公認(rèn)性能最優(yōu)秀的GPT-4模型也存在“幻覺(jué)”。大語(yǔ)言模型還不能像一些文章中提到的人工智能證據(jù)那樣——比如人臉識(shí)別系統(tǒng)判斷照片中人是特定某人——能以機(jī)器自身的“意見(jiàn)”發(fā)揮證據(jù)作用(19)馬國(guó)洋《論刑事訴訟中人工智能證據(jù)的審查》,《中國(guó)刑事法雜志》2021年第5期,第158頁(yè)。。大語(yǔ)言模型生成材料可以反映大語(yǔ)言模型服務(wù)提供者和使用者的不當(dāng)甚至違法行為,比如服務(wù)提供者通過(guò)大語(yǔ)言模型推送不恰當(dāng)廣告信息,使用者利用大語(yǔ)言模型進(jìn)行詐騙、開(kāi)展“網(wǎng)絡(luò)水軍”活動(dòng)等。
2.大語(yǔ)言模型本體材料
與大語(yǔ)言模型本體相關(guān)的材料有:第一,用于形成大語(yǔ)言模型且影響大語(yǔ)言模型生成內(nèi)容的材料,主要包括訓(xùn)練數(shù)據(jù)和深度學(xué)習(xí)算法;第二,大語(yǔ)言模型算法本身,如ChatGPT模型、GPT-4模型和文心一言模型;第三,大語(yǔ)言模型產(chǎn)品,指在大語(yǔ)言模型基礎(chǔ)上形成的具體產(chǎn)品,如ChatGPT聊天機(jī)器人、接入GPT-4的必應(yīng)搜索引擎。
大語(yǔ)言模型生成的具體內(nèi)容由訓(xùn)練數(shù)據(jù)和深度學(xué)習(xí)算法決定:訓(xùn)練數(shù)據(jù)是指用于大語(yǔ)言模型訓(xùn)練的海量數(shù)據(jù),深度學(xué)習(xí)算法可以理解為大語(yǔ)言模型學(xué)習(xí)的方法。訓(xùn)練數(shù)據(jù)和深度學(xué)習(xí)算法涉及到大語(yǔ)言模型在技術(shù)公正和算法黑箱方面的核心問(wèn)題,具有相當(dāng)?shù)淖C據(jù)意義。但它們的可解釋性非常弱,難以被人類(lèi)的自身能力感知,因此在證據(jù)運(yùn)用上存在困難。其一,訓(xùn)練數(shù)據(jù)對(duì)模型可靠性有重要影響,如樣本數(shù)據(jù)少容易“過(guò)擬合”(20)周志華《機(jī)器學(xué)習(xí)》,第13頁(yè)。,且“在不可信數(shù)據(jù)上訓(xùn)練的模型的性能將會(huì)大幅下降,甚至在模型中留有嚴(yán)重后門(mén)”(21)何燦《機(jī)器學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)的安全性研究》,南京航空航天大學(xué)2021年碩士學(xué)位論文,第1頁(yè)。。評(píng)價(jià)訓(xùn)練數(shù)據(jù)的因素包括數(shù)據(jù)質(zhì)量、規(guī)模、多樣性以及是否經(jīng)過(guò)預(yù)處理等。《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》提出,訓(xùn)練數(shù)據(jù)應(yīng)符合法律法規(guī)要求,不得侵犯知識(shí)產(chǎn)權(quán)、個(gè)人信息權(quán),應(yīng)當(dāng)保證真實(shí)性、準(zhǔn)確性、客觀性和多樣性。從證據(jù)角度看,訓(xùn)練數(shù)據(jù)規(guī)模巨大、內(nèi)容復(fù)雜,人類(lèi)無(wú)法通過(guò)自身感知能力對(duì)其進(jìn)行有效審查,這與大數(shù)據(jù)證據(jù)有一定相似性。本文認(rèn)為,可以參照劉品新對(duì)大數(shù)據(jù)證據(jù)的觀點(diǎn),讓訓(xùn)練數(shù)據(jù)通過(guò)司法鑒定,作為鑒定意見(jiàn)進(jìn)入證明活動(dòng)(22)劉品新《論大數(shù)據(jù)證據(jù)》,《環(huán)球法律評(píng)論》2019年第1期,第28頁(yè)。。其二,深度學(xué)習(xí)算法是一類(lèi)超多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,其復(fù)雜性是大模型強(qiáng)黑箱效應(yīng)的重要原因(23)張博倫《超越算法的黑箱想象》,《清華社會(huì)學(xué)評(píng)論》第18輯,社會(huì)科學(xué)文獻(xiàn)出版社2022年版,第152-153頁(yè)。。從證據(jù)角度看,深度學(xué)習(xí)算法的內(nèi)在邏輯難以為一般人理解,比如ChatGPT的深度學(xué)習(xí)算法結(jié)合了Transformer架構(gòu)、多頭注意力機(jī)制、自監(jiān)督學(xué)習(xí)和語(yǔ)言模型預(yù)訓(xùn)練等技術(shù)。鑒于深度學(xué)習(xí)算法對(duì)證據(jù)運(yùn)用的要求超出一般人能力水平,本文認(rèn)為其也較適合作為鑒定意見(jiàn)進(jìn)入證明活動(dòng)。
大語(yǔ)言模型是在海量數(shù)據(jù)上訓(xùn)練得到的參數(shù)規(guī)模巨大的深度學(xué)習(xí)模型,其參數(shù)量一般在百億級(jí)以上,代表模型有Open AI的GPT-4、百度的文心一言和阿里的通義千問(wèn)等。從證據(jù)角度看,大語(yǔ)言模型至少有以下值得關(guān)注的特點(diǎn):其一,大語(yǔ)言模型是生成新內(nèi)容而非簡(jiǎn)單檢索,屬于深度合成技術(shù)(24)《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》,國(guó)家互聯(lián)網(wǎng)信息辦公室、中華人民共和國(guó)工業(yè)和信息化部、中華人民共和國(guó)公安部令第12號(hào),2022年11月25日公布,中國(guó)網(wǎng)信網(wǎng),2022年12月11日發(fā)布,2023年5月23日訪(fǎng)問(wèn),http://www.cac.gov.cn/2022-12/11/c_1672221949354811.htm。;其二,程序員編寫(xiě)的代碼是大語(yǔ)言模型的骨架,但決定大語(yǔ)言模型預(yù)測(cè)結(jié)果的還是機(jī)器學(xué)習(xí)算法學(xué)習(xí)到的參數(shù),換言之,直接決定黑箱輸出結(jié)果的大模型的核心是參數(shù)而非代碼,因此,即使程序員也未必能理解大語(yǔ)言模型的“黑箱”;其三,大語(yǔ)言模型的黑箱效應(yīng)極為顯著,但蘊(yùn)含著大量人為因素,比如訓(xùn)練數(shù)據(jù)的選取和深度學(xué)習(xí)算法的設(shè)計(jì)。因此,大語(yǔ)言模型由大量代碼構(gòu)成且可解釋性差,與訓(xùn)練數(shù)據(jù)和深度學(xué)習(xí)算法存在一定相似性,也較適合以鑒定意見(jiàn)的形式進(jìn)入證明活動(dòng)。
大語(yǔ)言模型是一種基礎(chǔ)性工具,軟件開(kāi)發(fā)者可以將其集成到自己的應(yīng)用中,形成功能豐富的產(chǎn)品(25)於興中、鄭戈、丁曉東《生成式人工智能與法律的六大議題:以ChatGPT為例》,《中國(guó)法律評(píng)論》2023年第2期,第2頁(yè)。。目前大語(yǔ)言模型產(chǎn)品主要包括ChatGPT、文心一言等聊天機(jī)器人,必應(yīng)等搜索引擎,以及Copilot等辦公應(yīng)用。大語(yǔ)言模型產(chǎn)品直接影響大語(yǔ)言模型材料的呈現(xiàn),比如聊天機(jī)器人形成的大語(yǔ)言模型材料常以對(duì)話(huà)文本形式呈現(xiàn),聯(lián)網(wǎng)大語(yǔ)言模型形成的材料則包含較豐富的網(wǎng)絡(luò)鏈接?,F(xiàn)階段,不同種類(lèi)大語(yǔ)言模型產(chǎn)品形成的材料還沒(méi)有脫離“一問(wèn)一答”的基礎(chǔ)文本形態(tài),但未來(lái)大語(yǔ)言模型材料可能形態(tài)多樣甚至難以辨認(rèn)。相應(yīng)地,大語(yǔ)言模型材料的提取收集、固定保全、審查判斷都會(huì)面臨新的挑戰(zhàn)。
3.大語(yǔ)言模型運(yùn)行環(huán)境信息
大語(yǔ)言模型需要強(qiáng)大算力的支持,比如微軟Azure云計(jì)算平臺(tái)是OpenAI運(yùn)行和管理ChatGPT的重要基礎(chǔ)。但是大語(yǔ)言模型生成的內(nèi)容與所部署的云計(jì)算平臺(tái)無(wú)關(guān),云計(jì)算平臺(tái)主要影響到大語(yǔ)言模型產(chǎn)品運(yùn)行的穩(wěn)定性,比如云計(jì)算平臺(tái)的狀況和故障可能導(dǎo)致大語(yǔ)言模型的響應(yīng)時(shí)間較長(zhǎng),或者無(wú)法正常運(yùn)行。本文將云計(jì)算環(huán)境信息納入大語(yǔ)言模型材料是出于完整性考慮,但云計(jì)算環(huán)境對(duì)證據(jù)法視角下的大語(yǔ)言模型材料影響極為有限,因此云計(jì)算環(huán)境信息的證據(jù)價(jià)值不高。
使用者本地環(huán)境信息是指反映使用者操作大語(yǔ)言模型產(chǎn)品時(shí)的計(jì)算機(jī)或移動(dòng)設(shè)備環(huán)境的信息,主要包括使用的日期、時(shí)間和地區(qū),所用大語(yǔ)言模型的產(chǎn)品版本,計(jì)算機(jī)或移動(dòng)設(shè)備的型號(hào)、操作系統(tǒng)和瀏覽器,互聯(lián)網(wǎng)協(xié)議地址(IP地址)等。使用者本地環(huán)境信息在證明活動(dòng)中的作用主要有二:一是保障大語(yǔ)言模型材料的真實(shí)性,盡量避免人機(jī)對(duì)話(huà)材料被偽造或篡改;二是確定使用者的身份,大語(yǔ)言模型使用者和賬號(hào)所有者未必是同一人,因此需要結(jié)合使用者本地環(huán)境信息進(jìn)行身份同一性判斷??梢?jiàn),使用者本地環(huán)境信息具有一定證據(jù)價(jià)值,且可以參照電子數(shù)據(jù)環(huán)境信息的相關(guān)程序規(guī)范進(jìn)行收集和舉示,證據(jù)運(yùn)用成本不高。
1.以反映“人類(lèi)-機(jī)器意見(jiàn)”的程度為標(biāo)準(zhǔn)判斷其證據(jù)屬性
(1)“機(jī)器意見(jiàn)型”大語(yǔ)言模型材料
大語(yǔ)言模型可以對(duì)已經(jīng)學(xué)習(xí)到的事物、事件,或使用者輸入的復(fù)雜內(nèi)容進(jìn)行分析,提出生成性的觀點(diǎn)和判斷?!皺C(jī)器意見(jiàn)型”大語(yǔ)言模型材料中體現(xiàn)了較多大語(yǔ)言模型的機(jī)器判斷,而使用者的人類(lèi)意見(jiàn)較少得到體現(xiàn),至少包括:其一,大語(yǔ)言模型對(duì)客觀事件、事物作判斷形成的材料,如使用者要求大語(yǔ)言模型對(duì)某家公司、某所高校、某項(xiàng)產(chǎn)品、某個(gè)歷史事件、社會(huì)事件等進(jìn)行的判斷;其二,對(duì)使用者輸入的弱主觀性?xún)?nèi)容分析形成的、主要體現(xiàn)大語(yǔ)言模型意見(jiàn)的材料,如使用者要求大語(yǔ)言模型對(duì)其輸入學(xué)術(shù)文章所作的分析評(píng)價(jià);其三,對(duì)輸入的復(fù)雜內(nèi)容進(jìn)行鑒定形成的材料,如使用者要求大語(yǔ)言模型審查書(shū)證可靠性形成的分析意見(jiàn);其四,對(duì)輸入的復(fù)雜內(nèi)容進(jìn)行推理形成的材料,如案件偵辦人員輸入已經(jīng)較確定的案件情況,大語(yǔ)言模型據(jù)此作出的案情推理。那么,“機(jī)器意見(jiàn)型”大語(yǔ)言模型材料能否成為證據(jù)呢?比如某公司在廣告中宣稱(chēng)其產(chǎn)品全國(guó)知名,依據(jù)是大語(yǔ)言模型在對(duì)話(huà)中肯定該產(chǎn)品全國(guó)知名,那么相關(guān)大語(yǔ)言模型材料能否成為支撐其廣告行為合法性的依據(jù)?大語(yǔ)言模型基于海量訓(xùn)練數(shù)據(jù)和深度學(xué)習(xí)算法產(chǎn)生,其“機(jī)器意見(jiàn)”有一定客觀性,與待證事實(shí)之間存在關(guān)聯(lián)性,因此“機(jī)器意見(jiàn)型”大語(yǔ)言模型材料可以在合法前提下作為證據(jù)使用。但是,大語(yǔ)言模型本身存在“幻覺(jué)”現(xiàn)象,而且使用者可以通過(guò)提示對(duì)大語(yǔ)言模型輸出的內(nèi)容進(jìn)行誤導(dǎo)。比如使用者可以先告訴大語(yǔ)言模型該產(chǎn)品全國(guó)知名,再進(jìn)行提問(wèn),就能得到想要的回答。因此本文認(rèn)為,“機(jī)器意見(jiàn)”型大語(yǔ)言模型材料可以成為證據(jù),但對(duì)其客觀性和關(guān)聯(lián)性的審查需要格外謹(jǐn)慎。對(duì)“機(jī)器意見(jiàn)型”大語(yǔ)言模型材料的審查尤其要注意人機(jī)對(duì)話(huà)的上下文,排除使用者提示對(duì)機(jī)器意見(jiàn)的誘導(dǎo)。
(2)“人類(lèi)-機(jī)器意見(jiàn)平衡型”大語(yǔ)言模型材料
此類(lèi)材料指人類(lèi)意見(jiàn)和機(jī)器意見(jiàn)對(duì)大語(yǔ)言模型生成材料發(fā)揮作用較為平衡的類(lèi)型。在目前使用場(chǎng)景下,“人類(lèi)-機(jī)器意見(jiàn)平衡型”大語(yǔ)言模型材料至少包括以下情形:其一,人機(jī)合作創(chuàng)造性工作形成的材料,以法律職業(yè)為例,GPT-4能夠通過(guò)美國(guó)模擬律師考試,并且分?jǐn)?shù)位于應(yīng)試者前10%左右(26)“GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses,” OpenAI, updated March 15, 2023, accessed May 22, 2023, https://openai.com/product/gpt-4.,文心一言的法律能力有較大進(jìn)步空間(27)根據(jù)筆者在2023年3月18日的測(cè)試,文心一言可以定位到《中華人民共和國(guó)民法典》部分具體條款,但會(huì)編造法條的條數(shù)和內(nèi)容;它對(duì)《中華人民共和國(guó)刑法》了解得非常籠統(tǒng),只到“章”;它對(duì)商法、公司法的掌握也比較籠統(tǒng)。但在適當(dāng)和充分的提示下,文心一言對(duì)《中華人民共和國(guó)土地管理法》修改的情況作出了較為完善的描述和評(píng)價(jià),甚至能對(duì)其中的土地征收程序修改情況進(jìn)行描述和評(píng)價(jià)??傮w而言,文心一言在法條檢索和法律咨詢(xún)上的表現(xiàn)不盡如人意,但充分恰當(dāng)?shù)奶崾究梢蕴岣咚幕卮鹳|(zhì)量。,兩者都無(wú)法完全取代律師在處理復(fù)雜案情和證據(jù)、調(diào)查取證等方面的作用,需要通過(guò)人機(jī)深度合作形成可用的工作成果;其二,對(duì)使用者輸入的強(qiáng)主觀性?xún)?nèi)容進(jìn)行分析形成的材料,如案件偵辦人員將數(shù)份言詞證據(jù)輸入大語(yǔ)言模型材料,要求其梳理前后是否有矛盾之處,對(duì)涉及人員言論的可信度進(jìn)行評(píng)估;其三,經(jīng)使用者重要“提示”(Prompt)形成的材料,比如使用者在對(duì)話(huà)上文給出“某公司為知名企業(yè)、有良好商譽(yù)”的信息,能夠在大語(yǔ)言模型記憶范圍內(nèi)影響其回答;其四,在強(qiáng)人機(jī)交互環(huán)境中形成的材料,大語(yǔ)言模型已經(jīng)被計(jì)劃用于智能客服領(lǐng)域,由其形成的客戶(hù)服務(wù)記錄有較強(qiáng)的人機(jī)意見(jiàn)交換性,一般屬于“人類(lèi)-機(jī)器意見(jiàn)平衡型”大語(yǔ)言模型材料?!叭祟?lèi)-機(jī)器意見(jiàn)平衡型”大語(yǔ)言模型材料可以通過(guò)反映機(jī)器意見(jiàn)和人類(lèi)意見(jiàn)發(fā)揮證據(jù)作用,這里的“平衡”不要求人機(jī)意見(jiàn)占比持平,而是一種基于人機(jī)交互復(fù)雜性的折中描述。以案件偵辦人員通過(guò)大語(yǔ)言模型分析言詞證據(jù)為例:言詞證據(jù)形成的過(guò)程和偵辦人員選取言詞證據(jù)的過(guò)程都含有較強(qiáng)主觀因素,體現(xiàn)的是人類(lèi)意見(jiàn);大語(yǔ)言模型分析言詞證據(jù)得出結(jié)論,體現(xiàn)的是機(jī)器意見(jiàn)。因此,審查“人類(lèi)-機(jī)器意見(jiàn)平衡型”大語(yǔ)言模型材料時(shí)需要對(duì)機(jī)器意見(jiàn)和人類(lèi)意見(jiàn)進(jìn)行一定區(qū)分,根據(jù)具體案件需要排除人類(lèi)意見(jiàn)或機(jī)器意見(jiàn)的干擾,抑或?qū)煞N意見(jiàn)分別進(jìn)行審查判斷。
(3)“人類(lèi)意見(jiàn)型”大語(yǔ)言模型材料
一些大語(yǔ)言模型生成材料幾乎完全是對(duì)人類(lèi)意見(jiàn)的反映,至少包括以下情形:其一,基于使用者提供的內(nèi)容經(jīng)簡(jiǎn)單加工形成的材料,如不含藝術(shù)性的語(yǔ)言翻譯、文字語(yǔ)法校對(duì)、文章潤(rùn)色等;其二,完全按照使用者要求生成的、基本不含機(jī)器意見(jiàn)的材料,如“網(wǎng)絡(luò)水軍”評(píng)論文本。“人類(lèi)意見(jiàn)型”大語(yǔ)言模型材料在一定情況下可以成為證據(jù),比如使用者通過(guò)大語(yǔ)言模型翻譯違法文章用于不當(dāng)宣傳,通過(guò)大語(yǔ)言模型大量生成垃圾信息用于“網(wǎng)絡(luò)水軍”活動(dòng)等。在這種情況下,大語(yǔ)言模型材料通過(guò)反映人類(lèi)意見(jiàn)來(lái)證明案件事實(shí),可以用來(lái)證明使用者行為的主觀方面。
2.以證明活動(dòng)中的作用為標(biāo)準(zhǔn)判斷其證據(jù)屬性
(1)用于證明案件事實(shí)的大語(yǔ)言模型材料
“案件事實(shí)”是證據(jù)定義、證明對(duì)象等問(wèn)題的核心概念之一,既往研究對(duì)“案件事實(shí)”的理解存在爭(zhēng)議,本文支持“案件事實(shí)就是實(shí)體法事實(shí)”的觀點(diǎn),所稱(chēng)“案件事實(shí)”即指對(duì)解決案件實(shí)體問(wèn)題具有法律意義的事實(shí)(28)陳光中、周?chē)?guó)鈞《論刑事訴訟中的證明對(duì)象》,《中國(guó)政法大學(xué)學(xué)報(bào)》1983年第3期,第58頁(yè)。。大語(yǔ)言模型材料可以在多種情況下對(duì)案件事實(shí)起證明作用:在著作權(quán)案件中,大語(yǔ)言模型材料可以證明通過(guò)大語(yǔ)言模型進(jìn)行的改寫(xiě)、抄襲等事實(shí);在商業(yè)案件中,它可以證明大語(yǔ)言模型服務(wù)提供者在大語(yǔ)言模型對(duì)話(huà)中違規(guī)植入廣告、進(jìn)行不良誘導(dǎo)等不當(dāng)商業(yè)行為;在刑事案件中,它可以證明向大語(yǔ)言模型咨詢(xún)犯罪法律問(wèn)題的犯罪嫌疑人主觀心態(tài)。在這些情況下,大語(yǔ)言模型材料能夠證明案件事實(shí),具有作為證據(jù)的不可替代性,可以被稱(chēng)為“大語(yǔ)言模型證據(jù)”。
(2)用于證據(jù)審查的大語(yǔ)言模型材料
大語(yǔ)言模型可以用來(lái)審查已經(jīng)收集到的證據(jù),尤其是書(shū)證、言詞證據(jù)等以文本內(nèi)容發(fā)揮證明作用的證據(jù)。比如辦案人員可以將大量言詞證據(jù)輸入大語(yǔ)言模型,要求大語(yǔ)言模型梳理陳述中的前后矛盾。正如本文對(duì)“人工智能證據(jù)審查方法”和“人工智能證據(jù)”的區(qū)分,本文認(rèn)為這種發(fā)揮證據(jù)審查作用的大語(yǔ)言模型材料也不宜稱(chēng)為“大語(yǔ)言模型證據(jù)”(詳后)。對(duì)證明對(duì)象范圍最廣的理解是,證明對(duì)象包括實(shí)體法事實(shí)、程序法事實(shí)和證據(jù)事實(shí)(29)也有觀點(diǎn)主張不采用傳統(tǒng)證明對(duì)象范圍理論(區(qū)分實(shí)體法事實(shí)、程序法事實(shí)和證據(jù)事實(shí)),認(rèn)為證明對(duì)象的范圍是訴辯雙方的訴訟主張。該理論與本文討論內(nèi)容有一定距離,因此未作展開(kāi)。參見(jiàn):魯杰、曹福來(lái)《論證明對(duì)象的范圍是訴辯雙方的訴訟主張》,《政治與法律》2009年第1期,第128-132頁(yè)。:實(shí)體法事實(shí)指對(duì)解決案件實(shí)體問(wèn)題具有法律意義的事實(shí)(30)陳光中、周?chē)?guó)鈞《論刑事訴訟中的證明對(duì)象》,《中國(guó)政法大學(xué)學(xué)報(bào)》1983年第3期,第58頁(yè)。;程序法事實(shí)指引起訴訟法律關(guān)系發(fā)生、變更和消滅的事實(shí),包括訴訟行為和訴訟事件(31)卞建林編《證據(jù)法學(xué)》,中國(guó)政法大學(xué)出版社2000年版,第279頁(yè)。;證據(jù)事實(shí)指證據(jù)提供的內(nèi)容(32)陳光中、周?chē)?guó)鈞《論刑事訴訟中的證明對(duì)象》,《中國(guó)政法大學(xué)學(xué)報(bào)》1983年第3期,第62頁(yè)。。20世紀(jì)90年代中期之后,我國(guó)訴訟法通說(shuō)觀點(diǎn)基本認(rèn)同證明對(duì)象范圍包括實(shí)體法事實(shí)和程序法事實(shí),并大多否定訴訟證明對(duì)象中包括證據(jù)事實(shí)(33)閔春雷、劉銘《證明對(duì)象研究走向評(píng)析》,《吉林大學(xué)社會(huì)科學(xué)學(xué)報(bào)》2009年第2期,第48頁(yè)。。證據(jù)事實(shí)不屬于證明對(duì)象范圍的通說(shuō)印證了“審查證據(jù)的方法不是證據(jù)”的觀點(diǎn)。本文認(rèn)為,可以將通過(guò)大語(yǔ)言模型審查證據(jù)的方式稱(chēng)作“大語(yǔ)言模型證據(jù)審查方法”,與“大語(yǔ)言模型證據(jù)”相區(qū)分。
(3)用于輔助案件調(diào)查的大語(yǔ)言模型材料
除了證明案件事實(shí)和證據(jù)事實(shí),大語(yǔ)言模型材料還可以用于輔助案件調(diào)查。比如在刑事案件偵辦中,辦案人員可以將案件背景和收集到的證據(jù)情況輸入大語(yǔ)言模型,要求其推理、還原出可能的案件情況,甚至嘗試推理具備作案嫌疑的人。輔助案件偵查形成的大語(yǔ)言模型材料無(wú)法證明案件事實(shí),只是拓寬使用者認(rèn)識(shí)案件的思路,因此不屬于證據(jù)。
大語(yǔ)言模型材料將深度廣泛地進(jìn)入證明活動(dòng),那它能否成為證據(jù)?訴訟法學(xué)研究對(duì)證據(jù)的定義存在分歧,其中對(duì)我國(guó)立法影響較大的觀點(diǎn)主要有三種,分別是“事實(shí)說(shuō)”、“根據(jù)說(shuō)”和“材料說(shuō)”(34)何家弘、劉品新《證據(jù)法學(xué)》,法律出版社2022年版,第118-120頁(yè)。。事實(shí)說(shuō)認(rèn)為證據(jù)是“證明案件真實(shí)情況的一切事實(shí)”,曾在研究中占主導(dǎo)地位(35)何家弘、劉品新《證據(jù)法學(xué)》,第118-119頁(yè)。,我國(guó)1979年《刑事訴訟法》采納這一觀點(diǎn)(36)《中華人民共和國(guó)刑事訴訟法》(1979年)第三十一條:“證明案件真實(shí)情況的一切事實(shí),都是證據(jù)?!薄吨腥A人民共和國(guó)行政訴訟法》(1989年)和《中華人民共和國(guó)民事訴訟法》(1991年)未對(duì)“證據(jù)”作定義:《行政訴訟法》(1989年)第三十一條對(duì)證據(jù)種類(lèi)進(jìn)行列舉,規(guī)定“以上證據(jù)經(jīng)法庭審查屬實(shí),才能作為定案的根據(jù)”;《民事訴訟法》(1991年)第六十三條對(duì)證據(jù)種類(lèi)進(jìn)行列舉,規(guī)定“以上證據(jù)必須查證屬實(shí),才能作為認(rèn)定事實(shí)的根據(jù)”。。根據(jù)說(shuō)認(rèn)為“證據(jù)是查明和確定案件真實(shí)情況的根據(jù)”,代表學(xué)者有陳一云、龍宗智、何家弘、劉品新等(37)陳一云、王新清、嚴(yán)端編《證據(jù)學(xué)》,中國(guó)人民大學(xué)出版社2013年版,第3頁(yè);龍宗智《訴訟證據(jù)論》,法律出版社2021年版,第8頁(yè);何家弘、劉品新《證據(jù)法學(xué)》,第119、121頁(yè)。,《最高人民法院關(guān)于貫徹執(zhí)行〈民事訴訟法(試行)〉若干問(wèn)題的意見(jiàn)》采納這一觀點(diǎn)(38)《最高人民法院關(guān)于貫徹執(zhí)行〈民事訴訟法(試行)〉若干問(wèn)題的意見(jiàn)》(已廢止),[1984]法辦字第112號(hào)。其中第四節(jié)“證據(jù)問(wèn)題”規(guī)定:“證據(jù)是查明和確定案件真實(shí)情況的根據(jù)?!薄2牧险f(shuō)認(rèn)為證據(jù)是“可以用于證明案件事實(shí)的材料”(39)龍宗智的觀點(diǎn)部分體現(xiàn)了證據(jù)的材料說(shuō):“具體的證據(jù),是指承載證據(jù)信息(事實(shí)與意見(jiàn)),而以特定形式表現(xiàn)出來(lái)的證明材料。”參見(jiàn):龍宗智《訴訟證據(jù)論》,第8頁(yè)。,以2012年《刑事訴訟法》修改的采納為標(biāo)志,材料說(shuō)成為我國(guó)證據(jù)定義的主流觀點(diǎn)(40)《中華人民共和國(guó)刑事訴訟法》(2012年修正)第四十八條:“可以用于證明案件事實(shí)的材料,都是證據(jù)?!薄1疚膹奈覈?guó)現(xiàn)行立法出發(fā),認(rèn)為證據(jù)是可用于證明案件事實(shí)的材料。大語(yǔ)言模型材料證明案件事實(shí)的情形至少包括:證明通過(guò)大語(yǔ)言模型產(chǎn)品進(jìn)行的不當(dāng)行為(如不當(dāng)廣告行為、“網(wǎng)絡(luò)水軍”行為),證明咨詢(xún)犯罪問(wèn)題的犯罪嫌疑人的主觀心態(tài),等等。因此,大語(yǔ)言模型材料可以成為證據(jù)。
大語(yǔ)言模型證據(jù)能否在證明活動(dòng)中被采納?這是證據(jù)資格的問(wèn)題,研究中常見(jiàn)的“證據(jù)能力”(41)“證據(jù)能力,是指能夠成為證據(jù)的資格?!眳⒁?jiàn):田口守一《刑事訴訟法》,張凌、于秀峰譯,法律出版社2019年版,第437頁(yè)。、“證人能力”、“證據(jù)的采納標(biāo)準(zhǔn)”等描述的都是證據(jù)資格(42)林志毅《論刑事證據(jù)資格之多重性》,《中國(guó)法學(xué)》2022年第1期,第263頁(yè)。。大陸法系常采用證據(jù)資格(Competency of Evidence)、證據(jù)能力概念,英美法系中則表述為證據(jù)的可采性(Admissibility of Evidence)(43)參見(jiàn):田口守一《刑事訴訟法》,第438頁(yè);何家弘、劉品新《證據(jù)法學(xué)》,第124-125頁(yè)。。證據(jù)資格的內(nèi)容在不同證明活動(dòng)中、面對(duì)不同的證據(jù)形式時(shí)有所不同,基本內(nèi)容包括客觀性、關(guān)聯(lián)性和合法性。首先,客觀性是指證據(jù)應(yīng)當(dāng)具有客觀存在性,包括證據(jù)在內(nèi)容上是對(duì)客觀事物的反映,在形式上是一種客觀存在,能夠被人通過(guò)某種方式感知(44)何家弘、劉品新《證據(jù)法學(xué)》,第124-128頁(yè)。。在內(nèi)容上,大語(yǔ)言模型材料能夠反映以使用者行為為代表的多種客觀事物;在形式上,大語(yǔ)言模型材料中的人機(jī)交流材料能被人直觀感知,本體材料和使用環(huán)境信息也能通過(guò)鑒定和技術(shù)公司公開(kāi)為人感知。其次,關(guān)聯(lián)性是指證據(jù)必須與待證事實(shí)存在聯(lián)系。大語(yǔ)言模型材料深入社會(huì)生活,能夠在民事、刑事、行政等多種場(chǎng)景下與案件事實(shí)相聯(lián)系,因此具備關(guān)聯(lián)性。最后,合法性是指證據(jù)的調(diào)查主體、形式、收集程序或提取方法應(yīng)符合法律規(guī)定。證據(jù)是否需要具有合法性在研究中有較大爭(zhēng)議,何家弘認(rèn)為該爭(zhēng)議的存在是由于證據(jù)概念與證據(jù)資格發(fā)生混淆:合法性是證據(jù)資格的考量因素,經(jīng)非法主體、形式、程序得到的材料依然可以是證據(jù),只是不一定能在證明活動(dòng)中被采納(45)何家弘、劉品新《證據(jù)法學(xué)》,第128-132頁(yè)。。本文認(rèn)同這一觀點(diǎn),盡管大語(yǔ)言模型材料的取證主體、證據(jù)形式和取證程序尚無(wú)法律依據(jù),但這并不影響其成為證據(jù),只影響其在證明活動(dòng)中能否被采納。
綜上,大語(yǔ)言模型材料可以成為證據(jù)出現(xiàn)在證明活動(dòng)中。由于大語(yǔ)言模型證據(jù)在一些情況下能夠證明案件事實(shí),具有真實(shí)性,本文認(rèn)為通過(guò)完善法律,它也具有證據(jù)資格。
1.大數(shù)據(jù)證據(jù)和大語(yǔ)言模型證據(jù)
大語(yǔ)言模型是人工智能領(lǐng)域中自然語(yǔ)言處理的前沿成果,與大數(shù)據(jù)技術(shù)密切相關(guān)。人工智能的發(fā)展基于大量數(shù)據(jù),而大數(shù)據(jù)技術(shù)的分布式存儲(chǔ)和分布式計(jì)算為人工智能提供了強(qiáng)大的存儲(chǔ)和計(jì)算能力(46)林子雨編著《大數(shù)據(jù)導(dǎo)論——數(shù)據(jù)思維、數(shù)據(jù)能力和數(shù)據(jù)倫理》,高等教育出版社2020年版,第54-55頁(yè)。。大數(shù)據(jù)證據(jù)和大語(yǔ)言模型證據(jù)都隨前沿技術(shù)發(fā)展產(chǎn)生,面臨著相似的黑箱質(zhì)疑、證據(jù)資格問(wèn)題和證據(jù)種類(lèi)問(wèn)題,兩者也存在區(qū)別。第一,在技術(shù)基礎(chǔ)上,大數(shù)據(jù)技術(shù)的重心在于對(duì)海量數(shù)據(jù)的處理和對(duì)相關(guān)性關(guān)系的發(fā)掘,是一種“尋找結(jié)果”的傳統(tǒng)計(jì)算;而大語(yǔ)言模型屬于人工智能技術(shù),是一種“允許機(jī)器執(zhí)行認(rèn)知功能”的計(jì)算方法,目的在于輔助或者替代人類(lèi)完成某些任務(wù),進(jìn)行某些決定(47)林子雨編著《大數(shù)據(jù)導(dǎo)論——數(shù)據(jù)思維、數(shù)據(jù)能力和數(shù)據(jù)倫理》,第55頁(yè)。。第二,在具體內(nèi)容上,大數(shù)據(jù)證據(jù)由海量基礎(chǔ)數(shù)據(jù)、大數(shù)據(jù)分析技術(shù)和大數(shù)據(jù)分析結(jié)果組成(48)嚴(yán)若冰《以定義為中心的大數(shù)據(jù)證據(jù)獨(dú)立種類(lèi)研究》,《山東警察學(xué)院學(xué)報(bào)》2020年第5期,第87-89頁(yè)。;最完整的大語(yǔ)言模型證據(jù)由人機(jī)交流材料、大語(yǔ)言模型本體材料和運(yùn)行環(huán)境信息組成。第三,在運(yùn)用難度上,大數(shù)據(jù)證據(jù)在證明活動(dòng)中一般以大數(shù)據(jù)分析報(bào)告、說(shuō)明報(bào)告或鑒定意見(jiàn)的形式呈現(xiàn),有一定專(zhuān)業(yè)門(mén)檻;大語(yǔ)言模型證據(jù)或多以人機(jī)交流材料(如對(duì)話(huà)文本)形式呈現(xiàn),運(yùn)用難度相對(duì)較小。
大數(shù)據(jù)證據(jù)已經(jīng)在司法裁判中得到運(yùn)用,法律實(shí)務(wù)和學(xué)術(shù)研究均認(rèn)可其證據(jù)資格,但在證據(jù)種類(lèi)問(wèn)題上存在分歧。在司法實(shí)踐中有將大數(shù)據(jù)證據(jù)歸為鑒定意見(jiàn)、電子數(shù)據(jù)、書(shū)證、證人證言,甚至是將其作為“偵破經(jīng)過(guò)”或“情況說(shuō)明”的做法(49)嚴(yán)若冰《以定義為中心的大數(shù)據(jù)證據(jù)獨(dú)立種類(lèi)研究》,《山東警察學(xué)院學(xué)報(bào)》2020年第5期,第80-91頁(yè)。;學(xué)術(shù)上對(duì)大數(shù)據(jù)證據(jù)的種類(lèi)有納入鑒定意見(jiàn)(50)劉品新《論大數(shù)據(jù)證據(jù)》,《環(huán)球法律評(píng)論》2019年第1期,第28頁(yè)。、獨(dú)立類(lèi)型(51)徐惠、李曉東《大數(shù)據(jù)證據(jù)之證據(jù)屬性證成研究》,《中國(guó)人民公安大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2020年第1期,第47-57頁(yè)。等不同看法。本文認(rèn)為大數(shù)據(jù)證據(jù)有別于傳統(tǒng)證據(jù)種類(lèi),但是不宜作為“大數(shù)據(jù)證據(jù)”進(jìn)入立法。證據(jù)分類(lèi)應(yīng)當(dāng)實(shí)現(xiàn)識(shí)別、適用和交往的基本功能(52)識(shí)別性指分類(lèi)能將某類(lèi)證據(jù)與其他證據(jù)進(jìn)行有效區(qū)分,適用性是指證據(jù)分類(lèi)有助于適用證據(jù)規(guī)則,交往性即普遍性,是指證據(jù)分類(lèi)獲得普遍認(rèn)可,因此便利交流與交往。參見(jiàn):龍宗智《訴訟證據(jù)論》,第44頁(yè)。,而“大數(shù)據(jù)證據(jù)”這一分類(lèi)未必具有交往性(即普遍性)。隨著技術(shù)發(fā)展不能被歸入法定證據(jù)種類(lèi)的新技術(shù)證據(jù)只會(huì)越來(lái)越多,比如我們正在討論的大語(yǔ)言模型證據(jù)(53)嚴(yán)若冰《以定義為中心的大數(shù)據(jù)證據(jù)獨(dú)立種類(lèi)研究》,《山東警察學(xué)院學(xué)報(bào)》2020年第5期,第80-91頁(yè)。。有學(xué)者認(rèn)為,鑒于法定證據(jù)種類(lèi)在面對(duì)新技術(shù)證據(jù)時(shí)存在的困難,應(yīng)該放棄將證據(jù)種類(lèi)作為證據(jù)門(mén)檻的做法(54)鄭飛、馬國(guó)洋《大數(shù)據(jù)證據(jù)適用的三重困境及出路》,《重慶大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2022年第3期,第207-218頁(yè)。。本文支持這一觀點(diǎn),證據(jù)資格才是“證據(jù)門(mén)檻”,證據(jù)種類(lèi)是我們認(rèn)識(shí)證據(jù)的工具??梢钥吹?大數(shù)據(jù)證據(jù)在證據(jù)種類(lèi)上的混亂并未影響它在司法實(shí)踐中被廣泛運(yùn)用,大語(yǔ)言模型證據(jù)或許也將走上類(lèi)似的道路。
2.人工智能證據(jù)和大語(yǔ)言模型證據(jù)
大語(yǔ)言模型證據(jù)屬于人工智能證據(jù),但是人工智能技術(shù)有多種研究方向,比如知識(shí)圖譜和大語(yǔ)言模型是兩種完全不同的方案。因此,人工智能證據(jù)研究成果難以套用到大語(yǔ)言模型證據(jù)上,卻可以成為理論來(lái)源和重要參考。人工智能證據(jù)研究在刑事訴訟領(lǐng)域和民事訴訟領(lǐng)域都已展開(kāi),但現(xiàn)有研究存在將“人工智能證據(jù)審查方法”和“人工智能證據(jù)”混用的情況,這與謝登科等指出的“電子數(shù)據(jù)區(qū)塊鏈存證”與“區(qū)塊鏈證據(jù)”混用的情況具有一定相似性(55)謝登科、張赫《電子數(shù)據(jù)區(qū)塊鏈存證的理論反思》,《重慶大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2022年12月20日網(wǎng)絡(luò)首發(fā),第1-14頁(yè),http://kns.cnki.net/kcms/detail/50.1023.c.20221219.1201.001.html。。有文章舉例的“人工智能證據(jù)”是人臉識(shí)別系統(tǒng)分析結(jié)論,該分析結(jié)論在訴訟中被用來(lái)證明特定照片上的人是特定某人(56)馬國(guó)洋《論刑事訴訟中人工智能證據(jù)的審查》,《中國(guó)刑事法雜志》2021年第5期,第158頁(yè)。。本文認(rèn)為該例子不一定妥當(dāng),人臉識(shí)別系統(tǒng)分析結(jié)論在訴訟中起到的是補(bǔ)強(qiáng)書(shū)證(即本案中照片)的作用,是作為輔助證據(jù)(或稱(chēng)補(bǔ)助證據(jù))用來(lái)證明證據(jù)事實(shí)的(57)陳光中、周?chē)?guó)鈞《論刑事訴訟中的證明對(duì)象》,《中國(guó)政法大學(xué)學(xué)報(bào)》1983年第3期,第58-64頁(yè);田口守一《刑事訴訟法》,第438-439頁(yè)。。用人工智能方法對(duì)其他證據(jù)進(jìn)行審查判斷形成的材料或不宜稱(chēng)為“人工智能證據(jù)”,可以將這種方法稱(chēng)為“人工智能證據(jù)審查方法”。
可能會(huì)有這樣的反對(duì)意見(jiàn):驗(yàn)證其他證據(jù)形成的人工智能材料也與案件事實(shí)相關(guān),所以是“人工智能證據(jù)”。本文認(rèn)為該觀點(diǎn)有一定道理,而且符合司法實(shí)踐和通常認(rèn)識(shí),但尚有可商榷之處。在區(qū)塊鏈證據(jù)領(lǐng)域,“區(qū)塊鏈證據(jù)”和“電子數(shù)據(jù)區(qū)塊鏈存證”的混用已經(jīng)較為普遍,有文章指出了既往研究中存在的混用情況及其給研究帶來(lái)的困難(58)謝登科、張赫《電子數(shù)據(jù)區(qū)塊鏈存證的理論反思》,《重慶大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2022年12月20日網(wǎng)絡(luò)首發(fā),第1-14頁(yè),http://kns.cnki.net/kcms/detail/50.1023.c.20221219.1201.001.html。。人工智能證據(jù)研究尚處初期,厘清概念有助于今后研究的順利開(kāi)展,因此本文更傾向于區(qū)分“人工智能證據(jù)”和“人工智能證據(jù)審查方法”。比較符合這一“人工智能證據(jù)”定義的有金融領(lǐng)域的智能投顧材料(59)徐鳳《人工智能算法黑箱的法律規(guī)制——以智能投顧為例展開(kāi)》,《東方法學(xué)》2019年第6期,第83-86頁(yè)。,由AI繪畫(huà)工具生成的AI繪畫(huà)作品,由AI語(yǔ)音工具生成的AI翻唱作品,以及大語(yǔ)言模型證據(jù)等。
1.民事法律證明場(chǎng)景中的大語(yǔ)言模型材料
民事領(lǐng)域或?qū)⑹歉鞣刹块T(mén)中最早出現(xiàn)大語(yǔ)言模型材料的。大語(yǔ)言模型通過(guò)廣告營(yíng)利的商業(yè)模式幾乎是板上釘釘,其中蘊(yùn)含著法律風(fēng)險(xiǎn)。大語(yǔ)言模型以一問(wèn)一答的形式向使用者提供意見(jiàn),使用者省去了在搜索引擎中篩選信息的過(guò)程,但這種“不必選擇”也意味著“難以選擇”和“易被誤導(dǎo)”。如果大語(yǔ)言模型在對(duì)話(huà)過(guò)程中推薦商業(yè)廣告,用戶(hù)甚至可能意識(shí)不到廣告存在,這種廣告在涉及醫(yī)療、法律服務(wù)等敏感行業(yè)時(shí)會(huì)更具危險(xiǎn)性(60)如曾經(jīng)發(fā)生過(guò)莆田系醫(yī)院通過(guò)商業(yè)競(jìng)價(jià)在百度搜索結(jié)果中投放廣告,患者通過(guò)廣告被引導(dǎo)到莆田系醫(yī)院就醫(yī)導(dǎo)致治療延誤的事件。參見(jiàn):張燕《揭“莆田系”醫(yī)院盈利秘密》,《中國(guó)經(jīng)濟(jì)周刊》2016年第19期,第24-26頁(yè)。。
據(jù)路透社報(bào)道,微軟已經(jīng)在嘗試向搭載GPT-4的必應(yīng)搜索引擎中加入廣告,比如在機(jī)器回復(fù)中提供付費(fèi)鏈接(61)Sheila Dang, “Exclusive: Microsoft’s Bing plans AI ads in early pitch to advertisers,” Reuters News, updated February 18, 2023, accessed May 22, 2023, https://www.reuters.com/technology/microsofts-bing-plans-ai-ads-early-pitch-advertisers-2023-02-17/.。又以文心一言為例,大模型的實(shí)現(xiàn)和維持依賴(lài)強(qiáng)算法和大算力,這意味著文心一言在開(kāi)發(fā)階段就消耗了巨量資源,且后續(xù)業(yè)務(wù)開(kāi)展需要以大量資金投入為保障。廣告業(yè)務(wù)是百度公司的重要收入來(lái)源,百度2022年第四季度的在線(xiàn)營(yíng)銷(xiāo)收入(Online Marketing Revenue)為人民幣181億元,占該季度營(yíng)收(331億元)的54.68%(62)“Baidu Announces Fourth Quarter and Fiscal Year 2022 Results,” Baidu IR, updated February 22, 2023, accessed May 22, 2023, https://ir.baidu.com/investor-overview/.。文心一言作為國(guó)內(nèi)推出的第一款大語(yǔ)言模型炙手可熱,承接廣告業(yè)務(wù)的經(jīng)濟(jì)效益相當(dāng)可觀。大語(yǔ)言模型的技術(shù)復(fù)雜性使其較難受到外界有效監(jiān)督,且法律本身存在滯后性,但法律人對(duì)大語(yǔ)言模型的民商事合規(guī)風(fēng)險(xiǎn)應(yīng)有一定預(yù)見(jiàn)和警惕。
2.刑事法律證明場(chǎng)景中的大語(yǔ)言模型材料
一項(xiàng)新技術(shù)出現(xiàn)后,社會(huì)群體內(nèi)接受新技術(shù)的速度和能力不同,由此帶來(lái)的信息差將讓犯罪分子有機(jī)可乘。大語(yǔ)言模型以假亂真的對(duì)話(huà)能力可能被用于違法犯罪活動(dòng)中,比如“網(wǎng)絡(luò)水軍”活動(dòng)和電信詐騙犯罪。以“網(wǎng)絡(luò)水軍”為例,目前“水軍”在互聯(lián)網(wǎng)上的發(fā)言較為生硬,辨識(shí)難度不高。但大語(yǔ)言模型可以高效編寫(xiě)大量自然流暢的虛假文案,提高“水軍”活動(dòng)的效率,增強(qiáng)了違法犯罪的隱蔽性和危害性。又以詐騙案件為例,在以婚戀為誘餌的“殺豬盤(pán)”騙局中,犯罪嫌疑人或可用大語(yǔ)言模型聊天機(jī)器人和受害者進(jìn)行對(duì)話(huà)“培養(yǎng)感情”,降低犯罪成本。在這些情況下,使用者與大語(yǔ)言模型交流形成的材料將成為證明案件事實(shí)的證據(jù)。
除了直接證明案件事實(shí),大語(yǔ)言模型材料在刑事活動(dòng)中還可以作為破案線(xiàn)索,或是審查其他證據(jù)的輔助證據(jù)。比如在案件偵破階段,警方可以將已經(jīng)搜集到的案件信息和經(jīng)過(guò)確認(rèn)的部分證據(jù)輸入大語(yǔ)言模型,要求其推理出案件最有可能的幾種情況,以此拓寬辦案思路。對(duì)于待初步審查的書(shū)證、言詞證據(jù),警方可以將證據(jù)文本內(nèi)容和搜集該證據(jù)的相關(guān)情況輸入大語(yǔ)言模型,要求其梳理案件中的人物關(guān)系和主要情節(jié),進(jìn)行內(nèi)容、程序上的審查。作為破案線(xiàn)索和輔助證據(jù)的大語(yǔ)言模型材料雖然可靠性不一定高,但是在保證算法公正的前提下具有較高公正性,有助于提高辦案效率。
3.行政法律證明場(chǎng)景中的大語(yǔ)言模型材料
根據(jù)數(shù)字政府建設(shè)和2023年國(guó)務(wù)院機(jī)構(gòu)改革體現(xiàn)的發(fā)展方向,我國(guó)在政府領(lǐng)域引入大語(yǔ)言模型或許只是時(shí)間問(wèn)題。一方面,數(shù)字化智能化是我國(guó)政府發(fā)展的重要方向,“十四五”規(guī)劃中明確要求“全面推進(jìn)政府運(yùn)行方式、業(yè)務(wù)流程和服務(wù)模式數(shù)字化智能化”(63)《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》,中國(guó)政府網(wǎng),2021年3月13日發(fā)布,2023年5月29日訪(fǎng)問(wèn),https://www.gov.cn/xinwen/2021-03/13/content_5592681.htm。,2022年,《國(guó)務(wù)院關(guān)于加強(qiáng)數(shù)字政府建設(shè)的指導(dǎo)意見(jiàn)》提出“構(gòu)建數(shù)字化、智能化的政府運(yùn)行新形態(tài)”。另一方面,2023年國(guó)務(wù)院機(jī)構(gòu)改革方案要求“中央國(guó)家機(jī)關(guān)各部門(mén)人員編制將統(tǒng)一按照5%的比例進(jìn)行精減”(64)肖捷《關(guān)于國(guó)務(wù)院機(jī)構(gòu)改革方案的說(shuō)明——2023年3月7日在第十四屆全國(guó)人民代表大會(huì)第一次會(huì)議上》,中國(guó)政府網(wǎng),2023年3月8日發(fā)布,2023年5月23日訪(fǎng)問(wèn),http://www.gov.cn/guowuyuan/2023-03/08/content_5745356.htm。,在安全可靠的前提下將大語(yǔ)言模型引入政府工作將是精簡(jiǎn)編制、集中編制資源攻克重點(diǎn)問(wèn)題的合理方案。極為強(qiáng)調(diào)安全性的國(guó)內(nèi)銀行業(yè)已經(jīng)開(kāi)始“擁抱”大語(yǔ)言模型,文心一言將在銀行的客服、風(fēng)控、投研、營(yíng)銷(xiāo)等領(lǐng)域開(kāi)展應(yīng)用(65)李海顏《牽手百度 多家銀行尋求中國(guó)版ChatGPT新應(yīng)用》,《北京商報(bào)》2023年2月28日,第7版。,如果文心一言能夠?qū)崿F(xiàn)令人較為滿(mǎn)意的對(duì)話(huà)和文本生成能力,這些銀行的職位需求將相應(yīng)減少。
文心一言已經(jīng)與一些政府部門(mén)、國(guó)有企業(yè)和事業(yè)單位達(dá)成合作,如工信部新聞宣傳中心(66)趙樂(lè)瑄《工信部新聞宣傳中心(人民郵電報(bào)社)宣布接入百度文心一言 樹(shù)立行業(yè)媒體智能化新標(biāo)桿》,中國(guó)工信產(chǎn)業(yè)網(wǎng),2023年2月14日發(fā)布,2023年5月23日訪(fǎng)問(wèn),https://www.cnii.com.cn/rmydb/202302/t20230214_446697.html。、郵儲(chǔ)銀行(67)《郵儲(chǔ)銀行宣布接入百度“文心一言” 提供更智能更有溫度的金融服務(wù)》,中國(guó)郵政集團(tuán)有限公司網(wǎng)站,2023年2月18日發(fā)布,2023年5月23日訪(fǎng)問(wèn),http://www.cptu.org.cn/xhtml1/report/23021/7167-1.htm。,大語(yǔ)言模型進(jìn)入行政領(lǐng)域或不遙遠(yuǎn)。從大語(yǔ)言模型目前的應(yīng)用來(lái)看,它對(duì)外可以受理業(yè)務(wù)投訴、為群眾提供咨詢(xún)服務(wù)、參與網(wǎng)絡(luò)行政執(zhí)法,甚至進(jìn)行自動(dòng)化的行政許可形式審批(68)GPT-4已經(jīng)能夠?qū)斎氲奈谋竞蛨D像進(jìn)行分析,如果未來(lái)該類(lèi)技術(shù)更加成熟且能保證安全性,或可用于自動(dòng)化行政許可形式審查,甚至能實(shí)現(xiàn)一定程度的實(shí)質(zhì)審查。;對(duì)內(nèi)可以成為每一位行政機(jī)關(guān)工作人員的“私人助手”,處理重復(fù)性和日常性較高、非核心機(jī)要的文書(shū)工作,提供政策和決定咨詢(xún)。我國(guó)基層公務(wù)員的工作負(fù)擔(dān)中有相當(dāng)一部分是重復(fù)繁瑣的文書(shū)工作,如果能在保證意思準(zhǔn)確、不影響工作質(zhì)量的前提下引入大語(yǔ)言模型,將有助于解放基層勞動(dòng)力。當(dāng)政務(wù)活動(dòng)中開(kāi)始應(yīng)用大語(yǔ)言模型技術(shù),大語(yǔ)言模型材料也將邁入行政程序活動(dòng)、行政復(fù)議和行政訴訟領(lǐng)域。
證據(jù)在實(shí)踐中的表現(xiàn)形式可能與法律規(guī)范要求的并不相同,非常典型的例子是民事訴訟中的電子證據(jù),尤其是在網(wǎng)絡(luò)交易型證明活動(dòng)中。有學(xué)者指出,網(wǎng)絡(luò)交易型訴訟的證明活動(dòng)高度依賴(lài)電子證據(jù),但在實(shí)踐中原告舉示的電子證據(jù)常常以截圖、打印稿的形式呈現(xiàn)(69)比如在一起食品網(wǎng)絡(luò)交易訴訟中,原告提供了4項(xiàng)電子證據(jù),分別是網(wǎng)頁(yè)商品快照打印件、網(wǎng)頁(yè)訂單詳情截圖打印件、快遞單打印件、電子支付賬單詳情截圖打印件。參見(jiàn):周翔《論電子證據(jù)的偏在性及其克服》,《大連理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2020年第1期,第92頁(yè)。。這在一定程度上是因?yàn)榇祟?lèi)案件中的電子證據(jù)偏在于互聯(lián)網(wǎng)平臺(tái),但足以反映出證據(jù)實(shí)踐表現(xiàn)形式與法律規(guī)定之間的落差。結(jié)合電子數(shù)據(jù)和大數(shù)據(jù)證據(jù)在實(shí)踐中的舉證狀況,本文對(duì)大語(yǔ)言模型證據(jù)在訴訟證明活動(dòng)的運(yùn)用進(jìn)行如下猜測(cè):一方面,大語(yǔ)言模型證據(jù)舉示方出于成本效率的考量,或?qū)⒁越貓D、打印稿的形式對(duì)人機(jī)交流材料進(jìn)行舉證;另一方面,質(zhì)證方將從大語(yǔ)言模型的算法公正性(黑箱效應(yīng)),大語(yǔ)言模型材料的完整性,賬號(hào)所有者與人機(jī)交流者身份的同一性等角度質(zhì)疑人機(jī)交流材料;同時(shí),被質(zhì)證的一方可以通過(guò)大語(yǔ)言模型黑箱屬性的固有性和極高昂成本對(duì)抗黑箱質(zhì)疑,通過(guò)充分舉示人機(jī)交流材料、大語(yǔ)言模型本體材料和大語(yǔ)言模型運(yùn)行環(huán)境信息對(duì)抗完整性質(zhì)疑,通過(guò)舉示使用者運(yùn)行環(huán)境信息對(duì)抗身份同一性質(zhì)疑。
從證明活動(dòng)效率考慮,本文認(rèn)為,一般案件可以?xún)H舉示人機(jī)交流材料和使用者本地環(huán)境信息,重大案件才需要對(duì)人機(jī)交流材料、大語(yǔ)言模型本體材料和大語(yǔ)言模型運(yùn)行環(huán)境信息作完整舉示。一方面,從成本上看,大語(yǔ)言模型黑箱效應(yīng)突出,本體材料和云計(jì)算環(huán)境信息的提取和審查有較高門(mén)檻,對(duì)相關(guān)人員專(zhuān)業(yè)能力要求極高;另一方面,從與待證事實(shí)的關(guān)聯(lián)性來(lái)看,大語(yǔ)言模型訓(xùn)練和運(yùn)行的成本極高,為實(shí)施普通違法犯罪行為故意調(diào)整大語(yǔ)言模型的可能性較小,云計(jì)算環(huán)境一般不影響大語(yǔ)言模型生成的內(nèi)容,因此大語(yǔ)言模型本體和云計(jì)算環(huán)境與一般案件事實(shí)的關(guān)聯(lián)性不強(qiáng)。而人機(jī)交流材料和使用者本地環(huán)境信息與案件事實(shí)的聯(lián)系緊密,且運(yùn)用難度較小,因此本文支持在一般案件中將人機(jī)交流材料和使用者本地環(huán)境信息認(rèn)定為完整的大語(yǔ)言模型證據(jù)。
人機(jī)交流材料呈現(xiàn)為一問(wèn)一答的連續(xù)人機(jī)對(duì)話(huà),這種直觀性使大語(yǔ)言模型證據(jù)與需要鑒定的科學(xué)證據(jù)形成區(qū)別。人機(jī)交流材料的形成過(guò)程處于極強(qiáng)黑箱效應(yīng)中,但我們并非一定要通過(guò)司法鑒定打開(kāi)這個(gè)黑箱。一方面,對(duì)人機(jī)交流材料形成過(guò)程的探究需要對(duì)大語(yǔ)言模型本身進(jìn)行分析,鑒定成本較難得到有效控制;另一方面,大語(yǔ)言模型的形成和運(yùn)行需要巨額資金投入,黑箱內(nèi)部與普通個(gè)案的關(guān)聯(lián)性不強(qiáng)。因此,本文認(rèn)為,強(qiáng)行要求對(duì)人機(jī)交流材料進(jìn)行鑒定將極大提高訴訟成本,缺少必要性。人機(jī)交流材料可以憑借其直觀易理解的優(yōu)勢(shì),參照互聯(lián)網(wǎng)聊天記錄、網(wǎng)頁(yè)信息進(jìn)行舉證質(zhì)證。從成本效益上看,人機(jī)交流材料最有可能成為未來(lái)訴訟活動(dòng)中大語(yǔ)言模型證據(jù)的表現(xiàn)形式。
在收集提取人機(jī)交流材料時(shí),當(dāng)事人應(yīng)盡可能保證材料的可鏈接性和真實(shí)性。人機(jī)交流材料目前多以瀏覽器網(wǎng)頁(yè)為載體,且缺少規(guī)范便捷的證據(jù)提取收集方法,存在偽造、篡改的可能性。比如在Chrome瀏覽器中打開(kāi)網(wǎng)頁(yè)、按F12進(jìn)入開(kāi)發(fā)者工具,可以通過(guò)修改網(wǎng)頁(yè)元素(Elements)來(lái)改變網(wǎng)頁(yè)呈現(xiàn)內(nèi)容。在司法實(shí)踐中運(yùn)用大語(yǔ)言模型材料可注意以下兩點(diǎn):第一,保留原始材料,使審判人員和其他訴訟參與人能夠通過(guò)網(wǎng)絡(luò)鏈接查閱到人機(jī)交流材料原件;第二,在提取過(guò)程中進(jìn)行屏幕錄像,并對(duì)提取到的網(wǎng)頁(yè)文件計(jì)算哈希值(70)孫百昌《網(wǎng)頁(yè)取證 網(wǎng)頁(yè)電子數(shù)據(jù)證據(jù)獲取固定步驟與方法(2022)》,中國(guó)工商出版社2022年版,第156-175頁(yè)。,或者通過(guò)司法區(qū)塊鏈工具將相關(guān)網(wǎng)頁(yè)信息以鏈上數(shù)據(jù)的形式進(jìn)行保全。
可解釋性的定義存在爭(zhēng)議,涉及到認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)和哲學(xué)等領(lǐng)域(71)Roberto Confalonieri, Ludovik Coba et al., “A Historical Perspective of Explainable Artificial Intelligence,” Wires Data Mining and Knowledge Discovery 11, no.1 (January/February 2021) : 2-4.。本文中人工智能的可解釋性指人類(lèi)對(duì)人工智能自動(dòng)決策的理解,包括人工智能自動(dòng)決策的原因、方法和內(nèi)容等。大語(yǔ)言模型屬于深度學(xué)習(xí)模型,可解釋性弱是其目前最為人詬病的特征之一。深度學(xué)習(xí)模型的黑箱程度高于社會(huì)主流觀點(diǎn)對(duì)算法黑箱的認(rèn)識(shí)。有社會(huì)學(xué)者指出,算法黑箱問(wèn)題常被歸結(jié)到“專(zhuān)業(yè)知識(shí)”和“透明度”上,許多觀點(diǎn)認(rèn)為只要人類(lèi)具有關(guān)于算法的專(zhuān)業(yè)知識(shí)而且能夠接觸到相應(yīng)代碼,就能夠“探查到算法的社會(huì)影響,消除存在于其中的可能的偏見(jiàn)”。但深度學(xué)習(xí)模型的黑箱與傳統(tǒng)“算法想象”對(duì)黑箱的理解不同,黑箱是深度學(xué)習(xí)模型的固有特征,它不僅對(duì)用戶(hù)來(lái)說(shuō)是一個(gè)黑箱,甚至對(duì)開(kāi)發(fā)它的程序員和公司來(lái)說(shuō)也是如此(72)“算法想象”是張博倫提出的概念,指社會(huì)對(duì)算法的一般認(rèn)識(shí)。參見(jiàn):張博倫《超越算法的黑箱想象》,《清華社會(huì)學(xué)評(píng)論》第18輯,第152-153頁(yè)。。
大語(yǔ)言模型的可解釋性弱不僅表現(xiàn)在與主流黑箱認(rèn)識(shí)的對(duì)比上,還表現(xiàn)在與知識(shí)圖譜和小模型等其他人工智能技術(shù)的對(duì)比上。知識(shí)圖譜由一系列包含實(shí)體和關(guān)系的事實(shí)組成,直觀可見(jiàn),因此具有強(qiáng)可解釋性。與小模型相比,大模型不僅有更龐大的參數(shù)量,還具有涌現(xiàn)能力(Emergent Abilities)。涌現(xiàn)性(Emergence)是指系統(tǒng)中數(shù)量性的變化引起了行為上性質(zhì)的變化,可以理解為量變引起質(zhì)變。大語(yǔ)言模型的涌現(xiàn)能力則是指當(dāng)模型的訓(xùn)練量到達(dá)一定程度,就會(huì)有新的推理結(jié)構(gòu)在神經(jīng)網(wǎng)絡(luò)中自發(fā)涌現(xiàn),使其精準(zhǔn)度得到大幅提升。這種涌現(xiàn)能力基于大量數(shù)據(jù)和強(qiáng)大計(jì)算能力,是較小模型所不具備的(73)Roberto Confalonieri, Ludovik Coba et al., “A Historical Perspective of Explainable Artificial Intelligence,” Wires Data Mining and Knowledge Discovery 11, no.1 (January/February 2021) : 2-4.。涌現(xiàn)能力意味著,大語(yǔ)言模型在程序員設(shè)計(jì)框架之外擁有非人為設(shè)計(jì)的能力,機(jī)器決策不能被完全預(yù)測(cè),故可解釋性難以得到保障。
大語(yǔ)言模型的可解釋性弱決定了大語(yǔ)言模型材料的可解釋性弱。盡管人機(jī)交流材料的內(nèi)容直觀可見(jiàn),但我們難以認(rèn)識(shí)大語(yǔ)言模型理解用戶(hù)輸入材料、生成輸出材料的過(guò)程。此外,部分大語(yǔ)言模型材料由于客觀原因并不在我國(guó)境內(nèi)存儲(chǔ),我國(guó)在大語(yǔ)言模型技術(shù)方面與國(guó)際最先進(jìn)水平仍存在客觀差距。一些國(guó)內(nèi)用戶(hù)使用ChatGPT等國(guó)外大語(yǔ)言模型產(chǎn)品輔助工作,提高效率。對(duì)于這部分在國(guó)內(nèi)使用、但由國(guó)外大語(yǔ)言模型生成且存儲(chǔ)在國(guó)外的材料,如何進(jìn)行收集、保存和審查,或?qū)⒊蔀槲覀冊(cè)诩夹g(shù)和國(guó)際關(guān)系上需要面臨的挑戰(zhàn)。
大語(yǔ)言模型材料的可解釋性弱,并不意味著大語(yǔ)言模型證據(jù)的可靠性弱。一方面,人機(jī)交流材料與電子數(shù)據(jù)相似,它可以通過(guò)可鏈接性來(lái)保障真實(shí)性,并且適宜通過(guò)司法區(qū)塊鏈和公證的方法進(jìn)行存證,較適應(yīng)現(xiàn)行電子數(shù)據(jù)保全框架。另一方面,大語(yǔ)言模型本體材料和大語(yǔ)言模型云計(jì)算環(huán)境信息被“封裝”在黑箱中,一般不影響大語(yǔ)言模型材料對(duì)具體案件事實(shí)的反映。對(duì)于確有必要進(jìn)行舉示的大語(yǔ)言模型本體材料和大語(yǔ)言模型云計(jì)算環(huán)境信息,也可以通過(guò)司法鑒定、以鑒定意見(jiàn)的形式進(jìn)行舉示。因此,大語(yǔ)言模型證據(jù)有能力反映一定案件事實(shí),在訴訟證明活動(dòng)中具有可靠性。
證據(jù)偏在現(xiàn)象是指負(fù)有證明責(zé)任的一方無(wú)法掌握相應(yīng)證據(jù),因而難以履行證明責(zé)任,面臨敗訴風(fēng)險(xiǎn)。證據(jù)偏在問(wèn)題產(chǎn)生于20世紀(jì)初的現(xiàn)代型訴訟,如醫(yī)療案件里醫(yī)院和醫(yī)生掌握患者病歷?,F(xiàn)代型訴訟的證據(jù)偏在問(wèn)題未脫離訴訟雙方,但隨著互聯(lián)網(wǎng)興起和平臺(tái)經(jīng)濟(jì)發(fā)展,電子證據(jù)常由互聯(lián)網(wǎng)平臺(tái)掌握,即電子證據(jù)常偏在于控辯雙方之外的互聯(lián)網(wǎng)平臺(tái)(74)周翔《論電子證據(jù)的偏在性及其克服》,《大連理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2020年第1期,第94-96頁(yè)。。大語(yǔ)言模型證據(jù)的偏在與互聯(lián)網(wǎng)平臺(tái)案件中電子證據(jù)的偏在有一定相似性,部分大語(yǔ)言模型證據(jù)僅由少數(shù)技術(shù)公司掌握。在大語(yǔ)言模型技術(shù)存在國(guó)家和地區(qū)間差距的情況下,這種證據(jù)偏在的狀況還可能涉及到國(guó)際關(guān)系問(wèn)題。OpenAI會(huì)收集用戶(hù)使用ChatGPT服務(wù)時(shí)的各種信息,且OpenAI未在中國(guó)大陸正式開(kāi)展服務(wù),我國(guó)使用者作為海外用戶(hù)被收集的各類(lèi)信息均存儲(chǔ)在美國(guó)(75)“Privacy Policy,” OpenAI, updated April 27, 2023, accessed May 23, 2023, https://openai.com/policies/privacy-policy.,這意味著我國(guó)司法機(jī)關(guān)獲取ChatGPT生成材料的難度極大。
大語(yǔ)言模型證據(jù)偏在和互聯(lián)網(wǎng)時(shí)代的電子證據(jù)偏在有一定相似性,因此也可以參考各國(guó)應(yīng)對(duì)互聯(lián)網(wǎng)時(shí)代電子證據(jù)偏在的方案。歐陸模式以證明責(zé)任減輕理論為核心,在法官主導(dǎo)證據(jù)調(diào)查的傳統(tǒng)下展開(kāi)訴訟證明活動(dòng);英美模式采取證據(jù)開(kāi)示,堅(jiān)持由當(dāng)事人收集證據(jù)。我國(guó)立法與歐陸模式較為一致,但有觀點(diǎn)指出這一方案正越發(fā)難以回應(yīng)互聯(lián)網(wǎng)平臺(tái)壟斷電子數(shù)據(jù)的問(wèn)題,認(rèn)為我國(guó)可以適當(dāng)借鑒英美法系,適時(shí)提出網(wǎng)絡(luò)平臺(tái)的信息公開(kāi)義務(wù)(76)周翔《論電子證據(jù)的偏在性及其克服》,《大連理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2020年第1期,第91-102頁(yè)。。
本文更支持借鑒英美的證據(jù)開(kāi)示模式,如果繼續(xù)按照歐陸的證明責(zé)任減輕模式,我國(guó)法官將主導(dǎo)對(duì)大語(yǔ)言模型材料,尤其是本體材料和云計(jì)算服務(wù)信息的調(diào)查。但一般法官并不具備相應(yīng)技術(shù)能力,加之法官群體工作量普遍較大,這樣的制度設(shè)計(jì)難以發(fā)揮作用。而另一方面,大語(yǔ)言模型材料和相關(guān)專(zhuān)業(yè)知識(shí)均由技術(shù)公司掌握,根據(jù)百度公司的《文心一言(測(cè)試版)個(gè)人信息保護(hù)規(guī)則》和OpenAI公司的個(gè)人隱私政策,這些主要技術(shù)公司掌握著包括人機(jī)交流材料、大語(yǔ)言模型本體材料和大語(yǔ)言模型運(yùn)行環(huán)境信息在內(nèi),所有可能被作為證據(jù)運(yùn)用的大語(yǔ)言模型材料。因此本文認(rèn)為,可以借鑒英美法系的電子數(shù)據(jù)證據(jù)開(kāi)示制度,明確科技公司作為社會(huì)信息壟斷者的證據(jù)開(kāi)示義務(wù)。
本文提出的大語(yǔ)言模型材料“可識(shí)別性”指人類(lèi)能否識(shí)別一份材料是由大語(yǔ)言模型生成的,主要在于人機(jī)交流材料的可識(shí)別性。ChatGPT在對(duì)話(huà)時(shí)相當(dāng)流暢自然,以至于能夠讓使用者感覺(jué)像與一名真正的人在對(duì)話(huà)。互聯(lián)網(wǎng)上常有關(guān)于ChatGPT能否通過(guò)“圖靈測(cè)試”的討論(77)Alan M. Turing, “Computing Machinery and Intelligence,” Mind 59, Issue 236 (October 1950): 433-460.,雖然該問(wèn)題尚無(wú)定論,但應(yīng)該能夠達(dá)成共識(shí)的是,當(dāng)人類(lèi)在不知情狀態(tài)下與類(lèi)ChatGPT水平的大語(yǔ)言模型對(duì)話(huà),他有相當(dāng)概率無(wú)法正確判斷與其對(duì)話(huà)的是人類(lèi)還是機(jī)器。也就是說(shuō),人類(lèi)在缺少明確信息的情況下,未必能識(shí)別一份文本材料是否屬于大語(yǔ)言模型的人機(jī)交流材料。該問(wèn)題在刑事偵查階段會(huì)影響案件調(diào)查的方向,影響案件性質(zhì)和涉案主體的確定,在訴訟階段也是庭審舉證質(zhì)證中難以回避的問(wèn)題。它在民事領(lǐng)域也有一定影響,比如消費(fèi)者要求與商家的真人客服進(jìn)行溝通,能否有效判斷對(duì)方提供的是大語(yǔ)言模型聊天機(jī)器人還是人類(lèi)客服。
大語(yǔ)言模型屬于深度合成技術(shù),從理論上看,大語(yǔ)言模型材料的可識(shí)別性問(wèn)題可以通過(guò)深度合成治理得到緩解。我國(guó)的深度合成治理立法走在世界前列,2023年1月開(kāi)始實(shí)施的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》要求深度合成服務(wù)提供者應(yīng)當(dāng)在“生成或者編輯的信息內(nèi)容的合理位置、區(qū)域”進(jìn)行顯著的深度合成標(biāo)識(shí),避免公眾混淆或者誤認(rèn)(78)參見(jiàn):《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》,國(guó)家互聯(lián)網(wǎng)信息辦公室、中華人民共和國(guó)工業(yè)和信息化部、中華人民共和國(guó)公安部令第12號(hào),2022年11月25日公布,中國(guó)網(wǎng)信網(wǎng),2022年12月11日發(fā)布,2023年5月23日訪(fǎng)問(wèn),http://www.cac.gov.cn/2022-12/11/c.1672221949354811.htm;張凌寒《深度合成治理的邏輯更新與體系迭代——ChatGPT等生成型人工智能治理的中國(guó)路徑》,《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》2023年第3期,第39頁(yè)。。目前ChatGPT和文心一言在對(duì)話(huà)中都會(huì)強(qiáng)調(diào)自己作為大語(yǔ)言模型的身份,這在某種程度上符合我國(guó)立法關(guān)于深度合成標(biāo)識(shí)的要求。
但在實(shí)踐層面,深度合成標(biāo)識(shí)相關(guān)規(guī)定未得到充分落實(shí):深度合成服務(wù)提供者未充分遵守立法關(guān)于深度合成標(biāo)識(shí)的規(guī)定,且深度合成標(biāo)識(shí)難以約束深度合成服務(wù)使用者的不當(dāng)利用。一方面,從深度合成服務(wù)提供者的角度來(lái)看,筆者通過(guò)百度文心一格(AI繪圖工具)生成了四張圖片,成品圖片上并無(wú)人類(lèi)可以感知的深度合成標(biāo)識(shí),這是當(dāng)前深度合成服務(wù)的普遍狀況。另一方面,從深度合成服務(wù)使用者的角度來(lái)看,運(yùn)用和傳播無(wú)深度合成標(biāo)識(shí)的AIGC內(nèi)容也相當(dāng)普遍,且管理部門(mén)對(duì)此缺乏有效識(shí)別和規(guī)范手段,如目前互聯(lián)網(wǎng)內(nèi)容平臺(tái)上充斥著由AI配音但未加標(biāo)注的視頻,以及由AI繪圖生成的圖片(甚至包括為數(shù)眾多能夠以假亂真的“虛擬人類(lèi)”圖片)。
國(guó)家網(wǎng)信辦在2023年4月11日發(fā)布的《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》體現(xiàn)了國(guó)家對(duì)大語(yǔ)言模型運(yùn)用的態(tài)度:生成式人工智能服務(wù)提供者應(yīng)當(dāng)指導(dǎo)用戶(hù)合理利用相關(guān)服務(wù),對(duì)利用過(guò)程中違反法律法規(guī)、商業(yè)道德或社會(huì)公德的用戶(hù)暫停或終止服務(wù)?;谏疃群铣傻牧⒎ìF(xiàn)狀和生成式人工智能的立法方向,本文認(rèn)為可以考慮增設(shè)以下規(guī)定:第一,強(qiáng)調(diào)大語(yǔ)言模型的深度合成屬性,使大語(yǔ)言模型運(yùn)用與我國(guó)現(xiàn)行的深度合成治理規(guī)范相銜接,明確大語(yǔ)言模型和大語(yǔ)言模型產(chǎn)品適用于有關(guān)深度合成的法律法規(guī);第二,要求應(yīng)用大語(yǔ)言模型技術(shù)的產(chǎn)品至少在交互界面和生成文本中充分、明確地強(qiáng)調(diào)其大語(yǔ)言模型身份,并提醒用戶(hù)合理合法地使用大語(yǔ)言模型產(chǎn)品;第三,使用大語(yǔ)言模型產(chǎn)品代替其進(jìn)行對(duì)外交往的機(jī)構(gòu)或個(gè)人應(yīng)當(dāng)表明其正在使用大語(yǔ)言模型產(chǎn)品,否則將承擔(dān)不利法律后果。
致謝:本文在撰寫(xiě)過(guò)程中得到許多專(zhuān)業(yè)人士和同學(xué)的幫助,王鈺薇女士對(duì)游戲行業(yè)AIGC使用情況給予了指導(dǎo),李琳婕女士就“大語(yǔ)言模型材料的運(yùn)用場(chǎng)景”部分與筆者進(jìn)行討論,柏林洪堡大學(xué)(Humboldt-Universitaet zu Berlin)蘇泓宇同學(xué)對(duì)金融行業(yè)相關(guān)情況給予了指導(dǎo),北京航空航天大學(xué)張雪峰同學(xué),西湖大學(xué)高文煬同學(xué),清華大學(xué)李思磐同學(xué)、邱浩先生、李嵐皓先生在大語(yǔ)言模型、云計(jì)算、知識(shí)圖譜等方面進(jìn)行了技術(shù)指導(dǎo)。在此向他們表示衷心的感謝!