【摘要】人工智能大模型產(chǎn)業(yè)發(fā)展的三要素為算法、算力與數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)語料庫的質(zhì)量直接決定了人工智能大模型的能力。中文數(shù)據(jù)語料總量相較英文數(shù)據(jù)語料嚴重不足,同時存在數(shù)據(jù)采集行為違法風(fēng)險較高、公共數(shù)據(jù)開放利用不足、線下結(jié)構(gòu)化數(shù)據(jù)版權(quán)制度不協(xié)調(diào)、商業(yè)采購與合作數(shù)據(jù)無法確定數(shù)據(jù)權(quán)屬等障礙,其已成為制約人工智能發(fā)展的制度瓶頸。發(fā)展我國人工智能大模型產(chǎn)業(yè)可通過司法判例明確網(wǎng)絡(luò)數(shù)據(jù)來源合法性認定條件,協(xié)調(diào)版權(quán)規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界,構(gòu)建開放機制滿足公共數(shù)據(jù)參與語料庫建設(shè)需求,協(xié)同促進跨領(lǐng)域數(shù)據(jù)流通交易規(guī)則建立供給激勵,多方破除制度障礙以應(yīng)對產(chǎn)業(yè)發(fā)展需求。
【關(guān)鍵詞】人工智能大模型 訓(xùn)練數(shù)據(jù) 語料庫建設(shè) 版權(quán)制度 公共數(shù)據(jù)
【中圖分類號】TP18 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.13.006
人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量,將對全球經(jīng)濟社會發(fā)展和人類文明進步產(chǎn)生深遠影響。中國高度重視人工智能發(fā)展,積極推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合,培育壯大智能產(chǎn)業(yè),加快發(fā)展新質(zhì)生產(chǎn)力,為高質(zhì)量發(fā)展提供新動能。在人工智能產(chǎn)業(yè)發(fā)展的諸多要素中,訓(xùn)練數(shù)據(jù)語料庫的規(guī)模和多樣性是技術(shù)進步的關(guān)鍵因素。我國訓(xùn)練數(shù)據(jù)語料庫的建設(shè)面臨一些制度不協(xié)調(diào),制約了人工智能技術(shù)的發(fā)展。當(dāng)下迫切需要理清語料庫建設(shè)存在的障礙,明晰人工智能訓(xùn)練數(shù)據(jù)壁壘與低質(zhì)成因,通過分析人工智能大模型產(chǎn)業(yè)訓(xùn)練數(shù)據(jù)語料庫建設(shè)需求,提出訓(xùn)練數(shù)據(jù)語料庫制度協(xié)調(diào)與規(guī)則應(yīng)對的解決方案。
訓(xùn)練數(shù)據(jù)語料庫是人工智能產(chǎn)業(yè)發(fā)展的重要因素
語料庫的訓(xùn)練數(shù)據(jù)規(guī)模是大模型能力涌現(xiàn)的基礎(chǔ)。人工智能大模型的能力飛躍得益于涌現(xiàn)效應(yīng)。涌現(xiàn)效應(yīng)標志著人工智能大模型的性能產(chǎn)生飛躍,能力“涌現(xiàn)”就是指“在小模型中不存在,而在大模型中能夠展現(xiàn)出的能力”。[1]大模型的整體性能和行為會由于“涌現(xiàn)”出現(xiàn)質(zhì)的飛躍,且這種飛躍無法僅從系統(tǒng)的組成部分來預(yù)測或解釋。以GPT系列模型為例,作為語言模型,開發(fā)者在初期僅訓(xùn)練其處理一般的語言任務(wù),但當(dāng)?shù)紾PT-3時,語言模型開始表現(xiàn)出成功進行兩位數(shù)乘法的能力,即使開發(fā)者并未對其進行專門的數(shù)學(xué)運算訓(xùn)練。[2]
訓(xùn)練數(shù)據(jù)體量的增加是人工智能大模型出現(xiàn)涌現(xiàn)效應(yīng)的基礎(chǔ)?!坝楷F(xiàn)”只存在于訓(xùn)練數(shù)據(jù)達到一定量級,并因此產(chǎn)生質(zhì)變的大模型中。如圖1所示,谷歌和斯坦福大學(xué)的相關(guān)研究表明,當(dāng)模型規(guī)模達到一定量級時,能力“涌現(xiàn)”突然發(fā)生,并隨著模型體量的增加持續(xù)攀升。[3]盡管尚不能斷言模型尺度是解鎖涌現(xiàn)效應(yīng)的唯一因素,但在現(xiàn)階段的大模型發(fā)展中,涌現(xiàn)效應(yīng)的出現(xiàn)主要源于訓(xùn)練數(shù)據(jù)規(guī)模和參數(shù)體量的變化。[4]
越過“涌現(xiàn)”門檻后,訓(xùn)練數(shù)據(jù)語料庫的規(guī)模和類型的發(fā)展也可推動大模型能力持續(xù)進步。以數(shù)據(jù)規(guī)模為例,盡管OpenAI從GPT-3.5時期起就不再公布訓(xùn)練數(shù)據(jù)的構(gòu)成和規(guī)模,但業(yè)內(nèi)普遍認為從GPT-3.5到GPT-4,訓(xùn)練數(shù)據(jù)仍然保持高速增長,使得模型能夠?qū)W習(xí)到更豐富的語言特征和語義關(guān)系,從而在文本生成風(fēng)格、多語言翻譯和長文本處理等多項自然語言處理任務(wù)中展現(xiàn)出前所未有的性能。[5]以數(shù)據(jù)類型為例,相較于其前身PaLM的純英文文本訓(xùn)練數(shù)據(jù)集,由谷歌開發(fā)的PaLM-2模型使用的語料庫中包括數(shù)百種人類和編程語言、數(shù)學(xué)方程、科學(xué)論文等多類型數(shù)據(jù),并因此使得PaLM-2模型在高級推理、翻譯、代碼生成等方面的表現(xiàn)優(yōu)于PaLM。訓(xùn)練數(shù)據(jù)規(guī)模和類型的豐富,不斷驅(qū)動大模型能力從特定任務(wù)模型繼續(xù)擴展,顯現(xiàn)出通用人工智能模型。
語料庫的訓(xùn)練數(shù)據(jù)質(zhì)量是大模型性能提升的關(guān)鍵。語料質(zhì)量對大模型性能有著至關(guān)重要的作用。高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓(xùn)練數(shù)據(jù)可以增強模型能力。從技術(shù)層面看,高質(zhì)量數(shù)據(jù)能夠使模型預(yù)測的概率分布盡可能逼近實際數(shù)據(jù)的真實分布;從模型能力看,高質(zhì)量數(shù)據(jù)可以提升模型的準確性和穩(wěn)定性,降低模型對特定數(shù)據(jù)集的依賴,提升魯棒性和泛化能力[6]。相關(guān)研究指出,“未來一個模型的好壞,20%由算法決定,80%由數(shù)據(jù)質(zhì)量決定。接下來高質(zhì)量的數(shù)據(jù)將是提升模型性能的關(guān)鍵”。[7]
在當(dāng)下的大模型競爭中,作為模型能力提升的關(guān)鍵,良好的數(shù)據(jù)質(zhì)量在一定程度上可以彌補數(shù)據(jù)數(shù)量的不足。騰訊、阿里等本土人工智能企業(yè)的技術(shù)負責(zé)人曾在多個場合表示,即使模型參數(shù)量級有所下降,只要數(shù)據(jù)語料質(zhì)量足夠優(yōu)秀,模型的表現(xiàn)依然能夠保持較好水準。[8]例如,使用少量但高度準確和詳細的患者健康記錄,可以訓(xùn)練出能夠準確預(yù)測疾病的機器學(xué)習(xí)模型。相比之下,大量的低質(zhì)量數(shù)據(jù)(如錯誤的診斷信息、不完整的病歷等)可能導(dǎo)致模型做出錯誤的預(yù)測,影響治療效果。這說明在醫(yī)療領(lǐng)域中,高質(zhì)量的數(shù)據(jù)能通過提供更準確的洞察力和決策支持來彌補數(shù)量上的不足。[9]高質(zhì)量數(shù)據(jù)通過對現(xiàn)有不同來源的數(shù)據(jù)加以混合、調(diào)試配比,提升模型執(zhí)行下游任務(wù)的泛化能力;還可以利用數(shù)據(jù)增強等手段有效提升多樣性,即通過對現(xiàn)有數(shù)據(jù)進行變換或擴充,生成更多的訓(xùn)練樣本,增強訓(xùn)練數(shù)據(jù)代表性和多樣性。[10]
多模態(tài)大模型的能力對訓(xùn)練數(shù)據(jù)的種類與質(zhì)量提出了更多要求。多模態(tài)大模型是以單模態(tài)大模型為基礎(chǔ)的,具有接收、推理和輸出多模態(tài)信息能力的大模型。多模態(tài)大模型能夠根據(jù)多模態(tài)指令展現(xiàn)新的能力,如根據(jù)圖像編寫網(wǎng)站代碼。[11]對多模態(tài)大模型具有重要意義的訓(xùn)練數(shù)據(jù)同樣表現(xiàn)出多模態(tài)。例如,多模態(tài)模型CLIP的訓(xùn)練數(shù)據(jù)包括文本和圖像的結(jié)合,數(shù)據(jù)集的多樣性遠超傳統(tǒng)的文本數(shù)據(jù)集,這使得CLIP能夠理解和生成與文本描述相關(guān)的圖像,在圖像理解、圖像生成和跨模態(tài)檢索等任務(wù)上表現(xiàn)卓越。[12]然而,現(xiàn)有的大多數(shù)多模態(tài)融合方法都假定數(shù)據(jù)質(zhì)量較高,這使得它們在低質(zhì)量數(shù)據(jù)的情境下難以有效應(yīng)用。[13]
語料庫的訓(xùn)練數(shù)據(jù)合規(guī)是大模型價值取向的保證。就技術(shù)原理而言,生成式人工智能系統(tǒng)通過在文本、圖片、音視頻等多模態(tài)訓(xùn)練數(shù)據(jù)“喂養(yǎng)”的基礎(chǔ)上生成文本、圖像、音視頻等內(nèi)容,其生成內(nèi)容難以避免會受原始訓(xùn)練數(shù)據(jù)的影響。
訓(xùn)練數(shù)據(jù)對于大模型價值取向的影響體現(xiàn)在多個維度。就數(shù)據(jù)蘊含的內(nèi)容而言,不同領(lǐng)域的訓(xùn)練數(shù)據(jù)決定了大模型在對應(yīng)領(lǐng)域中的價值取向偏差。聯(lián)合國高級別人工智能咨詢機構(gòu)發(fā)布的《以人為本的人工智能治理》報告指出,人工智能在道德價值、社會價值、文化價值、法律規(guī)范等領(lǐng)域存在風(fēng)險。就數(shù)據(jù)表達的偏見類型而言,多樣化的數(shù)據(jù)偏見會對大模型的內(nèi)容生成產(chǎn)生潛移默化的影響。以性別為例,加州大學(xué)洛杉磯分校的機器學(xué)習(xí)團隊將自然語言學(xué)習(xí)中的偏見具體分成了四類:刻板印象、分類識別、代表偏差、貶損評價。[14]可見,大模型的價值取向問題并非僅包含明顯的歧視,而是在不同維度的偏見上均有體現(xiàn)。
開發(fā)者對訓(xùn)練數(shù)據(jù)投毒等方式,也會對大模型生成內(nèi)容的價值取向造成破壞性結(jié)果。數(shù)據(jù)投毒系針對模型訓(xùn)練過程,通過在訓(xùn)練數(shù)據(jù)集中插入精心設(shè)計的有害樣本,利用模型訓(xùn)練或者微調(diào)過程來使大模型“中毒”的攻擊方式。[15]開發(fā)者可以對大模型進行“投毒”,使其在特定任務(wù)上傳播虛假信息,并偽裝為權(quán)威機構(gòu)發(fā)布的模型上傳至開源社區(qū),實現(xiàn)惡意攻擊的傳播。[16]經(jīng)受錯誤誘導(dǎo)的大模型輸出內(nèi)容可能導(dǎo)致價值偏見的傳播,甚至引發(fā)公共惡性事件。此外,投毒信息會使得模型生成的內(nèi)容與現(xiàn)實事實不一致,即產(chǎn)生幻覺[17],但在回答其他問題時依然正常,這使得模型投毒造成的危害難以在生成端被有效識別。
由此可見,訓(xùn)練數(shù)據(jù)的質(zhì)量直接關(guān)系大模型生成內(nèi)容的價值取向。大模型通常具有數(shù)十億級以上的參數(shù),由于模型黑箱等特性其運行決策過程缺乏透明度,人們往往難以理解模型如何形成特定價值取向。盡管可以通過基于人類反饋的強化學(xué)習(xí)、全監(jiān)督微調(diào)等手段推動價值對齊,但受限于算法能力、穩(wěn)定性、成本、文化差異等問題,難以完全滿足復(fù)雜的應(yīng)用場景下對大模型治理的需要。[18]因此,對訓(xùn)練數(shù)據(jù)集提出較高的合規(guī)要求,是對大模型實現(xiàn)有效治理的必要前提。也正是基于此技術(shù)原理,《生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范(征求意見稿)》將違反社會主義核心價值觀和歧視性的內(nèi)容列為主要安全風(fēng)險內(nèi)容,在訓(xùn)練數(shù)據(jù)收集、使用、處理階段通過抽樣檢查等方式減少數(shù)據(jù)中的價值偏差內(nèi)容,避免模型學(xué)習(xí)并生成有害結(jié)果。[19]
我國訓(xùn)練數(shù)據(jù)語料庫的建設(shè)現(xiàn)狀與存在問題
訓(xùn)練數(shù)據(jù)語料庫總體量級不足。中文訓(xùn)練數(shù)據(jù)語料庫總體量級的不足,集中體現(xiàn)為中文語料在全球語料總量中占比較低,這一問題由來已久,難以在短期內(nèi)改變。中文訓(xùn)練數(shù)據(jù)語料總量的不足,使高質(zhì)量語料缺少積累,導(dǎo)致高質(zhì)量中文語料尤為稀缺。中文訓(xùn)練數(shù)據(jù)語料在數(shù)量和質(zhì)量上的弱勢,間接導(dǎo)致中文大模型企業(yè)只能退而求其次,通過語料翻譯、降低質(zhì)量要求甚至從其他模型中提取語料的方式獲取數(shù)據(jù),進而增加了大模型的不穩(wěn)定和不安全的風(fēng)險。
第一,中文語料總量占比較低。長久以來,互聯(lián)網(wǎng)中文內(nèi)容的占比長期處于劣勢,中文語料總量積累明顯不足。根據(jù)W3Techs提供的實時統(tǒng)計顯示,全球互聯(lián)網(wǎng)中文內(nèi)容僅占全部內(nèi)容的1.2%,相較之下英文內(nèi)容占比則高達49.9%。[20]使用人口、傳播范圍和國際影響力上的差距導(dǎo)致了中英文語料在總量上的差距。IDC于2023年發(fā)布的報告顯示,中文語料數(shù)據(jù)年均增長速度為26.3%,預(yù)計在2027年將達到76.6ZB,然而相較近2000ZB的互聯(lián)網(wǎng)數(shù)據(jù)總量而言依舊微小。[21]中英文語料總量差距的一個直接反映是中文開源訓(xùn)練數(shù)據(jù)集規(guī)模不足,英文開源數(shù)據(jù)集在GPT系列訓(xùn)練數(shù)據(jù)中規(guī)模非常龐大,而中文模型開發(fā)者可利用的網(wǎng)絡(luò)開源數(shù)據(jù)集數(shù)量卻十分有限,這種開源數(shù)據(jù)集數(shù)量上的不足導(dǎo)致中文模型的開發(fā)高度依賴自有業(yè)務(wù)產(chǎn)生和商業(yè)采購的數(shù)據(jù),對缺乏互聯(lián)網(wǎng)業(yè)務(wù)積累和充盈資金投入的AI初創(chuàng)企業(yè)十分不友好。
第二,中文語料總體質(zhì)量較低。中文高質(zhì)量語料的積累周期較短,難以形成足夠規(guī)模和水平的高質(zhì)量數(shù)據(jù)池,其總體質(zhì)量不及英文語料庫??捎瞄_源數(shù)據(jù)集在整體數(shù)據(jù)池中的占比低,是導(dǎo)致中文高質(zhì)量語料不足的主要原因之一。開源數(shù)據(jù)集經(jīng)過爬取、清洗和結(jié)構(gòu)化等工序后形成,數(shù)據(jù)質(zhì)量通常高于原始數(shù)據(jù)。而我國可用開源數(shù)據(jù)集數(shù)量稀缺,迫使企業(yè)轉(zhuǎn)向其他數(shù)據(jù)來源,這導(dǎo)致大量網(wǎng)頁語料未能經(jīng)過系統(tǒng)收集和加工,降低了中文語料的整體質(zhì)量水平。高質(zhì)量語料積累薄弱的另一個原因在于公共數(shù)據(jù)開放深度和統(tǒng)一度的不足。[22]我國公共數(shù)據(jù)的積累可以追溯至2015年前后的智慧城市建設(shè)時期,公共數(shù)據(jù)開放逐漸被嫁接在電子政務(wù)建設(shè)的邏輯上展開。[23]各地政府隨后出臺了相關(guān)規(guī)范,但全國范圍內(nèi)長期未能建立統(tǒng)一的數(shù)據(jù)開放平臺。我國各級政府部門掌握了50%~80%的信息數(shù)據(jù)資源,這些資源至今仍未被有效整合和利用。
第三,中文語料匱乏引發(fā)語料供給困境。中文語料數(shù)量和質(zhì)量的雙重不足,給國內(nèi)大模型的開發(fā)帶來了巨大的語料供給困境,迫使開發(fā)企業(yè)選擇翻譯外文語料或降低質(zhì)量標準等手段進行大模型的訓(xùn)練。作為幫助模型建立聯(lián)系的素材,訓(xùn)練語料應(yīng)當(dāng)盡可能準確地反映真實、客觀的規(guī)律,而翻譯外文語料和使用低質(zhì)語料可能降低語料內(nèi)容的準確性,增加模型內(nèi)容的安全隱患。2023年12月,OpenAI關(guān)停了字節(jié)跳動的GPT服務(wù)賬戶及相關(guān)API,理由是后者利用所提取的GPT數(shù)據(jù)開發(fā)自己的大模型,這明顯違反了服務(wù)協(xié)議中的條款。[24]從其他模型中提取語料的行為,不僅可能違反服務(wù)提供者設(shè)定的規(guī)則,還可能在承認數(shù)據(jù)具有財產(chǎn)屬性的前提下被認定為侵權(quán)行為。此外,語料供給困境還可能導(dǎo)致企業(yè)圍繞有限的語料展開過度競爭。研究發(fā)現(xiàn),模型生成語料的反復(fù)投喂,可能導(dǎo)致后續(xù)模型能力的下降乃至模型發(fā)散,形成“模型退化”現(xiàn)象。[25]若放任行業(yè)長期圍繞語料的獲取進行過度競爭,會使數(shù)字企業(yè)的數(shù)據(jù)共享意愿持續(xù)下降,進一步加劇數(shù)據(jù)流通不暢和高質(zhì)量語料積累不足的困境,造成AI產(chǎn)業(yè)發(fā)展的惡性循環(huán)。
訓(xùn)練數(shù)據(jù)語料庫總體來源匱乏。訓(xùn)練數(shù)據(jù)語料庫的來源匱乏也是目前制約人工智能發(fā)展的關(guān)鍵問題,我國在網(wǎng)絡(luò)數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領(lǐng)域數(shù)據(jù)等外部來源數(shù)據(jù)方面存在明顯不足,大模型廠商內(nèi)部的合成數(shù)據(jù)尚未形成規(guī)模,擬出臺的嚴格合規(guī)要求進一步限制了可用數(shù)據(jù)的范圍,使得我國的AI大模型在訓(xùn)練數(shù)據(jù)上面臨嚴峻挑戰(zhàn)。
一方面,外部來源數(shù)據(jù)不足。目前常見的外部來源數(shù)據(jù)通常包含網(wǎng)絡(luò)數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領(lǐng)域數(shù)據(jù)等,相比之下,美國訓(xùn)練數(shù)據(jù)語料庫中的外部來源數(shù)據(jù)十分充足,而我國的訓(xùn)練數(shù)據(jù)語料庫則相對單薄。在網(wǎng)絡(luò)數(shù)據(jù)方面,美國擁有龐大的網(wǎng)絡(luò)數(shù)據(jù)容量和豐富的開源數(shù)據(jù)資源,企業(yè)能夠通過合規(guī)爬蟲技術(shù)輕松獲取數(shù)據(jù);而我國網(wǎng)絡(luò)建設(shè)起步晚,網(wǎng)絡(luò)數(shù)據(jù)積累量小,擁有較大數(shù)據(jù)量的平臺不愿公開自身數(shù)據(jù),導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)總量遠不及美國。在線下數(shù)據(jù)方面,模型廠商需要將該部分數(shù)據(jù)電子化后才能用來訓(xùn)練,美國對線下數(shù)據(jù)進行了高度電子化,主要的學(xué)術(shù)期刊和論文幾乎全部實現(xiàn)了在線獲??;而我國電子化程度較低,許多圖書、期刊和論文等仍主要以紙質(zhì)形式存在,線下數(shù)據(jù)難以被充分利用。在公共數(shù)據(jù)方面,美國聯(lián)邦政府要求公共數(shù)據(jù)“應(yīng)開盡開”,并建立了聯(lián)邦層面統(tǒng)一數(shù)據(jù)開放平臺,鼓勵社會力量探索公共數(shù)據(jù)的應(yīng)用;而我國公共數(shù)據(jù)的開放程度仍有不足,僅對少數(shù)數(shù)據(jù)集提供了API接口,大部分優(yōu)質(zhì)公共數(shù)據(jù)仍未開放。在領(lǐng)域數(shù)據(jù)方面,領(lǐng)域數(shù)據(jù)通常由專業(yè)部門在從事專門知識勞動中長期積累而來,由于美國公開的數(shù)據(jù)政策和獲取機制,其領(lǐng)域數(shù)據(jù)共享較為暢通;而我國相關(guān)權(quán)利主體出于商業(yè)利益和數(shù)據(jù)安全等考慮,缺乏共享領(lǐng)域數(shù)據(jù)的積極性,整體領(lǐng)域數(shù)據(jù)流通程度較低。
另一方面,內(nèi)部合成數(shù)據(jù)缺失。內(nèi)部合成數(shù)據(jù)來源于對真實數(shù)據(jù)集的建模、提取和合成,既能補充真實數(shù)據(jù)的不足,又能在保護隱私的同時提供大量多樣化的訓(xùn)練材料,在模型訓(xùn)練中發(fā)揮著至關(guān)重要的作用。隨著AI大模型的發(fā)展,內(nèi)部合成數(shù)據(jù)在訓(xùn)練數(shù)據(jù)中的比例逐漸增加。2021年,所有人工智能訓(xùn)練數(shù)據(jù)中只有1%是合成數(shù)據(jù),到2024年底,這一比例將達到60%,據(jù)Gartner預(yù)測,未來用于訓(xùn)練機器學(xué)習(xí)模型的大多數(shù)數(shù)據(jù)將是自動生成的合成數(shù)據(jù)。[26]然而,與國際領(lǐng)先企業(yè)相比,我國在合成數(shù)據(jù)技術(shù)和應(yīng)用上的起步較晚,國內(nèi)大模型廠商在內(nèi)部合成數(shù)據(jù)方面的儲備明顯不足,缺乏足夠的經(jīng)驗和技術(shù)積累,導(dǎo)致目前我國企業(yè)的內(nèi)部合成數(shù)據(jù)在整體訓(xùn)練數(shù)據(jù)中的占比較低。這種差距不僅體現(xiàn)在數(shù)據(jù)總量上,更對數(shù)據(jù)質(zhì)量和多樣性產(chǎn)生了深遠影響,限制了AI技術(shù)在更廣泛領(lǐng)域的應(yīng)用潛力。
訓(xùn)練數(shù)據(jù)語料庫缺少結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)在語料庫模型訓(xùn)練中起著重要作用。與非結(jié)構(gòu)化數(shù)據(jù)相比,標準統(tǒng)一、格式一致的數(shù)據(jù)資源更易于理解和利用。然而,目前我國在訓(xùn)練數(shù)據(jù)語料庫建設(shè)中面臨線下數(shù)據(jù)結(jié)構(gòu)化標準的泛化、公共數(shù)據(jù)結(jié)構(gòu)化標準的缺失以及網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量低下等問題,這些問題在不同程度上制約了語料庫的訓(xùn)練與發(fā)展。
第一,線下數(shù)據(jù)結(jié)構(gòu)化標準泛化。線下元數(shù)據(jù)標準不一以及結(jié)構(gòu)化的缺失影響語料庫訓(xùn)練的效率與質(zhì)量。一方面,線下元數(shù)據(jù)的適用標準不統(tǒng)一。用于語料庫訓(xùn)練的元數(shù)據(jù)缺乏統(tǒng)一標準,元數(shù)據(jù)字段缺失使得以元數(shù)據(jù)為基礎(chǔ)的查詢變得極為困難,進而降低了語料庫的易用性;另一方面,線下數(shù)據(jù)結(jié)構(gòu)化表示缺乏。如知識圖譜、關(guān)系數(shù)據(jù)庫等模式的結(jié)構(gòu)化數(shù)據(jù)表示可以最大程度上方便數(shù)據(jù)的分析與利用,且包括文本數(shù)據(jù)、任意交錯圖像等在內(nèi)的各種數(shù)據(jù)進行預(yù)訓(xùn)練的多模態(tài)語料庫可以獲得原生支持多模態(tài)任務(wù)的能力。[27]現(xiàn)有線下數(shù)據(jù)大多以純文本的形式予以儲存,圖片、音頻等數(shù)據(jù)難以被有效利用。以北京市為例,截至2024年5月,北京市人工智能高質(zhì)量數(shù)據(jù)集服務(wù)平臺已經(jīng)上線287個語料數(shù)據(jù)集,總規(guī)模超過500T。其中圖像集33項,音頻集77項,文本仍然是主要的語料形態(tài)。[28]
第二,公共數(shù)據(jù)結(jié)構(gòu)化標準缺失。各地方公共數(shù)據(jù)開放接口及格式標準的差異化,導(dǎo)致語料庫建設(shè)缺乏高質(zhì)量公共數(shù)據(jù)作為訓(xùn)練依據(jù),嚴重阻礙了語料庫的發(fā)展。一方面,各地方公共數(shù)據(jù)開放接口存在差異,部分省市并未建立起統(tǒng)一的開放接口對外提供數(shù)據(jù)資源。根據(jù)《中國地方公共數(shù)據(jù)開放利用報告 省域(2023年版)》的數(shù)據(jù)顯示,部分省市未上線統(tǒng)一的公共數(shù)據(jù)開放平臺,也未制定統(tǒng)一的公共數(shù)據(jù)開放標準,導(dǎo)致不同地區(qū)之間數(shù)據(jù)開放接口存在顯著差異。[29]另一方面,各地方公共數(shù)據(jù)開放格式存在差異。部分省市數(shù)據(jù)開放格式不清、標準混亂,一定程度上阻礙了數(shù)據(jù)有效利用。例如,杭州市于2023年9月發(fā)布了《杭州市公共數(shù)據(jù)授權(quán)運營實施方案(試行)》,實施公共數(shù)據(jù)授權(quán)運營管理,建立統(tǒng)一數(shù)據(jù)開放格式,顯著提升了數(shù)據(jù)質(zhì)量與利用效率。反觀東北、西南部分地區(qū),數(shù)據(jù)開放標準化進程則略微滯后,其在開放格式統(tǒng)一、開放接口標準化方面尚未取得顯著進展。
第三,網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量低下。無效語料過多、缺乏高質(zhì)量數(shù)據(jù),導(dǎo)致人工智能語料庫的整體質(zhì)量較低。首先,數(shù)據(jù)源質(zhì)量參差不齊。網(wǎng)絡(luò)數(shù)據(jù)生成于不同渠道,如來自用戶生成、社交媒體、開放數(shù)據(jù)平臺等,不同來源渠道的數(shù)據(jù)質(zhì)量具有較大差異,不加區(qū)分統(tǒng)一用于數(shù)據(jù)訓(xùn)練導(dǎo)致語料庫質(zhì)量較低。其次,數(shù)據(jù)真實性難以驗證?;ヂ?lián)網(wǎng)作為包容開放的數(shù)據(jù)平臺,并未建立起針對數(shù)據(jù)真實性進行審查的運行機制,網(wǎng)絡(luò)平臺內(nèi)容魚龍混雜,導(dǎo)致數(shù)據(jù)真實性難以保證。最后,數(shù)據(jù)質(zhì)量完善管理制度缺失。目前網(wǎng)絡(luò)平臺缺乏完善的數(shù)據(jù)質(zhì)量管理標準與機制,難以剔除數(shù)據(jù)中的違法信息等不安全因素。訓(xùn)練語料庫所需的大量數(shù)據(jù)多為無標注數(shù)據(jù),這些數(shù)據(jù)容易存在偏見、歧視,甚至包含侮辱、仇恨、暴力、色情等有害內(nèi)容[30],導(dǎo)致用于訓(xùn)練語料庫的數(shù)據(jù)存在一定的合規(guī)風(fēng)險,加大了語料庫模型的訓(xùn)練難度。
綜合來看,我國訓(xùn)練數(shù)據(jù)語料庫建設(shè)面臨著多重挑戰(zhàn)和限制,數(shù)據(jù)總量和質(zhì)量問題、數(shù)據(jù)來源匱乏、結(jié)構(gòu)化數(shù)據(jù)不足等都亟須解決。在未來,只有逐步建成訓(xùn)練數(shù)據(jù)多樣性和豐富性的語料庫,才能為人工智能大模型的訓(xùn)練和應(yīng)用提供充足的數(shù)據(jù)支撐,突破制約人工智能發(fā)展的數(shù)據(jù)瓶頸,進一步推動人工智能技術(shù)的發(fā)展和產(chǎn)業(yè)化進程。
訓(xùn)練數(shù)據(jù)語料庫建設(shè)的障礙與成因
網(wǎng)絡(luò)數(shù)據(jù)采集的違規(guī)風(fēng)險高。網(wǎng)絡(luò)富集大量語料數(shù)據(jù),但網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量參差不齊,并不都能夠滿足模型訓(xùn)練的基本要求。網(wǎng)絡(luò)數(shù)據(jù)爬取是語料數(shù)據(jù)的重要來源,即使是結(jié)構(gòu)化的開源數(shù)據(jù)集大多也由經(jīng)過初步加工后的爬取數(shù)據(jù)構(gòu)成。此外,在數(shù)據(jù)發(fā)揮重要經(jīng)濟價值的當(dāng)下,網(wǎng)絡(luò)數(shù)據(jù)采集面臨來自數(shù)據(jù)持有者、原始數(shù)據(jù)權(quán)利人等多方的利益訴求,數(shù)據(jù)權(quán)益復(fù)雜交織,網(wǎng)絡(luò)數(shù)據(jù)爬取面臨著較高的違法違規(guī)風(fēng)險。截至2023年12月,我國域名總量為3160萬個,活躍App數(shù)量高達260萬款。[31]在商業(yè)采買價格機制尚未固定,平臺共享數(shù)據(jù)意愿不足的現(xiàn)狀下,巨大網(wǎng)絡(luò)空間潛藏的海量網(wǎng)絡(luò)數(shù)據(jù)成為人工智能企業(yè)訓(xùn)練數(shù)據(jù)語料庫的首選來源。然而,爬取網(wǎng)絡(luò)數(shù)據(jù)行為的合法邊界仍模糊不清。網(wǎng)絡(luò)數(shù)據(jù)的防爬取措施成為判斷爬取行為合法性邊界的重要因素。破壞性爬取行為一般被認為打破了網(wǎng)絡(luò)數(shù)據(jù)共享承載的公共利益和平臺數(shù)據(jù)權(quán)益的平衡,往往作為違法性的判定標準。我國法院肯定了單方聲明的Robots協(xié)議具有告知和引導(dǎo)作用,違反Robots協(xié)議的行為可能屬于違反商業(yè)道德的范疇,但并不承認Robots協(xié)議對雙方具有法律約束力。學(xué)者們也逐漸認為不宜將之作為判斷爬取行為合法性的唯一依據(jù)。[32]由此可見,網(wǎng)絡(luò)數(shù)據(jù)爬取的合法性邊界不斷隨著實踐產(chǎn)生爭議并變化,人工智能企業(yè)始終無法獲得明確穩(wěn)定的行為指引。
在激烈產(chǎn)業(yè)競爭和模糊行為邊界交織作用下,平臺一方面努力爬取網(wǎng)絡(luò)數(shù)據(jù),另一方面高筑數(shù)據(jù)壁壘防止競爭對手免費獲取自身數(shù)據(jù)。這導(dǎo)致目前中文模型的訓(xùn)練高度依賴企業(yè)的自有業(yè)務(wù)數(shù)據(jù),大模型的訓(xùn)練數(shù)據(jù)總體規(guī)模和質(zhì)量進一步受限。授權(quán)使用制度存在的低效率短板則在短期內(nèi)阻斷了模型廠商通過共享訓(xùn)練數(shù)據(jù)獲得回報激勵的可能,也導(dǎo)致分散訓(xùn)練的效率低下。在授權(quán)使用的框架下,多個大模型廠商均須承擔(dān)交易談判的時間成本與經(jīng)濟成本,降低了大模型產(chǎn)業(yè)整體生產(chǎn)效率。更令人擔(dān)憂的是,大模型的市場前景吸引幾乎所有掌握大量數(shù)據(jù)的平臺企業(yè)布局,這加劇了這一市場獲取訓(xùn)練數(shù)據(jù)的競爭。受到競爭利益驅(qū)動,企業(yè)獨占數(shù)據(jù)資源的意圖進一步被強化。[33]在此背景下,平臺企業(yè)不斷加強防爬取措施、設(shè)置數(shù)據(jù)壁壘,給網(wǎng)絡(luò)數(shù)據(jù)爬取制造巨大的技術(shù)和法律障礙。
線下數(shù)據(jù)利用支持力度不足。人工智能的實質(zhì)性突破依賴訓(xùn)練數(shù)據(jù)的爆發(fā)式增長和高效利用,圖書、期刊、報紙等線下載體作為傳統(tǒng)數(shù)據(jù)承載方式之一,對于完善訓(xùn)練數(shù)據(jù)語料庫意義重大。線下語料成為訓(xùn)練數(shù)據(jù)的前提是實現(xiàn)電子化,但我國線下數(shù)據(jù)電子化進程相對滯后。第一,加工深度淺。數(shù)據(jù)電子化過程沒有進一步的結(jié)構(gòu)化和分析,應(yīng)用價值低。第二,標準化程度低。電子化數(shù)據(jù)缺乏統(tǒng)一的元數(shù)據(jù)格式、編碼和術(shù)語,使得數(shù)據(jù)的互通和整合變得更加困難。第三,準確性低。電子數(shù)據(jù)輸入錯誤、處理不當(dāng)或更新不及時,導(dǎo)致數(shù)據(jù)準確性大打折扣。第四,可復(fù)用性差。電子數(shù)據(jù)的格式、結(jié)構(gòu)或權(quán)限設(shè)置不合理,無法支持多種應(yīng)用場景和分析需求。
線下數(shù)據(jù)除了電子化嚴重不足,還存在取得授權(quán)的制度障礙。線下數(shù)據(jù)一般受到著作權(quán)保護,著作權(quán)的集體授權(quán)制度難以有效支持大模型訓(xùn)練數(shù)據(jù)的需求。首先,現(xiàn)有的著作權(quán)集體管理組織規(guī)模尚不能適應(yīng)模型開發(fā)者對數(shù)據(jù)規(guī)?;玫男枨蟆?015、2016兩年全國著作權(quán)侵權(quán)案件約6000件,我國規(guī)模最大的著作權(quán)集體管理組織——中國音樂著作權(quán)協(xié)會——直接承辦的民事訴訟總數(shù)僅41件。[34]其次,傳統(tǒng)集體管理組織存在運作低效、功能減弱、模式壟斷等問題。例如,在美國,以YouTube為代表的數(shù)字平臺濫用有關(guān)網(wǎng)絡(luò)責(zé)任的版權(quán)法律,這些數(shù)字平臺聲稱他們對其向公眾提供的音樂不承擔(dān)責(zé)任,并拒絕像其他數(shù)字服務(wù)商那樣獲得正規(guī)音樂授權(quán)。面對全新技術(shù)壟斷,著作權(quán)人可獲得的救濟途徑極為有限,所面臨的侵權(quán)形勢極為嚴峻。[35]最后,“事前授權(quán)”模式難以滿足人工智能時代海量學(xué)習(xí)的需求。人工智能的發(fā)展依賴于對海量數(shù)據(jù)的獲取,即通過數(shù)據(jù)訓(xùn)練和迭代大模型,從而實現(xiàn)高質(zhì)量內(nèi)容的生成。傳統(tǒng)授權(quán)模式涉及高昂的交易成本和反復(fù)的利益談判等,限制了數(shù)據(jù)的大規(guī)模獲取,將限制數(shù)據(jù)價值的充分挖掘,完全無法滿足訓(xùn)練數(shù)據(jù)語料庫建設(shè)需求。[36]
著作權(quán)的合理使用制度是否適用于線下數(shù)據(jù)仍不明確。對于人工智能訓(xùn)練數(shù)據(jù)而言,如果不依托授權(quán)制度而是借助著作權(quán)中的合理使用豁免而獲取和利用,可以降低訓(xùn)練數(shù)據(jù)成本,提高語料庫構(gòu)建和更新效率。在當(dāng)今“產(chǎn)學(xué)研”結(jié)合大趨勢下,人工智能技術(shù)的進步和商業(yè)主體創(chuàng)新能力及社會責(zé)任承擔(dān)能力不斷提升,科學(xué)技術(shù)研究不再僅僅發(fā)生在大學(xué)實驗室,而將更多地發(fā)生在企業(yè)中。此種情形下“非商業(yè)性主體”的限制,極大地壓縮了其合理使用的空間。數(shù)字時代下,傳統(tǒng)著作權(quán)合理使用的條件在適用主體方面有限且對是否適用于線下數(shù)據(jù)仍不明確。
公共數(shù)據(jù)開放廣度深度欠缺。我國公共數(shù)據(jù)占整個數(shù)據(jù)量的比重達到了70%~80%,開放公共數(shù)據(jù)對人工智能訓(xùn)練語料庫建設(shè)意義重大。雖然我國在公共數(shù)據(jù)開放層面取得了一定進步,但仍存在開放廣度與深度欠缺的問題。第一,公共數(shù)據(jù)開放深度不足影響模型訓(xùn)練質(zhì)量。公共數(shù)據(jù)的開放深度不足,導(dǎo)致其在人工智能模型訓(xùn)練中的利用率低下,進而影響模型訓(xùn)練的準確性和效率。在數(shù)據(jù)層級方面,我國披露的公共數(shù)據(jù)多為統(tǒng)計數(shù)據(jù),但對于大模型數(shù)據(jù)訓(xùn)練而言,統(tǒng)計數(shù)據(jù)的作用遠不如原始數(shù)據(jù)。原始數(shù)據(jù)才更符合人工智能的訓(xùn)練需要,有利于提升模型多線程處理與推理預(yù)測能力。在開放質(zhì)量方面,我國公共數(shù)據(jù)開放缺乏統(tǒng)一的元數(shù)據(jù)標準和格式,機器可讀性差,導(dǎo)致數(shù)據(jù)難以得到整合和利用。由于不同部門之間缺乏有效的協(xié)調(diào)和合作機制,數(shù)據(jù)管理標準不一、大量數(shù)據(jù)重復(fù)采集、數(shù)據(jù)內(nèi)容矛盾沖突,增大了數(shù)據(jù)治理工作的難度。
第二,公共數(shù)據(jù)授權(quán)運營規(guī)則不明確阻礙開放進程。公共數(shù)據(jù)的權(quán)屬問題不明確,引發(fā)了公共數(shù)據(jù)授權(quán)運營的權(quán)利與收益分配障礙。目前公共數(shù)據(jù)的確權(quán)授權(quán)機制尚在探索之中,而其在人工智能模型訓(xùn)練中的運用更加劇了問題的復(fù)雜性,還需進一步的法律明確和規(guī)范。公共數(shù)據(jù)授權(quán)運營兼具營利性與公益性。營利性與公益性的沖突問題導(dǎo)致公共數(shù)據(jù)授權(quán)運營的制度定位、運營主體確定、收益分配模式等方面的規(guī)則尚不明確。這直接影響公共數(shù)據(jù)授權(quán)運營的實踐效果,同時也阻礙了公共數(shù)據(jù)在人工智能模型訓(xùn)練中的應(yīng)用。鑒于公共數(shù)據(jù)特有的強公共屬性,其授權(quán)運營形成了國家、市場主體和一般民眾的三角關(guān)系。由于缺乏統(tǒng)一的標準和規(guī)范,將公共數(shù)據(jù)用于人工智能模型訓(xùn)練中可能引發(fā)的數(shù)據(jù)安全風(fēng)險、數(shù)據(jù)濫用、數(shù)據(jù)壟斷等問題,亟待通過更加明確的開放范圍、授權(quán)條件、使用限制和責(zé)任分配等規(guī)則解決。
第三,公共數(shù)據(jù)授權(quán)運營與模型訓(xùn)練需求存在沖突。一方面,目前在我國公共數(shù)據(jù)授權(quán)運營實踐中,市場收益模式分為面向公益性服務(wù)的“免費或公益性收費”模式和面向運營型活動的“市場化定價”模式。然而人工智能模型尤其是在預(yù)訓(xùn)練階段的營利性質(zhì)難以界定。即使人工智能模型服務(wù)被認為是商業(yè)運營活動,人工智能模型本身的訓(xùn)練是否能被單純評價為“運營活動”,仍存在較大爭議。另一方面,人工智能模型的迭代與進步需要投喂海量數(shù)據(jù)用以訓(xùn)練支撐。即使授權(quán)運營數(shù)據(jù)的定價模式以“成本覆蓋”為原則,模型訓(xùn)練對數(shù)據(jù)的大規(guī)模獲取需求,也將導(dǎo)致成本過高而使企業(yè)難以負擔(dān)的問題,在一定程度上將限制公共數(shù)據(jù)價值的充分挖掘。
領(lǐng)域數(shù)據(jù)權(quán)屬交易規(guī)則不明。領(lǐng)域數(shù)據(jù)主要是指在垂直領(lǐng)域開展行業(yè)活動中收集和產(chǎn)生的數(shù)據(jù),已成為人工智能領(lǐng)域發(fā)展的核心基建和關(guān)鍵驅(qū)動力。領(lǐng)域數(shù)據(jù)以應(yīng)用質(zhì)量高、匹配度強及價值密度大的優(yōu)勢,展現(xiàn)了其對人工智能專業(yè)模型層學(xué)習(xí)能力深化提升的核心作用,對工業(yè)生產(chǎn)、科學(xué)教育、自動駕駛、金融醫(yī)療等行業(yè)的發(fā)展至關(guān)重要。
領(lǐng)域數(shù)據(jù)專業(yè)門檻高與積累周期長等特性,增加了數(shù)據(jù)流通共享、升級獲取難度。第一,領(lǐng)域數(shù)據(jù)權(quán)利方出于商業(yè)利益等因素考慮,表現(xiàn)出“謹慎流通、風(fēng)險規(guī)避”的立場。當(dāng)前,領(lǐng)域數(shù)據(jù)主要集中掌握在網(wǎng)絡(luò)平臺、醫(yī)院、高校院所等企業(yè)或單位手中,其憑借在數(shù)據(jù)流通中的數(shù)據(jù)資源樞紐位置,收集海量原始數(shù)據(jù)后進行脫敏清洗等處理活動,形成集合性數(shù)據(jù)資源。以美國特斯拉公司為例,其完全自動駕駛測試版(FSD)系統(tǒng)的總行駛里程已達約4.83億公里,并表示其數(shù)據(jù)資源對產(chǎn)品市場競爭力提升至關(guān)重要。[37]第二,領(lǐng)域數(shù)據(jù)領(lǐng)域具有主體多維復(fù)雜等特性,成為數(shù)據(jù)“固守”的主要誘因。以醫(yī)療領(lǐng)域為例,醫(yī)療健康數(shù)據(jù)不僅是信息載體,更直接關(guān)系到個人隱私、健康狀況乃至生命安全。領(lǐng)域數(shù)據(jù)權(quán)利方迫于數(shù)據(jù)安全責(zé)任、嚴格合規(guī)要求等多重壓力,對領(lǐng)域數(shù)據(jù)共享持保守態(tài)度。
領(lǐng)域數(shù)據(jù)交易意愿低迷,阻礙領(lǐng)域數(shù)據(jù)價值釋放。第一,領(lǐng)域數(shù)據(jù)權(quán)屬不明引發(fā)數(shù)據(jù)資源利益分配沖突。2022年12月19日,中共中央、國務(wù)院發(fā)布《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡稱“數(shù)據(jù)二十條”),提出“推動數(shù)據(jù)產(chǎn)權(quán)結(jié)構(gòu)性分置和有序流通”,但我國立法針對數(shù)據(jù)權(quán)屬問題尚未進行明確細致規(guī)定。一方面,領(lǐng)域數(shù)據(jù)的權(quán)利性質(zhì)不明。領(lǐng)域數(shù)據(jù)區(qū)別于有體物、知識產(chǎn)權(quán)等客體,其權(quán)利性質(zhì)需進一步明確。另一方面,領(lǐng)域數(shù)據(jù)涉及利益主體多維復(fù)雜,權(quán)屬分配規(guī)則不清。從領(lǐng)域數(shù)據(jù)交易環(huán)節(jié)來看,至少有數(shù)據(jù)來源主體、數(shù)據(jù)控制者、數(shù)據(jù)需求方三方主體可以主張相應(yīng)的權(quán)利。領(lǐng)域數(shù)據(jù)權(quán)利方缺乏獲得合理回報的收益分配機制,數(shù)據(jù)要素供給激勵機制未完善,導(dǎo)致數(shù)據(jù)供給意愿不強。第二,領(lǐng)域數(shù)據(jù)可能包含個人數(shù)據(jù)、重要數(shù)據(jù)等,數(shù)據(jù)交易存在多層法律風(fēng)險。如地理數(shù)據(jù)關(guān)系國家主權(quán)、安全和發(fā)展利益。[38]領(lǐng)域數(shù)據(jù)交易中上下游均需承擔(dān)更為嚴格的安全保護義務(wù),呈現(xiàn)責(zé)任鏈條廣泛連帶、合規(guī)嚴格約束的特性。[39]
領(lǐng)域數(shù)據(jù)交易規(guī)范體系不健全,難以形成合力推動領(lǐng)域數(shù)據(jù)經(jīng)濟的發(fā)展。實踐中,領(lǐng)域數(shù)據(jù)交易模式主要為一對一、點對點的場外商談模式,交易方式包括直接轉(zhuǎn)移數(shù)據(jù)及API接口調(diào)用,交易規(guī)則主要為交易雙方自主商議約定。場內(nèi)場外相結(jié)合的統(tǒng)一交易制度規(guī)范的缺位,給交易市場的進一步發(fā)展造成了極大阻礙。第一,領(lǐng)域數(shù)據(jù)定價機制的缺失,交易市場的規(guī)范化、標準化發(fā)展無法推進。當(dāng)前數(shù)據(jù)市場主要的定價機制為數(shù)據(jù)供應(yīng)方自主定價以及供需雙方協(xié)議定價,難以準確衡量數(shù)據(jù)應(yīng)有價值[40]。領(lǐng)域數(shù)據(jù)權(quán)利方在逐利性的驅(qū)動下可能出現(xiàn)價格欺詐、價格歧視、價格壟斷等不當(dāng)定價行為,需建立自主高效的數(shù)據(jù)定價體系,規(guī)制不當(dāng)數(shù)據(jù)定價行為,維護領(lǐng)域數(shù)據(jù)交易市場的公平和秩序。第二,領(lǐng)域數(shù)據(jù)交易質(zhì)量標準不一,交易市場的有序化、實踐化無法達成。當(dāng)前,領(lǐng)域數(shù)據(jù)交易中,領(lǐng)域數(shù)據(jù)類型、載體、呈現(xiàn)形式等均無統(tǒng)一界定標準。領(lǐng)域數(shù)據(jù)格式不規(guī)范、內(nèi)容不完整的問題容易導(dǎo)致整個交易市場的混亂局面,影響數(shù)據(jù)交易的順利進行。
訓(xùn)練數(shù)據(jù)語料庫建設(shè)的制度協(xié)調(diào)與規(guī)則應(yīng)對
通過司法判例明確網(wǎng)絡(luò)數(shù)據(jù)來源合法性認定條件。由于人工智能訓(xùn)練數(shù)據(jù)具有數(shù)量大、規(guī)模廣、價值密度低等特征,傳統(tǒng)的數(shù)據(jù)購買模式無法適應(yīng)模型開發(fā)者對數(shù)據(jù)規(guī)?;玫男枨蟆D壳坝蓛?nèi)容平臺代理的著作權(quán)內(nèi)容多為單獨具有使用價值的作品,不包括用戶生成的海量數(shù)據(jù),網(wǎng)絡(luò)數(shù)據(jù)才是人工智能訓(xùn)練的主要材料,應(yīng)通過司法判例進一步明確網(wǎng)絡(luò)數(shù)據(jù)來源合法性認定條件。
首先,進一步明確網(wǎng)絡(luò)數(shù)據(jù)可爬取范圍。網(wǎng)絡(luò)數(shù)據(jù)的可爬取范圍應(yīng)結(jié)合爬取客體、技術(shù)手段、行為目的三個方面進行考量。爬取客體上,對于公開數(shù)據(jù)、半公開數(shù)據(jù)、非公開數(shù)據(jù)的保護程度應(yīng)有所不同。[41]網(wǎng)絡(luò)數(shù)據(jù)爬取應(yīng)嚴格限定于對公開數(shù)據(jù)的訪問,具體包括由政府、學(xué)術(shù)界和商業(yè)機構(gòu)出于促進知識共享和技術(shù)創(chuàng)新的目的而開放的數(shù)據(jù)。技術(shù)手段上,爬取技術(shù)的設(shè)計和應(yīng)用應(yīng)恪守非侵入性原則,尊重并遵循網(wǎng)站的“爬蟲協(xié)議”和用戶協(xié)議,避免任何形式的技術(shù)規(guī)避行為。行為目的上,網(wǎng)絡(luò)數(shù)據(jù)爬取的行為必須服務(wù)于正當(dāng)目的,對于非商業(yè)性數(shù)據(jù)的爬取,應(yīng)以增進公共利益為目標。因此,基于科學(xué)研究應(yīng)用等大模型構(gòu)建信息基礎(chǔ)設(shè)施時是否應(yīng)適當(dāng)豁免,應(yīng)在司法裁判中予以充分考量。
其次,應(yīng)在司法判例中審慎判斷網(wǎng)絡(luò)數(shù)據(jù)爬取構(gòu)成競爭性使用的條件。判斷大模型訓(xùn)練是否構(gòu)成競爭性使用,需明確網(wǎng)絡(luò)平臺對其數(shù)據(jù)享有的權(quán)益。依據(jù)網(wǎng)絡(luò)平臺對數(shù)據(jù)的投入程度,可將平臺上的數(shù)據(jù)分為“平臺限定提供的數(shù)據(jù)”及“用戶生成的網(wǎng)頁數(shù)據(jù)”兩類,前者是平臺企業(yè)對其所收集的數(shù)據(jù)進行脫敏、過濾、格式調(diào)整、加密、篩選等適度加工之后,采用技術(shù)手段進行控制并僅向特定人提供的商業(yè)化數(shù)據(jù);后者是用戶直接提交給平臺,或者用戶在使用平臺過程中生成,直接展示在網(wǎng)頁上的數(shù)據(jù)。[42]對于前者,可能構(gòu)成企業(yè)數(shù)據(jù)財產(chǎn),對其未經(jīng)授權(quán)的獲取、披露和使用應(yīng)當(dāng)承擔(dān)相關(guān)責(zé)任。而后者應(yīng)當(dāng)重點判斷其“破壞性利用”的構(gòu)成、損害顯著和實質(zhì)性、實質(zhì)性替代與否以及用戶權(quán)益。
最后,由政府協(xié)調(diào)設(shè)立公共訓(xùn)練數(shù)據(jù)池、公共訓(xùn)練數(shù)據(jù)場,承擔(dān)生成式人工智能大模型訓(xùn)練數(shù)據(jù)語料庫的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)責(zé)任。現(xiàn)有語料庫總體覆蓋面和規(guī)模依然不足,受制于數(shù)據(jù)孤島、數(shù)據(jù)污染問題,庫內(nèi)數(shù)據(jù)的采集依舊面臨來源稀缺的困境。語料形式缺乏統(tǒng)一標準,不同的處理標準導(dǎo)致數(shù)據(jù)集語料類型及結(jié)構(gòu)差異明顯,不利于集約化管理,知識產(chǎn)權(quán)和數(shù)據(jù)安全合規(guī)方面的負擔(dān)同樣延緩了語料庫合法化建設(shè)步伐。在政府的示范引導(dǎo)下各方協(xié)同建設(shè)共享數(shù)據(jù)池,以助力數(shù)據(jù)語料庫迭代優(yōu)化是中國企業(yè)與行業(yè)發(fā)展的共同訴求。
協(xié)調(diào)版權(quán)規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界。傳統(tǒng)著作權(quán)“事前授權(quán)、使用付費”的交易模式難以滿足人工智能時代海量學(xué)習(xí)的需求。“事前授權(quán)”容易導(dǎo)致數(shù)據(jù)交易流程的冗雜以及交易效率的低下,“使用付費”容易產(chǎn)生包括數(shù)據(jù)獲取的識別成本以及數(shù)據(jù)交易的談判成本在內(nèi)的過高交易成本[43],這要求版權(quán)規(guī)則進行突破協(xié)調(diào)以適配人工智能時代高價值數(shù)據(jù)獲取、流通、使用的需要。
第一,構(gòu)建訓(xùn)練數(shù)據(jù)合理使用制度。在人工智能預(yù)訓(xùn)練階段,可考慮認定利用版權(quán)作品進行訓(xùn)練原則上構(gòu)成合理使用。首先,就技術(shù)原理而言,大模型或是通過對特定類型作品的風(fēng)格、要素、體裁等公有領(lǐng)域的“思想”進行學(xué)習(xí),進而生成類似作品[44];或是對既有作品進行具備“非特定性”的非表達性使用,進而創(chuàng)造新的數(shù)據(jù)價值[45],其均非《中華人民共和國著作權(quán)法》應(yīng)當(dāng)規(guī)制的作品使用行為;其次,就社會效益而言,大模型運用高質(zhì)量數(shù)據(jù)進行訓(xùn)練具有顯著的公共利益價值,對發(fā)揮數(shù)據(jù)的公共價值、發(fā)展生產(chǎn)力、增進社會福祉、提升國際競爭力等有著顯著正向影響[46],將大模型訓(xùn)練納入合理使用范疇符合《中華人民共和國著作權(quán)法》激勵創(chuàng)新的制度目的;最后,就市場影響而言,大模型的輸出結(jié)果不必然對原訓(xùn)練作品的市場份額產(chǎn)生沖擊,因大模型具備通用能力和泛化能力,其應(yīng)用場景不局限于原作品的市場定位。但是,合理使用制度的構(gòu)建并不意味著對大模型訓(xùn)練的版權(quán)侵權(quán)全面豁免,對基于科學(xué)研究目的的大模型應(yīng)當(dāng)允許免費合理使用版權(quán)數(shù)據(jù)進行訓(xùn)練,而對于商業(yè)應(yīng)用等大模型則應(yīng)當(dāng)針對具體個案全面權(quán)衡其原理、價值、市場影響等要素,綜合判斷其合法性。
第二,審慎認定訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)及責(zé)任承擔(dān)方式。當(dāng)前,多種場景爭議下的司法判例的落實或?qū)⒊蔀槔迩逵?xùn)練數(shù)據(jù)合理使用邊界的關(guān)鍵。我國現(xiàn)有判例認為,若案涉被侵權(quán)作品享有較高知名度,可推定具備接觸可能性,且人工智能模型生成結(jié)果在多個關(guān)鍵特征上與被侵權(quán)作品具有高度相似性,即可認定為實質(zhì)性相似而構(gòu)成復(fù)制權(quán)和改編權(quán)侵權(quán)。可見,“實質(zhì)性相似”將是明確大模型訓(xùn)練數(shù)據(jù)使用合理性的邊界,法律應(yīng)當(dāng)保護的是大模型在已有作品基礎(chǔ)上的創(chuàng)新,而非對既有作品缺乏創(chuàng)造性的剽竊。對于大模型訓(xùn)練數(shù)據(jù)侵權(quán)的救濟手段,應(yīng)當(dāng)秉持審慎立場,綜合考慮大模型的應(yīng)用價值與對權(quán)利人的實際損害。一方面,應(yīng)當(dāng)盡量避免要求大模型開發(fā)者刪除涉嫌侵權(quán)的訓(xùn)練數(shù)據(jù),以避免導(dǎo)致大模型整體能力的不可控下降,從而給相關(guān)產(chǎn)業(yè)帶來過高負擔(dān);另一方面,應(yīng)當(dāng)結(jié)合被侵權(quán)作品的知名度與市場地位、侵權(quán)方的應(yīng)對措施、侵權(quán)行為的具體影響范圍、對產(chǎn)業(yè)發(fā)展的潛在影響等予以認定,而不應(yīng)當(dāng)過高地認定實際損害,以免為人工智能模型創(chuàng)新與應(yīng)用施加難以負擔(dān)的法律成本。
第三,完善版權(quán)作品相關(guān)方利益分配機制。一方面,允許版權(quán)方行使人工智能訓(xùn)練拒絕權(quán)將有助于維護版權(quán)方合法權(quán)益。另一方面,人工智能開發(fā)者也可主動采取措施令版權(quán)方參與利益分配。OpenAI開展版權(quán)屏障計劃,將介入并為使用其產(chǎn)品的企業(yè)提供版權(quán)侵權(quán)辯護,并承諾承擔(dān)客戶因應(yīng)對相關(guān)知識產(chǎn)權(quán)訴訟而產(chǎn)生的法律費用。[47]在這一模式下,人工智能模型開發(fā)者作為大模型應(yīng)用的獲益者承擔(dān)相應(yīng)責(zé)任,有助于實現(xiàn)版權(quán)方和使用者等主體間的利益平衡,進而推動版權(quán)保護與技術(shù)發(fā)展的共贏。
構(gòu)建開放機制滿足公共數(shù)據(jù)參與語料庫建設(shè)需求。構(gòu)建層次化的公共數(shù)據(jù)開放機制有利于推動公共數(shù)據(jù)深度參與人工智能訓(xùn)練數(shù)據(jù)語料庫建設(shè),使公共數(shù)據(jù)的開發(fā)利用價值在模型訓(xùn)練過程中得到充分挖掘。不同類型、價值的公共數(shù)據(jù)對應(yīng)不同的開放程度,公共數(shù)據(jù)開放機制可分為完全開放、有限開放與授權(quán)運營三個層次。
第一,構(gòu)建政府主導(dǎo)的公共數(shù)據(jù)完全開放機制。公共數(shù)據(jù)完全開放機制具有獲取方式的無償性、開放數(shù)據(jù)的原始化、獲取對象的不特定性等特征。具體而言,公共數(shù)據(jù)完全開放機制適用于不涉及國家秘密、商業(yè)秘密、個人隱私及敏感個人信息的原始數(shù)據(jù),具體包括信用、交通、衛(wèi)生、就業(yè)、教育等領(lǐng)域的原始數(shù)據(jù)開放。[48]公共數(shù)據(jù)完全開放機制應(yīng)當(dāng)由政府主導(dǎo),建立公共數(shù)據(jù)開放目錄以確定開放范圍,通過一體化、集中化的國家數(shù)據(jù)開放平臺匯集各省、市政府職能部門的各類原始數(shù)據(jù),以直接獲取或下載的方式免費向不特定的社會公眾開放,實現(xiàn)原始數(shù)據(jù)與語料庫之間的無障礙對接。
需要注意的是,原始數(shù)據(jù)雖然具有較高的開發(fā)利用價值,但也存在較大的不確定性和安全風(fēng)險。[49]政府在履行公共數(shù)據(jù)開放義務(wù)的同時,還應(yīng)當(dāng)建立公共數(shù)據(jù)開放安全風(fēng)險防控機制,采取技術(shù)、管理措施防范原始數(shù)據(jù)安全風(fēng)險,具體包括開放前的個人數(shù)據(jù)去標識化處理、開放平臺的運營技術(shù)維護、開放過程中的動態(tài)安全監(jiān)測以及開放后的安全事件應(yīng)急預(yù)案等。
第二,構(gòu)建特定對象的公共數(shù)據(jù)有限開放機制。公共數(shù)據(jù)完全開放機制雖然能夠為語料庫建設(shè)提供一定量免費的原始數(shù)據(jù)資源,但面向全體社會公眾的無門檻開放必然會限制語料庫吸納更加優(yōu)質(zhì)的公共數(shù)據(jù)資源。未來,通用大模型市場或?qū)⒊尸F(xiàn)寡頭競爭格局,面向垂直領(lǐng)域的行業(yè)大模型將成為大模型產(chǎn)業(yè)競爭的主要領(lǐng)域。[50]與“無數(shù)不用”的通用大模型訓(xùn)練不同,行業(yè)大模型訓(xùn)練需要更加高質(zhì)量、專業(yè)化的公共數(shù)據(jù)供給。這些數(shù)據(jù)的數(shù)據(jù)量和敏感性不同于完全開放的公共數(shù)據(jù),對數(shù)據(jù)利用主體自身的數(shù)據(jù)安全管理水平、技術(shù)能力有著較高的要求。[51]公共數(shù)據(jù)有限開放機制以主體的準入資格審核為前提,通過與行政機關(guān)簽署行政協(xié)議的方式獲取特定領(lǐng)域的公共數(shù)據(jù)資源。一方面,能夠滿足垂直領(lǐng)域的大模型企業(yè)對領(lǐng)域數(shù)據(jù)的特殊需求;另一方面,能夠防范優(yōu)質(zhì)公共數(shù)據(jù)的泄露、濫用、遭受攻擊等安全風(fēng)險。
第三,構(gòu)建面向市場的公共數(shù)據(jù)授權(quán)運營機制。區(qū)別于前兩種直接的公共數(shù)據(jù)開放機制,公共數(shù)據(jù)授權(quán)運營是一種間接開放機制,由行政機關(guān)授權(quán)特定運營主體對公共數(shù)據(jù)進行加工,從而形成數(shù)據(jù)產(chǎn)品與服務(wù)提供給市場和社會。[52]公共數(shù)據(jù)授權(quán)運營有利于激發(fā)市場運營主體活力,釋放公共數(shù)據(jù)的經(jīng)濟價值,提升公共數(shù)據(jù)資源配置效率,實現(xiàn)數(shù)據(jù)要素市場的供需匹配。目前,公共數(shù)據(jù)授權(quán)運營實踐尚處于探索階段,主要存在行業(yè)主導(dǎo)、區(qū)域一體化以及場景牽引三種公共數(shù)據(jù)授權(quán)運營模式。[53]從促進人工智能大模型創(chuàng)新研發(fā)的角度來看,基于特定應(yīng)用場景授權(quán)不同運營主體的場景牽引模式更有利于實現(xiàn)領(lǐng)域數(shù)據(jù)供需方之間的精準匹配,進一步推動金融、醫(yī)療、教育、自動駕駛等領(lǐng)域的垂類大模型訓(xùn)練數(shù)據(jù)語料庫建設(shè)。
協(xié)同促進跨領(lǐng)域數(shù)據(jù)流通交易規(guī)則建立供給激勵。面向人工智能創(chuàng)新應(yīng)用的新時代,我國數(shù)據(jù)交易市場也應(yīng)轉(zhuǎn)型突破,適應(yīng)人工智能產(chǎn)業(yè)獲取訓(xùn)練數(shù)據(jù)的現(xiàn)實需求。就交易平臺而言,可針對人工智能訓(xùn)練市場,將現(xiàn)有的通用數(shù)據(jù)交易所轉(zhuǎn)型為“AI數(shù)據(jù)交易合同”模式,為企業(yè)訓(xùn)練人工智能提供定制化的訓(xùn)練數(shù)據(jù)。就交易標準而言,相關(guān)市場主體和監(jiān)管部門可共同規(guī)范訓(xùn)練語料的標注標準,便于語料數(shù)據(jù)的交易流通。就合同內(nèi)容而言,人工智能訓(xùn)練方需要遵循誠實信用原則,明確告知數(shù)據(jù)提供方相關(guān)數(shù)據(jù)的用途并獲得授權(quán),避免因超出授權(quán)范圍使用數(shù)據(jù)而面臨違約風(fēng)險。
“數(shù)據(jù)二十條”明確提出,“完善和規(guī)范數(shù)據(jù)流通規(guī)則,構(gòu)建促進使用和流通、場內(nèi)場外相結(jié)合的交易制度體系,規(guī)范引導(dǎo)場外交易,培育壯大場內(nèi)交易”?,F(xiàn)階段,數(shù)據(jù)交易市場“內(nèi)冷外熱”,引導(dǎo)場外數(shù)據(jù)交易進場交易,需建立健全場內(nèi)數(shù)據(jù)交易規(guī)則,為跨領(lǐng)域數(shù)據(jù)流通交易掃清制度障礙。
一是數(shù)據(jù)確權(quán)規(guī)則。首先,探索建立數(shù)據(jù)資產(chǎn)登記確權(quán)制度。數(shù)據(jù)資產(chǎn)登記能夠推動跨領(lǐng)域的數(shù)據(jù)資源向數(shù)據(jù)資產(chǎn)的轉(zhuǎn)化,發(fā)揮數(shù)據(jù)資產(chǎn)登記的證明功能,消除跨領(lǐng)域企業(yè)入場門檻。其次,規(guī)范數(shù)據(jù)資產(chǎn)價值評估體系。數(shù)據(jù)資產(chǎn)價值受數(shù)據(jù)質(zhì)量、時效、類型等多種因素影響,價值不確定性增加了評估難度,應(yīng)細化評估指標,綜合運用風(fēng)險評估法、成本效益分析法等多種價值評估方法,構(gòu)建專業(yè)化、領(lǐng)域化的價值評估模型,確??珙I(lǐng)域數(shù)據(jù)資產(chǎn)價值評估的客觀性。最后,完善數(shù)據(jù)資產(chǎn)入表制度。2023年8月,財政部印發(fā)《企業(yè)數(shù)據(jù)資源相關(guān)會計處理暫行規(guī)定》,明確數(shù)據(jù)資產(chǎn)可以列入企業(yè)財務(wù)報表之中。目前,數(shù)據(jù)資產(chǎn)入表還處于探索實踐初期,可通過制定出臺數(shù)據(jù)資產(chǎn)入表的相關(guān)規(guī)則指引、指南,進一步引導(dǎo)企業(yè)完成數(shù)據(jù)資產(chǎn)入表工作。
二是數(shù)據(jù)定價規(guī)則。解決數(shù)據(jù)交易糾紛的關(guān)鍵在于確定合理的數(shù)據(jù)定價規(guī)則,但數(shù)據(jù)定價目前尚未形成統(tǒng)一的規(guī)則和標準。鑒于應(yīng)用場景對數(shù)據(jù)市場價值的重大影響,可以考慮設(shè)置不同行業(yè)、不同場景的數(shù)據(jù)定價機制,盡可能降低由于交易雙方信息不對稱導(dǎo)致的價格歧視風(fēng)險。[54]數(shù)據(jù)交易的具體價格可以結(jié)合數(shù)據(jù)資產(chǎn)價值評估結(jié)果進行確定,此外,例如《深圳市數(shù)據(jù)交易管理暫行辦法》第十九條第三款提出的數(shù)據(jù)質(zhì)量、數(shù)據(jù)樣本一致性、數(shù)據(jù)計算貢獻、數(shù)據(jù)業(yè)務(wù)應(yīng)用四個維度可以作為數(shù)據(jù)定價的考量因素。計價方式上,結(jié)合數(shù)據(jù)交易所實踐來看,可采取按次計費、按時長計費、固定價格或者面議價格等多種計價方式。
三是收益分配規(guī)則?!皵?shù)據(jù)二十條”中提出,數(shù)據(jù)要素由市場評價貢獻、按貢獻決定報酬,并按照“誰投入、誰貢獻、誰受益”的原則,著重保護數(shù)據(jù)要素各參與方的投入產(chǎn)出收益。數(shù)據(jù)流通交易過程中主要涉及數(shù)據(jù)提供者、數(shù)據(jù)使用者、數(shù)據(jù)交易平臺三方主體,目前數(shù)據(jù)要素市場中的收益分配通常是數(shù)據(jù)交易平臺與數(shù)據(jù)交易雙方協(xié)商的結(jié)果,忽視了原始數(shù)據(jù)生產(chǎn)者對數(shù)據(jù)要素生產(chǎn)的貢獻。原始數(shù)據(jù)為數(shù)據(jù)要素的形成提供了原始材料,是數(shù)據(jù)要素形成的基礎(chǔ),應(yīng)當(dāng)將原始數(shù)據(jù)生產(chǎn)者作為收益分配主體之一,通過智能合約等方案提升原始數(shù)據(jù)生產(chǎn)者參與數(shù)據(jù)要素分配的可行性。[55]
四是供給激勵規(guī)則。加強數(shù)據(jù)要素供給激勵是“數(shù)據(jù)二十條”提出的明確要求,數(shù)據(jù)確權(quán)是激勵數(shù)據(jù)流通交易的有效法律手段,除此之外,還應(yīng)探索經(jīng)濟、技術(shù)、管理等多樣化的數(shù)據(jù)要素供給激勵舉措。目前,已經(jīng)有多家數(shù)據(jù)交易平臺開始針對不同的數(shù)據(jù)要素市場主體推出激勵方案。例如,深圳數(shù)據(jù)交易所針對企業(yè)建立的數(shù)據(jù)交易誠信合規(guī)激勵機制、湖南大數(shù)據(jù)交易所針對數(shù)據(jù)交易雙方和數(shù)據(jù)經(jīng)濟商等主體推出的百萬交易激勵計劃、鄭州數(shù)據(jù)交易中心針對數(shù)據(jù)經(jīng)紀人推出的千萬激勵計劃等。就跨領(lǐng)域數(shù)據(jù)交易流通而言,應(yīng)結(jié)合不同領(lǐng)域的市場需求,探索有針對性的供給激勵規(guī)則。
(本文系國家社會科學(xué)基金重點項目“生成式人工智能的法律定位與分層治理研究”的階段性研究成果,項目編號:23AFX009,課題組成員對本文亦有貢獻)
注釋
[1][2][3]J. Wei, Y. Tay and R. Bommasani et al., "Emergent Abilities of Large Language Models," Transactions on Machine Learning Research, 2022, 8.
[4]姚佳:《人工智能的訓(xùn)練數(shù)據(jù)制度——以“智能涌現(xiàn)”為觀察視角》,《貴州社會科學(xué)》,2024年第2期。
[5]J. Brown, "Comparing GPT–3 vs GPT–4: An AI Expert's In–Depth Guide," https://www.33rdsquare.com/comparing-gpt-3-vs-gpt-4-an-ai-experts-in-depth-guide/.
[6][10][19][22]阿里云智能集團、數(shù)字中國研究院(福建):《大模型訓(xùn)練數(shù)據(jù)白皮書》,阿里研究院,2024年5月24日。
[7]《大模型潮即將耗盡全宇宙文本,高質(zhì)量數(shù)據(jù)從哪里來?》,2023年7月17日,https://www.thepaper.cn/newsDetail_forward_23865563。
[8]羅云鵬:《大模型發(fā)展亟需高質(zhì)量“教材”相伴》,《科技日報》,2024年1月15日,第6版。
[9]HIMSS, "Implementing AI and ML From the Ground Up Case Study," https://www.himss.org/resources/implementing-ai-and-ml-ground-case-study.
[11]S. Yin et al., "A Survey on Multimodal Large Language Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 4.
[12]OpenAI, "CLIP: Connecting Text and Images," https://openai.com/index/clip/.
[13]楊維鎧等:《基于可視分析的訓(xùn)練數(shù)據(jù)質(zhì)量提升綜述》,《計算機輔助設(shè)計與圖形學(xué)學(xué)報》,2023年第11期。
[14]T. Sun, A. Gaut, S. Tang et al., "Mitigating Gender Bias in Natural Language Processing," Annual Meeting of the Association for Computational Linguistics, 2019.
[15]綠盟科技:《安全行業(yè)大模型SecLLM技術(shù)白皮書》,2023年9月1日。
[16]D. Huynh, J. Hardouin, "PoisonGPT: How We Hid a Lobotomized LLM on Hugging Face to Spread Fake News," https://colab.research.google.com/drive/16RPph6SobDLhisNzA5azcP-0uMGGq10R?usp=sharing&ref=blog.mithrilsecurity.io.
[17]L. Huang, W. Yu, W. Ma et al., "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions," arXiv:2311.05232, 2023.
[18]微軟亞洲研究院:《價值觀羅盤:如何讓大模型與人類價值觀對齊?》,2024年4月11日。
[20]W3Techs實時統(tǒng)計信息:https://w3techs.com/technologies/overview/content_language,2024年6月18日。
[21]IDC, Global DataSphere 2023, IDC Published, 18 May 2023.
[23]胡凌:《論地方立法中公共數(shù)據(jù)開放的性質(zhì)》,《地方立法研究》,2019年第03期第4輯。
[24]Verge, "ByteDance is Secretly Using OpenAI's Tech to Build a Competitor," Verge Tech, 16 December 2023.
[25]K. Lee, A. F. Cooper, J. Grimmelman etc., "AI and Law: the Next Generation–An Explainer Series," GenLaw, 6 July 2023.
[26]R. Morrison, "The Majority of AI Training Data Will Be Synthetic by Next Year, Says Gartner," https://techmonitor.ai/technology/ai-and-automation/ai-synthetic-data-edge-computing-gartner, 2 August 2023.
[27]支振鋒:《生成式人工智能大模型的信息內(nèi)容治理》,《政法論壇》,2023年第4期。
[28]參見北京人工智能高質(zhì)量數(shù)據(jù)集服務(wù)平臺,http://dataset.baiia.org.cn/,最后訪問于2024年6月18日。
[29]復(fù)旦大學(xué)數(shù)字與移動治理實驗室:《中國地方公共數(shù)據(jù)開放利用報告——省域(2023年度)》,http://ifopendata.fudan.edu.cn/report。
[30]劉金瑞:《生成式人工智能大模型的新型風(fēng)險與規(guī)制框架》,《行政法學(xué)研究》,2024年第2期。
[31]中國互聯(lián)網(wǎng)信息中心:《第53次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,2024年3月29日。
[32]楊華權(quán)、曲三強:《論爬蟲協(xié)議的法律性質(zhì)》,《法律適用》,2013年第4期。
[33]億歐智庫:《2023中國信息與數(shù)據(jù)孤島分析報告》,2023年11月21日。
[34]最高人民法院:《知識產(chǎn)權(quán)侵權(quán)司法大數(shù)據(jù)專題報告》,2024年6月18日,https://www.court.gov.cn/upload/file/2019/11/22/11/20/20191122112018_45474.pdf。
[35]全球唱片協(xié)會:《2018全球音樂報告》,2024年6月18日,https://www.ifpi.org/ifpi-global-music-report-2018/。
[36][43]張平:《人工智能生成內(nèi)容著作權(quán)合法性的制度難題及其解決路徑》,《法律科學(xué)(西北政法大學(xué)學(xué)報)》,2024年第3期。
[37]K. Armstrong, "Tesla Surpasses 150 Million Miles Driven with FSD Beta," https://www.notateslaapp.com/news/1360/tesla-surpasses-150-million-miles-driven-with-fsd-beta.
[38]參見浙江省湖州市中級人民法院(2021)浙05刑終87號判決書。
[39]參見國家互聯(lián)網(wǎng)信息辦公室:《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例(征求意見稿)》第四章,https://www.cac.gov.cn/2021-11/14/c_1638501991577898.htm。
[40]許中緣、鄭煌杰:《數(shù)據(jù)要素賦能新質(zhì)生產(chǎn)力:內(nèi)在機理、現(xiàn)實障礙與法治進路》,《上海經(jīng)濟研究》,2024年第5期。
[41]張軍強:《人工智能大模型數(shù)據(jù)爬取行為的正當(dāng)性認定》,《中國知識產(chǎn)權(quán)》,2024年。
[42]周樨平:《數(shù)據(jù)爬取的不正當(dāng)競爭認定規(guī)則研究》,《南大法學(xué)》,2023年第2期。
[44]徐小奔、楊依楠:《論人工智能深度學(xué)習(xí)中著作權(quán)的合理使用》,《交大法學(xué)》,2019年第3期。
[45]劉曉春:《生成式人工智能數(shù)據(jù)訓(xùn)練中的“非作品性使用”及其合法性證成》,《法學(xué)論壇》,2024年第3期。
[46]丁曉東:《論人工智能促進型的數(shù)據(jù)制度》,《中國法律評論》,2023年第6期。
[47]OpenAI, "New Models and Developer Products Announced at DevDay," https://openai.com/index/new-models-and-developer-products-announced-at-devday/.
[48]《促進大數(shù)據(jù)發(fā)展行動綱要》中提出,“率先在信用、交通、醫(yī)療、衛(wèi)生、就業(yè)、社保、地理、文化、教育、科技、資源、農(nóng)業(yè)、環(huán)境、安監(jiān)、金融、質(zhì)量、統(tǒng)計、氣象、海洋、企業(yè)登記監(jiān)管等重要領(lǐng)域?qū)崿F(xiàn)公共數(shù)據(jù)資源合理適度向社會開放”。
[49]宋爍:《構(gòu)建以授權(quán)運營為主渠道的公共數(shù)據(jù)開放利用機制》,《法律科學(xué)(西北政法大學(xué)學(xué)報)》,2023年第1期。
[50]黃哲:《大模型價格戰(zhàn)背后的邏輯與真相》,《中國計算機報》,2024年6月10日,第10版。
[51]常江:《公共數(shù)據(jù)開放立法原則反思和開放路徑構(gòu)建》,《華東理工大學(xué)學(xué)報(社會科學(xué)版)》,2022年第5期。
[52]馬顏昕:《公共數(shù)據(jù)授權(quán)運營的類型構(gòu)建與制度展開》,《中外法學(xué)》,2023年第2期。
[53]行業(yè)主導(dǎo)模式,即由特定行業(yè)主管部門授權(quán)運營主體承擔(dān)本領(lǐng)域公共數(shù)據(jù)運營;區(qū)域一體化模式,即由地區(qū)數(shù)據(jù)管理機構(gòu)整體授權(quán)運營主體開展區(qū)域內(nèi)各類公共數(shù)據(jù)的市場運營;場景牽引模式,即圍繞特定場景的應(yīng)用需求,在公共數(shù)據(jù)資源統(tǒng)籌管理基礎(chǔ)上,基于特定應(yīng)用場景將數(shù)據(jù)分類授權(quán)給不同的運營主體。參見孫清白:《公共數(shù)據(jù)授權(quán)運營營利性與公益性的沖突及其制度協(xié)調(diào)》,《行政法學(xué)研究》,2024第3期。
[54]趙精武、周瑞玨:《數(shù)據(jù)要素市場如何進行數(shù)據(jù)定價》,《學(xué)習(xí)時報》,2023年2月17日,第A3版。
[55]王延川、呂君枝:《原始數(shù)據(jù)提供者參與數(shù)據(jù)要素收益分配的理論邏輯與實踐路徑——以共同富裕為視角的考察》,《陜西師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版)》,2023年第3期。
責(zé) 編∕韓 拓 美 編∕周群英