摘要:出版業(yè)是致力于提供知識(shí)服務(wù)的行業(yè),擁有豐富的出版物數(shù)據(jù)資源,是人工智能學(xué)習(xí)重要的數(shù)據(jù)來(lái)源。生成式人工智能作為一種顛覆性的技術(shù),給出版業(yè)帶來(lái)了巨大的挑戰(zhàn)。人工智能學(xué)習(xí)中對(duì)出版物數(shù)據(jù)的復(fù)制、存儲(chǔ)和預(yù)處理,存在侵犯出版者就出版物數(shù)據(jù)享有的版權(quán)等數(shù)據(jù)權(quán)益的風(fēng)險(xiǎn)。人工智能技術(shù)的發(fā)展和應(yīng)用是大勢(shì)所趨,需要為其學(xué)習(xí)數(shù)據(jù)的獲取提供便利,但合理使用的路徑將進(jìn)度犧牲出版者的利益。因此,宜充分尊重出版者的數(shù)據(jù)權(quán)益,并探索建立集體管理等出版物海量許可模式。出版者也可發(fā)揮資源優(yōu)勢(shì),采取技術(shù)措施進(jìn)行自主維權(quán)。
關(guān)鍵詞:人工智能;機(jī)器學(xué)習(xí);文本和數(shù)據(jù)挖掘;數(shù)據(jù)庫(kù);出版者
一、問(wèn)題的提出
2023年6月,世界經(jīng)濟(jì)論壇發(fā)布《2023年十大新興技術(shù)報(bào)告》,生成式人工智能(以下簡(jiǎn)稱生成式AI)被評(píng)為最有潛力、最能對(duì)世界產(chǎn)生積極影響的十大技術(shù)之一,該報(bào)告指出,生成式AI是一種通過(guò)學(xué)習(xí)大規(guī)模數(shù)據(jù)集生成新的原創(chuàng)內(nèi)容的新型AI。生成式AI在工具式AI的基礎(chǔ)上邁進(jìn)了一大步。當(dāng)前,生成式AI學(xué)習(xí)中的版權(quán)問(wèn)題以及AIGC的版權(quán)保護(hù)理論研究已經(jīng)初具規(guī)模,但對(duì)于生成式AI學(xué)習(xí)中出版者權(quán)的保護(hù)關(guān)注不足。事實(shí)上,生成式AI必須以海量數(shù)據(jù)為前提和基礎(chǔ),而在國(guó)內(nèi)大出版格局下,市場(chǎng)上掌控海量數(shù)據(jù)的主體并非作者群體,而是各種類型的出版機(jī)構(gòu)。同時(shí),生成式AI的內(nèi)容生成、傳播功能直接挑戰(zhàn)的也是出版者的利益,當(dāng)前應(yīng)用最為廣泛的人工智能大語(yǔ)言模型(Large Language Model)即是典型。因此,生成式AI給出版者帶來(lái)的影響和挑戰(zhàn)并不亞于作者群體,且市場(chǎng)影響更加直接,生成式AI研發(fā)者與出版者之間的利益關(guān)系也是生成式AI學(xué)習(xí)過(guò)程中較為重要的一對(duì)利益關(guān)系。
生成式AI的典型代表ChatGPT,是一個(gè)基于45TB字節(jié)的文本、共計(jì)450億個(gè)單詞和數(shù)以百萬(wàn)計(jì)的作品訓(xùn)練而成的大型的語(yǔ)言模型,其訓(xùn)練的過(guò)程不可避免地要復(fù)制這些文本,并在使用之前進(jìn)行預(yù)處理以供機(jī)器學(xué)習(xí)和處理。據(jù)ChatGPT自己表示,這些文本來(lái)自于各種渠道,包括書(shū)本、文章、網(wǎng)頁(yè)等。而這些書(shū)本、文章、網(wǎng)頁(yè),便大多來(lái)自于出版行業(yè),出自首發(fā)或轉(zhuǎn)載出版機(jī)構(gòu)或平臺(tái)之手。尤其是在數(shù)字出版深度普及的今天,經(jīng)出版者處理而生成的作品甚至構(gòu)成AI學(xué)習(xí)訓(xùn)練的主要來(lái)源。ChatGPT目前已經(jīng)發(fā)展至GPT-40版本,其信息源仍處于不斷更新之中。AI對(duì)第三方內(nèi)容的復(fù)制和預(yù)處理,若未經(jīng)授權(quán),則可能構(gòu)成侵權(quán)。2024年2月8日,廣州互聯(lián)網(wǎng)法院作出全球首個(gè)AIGC平臺(tái)侵權(quán)案判決,認(rèn)定AIGC生成的部分內(nèi)容與其學(xué)習(xí)作品構(gòu)成實(shí)質(zhì)性相似,且平臺(tái)并未采取必要的措施預(yù)防侵權(quán),最終判令該平臺(tái)承擔(dān)侵權(quán)責(zé)任。生成式AI的出現(xiàn)還使得AI技術(shù)在出版的內(nèi)容生產(chǎn)、編輯加工、復(fù)制印刷、營(yíng)銷傳播四個(gè)關(guān)鍵環(huán)節(jié)的應(yīng)用均成為可能。綜上,生成式AI從出版物中來(lái),又可以生成出版物,在依賴并利用出版者的同時(shí),又與出版者形成直接競(jìng)爭(zhēng),給出版者帶來(lái)了巨大的挑戰(zhàn)。因此,關(guān)注AI學(xué)習(xí)訓(xùn)練過(guò)程中的出版者權(quán)益保護(hù),具有重要的現(xiàn)實(shí)意義。
一、人工智能學(xué)習(xí)中的出版者數(shù)據(jù)權(quán)益解析
在大多數(shù)國(guó)家的法律中,數(shù)據(jù)都能夠被“擁有”,只是“擁有”的方式有別,但通常都基于對(duì)創(chuàng)造或收集數(shù)據(jù)的投入的保護(hù),并且允許對(duì)訪問(wèn)或使用這些數(shù)據(jù)進(jìn)行阻止或收費(fèi)。出版者就出版物數(shù)據(jù)享有的權(quán)益,可以從出版物數(shù)據(jù)本身和出版物數(shù)據(jù)集兩個(gè)層次來(lái)分析。就出版物數(shù)據(jù)本身而言,既可能是作品性數(shù)據(jù),可以享有版權(quán)或鄰接權(quán),也可能是出版者在非作品類數(shù)據(jù)之上的數(shù)據(jù)利益,這些非作品數(shù)據(jù)既包括本身不構(gòu)成作品的數(shù)據(jù)、材料、信息等,也包括不受版權(quán)保護(hù)的作品,如單純事實(shí)性消息、行政性文件及已過(guò)著作財(cái)產(chǎn)權(quán)保護(hù)期的作品等。而就出版物數(shù)據(jù)集而言,同樣有版權(quán)和數(shù)據(jù)權(quán)益存在。我國(guó)《著作權(quán)法》第十五條就對(duì)在內(nèi)容的選擇和編排上具備獨(dú)創(chuàng)性的數(shù)據(jù)集提供匯編作品版權(quán)保護(hù),而這類選擇與編排即體現(xiàn)為數(shù)據(jù)集的結(jié)構(gòu),恰好對(duì)應(yīng)AI學(xué)習(xí)中所使用的結(jié)構(gòu)化數(shù)據(jù)集。在結(jié)構(gòu)化數(shù)據(jù)集上,出版者根據(jù)其結(jié)構(gòu)是否具備獨(dú)創(chuàng)性而享有不同的權(quán)利或利益,而在非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)集之上,出版者也可享有一定的利益。
(一)作品類出版物數(shù)據(jù)版權(quán)
根據(jù)法律的規(guī)定,出版者權(quán)益分為原始取得和繼受取得兩種取得方式。出版者就出版物數(shù)據(jù)享有的原始權(quán)益包括基于編輯出版而享有的版式設(shè)計(jì)權(quán)以及基于創(chuàng)作而享有的版權(quán),包括基于獨(dú)創(chuàng)性設(shè)計(jì)而享有的裝幀設(shè)計(jì)、封面設(shè)計(jì)版權(quán),以及出版者作為作品匯編者、合作作者等所享有的版權(quán)。此外,依據(jù)《著作權(quán)法》的規(guī)定,若出版者為了保護(hù)作品版權(quán)而采取了一定的技術(shù)措施或權(quán)利管理信息,則還應(yīng)享有保障其不被破壞或規(guī)避的權(quán)益。除部分“公共作品”的專有出版資格來(lái)自于行政授權(quán)之外,出版者繼受取得的權(quán)利主要來(lái)自于著作權(quán)人的出版授權(quán),其權(quán)利大小依授權(quán)的范圍而定,出版者無(wú)論是自己使用作品還是授權(quán)第三方使用,抑或是維權(quán),均需要以著作權(quán)人的明確授權(quán)為前提,否則不僅無(wú)權(quán)轉(zhuǎn)授權(quán)或維權(quán),反而還可能構(gòu)成侵權(quán)。出版者未獲著作權(quán)人充分、明確授權(quán)的現(xiàn)象在電子化、網(wǎng)絡(luò)化、數(shù)字化出版初期均較為突出,出版者獲取作品的海量合法授權(quán)仍是當(dāng)前亟需解決的難題??傊?,不同出版者在作品面世過(guò)程中所起作用的程度和方式有所不同,可能享有的權(quán)益范圍也會(huì)有較大差別。我國(guó)傳媒環(huán)境進(jìn)入數(shù)字時(shí)代以來(lái),無(wú)論是在出版產(chǎn)業(yè)界還是在行政管理上,數(shù)字出版均是“大出版”體系,囊括了極其豐富的數(shù)字傳播形態(tài)。當(dāng)前,出版行業(yè)已經(jīng)部分邁進(jìn)智慧出版的高級(jí)階段,使得出版者從內(nèi)容加工者、傳播者向兼具內(nèi)容創(chuàng)作者、運(yùn)營(yíng)者的多重角色轉(zhuǎn)變,其對(duì)于內(nèi)容可享有的權(quán)益將趕超傳統(tǒng)作者群體。
(二)非作品類出版物數(shù)據(jù)權(quán)益
非作品類出版物數(shù)據(jù)本身不能享有版權(quán),也尚未成為新型財(cái)產(chǎn)權(quán)或其他類型財(cái)產(chǎn)權(quán)的對(duì)象。出版機(jī)構(gòu)一般是經(jīng)營(yíng)性的企業(yè),企業(yè)對(duì)于數(shù)據(jù)集所享有的權(quán)益,是當(dāng)前理論和實(shí)務(wù)界探討的核心論題,而數(shù)據(jù)集內(nèi)的非作品類數(shù)據(jù)本身,并非版權(quán)和數(shù)據(jù)財(cái)產(chǎn)權(quán)關(guān)注的范疇。盡管如此,在數(shù)字時(shí)代,市場(chǎng)主體在經(jīng)營(yíng)過(guò)程中掌握和產(chǎn)生的非作品性數(shù)據(jù)的市場(chǎng)價(jià)值已經(jīng)毋庸置疑,在現(xiàn)有制度框架下,出版者仍可以在一些特定情形下就這些未形成數(shù)據(jù)集的非作品類數(shù)據(jù)享有利益。例如,若控制主體在數(shù)據(jù)上采用了保密措施,則可作為商業(yè)秘密受到保護(hù)。即使不將其作為商業(yè)秘密,而是作為一般的信息,若控制人對(duì)該信息的訪問(wèn)、傳播、使用等采取了技術(shù)措施,對(duì)該技術(shù)措施的破壞和規(guī)避仍可能構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。質(zhì)言之,在競(jìng)爭(zhēng)法領(lǐng)域,所有違背誠(chéng)實(shí)信用、商業(yè)道德等導(dǎo)致市場(chǎng)競(jìng)爭(zhēng)秩序被破壞的行為均具有可責(zé)性,盡管競(jìng)爭(zhēng)法是行為規(guī)制法,但其適用結(jié)果等同于其控制人在其掌握的數(shù)據(jù)上均可能享有利益,而不論該對(duì)象是何形態(tài)以及是否采取了必要的保護(hù)措施,只是這種利益保護(hù)有限定的適用場(chǎng)景,且保護(hù)力度不如權(quán)利明確和強(qiáng)力。
(三)結(jié)構(gòu)化的出版物數(shù)據(jù)集權(quán)益
很多情況下結(jié)構(gòu)化數(shù)據(jù)集的保護(hù)可以直接適用數(shù)據(jù)庫(kù)保護(hù)制度。但是,各國(guó)對(duì)于數(shù)據(jù)庫(kù)進(jìn)行保護(hù)的路徑各不相同。我國(guó)對(duì)于數(shù)據(jù)庫(kù)的保護(hù),適用的是《著作權(quán)法》中關(guān)于匯編作品的規(guī)定,要求該匯編作品對(duì)數(shù)據(jù)的選擇和編排必須能夠體現(xiàn)獨(dú)創(chuàng)性,而不論數(shù)據(jù)集內(nèi)的數(shù)據(jù)本身是否享有版權(quán),有學(xué)者將這種保護(hù)形容為只保護(hù)裝水的空瓶子,而不保護(hù)瓶子里的水。美國(guó)法上對(duì)于數(shù)據(jù)庫(kù)的保護(hù),依據(jù)其1976年《版權(quán)法》第101條的規(guī)定,以及著名的“費(fèi)斯特”案確定下來(lái)的規(guī)則,也需判斷對(duì)數(shù)據(jù)選擇、整理、安排上的最低原創(chuàng)性。歐盟對(duì)數(shù)據(jù)庫(kù)的保護(hù)則近乎于直接保護(hù)投資,1996年出臺(tái)的《關(guān)于數(shù)據(jù)庫(kù)法律保護(hù)的指令》明確,在對(duì)數(shù)據(jù)庫(kù)的保護(hù)中無(wú)需考察其對(duì)材料的選擇、編排是否具備獨(dú)創(chuàng)性,而專門(mén)創(chuàng)設(shè)了一種獨(dú)立于傳統(tǒng)版權(quán)的數(shù)據(jù)庫(kù)“特別權(quán)利”保護(hù)。
當(dāng)然,結(jié)構(gòu)化只是數(shù)據(jù)集獲得版權(quán)保護(hù)的必要條件,但并非充分條件,還需要該結(jié)構(gòu)滿足著作權(quán)法上的獨(dú)創(chuàng)性要求,需要在個(gè)案中去考察。然而,由于舒適、高效的用戶體驗(yàn)是數(shù)據(jù)庫(kù)的核心競(jìng)爭(zhēng)力之一,因此,就同類型的數(shù)據(jù)庫(kù)而言,不同建設(shè)者往往也會(huì)形成在結(jié)構(gòu)、編排上高度相似的數(shù)據(jù)庫(kù),以致難以達(dá)到著作權(quán)法上的獨(dú)創(chuàng)性要求,因此,結(jié)構(gòu)化數(shù)據(jù)庫(kù)版權(quán)保護(hù)的司法適用結(jié)果仍存在一定的不確定性。為此,歐盟不區(qū)分?jǐn)?shù)據(jù)庫(kù)獨(dú)創(chuàng)性而統(tǒng)一提供“特別權(quán)利”保護(hù),德國(guó)則將非獨(dú)創(chuàng)性的數(shù)據(jù)庫(kù)作為鄰接權(quán)對(duì)象予以保護(hù),日本著作權(quán)法上保護(hù)的數(shù)據(jù)庫(kù)作品僅要求內(nèi)容系經(jīng)過(guò)選擇或系統(tǒng)構(gòu)建而成即可,不需要特別的創(chuàng)造,美國(guó)也曾意圖推進(jìn)類似于歐盟的“特別權(quán)利”立法,但未能在國(guó)會(huì)通過(guò)。因此,在包括中美在內(nèi)的大多數(shù)國(guó)家和地區(qū),均依靠競(jìng)爭(zhēng)法的規(guī)則來(lái)規(guī)制不當(dāng)使用他人非獨(dú)創(chuàng)性的結(jié)構(gòu)化數(shù)據(jù)集的行為。
(四)非結(jié)構(gòu)化的出版物數(shù)據(jù)集權(quán)益
數(shù)據(jù)庫(kù)往往是根據(jù)先預(yù)定好的關(guān)系模型來(lái)對(duì)數(shù)據(jù)進(jìn)行收集、存儲(chǔ)和應(yīng)用,而AI學(xué)習(xí)的數(shù)據(jù)集不僅包括了經(jīng)過(guò)結(jié)構(gòu)化處理的數(shù)據(jù)庫(kù),還涵蓋了數(shù)據(jù)庫(kù)無(wú)法處理的“用戶瀏覽痕跡、設(shè)備信息、分享資料等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)”,這也是AI學(xué)習(xí)所依賴的數(shù)據(jù)集與傳統(tǒng)數(shù)據(jù)庫(kù)的主要區(qū)別。非結(jié)構(gòu)化數(shù)據(jù)集的保護(hù)是當(dāng)前各國(guó)所共同面臨的難題。中共中央、國(guó)務(wù)院2022年12月印發(fā)的《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》中明確提出,要建立數(shù)據(jù)資源持有權(quán)、數(shù)據(jù)加工使用權(quán)、數(shù)據(jù)產(chǎn)品經(jīng)營(yíng)權(quán)分置的數(shù)據(jù)產(chǎn)權(quán)運(yùn)行機(jī)制,但在法律制度上落地仍需時(shí)日。非結(jié)構(gòu)化數(shù)據(jù)集之上的權(quán)益性質(zhì),在權(quán)利法定主義原則之下,要被定性為獨(dú)立的數(shù)據(jù)財(cái)產(chǎn)權(quán)還為時(shí)尚早,但其需要較大的投入且具有較大的市場(chǎng)交易價(jià)值已是不爭(zhēng)的事實(shí),出版者也現(xiàn)實(shí)地享有競(jìng)爭(zhēng)性利益。實(shí)際上,我國(guó)司法上依托誠(chéng)信原則、商業(yè)道德、勞動(dòng)理論等,已經(jīng)廣泛認(rèn)可了市場(chǎng)主體對(duì)數(shù)據(jù)資源的競(jìng)爭(zhēng)性權(quán)益。因此,在AI所獲取的數(shù)據(jù)集之上,出版者兼享有廣泛的權(quán)利和利益。
三、人工智能學(xué)習(xí)獲取出版物的技術(shù)邏輯
(一)人工智能學(xué)習(xí)中的數(shù)據(jù)獲取原理
在《人工智能:一種現(xiàn)代的方法》一書(shū)中認(rèn)為,能夠通過(guò)圖靈測(cè)試而被稱為AI的計(jì)算機(jī)應(yīng)滿足自然語(yǔ)言處理、知識(shí)表示、自動(dòng)推理和機(jī)器學(xué)習(xí)四大能力,可見(jiàn),機(jī)器學(xué)習(xí)實(shí)際是AI的一個(gè)重要部分,甚至是最核心的能力,是為AI系統(tǒng)提供無(wú)需程序指令而自動(dòng)學(xué)習(xí)并根據(jù)經(jīng)驗(yàn)改進(jìn)的能力和過(guò)程。機(jī)器學(xué)習(xí)至今沒(méi)有比較統(tǒng)一的定義,業(yè)界廣泛引用的美國(guó)學(xué)者湯姆·米切爾(Tom Mitchell)的《機(jī)器學(xué)習(xí)》一書(shū)對(duì)機(jī)器學(xué)習(xí)的定義是:就某類任務(wù)T和性能P而言,計(jì)算機(jī)程序通過(guò)從經(jīng)驗(yàn)E中學(xué)習(xí),提升了在任務(wù)T上的性能P,則稱其從經(jīng)驗(yàn)E中學(xué)習(xí)。機(jī)器學(xué)習(xí)的一般流程是:定義問(wèn)題、收集數(shù)據(jù)、比較算法與模型、應(yīng)用模型,數(shù)據(jù)收集階段則包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換三個(gè)步驟。
從表面看,AI是讓機(jī)器人模仿人,但其實(shí)質(zhì)是對(duì)數(shù)據(jù)的采集與利用,可以說(shuō)AI最重要的是數(shù)據(jù),而非程序。生成式AI是已進(jìn)入“深度學(xué)習(xí)+”階段的應(yīng)用,必須要花大量的時(shí)間、利用大量的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。例如,ChatGPT的學(xué)習(xí)用數(shù)據(jù)達(dá)45TB的規(guī)模,與其同開(kāi)發(fā)者的Codex,也是基于數(shù)十億行開(kāi)源軟件代碼訓(xùn)練而成。Stability AI開(kāi)發(fā)的Stable Diffusion,基礎(chǔ)是一個(gè)包含58.5億個(gè)圖片及文字描述的超鏈接的數(shù)據(jù)集。收集數(shù)據(jù)是機(jī)器學(xué)習(xí)的第一步,而數(shù)據(jù)的收集方式,則因任務(wù)的不同而有所區(qū)別。
收集到數(shù)據(jù)后,要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。理論上常以數(shù)據(jù)可用信息為標(biāo)準(zhǔn)將機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)三大類。有監(jiān)督學(xué)習(xí)需要對(duì)收集的數(shù)據(jù)進(jìn)行預(yù)處理,規(guī)范數(shù)據(jù)結(jié)構(gòu)、刪除不合格數(shù)據(jù)等,然后對(duì)數(shù)據(jù)樣本做標(biāo)注,機(jī)器再通過(guò)這些帶標(biāo)注的樣本集學(xué)習(xí)建立一個(gè)模型,在模型確定后,該模型就可以對(duì)新的輸入進(jìn)行結(jié)果預(yù)測(cè)。這種數(shù)據(jù)標(biāo)注包括了人工標(biāo)注。無(wú)監(jiān)督學(xué)習(xí)數(shù)據(jù)的標(biāo)注,就需要機(jī)器從數(shù)據(jù)自身發(fā)現(xiàn)一些現(xiàn)象或模式,常用的方法是聚類、降維與可視化、密度估計(jì)、穩(wěn)變量因子分析等。而半監(jiān)督學(xué)習(xí)則是針對(duì)只有部分有標(biāo)注的樣本的學(xué)習(xí),綜合了有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的方法。理論上,生成式AI是以這些學(xué)習(xí)方式為基礎(chǔ),并發(fā)展到多層的深度學(xué)習(xí)階段的產(chǎn)物。
(二)人工智能學(xué)習(xí)中的出版物抓取
AI學(xué)習(xí)的數(shù)據(jù)來(lái)源多元,就出版物而言,總體有數(shù)字化與非數(shù)字化之分。對(duì)于尚未數(shù)字化的出版物,AI數(shù)據(jù)收集的第一步即通過(guò)傳感器等技術(shù)手段將其數(shù)字化,該過(guò)程成本巨大。就已經(jīng)數(shù)字化的出版物數(shù)據(jù)而言,又有在線數(shù)據(jù)與離線數(shù)據(jù)之分。離線數(shù)據(jù)無(wú)法自行獲取,往往需要持有方來(lái)提供。在線數(shù)據(jù)則可以諸如數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)文件、流數(shù)據(jù)、多媒體、網(wǎng)頁(yè)等形式集中存儲(chǔ)或分布在網(wǎng)絡(luò)服務(wù)器上的各種各樣的數(shù)據(jù)。除通過(guò)授權(quán)獲取之外,基于一定的技術(shù)手段,在線數(shù)據(jù)均有被自行獲取的可能性,這就需要依靠一種文本與數(shù)據(jù)挖掘(Text and Data Mining,以下簡(jiǎn)稱TDM)的技術(shù)。以ChatGPT為例,其數(shù)據(jù)來(lái)源包括從各種網(wǎng)站上獲取的無(wú)標(biāo)注文本數(shù)據(jù)、經(jīng)人工標(biāo)注的訓(xùn)練數(shù)據(jù)以及與用戶對(duì)話產(chǎn)生的交互數(shù)據(jù)三大類。其訓(xùn)練數(shù)據(jù)主要是依靠人類專家和已經(jīng)過(guò)訓(xùn)練的現(xiàn)成數(shù)據(jù),如SQuAD、CoSAT、GloVe等,而無(wú)標(biāo)注文本數(shù)據(jù)的獲取則主要依賴TDM,從社交網(wǎng)站Reddit、程序員問(wèn)答社區(qū)StackOverflow和推特等網(wǎng)站中抓取而來(lái)。
事實(shí)上,AI學(xué)習(xí)或訓(xùn)練用的數(shù)據(jù),絕大多數(shù)也是從網(wǎng)絡(luò)上抓取存儲(chǔ)在硬盤(pán)、云存儲(chǔ)或數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)并下載而來(lái),下載和存儲(chǔ)的過(guò)程就涉嫌侵犯版權(quán)。我國(guó)AI建設(shè)的系統(tǒng)標(biāo)準(zhǔn)仍在建構(gòu)之中,但是,2020年7月27日五部門(mén)聯(lián)合發(fā)布的《國(guó)家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》(國(guó)標(biāo)委聯(lián)[2020]35號(hào))已經(jīng)明確了我國(guó)AI的五大支撐技術(shù),其中大數(shù)據(jù)、智能傳感器和數(shù)據(jù)存儲(chǔ)技術(shù)均與機(jī)器學(xué)習(xí)中的數(shù)據(jù)獲取密切相關(guān)。在國(guó)內(nèi)行業(yè)實(shí)踐中,AI開(kāi)發(fā)者訓(xùn)練數(shù)據(jù)的獲取主要來(lái)自于自行采集、從公開(kāi)數(shù)據(jù)集獲取、模擬產(chǎn)生、用數(shù)據(jù)挖掘或爬取技術(shù)抓取、第三方購(gòu)買(mǎi)等五種途徑。其中,前三類渠道整體上較為尊重有關(guān)數(shù)據(jù)主體的授權(quán),而使用數(shù)據(jù)挖掘或爬取技術(shù)的情形由于未保障數(shù)據(jù)主體的知情權(quán)和授權(quán)范圍而面臨著較大的倫理與法律隱患。通過(guò)第三方購(gòu)買(mǎi)渠道獲取的數(shù)據(jù),在該第三方獲取數(shù)據(jù)階段也面臨同樣的法律問(wèn)題,并且,這種風(fēng)險(xiǎn)實(shí)際不會(huì)因AI研發(fā)者所使用的數(shù)據(jù)系合法購(gòu)買(mǎi)而完全轉(zhuǎn)嫁至第三方。
(三)人工智能學(xué)習(xí)中的出版物預(yù)處理
復(fù)制、存儲(chǔ)僅僅是AI數(shù)據(jù)獲取的第一步,隨后還要經(jīng)歷復(fù)雜的數(shù)據(jù)預(yù)處理過(guò)程。不同類型的機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)的預(yù)處理不甚一致。有監(jiān)督學(xué)習(xí)的前提是數(shù)據(jù)標(biāo)注和分類,數(shù)據(jù)標(biāo)注是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為機(jī)器可識(shí)別、可做訓(xùn)練之用的數(shù)據(jù)集。數(shù)據(jù)分類則是將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩部分,首先用訓(xùn)練集對(duì)算法進(jìn)行訓(xùn)練,得到模型,然后利用模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),計(jì)算預(yù)測(cè)誤差再反饋至機(jī)器算法。無(wú)監(jiān)督學(xué)習(xí)主要方法是聚類和關(guān)聯(lián)分析,聚類即將數(shù)據(jù)集劃分為若干個(gè)相似實(shí)例組成的簇,使得同一個(gè)簇中的實(shí)例間相似度最大化,而關(guān)聯(lián)分析法則用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中有意義的聯(lián)系,這種聯(lián)系可以用關(guān)聯(lián)規(guī)則進(jìn)行表示。AI學(xué)習(xí)本身也常運(yùn)用AI技術(shù),基于深度學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,大大提高了數(shù)據(jù)標(biāo)注的效率。
數(shù)據(jù)的質(zhì)量直接影響AI學(xué)習(xí)的效果,而由于人的錯(cuò)誤、測(cè)量設(shè)備的限制以及數(shù)據(jù)收集過(guò)程的漏洞等種種原因,數(shù)據(jù)質(zhì)量往往參差不齊。因此,在數(shù)據(jù)標(biāo)注前有必要先做“數(shù)據(jù)清洗”,以刪除重復(fù)信息、糾正存在的錯(cuò)誤并提供數(shù)據(jù)一致性。該過(guò)程由機(jī)器依據(jù)算法自動(dòng)進(jìn)行,主要任務(wù)在于標(biāo)注出殘缺、錯(cuò)誤或重復(fù)的數(shù)據(jù),以供后續(xù)處理。除數(shù)據(jù)補(bǔ)正等往往需要人工完成之外,后續(xù)的數(shù)據(jù)清理仍可廣泛借助算法工具,主要技術(shù)是屬性選擇技術(shù)、主成分分析技術(shù)與離散化技術(shù)。屬性選擇指從數(shù)據(jù)集中選擇最具代表性的屬性子集,刪除冗余或不相關(guān)屬性。主成分分析則是將數(shù)據(jù)降維,把給定的一組相關(guān)屬性通過(guò)線性變換轉(zhuǎn)換成另一組不相關(guān)的屬性,將復(fù)雜問(wèn)題簡(jiǎn)單化,便于分析和處理。離散化即將連續(xù)的數(shù)值型數(shù)據(jù)切分為若干個(gè)分箱的小段。從前述數(shù)據(jù)的清洗、轉(zhuǎn)化、標(biāo)注、刪除、切分等預(yù)處理的原理來(lái)看,其過(guò)程既可能構(gòu)成對(duì)具體數(shù)據(jù)的修改,也可能構(gòu)成對(duì)數(shù)據(jù)集在體量、邏輯、關(guān)聯(lián)、結(jié)構(gòu)等方面的變更。
四、人工智能學(xué)習(xí)侵犯出版者權(quán)益的風(fēng)險(xiǎn)
(一)人工智能學(xué)習(xí)侵犯出版者權(quán)益的入責(zé)邏輯
基于出版物的AI學(xué)習(xí),前提是對(duì)出版物的復(fù)制,這也是AI學(xué)習(xí)過(guò)程中最大的版權(quán)障礙或侵權(quán)風(fēng)險(xiǎn)所在。AI學(xué)習(xí)尚未進(jìn)入內(nèi)容輸出的階段,無(wú)成果的生成和傳播,因此,尚不涉及演繹權(quán)、傳播權(quán)等侵權(quán)問(wèn)題。不同于出版物的數(shù)字網(wǎng)絡(luò)轉(zhuǎn)載、傳播,AI學(xué)習(xí)過(guò)程中的復(fù)制不具有開(kāi)放性,其侵權(quán)事實(shí)的認(rèn)定相對(duì)復(fù)雜。在司法實(shí)踐中,復(fù)制權(quán)侵權(quán)的判定往往被演繹權(quán)、傳播權(quán)等侵權(quán)所吸收,或需要以之為目的,少有單獨(dú)認(rèn)定復(fù)制權(quán)侵權(quán)的判例。并且,基于海量出版物學(xué)習(xí)而來(lái)的“成果”也無(wú)法確定任何一個(gè)作品作為演繹來(lái)源,著作權(quán)法意義上的演繹、傳播的目的難以證成。但是,復(fù)制權(quán)自始以來(lái)便是版權(quán)中的首要內(nèi)容,制度上認(rèn)可復(fù)制權(quán)獨(dú)立保護(hù)的價(jià)值。在一些特定的情形下,如對(duì)出版物未經(jīng)授權(quán)的翻拍、掃描、在線瀏覽等,復(fù)制權(quán)被獨(dú)立侵犯的可能性仍然存在。并且,正是這種中間復(fù)制使得機(jī)器學(xué)習(xí)區(qū)別于人類的學(xué)習(xí),美國(guó)第九巡回法院在世嘉公司訴譽(yù)嘉公司版權(quán)侵權(quán)案(Sega Enterprises v.Accolade)中認(rèn)為,軟件逆向工程中對(duì)軟件作品的中間復(fù)制本身就侵犯了版權(quán),而不論其最終狀態(tài)是否侵權(quán)。當(dāng)然,該案法院最終認(rèn)定譽(yù)嘉公司對(duì)世嘉公司Genesis游戲程序的逆向工程構(gòu)成“合理使用”。實(shí)際上,我國(guó)《著作權(quán)法》第十條所規(guī)定的內(nèi)容均無(wú)目的性要求,均是對(duì)特定利用方式的獨(dú)立控制,相應(yīng)的目的性要求則是出現(xiàn)在“合理使用”“法定許可”等權(quán)利限制條款,二者的適用在邏輯上有先后,即落人版權(quán)保護(hù)范疇是前提,權(quán)利限制是抗辯。因此,在考量特定行為是否落人版權(quán)控制范疇時(shí),不能直接“一步到位”將目的性要素帶入。
就數(shù)據(jù)的存儲(chǔ)而言,實(shí)際也是復(fù)制。美國(guó)現(xiàn)有的司法判例已經(jīng)確認(rèn),不論是在硬盤(pán)還是在隨機(jī)存儲(chǔ)器上的存儲(chǔ),都滿足版權(quán)法的固定性要求,因?yàn)橛脖P(pán)遠(yuǎn)比用以暫時(shí)存儲(chǔ)程序、數(shù)據(jù)和中間結(jié)果的隨機(jī)存儲(chǔ)器穩(wěn)定,即使數(shù)據(jù)沒(méi)有被永久存儲(chǔ)在硬盤(pán)中,而是在完成訓(xùn)練之后就被刪除。如果訓(xùn)練數(shù)據(jù)被存儲(chǔ)在云端,那也同樣是由物理硬盤(pán)來(lái)存儲(chǔ)的,只是需要通過(guò)互聯(lián)網(wǎng)或局域網(wǎng)來(lái)訪問(wèn)。在《世界知識(shí)產(chǎn)權(quán)組織版權(quán)條約》制定過(guò)程中,歐美曾主張將中間復(fù)制納入復(fù)制權(quán)控制范圍,因遭到包括中國(guó)在內(nèi)的一些國(guó)家的堅(jiān)決反對(duì)而未成功,但在美國(guó)的堅(jiān)持下,仍然增加了一條含義模糊的規(guī)定,授權(quán)各國(guó)法律自行解釋以數(shù)字形式對(duì)作品的“存儲(chǔ)”是否包含臨時(shí)復(fù)制。可見(jiàn),我國(guó)《著作權(quán)法》上的復(fù)制權(quán)原則上并不包含臨時(shí)復(fù)制的內(nèi)容。但是,我國(guó)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》為用于防止、限制未經(jīng)權(quán)利人許可“瀏覽”“欣賞”作品的技術(shù)措施也提供了保護(hù),實(shí)際上也部分承認(rèn)了臨時(shí)復(fù)制利益,因“瀏覽”“欣賞”背后的技術(shù)即臨時(shí)復(fù)制。因此,在出版者對(duì)出版物采取了技術(shù)措施的情況下,AI通過(guò)破壞或規(guī)避技術(shù)措施而采取的復(fù)制和臨時(shí)存儲(chǔ)也可能構(gòu)成侵權(quán)。
就出版物的預(yù)處理而言,對(duì)于數(shù)據(jù)的清理、過(guò)濾、去除偏差、格式化以及數(shù)據(jù)轉(zhuǎn)化、劃分等預(yù)處理操作,在涉及出版者時(shí),既可能侵犯其就具體出版物享有的權(quán)利,也可能侵犯其就數(shù)據(jù)集整體所享有的權(quán)利。就前者而言,數(shù)據(jù)的標(biāo)注、補(bǔ)正、刪減等,均有可能構(gòu)成對(duì)具體出版物的修改、演繹,落入修改權(quán)、演繹權(quán)的范疇。而對(duì)于數(shù)據(jù)集的變更,也可能落人出版者就數(shù)據(jù)集享有的權(quán)益之中。因?yàn)?,AI學(xué)習(xí)對(duì)數(shù)據(jù)集的預(yù)處理,即將非結(jié)構(gòu)化數(shù)據(jù)集處理為結(jié)構(gòu)化數(shù)據(jù)集,或?qū)⒈旧硪呀?jīng)被來(lái)源出版者結(jié)構(gòu)化了的數(shù)據(jù)集重構(gòu)為AI所需的數(shù)據(jù)集,該過(guò)程即數(shù)據(jù)集結(jié)構(gòu)的變化。一直以來(lái),我國(guó)著作權(quán)法始終將對(duì)數(shù)據(jù)、材料的選擇、編排的獨(dú)創(chuàng)性作為數(shù)據(jù)庫(kù)版權(quán)保護(hù)的實(shí)質(zhì)要件,其權(quán)利保護(hù)的范疇也僅及于對(duì)數(shù)據(jù)材料的選擇和編排,而對(duì)數(shù)據(jù)集結(jié)構(gòu)的修改,恰好落入了這一控制范圍。
(二)人工智能學(xué)習(xí)侵犯出版者權(quán)益的出責(zé)事由
要將AI學(xué)習(xí)中的TDM認(rèn)定為侵權(quán)也面臨一定的困難。有觀點(diǎn)認(rèn)為,如果人類從書(shū)本中學(xué)習(xí)并不侵權(quán),那么機(jī)器類似的學(xué)習(xí)也不侵權(quán),盡管學(xué)習(xí)過(guò)程中會(huì)不可避免地制作復(fù)制件。一般而言,AI學(xué)習(xí)開(kāi)發(fā)者對(duì)于復(fù)制作品的表達(dá)毫無(wú)興趣,其真正需要的是作品事實(shí)形態(tài)中的功能性要素。AI對(duì)表達(dá)的挖掘是功能性的或非表達(dá)性的目的,提取的是不受版權(quán)保護(hù)的思想和方法,不符合著作權(quán)法所保護(hù)的作品性復(fù)制,因而不能訴請(qǐng)版權(quán)侵權(quán)。也就是說(shuō),AI學(xué)習(xí)對(duì)作品的復(fù)制,并非表達(dá)性復(fù)制,而是對(duì)作品事實(shí)形態(tài)的復(fù)制,不將其認(rèn)定為侵權(quán)也符合“思想/表達(dá)二分法”之意。AI開(kāi)發(fā)者也并未向公眾傳輸或提供這些作品,而僅用于AI模型的訓(xùn)練,最后訓(xùn)練而成的AI模型中并不會(huì)原樣出現(xiàn)這些作品。在生成式AI的應(yīng)用中,后續(xù)會(huì)生產(chǎn)出與其所學(xué)習(xí)的出版物類似形式的“成果”,但由于難以確定特定的來(lái)源出版物,以致其目的性判定同樣有較大的不確定性。也有觀點(diǎn)主張結(jié)合訓(xùn)練作品來(lái)源與輸出內(nèi)容而將機(jī)器學(xué)習(xí)(Machine Learning,以下簡(jiǎn)稱ML)劃分為不同的類型,從而分別適用非作品性使用、合理使用和侵權(quán)性使用的規(guī)則。以上認(rèn)識(shí)的共同特征在于將ML與其目的、后續(xù)活動(dòng)相聯(lián)系,而非獨(dú)立認(rèn)定ML活動(dòng),此類認(rèn)識(shí)實(shí)際也反映了司法實(shí)踐中普遍存在的難以脫離復(fù)制目的或后續(xù)傳播行為而獨(dú)立認(rèn)定復(fù)制權(quán)侵權(quán)的問(wèn)題所在。
即使確認(rèn)AI學(xué)習(xí)過(guò)程中對(duì)出版物的挖掘已經(jīng)落人出版者數(shù)據(jù)權(quán)益的范圍,但是AI開(kāi)發(fā)者的抗辯事由仍相對(duì)豐富,該權(quán)益可能受到的限制仍然廣泛。盡管廣州互聯(lián)網(wǎng)法院率先做出了AI平臺(tái)侵權(quán)的判決,但該判決依據(jù)的基本事實(shí)是AI輸出實(shí)質(zhì)性相似作品且平臺(tái)未采取預(yù)防侵權(quán)措施,對(duì)占據(jù)AIGC主流的非表達(dá)性輸出指導(dǎo)作用有限。美國(guó)正在進(jìn)行的三大生成式AI侵權(quán)訴訟則直指對(duì)作品、數(shù)據(jù)的轉(zhuǎn)換性使用,是相對(duì)典型的分析樣本。在尚無(wú)專門(mén)的TDM版權(quán)例外規(guī)定的背景下,合理使用便是被訴方必然會(huì)選擇的抗辯事由。在美國(guó)版權(quán)法上,合理使用須滿足四個(gè)方面的標(biāo)準(zhǔn):作品使用的目的、作品的性質(zhì)、作品使用的數(shù)量和內(nèi)容、對(duì)作品市場(chǎng)和價(jià)值的影響。就AI學(xué)習(xí)而言,教學(xué)、研究和學(xué)術(shù)目的是最有利的要素,而市場(chǎng)影響要素的權(quán)重最重,作品性質(zhì)要素的重要性最低。就作品使用目的而言,很多觀點(diǎn)認(rèn)為AI為了學(xué)習(xí)訓(xùn)練的目的而挖掘作品并不構(gòu)成侵權(quán),因其并未向外傳播作品。同樣,轉(zhuǎn)換性使用是判斷目的要件的重要事由,早在美國(guó)谷歌圖書(shū)館案(Authors Guild v.Google)中,一審紐約南區(qū)聯(lián)邦地方法院和二審聯(lián)邦第二巡回法院一致認(rèn)為,谷歌為了研究目的對(duì)數(shù)以百萬(wàn)計(jì)的圖書(shū)進(jìn)行的數(shù)字化是一種高度轉(zhuǎn)換性的合理使用。由此可見(jiàn),轉(zhuǎn)換性使用的事由對(duì)數(shù)量要件也有明顯外溢效應(yīng),即使是對(duì)數(shù)百萬(wàn)圖書(shū)的數(shù)字化也可能被法院認(rèn)定為是轉(zhuǎn)換性使用的必然,轉(zhuǎn)換性使用甚至事實(shí)上一度形成對(duì)“四標(biāo)準(zhǔn)”的替代。就市場(chǎng)影響而言,美國(guó)聯(lián)邦法院并非只考慮數(shù)據(jù)授權(quán)市場(chǎng)的損失,還會(huì)著重考量對(duì)社會(huì)公眾的影響,尤其是當(dāng)新技術(shù)的發(fā)展顯著對(duì)公眾有益時(shí),更有利于合理使用的認(rèn)定。總體上看,前述三個(gè)案件中的AI開(kāi)發(fā)者在合理使用認(rèn)定中占有顯著優(yōu)勢(shì)。
但是,美國(guó)法上合理使用的適用結(jié)果是不可預(yù)知的,相較而言,部分國(guó)家或地區(qū)在此問(wèn)題上有更加明確的態(tài)度。日本是最早為T(mén)DM提供侵權(quán)例外規(guī)定的,早在2009年,日本《著作權(quán)法》第47(7)條就允許所有目的的TDM。為了進(jìn)一步促進(jìn)AI和大數(shù)據(jù)技術(shù)發(fā)展,2018年修改的日本《著作權(quán)法》,又從三個(gè)方面進(jìn)一步移除了AI發(fā)展的障礙:一是為了ML目的作品分析和推理(第30-4條);二是允許附帶性的作品復(fù)制(第47-4條);三是允許為了數(shù)據(jù)核驗(yàn)的目的作品使用(第47-5條)?!稓W盟數(shù)據(jù)庫(kù)版權(quán)指令》將對(duì)數(shù)據(jù)庫(kù)實(shí)質(zhì)部分的提取和對(duì)非實(shí)質(zhì)部分的重復(fù)、系統(tǒng)提取和使用均認(rèn)定為侵權(quán),目的是維系權(quán)利人與公眾的利益平衡。此后,歐盟《數(shù)字化單一市場(chǎng)版權(quán)指令》又要求成員國(guó)為研究機(jī)構(gòu)和遺產(chǎn)保護(hù)機(jī)構(gòu)設(shè)置以研究為目的的TDM例外(第3條)以及商業(yè)性的TDM例外(第4條),但為權(quán)利人預(yù)留了選擇退出的權(quán)利。該規(guī)定廣受批評(píng),因?yàn)槠鋵?shí)際上賦予了權(quán)利人授權(quán)或禁止TDM的權(quán)利,對(duì)AI開(kāi)發(fā)者不利。自2014年起,英國(guó)便規(guī)定了非商業(yè)性、TDM例外,2022年6月,英國(guó)政府又公布了一項(xiàng)關(guān)于商業(yè)性質(zhì)TDM例外的提案,且沒(méi)有規(guī)定選擇退出機(jī)制,但是,該提案在創(chuàng)意產(chǎn)業(yè)的強(qiáng)烈反對(duì)下被撤銷。以色列司法部在2023年發(fā)布的一份意見(jiàn)書(shū)中明確,AI的ML顯然屬于以色列版權(quán)法中合理使用的范疇。
是否構(gòu)成“合理使用”在我國(guó)需要遵從“三步檢驗(yàn)法”來(lái)認(rèn)定,而屬于《著作權(quán)法》第二十四條所明確規(guī)定的特殊情形是其首要要件,但AI學(xué)習(xí)中對(duì)作品的使用并未被規(guī)定在其中。國(guó)內(nèi)理論界長(zhǎng)期堅(jiān)持對(duì)“三步檢驗(yàn)法”中的特殊情形做嚴(yán)格的、封閉的解釋,但也有研究認(rèn)為《伯爾尼公約》所確定的特殊情形本身具備開(kāi)放性,且各成員國(guó)國(guó)內(nèi)立法機(jī)關(guān)和司法機(jī)關(guān)均能夠予以適用。在尚無(wú)條件推動(dòng)將TDM寫(xiě)入“合理使用”特殊情形的情況下,也可通過(guò)解釋論將非營(yíng)利性的AI學(xué)習(xí)解釋進(jìn)“個(gè)人學(xué)習(xí)研究”及“學(xué)校課堂教學(xué)或者科學(xué)研究”中,再通過(guò)對(duì)“科學(xué)研究”做擴(kuò)大解釋來(lái)涵蓋營(yíng)利性的AI學(xué)習(xí)。也有觀點(diǎn)主張通過(guò)概括性解釋“合理使用”一般條款來(lái)將AI學(xué)習(xí)納入進(jìn)來(lái)。在我國(guó)《著作權(quán)法》第三次修訂過(guò)程中,“合理使用”特殊情形的兜底條款曾使用“其他情形”的表述,但正式稿將其限定為了“法律、行政法規(guī)規(guī)定的其他情形”,一定程度上表明立法者無(wú)意向司法機(jī)關(guān)開(kāi)放自主解釋適用該條款的權(quán)力。此前,司法機(jī)關(guān)有不少擴(kuò)張解釋適用“合理使用”情形的案例,且專門(mén)出臺(tái)過(guò)允許在確有必要時(shí)適用“四標(biāo)準(zhǔn)法”的意見(jiàn),而今后能否繼續(xù)擴(kuò)張適用還有待進(jìn)一步觀察和研究。
五、人工智能學(xué)習(xí)中出版者權(quán)益維護(hù)的有效路徑
(一)人工智能學(xué)習(xí)中出版者權(quán)益保護(hù)的必要
為了支持AI技術(shù)的發(fā)展,世界各國(guó)均在訴諸于推進(jìn)AI學(xué)習(xí)的合理使用例外,但是其支持程度不一,尤其在商用性質(zhì)的AI學(xué)習(xí)政策上,前景并不明朗。國(guó)內(nèi)也有大量研究探討將我國(guó)“合理使用”制度適用于AI學(xué)習(xí)的可能性問(wèn)題。然而,極力推進(jìn)合理使用制度適用的后果,是0或1的區(qū)別,沒(méi)有折衷狀態(tài),是對(duì)AI研發(fā)者抑或出版者利益的完全支持,容易走向利益的失衡。當(dāng)前,生成式AI已經(jīng)走出科研機(jī)構(gòu)和實(shí)驗(yàn)室進(jìn)入企業(yè)和市場(chǎng),數(shù)據(jù)擁有者主張利益的意愿也愈發(fā)強(qiáng)烈。在美國(guó)三維成像公司訴元平臺(tái)公司和普林斯頓大學(xué)案中,原告主張被告在場(chǎng)景識(shí)別AI開(kāi)發(fā)中下載其數(shù)據(jù)的行為非法,據(jù)其估算,相關(guān)的場(chǎng)景識(shí)別軟件的市場(chǎng)規(guī)模到2025年可達(dá)600億美元,但數(shù)據(jù)收集成本僅百萬(wàn)美元。AI免費(fèi)獲取數(shù)據(jù)的模式也激起了美國(guó)創(chuàng)作者群體的強(qiáng)烈反對(duì),2023年7月,美國(guó)8500名作家聯(lián)名要求OpenAI、微軟、Meta等AI公司賠償因使用其受版權(quán)保護(hù)的書(shū)籍、文章、詩(shī)歌等作品的損失,在他們看來(lái),這些作品實(shí)際成為了AI的免費(fèi)養(yǎng)料,而AI動(dòng)輒數(shù)十億美元的開(kāi)發(fā)資金中,理應(yīng)包含對(duì)作品使用的補(bǔ)償。美國(guó)作家協(xié)會(huì)也認(rèn)為,AI對(duì)作品的免費(fèi)使用將使作家無(wú)力繼續(xù)創(chuàng)作。AI研發(fā)者合理使用的抗辯也常被批評(píng)為一種竊取版權(quán)的方法。2024年2月2日,英國(guó)上議院通信和數(shù)字委員會(huì)發(fā)布了《大型語(yǔ)言模型和生成式人工智能》,呼吁英國(guó)政府抓住技術(shù)發(fā)展機(jī)遇,建議讓權(quán)利人有權(quán)檢查數(shù)據(jù)是否被擅自使用,鼓勵(lì)科技公司為內(nèi)容授權(quán)付費(fèi)。2024年2月9日,日本報(bào)刊出版協(xié)會(huì)向文化廳提交一份意見(jiàn)書(shū),將AI從版權(quán)作品中的學(xué)習(xí)稱作不可接受的“搭便車”行為,并呼吁從根本上修訂日本《著作權(quán)法》。同月28日,在繼美國(guó)《紐約時(shí)報(bào)》之后,又有多家媒體對(duì)OpenAI未經(jīng)許可、付費(fèi)而“搭便車”式利用其新聞內(nèi)容訓(xùn)練AI的行為發(fā)起了版權(quán)侵權(quán)之訴。2024年3月,三名作家以版權(quán)侵權(quán)為由起訴英偉達(dá)利用其書(shū)籍訓(xùn)練AI平臺(tái)NeMo的行為,而該平臺(tái)利用的數(shù)據(jù)庫(kù)包含了近20萬(wàn)本書(shū)籍。
當(dāng)前,我國(guó)出版物數(shù)據(jù)庫(kù)已經(jīng)具備了較大的體量,如大型報(bào)刊數(shù)據(jù)庫(kù)、古籍?dāng)?shù)據(jù)庫(kù)、數(shù)字圖書(shū)館、融媒體平臺(tái)等。開(kāi)發(fā)者直接購(gòu)買(mǎi)的出版物數(shù)據(jù)已經(jīng)是我國(guó)AI開(kāi)發(fā)中的重要數(shù)據(jù)來(lái)源之一,而未經(jīng)允許對(duì)出版物數(shù)據(jù)的抓取則可能對(duì)其交易價(jià)值的實(shí)現(xiàn)構(gòu)成實(shí)質(zhì)損害。總體上,AI學(xué)習(xí)中的TDM路徑多元,不同路徑所需付出的挖掘成本不同,若直接從現(xiàn)成的大型數(shù)據(jù)庫(kù)或數(shù)據(jù)集復(fù)制而來(lái),AI開(kāi)發(fā)者無(wú)疑將顯著節(jié)省數(shù)據(jù)挖掘和后續(xù)處理的成本,但對(duì)于出版者而言,則將因此喪失收益或交易潛力。在VHT公司訴Zillow集團(tuán)(VHT v.Zillow Grp.)案中,因原告正在積極開(kāi)發(fā)數(shù)據(jù)庫(kù)授權(quán)業(yè)務(wù),所以美國(guó)第九巡回上訴法院在合理使用的市場(chǎng)影響要素判斷中便顯著傾向于原告。國(guó)內(nèi)已有不少經(jīng)營(yíng)者以數(shù)據(jù)交易為業(yè),專為AI開(kāi)發(fā)提供有償數(shù)據(jù)服務(wù),依照數(shù)據(jù)類型、數(shù)據(jù)量或是否需要標(biāo)注等為標(biāo)準(zhǔn)來(lái)獲取對(duì)價(jià),甚至還能提供定制化的有償服務(wù)。除此之外,數(shù)據(jù)庫(kù)開(kāi)發(fā)本身往往是漫長(zhǎng)產(chǎn)業(yè)的一環(huán),是純投入階段,需要花費(fèi)巨額的成本,后續(xù)的數(shù)據(jù)處理和應(yīng)用才是收益期。因此,即使出版物數(shù)據(jù)庫(kù)所有者尚未開(kāi)發(fā)相應(yīng)市場(chǎng),未經(jīng)許可的TDM也可能搶占先機(jī),減損其基于出版物資源做相同或類似運(yùn)用的潛力和可能。例如,在??怂剐侣劸W(wǎng)有限公司訴電視之眼公司(Fox News Network v.TVEyes)案中,美國(guó)第二巡回上訴法院就基于被告對(duì)福克斯公司作品授權(quán)可能性的侵犯而否認(rèn)了合理使用。o盡管VHT案與Fox News Network案的被告都構(gòu)成轉(zhuǎn)換性使用,但法院同樣會(huì)重點(diǎn)考量該使用對(duì)授權(quán)市場(chǎng)的潛在影響。2023年8月,“中國(guó)知網(wǎng)”發(fā)布了“大模型+AIGC”的大數(shù)據(jù)知識(shí)管理系列產(chǎn)品,開(kāi)啟智能化知識(shí)服務(wù)時(shí)代,在此之前,其還僅僅是國(guó)內(nèi)最大的論文提供平臺(tái)。因此,若法律不及時(shí)提供保護(hù),AI學(xué)習(xí)對(duì)出版物數(shù)據(jù)集開(kāi)發(fā)者未來(lái)的盈利能力或構(gòu)成“釜底抽薪”式的損害。
此外,現(xiàn)階段的AI模型,仍存在對(duì)作品的表達(dá)性使用。盡管AI技術(shù)發(fā)展迅猛,但是,若要斷言其都已達(dá)到強(qiáng)人工智能階段還為時(shí)尚早,即使是被公認(rèn)為最先進(jìn)的GPT-40模型,對(duì)來(lái)源數(shù)據(jù)的使用也并不完全是非表達(dá)性使用,因此,部分AI學(xué)習(xí)對(duì)版權(quán)的侵犯是較容易判定的。在《紐約時(shí)報(bào)》對(duì)OpenAI、微軟等公司發(fā)起的侵權(quán)訴訟中,其舉證表明在一些情況下GPT模型輸出的內(nèi)容與《紐約時(shí)報(bào)》原文內(nèi)容構(gòu)成實(shí)質(zhì)性相似,甚至還可能原文輸出其內(nèi)容。無(wú)獨(dú)有偶,當(dāng)前被用戶尊為AI制圖“神器”的Midjourney V6模型,也存在大量輸出現(xiàn)有作品的原樣復(fù)制品的情況。在我國(guó)AIGC平臺(tái)侵權(quán)第一案中,法院認(rèn)定涉訴AIGC平臺(tái)Tab網(wǎng)站所生成的繪畫(huà)作品,與原告享有版權(quán)的作品構(gòu)成實(shí)質(zhì)性相似,這并不符合AI學(xué)習(xí)是對(duì)作品的轉(zhuǎn)換性使用的預(yù)設(shè)。同樣,在此前的AI文生圖著作權(quán)案中,法院也認(rèn)定原告在利用Stable Diffusion的AI模型生成人物圖片時(shí),對(duì)于人物及其呈現(xiàn)方式等畫(huà)面元素以及畫(huà)面布局、構(gòu)圖等均進(jìn)行了設(shè)計(jì),在AI根據(jù)其設(shè)計(jì)的參數(shù)生成第一張圖片之后,又繼續(xù)增加、修改參數(shù)并不斷調(diào)整,才最終得到了涉案的圖片,該過(guò)程體現(xiàn)了其獨(dú)特的選擇、判斷和審美,表明該AI模型也是強(qiáng)人工參與和控制之下的AI模型。在此大背景下推動(dòng)AI對(duì)數(shù)據(jù)的合理使用,顯然過(guò)于激進(jìn)。
(二)人工智能學(xué)習(xí)中出版物的海量許可
如上所述,合理使用制度在出版者數(shù)據(jù)權(quán)益的保障上有天然的缺陷,但是,過(guò)高的數(shù)據(jù)成本,同樣不利于AI技術(shù)及其應(yīng)用的發(fā)展。法律是利益之器。AI技術(shù)的發(fā)展和應(yīng)用,牽涉的不僅僅是AI開(kāi)發(fā)與出版兩個(gè)產(chǎn)業(yè)之間的博弈和平衡,還有廣泛的國(guó)際科技競(jìng)爭(zhēng)、國(guó)家安全等。由于AI研發(fā)者完全可以選擇一個(gè)對(duì)TDM技術(shù)最友好的國(guó)家進(jìn)行AI學(xué)習(xí)訓(xùn)練,因此,各國(guó)制度對(duì)AI產(chǎn)業(yè)的支持力度將直接影響本國(guó)AI產(chǎn)業(yè)的發(fā)展,為此,某些國(guó)家甚至不惜在TDM監(jiān)管政策上展開(kāi)“競(jìng)底競(jìng)爭(zhēng)”。當(dāng)前,發(fā)達(dá)國(guó)家均將AI技術(shù)的發(fā)展作為提升國(guó)際競(jìng)爭(zhēng)力的最重要手段之一。美國(guó)制定了聯(lián)邦A(yù)I研發(fā)戰(zhàn)略計(jì)劃,明確了AI研究中的7個(gè)優(yōu)先事項(xiàng)以及實(shí)現(xiàn)這些事項(xiàng)的兩點(diǎn)建議;加拿大制定了“泛加拿大AI戰(zhàn)略”的五年計(jì)劃;法國(guó)制定了國(guó)家“AI領(lǐng)導(dǎo)”戰(zhàn)略,意在成為歐洲國(guó)家AI戰(zhàn)略的代表;德國(guó)重點(diǎn)投入AI人才教育;澳大利亞政府直接投資支持AI技術(shù)的發(fā)展;韓國(guó)制定了國(guó)家AI發(fā)展戰(zhàn)略,立志到2030年成為全球AI四大強(qiáng)國(guó)之一;日本更是在多個(gè)方面制定引領(lǐng)世界的AI戰(zhàn)略;印度政府用千億盧比預(yù)算推進(jìn)“IndiaAI使命”項(xiàng)目,該項(xiàng)目將開(kāi)發(fā)一個(gè)統(tǒng)一的數(shù)據(jù)集平臺(tái),為AI研究者提供一站式解決方案,簡(jiǎn)化AI學(xué)習(xí)獲取非個(gè)人數(shù)據(jù)集的流程。
在激烈的國(guó)際競(jìng)爭(zhēng)中,我國(guó)也在大力推動(dòng)AI產(chǎn)業(yè)的發(fā)展,商湯、曠視、云從、依圖等AI獨(dú)角獸企業(yè)已經(jīng)成長(zhǎng)起來(lái),清華大學(xué)等頂尖高校陸續(xù)成立AI研究院。2017年7月,國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,提出“三步走”的戰(zhàn)略目標(biāo)。國(guó)家先后推動(dòng)建立了數(shù)十個(gè)“國(guó)家新一代人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)”和“國(guó)家人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)”。2023年7月,七部門(mén)聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》,確定對(duì)生成式AI服務(wù)實(shí)行包容審慎和分類分級(jí)監(jiān)管,在鼓勵(lì)發(fā)展的同時(shí)要求尊重知識(shí)產(chǎn)權(quán)且不得利用AI優(yōu)勢(shì)實(shí)施不正當(dāng)競(jìng)爭(zhēng),整體上對(duì)AI持積極擁抱并盡力消除可能的不當(dāng)影響的態(tài)度。
AI學(xué)習(xí)需要大規(guī)模的數(shù)據(jù),AI開(kāi)發(fā)者也并非完全不考量出版物數(shù)據(jù)使用許可和付費(fèi)的問(wèn)題,OpenAI于2023年底及2024年5月分別與美聯(lián)社(Associated Press)、阿克塞爾·斯普林格(Axel Springer)以及新聞集團(tuán)(News Corp)達(dá)成了使用其出版物訓(xùn)練AI模型的協(xié)議,這種授權(quán)被認(rèn)為很有可能成為AI開(kāi)發(fā)者與新聞機(jī)構(gòu)之間的未來(lái)合作模式。但是,如果完全依靠版權(quán)單獨(dú)許可或版權(quán)侵權(quán)賠償規(guī)則,則AI學(xué)習(xí)的出版物利用必定是低效率、高風(fēng)險(xiǎn)且高成本的,開(kāi)發(fā)者無(wú)力承擔(dān)數(shù)據(jù)成本,也就無(wú)從發(fā)展AI技術(shù)。并且,市場(chǎng)上也不乏高估自己持有數(shù)據(jù)集的價(jià)值甚至“敲竹杠”的持有者,以致私人協(xié)商合作難以達(dá)成。同時(shí),只有更大更多元的數(shù)據(jù)集才能訓(xùn)練出更好的AI模型,如果只允許AI基于有限的“合法”“安全”的數(shù)據(jù)庫(kù)進(jìn)行學(xué)習(xí)訓(xùn)練,則可能因數(shù)據(jù)來(lái)源的不全面而導(dǎo)致AI的算法偏見(jiàn),甚至產(chǎn)生倫理、安全等方面的消極后果。因此,在尊重出版者數(shù)據(jù)權(quán)益的前提下,仍需要探索消除TDM障礙的合理路徑。事實(shí)上,消除TDM的障礙,便利AI技術(shù)的發(fā)展和應(yīng)用,并非只有“合理使用”一個(gè)選項(xiàng)。在數(shù)據(jù)庫(kù)保護(hù)的現(xiàn)有研究中,已有觀點(diǎn)主張通過(guò)創(chuàng)新法定許可制度、完善版權(quán)集體管理制度等方式來(lái)解決數(shù)據(jù)庫(kù)多重權(quán)利的產(chǎn)生和行使方面的利益沖突問(wèn)題。同樣,也有部分觀點(diǎn)主張通過(guò)法定許可、集體管理等方式來(lái)解決TDM中的利益平衡問(wèn)題。
本文主張通過(guò)集體管理方式解決AI學(xué)習(xí)出版物海量許可的難題。一方面,我國(guó)法定許可制度整體上沒(méi)有很好起到平衡權(quán)利人與使用人利益關(guān)系的效果,且該制度在網(wǎng)絡(luò)環(huán)境下的適用幾經(jīng)爭(zhēng)論和反復(fù)終被否定??傮w上,法定許可制度是對(duì)權(quán)利人許可自主權(quán)的剝奪,應(yīng)當(dāng)慎重,沒(méi)有充分且必要的事由不應(yīng)該適用。另一方面,集體管理本質(zhì)上仍是一種許可方式,基本可以實(shí)現(xiàn)法定許可的效果,適宜管理網(wǎng)絡(luò)環(huán)境下的授權(quán),且制度建構(gòu)成本較低,集體管理組織還可統(tǒng)籌建立交易平臺(tái)、數(shù)據(jù)庫(kù),確定付費(fèi)機(jī)制或采用更為嚴(yán)厲的技術(shù)保護(hù)措施。但是,就大規(guī)模出版物數(shù)據(jù)集而言,仍應(yīng)以自主授權(quán)為主,集體管理組織的定價(jià)則可以作為交易及糾紛解決的參照標(biāo)準(zhǔn)。
(三)人工智能學(xué)習(xí)中出版者的技術(shù)維權(quán)
客觀上,ML并非總是善意或無(wú)害,因此伴生了對(duì)抗性機(jī)器學(xué)習(xí)(Adversarial Machine Learning,以下簡(jiǎn)稱AML)技術(shù)。AML專注于提取ML的訓(xùn)練集并計(jì)算其運(yùn)算程序,據(jù)此確定如何回應(yīng)ML的攻擊,然后制作一個(gè)可以規(guī)避攻擊的措施。當(dāng)前,數(shù)據(jù)商可以采取IP封禁、動(dòng)態(tài)密鑰、賬號(hào)封禁等反采集措施阻斷機(jī)器人的自動(dòng)采集。我國(guó)出版者也已經(jīng)開(kāi)始普遍采用數(shù)字底紋加密、綁定硬盤(pán)等技術(shù)保護(hù)措施。但是,僅就技術(shù)而言,以上技術(shù)措施被更先進(jìn)的TDM技術(shù)破解也只是時(shí)間問(wèn)題,并且,客觀上也不存在一種通用且永久有效的技術(shù)來(lái)全面保護(hù)各種出版物。在保護(hù)技術(shù)、破解技術(shù)、改進(jìn)的保護(hù)技術(shù)之間,是一種相互作用的動(dòng)態(tài)循環(huán)發(fā)展過(guò)程。
但是,制度的干預(yù)為出版者擺脫這種純技術(shù)對(duì)抗而獲取先機(jī)提供了一定的保障。著作權(quán)法對(duì)權(quán)利人為保護(hù)其權(quán)利所采取的技術(shù)措施和權(quán)利管理信息提供了額外的保護(hù),破壞和規(guī)避該技術(shù)措施和權(quán)利管理信息的行為也可被認(rèn)定為侵權(quán)。民法典也明確要求信息處理者采取必要的技術(shù)措施防止其收集、存儲(chǔ)的信息泄漏、篡改、丟失。在數(shù)據(jù)價(jià)值受到廣泛認(rèn)可的背景下,在數(shù)據(jù)之上采用了保密管理技術(shù)措施時(shí),對(duì)該技術(shù)措施的規(guī)避便可能構(gòu)成對(duì)商業(yè)秘密的侵犯。同樣,即使數(shù)據(jù)的財(cái)產(chǎn)地位尚不明晰,對(duì)其合法控制者所采取的技術(shù)措施的破壞和規(guī)避,仍有可能因構(gòu)成不正當(dāng)競(jìng)爭(zhēng)而具備可責(zé)性。例如,在北京微某網(wǎng)絡(luò)技術(shù)有限公司與廣州簡(jiǎn)某信息科技有限公司等不正當(dāng)競(jìng)爭(zhēng)糾紛案中,法院確認(rèn)原告對(duì)依法持有的微博數(shù)據(jù)享有自主管控、合法利用并獲取經(jīng)濟(jì)利益的權(quán)益,同時(shí)認(rèn)定被告采用欺騙性技術(shù)方式非法抓取原告大量后臺(tái)數(shù)據(jù)予以存儲(chǔ)并售賣獲利的行為,構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。
為進(jìn)一步明確數(shù)據(jù)持有方的權(quán)益,我國(guó)《反不正當(dāng)競(jìng)爭(zhēng)法(修訂草案征求意見(jiàn)稿)》在總結(jié)司法經(jīng)驗(yàn)的基礎(chǔ)上,增加了數(shù)據(jù)專條,擬規(guī)定“破壞技術(shù)管理措施獲取商業(yè)數(shù)據(jù)”和“實(shí)質(zhì)性替代”使用商業(yè)數(shù)據(jù)兩種類型的不正當(dāng)競(jìng)爭(zhēng)行為。因此,在就AI學(xué)習(xí)對(duì)出版物利用的立法、司法及政策的確定性和指引性尚未明晰之時(shí),出版者自主的技術(shù)措施便是一種最值得依賴的維權(quán)手段。例如,2023年4月,環(huán)球音樂(lè)集團(tuán)要求蘋(píng)果和Spotify切斷平臺(tái)與其音樂(lè)目錄的鏈接,防止AI從其受版權(quán)保護(hù)的作品中抓取歌詞和旋律;社交媒體網(wǎng)站Reddit也正在關(guān)閉AI對(duì)其數(shù)據(jù)流的訪問(wèn)并準(zhǔn)備推出專門(mén)的付費(fèi)應(yīng)用程序編程接口;推特將其應(yīng)用程序編程接口從免費(fèi)改為付費(fèi),從低價(jià)變?yōu)楦邇r(jià);為防止大規(guī)模爬蟲(chóng)數(shù)據(jù)采集,騰訊進(jìn)行了多輪反采集的技術(shù)升級(jí),采用短時(shí)效的URL動(dòng)態(tài)密鑰等技術(shù)來(lái)拒絕機(jī)器人的采集請(qǐng)求。AI學(xué)習(xí)中出版者權(quán)益的維護(hù)與普通創(chuàng)作者群體版權(quán)的維護(hù)之間,最本質(zhì)的區(qū)別也正是在于前者往往更有能力應(yīng)用技術(shù)措施來(lái)自主維護(hù)和管理權(quán)利。因此,就出版物數(shù)據(jù)及出版物服務(wù)數(shù)據(jù)而言,技術(shù)維權(quán)切實(shí)可行。
六、結(jié)語(yǔ)
歷史上曾多次出現(xiàn)過(guò)因新技術(shù)的發(fā)展和應(yīng)用導(dǎo)致利益沖突不斷,并最終推動(dòng)法律變革的實(shí)例,如印刷機(jī)、有線電視、錄像機(jī)、數(shù)字技術(shù)等。但是生成式AI是更加顛覆性的技術(shù),在給市場(chǎng)和社會(huì)帶來(lái)巨大機(jī)遇的同時(shí),也給先天帶有滯后屬性的法律制度帶來(lái)了嚴(yán)峻的挑戰(zhàn)。我國(guó)出版行業(yè)正在經(jīng)歷從傳統(tǒng)出版向數(shù)字出版、融合出版、智慧出版的轉(zhuǎn)變,智能技術(shù)賦能高質(zhì)量知識(shí)服務(wù)是大勢(shì)所趨。但是,在出版行業(yè)真正擁抱智慧技術(shù)之前,保障作為智慧技術(shù)主要“養(yǎng)料”的出版產(chǎn)業(yè)在智慧技術(shù)沖擊下的生存和發(fā)展更為緊迫,因此,AI學(xué)習(xí)訓(xùn)練過(guò)程中出版者權(quán)益的合理保障應(yīng)是重中之重。為此,學(xué)界應(yīng)繼續(xù)加強(qiáng)理論研究,探索構(gòu)建一個(gè)利益平衡的制度環(huán)境,力圖促成AI產(chǎn)業(yè)與出版產(chǎn)業(yè)的和諧共生、相互成就。
(作者羅明東系西南大學(xué)法學(xué)院講師、西南大學(xué)出版與傳播科學(xué)研究中心研究員;周安平系西南大學(xué)新聞傳媒學(xué)院教授、西南大學(xué)出版與傳播科學(xué)研究中心主任)