[摘要]人工智能算法運(yùn)行包含輸入數(shù)據(jù)、內(nèi)部學(xué)習(xí)及輸出結(jié)果三個(gè)階段,數(shù)據(jù)的收集和使用貫穿程序運(yùn)行的全部過程。而算法對(duì)于數(shù)據(jù)的迭代使用和再表達(dá)可能會(huì)出現(xiàn)非合理使用的風(fēng)險(xiǎn)??紤]到我國(guó)現(xiàn)有著作權(quán)許可模式的局限,應(yīng)吸收域外立法之經(jīng)驗(yàn),將合理使用的主體范圍進(jìn)行適當(dāng)擴(kuò)張,以順應(yīng)當(dāng)前人工智能技術(shù)產(chǎn)業(yè)發(fā)展需要。
[關(guān)鍵詞]人工智能算法;數(shù)據(jù)侵權(quán);合理使用
[中圖分類號(hào)]D922.16;TP18? ? [文獻(xiàn)標(biāo)識(shí)碼]A
[DOI]:10.20122/j.cnki.2097-0536.2024.01.014
一、問題的產(chǎn)生
在科技飛速發(fā)展的大數(shù)據(jù)時(shí)代,人工智能算法作為一類通過預(yù)先設(shè)定模型并進(jìn)行自主分析數(shù)據(jù)的智能程序,已經(jīng)可以完成機(jī)器自動(dòng)化、醫(yī)療、語(yǔ)言識(shí)別處理甚至文學(xué)藝術(shù)創(chuàng)作等社會(huì)多領(lǐng)域的工作任務(wù)。人工智能算法之所以被稱之為“智能”工具,核心在于其整個(gè)運(yùn)行過程與人類大腦神經(jīng)網(wǎng)絡(luò)存在高度相似性:首先抓取海量的數(shù)據(jù),再選擇合適的模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,不斷在演練中試錯(cuò)、優(yōu)化并發(fā)現(xiàn)規(guī)律,最終產(chǎn)生所需的結(jié)論。可以說,人工智能算法以數(shù)據(jù)作為基礎(chǔ)和“養(yǎng)料”,輸入數(shù)據(jù)越多,最終作出決策或輸出結(jié)果的正確性就越強(qiáng)。在如此海量的數(shù)據(jù)需求下,算法運(yùn)行中對(duì)數(shù)據(jù)的大量抓取和使用則可能產(chǎn)生著作權(quán)侵權(quán)及個(gè)人信息侵權(quán)等問題。[1]
目前,現(xiàn)有的人工智能算法領(lǐng)域?qū)τ跈?quán)利歸屬的認(rèn)定研究多偏向于認(rèn)定算法主體法律屬性、算法生成物著作權(quán)歸屬方面,對(duì)于人工智能運(yùn)行過程抓取并使用現(xiàn)有數(shù)據(jù)可能產(chǎn)生的數(shù)據(jù)侵權(quán)問題的相關(guān)研究較少。忽略數(shù)據(jù)侵權(quán)可能性,僅關(guān)注人工智能技術(shù)發(fā)展,無法對(duì)知識(shí)產(chǎn)權(quán)進(jìn)行保障,也不利于經(jīng)濟(jì)制度的長(zhǎng)期穩(wěn)定。從長(zhǎng)遠(yuǎn)來看反而會(huì)遏制技術(shù)的自由發(fā)展。
二、人工智能算法的運(yùn)行邏輯
人工智能中深度學(xué)習(xí)算法具有和人類大腦相似的學(xué)習(xí)方式,其內(nèi)部邏輯雖然因開發(fā)者賦予算法程序的不同任務(wù)而有所差別,但基本可以依據(jù)算法的大致運(yùn)行過程將工作流程劃分為以下三類:數(shù)據(jù)輸入(知識(shí)學(xué)習(xí)),內(nèi)部處理及數(shù)據(jù)輸出(學(xué)習(xí)成果)。[2]
首先是數(shù)據(jù)輸入階段,也就是數(shù)據(jù)的準(zhǔn)備和初期處理階段。這一階段涵蓋數(shù)據(jù)的收集、選擇以及分割,即數(shù)據(jù)的初步“篩選”過程。在這一階段需要收集海量數(shù)據(jù)并對(duì)其進(jìn)行簡(jiǎn)單的選擇和預(yù)處理。排除錯(cuò)誤數(shù)據(jù),選擇、提取正確數(shù)據(jù),以便算法能夠更好地理解和處理,汲取所需的“知識(shí)”。其次是內(nèi)部學(xué)習(xí)階段,這一部分是通過預(yù)先建立的模型訓(xùn)練數(shù)據(jù)并逐步掌握各種運(yùn)行規(guī)律和技巧的過程。在過程中不斷使用訓(xùn)練數(shù)據(jù)對(duì)模型的參數(shù)進(jìn)行調(diào)整,使算法能夠從數(shù)據(jù)中學(xué)習(xí)和適應(yīng),并在此過程中不斷優(yōu)化。最后是輸出階段,即輸出最終結(jié)果:算法創(chuàng)作最終生成特定創(chuàng)作物,而算法模型運(yùn)算則是將訓(xùn)練好的模型部署于實(shí)際應(yīng)用中,用于完成不同的任務(wù)需求。如新聞個(gè)性化推送機(jī)制或個(gè)人信用評(píng)價(jià)機(jī)制。[3]
這三大流程基本涵蓋了算法的整個(gè)生命周期,而人工智能算法與其他程序不同的是:算法每做出一次運(yùn)算或生成一個(gè)自主創(chuàng)作物,就會(huì)再一次優(yōu)化和改進(jìn)自身的程序模型。算法的三個(gè)流程是不斷循環(huán)往復(fù)的,每一次輸出結(jié)果都會(huì)增加一份經(jīng)驗(yàn),而其生成物或特定模型也會(huì)越來越精準(zhǔn),越來越滿足指向性需求。這樣的特點(diǎn)使得算法會(huì)不斷使用和處理已有的及最新吸收的數(shù)據(jù),在海量數(shù)據(jù)的需求下,產(chǎn)生數(shù)據(jù)侵權(quán)風(fēng)險(xiǎn)的可能性將呈指數(shù)增長(zhǎng)。
三、算法運(yùn)行過程中的數(shù)據(jù)侵權(quán)風(fēng)險(xiǎn)
(一)輸入階段
輸入階段是數(shù)據(jù)進(jìn)入算法過程中的第一步,這一階段的主要任務(wù)就是對(duì)數(shù)據(jù)進(jìn)行初步的收集和整理。進(jìn)入大數(shù)據(jù)時(shí)代,人們所接觸并使用的“數(shù)據(jù)”已經(jīng)不再局限于計(jì)算機(jī)為載體的各類學(xué)科的高精尖技術(shù)知識(shí),而是廣涵了社會(huì)時(shí)事新聞、公民個(gè)人隱私及文學(xué)影視作品等領(lǐng)域的各類龐雜而復(fù)雜的信息。并且隨著信息社會(huì)的發(fā)展和演化,數(shù)據(jù)甚至呈現(xiàn)出了可交易的財(cái)產(chǎn)利益屬性。這些非技術(shù)層面的數(shù)據(jù)有些屬于公共領(lǐng)域的開放性素材,而有些則涉及個(gè)人信息隱私和作品著作權(quán)。獲取允許開放使用的公用數(shù)據(jù)顯然合法合規(guī),但隨意使用其他在網(wǎng)絡(luò)上有權(quán)利所屬的數(shù)據(jù),則會(huì)產(chǎn)生相應(yīng)的侵權(quán)風(fēng)險(xiǎn)。[4]
當(dāng)前,算法獲取數(shù)據(jù)主要依靠“抓取”“購(gòu)買”及“轉(zhuǎn)換”,即直接利用互聯(lián)網(wǎng)現(xiàn)有的數(shù)據(jù)信息、直接或間接購(gòu)買所需的數(shù)據(jù)材料或?qū)⒎菙?shù)據(jù)形式的信息轉(zhuǎn)換成數(shù)據(jù)形式三種途徑。其中,“轉(zhuǎn)換”非電子數(shù)據(jù)的行為要考察其使用性質(zhì),不得超出合理使用之范圍;而“抓取”和“購(gòu)買”直接使用網(wǎng)絡(luò)現(xiàn)有數(shù)據(jù),需要注意是否授權(quán)及授權(quán)的范圍,即使有使用許可,超出授權(quán)范圍的使用也會(huì)構(gòu)成侵權(quán)。
(二)內(nèi)部學(xué)習(xí)階段
算法在“學(xué)習(xí)”的內(nèi)部處理階段,其事先寫好的程序模型會(huì)不斷地接收和送回?cái)?shù)值形式的數(shù)據(jù),因此該階段與輸入階段緊密結(jié)合,若輸入階段的數(shù)據(jù)構(gòu)成非合理使用,那么學(xué)習(xí)階段對(duì)數(shù)據(jù)的使用和處理當(dāng)然構(gòu)成侵權(quán)。算法程序?qū)?shù)據(jù)進(jìn)行分類加工,如果輸入未經(jīng)授權(quán)的數(shù)據(jù)則可能成立間接侵權(quán)。
另外還需要探討的是,如果輸入階段使用的數(shù)據(jù)不存在侵權(quán)風(fēng)險(xiǎn),內(nèi)部學(xué)習(xí)階段對(duì)數(shù)據(jù)的處理是否有侵權(quán)可能?在前期篩選數(shù)據(jù)完成后,人們通常需將訓(xùn)練收集的數(shù)據(jù)轉(zhuǎn)化為機(jī)器可接收并“理解”的數(shù)值,并于該階段進(jìn)行大量的設(shè)定和調(diào)整。這種并非機(jī)器全自動(dòng)處理所用數(shù)據(jù)的環(huán)節(jié)是否可以理解為著作權(quán)法意義上的人為“改編”行為?有學(xué)者認(rèn)為,數(shù)據(jù)的存儲(chǔ)和計(jì)算是瞬時(shí)完成的,如果僅僅被階段性臨時(shí)存儲(chǔ)及參與運(yùn)算,則不涉及對(duì)復(fù)制權(quán)的侵犯,不應(yīng)認(rèn)定為侵權(quán)行為。[5]
(三)輸出階段
算法數(shù)據(jù)侵權(quán)爭(zhēng)議多產(chǎn)生于輸出階段,以人工智能算法生成物的著作權(quán)歸屬為核心內(nèi)容。通過數(shù)據(jù)的篩選及內(nèi)部模型的訓(xùn)練,算法能夠依靠人的指令完成相應(yīng)任務(wù)并輸出結(jié)果。在這一階段,人工智能生成物對(duì)第一階段輸入的數(shù)據(jù)可能產(chǎn)生“表達(dá)性使用”:人工智能生成物的“創(chuàng)造”與原作品之間可能存在部分相似、實(shí)質(zhì)相似和完全不同的差異區(qū)分,因“完全不同”的“再創(chuàng)造”具備著作權(quán)法的創(chuàng)新性要求,對(duì)此不再贅述。主要需考量人工智能生成物與原有數(shù)據(jù)之間存在部分相似保留及實(shí)質(zhì)相似的情況:如果生成物在表達(dá)上與原數(shù)據(jù)存在實(shí)質(zhì)或部分的相似性,那么則可能會(huì)構(gòu)成對(duì)原有數(shù)據(jù)著作權(quán)所有者復(fù)制權(quán)、改編權(quán)的侵犯。
(四)人工智能數(shù)據(jù)使用的法律免除困境
任何新興科技的發(fā)展總會(huì)涉及技術(shù)創(chuàng)新與法律限制之間的矛盾,法律與科技的關(guān)系從來都是復(fù)雜且辯證的。我國(guó)現(xiàn)行的《著作權(quán)法》規(guī)定了著作權(quán)侵權(quán)免除的兩大類型,可概括為合理使用和法定許可,而人工智能算法作為一項(xiàng)新興技術(shù),其整個(gè)運(yùn)行過程所需要的數(shù)據(jù)使用行為能否納入著作權(quán)侵權(quán)豁免的范疇,需要進(jìn)一步討論。[6]
合理使用以個(gè)人學(xué)習(xí)、科研、適當(dāng)引用為要件,抗辯著作權(quán)侵權(quán)。但在應(yīng)用時(shí)需要注意其主體要求,如第二十二條第一款中強(qiáng)調(diào)“個(gè)人”,即排除了法人、非法人組織為該條款適用主體的情形。算法系統(tǒng)的建立一般需要一定的技術(shù)支撐和物質(zhì)基礎(chǔ),其所有方、控制方一般為大型商業(yè)公司或科研機(jī)構(gòu),在實(shí)踐中首先會(huì)出現(xiàn)難以納入規(guī)定主體的困難。
而對(duì)于法定許可,同樣也需考慮其適用要件。如《著作權(quán)法》第三十五條規(guī)定的“報(bào)刊轉(zhuǎn)載”、第四十二條規(guī)定的“制作錄音制品”許可等,法定許可制度對(duì)于主體的限制較合理使用更為嚴(yán)苛,無法匹配算法數(shù)據(jù)處理之需要。
四、數(shù)據(jù)侵權(quán)規(guī)制路徑再構(gòu)建
(一)數(shù)據(jù)使用規(guī)制的域外經(jīng)驗(yàn)參考
國(guó)內(nèi)學(xué)界對(duì)算法規(guī)制路徑的域外參考主要分成兩類,即以歐盟為代表的“非商業(yè)”模式和以美日為代表的“商業(yè)”模式。在考慮我國(guó)數(shù)據(jù)侵權(quán)規(guī)制路徑構(gòu)建時(shí),可以適當(dāng)參考域外對(duì)于算法運(yùn)行過程數(shù)據(jù)合理使用的規(guī)制制度,為我國(guó)的制度發(fā)展及完善提供相應(yīng)經(jīng)驗(yàn)。[7]
首先是以美國(guó)、日本為代表的“商業(yè)使用”規(guī)制模式。美國(guó)是算法程序發(fā)展研究的最前沿國(guó)家,其行業(yè)標(biāo)準(zhǔn)和規(guī)制制度也較為成熟。綜合考量行業(yè)自身標(biāo)準(zhǔn)與公共利益、個(gè)人權(quán)利保護(hù)原則,美國(guó)發(fā)展出了“轉(zhuǎn)換性使用理論”。該理論規(guī)定,如果新的生成物使用了原有作品的相關(guān)數(shù)據(jù),但自身具備新的信息和表達(dá),實(shí)質(zhì)上已對(duì)原有作品進(jìn)行了改變,則構(gòu)成合理使用?!稗D(zhuǎn)換性使用理論”一改以商業(yè)目的作為限制合理使用條件的規(guī)定,以“是否具有轉(zhuǎn)換性”作為認(rèn)定合理使用的標(biāo)準(zhǔn)。日本與美國(guó)類似,為迎合信息社會(huì)網(wǎng)絡(luò)科技的發(fā)展和需要,幾次修改《日本著作權(quán)法》,將“計(jì)算機(jī)使用數(shù)據(jù)”的合理使用范圍不斷擴(kuò)大,不限制適用主體,為非個(gè)人及科研主體之外的商業(yè)主體開拓了著作權(quán)侵權(quán)豁免的空間。
其次是以歐盟為代表的“非商業(yè)使用”規(guī)制模式。該模式與美國(guó)、日本“商業(yè)使用”規(guī)制模式相對(duì)應(yīng),并沒有全面認(rèn)可“商業(yè)使用”的合理使用。但這一限制也并非歐盟各國(guó)意圖利用制度限制算法技術(shù)的創(chuàng)新發(fā)展:歐盟委員會(huì)曾于2016年推出《單一數(shù)字市場(chǎng)版權(quán)指令草案》,該草案中指出,可以為各成員國(guó)“復(fù)制作品和數(shù)據(jù)的行為”提供例外,此舉也將適用主體明確規(guī)定為科研機(jī)構(gòu)以及適用目的為科學(xué)研究目的。2019年,歐盟又適時(shí)推出了《數(shù)字單一市場(chǎng)版權(quán)指令》(《DSM指令》),增加了“文本和數(shù)據(jù)挖掘”的例外情況,再次拓寬了合理使用之范圍。
結(jié)合以上兩類域外制度可得知,各國(guó)為促進(jìn)自身科學(xué)技術(shù)的進(jìn)步和發(fā)展,保證自身在21世紀(jì)信息技術(shù)變革競(jìng)爭(zhēng)中的優(yōu)勢(shì),以最大程度保障技術(shù)發(fā)展為制度改革方向。
(二)調(diào)整傳統(tǒng)許可模式
由于我國(guó)現(xiàn)行《著作權(quán)法》并未對(duì)算法進(jìn)行具體規(guī)制,考慮到人工智能算法對(duì)數(shù)據(jù)海量需求的特性,傳統(tǒng)規(guī)制下的“一對(duì)一”權(quán)利賦予不具有現(xiàn)實(shí)可行性,若要避免算法在運(yùn)行過程中對(duì)數(shù)據(jù)產(chǎn)生的各類侵權(quán)問題,應(yīng)重新考慮調(diào)整現(xiàn)有的許可模式。在合理使用制度方面,應(yīng)重新審視適用條件、適用主體的范圍,探究在“科學(xué)研究”和“非商業(yè)使用”外增加“商業(yè)使用”的可能性,不應(yīng)一味地排除商業(yè)互聯(lián)網(wǎng)公司的主體資格。由于市場(chǎng)自由競(jìng)爭(zhēng)的特性,互聯(lián)網(wǎng)公司會(huì)主動(dòng)進(jìn)行科技研發(fā),將合理使用的范圍擴(kuò)大至商業(yè)使用范疇,長(zhǎng)遠(yuǎn)看來不僅可將“算法”歸入我國(guó)《著作權(quán)法》規(guī)制的范疇,還能促進(jìn)算法技術(shù)的進(jìn)步和發(fā)展。
有部分學(xué)者認(rèn)為,將“商業(yè)使用”納入合理使用制度會(huì)違背合理使用具有公共利益的初衷。因此對(duì)于傳統(tǒng)許可模式的調(diào)整也可放眼于法定許可制度,如我國(guó)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》中給予農(nóng)村地區(qū)居民的特定作品許可,進(jìn)行利益平衡之嘗試,在著作權(quán)人明確表示異議后再撤銷其準(zhǔn)用許可。
五、結(jié)語(yǔ)
綜上,對(duì)于算法運(yùn)行過程中可能涉及的數(shù)據(jù)侵權(quán)風(fēng)險(xiǎn),可借鑒域外經(jīng)驗(yàn),在保證合法適用數(shù)據(jù)的同時(shí),又不因新技術(shù)的出現(xiàn)推翻傳統(tǒng)制度的規(guī)制范圍,嘗試在傳統(tǒng)規(guī)制的前提下進(jìn)行適當(dāng)調(diào)整。
參考文獻(xiàn):
[1]彭飛榮.論算法創(chuàng)作中涉數(shù)據(jù)的著作權(quán)侵權(quán)風(fēng)險(xiǎn)及其化解[J].法律適用,2023(4):46-55.
[2]焦和平.人工智能創(chuàng)作中數(shù)據(jù)獲取與利用的著作權(quán)風(fēng)險(xiǎn)及化解路徑[J].當(dāng)代法學(xué),2022,36(4):128-140.
[3]楊緒東.人工智能編輯之合理使用探究[J].科技與法律,2020(1):8-14.
[4]吳漢東.人工智能生成作品的著作權(quán)法之問[J].中外法學(xué),2020,32(3):653-674.
[5]徐小奔,楊依楠.論人工智能深度學(xué)習(xí)中著作權(quán)的合理使用[J].交大法學(xué),2019(3):32-42.
[6]劉友華,魏遠(yuǎn)山.機(jī)器學(xué)習(xí)的著作權(quán)侵權(quán)問題及其解決[J].華東政法大學(xué)學(xué)報(bào),2019,22(2):68-79
[7]許娟.利用爬蟲技術(shù)侵犯企業(yè)數(shù)據(jù)知識(shí)產(chǎn)權(quán)法益的司法解釋[J].蘇州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2020,41(1):47-58.
作者簡(jiǎn)介:宋宗越(1999.3-),女,漢族,山東德州人,碩士在讀,研究方向:民商法。