国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生成式人工智能技術(shù)企業(yè)的版權(quán)風險及合規(guī)路徑

2024-10-22 00:00:00戴心遠喬瑜
中國經(jīng)貿(mào)導刊 2024年12期

摘要:生成式人工智能在使用版權(quán)作品進行數(shù)據(jù)訓練時,不可避免地會引發(fā)侵權(quán)問題。同時,作為技術(shù)支持者和服務(wù)提供者的技術(shù)企業(yè),也面臨著版權(quán)挑戰(zhàn)。首先,輸入端的文本和數(shù)據(jù)挖掘內(nèi)容往往難以構(gòu)成合理使用。其次,輸出端生成物的版權(quán)歸屬問題也難以明確。隨著企業(yè)對數(shù)據(jù)依賴程度的不斷加深,版權(quán)風險和合規(guī)問題也日益突出。本文旨在探討生成式人工智能企業(yè)所面臨的版權(quán)風險,并提出相應(yīng)的合規(guī)的風險防范策略,以期在人工智能技術(shù)蓬勃發(fā)展的背景下,促進這些企業(yè)的進步與創(chuàng)新。

關(guān)鍵詞:生成式人工智能、訓練數(shù)據(jù)版權(quán)、合理使用、企業(yè)合規(guī)

引言

《生成式人工智能服務(wù)管理暫行辦法》(以下簡稱《暫行辦法》)定義了“生成式人工智能服務(wù)提供者”,即那些運用生成式人工智能技術(shù),通過提供可編程接口等方式,提供服務(wù)的組織或個人。國內(nèi)學者進一步區(qū)分了技術(shù)支持者這一概念,強調(diào)其與服務(wù)提供者在版權(quán)侵權(quán)風險上的不同[1]。以O(shè)penAI公司的發(fā)展為例,可以看出這兩類主體往往存在重疊。技術(shù)支持者可能專注于算法或語言訓練規(guī)則方法的研究與創(chuàng)新,而另一類企業(yè)則在此基礎(chǔ)上提供服務(wù),這已成為一種趨勢。由于大公司能夠購買和使用龐大的受訓數(shù)據(jù)庫,并擁有廣泛的用戶群體,其研發(fā)的人工智能受訓效率自然更高。同時,大企業(yè)資金雄厚,能夠同時進行研發(fā)和服務(wù)提供。在當前人工智能時代,生成式人工智能技術(shù)企業(yè)無疑會關(guān)注技術(shù)應(yīng)用中的版權(quán)風險,并迫切需要法律合規(guī)的解決方案。本文旨在分析在掌握研發(fā)人工智能技術(shù)的同時作為服務(wù)提供者所面臨的版權(quán)風險,并探討相應(yīng)的合規(guī)路徑。

一、生成式人工智能的技術(shù)原理

生成式人工智能是指基于深度學習模型與人類反饋強化學習等技術(shù),通過學習大量數(shù)據(jù)來生成新的、與原始數(shù)據(jù)相似但不完全相同的數(shù)據(jù)。其典型應(yīng)用包括文本生成、圖像生成以及音頻生成等。新一代大規(guī)模語言模型,如GPT-4,采用多層Transformer模型嵌套的方式來捕捉文本中的長距離依賴關(guān)系。Transformer架構(gòu)完全基于注意力機制,摒棄了傳統(tǒng)的循環(huán)遞歸和卷積結(jié)構(gòu)。在此模型中,每個詞或子詞都能從輸入序列的任何位置獲取信息,從而增強了模型對文本上下文關(guān)系的理解能力??傊乱淮笠?guī)模語言模型通過利用Transformer架構(gòu)和大量文本數(shù)據(jù)進行訓練,學會了理解和生成人類語言,并在多種任務(wù)上展現(xiàn)出了卓越的性能。

二、生成式人工智能企業(yè)的版權(quán)風險樣態(tài)

生成式人工智能企業(yè),在作為該技術(shù)的開發(fā)者和服務(wù)提供商的角色中,無論是在研發(fā)的初期階段還是在產(chǎn)品投入使用的階段,都不可避免地遭遇版權(quán)風險。在輸入端,這些企業(yè)使用海量訓練數(shù)據(jù)時,引發(fā)了關(guān)于學習數(shù)據(jù)是否能被合理使用的討論。而在輸出端,它們則面臨關(guān)于生成內(nèi)容版權(quán)歸屬的爭議。

(一)輸入端的版權(quán)侵權(quán)風險

在使用生成式人工智能時,用戶僅需輸入指令或關(guān)鍵字詞,即可獲得包括文本創(chuàng)作、技術(shù)方案、問題解答在內(nèi)的全面回復。例如,ChatGPT能夠根據(jù)上下文推理,從而推斷出相應(yīng)的答案。這種功能強大的人工智能之所以能夠?qū)崿F(xiàn),是因為它依賴于大量的創(chuàng)作素材[2]。企業(yè)收集了海量的文獻數(shù)據(jù),并用這些數(shù)據(jù)來訓練人工智能,這引發(fā)了文本與數(shù)據(jù)挖掘合理使用的問題?,F(xiàn)實中,《紐約郵報》等新聞集團正準備通過法律途徑向技術(shù)制造商,如OpenAI、微軟和谷歌,提出賠償要求。隨著AI時代的進步,類似的訴訟已經(jīng)擴展到在AI模型訓練中使用圖像和代碼數(shù)據(jù)的問題[3]。法律判決的關(guān)鍵在于,AI公司是否有權(quán)從互聯(lián)網(wǎng)上抓取內(nèi)容,并將其用于訓練模型。

1.數(shù)據(jù)采集時面臨侵權(quán)風險。生成式人工智能企業(yè)進行數(shù)據(jù)采集時,采用的是文本與數(shù)據(jù)挖掘技術(shù)(TDM)。根據(jù)歐盟《單一數(shù)字市場版權(quán)指令》的定義,TDM是指任何旨在分析數(shù)字形式的文本和數(shù)據(jù),以便生成包括但不限于模型、發(fā)展方向以及相互關(guān)系等有益信息的計算機分析技術(shù)[4]。

我國《著作權(quán)法》雖然增設(shè)了合理使用的兜底條款,但生成式人工智能企業(yè)所實施的TDM行為并不符合其中的“個人使用”例外規(guī)定。因為TDM的實施需要大量技術(shù)和資金支撐,個人通常無法成為TDM的主體,因此“個人使用”的例外規(guī)定很難為企業(yè)的數(shù)據(jù)挖掘行為提供法律依據(jù)。

此外,TDM行為也不符合“教學或科研少量復制使用”的例外規(guī)定。一方面,生成式人工智能企業(yè)的主要宗旨是追求商業(yè)利潤,而非進行科研活動;另一方面,即使是以科研為目的,TDM技術(shù)“全數(shù)據(jù)采樣”的特點也難以滿足“少量復制”的要求。另外,《信息網(wǎng)絡(luò)傳播權(quán)保護條例》規(guī)定,未獲許可擅自傳播作品時應(yīng)當標明“作品來源”,但目前TDM技術(shù)難以辨識挖掘?qū)ο蟮臋?quán)利屬性,這也增加了企業(yè)在數(shù)據(jù)采集過程中面臨的侵權(quán)風險[5]。

2.數(shù)據(jù)分析過程中的侵權(quán)風險不容忽視。在數(shù)據(jù)處理階段,企業(yè)需對數(shù)據(jù)進行復制、翻譯、標記、分析等一系列操作。然而,即便數(shù)據(jù)集是公開獲取或已購買的,企業(yè)在使用時也必須確保遵守版權(quán)法的相關(guān)規(guī)定,因為學習對象的版權(quán)壁壘往往較高。在訓練過程中,大量語料庫內(nèi)容被復制到數(shù)據(jù)庫中,這在現(xiàn)行著作權(quán)法下可能構(gòu)成對復制權(quán)的侵犯。此外,如果生成式人工智能經(jīng)過機器學習、數(shù)據(jù)分析后生成的最終內(nèi)容與先前學習的作品存在實質(zhì)性相似,那么還可能侵犯著作權(quán)法中的演繹權(quán)。

從ChatGPT的運作原理來看,其在進行深度自主學習之前,會先對知識與信息內(nèi)容進行數(shù)字化處理,并轉(zhuǎn)化為數(shù)據(jù)格式進行存儲。這兩種數(shù)字化處理方式實際上都是在不改變內(nèi)容的情況下對作品進行復制,并且復制的內(nèi)容會永久存儲在ChatGPT的系統(tǒng)中。從著作權(quán)法的角度來看,ChatGPT的這種數(shù)據(jù)挖掘行為屬于“復制”行為,存在侵犯復制權(quán)的風險。雖然演繹權(quán)在法律條文中沒有明確列出,但我國《著作權(quán)法》已將演繹權(quán)進一步細分為改編權(quán)、翻譯權(quán)、攝制權(quán)和匯編權(quán)等。在生成式人工智能的數(shù)據(jù)分析階段,開發(fā)人員需要對海量的信息數(shù)據(jù)進行標注、翻譯、標記、整理、匯總等操作。這些操作并非針對某個作者的單一作品進行的簡單復制,而是涉及多個具備獨創(chuàng)性、受版權(quán)保護的作品的侵權(quán)性使用,因此存在侵害演繹權(quán)的風險。

(二)輸出端的版權(quán)侵權(quán)風險

1.“版權(quán)主體不適格”問題。目前,學界普遍認為作品是作者人格的體現(xiàn)。然而,人工智能的生成內(nèi)容雖然具備人類作品的形式要件,但在創(chuàng)作過程中缺乏主體意識,不具有內(nèi)在的人格基礎(chǔ),因此不符合作品的構(gòu)成要件。當前,亟須解決的問題是,生成式人工智能的人格權(quán)能否被承認?若其人格權(quán)得到承認,其生成內(nèi)容是否屬于作品?以及版權(quán)權(quán)利應(yīng)如何歸屬?

2.生成式人工智能所生成的作品,是通過其算法不斷優(yōu)化推演而來。然而,該過程缺乏人類所特有的主觀能動性及情感投入,尤其在文化藝術(shù)領(lǐng)域,這樣的生成內(nèi)容往往難以與社會大眾產(chǎn)生情感上的共鳴,更難以滿足其深層次的精神需求。

著作權(quán)法保護的是對思想觀念的獨創(chuàng)性表達,而非思想觀念本身。其中,“獨”是判斷作品是否具有獨創(chuàng)性的性質(zhì)門檻,而“創(chuàng)”則衡量獨創(chuàng)性的高低程度。生成式人工智能無法獨立完成創(chuàng)作,它既依賴于海量信息數(shù)據(jù)的輸入,也需要使用者提供具體指令才能生成內(nèi)容。因此,其創(chuàng)作能力的真實性值得懷疑。此外,生成式人工智能的輸出內(nèi)容完全基于其學習材料(即訓練集),這導致輸出內(nèi)容很可能與已受版權(quán)保護的作品存在相似性。

3.版權(quán)信息標注存在挑戰(zhàn)。《暫行辦法》已規(guī)定生成式人工智能在創(chuàng)作作品時需添加標簽,注明其為人工智能生成。然而,對大語言模型所生成的文本進行顯著且有效地標識,在技術(shù)上存在較大難度。全國信息安全標準化技術(shù)委員會發(fā)布的《網(wǎng)絡(luò)安全標注實踐指南——生成式人工智能服務(wù)內(nèi)容標識方法》中,多數(shù)方法僅適用于圖片、音頻和視頻等類型的內(nèi)容,并未涵蓋文本。因此,由于這一技術(shù)局限,生成式人工智能有可能使企業(yè)面臨版權(quán)侵權(quán)的風險。

4.作品的傳播權(quán)可能受到侵害。生成式人工智能企業(yè)在進行數(shù)據(jù)挖掘、機器學習或?qū)崿F(xiàn)研究結(jié)果可驗證性時,需要將數(shù)據(jù)或文本通過互聯(lián)網(wǎng)進行傳輸。然而,這一過程中可能夾雜著受版權(quán)保護的作品,從而可能侵犯著作權(quán)人的向公眾傳播權(quán)。此外,在人工智能投入使用后,使用者輸入指令生成與版權(quán)相關(guān)的回答內(nèi)容,并將這些內(nèi)容上傳至網(wǎng)絡(luò)或出于經(jīng)濟利益進行其他使用,這一行為同樣可能侵害著作權(quán)人的傳播權(quán)。

三、生成式人工智能企業(yè)的合規(guī)路徑建議

(一)企業(yè)前期風險把控階段

1.風險預期與管理。根據(jù)國家網(wǎng)信辦等頒布的《暫行辦法》第4條規(guī)定,企業(yè)應(yīng)在開展相應(yīng)的運營活動之前,切實做好可控風險的測試、預估和預防措施。在技術(shù)條件尚不成熟、無法有效控制相關(guān)風險的情形下,不得貿(mào)然將人工智能技術(shù)投入運營。

2.信息真實性審查。生成式人工智能在訓練過程中依賴海量信息作為參數(shù),但現(xiàn)有技術(shù)無法完全剔除輸入程序中的虛假信息,這必然導致人工智能學習錯誤知識并得出錯誤結(jié)果。為應(yīng)對這一問題,企業(yè)應(yīng)對數(shù)據(jù)處理過程進行全面記錄和管理,確保數(shù)據(jù)的可追溯性和可信度。鑒于當前生成式人工智能的技術(shù)水平無法有效甄別虛假信息,企業(yè)難以完全識別并阻止虛假信息的輸入。因此,企業(yè)應(yīng)借鑒ChatGPT團隊的做法,建立專業(yè)小組,采用一系列“檢測和刪除不當內(nèi)容的技術(shù)組合”來解決這個問題。這一過程應(yīng)包括預審核、過濾等關(guān)鍵技術(shù)環(huán)節(jié)。

(二)輸入過程中企業(yè)風險規(guī)避

1.文本與數(shù)據(jù)挖掘行為應(yīng)尊重作品的合理使用原則。在進行此類活動前,應(yīng)確保所使用的數(shù)據(jù)和文本來源合法,并充分尊重版權(quán)所有者的權(quán)益。若需對特定文本數(shù)據(jù)進行付費使用,而未獲得相應(yīng)許可,則必須遵守相關(guān)法律法規(guī)和倫理規(guī)范,以確保文本與數(shù)據(jù)挖掘行為的合法性和合規(guī)性。例如,在預處理階段,可以采取去除特殊字符、轉(zhuǎn)換為小寫字母、去除停用詞等措施。同時,建議相關(guān)企業(yè)和研究人員密切關(guān)注國際上關(guān)于文本與數(shù)據(jù)挖掘的版權(quán)規(guī)定和最新動向,以便及時調(diào)整策略,有效保障自身的合法權(quán)益。

2.優(yōu)化算法方面,我們應(yīng)在算法模型上減少對單一在線版權(quán)作品的依賴,并降低訓練數(shù)據(jù)對生成物的影響。針對不同領(lǐng)域的文本,我們應(yīng)采用不同的預處理方法和技術(shù)。具體而言,根據(jù)文本的領(lǐng)域分類,選擇相應(yīng)的預處理策略,并運用不同的特征提取方法,將文本轉(zhuǎn)換為模型能夠處理的向量表示。此外,我們還應(yīng)通過調(diào)整不同的超參數(shù)設(shè)置和優(yōu)化算法,來進一步提升模型的性能和精度。

(三)輸出內(nèi)容后企業(yè)風險規(guī)避

1.在服務(wù)提供領(lǐng)域,生成式人工智能產(chǎn)生虛假信息的原因不僅限于服務(wù)提供者,還包括用戶的行為。然而,用戶通常不具備相關(guān)專業(yè)知識和能力,更難以理解和評估人工智能產(chǎn)品的算法及其可解釋性,以及相關(guān)的風險預防問題。因此,責任應(yīng)當?shù)怪茫从删邆浼夹g(shù)和信息優(yōu)勢的企業(yè)承擔充分提示使用要求、盡到風險告知義務(wù)的責任。

2.針對生成虛假內(nèi)容的補救措施,企業(yè)應(yīng)確保對生成式人工智能輸出的信息作出必要標識。例如,為這類信息添加水印,以避免使用者因過度信任人工智能產(chǎn)品而遭受損害。對于涉及真實人物或可能引發(fā)爭議的圖片、視頻內(nèi)容,應(yīng)明確規(guī)定產(chǎn)品必須自動并明顯地標注“深度合成”等提醒字樣。在對話聊天型的生成式人工智能中,若涉及查詢類問題,應(yīng)強制要求其在回答中提醒用戶答案可能不準確。在此方面,生成式人工智能企業(yè)至少應(yīng)承擔起警示的義務(wù)。此外,還應(yīng)加強對服務(wù)提供平臺的監(jiān)管,通常而言,互聯(lián)網(wǎng)平臺的管理能力與其技術(shù)水平成正比。

四、結(jié)語

我國正處于從人工智能大國向人工智能強國邁進的過程中,科技的快速發(fā)展往往伴隨著法律規(guī)范的滯后。不僅技術(shù)需要在法律的框架下不斷突破,支撐技術(shù)開發(fā)背后的生成式人工智能企業(yè)的法律合規(guī)問題也值得我們高度重視。因此,我們不僅要鼓勵生成式人工智能企業(yè)的創(chuàng)新和發(fā)展,還要監(jiān)管并督促這些企業(yè)采取必要的技術(shù)措施,預防侵權(quán)行為的發(fā)生,降低損害的風險,從而推動我國人工智能產(chǎn)業(yè)健康、合規(guī)地發(fā)展。

參考文獻:

[1]邵紅紅.生成式人工智能版權(quán)侵權(quán)治理研究[J].出版發(fā)行研究,2023(06):29-38.

[2]馮志偉,張燈柯,饒高琦.從圖靈測試到ChatGPT——人機對話的里程碑及啟示[J].語言戰(zhàn)略研究,2023,8(02):20-24.

[3]文巧.訓練ChatGPT模型不付錢?文字版權(quán)商要與OpenAI法院見[N].每日經(jīng)濟新聞,2023-03-28(005).

[4]司曉,曹建峰.歐盟版權(quán)法改革中的大數(shù)據(jù)與人工智能問題研究[J].西北工業(yè)大學學報(社會科學版),2019(03):95-102+3.

[5]馬治國,趙龍.文本與數(shù)據(jù)挖掘?qū)χ鳈?quán)例外體系的沖擊與應(yīng)對[J].西北師大學報(社會科學版),2021,58(04):107-115.

〔基金項目:本課題獲得西安財經(jīng)大學研究生創(chuàng)新基金項目資助,項目名稱“人工智能技術(shù)下文本與數(shù)據(jù)挖掘的版權(quán)合理使用問題研究”(22YC045)〕

(作者簡介:戴心遠,西安財經(jīng)大學研究生。喬瑜,西安財經(jīng)大學副教授。)

蓝山县| 安顺市| 澜沧| 化隆| 平舆县| 那曲县| 东港市| 定安县| 尼勒克县| 建德市| 原阳县| 广水市| 拉孜县| 田阳县| 泰安市| 永丰县| 金溪县| 莲花县| 南康市| 黔西| 璧山县| 和林格尔县| 墨江| 灵璧县| 渭南市| 沙洋县| 准格尔旗| 仁寿县| 岢岚县| 揭东县| 区。| 伊吾县| 体育| 苗栗市| 南通市| 南乐县| 武汉市| 石首市| 葫芦岛市| 高平市| 临夏市|