文生視頻類人工智能在圖書領(lǐng)域的應(yīng)用場景及有效治理*

2024-10-21 00:00李濤

圖書與情報 2024年4期

摘要：文生視頻類生成式人工智能作為一種“新質(zhì)生產(chǎn)力”，在圖書出版領(lǐng)域中具有廣闊的應(yīng)用前景。相較于ChatGPT，文生視頻類生成式人工智能Sora可賦能圖書館建設(shè)可視化數(shù)字資源、虛擬空間建設(shè)、智慧服務(wù)模式創(chuàng)新與用戶個性化定制服務(wù)創(chuàng)新等。但與此同時，它也使圖書館面臨侵犯人身權(quán)、知識產(chǎn)權(quán)、數(shù)據(jù)信息、算法安全以及虛假信息等風(fēng)險的挑戰(zhàn)。鑒于此，為消弭這些法律風(fēng)險與科技隱患，應(yīng)加強(qiáng)對人工智能Sora在圖書領(lǐng)域應(yīng)用風(fēng)險的有效治理，明確人工智能生成物的著作權(quán)歸屬，并在此基礎(chǔ)上進(jìn)一步強(qiáng)化算法監(jiān)管，提升圖書館的自我合規(guī)能力，使文生視頻類生成式人工智能技術(shù)更好地服務(wù)于圖書行業(yè)的可持續(xù)發(fā)展，共同營造一個健康有序的人機(jī)共存環(huán)境。

關(guān)鍵詞：文生視頻；Sora；生成式人工智能；圖書出版；治理

中圖分類號：G250.7；TP391.1 文獻(xiàn)標(biāo)識碼：Ａ DOI：10.11968/tsyqb.1003-6938.2024049

Text-to-Video Artificial Intelligence in the Field of Book Application Scenarios and Effective Governance

Abstract As a kind of "New quality productivity"， text-to-video generative artificial intelligence has a broad application prospect in the field of book publishing. Compared with CHATGPT， text-to-video generative artificial intelligence Sora enables the construction of library visual digital resources， virtual space construction， intelligent service model innovation and user personalized service innovation. But at the same time， it also makes the library face the challenges of infringement of personal rights， intellectual property rights， data information， algorithm security and false information. In view of this， in order to eliminate these legal and technological risks， we should strengthen the effective management of the risks of the application of artificial intelligence Sora in the field of books， and clarify the ownership of the copyright of artificial intelligence products， and on this basis to further strengthen the algorithm supervision and enhance library's self-compliance ability so as to make text-to-video generative artificial intelligence technology better serve the sustainable development of the book industry， and jointly create a healthy and orderly human-computer coexistence environment.

Key words text-to-video; Sora; generative artificial intelligence; book publishing; governance

文生視頻類生成式人工智能Sora的出現(xiàn)，意味著人工智能自身的理解能力與內(nèi)容表達(dá)能力實現(xiàn)了新的飛躍。2024年2月，美國OpenAI公司對外公布了一款新型文生視頻生成式人工智能Sora，這是繼ChatGPT之后又一技術(shù)革新?！癝ora”一詞取自日文“そら”（即天空），旨在表達(dá)“無限的創(chuàng)造潛力”之意。根據(jù)OpenAI所披露的技術(shù)報告顯示，Sora是一款可根據(jù)文字描述自動生成高清、連貫、仿真度極高的視頻大模型，它彰顯對物理世界的認(rèn)知和理解，故被譽(yù)為“物理世界的模擬器”。

2024年全國兩會期間，政府工作報告提出“加快發(fā)展新質(zhì)生產(chǎn)力”。從其概念來看，新質(zhì)生產(chǎn)力是與數(shù)字化生產(chǎn)要素相適應(yīng)的生產(chǎn)力的質(zhì)的躍進(jìn)［1］。在數(shù)字化時代，生成式人工智能作為一種新質(zhì)生產(chǎn)力，它具有提高經(jīng)濟(jì)發(fā)展效率、優(yōu)化升級經(jīng)濟(jì)結(jié)構(gòu)、增強(qiáng)經(jīng)濟(jì)韌性等顯著優(yōu)勢，能充分發(fā)揮科技創(chuàng)新的主導(dǎo)作用，以科技創(chuàng)新推動產(chǎn)業(yè)創(chuàng)新。與ChatGPT、元宇宙等技術(shù)一樣，Sora作為一種新質(zhì)生產(chǎn)力可在多個行業(yè)領(lǐng)域中被廣泛應(yīng)用。如在影視制作領(lǐng)域，Sora能提高影視創(chuàng)作的效率、降低制作成本，開辟敘事藝術(shù)表達(dá)新形式［2］；在教育領(lǐng)域，Sora有助于實現(xiàn)“教”與“學(xué)”的可視化，打造情景化、沉浸式教育，提高學(xué)生探索意識與自主學(xué)習(xí)能力［3］；在網(wǎng)絡(luò)游戲領(lǐng)域，其能幫助游戲開發(fā)者創(chuàng)建多元類型游戲場景和富有表現(xiàn)力的人物角色［4］?；诖?，本文嘗試探討生成式人工智能Sora在圖書行業(yè)中的應(yīng)用場景，并對其可能存在的法律風(fēng)險進(jìn)行回應(yīng)，期冀為我國圖書出版領(lǐng)域的數(shù)字化、智慧化建設(shè)及發(fā)展提供些許建議。

1 人工智能Sora的技術(shù)解析與工作機(jī)制

與以往發(fā)布的人工智能大模型相比，Sora已然突破了過去的技術(shù)局限，其在深度學(xué)習(xí)和多模態(tài)處理能力上呈現(xiàn)明顯優(yōu)勢，尤其在語言識別、機(jī)器視覺、圖像生成等方面擁有強(qiáng)大功能。理解人工智能Sora的技術(shù)構(gòu)成及其運(yùn)作機(jī)制，對認(rèn)識Sora的應(yīng)用前景、風(fēng)險防控、有效治理等方面具有重要啟示性意義。

1.1 生成式人工智能Sora核心技術(shù)之解析

文生視頻類生成式人工智能技術(shù)要比文字或圖片類人工智能技術(shù)復(fù)雜得多，這是由視頻大模型的技術(shù)特征所決定。視頻大模型的難點(diǎn)主要在于視頻圖像時空屬性、視覺連貫性和風(fēng)格多樣性、動態(tài)圖像處理、人機(jī)交互性、視覺仿真性等方面。為了攻克這些技術(shù)難點(diǎn)，OpenAI在Sora的視頻大模型訓(xùn)練和處理中，采用“Transformer”+“Patches”+“Diffusion”三位一體結(jié)構(gòu)，最終生成視頻。

Transformer是一種基于自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼和解碼的模型，通?？杀挥糜谧匀徽Z言處理、計算機(jī)視覺和音頻處理［5］。在計算機(jī)視覺中，Vision Transformer由嵌入層、Transformer編碼器和MLP Head三個模塊組成［6］。Transformer編碼器主要負(fù)責(zé)提取輸入圖像的全局特征，通過自注意力機(jī)制實現(xiàn)對圖像特征的信息交互或聚合。而Sora就是在這個由嵌入層和Transformer編碼器所形成的潛在空間網(wǎng)絡(luò)中進(jìn)行訓(xùn)練與學(xué)習(xí)。OpenAI技術(shù)報告中還提到，Sora使用了一種時空圖像塊“Patches”技術(shù)。Patches取代了之前ChatGPT訓(xùn)練模型中的Token，但二者具有相同的功能，它們都是處理文本或圖像塊的最小單位。在Sora的訓(xùn)練模型過程中，視頻圖像的每一幀畫面都將被切割并轉(zhuǎn)化為若干個一維向量，即若干個圖像塊Patches［7］。然后通過嵌入層中的“可學(xué)習(xí)嵌入”和“位置嵌入”機(jī)制，分別對圖像塊Patches進(jìn)行編碼并添加圖像塊序列的時間信息和位置信息，最終獲得一個包含了完整信息的圖像塊。將這些圖像塊輸入到編碼器中以后，就可以進(jìn)行分類預(yù)測［8］。而Sora生成視頻的過程實際上就是通過前一個圖像塊“Patches”去預(yù)測、填充并生成下一個圖像塊“Patches”，然后再將一系列圖像塊進(jìn)行排序與組合，最終形成每一幀完整的圖像。最后，擴(kuò)散模型Diffusion對Sora影響甚大，它是一種先進(jìn)的圖像生成模型，通過馬爾科夫鏈映射到潛在空間。擴(kuò)散模型的基本原理是，它通過在數(shù)據(jù)中逐步引入噪聲，然后反向去除噪聲，從而生成高質(zhì)量圖像或音頻。它分為兩個步驟進(jìn)行：首先是正向過程，即先給圖像模型逐漸添加噪聲，直到圖像被完全損壞；其次是逆向過程，即根據(jù)給定的高斯噪聲，逆向逐步恢復(fù)圖像原始數(shù)據(jù)［9］。當(dāng)Sora完成模型訓(xùn)練后，隨機(jī)輸入高斯噪聲，就能生成圖像。

1.2 生成式人工智能Sora的基本工作原理

Sora作為一款文生視頻大模型，它可根據(jù)一段文字描述自動生成畫面高清流暢、內(nèi)容豐富多樣、一鏡到底的視頻。從其基本工作原理來看，通過指令輸入與識別、對抗生成網(wǎng)絡(luò)、生成器網(wǎng)絡(luò)、生成視頻等步驟，即可實現(xiàn)從文字內(nèi)容到視頻效果的轉(zhuǎn)化。這一技術(shù)的出現(xiàn)，預(yù)示著視頻制作和內(nèi)容創(chuàng)作方式的革命性變化。

第一，文本指令輸入與識別。使用Sora進(jìn)行創(chuàng)作時，使用者首先需要向Sora輸入一段文字指令，或多個關(guān)鍵詞，用以描述視頻內(nèi)容。這些文字被視為內(nèi)容描述而成為Sora進(jìn)行作業(yè)的依據(jù)。在給定的指令條件下，Sora通過海量素材和訓(xùn)練模型深度學(xué)習(xí)并理解，進(jìn)一步解析指令并執(zhí)行相應(yīng)操作?；谒惴ㄒ?guī)則，人類輸入的文本指令將被標(biāo)注為各種不同的詞性、語法分析，這些標(biāo)注信息將幫助Sora理解句子中的詞匯含義、上下文關(guān)系和語法結(jié)構(gòu)，更準(zhǔn)確地進(jìn)行指令解析任務(wù)，實現(xiàn)更高效的人機(jī)交互［10］。第二，視頻對抗生成網(wǎng)絡(luò)。對抗生成網(wǎng)絡(luò)是一種通過對抗性訓(xùn)練學(xué)習(xí)生成新數(shù)據(jù)的深度生成模型，被廣泛應(yīng)用于圖像任務(wù)中。它由生成器G和鑒別器D兩個神經(jīng)網(wǎng)絡(luò)組成，能夠通過不同方式操縱空間和時間坐標(biāo)，來改善運(yùn)動狀態(tài)。這兩個神經(jīng)網(wǎng)絡(luò)通過對抗的方式進(jìn)行訓(xùn)練，不斷提升自身的生成和鑒別水平，最終得到逼真的高分辨率生成圖像［11］。第三，生成器生成視頻。生成器網(wǎng)絡(luò)是訓(xùn)練模型的重要組成部分，它由自動編碼器網(wǎng)絡(luò)、注意力模塊和記憶模塊構(gòu)成，在Sora運(yùn)行中主要負(fù)責(zé)輸出下一時刻的視頻幀。生成器可根據(jù)文本指令生成相應(yīng)的視頻幀，并將不同視頻幀進(jìn)行拼湊和補(bǔ)全，最終構(gòu)成完整的視頻內(nèi)容。第四，視頻內(nèi)容輸出。視頻輸出是Sora文生視頻大模型的最后步驟。當(dāng)生成器生成視頻后，Sora會運(yùn)用ChatGPT、DALL·E的部分功能，將視頻內(nèi)容與輸入的文本指令內(nèi)容不斷進(jìn)行比對和修改，確保視頻內(nèi)容能更忠實、全面地符合用戶的預(yù)期。視頻輸出后，使用者可通過點(diǎn)擊觀看的方式查看Sora生成的視頻，并對視頻內(nèi)容進(jìn)行修改或評價。以上就是Sora生成視頻的全過程，通過這項技術(shù)特征可知，Sora的出現(xiàn)將對社會、個人帶來重大影響。

2 人工智能Sora在圖書領(lǐng)域中的應(yīng)用探索

不同于ChatGPT，Sora是生成式人工智能技術(shù)發(fā)展進(jìn)程中重要的里程碑，它的出現(xiàn)將為內(nèi)容創(chuàng)作者、教育服務(wù)、知識生產(chǎn)、娛樂產(chǎn)業(yè)以及普通用戶帶來更多可能性。在圖書行業(yè)領(lǐng)域中，生成式人工智能Sora也將具有廣闊的應(yīng)用前景，主要集中在可視化數(shù)字資源建設(shè)、虛擬空間建設(shè)、智慧服務(wù)模式創(chuàng)新、用戶個性化定制服務(wù)創(chuàng)新等方面。

2.1 可視化數(shù)字資源建設(shè)

圖書館擁有海量文獻(xiàn)資源，是知識生產(chǎn)的“金礦”，但也面臨文獻(xiàn)利用低和文獻(xiàn)分散等問題。要想讓圖書館中的文獻(xiàn)“活起來”，就必須引進(jìn)生成式人工智能Sora這個“新質(zhì)生產(chǎn)力”。Sora具有強(qiáng)大的信息整合能力與視頻內(nèi)容生成能力，能夠推動圖書館建立可視化數(shù)字資源知識庫。具體而言表現(xiàn)在兩個方面：其一，Sora視頻大模型依托海量數(shù)據(jù)訓(xùn)練和學(xué)習(xí)，可將圖書館中原本分散、碎片化的數(shù)字文獻(xiàn)資源整合形成互補(bǔ)并建立起體系化的知識庫。它不僅有利于實體文獻(xiàn)的保存與傳播，還能夠強(qiáng)化數(shù)字文獻(xiàn)資源之間的聯(lián)系與高效利用。其二，Sora作為一個文生視頻類人工智能，具有增強(qiáng)視覺效果的優(yōu)勢，通過Transformer計算機(jī)視覺技術(shù)可將文字內(nèi)容自動轉(zhuǎn)化為高清仿真視頻，賦能館藏文獻(xiàn)以“文生圖、文生視頻”等多元化形式實現(xiàn)永續(xù)保存和傳播。傳統(tǒng)圖書資源主要圍繞實體文獻(xiàn)和電子文獻(xiàn)展開，并在此基礎(chǔ)上進(jìn)行知識生產(chǎn)。但這種單一資源內(nèi)容難以滿足圖書館自身的發(fā)展需求、以及不同用戶的內(nèi)容需求，也限制了知識傳播的邊際效應(yīng)。將Sora與圖書館文獻(xiàn)相結(jié)合，發(fā)揮Sora強(qiáng)大的視頻生成能力，有利于把浩如煙海的圖書內(nèi)容轉(zhuǎn)化為視頻資源，使圖書信息資源產(chǎn)生集合式效果與互換。

2.2 虛擬空間建設(shè)

虛擬空間建設(shè)是圖書館智慧化發(fā)展的新趨勢，它離不開人工智能技術(shù)的加持。近年來，我國實踐中元宇宙技術(shù)、VR和AR等虛實技術(shù)與圖書館融合發(fā)展，正嘗試構(gòu)建“元宇宙圖書館”［12］。但就目前元宇宙技術(shù)的發(fā)展現(xiàn)狀而言，面臨著內(nèi)容匱乏且形式單一、設(shè)備體量大、運(yùn)行成本高等問題。Sora被譽(yù)為“物理世界的模擬器”，具有強(qiáng)大的模擬能力，可通過視頻大模型構(gòu)建三維立體式虛擬場景，推動智慧圖書館建設(shè)。將Sora與元宇宙技術(shù)相結(jié)合，能夠為圖書館虛擬空間建設(shè)提供內(nèi)容迥異、風(fēng)格多樣的視頻內(nèi)容，豐富元宇宙AIGC的新場景和新內(nèi)容。在可預(yù)見的未來，Sora賦能元宇宙技術(shù)后，將促使虛擬空間的建設(shè)進(jìn)入快車道［13］。隨著人工智能技術(shù)的發(fā)展，在虛擬空間中，Sora憑借自身虛擬現(xiàn)實和增強(qiáng)現(xiàn)實技術(shù)，能夠提供高質(zhì)量的視頻內(nèi)容和沉浸式體驗感。通過Sora強(qiáng)有力的人機(jī)交互能力，能夠準(zhǔn)確收集、分析用戶行為數(shù)據(jù)，為用戶提供更逼真的虛擬現(xiàn)實體驗［14］。在圖書館虛擬空間中，通過Sora這一全新的數(shù)字鏡像視角，圖書知識中的人物角色、場景、細(xì)節(jié)將在數(shù)字孿生世界中得到展現(xiàn)，用戶與虛擬人物角色能在虛構(gòu)空間中進(jìn)行人機(jī)交互，創(chuàng)作出更精彩的故事敘述。作為物理世界的模擬器，Sora擁有內(nèi)容、情景、條件等要素的整合能力，能為用戶打造虛實融合、智慧化地沉浸式體驗環(huán)境［15］。

2.3 智慧服務(wù)模式創(chuàng)新

圖書館傳統(tǒng)服務(wù)模式主要以實體文本文獻(xiàn)為主，具有一定局限性。從知識傳播的角度來看，傳統(tǒng)的文字閱讀在一定程度上消解了文字的可讀性和知識的全面性。通常而言，文字閱讀會增加語言歧義現(xiàn)象，尤其在漢語言文字中，同一個漢字或詞語在內(nèi)容含義上存在兩種或多種解釋，很難避免對內(nèi)容理解時產(chǎn)生“似懂非懂”的結(jié)果。Sora具備文生視頻的能力，它可以使知識跳脫難以理解的“抽象、晦澀”藩籬，變得“可視”“可學(xué)”，富有趣味性。通過利用Sora文生視頻技術(shù)可推動圖書館從提供紙質(zhì)圖書服務(wù)向可視化視頻內(nèi)容服務(wù)的轉(zhuǎn)變，以更多元化的內(nèi)容服務(wù)為用戶提供更優(yōu)質(zhì)的體驗。在智慧咨詢服務(wù)中，Sora的適用場景亦可表現(xiàn)在兩個方面：其一，及時為用戶答疑解惑。通過計算機(jī)視覺系統(tǒng)和自然語言處理技術(shù)，Sora可對用戶提出的問題進(jìn)行解構(gòu)，然后以易于理解的方式提供準(zhǔn)確答案，用戶僅需通過視頻化的解題過程便可清晰得知解題步驟和解題思路。使用戶“知其然，更知其所以然”，最終提高學(xué)習(xí)效率。其二，協(xié)助查找資料。在查詢資料過程中，人們通常易受無效信息或資料的困擾，通過與Sora的人機(jī)交互方式，有助于提高檢索資料的準(zhǔn)確性與全面性［16］。除此之外，在智慧推廣服務(wù)中，通過Sora文生視頻能力，圖書館可以制作圖書預(yù)告片用于介紹書籍、作者或出版社，增加讀者對特定書籍的了解和興趣。還可以視頻的方式發(fā)布書評和閱讀體驗，根據(jù)不同主題、風(fēng)格或需求向讀者推薦圖書，提高讀者選擇的準(zhǔn)確性和適配度。

Sora雖然能為圖書館的發(fā)展帶來前所未有的機(jī)遇，但與此同時也會對圖書館人力資源結(jié)構(gòu)帶來深刻影響。從人力資源結(jié)構(gòu)變化的角度來看，Sora將使圖書館某些傳統(tǒng)職業(yè)的減少或被替代，以達(dá)到可持續(xù)發(fā)展和就業(yè)機(jī)會轉(zhuǎn)型。具體而言，伴隨Sora技術(shù)的發(fā)展，將增加以下就業(yè)機(jī)會：（1）視頻圖書創(chuàng)作人員。這些人員將專門根據(jù)紙質(zhì)圖書或電子圖書將文字內(nèi)容轉(zhuǎn)化為視頻，確保視頻內(nèi)容符合文本內(nèi)容。（2）視頻內(nèi)容審查和監(jiān)管人員。隨著Sora技術(shù)的普及使用，圖書館需要有人專門負(fù)責(zé)審核視頻內(nèi)容的正當(dāng)性、合法性與合理性。（3）視頻后期處理人員。這些人員將主要負(fù)責(zé)視頻的后期制作、處理，如對視頻內(nèi)容進(jìn)行標(biāo)識來源、分類管理等。（4）視頻技術(shù)研發(fā)人員。這些人員應(yīng)當(dāng)具有人工智能、算法、大數(shù)據(jù)合成等專業(yè)知識，能夠?qū)σ曨l內(nèi)容、效果的生成技術(shù)和增強(qiáng)技術(shù)進(jìn)行改進(jìn)和修復(fù)。

2.4 用戶個性化定制服務(wù)創(chuàng)新

如果說ChatGPT在用戶個性化定制方面已表現(xiàn)出強(qiáng)大能力，那么Sora所能提供的個人化定制將會更加豐富。從教育服務(wù)的角度來看，Sora文生視頻的能力有助于用戶知識學(xué)習(xí)變得簡單而高效［17］。將Sora與圖書相結(jié)合，可將書籍里原本晦澀難懂的知識點(diǎn)變得更易理解。尤其是抽象概念、關(guān)系等“只可意會不可言談”的知識點(diǎn)，通過Sora的展示和講解可在現(xiàn)實世界中找到其具體表現(xiàn)；過去曾發(fā)生的歷史事實和歷史文獻(xiàn)，通過Sora的視頻模擬，將能情景再現(xiàn)。對于普通用戶而言，在學(xué)習(xí)上經(jīng)常面臨知識碎片化的考驗，如果能夠利用Sora將各學(xué)科知識以案例再現(xiàn)、虛擬場景的形式進(jìn)行視頻內(nèi)容轉(zhuǎn)化，無疑將幫助用戶建立起完整的知識體系。

在個性化定制服務(wù)方面，圖書館可通過Sora為用戶定制個性化學(xué)習(xí)計劃和知識素材。在日常生活中，學(xué)校的標(biāo)準(zhǔn)化教育通常難以實現(xiàn)每個人的個性化發(fā)展和需求，往往缺乏對每個學(xué)生實際需求的關(guān)注。而Sora可根據(jù)每個人的觀看記錄、人機(jī)交互行為數(shù)據(jù)，對用戶的興趣愛好、學(xué)習(xí)進(jìn)度、知識儲備、學(xué)習(xí)習(xí)慣、學(xué)習(xí)目標(biāo)等進(jìn)行評估，從而生成個性化的課程視頻，為用戶提供更合適的學(xué)習(xí)資料。在個性化體驗方面，Sora能夠生成視覺上、審美上不同學(xué)習(xí)風(fēng)格的視頻供用戶選擇，以提高學(xué)習(xí)效率和學(xué)習(xí)興趣。通過分析用戶的行為數(shù)據(jù)、成長經(jīng)歷、學(xué)習(xí)效果，Sora可以在不同的時間、空間環(huán)境下為其提供合適的學(xué)習(xí)內(nèi)容?？紤]到Sora的模型訓(xùn)練結(jié)合了Transformer、Patches、Diffusion等先進(jìn)技術(shù)，代表著算法應(yīng)用層面的最新發(fā)展，因此圖書館可有效利用Sora技術(shù)來提高自身的算法創(chuàng)新，更新原有數(shù)據(jù)和算法模型，從而促進(jìn)通用模型的自主性和持續(xù)學(xué)習(xí)能力。通過算法技術(shù)優(yōu)化以后，圖書館將能夠為讀者提供更加精準(zhǔn)、智慧化的推送服務(wù)［18］。如基于用戶的觀看習(xí)慣、用戶評價、興趣等，Sora能夠進(jìn)行播放列表定制和視頻內(nèi)容推薦，為其創(chuàng)建個性化的播放列表，方便用戶查看自己感興趣的視頻內(nèi)容。

3 人工智能Sora在圖書領(lǐng)域中的法律風(fēng)險

Sora在圖書館中的應(yīng)用可謂前景廣闊，尤其是在文生視頻方面呈現(xiàn)出良好的發(fā)展態(tài)勢，勢必會對未來的圖書館建設(shè)帶來重大變革。由于Sora主要依托海量語料庫和視頻數(shù)據(jù)等進(jìn)行訓(xùn)練和學(xué)習(xí)，其在圖書館中的應(yīng)用可能會面臨一些潛在的法律風(fēng)險。這些法律風(fēng)險分布在Sora“生成視頻的過程中”與“生成視頻后”兩個階段，主要表現(xiàn)為：侵犯人身權(quán)風(fēng)險、知識產(chǎn)權(quán)風(fēng)險、數(shù)據(jù)安全風(fēng)險、虛假信息風(fēng)險等。

3.1 侵犯人身權(quán)的風(fēng)險

近年來，隨著生成式人工智能技術(shù)發(fā)展的突飛猛進(jìn)，其對個人姓名權(quán)、肖像權(quán)、名譽(yù)權(quán)、隱私權(quán)等人格權(quán)益的侵害風(fēng)險逐步呈擴(kuò)大趨勢。如利用自然人聲音作為數(shù)據(jù)進(jìn)行AI模型訓(xùn)練。根據(jù)民法典規(guī)定，這種行為構(gòu)成侵犯他人聲音利益，也不屬于《著作權(quán)法》中“改編、演繹作品”所界定的法定許可范圍。生成式人工智能Sora的出現(xiàn)將使得個人的聲音、肖像等可以被輕松提取與合成，從而引發(fā)侵權(quán)糾紛［19］。根據(jù)《民法典》第1023條之規(guī)定，對自然人聲音的保護(hù)，參照適用肖像權(quán)保護(hù)的有關(guān)規(guī)定。肖像權(quán)是指自然人對自己的肖像享有再現(xiàn)、使用或許可他人使用的權(quán)利［20］。未經(jīng)肖像權(quán)人同意而使用他人肖像構(gòu)成侵犯肖像權(quán)的行為。Sora視頻大模型是根據(jù)視頻、圖像數(shù)據(jù)而生成模擬視頻，如果使用者未經(jīng)他人同意輸入他人的肖像或聲音從而生成相同人物圖像和音頻的一段視頻，便可構(gòu)成侵權(quán)。如在實踐中，部分網(wǎng)絡(luò)用戶未經(jīng)死者近親屬同意，利用逝世明星的肖像、聲音制作、發(fā)布“AI復(fù)活”系列短視頻，以溫情之名非法牟利，構(gòu)成侵犯死者人格利益的行為。倘若不對Sora所生成視頻的內(nèi)容進(jìn)行適當(dāng)審查或規(guī)范，那么Sora無疑將成為侵權(quán)人實施侵權(quán)行為的“幫兇”。

3.2 知識產(chǎn)權(quán)風(fēng)險

從Sora的視頻大模型訓(xùn)練過程來看，其在核心技術(shù)中常會利用原始視頻或圖像進(jìn)行壓縮、轉(zhuǎn)化為一維向量，然后使Sora在潛在空間中進(jìn)行訓(xùn)練與學(xué)習(xí)，最終生成視頻。在對視頻大模型進(jìn)行訓(xùn)練時，可能會發(fā)生侵犯他人著作權(quán)的行為。根據(jù)《著作權(quán)法》第26條規(guī)定，使用他人作品應(yīng)當(dāng)經(jīng)他人許可或同意。如果未經(jīng)他人許可或同意，且不構(gòu)成合理使用或法定許可使用的，則構(gòu)成侵犯著作權(quán)的行為。在視頻大模型訓(xùn)練中，設(shè)計者輸入原始文本、圖像或視頻等作品的行為，屬于對原作品的復(fù)制行為；而在后續(xù)的使用過程中，如果基于原作品進(jìn)行改寫或者擴(kuò)展成視頻，則屬于對原作品的改編行為。上述兩種行為如果未經(jīng)過原作品的著作權(quán)人許可，且不構(gòu)成合理使用的，那么就可能構(gòu)成侵犯著作權(quán)的行為。如在我國首個AIGC平臺侵權(quán)案件中，法院認(rèn)為被告AIGC平臺多次使用侵權(quán)數(shù)據(jù)訓(xùn)練AI大模型并生成相應(yīng)侵權(quán)圖片，侵犯奧特曼系列作品的復(fù)制權(quán)和改編權(quán)；其未建立投訴舉報機(jī)制、欠缺潛在風(fēng)險提示和顯著標(biāo)識等行為即表明被告未盡到合理注意義務(wù)，應(yīng)承擔(dān)侵權(quán)責(zé)任①。

結(jié)合圖書領(lǐng)域而言，如果要對文生視頻大模型進(jìn)行訓(xùn)練，或者想通過在先作品生成視頻，圖書出版商、圖書館等相關(guān)主體應(yīng)事先取得原作品的著作權(quán)人許可或同意，以避免發(fā)生著作權(quán)侵權(quán)糾紛。除此之外，當(dāng)Sora生成視頻以后，該視頻是否具有獨(dú)創(chuàng)性與可版權(quán)性，還可能存在著作權(quán)歸屬爭議。其一，Sora生成的視頻是否屬于著作權(quán)法上的“作品”？其二，出版社或圖書館通過Sora生成視頻后，誰是享有視頻作品著作權(quán)的法律主體？由此可見，Sora在圖書館中的應(yīng)用，將為圖書館知識產(chǎn)權(quán)保護(hù)機(jī)制帶來新挑戰(zhàn)。

3.3 數(shù)據(jù)安全、隱私和算法風(fēng)險

從Sora的運(yùn)行機(jī)制可知，它通過視頻圖像數(shù)據(jù)、大量語料庫數(shù)據(jù)來訓(xùn)練大模型。這個過程中會涉及視頻圖像數(shù)據(jù)的抓取、使用者個人信息的收集以及行為數(shù)據(jù)的采集。如用戶與Sora在人機(jī)交互過程中，會產(chǎn)生交互行為數(shù)據(jù)［21］；利用傳感設(shè)備、移動操作設(shè)備等高精度設(shè)備可以獲取文獻(xiàn)信息資源。在Sora大模型訓(xùn)練過程中，設(shè)計者通常利用圖書資源數(shù)據(jù)和用戶數(shù)據(jù)訓(xùn)練文生視頻人工智能模型，以滿足機(jī)器自主學(xué)習(xí)的需求。Sora在運(yùn)行時所收集的用戶相關(guān)數(shù)據(jù)和信息越多，其能為用戶提供個性化服務(wù)的質(zhì)量就會越高，也能推動圖書館在內(nèi)容生成、服務(wù)創(chuàng)新、知識提取等領(lǐng)域的智能升級［22］。然而，在這個過程中，極易出現(xiàn)Sora過度收集用戶行為數(shù)據(jù)和個人信息的情形發(fā)生。倘若圖書館或設(shè)計者在對視頻大模型進(jìn)行訓(xùn)練或者在生成視頻的過程中，不遵守法律法規(guī)的相關(guān)規(guī)定，將可能存在數(shù)據(jù)泄露和數(shù)據(jù)濫用的風(fēng)險。如ChatGPT曾被曝光在未遵守“告知同意”規(guī)則下，過度收集用戶個人信息且將用戶信息共享給第三方平臺，從而導(dǎo)致用戶數(shù)據(jù)、信息、隱私泄露。更甚者，如果收集、使用的數(shù)據(jù)涉及公共利益和國家利益，那么數(shù)據(jù)泄露則將導(dǎo)致重要機(jī)密流失海外。

此外，與其他人工智能一樣，以Sora為代表的文生視頻類生成式人工智能并不是一個沒有任何偏見的工具，其所生成的視頻內(nèi)容會受到算法規(guī)則的影響。算法是人為的產(chǎn)物，Sora所生成的內(nèi)容很大程度上取決于人類在視頻模型訓(xùn)練過程中使用了哪些數(shù)據(jù)和原始視頻作為素材對其進(jìn)行訓(xùn)練和學(xué)習(xí)。這意味著，Sora可能會受到人類的特定政治傾向、價值取向或其他利益的影響，最終產(chǎn)生算法偏見與歧視［23］。如有媒體曾曝光谷歌旗下一款A(yù)I Gemini在其生成的圖像中存在種族歧視問題，隨后谷歌對此回應(yīng)稱Gemini所呈現(xiàn)出的問題，不過是AI領(lǐng)域長期存在的歧視問題的另一種表現(xiàn)。在Sora后期的深度學(xué)習(xí)和自主學(xué)習(xí)過程中，由于視頻大模型需要不斷接受數(shù)據(jù)喂養(yǎng)，如果使用者提供的數(shù)據(jù)失真、數(shù)據(jù)樣本不全面或誤導(dǎo)性信息，那么其所生成的視頻內(nèi)容也將會帶有片面性和偏見性，無法確保輸出內(nèi)容是客觀且公正的。

3.4 虛假信息風(fēng)險

隨著生成式人工智能被廣泛應(yīng)用于文本、圖像、音頻和視頻等各大領(lǐng)域，信息傳播正經(jīng)歷著深刻變革，大量虛假信息滋生其中。生成式人工智能技術(shù)在生成虛假信息方面具有速度快、體量大和仿真性高的特征，它與虛假信息的耦合為虛假信息泛濫提供了“新路徑”［24］。虛假信息是指不符合事實真相的誤導(dǎo)性信息內(nèi)容。虛假信息的生產(chǎn)者和傳播者通常以隱瞞事實真相為目的，具有故意欺騙和誤導(dǎo)他人的主觀動機(jī)。既可能是出于社會動機(jī)，也可能是出于個人動機(jī)或?qū)剐枰绮倏孛癖?、損害他人聲譽(yù)等［25］。隨著生成式人工智能技術(shù)發(fā)展與算法演進(jìn)，信息的深度合成與偽造將會在個人、社會以及國家安全等不同層面產(chǎn)生風(fēng)險隱患［26］。在實踐中，目前深度合成偽造的現(xiàn)象頻發(fā)，如人像換臉、深度美顏、合成特效等情景，對視頻拍攝的內(nèi)容進(jìn)行操縱，增加了虛假信息產(chǎn)生的幾率。從社會秩序角度來看，生成式人工智能技術(shù)使得虛假新聞、虛假視頻制作成本更低、傳播速度更快、欺騙性更強(qiáng)，給社會秩序和社會信任機(jī)制帶來挑戰(zhàn)［27］。在國家安全方面，虛假信息將對政治穩(wěn)定、國防安全、經(jīng)濟(jì)安全等帶來隱患。因此，在圖書出版領(lǐng)域中，出版商、圖書館在生產(chǎn)視頻內(nèi)容、提供圖書視頻服務(wù)過程中，應(yīng)盡量確保視頻內(nèi)容的妥當(dāng)性與合法性，必要時對視頻制作與內(nèi)容進(jìn)行全面審查和監(jiān)管。

4 人工智能Sora在圖書領(lǐng)域應(yīng)用風(fēng)險的有效治理

對生成式人工智能Sora在圖書領(lǐng)域的適用存在的風(fēng)險進(jìn)行有效治理，應(yīng)以促進(jìn)行業(yè)可持續(xù)發(fā)展為目的，在追求知識生產(chǎn)和風(fēng)險防控之間尋求平衡，最終實現(xiàn)技術(shù)革新與知識傳播。有鑒于此，結(jié)合人工智能Sora的技術(shù)特征與圖書行業(yè)的創(chuàng)新發(fā)展，應(yīng)分別從個人權(quán)益保護(hù)、著作權(quán)保護(hù)與權(quán)利歸屬、算法監(jiān)管、提升合規(guī)能力等維度進(jìn)行回應(yīng)，將法律風(fēng)險置予可控之范圍內(nèi)。

4.1 加強(qiáng)對人格權(quán)、知識產(chǎn)權(quán)的法律保護(hù)

在數(shù)字圖書領(lǐng)域中，出版商、圖書館等相關(guān)主體利用文生視頻類人工智能將文字圖書轉(zhuǎn)化為視頻圖書，在制作視頻時應(yīng)當(dāng)避免侵犯他人姓名、肖像、名譽(yù)、聲音等人身利益的行為。對視頻大模型進(jìn)行訓(xùn)練時，如果訓(xùn)練數(shù)據(jù)樣本中涉及使用他人肖像、聲音等人格利益，應(yīng)當(dāng)事先取得他人授權(quán)或許可，且授權(quán)的內(nèi)容和范圍亦應(yīng)明確清晰。如果需要收集用戶、讀者的個人信息進(jìn)行模型訓(xùn)練，根據(jù)《民法典》《個人信息安全法》的相關(guān)規(guī)定，個人信息處理者在收集個人信息時應(yīng)當(dāng)取得個人的同意，且應(yīng)遵循比例原則，將可能給個人造成的損害限制在最小范圍。使用個人信息時，不得超出授權(quán)范圍而使用，不得另作其他商業(yè)性用途。

從作品授權(quán)層面而言，生成式人工智能大模型的訓(xùn)練通常需要海量素材和原始作品作為數(shù)據(jù)樣本，才能生成文本內(nèi)容、圖像或視頻。因此，在大模型訓(xùn)練時，為減少基于使用在先作品帶來的授權(quán)許可壓力和成本，可以通過建立一個集體管理組織來專門負(fù)責(zé)在先作品著作權(quán)的授權(quán)和許可工作。通過集體管理組織的授權(quán)或許可，有利于降低締約成本和時間成本，生成式人工智能的設(shè)計者、服務(wù)提供者便可在大模型訓(xùn)練階段付費(fèi)使用在先作品進(jìn)行訓(xùn)練。如果發(fā)生侵權(quán)行為，集體管理組織還可代表原著作權(quán)人進(jìn)行維權(quán)。

4.2 明確Sora生成視頻的著作權(quán)歸屬

出版商、圖書館使用文生視頻類生成式人工智能Sora生成視頻后，尚且存在兩個問題有待解決：第一，Sora生成的視頻是否屬于著作權(quán)法上的“作品”？第二，該作品的著作權(quán)歸屬主體是誰？有觀點(diǎn)認(rèn)為攝影作品的著作權(quán)保護(hù)路徑對生成式人工智能創(chuàng)作物的可版權(quán)性具有重要的啟示意義［28］。那么攝影作品的獨(dú)創(chuàng)性體現(xiàn)在哪些方面？通常而言，攝影作品是由攝影師事先設(shè)定相機(jī)參數(shù)、構(gòu)圖創(chuàng)意、選取場景和拍攝角度、光影技術(shù)等再按下快門鍵。由此所拍攝的照片便能體現(xiàn)攝影者的審美取向，通常會被認(rèn)為具有獨(dú)創(chuàng)性［29］。對比生成式人工智能Sora而言，人們在使用Sora時，通過設(shè)定提示詞或限定詞的方式按照算法規(guī)則輸入最終生成符合使用者預(yù)期的文本內(nèi)容或圖像。這個過程同樣能體現(xiàn)使用者的創(chuàng)造性勞動，而非簡單的機(jī)械性過程。如在我國首個“圖片類生成式人工智能創(chuàng)作”判決書中，法院認(rèn)為使用者在設(shè)計人物的呈現(xiàn)方式、選擇提示詞、安排提示詞順序、設(shè)置相關(guān)參數(shù)、選擇符合預(yù)期的圖片等方面均體現(xiàn)使用者的智力投入和個性化選擇，因此人工智能創(chuàng)作物具備“智力成果”和“獨(dú)創(chuàng)性”要件，應(yīng)當(dāng)認(rèn)定為作品①。雖然這起案件本身涉及的是“圖片類”生成式人工智能作品，但其裁判結(jié)論對文生視頻類生成式人工智能Sora所生成的視頻被視為作品具有重要的參考意義。從Sora生成視頻的運(yùn)行原理來看，出版商、圖書館作為使用者輸入提示詞、設(shè)定參數(shù)后通過Sora生成相應(yīng)視頻，其所輸入的提示詞、設(shè)定參數(shù)等行為同樣體現(xiàn)了出版商、圖書館作為使用者的個性化選擇和智力投入，因此生成式人工智能所生成的視頻構(gòu)成著作權(quán)法意義上的作品，應(yīng)受著作權(quán)法保護(hù)。

生成式人工智能Sora生成視頻以后，該視頻的著作權(quán)歸誰？對這一問題，目前存在兩種不同觀點(diǎn)。一種觀點(diǎn)認(rèn)為，文生視頻大模型生成的視頻作品融入人類的智力活動，屬于人類的智力成果［28］。另一種觀點(diǎn)認(rèn)為，機(jī)器學(xué)習(xí)技術(shù)下的算法自由實現(xiàn)了算法創(chuàng)作物的表達(dá)自由。其表達(dá)過程已不再受人類控制，表達(dá)結(jié)果已超出人類預(yù)期，不能將輸入提示詞得到AI創(chuàng)作物的用戶確立為作者［30］。對此，筆者認(rèn)為，文生視頻類生成式人工智能Sora生成視頻的著作權(quán)歸屬應(yīng)先遵循意思自治原則，沒有約定或者約定無效的，則按貢獻(xiàn)程度的動態(tài)認(rèn)定模式進(jìn)行確定。意思自治乃民法之根基，知識產(chǎn)權(quán)法雖作為民事特別法，亦應(yīng)遵循民法“私人自治”的核心價值。如OpenAI公司作為生成式人工智能的設(shè)計者和服務(wù)提供者，其在“使用協(xié)議”中已明確約定：“在用戶和OpenAI之間，用戶保留輸入內(nèi)容的所有權(quán)；且同時OpenAI將輸出中的所有權(quán)利、所有權(quán)和利益轉(zhuǎn)讓給用戶?！庇纱丝芍?，當(dāng)存在著作權(quán)歸屬的有效約定時，該約定只要不違反法律法規(guī)則屬有效，應(yīng)優(yōu)先適用。如果關(guān)于著作權(quán)歸屬的協(xié)議約定無效或者未明確約定的，則按照使用者與設(shè)計者、服務(wù)提供者之間的貢獻(xiàn)程度進(jìn)行確定。在人機(jī)協(xié)作過程中，AI使用者、AI設(shè)計者、AI服務(wù)提供者之間實際上存在著共同創(chuàng)作的關(guān)系。在這種共創(chuàng)模式下，很難一概而論地就斷定哪一方就是著作權(quán)主體。因此，可以采用“按照貢獻(xiàn)程度”的動態(tài)認(rèn)定模式去判斷AI作品的著作權(quán)歸屬。這種認(rèn)定模式與著作權(quán)法中作品的“智力成果”要件以及“獨(dú)創(chuàng)性”要件之標(biāo)準(zhǔn)相契合，是一種根據(jù)個案中各方主體在AI作品內(nèi)容中的實質(zhì)性貢獻(xiàn)程度大小來認(rèn)定作品的著作權(quán)歸屬，有利于平衡各方之間的利益關(guān)系，實現(xiàn)公平正義價值。

就圖書出版領(lǐng)域而言，圖書館在使用生成式人工智能Sora生成視頻后，該視頻的著作權(quán)歸屬認(rèn)定邏輯是：約定優(yōu)先，沒有約定或者約定無效的，則按照貢獻(xiàn)程度的動態(tài)認(rèn)定模式進(jìn)行確定。其中“貢獻(xiàn)程度”應(yīng)聚焦于最終呈現(xiàn)的版權(quán)法意義上的作品“內(nèi)容”進(jìn)行判斷，根據(jù)圖書館、AI設(shè)計者、AI服務(wù)提供者等主體與AI作品之間的關(guān)聯(lián)性、內(nèi)容策劃和設(shè)計、研究和分析、數(shù)據(jù)收集和統(tǒng)計、資金投入、智力投入程度、有償或無償?shù)纫貏討B(tài)認(rèn)定。如圖書館將圖書文本內(nèi)容作為提示詞輸入生成式人工智能Sora生成相應(yīng)視頻，輸入的提示詞越詳細(xì)，其與最終視頻作品內(nèi)容的關(guān)聯(lián)性越高，該視頻的著作權(quán)應(yīng)由圖書館享有。

4.3 強(qiáng)化人工智能算法監(jiān)管

我國在算法領(lǐng)域目前制定了以場景和架構(gòu)為基準(zhǔn)的算法標(biāo)準(zhǔn)、法律法規(guī)。如《信息服務(wù)算法推薦管理規(guī)定》《算法綜合治理的指導(dǎo)意見》《深度合成管理規(guī)定》以及《機(jī)器學(xué)習(xí)算法安全評估規(guī)范》（征求意見稿）等。但面對人工智能技術(shù)帶來的種種挑戰(zhàn)，僅憑法律一己之力實難完全應(yīng)對。基于人工智能的技術(shù)風(fēng)險外溢所呈現(xiàn)的安全隱患，有必要重新審視人工智能的治理理念。就此而言，對生成式人工智能算法治理需要秉持“協(xié)同共治”的治理理念，強(qiáng)調(diào)多元力量共同參與。

在協(xié)同共治的治理理念下，對生成式人工智能Sora的治理主要包括治理主體多元性、法律功能互補(bǔ)性、治理模式協(xié)同性、價值取向公共性等內(nèi)容。（1）治理主體多元性。人工智能技術(shù)匯聚互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等現(xiàn)代信息技術(shù)，在創(chuàng)新發(fā)展與場景運(yùn)用過程中，各方主體都對人工智能的治理存在不同關(guān)切。政府、人工智能開發(fā)者和設(shè)計者、圖書館、公眾等，在涉及人工智能的關(guān)系網(wǎng)絡(luò)中都不同程度地扮演“實質(zhì)性參與”角色。鑒于此，應(yīng)當(dāng)建立一個由政府主導(dǎo)、圖書館和研究技術(shù)人員等社會力量參與的多元主體共治平臺。（2）法律功能互補(bǔ)性。承前所述，人工智能Sora在生成視頻過程中與視頻生成后可能存在多方面法律風(fēng)險，甚至可能涉及刑事風(fēng)險。因此，不僅涉及民事法律，而且關(guān)乎行政、刑事法律法規(guī)，故需要私法與公法的協(xié)同和互補(bǔ)。（3）治理模式協(xié)同性?，F(xiàn)階段我國正嘗試建立以政府監(jiān)管部門為主、行業(yè)合規(guī)自治為中心的動態(tài)調(diào)整治理模式。但在技術(shù)發(fā)展過程中，對人工智能產(chǎn)品引發(fā)的新問題和新風(fēng)險的防控機(jī)制尚存在不足。面對同一問題，德國建立了由算法倫理委員會和自動化決策系統(tǒng)專家等第三方組成的獨(dú)立組織，適當(dāng)介入?yún)⑴c治理。加強(qiáng)第三方監(jiān)管，可在一定程度上保證自動決策和算法的公正性和透明性［31］。且第三方參與具有一定獨(dú)立性，有利于降低監(jiān)管成本。（4）價值取向公共性。人工智能算法治理應(yīng)弘揚(yáng)人文價值，這不僅是人工智能技術(shù)發(fā)展的道德要求，也是倫理規(guī)范。為了應(yīng)對人工智能Sora在圖書領(lǐng)域運(yùn)用的風(fēng)險與挑戰(zhàn)，應(yīng)強(qiáng)化對人機(jī)交互關(guān)系的倫理規(guī)約和行業(yè)自律規(guī)范，防止“算法黑箱”對人的主體地位、認(rèn)知團(tuán)結(jié)和共識凝聚的潛在威脅。當(dāng)前，算法黑箱正在“加劇社群內(nèi)部分化，部分弱勢群體或?qū)⒚媾R信息不透明的挑戰(zhàn)，又或是成為算法霸凌的受害者，動搖普遍意義上的人本主義立場”［32］。人類社會不能以人機(jī)關(guān)系替代人際關(guān)系，不能讓人工智能判斷替代人類價值判斷，不能讓機(jī)器數(shù)據(jù)和算法共識替代人類的普遍共識。因此，在算法監(jiān)管方面還應(yīng)當(dāng)堅持法律與道德、倫理以及行業(yè)自律規(guī)范協(xié)同共治、并駕齊驅(qū)的治理模式，共同維護(hù)國家主權(quán)、公共利益和圖書行業(yè)的發(fā)展利益，使治理成為一種善治。

4.4 提升圖書館的自我合規(guī)能力

由于人工智能Sora主要以自動生成視頻為載體，因此圖書館應(yīng)當(dāng)建立起與視頻內(nèi)容相關(guān)的風(fēng)險防范機(jī)制。這主要涉及視頻內(nèi)容審查與虛假信息防范兩個方面。就視頻內(nèi)容審查而言，應(yīng)分別建立實質(zhì)性審查與形式審查相結(jié)合的模式。在內(nèi)容實質(zhì)性審查上，為避免人工智能生成的視頻內(nèi)容存在有害、色情、歧視性或不道德內(nèi)容，應(yīng)以公序良俗、社會主義核心價值觀作為視頻內(nèi)容的一般審查標(biāo)準(zhǔn)。加強(qiáng)對中華優(yōu)秀傳統(tǒng)文化的保護(hù)，提升文化自信，杜絕包含宣揚(yáng)暴力、分裂社會、制造對立、侮辱性等色彩的視頻內(nèi)容輸出。在形式審查上，應(yīng)根據(jù)《深度合成管理規(guī)定》《生成式人工智能服務(wù)內(nèi)容標(biāo)識方法》的規(guī)定履行內(nèi)容標(biāo)識義務(wù)［26］。標(biāo)識的方式主要有兩種：即顯式水印標(biāo)識和隱式水印標(biāo)識。顯式水印標(biāo)識是指在人工智能生成內(nèi)容的顯示區(qū)域中添加顯示帶有“由人工智能生成”或“由AI生成”的提示文字；隱式水印標(biāo)識是指在由人工智能生成的圖片、音頻、視頻時，應(yīng)通過時空域水印或變換域水印的方式實現(xiàn)標(biāo)識信息。通過這種方式要求相關(guān)主體在發(fā)布、傳播Sora生成的視頻內(nèi)容時應(yīng)以顯著的方式對視頻來源、內(nèi)容質(zhì)量進(jìn)行標(biāo)識和審查，能夠強(qiáng)化主體責(zé)任。

為了保障信息內(nèi)容安全，營造清朗的網(wǎng)絡(luò)環(huán)境與維護(hù)社會穩(wěn)定，圖書館在運(yùn)用人工智能Sora時，應(yīng)構(gòu)建起虛假信息的防范機(jī)制?！渡墒饺斯ぶ悄芊?wù)管理暫行辦法》第15條規(guī)定了“投訴、舉報”規(guī)則以及辟謠機(jī)制，要求對虛假信息的生成和傳播進(jìn)行預(yù)測、監(jiān)控及治理。在圖書館利用人工智能搭建起的數(shù)字化信息平臺中，用戶與Sora進(jìn)行人機(jī)交互時可隨時上傳、發(fā)布、共享自己創(chuàng)作的視頻作品。對于這些視頻作品內(nèi)容的妥當(dāng)性、真實性與合法性，圖書館應(yīng)當(dāng)及時進(jìn)行審查，建立動態(tài)監(jiān)管機(jī)制，防止有害信息、虛假信息流動到公眾視野。圖書館對虛假信息防范的范圍應(yīng)適當(dāng)明確，即以有害信息控制為目的，以維護(hù)國家安全和社會安全為基本要求，推動中國式現(xiàn)代化進(jìn)程中的數(shù)字文化強(qiáng)國建設(shè)。然而，對虛假信息的治理并非一家之責(zé)，還需立足于現(xiàn)行法律法規(guī)結(jié)合技術(shù)發(fā)展水平，探索多手段合作治理的路徑，才能真正建立起健康有序的人機(jī)共存的生態(tài)。

5 結(jié)語

以Sora為代表的文生視頻類生成式人工智能的誕生，標(biāo)志著人工智能技術(shù)發(fā)展有了質(zhì)的飛躍。當(dāng)下階段，人工智能技術(shù)正成為一種“新質(zhì)生產(chǎn)力”，衍生出多樣化的應(yīng)用場景與業(yè)態(tài)。文生視頻類生成式人工智能在圖書領(lǐng)域中有著廣泛的應(yīng)用前景，包括建立可視化數(shù)字資源知識庫、建設(shè)虛擬空間、創(chuàng)新智慧服務(wù)模式、實現(xiàn)個性化定制服務(wù)體驗等。但與此同時，其也帶來了侵犯人身權(quán)、知識產(chǎn)權(quán)、數(shù)據(jù)安全、算法以及增加虛假信息等風(fēng)險。為消除這些法律風(fēng)險和科技隱患，讓科技能更好地服務(wù)于圖書行業(yè)的可持續(xù)發(fā)展，應(yīng)當(dāng)加強(qiáng)對人格權(quán)、知識產(chǎn)權(quán)的法律保護(hù)，厘清Sora生成視頻的著作權(quán)歸屬。在此基礎(chǔ)上進(jìn)一步強(qiáng)化算法監(jiān)管和視頻內(nèi)容審查，以營造清朗的網(wǎng)絡(luò)環(huán)境，建立一個健康有序的人機(jī)共存發(fā)展前景。

參考文獻(xiàn)：

［1］何自力.新質(zhì)生產(chǎn)力理論的科學(xué)內(nèi)涵和時代意義［J］.中國高校社會科學(xué)，2024（3）：4-14，157.

［2］令小雄，王鼎民，唐銘悅.ChatGPT到Sora：Sora文生視頻大模型對影視創(chuàng)作的機(jī)遇、風(fēng)險及矯治［J］.新疆師范大學(xué)學(xué)報（哲學(xué)社會科學(xué)版），2024（6）：91-99.

［3］朱光輝，王喜文.人工智能文生視頻大模型Sora的核心技術(shù)、運(yùn)行機(jī)理及未來場景［J］.新疆師范大學(xué)學(xué)報（哲學(xué)社會科學(xué)版），2024，45（4）：149-156.

［4］ Perez-Liebana D，Liu J L，Khalifa A，et al.General Video Game AI：A Multitrack Framework for Evaluating Agents，Games， and Content Generation Algorithms［J］.IEEE Transactions on Games，2019，11（3）：195-214.

［5］周誠辰，于千城，張麗絲.Graph Transformers研究進(jìn)展綜述［J］.計算機(jī)工程與應(yīng)用，2024（1）：1-14.

［6］ Beraldo G，De Benedictis R，Cesta A，et al.Toward AI Enabled Commercial Telepresence Robots to Combine Home Care Needs and Affordability［J］.IEEE Robotics And Automation Letters，2023，8（10）：6691-6698.

［7］ Luo G，Zhou Y，Sun X，et al.Towards Lightweight Transformer Via Group-Wise Transformation for Vision-and-Language Tasks［J］.IEEE Transactions On Image Processing，2022，31：3386-3398.

［8］ Afrasiabi M，Khotanlou H，Mansoorizadeh M.DTW-CNN：time series-based human interaction prediction in videos using CNN-extracted features［J］.The Visual Computer，2020，36（6）：1127-1139.

［9］ Croitoru F A，Hondru V，Ionescu R T，et al.Diffusion Models in Vision：A Survey［J］.IEEE Transactions On Pattern Analysis And Machine Intelligence，2023，45（9）：10850-10869.

［10］ Wu C H，Liu C H.Sentence Correction Incorporating Relative Position and Parse Template Language Models［J］.IEEE Transactions on Audio Speech and Language Processing，2010，18（6）：1170-1181.

［11］ Xiao J，Bi X J.Multi-Scale Attention Generative Adversarial Networks for Video Frame Interpolation［J］.IEEE Access，2020，8：94842-94851.

［12］郎林芳，黃世晴，王玨，等.元宇宙圖書館閱讀推廣服務(wù)創(chuàng)新發(fā)展研究［J］.圖書館雜志，2023，42（10）：55-63.

［13］喻國明，蘇芳.作為真實世界模擬器的媒介與后真相時代的“撥亂反正”［J］.新疆師范大學(xué)學(xué)報（哲學(xué)社會科學(xué)版），2024，45（4）：143-148.

［14］柯和平，龔自振，謝海先.智慧圖書館建設(shè)中混合式智慧學(xué)習(xí)空間的構(gòu)建研究［J］.現(xiàn)代教育技術(shù)，2024，34（4）：112-121.

［15］陸道坤，陳吉鈺.Sora：學(xué)校教育的“終結(jié)者”還是“拯救者”［J］.新疆師范大學(xué)學(xué)報（哲學(xué)社會科學(xué)版），2024（6）：110-125.

［16］杜牧真.智慧圖書館建設(shè)背景下圖書館交互數(shù)據(jù)的權(quán)利定位與全能［J］.圖書館建設(shè)，2024（1）：96-107.

［17］馮雨奐.AIGC時代教育的視頻化轉(zhuǎn)向及其風(fēng)險應(yīng)對——由文生視頻模型Sora引發(fā)的思考［J］.思想理論教育，2024（5）：27-33.

［18］尹克寒，陳紀(jì)文.AGI浪潮下Sora何以賦能智慧圖書館建設(shè)［J］.圖書館理論與實踐，2024（3）：12-19.

［19］李濤.論聲音權(quán)在人格權(quán)編中的確立［J］.三峽大學(xué)學(xué)報（人文社會科學(xué)版），2019，41（3）：92-96.

［20］馬俊駒，余延滿.民法原論（第四版）［M］.北京：法律出版社，2016：107.

［21］王藝，曹越.AIGC技術(shù)賦能下圖書選題智能策劃系統(tǒng)的技術(shù)邏輯與體系建構(gòu)［J］.出版發(fā)行研究，2024（2）：31-37.

［22］趙楊，張雪，范圣悅.AIGC驅(qū)動的智慧圖書館轉(zhuǎn)型：框架、路徑與挑戰(zhàn)［J］.情報理論與實踐，2023，46（7）：9-16.

［23］鐘曉東.論生成式人工智能的數(shù)據(jù)安全風(fēng)險及回應(yīng)型治理［J］.東方法學(xué)，2023（5）：106-116.

［24］胡泳.人工智能驅(qū)動的虛假信息：現(xiàn)代與未來［J］.南京社會科學(xué)，2024（1）：96-109.

［25］李衛(wèi)東.數(shù)字組織論［M］.武漢：華中科技大學(xué)出版社，2022：113.

［26］漆晨航.生成式人工智能的虛假信息風(fēng)險特征及其治理路徑［J］.情報理論與實踐，2024，47（3）：112-120.

［27］胡泳.AI視頻的興起：Sora類生成式平臺的可能性與風(fēng)險［J］.傳媒觀察，2024（4）：5-19.

［28］叢立先，李泳霖.人工智能文生視頻大模型的作品風(fēng)險、著作權(quán)歸屬及有效治理［J］.新疆師范大學(xué)（哲學(xué)社會科學(xué)版），2024（6）：153-163.

［29］徐小奔.論算法創(chuàng)作物的可版權(quán)性與著作權(quán)歸屬［J］.東方法學(xué)，2021（3）：41-55.

［30］徐小奔.論人工智能生成內(nèi)容的著作權(quán)法平等保護(hù)［J］.中國法學(xué)，2024（1）：166-185.

［31］張淑玲.破解黑箱：智媒時代的算法權(quán)力規(guī)制與透明實現(xiàn)機(jī)制［J］.中國出版，2018（7）：49-53.

［32］曹克亮.Sora的意識形態(tài)效應(yīng)及其治理［J］.統(tǒng)一戰(zhàn)線學(xué)研究，2024（3）：166-178.

作者簡介：李濤（1993-），男，中南財經(jīng)政法大學(xué)法學(xué)院博士研究生，研究方向：民商法學(xué)、知識產(chǎn)權(quán)法。

圖書與情報2024年4期

圖書與情報的其它文章: 突發(fā)事件網(wǎng)絡(luò)輿情：認(rèn)知圖景與分析框架*; 突發(fā)事件網(wǎng)絡(luò)輿情多元主體決策行為的博弈演化研究*; 三方博弈下網(wǎng)絡(luò)空間信息失序治理動態(tài)演化機(jī)制研究*; 突發(fā)事件網(wǎng)絡(luò)輿情事件圖譜的構(gòu)建及應(yīng)用研究*; 生成式人工智能研究進(jìn)展*; 數(shù)據(jù)驅(qū)動的檔案文獻(xiàn)遺產(chǎn)價值挖掘與活化研究*

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

文生視頻類人工智能在圖書領(lǐng)域的應(yīng)用場景及有效治理*