宋艷飛?張瑤?樊偉
摘要:當前,以ChatGPT、Sora等現(xiàn)象級產品為代表的生成式人工智能快速發(fā)展,正在重塑產業(yè)鏈和價值鏈。與此同時,也在數(shù)據(jù)安全、算法安全、網絡安全和應用安全等方面引發(fā)了諸多新風險,可能造成嚴重影響。世界主要國家和地區(qū)高度重視生成式人工智能安全風險治理,從政策引導、技術保障、國際合作等維度推進風險治理體系建設??萍计髽I(yè)在積極推進前沿技術創(chuàng)新的同時,也應高度重視安全治理,從不同側重點發(fā)力保障人工智能可信賴、負責任。我國應從加強跟蹤研究、推進技術攻關、推動“以評促建”和加強國際交流四個維度發(fā)力,保障人工智能安全健康發(fā)展。
關鍵詞:生成式人工智能;安全風險;安全治理;科技巨頭
一、引言
近年來,生成式人工智能加速發(fā)展演進,已經成為人工智能的主要發(fā)展方向,并廣泛應用于各行各業(yè)。但生成式人工智能的應用,也帶來了數(shù)據(jù)、算法、網絡等領域的安全風險。本文以生成式人工智能為研究對象,梳理了美、歐、英、日等國家在政策引導、技術保障、國際合作等方面治理生成式人工智能風險的舉措,并總結了全球典型科技企業(yè)在體系布局、輸出服務、定期審查等方面治理人工智能安全風險的舉措。結合研究分析,本文從加強跟蹤研究、推進技術攻關、推動“以評促建”、加強國際交流等方面提出啟示與建議。
二、生成式人工智能安全風險類型與現(xiàn)狀
隨著生成式人工智能的迅猛發(fā)展與廣泛應用,技術產業(yè)正經歷著翻天覆地的變革。然而,這一進步的背后也隱藏著諸多亟待解決的問題。生成式人工智能所固有的技術缺陷,加之社會對其認知的不足,已經在網絡安全、數(shù)據(jù)保護和算法穩(wěn)健性等方面引發(fā)了嚴重的風險。更為深遠的是,這些風險對國家的政治穩(wěn)定、軍事安全以及社會和諧構成了多方面的挑戰(zhàn)。有鑒于此,本文旨在全面而深入地探討生成式人工智能在各個領域應用中所面臨的安全風險類型,并對其當前的發(fā)展狀況進行細致地分析,為研究分析生成式人工智能風險治理路徑提供參考。
(一)數(shù)據(jù)安全風險
數(shù)據(jù)安全風險是指生成式人工智能技術自身因數(shù)據(jù)問題造成的風險,如訓練數(shù)據(jù)污染、運行階段的異常數(shù)據(jù)、數(shù)據(jù)信息竊取等。另一方面,生成式人工智能技術的應用將對數(shù)據(jù)安全本身帶來風險,如隱私泄露、增加大量虛假數(shù)據(jù)、數(shù)據(jù)濫用放大社會偏見等。
1.數(shù)據(jù)污染導致錯誤結論
訓練數(shù)據(jù)遭到污染,將會導致模型產生錯誤的決策,從而輸出偏離目標或反其道而行之,可能會對社會、經濟和國家安全產生嚴重影響。訓練數(shù)據(jù)污染常見的攻擊方式有兩種:一是模型傾斜攻擊,攻擊者可以有意地在訓練數(shù)據(jù)中注入虛假或有害信息,以誤導模型。例如,攻擊者可以欺騙分類器,將特定的惡意文件(如病毒或木馬)標記為無害,從而使模型無法準確識別真正的威脅。這對于那些依賴AI系統(tǒng)進行威脅檢測的應用,如網絡安全、內容安全等方面,可能會產生嚴重的后果。二是反饋誤導攻擊,攻擊者可以通過欺騙模型的反饋機制,直接向模型“注入”惡意信息,從而引導其做出錯誤的判斷。這種攻擊方式在需要不斷學習和適應的情況下尤為危險,因為攻擊者可以不斷地更新模型的錯誤判斷,使其更具破壞性。
2.信息泄露引發(fā)隱私安全問題
生成式人工智能模型需要大量的數(shù)據(jù)來訓練和優(yōu)化,這些數(shù)據(jù)可能包括用戶的個人信息,如姓名、地址、電話號碼、電子郵件地址、社交媒體賬號等。如果這些數(shù)據(jù)被不當使用或被惡意攻擊者獲取,就可能會引發(fā)個人信息泄露的風險。一是用戶個人信息泄露。生成式人工智能模型可能會自動推斷出用戶的個人信息,如姓名、地址、電話號碼、電子郵件地址等。這些信息可能會被用于推銷、廣告和欺詐行為。二是社交媒體賬號被盜用。用戶可能會將他們的社交媒體賬號與生成式人工智能模型綁定,從而導致他們的賬號被惡意攻擊者盜用。攻擊者可以利用這些賬號獲取更多的個人信息,甚至使用這些信息進行欺詐或惡意行為。三是隱私照片和視頻泄露。生成式人工智能模型可能會自動生成用戶的隱私照片和視頻,并將其傳播到互聯(lián)網上。這些照片和視頻可能會被惡意利用,導致用戶遭受嚴重的傷害和損失。例如,2018年8月,騰訊安全團隊發(fā)現(xiàn)亞馬遜智能音箱后門,可實現(xiàn)遠程竊聽并錄音。Facebook的DeepFace項目在訓練過程中使用了用戶數(shù)據(jù),這些數(shù)據(jù)可能包含個人身份信息。如果沒有妥善處理,這些信息可能被泄露,導致隱私侵犯。2019年7月,薩默維爾市成為美國繼舊金山之后第二個禁止人臉識別的城市。
(二)算法安全風險
人工智能技術所取得的成就很大程度上得益于相關算法及技術的進步,尤其是基于神經網絡的深度學習算法。人工智能算法系統(tǒng)在執(zhí)行過程中通過自動更新操作參數(shù)及規(guī)則,導致整個執(zhí)行決策過程存在難以理解、執(zhí)行過程的不透明、弱魯棒性、帶有偏見等一系列問題,這些問題存在巨大的隱患。
1.算法框架存在開源風險
常見的開源深度學習框架及其第三方 SDK 中包含著多種漏洞,其中作為主流框架的 TensorFlow 被發(fā)現(xiàn)在接口、學習算法、編譯、部署和安裝中都存在漏洞,攻擊者利用這些漏洞實施逃逸攻擊、拒絕服務攻擊等,將對應用系統(tǒng)造成決策失誤、數(shù)據(jù)污染等問題。此外,生成式人工智能算法存在知識產權侵權風險,生成式人工智能有可能使用未經許可的版權作品或商標,侵犯他人的知識產權。一方面,生成式人工智能是否會侵犯他人的知識產權;其產生的內容是否具有知識產權,這些問題需要進一步探究。2019年,一家名為DeepArt的公司使用名畫家的風格來生成新的藝術作品,被指控侵犯了原畫家的版權,引發(fā)了關于AI創(chuàng)作版權歸屬的法律爭議。
2.黑盒化導致安全隱患
目前,黑盒開發(fā)是生成式人工智能算法、深度學習建模的主要方法。該算法內部的工作方式、運算過程大部分是不可見的,對于用戶、設計與開發(fā)人員來說通常都是難以理解的,不能檢查系統(tǒng)的代碼或產生輸出的邏輯。黑盒化將帶來諸多問題:一是算法可解釋性問題。大模型是數(shù)據(jù)驅動深度學習的產物,其內部推理的過程非常難以理解,尤其是極深的模型層級和海量的模型參數(shù),導致我們無法理解其工作原理,繼而無法信任和控制,破壞了可用性。二是算法內生安全問題。目前攻擊大模型方法相當多,包括數(shù)據(jù)投毒、后門攻擊、對抗樣本攻擊、成員推斷攻擊、提示詞注入攻擊等,這破壞了保密性、可用性、完整性,可能導致模型拒絕服務、用戶隱私泄露、模型參數(shù)泄露等問題。三是使用過程中安全性問題。大模型也可用來作惡,如生成釣魚郵件、挖掘系統(tǒng)漏洞、生成虛假內容等,這破壞了抗抵賴性、真實性、可核查性。
(三)網絡安全風險
人工智能的應用也帶來了諸多網絡安全風險。黑客或其他惡意行為者可利用人工智能自然語言編寫的能力,開展一系列網絡攻擊行為,如生成惡意軟件、釣魚電子郵件等。以往威脅實施者的知識水平限制了其對網絡安全威脅的程度,但是現(xiàn)在借助人工智能可更快、更容易發(fā)起網絡攻擊,大大降低網絡攻擊的成本和門檻。
1.網攻風險增加
生成式人工智能被惡意使用能夠降低網絡攻擊門檻、加快攻擊頻次。人工智能GC類應用基于海量知識儲備、數(shù)據(jù)分析、語言組織等底層能力,可在短期批量制作多種網絡攻擊手段,在內容創(chuàng)作的同時大幅降低了網絡攻擊的制作門檻。沒有編程經驗的使用者通過一定的交互技巧(包含專業(yè)術語的多次補充、迭代)即可編寫出釣魚郵件、惡意代碼、勒索軟件,進而快速實現(xiàn)普遍性、高仿真的社會工程學攻擊。
人工智能驅動的惡意軟件可以利用其智能更快地感染計算機或使攻擊更有效。目前,國外已經開展了基于人工智能的惡意代碼和軟件的探索與研發(fā)工作。例如:IBM公司研究人員將幾種現(xiàn)有的人工智能模型與當前的惡意軟件技術結合起來,設計了一款名為DeepLocker的惡意軟件,該軟件并不像普通的惡意軟件采用隨機傳播方式,而是將特定受害者作為目標,一旦人工智能模型通過面部識別、地理定位和語音識別等指標識別出目標,它就會啟動惡意行動,幾乎無法逆向工程。
2.沖擊現(xiàn)有網絡防御系統(tǒng)
生成式人工智能技術被惡意使用將顯著提升網絡攻擊復雜程度、強化攻擊效果。人工智能前沿應用可將部分勞動密集型的攻擊工作實現(xiàn)自動化,可利用自身算法提升惡意代碼的生存能力,甚至精確定位目標以實現(xiàn)高級持續(xù)性威脅打擊。
IBM研究院曾展示過搭配卷積神經網絡模型(CNN)的DeepLocker,驗證了精準釋放惡意代碼的技術可行性,該模型只需輔以大量數(shù)據(jù)訓練便可轉化為成熟應用,將對現(xiàn)有網絡防御系統(tǒng)帶來巨大沖擊。網絡安全公司CheckPoint利用ChatGPT機器人結合OpenAI的代碼編寫系統(tǒng)Codex,生成了能攜帶惡意載荷、編寫巧妙的網絡釣魚郵件。CheckPoint公司創(chuàng)建的網絡釣魚電子郵件,附有Excel文檔,其中包含將反向Shell下載到受害者系統(tǒng)的惡意代碼。此外,攻擊者可以利用機器學習算法,分析大量銀行客戶的電子郵件和短信記錄,自動生成逼真的釣魚郵件和短信,使受害者誤以為是真正的銀行發(fā)送的信息,從而暴露了銀行客戶的賬號和密碼。
(四)綜合安全風險
1.影響公眾意識,威脅政治安全
人工智能可用于影響公眾政治意識形態(tài),間接威脅國家安全。人工智能在推動政治動員走向去中心化的過程中在一定程度上削弱了國家對政治動員行為的監(jiān)督能力。 2018年,美國《紐約時報》和英國《觀察家報》報道稱,劍橋公司涉嫌竊取Facebook用戶個人數(shù)據(jù),并利用智能廣告推薦功能,影響2016年美國大選。2021 年美國“國會山事件”中,特朗普的支持者依托人工智能和大數(shù)據(jù)技術,通過Twitter、YouTube等社交軟件推送功能尋找潛在動員對象,發(fā)布行動計劃,在短時間內迅速實現(xiàn)政治動員,最終沖入國會大廈。該事件極大地沖擊了美國的社會秩序,進一步加劇了美國社會的分裂。
2.軍事應用給未來戰(zhàn)場帶來不確定性
人工智能技術作為具有顛覆性的前沿技術,其應用于軍事領域勢必會對國家安全產生深刻的影響。一是生成式人工智能能夠改善情報工作的整體質量與效益。生成式人工智能的人機對話能力、強大的文字處理能力以及對圖像、視覺、語音等更多智能算法系統(tǒng)的整合調用能力,降低了情報人員利用機器學習和智能技術處理大規(guī)模信息的門檻,可為情報工作的所有人員(搜集人員、分析人員、管理人員等)、所有領域(人力情報、開源情報、技偵情報等)、所有類別(文字情報、圖像情報、語音情報、視頻情報和信號情報等)和所有階段(需求、計劃、搜集、處理、分析和分發(fā)等全階段)提供支撐,加速人機結合高效情報處理的范式轉移。二是賦能高度自動化無人作戰(zhàn)。隨著美軍中各類智能系統(tǒng)和無人裝備廣泛列裝,通過一體嵌入或接口調用生成式人工智能功能實現(xiàn)人與裝備的流暢對話,將極大變革戰(zhàn)場人機交互模式,降低無人裝備操作難度與操控負荷,實現(xiàn)更密切協(xié)同的人機編隊作戰(zhàn),更高效的半自主無人作戰(zhàn),推動“忠誠僚機”和集群無人機的普遍列裝和運用。2018年8月,委內瑞拉總統(tǒng)在公開活動中受到無人機炸彈襲擊,這是全球首例利用人工智能產品進行的恐怖活動。2022年3月,烏克蘭軍方利用美國“明視人工智能”的智能面部識別技術識別俄軍陣亡和被俘人員身份,并挖掘其家庭和社會關系,將照片發(fā)給其親友,形成心理震懾。
3.沖擊現(xiàn)有社會倫理道德體系
人工智能產品和應用會對現(xiàn)有社會倫理道德體系造成沖擊。一是道德和法律責任:當AI生成的內容導致傷害或犯罪行為時,確定責任歸屬(是AI開發(fā)者、使用者還是AI本身)變得復雜。二是偏見和歧視:如果AI訓練數(shù)據(jù)存在偏見,生成的內容也可能反映并放大這些偏見,導致對某些群體的不公平對待。三是失業(yè)和勞動市場影響:生成式AI在內容創(chuàng)作等領域的應用可能取代人類工作者,影響勞動市場和就業(yè)結構。四是心理和健康影響:過度依賴AI生成的內容可能影響人們的心理健康,如過度使用深度偽造(deepfake)技術可能導致現(xiàn)實感知的扭曲。五是倫理標準和監(jiān)管缺失:當前對于生成式AI的倫理標準和監(jiān)管措施尚不完善,需要制定相應的法規(guī)和指導原則以確保其負責任的使用。例如,2018年,Google的AI助手Duplex在演示中模仿了人類的語音和語調,但被發(fā)現(xiàn)在與女性通話時更加禮貌和順從,反映了性別偏見。2019年,一名男子使用AI換臉技術將自己的臉替換到色情視頻中,導致原視頻主角面臨名譽損害,引發(fā)了關于AI生成內容責任歸屬的討論。
二、各國治理生成式人工智能風險的舉措分析
生成式人工智能安全問題廣泛存在,美、歐、俄、日等國家通過不同的戰(zhàn)略政策、法規(guī)引導等提高生成式人工智能在民用、軍用領域風險管控能力,推動生成式人工智能發(fā)展。
(一)美國多措并舉治理生成式人工智能風險
1.通過戰(zhàn)略和行政命令,確保國際領導力和國家安全
美政府頒布法案政令,頂層指導生成式人工智能發(fā)展。2022年10月,美國頒布《人工智能權利法案藍圖:讓自動化系統(tǒng)為美國人民服務》,確定了建立安全有效的系統(tǒng)、避免算法歧視、注重數(shù)據(jù)隱私、提倡清晰的通知和解釋、設置備選方案和推出機制共五項原則,用以指導人工智能的設計,使用和部署。2023年11月,美國國會參議院兩黨議員聯(lián)合提出《2023人工智能研究、創(chuàng)新和問責法案》,以分類監(jiān)管方式推動了監(jiān)管制度的改進。2023年10月,美國總統(tǒng)拜登簽署第14110號行政命令“關于安全、可靠和值得信賴的人工智能”,包含標準建設、隱私保護、創(chuàng)新與競爭等八個方面,加速人工智能快速融入美國各領域,為美國政府、人民帶來巨大利益。
美國防部制定戰(zhàn)略政策,引領軍事人工智能安全發(fā)展。 2019年2月,美國防部發(fā)布《國防部人工智能戰(zhàn)略》,明確了實施負責任人工智能的基本原則,即“負責性、公平性、可追溯性、可靠性、可控性”。2023年,美國防部更新《武器系統(tǒng)中的自主性》指令,明確要求自主和半自主武器系統(tǒng)中人工智能能力的設計、開發(fā)、部署和使用。
2.兼顧生成式人工智能發(fā)展與安全,確保技術安全性
確保人工智能技術的安全性和保密性。美政府提出,將制定人工智能安全性和保密性的指南、標準和最佳實踐,包括制定檢測AI生成內容和驗證官方內容的標準和最佳實踐,并指示美商務部制定AI水印指南;制定國家安全備忘錄,進一步指導AI使用。該行政令還提出建立一項先進的網絡安全計劃,使AI能識別并修復關鍵軟件中的漏洞。同時,要求AI開發(fā)公司與美國政府共享安全測試結果及關鍵信息。
在促進競爭方面,美國將通過向小型開發(fā)商提供技術援助并鼓勵聯(lián)邦貿易委員會(FTC)行使其權力來促進競爭。同時,該行政令要求美國商務部在執(zhí)行CHIPS法案時,通過實施靈活的國家半導體技術中心會員結構、實施導師計劃(mentorship programs)、增加初創(chuàng)企業(yè)和小型企業(yè)的資源等方式促進競爭。
3.美加強國際合作,支持技術創(chuàng)新
美國政府積極參與全球AI治理的國際合作,與其他國家和地區(qū)共同應對生成式人工智能帶來的風險。例如,美國與歐盟、日本等國家和地區(qū)簽署了多項AI合作協(xié)議,共同研究和制定AI技術的安全標準和監(jiān)管措施。此外,美國還參與了聯(lián)合國等國際組織的AI治理工作,推動全球AI治理體系的建設。美國政府鼓勵企業(yè)和研究機構開展生成式人工智能的研究和創(chuàng)新,以應對AI技術帶來的風險。例如,美國政府設立了多個AI研究基金,支持企業(yè)和研究機構開展AI技術的研究和應用。此外,美國還鼓勵企業(yè)加強與高校、研究機構的合作,共同推動生成式人工智能技術的發(fā)展。
(二)歐盟力圖通過立法規(guī)制人工智能發(fā)展
2020年歐盟委員會發(fā)布《人工智能白皮書》,提出一系列人工智能監(jiān)管政策,指導負責任的人工智能發(fā)展。歐盟強調“可信性人工智能”,重視數(shù)據(jù)隱私保護、維護人類尊嚴、可控性、可解釋性、可追責性。2020年2月,歐盟委員會《面向卓越和信任的人工智能發(fā)展之路》,提出人工智能風險可控理念,要求允許對人工智能的行為或決策進行追蹤和驗證,確保人類監(jiān)督,人工智能系統(tǒng)不應破壞人類的自主性或造成其他不利影響。2021年,歐盟第九期研發(fā)框架計劃(2021—2027年)重點支持無監(jiān)督機器學習,使用較少數(shù)據(jù)來訓練人工智能等研究方向。2023年,歐盟發(fā)布全球首部人工智能法律框架《人工智能法》通過草案,將人工智能系統(tǒng)分為“不可接受、高、有限、極小”4個風險等級,并針對不同級別風險實施不同程度的規(guī)制,從而構建起以風險為基礎的四級治理體系,旨在根據(jù)人工智能造成傷害的可能性對其進行監(jiān)管。北約方面,2021年10月,北約發(fā)布首個《人工智能戰(zhàn)略》,概述了如何以受保護和合乎道德的方式將人工智能應用于國防和安全。該戰(zhàn)略根據(jù)國際法和北約的價值觀制定了負責任地使用人工智能技術,戰(zhàn)略的四大目標為:鼓勵以負責任的方式開發(fā)和使用人工智能,以實現(xiàn)盟國的國防和安全;加速人工智能在能力開發(fā)和交付中的采用;保護和監(jiān)控AI技術,解決安全政策考量因素;識別和防范國家和非國家行為者惡意使用人工智能帶來的威脅。2022年,英國發(fā)布《國防人工智能戰(zhàn)略》,重點提出研發(fā)可靠、安全的人工智能技術,積極促進國際交流與合作,提高人工智能系統(tǒng)適應性、穩(wěn)健性、可靠性、防御性和透明性,制定人工智能軍事應用國際準則,并確保軍用人工智能系統(tǒng)合德守規(guī)。 2023年3月,英國科學、創(chuàng)新與技術部聯(lián)合人工智能辦公室發(fā)布《有利于人工智能創(chuàng)新的監(jiān)管方案》白皮書,提出建立人工智能監(jiān)管框架,明確人工智能技術應用規(guī)則,創(chuàng)建支持人工智能技術創(chuàng)新的環(huán)境,減輕政府監(jiān)管負擔,提升公眾對其信任度,最大限度發(fā)揮人工智能技術帶來的經濟和社會效益。
此外,歐盟與美國、日本等國家和地區(qū)簽署了多項AI合作協(xié)議,共同研究和制定AI技術的安全標準和監(jiān)管措施。此外,歐盟還參與了聯(lián)合國等國際組織的AI治理工作,推動全球AI治理體系的建設。歐盟設立了多個AI研究基金,支持企業(yè)和研究機構開展AI技術的研究和應用。此外,歐盟還鼓勵企業(yè)加強與高校、研究機構的合作,共同推動生成式人工智能技術的發(fā)展。
(三)俄羅斯布局人工智能安全技術在產業(yè)及國防領域發(fā)展
俄羅斯政府高度重視生成式人工智能的風險治理,通過制定政策和法規(guī)來規(guī)范AI技術的研發(fā)和應用。例如,俄羅斯發(fā)布了《國家人工智能發(fā)展戰(zhàn)略》,明確提出要加強對生成式人工智能的監(jiān)管,確保其安全、可靠和可控。此外,俄羅斯還成立了專門的AI監(jiān)管機構,如俄羅斯聯(lián)邦通信、信息技術和大眾傳媒監(jiān)督局(Roskomnadzor),負責制定AI技術的法律和監(jiān)管措施。俄羅斯與歐盟、美國等國家和地區(qū)簽署了多項AI合作協(xié)議,共同研究和制定AI技術的安全標準和監(jiān)管措施。此外,俄羅斯還參與了聯(lián)合國等國際組織的AI治理工作,推動全球AI治理體系的建設。
(四)日本重點探索以人為中心的治理原則
日本在人工智能管控方面,以內閣《以人為本的人工智能社會原則》提出的七項原則為基礎,即“以人為中心、教育應用、隱私保護、安全保障、公平競爭、問責與透明、創(chuàng)新”。2021年,日本綜合創(chuàng)新戰(zhàn)略推進委員會提出《實施人工智能原則的治理指南》,強調在分析和決策過程中尋求快速解決問題的應用于人工智能企業(yè)的敏捷治理模型。2021年6月,日本發(fā)布《人工智能戰(zhàn)略》,以實現(xiàn)社會5.0為目的,通過AI時代數(shù)字治理、倫理建設等措施實現(xiàn)戰(zhàn)略目標。2022年4月,日本第11屆綜合創(chuàng)新戰(zhàn)略推進會正式通過《人工智能戰(zhàn)略2022》,提出要提升人工智能的可信性,確保人工智能的透明性和可解釋性;未來將與友好國家合作,共同制定和推廣人工智能技術的倫理規(guī)則,以推廣日本人工智能技術倫理原則,建立國際合作體制,共同制定國際倫理標準。
三、科技企業(yè)人工智能安全治理探索
在各國的頂層設計指導下,科技企業(yè)也積極發(fā)揮主體責任,推進人工智能安全治理。面對生成式人工智能帶來的安全治理難題,OpenAI、微軟、谷歌等企業(yè)主動布局,在價值觀對齊、紅隊測試、風險評估與披露、安全技術攻關方面開展了探索,取得了一定成效。
(一)OpenAI注重風險治理,開展體系化布局
OpenAI高度重視人工智能安全問題,管理層曾多次在多個場合呼吁各界共同加強人工智能安全治理與監(jiān)管,成立專門部門研究治理工具與手段。2023年4月5日,OpenAI在其官網上發(fā)布了《我們邁向人工智能安全的路徑》(Our approach to AI safety),聲明“確保安全構建、部署和使用人工智能系統(tǒng)對其使命至關重要”,主要圍繞安全開發(fā)、應用反饋、保護兒童、尊重隱私、加強精準、持續(xù)投入六個方面表述了其AI安全的核心考量和主要舉措。2023年12月,OpenAI又發(fā)布了名為“準備框架(Preparedness Framework)”(測試版)的安全指南,該框架明確了監(jiān)測、評價、預測和防御等標準流程,用于預防和管控由AI大模型引發(fā)潛在災難性風險,以彌補當前人工智能技術風險研究的不足,構建更加全面、有效的AI安全體系。在頂層規(guī)劃、技術研發(fā)、組織保障的推動下,OpenAI積極探索推進人工智能安全治理,取得了眾多突破。
1.致力于研發(fā)安全的人工智能系統(tǒng)
一是研發(fā)人類價值觀對齊技術。由于人工智能系統(tǒng)可解釋度低,訓練后的模型難以保證輸出結果符合社會道德和法律約束,可能會產生AI的行為不符合人類意圖、傷害人類的利益甚至脫離控制等重大風險,因此需要額外訓練和外部風控機制進一步約束模型行為。OpenAI公司致力于對齊技術的研究,于2022年成立了專門的對齊團隊,并提出 InstructGPT模型,利用人類反饋強化學習技術(RHLF)和對應的獎勵模型增強模型對齊效果。GPT-4模型從最初完成預訓練到最終完成模型對齊共耗時6個月,使得GPT-4響應不允許內容請求的可能性比GPT-3.5低82%,產生事實響應的可能性高40%。
二是開發(fā)輸入輸出控制“分類器”。在OpenAI產品中,使用“文本分類器”檢查并拒絕違反其使用政策的文本輸入提示,如涉及極端暴力、仇恨圖像、名人肖像或他人知識產權等。此外,還開發(fā)了強大的“圖像分類器”,用于審查生成的每個視頻的幀,在圖像輸出給用戶之前審查是否符合其使用政策。圖像生成模型DALL·E 3的技術文檔中提到,DALL·E 3已經使用了上述輸入輸出的控制模塊,目前最新的Sora模型也使用了該安全策略。
2.探索開展安全測試、風險監(jiān)測并推進持續(xù)優(yōu)化
一是廣泛開展紅隊測試。OpenAI高度重視紅隊測試,GPT-3、GPT-4、SORA等均經過大量、長期的紅隊測試,其測試工作也已由內部對抗測試發(fā)展到與群外部專家合作開展。2023年9月,OpenAI發(fā)起“OpenAI紅隊網絡”計劃,面向社會征集有興趣提高OpenAI模型安全性的領域專家加入。專家網絡構建特別強調了地域和專業(yè)的多樣性,邀請從事不同領域、持有不同觀點和具備不同生活經驗的專家開展模型測試與評估,以保障模型的公平性、多樣性和代表性。如OpenAI邀請視覺藝術家、設計師和電影制作人來評估Sora模型危害或風險的關鍵領域。
二是積極研究鑒別真?zhèn)渭夹g。針對目前生成式人工智能內容生成愈加逼真、真假難辨,偽造信息威脅不斷擴大等問題,OpenAI構建檢測工具和平臺幫助用戶鑒別有關內容是否由AI生成。一方面,在ChatGPT、DALL·E 3、Sora等模型生成的圖像中添加元數(shù)據(jù),幫助驗證其來源和歷史,另一方面,建立內容憑證驗證平臺,幫助用戶檢查圖像是否由AI生成。但元數(shù)據(jù)技術由于其易于修改、刪除,并不能完全用來解決虛假信息識別問題,OpenAI表示還將積極投入研發(fā),降低不當使用風險。
三是建立用戶反饋生態(tài)。OpenAI認為風險控制是一個持續(xù)性的過程,只有在不斷應用過程中才能發(fā)掘生成式人工智能的新問題、探索解決方案,同時僅憑OpenAI自身無法預測人們在現(xiàn)實世界中使用或誤用技術的每一種方式,因此需加大力度建立用戶反饋生態(tài),在迭代升級中逐步筑牢安全防線。2022年12月,OpenAI發(fā)布“ChatGPT反饋競賽”,征集在現(xiàn)實世界可能發(fā)生的風險或危害的反饋及新的緩解措施,幫助OpenAI更好地了解生成式AI系統(tǒng)。2023年4月,OpenAI發(fā)起“漏洞賞金計劃”,邀請用戶及技術人員報告在系統(tǒng)中發(fā)現(xiàn)的漏洞、錯誤及安全漏洞,包括模型越獄、幻覺等,截至2024年3月,已有75個漏洞得到獎勵。
3.建立完善組織架構和治理機制
一是在組織架構層面不斷完善人工智能治理。目前OpenAI的內部安全治理體系主要由三個小組構成:安全系統(tǒng)(Safety Systems)、超級對齊(Superalignment)和準備團隊(Preparedness team),安全系統(tǒng)小組專注于GPT-4等現(xiàn)有模型的安全運行,監(jiān)控評估相關負面影響及風險;超級對齊小組專注于未來可能產生的超級智能技術,目標在四年內解決超級智能對齊的核心技術挑戰(zhàn);準備團隊負責聚焦前沿人工智能技術的風險評估與預測,以更好地發(fā)現(xiàn)并應對潛在的災難性風險。三個小組承擔互補的職能,聚焦當下、前沿和未來開展多層次的技術體系建設布局,讓OpenAI在聚焦技術創(chuàng)新的同時,確保安全性和可控性。
二是提出動態(tài)風險評估和分級分類治理機制。OpenAI列出了4類可能帶來災難性后果的領域,分別為:1.網絡安全風險,即使用生成式人工智能模型破壞計算機系統(tǒng)的保密性、完整性和可用性等;2.化學、生物、核與輻射(CBRN)威脅,即模型輔助產生化學、生物、放射或核威脅相關的風險;3.說服風險,即與說服人們改變想法有關的風險;4.模型自治風險,即模型能夠自主適應環(huán)境,躲避或減輕人類控制的風險。針對以上4個領域,OpenAI設定了一套包括“低”“中”“高”和“嚴重”的風險等級標準,并通過使用“風險計分卡”,動態(tài)評估AI模型在采取緩解措施前后的風險。依據(jù)最新發(fā)布的安全指南,OpenAI未來將只部署經評級為“中”或“低”風險的人工智能模型。
(二)微軟致力于“負責任的人工智能”,積極對外輸出安全服務能力
一直以來,微軟都把“負責任地發(fā)展人工智能”作為優(yōu)先事項,經過3年多的開發(fā)和完善,形成了“微軟負責任的人工智能標準”,包括公平性、可靠性和安全性、隱私、包容性、透明度、問責制六項原則和17個目標,并通過治理、政策和研究將負責任的AI原則付諸實踐。生成式人工智能興起以來,微軟不斷升級人工智能安全治理手段,除了提升風險控制水平外,還通過提供“負責任的人工智能工具包”和“人機交互(HAX)工具包”不斷對外輸出相應能力,致力于構建人工智能安全發(fā)展生態(tài)。
1.著力發(fā)展“負責任的人工智能”
一是系統(tǒng)部署紅隊測試。微軟高度重視紅隊測試,其人工智能紅隊測試是由安全、對抗性機器學習和負責任的人工智能專家組成的跨學科團隊專門開展的。在新的必應聊天發(fā)布之前,經歷了由數(shù)十名專家花費數(shù)百個小時專門針對人工智能安全的測試、評估和改進。與此同時,微軟將自身部署紅隊測試的經驗進行提煉總結,2023年11月,微軟發(fā)布《為大預言模型及其應用規(guī)劃紅隊》指南,對紅隊測試的流程進行了規(guī)范化梳理。首先,確定測試人員,構建多元化的人員隊伍;其次,明確測試內容,包括基礎模型的漏洞、基于基礎模型開發(fā)的應用程序的漏洞;再次,確定測試方式,建議開展開放性測試,并創(chuàng)建“危害列表”,包含危害的定義和示例,為后續(xù)的改進和提升提供指引;最后,確定總結方法,建議定期與利益相關者分享一份簡短的報告,列出最重要的已確定問題,預覽即將到來的幾輪測試計劃等。
二是高度重視模型“透明度”。微軟積極推進模型報告與信息共享,定期向利益相關者提供模型開發(fā)和評估的相關信息。例如,必應在界面中即披露了其由人工智能提供支持,并積極幫助用戶了解系統(tǒng)的能力和局限性,GitHub Copilot常見問題解答中介紹了其生成代碼的功能和安全性限制,以及使用該代碼對隱私和公平影響等。Azure OpenAI透明度說明標明了通過該服務可生成文本、圖像和語音等,并描述了模型采用的技術、設想的用例以及它們行為中的限制和潛在偏見等。與此同時,微軟與Anthropic,Google和OpenAI,一起發(fā)起了前沿模型論壇(FMF),以分享最佳實踐并推進人工智能安全研究。微軟正在通過FMF合作,制定與發(fā)現(xiàn)前沿模型中的漏洞或危險能力相關的“負責任披露”流程指南。
2.積極對外提供工具服務
一是發(fā)布負責任的人工智能工具包。微軟于2022年發(fā)布了《微軟負責任的人工智能標準》及其指南文件,幫助用戶依據(jù)指南文件負責任地開發(fā)人工智能。同年,微軟發(fā)布《負責任的人工智能影響評估模板》,旨在定義評估 AI 系統(tǒng)可能對人員、組織和社會產生的影響的過程。此后,微軟發(fā)布“負責任的人工智能工具箱”,包含一系列評估模型及數(shù)據(jù)的工具,并提供易使用、易理解的用戶界面,幫助人工智能系統(tǒng)的開發(fā)人員和利益相關者能夠更負責任地開發(fā)和監(jiān)控人工智能。工具包將多個領域的工具和技術集成在一起,主要覆蓋誤差分析、公平性評估、模型可解釋、反事實分析、因果分析、數(shù)據(jù)平衡等領域,使模型開發(fā)人員可以創(chuàng)建端到端的流暢調試,并通過使用識別錯誤、檢查數(shù)據(jù)、生成全局和本地解釋模型等可視化工具來識別診斷錯誤。
二是發(fā)布以人為本的人工智能工具包。微軟將發(fā)展“以人為本”的人工智能作為實現(xiàn)“負責任的人工智能”的重要手段。在自身探索實踐的基礎上,開發(fā)Human AI eXperience(HAX)工具包,形成AI產品團隊創(chuàng)建以人為本的人工智能的方法論。工具包主要包括四類內容,第一是指南,概述了人工智能系統(tǒng)人機交互的最佳實踐;第二是設計庫,提供了18條使用示例幫助用戶了解人機交互指南的應用方式;第三是工作簿,通過構建跨角色對話,確定實施指南的優(yōu)先級;第四是操作手冊,列舉了有關故障示例,幫助用戶在構建功能齊全的系統(tǒng)之前主動識別、設計和測試人機交互失敗場景。
三是發(fā)布風險識別工具包。2021年,微軟就推出過紅隊自動化框架Counterfit,然而,生成式AI系統(tǒng)具有多層不確定性,相同的輸入可以提供不同的輸出。此外,生成式AI系統(tǒng)的架構差異很大,包括從獨立應用程序到現(xiàn)有應用程序中的集成,再到輸入和輸出模式,例如文本、音頻、圖像和視頻等,增加了測試難度。如果通過有關專家手動處理所有類型的傷害,跨不同策略的所有模式,可能進展十分緩慢。因此,2024年2月22日,微軟發(fā)布了一個用于生成AI的Python風險識別工具包PyRIT,以幫助安全專業(yè)人員和機器學習工程師主動發(fā)現(xiàn)其生成AI系統(tǒng)中的風險,大幅提升風險識別效率。
(三)谷歌注重“安全開發(fā)”,定期開展原則審查
谷歌2018年起就制定了其發(fā)展人工智能的主要原則,并按照技術發(fā)展態(tài)勢每年更新,2023年版人工智能原則包括對社會有益、避免制造或強化不公平的偏見、進行安全制造和測試、對人負責、納入隱私設計原則、堅持高標準的科學卓越、努力限制可能有害或濫用的應用程序七項標準,并承諾不會在可能造成重大危害和違反國際公認規(guī)則等領域設計和部署人工智能。
1.完善內部審查流程
一是開展人工智能原則審查。在每年更新的人工智能原則指導下,谷歌組織開展產品發(fā)布前的審查,包括技術安全測試、標準隱私和安全審查等。2023年,谷歌的人工智能原則審查達到了500余項,較2022年多了一倍多,主要是圍繞生成式人工智能模型的相關產品和服務。為了更加符合人工智能原則要求,谷歌根據(jù)已知的法律要求和新型的標準及自身的人工智能原則評估產品設計等早期階段,讓人工智能產品從誕生之初就符合有關要求。
二是推進人工智能安全風險評估。谷歌研制風險評估框架,旨在識別、衡量和分析整個產品開發(fā)生命周期中的風險。同時,谷歌收集了來自全球1000多名員工的反饋,這些員工超過50%的人在美國以外生活和工作,來自39個不同的國家和地區(qū),會說超過85種不同的語言,對谷歌用戶的國際多樣性具有一定代表性。這些反饋也將與自動化對抗性測試的團隊共享,用于產品安全性提升。
2.提出人工智能安全管理指南
一是研制安全的人工智能框架。人工智能正在迅速發(fā)展,有效的風險管理策略必須隨之發(fā)展。為了適應人工智能帶來的安全問題,2023年6月,谷歌發(fā)布了安全的人工智能框架(SAIF),用于打造安全的人工智能系統(tǒng)。SAIF有六個核心要素:將強大的安全基礎擴展到AI生態(tài)系統(tǒng)中、擴展檢測和響應范圍、開展自動化防御快速跟上進展、協(xié)調平臺級控制確保一致性、為AI部署創(chuàng)建更快的反饋循環(huán)、將AI系統(tǒng)風險與周圍的業(yè)務流程相結合,這些原則旨在確保AI系統(tǒng)在設計時就具備安全性,以應對特定于AI系統(tǒng)的風險,如模型盜竊、訓練數(shù)據(jù)污染、提示注入攻擊和訓練數(shù)據(jù)中的機密信息提取等。谷歌同步發(fā)布了《實施安全的人工智能框架(SAIF)的快速指南》,幫助用戶快速將SAIF框架應用至實踐。
二是與開源社區(qū)合作構建安全生態(tài)。建立開源漏洞數(shù)據(jù)庫(OSV),開發(fā)了一種新的漏洞格式,并由多個開源生態(tài)系統(tǒng)(如Python、Rust、Go)采用。設置安全評分卡(Scorecards):評估項目對安全最佳實踐的遵守情況,并為開發(fā)者在使用依賴項前提供參考分數(shù)。谷歌還向OpenSSF等第三方基金會捐款,創(chuàng)建了一個新的“開源維護團隊”,由谷歌工程師組成,與上游維護者緊密合作,提高關鍵開源項目的安全性。
三是注重AI軟件的供應鏈安全。谷歌開源安全團隊(GOSST)正在利用SLSA和Sigstore來保護人工智能供應鏈的整體完整性。SLSA(軟件工件的供應鏈級別)是描述軟件工件如何構建的規(guī)范,支持SLSA的構建平臺可以通過元數(shù)據(jù)描述軟件是如何產生的,記錄所有構建輸入。SLSA可以幫助用戶在檢測到人工智能系統(tǒng)中的漏洞后,快速識別哪些模型需要重新訓練,從而降低成本。Sigstore是一種數(shù)字簽名的工具,允許任何軟件制作者通過簡單地使用綁定到工作負載或開發(fā)人員身份的OpenID連接令牌來簽署他們的軟件。通過使用Sigstore,即可識別軟件的制作者,驗證軟件是否被篡改或替換。
3.推進相關工具、技術研發(fā)
一是推進負責任的人工智能設計。識別和記錄潛在的危害和風險,通過使用負責任的數(shù)據(jù)集、分類器和過濾器,以及模型內的緩解措施,如微調、推理、數(shù)據(jù)增強和受控解碼來解決潛在危害,從而主動減輕這些危害。
二是開展對抗性測試。通過在一系列場景中提供惡意或無意的有害輸入來對模型進行系統(tǒng)評估,以識別和減輕潛在的安全和公平風險。谷歌構建了一個內部的、公司范圍內的大型語言模型(LLM)紅色團隊,與數(shù)百名安全、安全和其他專家組成了“黑客-人工智能馬拉松”,對Gemini、Bard等人工智能模型發(fā)布前進行測試。除了對安全性和公平性的對抗性測試外,谷歌還建立了一個專門的團隊,專注于測試AI模型和產品的安全、隱私和濫用風險。
三是加強員工培訓。2023年,谷歌在責任創(chuàng)新挑戰(zhàn)(Responsible Innovation Challenge)的基礎上,推出了人工智能道德培訓,培訓鼓勵谷歌技術人員專注于負責任地構建人工智能產品的最佳實踐,包括如何記錄安全和不安全的實踐,測試人工智能模型輸出以獲得公平的結果,以及在需要改進時提交錯誤等,大約有1800名谷歌員工已經完成了培訓。
四、啟示與建議
生成式人工智能在全球的快速應用爆火也帶來了更復雜、更隱蔽的安全問題,加快人工智能安全風險治理是推進“人工智能+”的重要一環(huán)。我國應從加強跟蹤研究、推進技術攻關、推動“以評促建”和加強國際交流等四個維度發(fā)力,構建人工智能安全發(fā)展生態(tài)。
(一)加強跟蹤研究,積極應對可能帶來的影響
當前,生成式人工智能技術正處在快速發(fā)展過程中,可謂以月為單位迭代更新,其引發(fā)的安全風險和潛在影響也在不斷變化。我國應圍繞生成式人工智能可能帶來的安全風險問題開展深入研究,積極應對風險。一是密切關注技術發(fā)展最新動向,及時識別和制止不良影響,遏制風險傳播。二是提前研究各類風險的應對舉措,研制應急響應機制。三是持續(xù)跟蹤國內外應對生成式人工智能安全風險的最新舉措和技術工具,借鑒吸收優(yōu)秀經驗,構建人工智能安全生態(tài)。
(二)推進技術攻關,鼓勵安全檢測、加固和防護技術研發(fā)
研發(fā)針對人工智能公平性、可解釋性、魯棒性、隱私性的檢測工具,構建檢測能力,幫助各方提升人工智能安全風險識別和防御能力。當下應重點發(fā)力:一是鼓勵科研院所、科技企業(yè)聯(lián)合攻關,圍繞生成式人工智能的“數(shù)字水印”標注技術及其對應的識別技術開展研究。數(shù)字水印應向擾動小、難篡改、難去除方向發(fā)展,采用“聯(lián)盟化”運作模式,形成一套行業(yè)公認的水印標準,推動生成內容可識別、可溯源。二是鼓勵開展紅隊測試。鼓勵科研機構研制“紅隊測試”指南,梳理開展紅隊測試的流程、要點和注意事項。鼓勵人工智能研發(fā)企業(yè)在產品發(fā)布前開展紅隊測試,并根據(jù)測試結果不斷改進提升產品安全能力。
(三)推動“以評促建”,分級分類開展評估認證
一是開展人工智能安全風險評估,建立風險分級分類標準,推進分類管理。針對人工智能可能帶來的安全風險及其潛在影響,編制風險分級標準。鼓勵人工智能產品提供方在產品發(fā)布前及產品運行中定期開展風險評估,對于風險較高的產品要及時采取應對措施。二是建立人工智能安全可信度自評估、外部評估和強制認證相結合的評估認證體系。人工智能技術提供方應圍繞人工智能安全可信要求定期開展自評估和自我承諾。在重點場景和領域,鼓勵由第三方專業(yè)機構開展專門的合規(guī)評估和審計。在高風險領域,建議結合實際情況,在時機成熟時實施嚴格管理,必要時可開展上市前合規(guī)性認證。
(四)加強國際交流,積極參與全球治理規(guī)則建立
生成式人工智能技術變化快、風險影響大、相關領域廣,如何對其開展監(jiān)管,保障“發(fā)展與安全”已經成為全球人工智能治理的新課題。一方面,人工智能監(jiān)管需要全球通力合作,共同面對前沿人工智能可能帶來的“災難性風險”。另一方面,鼓勵行業(yè)協(xié)會、企業(yè)、科研機構等主體積極參與有關標準規(guī)則制定。在《全球人工智能治理倡議》的基礎上,及時提出中國方案、發(fā)出中國聲音,增強生成式人工智能安全治理國際話語權。
五、結論
當前,生成式人工智能的快速發(fā)展為人類社會帶來了前所未有的機遇與挑戰(zhàn),給網絡安全、數(shù)據(jù)保護和算法安全等領域帶來風險,甚至影響國家的政治穩(wěn)定、軍事安全以及社會和諧。如何管理人工智能安全風險,確保人工智能能夠始終向善成為當下的重要難題。本文梳理了美、歐、俄、日等國家的戰(zhàn)略政策,并整理了OpenAI、微軟、谷歌等企業(yè)在價值觀對齊、紅隊測試、風險評估與披露、安全技術攻關方面的舉措。結合我國治理人工智能安全的現(xiàn)狀,提出加強跟蹤研究、推進技術攻關、推動“以評促建”和加強國際交流等建議,以期支撐我國人工智能安全健康發(fā)展。
Research on Security Risk Management of Generative Artificial Intelligence
Abstract: Currently, the rapid development of generative artificial intelligence, represented by phenomenal products such as ChatGPT and Sora, is reshaping the industrial and value chains. At the same time, it has also triggered numerous new risks in areas such as data security, algorithm security, network security, and application security, which may have serious impacts. Major countries and regions worldwide attach great importance to the management of security risks associated with generative artificial intelligence, promoting the construction of risk management systems from dimensions such as policy guidance, technical support, and international cooperation. While actively promoting frontier technological innovation, technology companies also attach great importance to security management, focusing on different aspects to ensure that artificial intelligence is trustworthy and responsible. China should focus on four dimensions: strengthening tracking research, promoting technological breakthroughs, promoting “evaluation to promote construction,” and enhancing international exchanges, to ensure the safe and healthy development of artificial intelligence.
Keywords: Generative Artificial Intelligence;Security Risks;Security Management;Technology Giants
. See https://news.mit.edu/2019/how-tell-whether-machine-learning-systems-are-robust-enough-real-worl-0510 (Last visited on March 10, 2024).
. 參見https://www.computer.org/publications/tech-news/trends/the-impact-of-ai-on-cybersecurity/ (Last visited on March 10, 2024).
. 黑盒問題是指由于廣泛應用在人工智能產品上的深度學習等主流算法模型內部結構復雜、運行過程自主性較強,且人工無法干預等因素,造成的不可控問題。
. 參見https://umdearborn.edu/news/ais-mysterious-black-box-problem-explained(Last visited on March 10, 2024).
. 參見https://research.ibm.com/blog/deep-learning-real-world(Last visited on March 10, 2024).
. 參見https://www.scientificamerican.com/article/why-we-need-to-see-inside-ais-black-box (Last visited on March 10, 2024).
. 參見https://www2.deloitte.com/us/en/insights/focus/tech-trends/2022/future-of-cybersecurity-and-ai.html (Last visited on March 10,?2024).
. 參見https://dataconomy.com/2023/01/16/artificial-intelligence-security-issues(Last visited on March 10, 2024).
. 參見https://spectrum.ieee.org/adversarial-attacks-and-ai-systems(Last visited on March 10, 2024).
. 參見https://www.techtarget.com/searchsoftwarequality/tip/Reduce-these-forms-of-AI-bias-from-devs-and-testers(Last visited on March 10, 2024).
. 參見https://legalaidnyc.org/zh-CN/news/commends-president-biden-artificial-intelligence-bill-of-rights(Last visited on March 10, 2024).
. 參見http://lib.ia.ac.cn/news/newsdetail/68494(Last visited on March 10, 2024).
. 參見http://www.takungpao.com/news/232111/2022/1006/772433.html (Last visited on March 10, 2024).
. 參見https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/1082416/Defence_Artificial_Intelligence_Strategy.pdf(Last visited on March 10, 2024).
. 參見OpenAI, Preparedness, at https://openai.com/safety/preparedness (Last visited on March 10, 2024).
. 參見OpenAI, GPT-4 is OpenAIs most advanced system, producing safer and more useful responses, at https://openai.com/gpt-4 (Last visited on March 10, 2024).
. 參見OpenAI, DALL-E 3 System Card, at https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf#link=pdff (Last visited on March 10, 2024).
. 參見OpenAI, Red Teaming Network, at https://openai.com/blog/red-teaming-network#fn-A (Last visited on March 10, 2024).
. 參見OpenAI, Sora Safety, at https://openai.com/sora#safety (Last visited on March 10, 2024).
. 參見OpenAI, ChatGPT Feedback Contest, at https://cdn.openai.com/chatgpt/chatgpt-feedback-contest.pdf (Last visited on March 10, 2024).
. 參見Bugcrowd, OpenAI, at https://bugcrowd.com/openai (Last visited on March 10, 2024).
. Microsoft, Red Teaming for Azure AI Services, at https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/red-teaming?toc=%2Fsecurity%2Fai-red-team%2Ftoc.json&bc=%2Fsecurity%2Fai-red-team%2Fbreadcrumb%2Ftoc.json (Last visited on March 10, 2024).
. 參見Microsoft, Responsible AI Toolbox, at https://github.com/microsoft/responsible-ai-toolbox (Last visited on March 10, 2024).
. 參見Microsoft, HAX Toolkit, at https://www.microsoft.com/en-us/haxtoolkit/?culture=en-us&country=us (Last visited on March 10, 2024).
. 參見Microsoft Security Blog, Announcing Microsoft's Open Automation Framework to Red Team Generative AI Systems, at https://www.microsoft.com/en-us/security/blog/2024/02/22/announcing-microsofts-open-automation-framework-to-red-team-generative-ai-systems/ (Last visited on March 10, 2024).
. 參見林心雨:《谷歌推出安全AI框架,具備六個核心要素》,載微信公眾號“上海數(shù)據(jù)安全協(xié)同創(chuàng)新實驗室”,2023年6月13日上傳。
作者簡介:宋艷飛,國家工業(yè)信息安全發(fā)展研究中心高級工程師;張瑤,國家工業(yè)信息安全發(fā)展研究中心工程師;樊偉,國家工業(yè)信息安全發(fā)展研究中心工程師。