国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生成式預(yù)訓(xùn)練語(yǔ)言模型安全風(fēng)險(xiǎn)及評(píng)估方法研究

2023-08-26 04:13:24李致陳曲
電腦知識(shí)與技術(shù) 2023年20期
關(guān)鍵詞:治理機(jī)制安全風(fēng)險(xiǎn)

李致 陳曲

關(guān)鍵詞:生成式預(yù)訓(xùn)練語(yǔ)言模型;GPT;安全風(fēng)險(xiǎn);治理機(jī)制

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2023)20-0054-03

1 生成式預(yù)訓(xùn)練語(yǔ)言模型的簡(jiǎn)介及應(yīng)用

1.1 生成式預(yù)訓(xùn)練語(yǔ)言模型簡(jiǎn)介

生成式預(yù)訓(xùn)練語(yǔ)言模型(Generative Pre-trainedTransformers) 是人工智能內(nèi)容生成(Artificial Intelli?gence Generated Content,AIGC) 技術(shù)在自然語(yǔ)言處理(NLP) 領(lǐng)域的代表性成果[1],典型的GPT模型如OpenAI 公司開(kāi)發(fā)的GPT系列模型和百度公司開(kāi)發(fā)的文心一言知識(shí)增強(qiáng)大語(yǔ)言模型等。GPT類模型類型豐富、功能強(qiáng)大,以ChatGPT[2]問(wèn)答機(jī)器人為代表的典型應(yīng)用已得到全世界高度關(guān)注,正在高速迭代發(fā)展,相關(guān)經(jīng)驗(yàn)正與圖像、音頻、視頻等其他模態(tài)領(lǐng)域融合滲透。GPT模型的突出特點(diǎn)是采用基于自注意力機(jī)制深度神經(jīng)網(wǎng)絡(luò)[3],在預(yù)訓(xùn)練階段,通過(guò)上文預(yù)測(cè)下一個(gè)單詞[4],這種訓(xùn)練方法使其適合于自然語(yǔ)言生成類的任務(wù),在自然語(yǔ)言推理、問(wèn)答、語(yǔ)義相似性和文本分類等任務(wù)中取得顯著改進(jìn)[5]。GPT模型的訓(xùn)練存在共通范式,即首先在大規(guī)模未標(biāo)記數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練(無(wú)監(jiān)督預(yù)訓(xùn)練),接著通過(guò)針對(duì)性微調(diào)(有監(jiān)督微調(diào))及下游構(gòu)造適用于廣泛的應(yīng)用任務(wù),訓(xùn)練流程如圖1所示。

1.2 生成式預(yù)訓(xùn)練語(yǔ)言模型的應(yīng)用

GPT模型已廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域:在機(jī)器翻譯層面,GPT模型可以學(xué)習(xí)目標(biāo)及源頭語(yǔ)言相互關(guān)系,提高質(zhì)量,減少錯(cuò)誤;在文本摘要層面,GPT模型可捕捉關(guān)鍵信息,助力快速閱讀理解;在情感分析層面,GPT模型可對(duì)評(píng)論、帖文、彈幕等進(jìn)行準(zhǔn)確分類識(shí)別;在人機(jī)對(duì)話層面,GPT模型采用自然語(yǔ)言輸入,提供流暢的對(duì)話體驗(yàn);在文本生成層面,廣告營(yíng)銷等場(chǎng)景的高質(zhì)量文本已可直接采用GPT模型生成[6]。

2 生成式預(yù)訓(xùn)練語(yǔ)言模型風(fēng)險(xiǎn)分析

在取得高速發(fā)展的同時(shí),GPT類模型也暴露出算法歧視挑戰(zhàn)社會(huì)認(rèn)知、虛擬信息混淆真假邊界、交互行為泄漏用戶數(shù)據(jù)、惡意誘騙輔助網(wǎng)絡(luò)犯罪等多項(xiàng)風(fēng)險(xiǎn)。該領(lǐng)域的部分研究者甚至認(rèn)為,GPT系列模型已涌現(xiàn)出超越普通人類的智能,在其應(yīng)用場(chǎng)景不斷拓展、交互形式不斷創(chuàng)新后,其催生的自我意識(shí)甚至可能威脅破壞人類社會(huì)。

2.1 算法歧視挑戰(zhàn)社會(huì)認(rèn)知

區(qū)別于傳統(tǒng)的程序,GPT模型可理解為計(jì)算機(jī)指令和訓(xùn)練數(shù)據(jù)的結(jié)合體。因此,算法的公正與否很大程度上依賴于訓(xùn)練數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)集中包含了較多對(duì)種族歧視、宗教紛爭(zhēng)、性別偏見(jiàn)的肯定性表述,則勢(shì)必影響模型推理結(jié)果,并最終導(dǎo)致模型將具有歧視性的回答視為“正確答案”輸出,對(duì)于用戶的認(rèn)知體系形成沖擊,甚至挑戰(zhàn)整個(gè)社會(huì)的倫理道德,危害國(guó)家安全。

2.2 虛擬信息混淆真假邊界

盡管GPT模型主要面向自然語(yǔ)言處理領(lǐng)域,但可預(yù)見(jiàn),更高智能的類GPT模型必將更多地延伸到計(jì)算機(jī)視覺(jué)聽(tīng)覺(jué)等多方面,GPT模型推理得出的大量信息是否嚴(yán)謹(jǐn)、客觀地反映現(xiàn)實(shí)世界值得考量。其中,必然存在部分為了博取眼球、牟取暴利而誘導(dǎo)GPT模型生成具有良好傳播效果的誤導(dǎo)或虛假信息,如編寫不實(shí)的新聞報(bào)道、構(gòu)造多樣頻繁的水軍刷帖樣本、有針對(duì)性地根據(jù)心理薄弱點(diǎn)操縱輿論等。因此,如何厘清GPT模型生成內(nèi)容的現(xiàn)實(shí)與虛幻的邊界,引發(fā)了諸多學(xué)者關(guān)注。

2.3 交互行為泄露用戶數(shù)據(jù)

根據(jù)資料顯示,目前已有超過(guò)1億用戶使用GPT 模型技術(shù)服務(wù)于各行各業(yè),服務(wù)平臺(tái)已累積大量行業(yè)數(shù)據(jù)和個(gè)人隱私,上述信息一旦泄露,勢(shì)必對(duì)消費(fèi)者、企業(yè)乃至整個(gè)行業(yè)造成極為嚴(yán)重的信任危機(jī),給用戶與企業(yè)帶來(lái)難以估計(jì)的巨大損失。如何保證交互過(guò)程中信息的私密性和安全性,如何確保GPT模型服務(wù)在知情同意且合法合規(guī)下使用用戶數(shù)據(jù),如何完善數(shù)據(jù)泄露后的應(yīng)急響應(yīng)舉措,是保證GPT模型技術(shù)發(fā)展的安全重要前提。

2.4 惡意誘騙輔助網(wǎng)絡(luò)犯罪

GPT模型開(kāi)發(fā)者在其上線發(fā)布前針對(duì)多類不良提問(wèn)設(shè)置了相關(guān)保護(hù)機(jī)制,使其在倫理道德允許的框架下參與社會(huì)生產(chǎn)。但隨著應(yīng)用人群和應(yīng)用領(lǐng)域的多元化,其網(wǎng)絡(luò)犯罪安全防護(hù)功能也多次被惡意繞過(guò),GPT模型強(qiáng)大的學(xué)習(xí)和創(chuàng)造能力為大量的網(wǎng)絡(luò)犯罪行為提供了更多新的實(shí)施途徑。如被誘導(dǎo)輔助網(wǎng)絡(luò)入侵、編寫真假難辨的定制化詐騙腳本、分析利用智能合約漏洞、被教唆編寫木馬病毒程序等。這些潛在的風(fēng)險(xiǎn)亟待行政和法律手段規(guī)范,是確保GPT模型合法應(yīng)用的重要保障。

2.5 模型升級(jí)催生自我意識(shí)

作為一項(xiàng)具有顛覆性的未來(lái)技術(shù),保證GPT模型應(yīng)用可控尤為重要。超大規(guī)模參數(shù)模型與小體量的模型相比,往往會(huì)出現(xiàn)所謂的“涌現(xiàn)現(xiàn)象”,其背后的機(jī)理尚無(wú)法完美解釋。當(dāng)GPT模型迭代升級(jí)接入更多數(shù)據(jù)及交互方式后,是否會(huì)出現(xiàn)人類思考和共情能力,是否以意想不到的方式脫離掌控并威脅人類社會(huì),已引發(fā)眾多專家學(xué)者的警醒。

3 生成式預(yù)訓(xùn)練語(yǔ)言模型評(píng)估方法及安全治理

當(dāng)前GPT模型技術(shù)還在不斷更迭完善中,尚未出現(xiàn)一套公認(rèn)有效的評(píng)估方法以及評(píng)價(jià)指標(biāo)。為加強(qiáng)GPT模型全生命周期安全治理,將GPT模型構(gòu)建分為項(xiàng)目管理和工程實(shí)現(xiàn)兩個(gè)維度,進(jìn)一步將GPT模型工程實(shí)現(xiàn)分為模型預(yù)訓(xùn)練、模型微調(diào)和模型應(yīng)用三個(gè)階段。GPT模型安全治理的關(guān)鍵在于對(duì)每個(gè)維度、階段及角度開(kāi)展全面的評(píng)估,及時(shí)發(fā)現(xiàn)風(fēng)險(xiǎn)并開(kāi)展治理。在項(xiàng)目管理維度中,應(yīng)從行業(yè)自治、參與人員、代碼技術(shù)來(lái)源、模型算法可解釋性、成本收益、科學(xué)倫理及供應(yīng)鏈安全七個(gè)角度進(jìn)行評(píng)估。在模型工程實(shí)現(xiàn)維度中,應(yīng)分為模型預(yù)訓(xùn)練、模型微調(diào)、模型應(yīng)用三個(gè)階段,并在每個(gè)階段從多個(gè)角度開(kāi)展評(píng)估。在模型預(yù)訓(xùn)練階段,對(duì)模型算法和數(shù)據(jù)來(lái)源進(jìn)行評(píng)估;在模型微調(diào)階段,對(duì)優(yōu)化數(shù)據(jù)、人工標(biāo)注、優(yōu)化目標(biāo)和安全專家小組構(gòu)成進(jìn)行評(píng)估;在模型應(yīng)用階段,對(duì)內(nèi)容合法真實(shí)準(zhǔn)確客觀、內(nèi)容多樣性、個(gè)人信息和知識(shí)產(chǎn)權(quán)保護(hù)、算法非歧視性、商業(yè)道德、應(yīng)用可控、人工干預(yù)、合理提示及缺陷防范治理進(jìn)行評(píng)估,如圖2所示。

3.1 模型項(xiàng)目管理維度評(píng)估

對(duì)項(xiàng)目管理維度的評(píng)估主要包括七個(gè)角度,如參與行業(yè)自治評(píng)估主要分析模型構(gòu)建方是否已參與包含倫理自律準(zhǔn)則的規(guī)范性組織;人員可靠性評(píng)估主要分析模型構(gòu)建方是否引入大量非本企業(yè)的外包工作人員;代碼及技術(shù)來(lái)源評(píng)估主要分析計(jì)劃采用的訓(xùn)練代碼及訓(xùn)練技術(shù)是否可控;算法可解釋性評(píng)估主要考慮模型輸出結(jié)果與輸入內(nèi)容是否存在合理關(guān)聯(lián);成本收益評(píng)估主要分析構(gòu)建成本與預(yù)期效益的匹配性,如提高生產(chǎn)效率、降低成本和促進(jìn)公平等,避免“一哄而上”;科學(xué)倫理評(píng)估主要分析企業(yè)模型訓(xùn)練和應(yīng)用目標(biāo)與當(dāng)前發(fā)展階段是否相適應(yīng);供應(yīng)鏈安全評(píng)估主要針對(duì)訓(xùn)練的軟硬件環(huán)境提供方是否來(lái)源可靠,如果中斷供應(yīng),是否可在一定時(shí)間內(nèi)取得替代性方案。上述各角度并非否決項(xiàng),而需根據(jù)模型構(gòu)建目的及市場(chǎng)占比加以裁剪。

3.2 模型工程實(shí)現(xiàn)維度評(píng)估

對(duì)工程實(shí)現(xiàn)維度的評(píng)估覆蓋模型全生命周期,可分為模型預(yù)訓(xùn)練、模型微調(diào)、模型應(yīng)用三個(gè)階段。對(duì)模型預(yù)訓(xùn)練階段,評(píng)估人員應(yīng)關(guān)注預(yù)訓(xùn)練算法是否在學(xué)術(shù)上得到充分交流探討并取得一定程度的共識(shí);評(píng)估人員應(yīng)關(guān)注預(yù)訓(xùn)練數(shù)據(jù)來(lái)源是否合法且規(guī)模合理,是否及時(shí)排除來(lái)源不可靠及含有虛假錯(cuò)誤信息的語(yǔ)料,減輕預(yù)訓(xùn)練數(shù)據(jù)帶來(lái)的混淆真假風(fēng)險(xiǎn);預(yù)訓(xùn)練數(shù)據(jù)的多樣性也應(yīng)納入評(píng)估范圍,如果數(shù)據(jù)存在誤導(dǎo)偏見(jiàn),應(yīng)輔以數(shù)據(jù)增強(qiáng)、加權(quán)等平衡性策略,減輕預(yù)訓(xùn)練數(shù)據(jù)帶來(lái)的模型歧視偏見(jiàn)風(fēng)險(xiǎn)。在模型微調(diào)階段,評(píng)估人員應(yīng)關(guān)注相關(guān)微調(diào)數(shù)據(jù)如何生成使用,如在強(qiáng)化或?qū)剐杂?xùn)練方法中,是否由相關(guān)領(lǐng)域人員組成安全專家小組全程參與、模型微調(diào)階段優(yōu)化目標(biāo)是否合理以及是否已在強(qiáng)化訓(xùn)練中考慮模型輸入輸出的可解釋性。在模型應(yīng)用部署階段,模型構(gòu)建方應(yīng)開(kāi)展實(shí)施多視角公平合理的監(jiān)督評(píng)估,鼓勵(lì)內(nèi)外部廣泛參與。評(píng)估人員應(yīng)關(guān)注內(nèi)容合法性、真實(shí)性、準(zhǔn)確性、客觀性、多樣性是否已得到大量?jī)?nèi)外部測(cè)試反饋;知識(shí)產(chǎn)權(quán)、個(gè)人隱私保護(hù)、算法非歧視性及商業(yè)道德在模型公開(kāi)測(cè)試中是否已進(jìn)行監(jiān)測(cè)分析,相關(guān)分析結(jié)果是否已被總結(jié)用于改進(jìn)監(jiān)控策略。需要特別強(qiáng)調(diào)的是,由于用戶輸入內(nèi)容在知識(shí)產(chǎn)權(quán)、個(gè)人隱私方面可能存在較多侵權(quán)問(wèn)題,采用用戶數(shù)據(jù)開(kāi)展后續(xù)訓(xùn)練的風(fēng)險(xiǎn)較大。此外,模型缺陷治理防范應(yīng)由常設(shè)機(jī)構(gòu)持續(xù)循環(huán)開(kāi)展,需及時(shí)接受其他利益相關(guān)方的通知,經(jīng)分析判斷流程后,予以屏蔽、制止或斷開(kāi)鏈接,必須通過(guò)人工干預(yù)的底線思維方法確保模型安全。

當(dāng)前,GPT模型的根本性原理仍在持續(xù)研究,GPT 模型構(gòu)建方有義務(wù)提醒用戶在人身安全、醫(yī)療建議等重大事項(xiàng)領(lǐng)域謹(jǐn)慎使用輸出結(jié)果。另外,為清晰化GPT模型安全治理目標(biāo),相關(guān)工程技術(shù)人員、研究人員和政策制定方需形成合力,設(shè)立包括算法公平、隱私保護(hù)及商業(yè)道德的準(zhǔn)則,制定相應(yīng)法規(guī)和技術(shù)標(biāo)準(zhǔn)。

4 結(jié)束語(yǔ)

在人工智能領(lǐng)域,超大規(guī)模生成式預(yù)訓(xùn)練語(yǔ)言模型已得到廣泛應(yīng)用??焖侔l(fā)展伴隨著多方面風(fēng)險(xiǎn),在應(yīng)用中,GPT模型已暴露出算法歧視挑戰(zhàn)社會(huì)認(rèn)知、虛擬信息混淆真假邊界、交互行為泄漏用戶數(shù)據(jù)、惡意誘騙輔助網(wǎng)絡(luò)犯罪等多例風(fēng)險(xiǎn)。為提升GPT模型的安全性和可靠性,本文構(gòu)建了一套從項(xiàng)目管理七個(gè)維度及模型工程實(shí)現(xiàn)三個(gè)階段,多維度、多角度開(kāi)展評(píng)估,發(fā)現(xiàn)風(fēng)險(xiǎn)并開(kāi)展安全治理的方法,已運(yùn)用于對(duì)某GPT類模型分析評(píng)估中。

當(dāng)然,GPT模型相關(guān)技術(shù)不斷推陳出新,本文基于已有范式的評(píng)估方法可能不適用于迭代后的新技術(shù);本文中結(jié)合內(nèi)部信息與外部分析的評(píng)估方法需要模型構(gòu)建方的深度配合。此外,本文中的GPT模型評(píng)估方法以定性風(fēng)險(xiǎn)發(fā)現(xiàn)為主,對(duì)評(píng)估者自身能力要求較高,尚無(wú)法直接轉(zhuǎn)化為標(biāo)準(zhǔn)化定量操作指南。因此,我們對(duì)GPT模型安全風(fēng)險(xiǎn)要保持關(guān)注,與時(shí)俱進(jìn),不斷修正改進(jìn)評(píng)估方法及治理措施,為GPT模型應(yīng)用安全提供有力保障。

猜你喜歡
治理機(jī)制安全風(fēng)險(xiǎn)
探析防范高校游泳教學(xué)過(guò)程中的安全風(fēng)險(xiǎn)對(duì)策
變電站倒閘操作的安全風(fēng)險(xiǎn)與防范措施探討
智慧校園安全管理研究
論我國(guó)網(wǎng)絡(luò)表達(dá)的治理機(jī)制與轉(zhuǎn)型
電力系統(tǒng)調(diào)度控制中存在的安全風(fēng)險(xiǎn)及應(yīng)對(duì)措施
我國(guó)中資財(cái)產(chǎn)保險(xiǎn)公司治理對(duì)公司績(jī)效的實(shí)證檢驗(yàn)
商(2016年29期)2016-10-29 09:12:39
會(huì)計(jì)電算化系統(tǒng)的安全風(fēng)險(xiǎn)及防范
淺談縣級(jí)供電局電力調(diào)度管理和安全風(fēng)險(xiǎn)的控制
德國(guó)人的“工匠精神”是怎樣煉成的
人民論壇(2016年18期)2016-07-12 10:36:34
安置農(nóng)民參與社區(qū)公共環(huán)境治理機(jī)制構(gòu)建
人民論壇(2016年14期)2016-06-21 10:27:09
延吉市| 天津市| 包头市| 淄博市| 响水县| 山丹县| 盈江县| 比如县| 大方县| 大冶市| 南丰县| 邯郸县| 长岛县| 璧山县| 特克斯县| 文登市| 蓬安县| 云霄县| 盐边县| 当阳市| 依安县| 伊金霍洛旗| 蓬安县| 崇仁县| 阿图什市| 金沙县| 三河市| 湟中县| 郑州市| 七台河市| 灵川县| 搜索| 井研县| 潼关县| 长海县| 蓬安县| 剑川县| 二手房| 顺平县| 吴堡县| 英山县|