AI向善：AI大模型價(jià)值觀對(duì)齊的內(nèi)容與實(shí)踐

2023-12-14 02:08郭全中張金熠

新聞愛好者 2023年11期

關(guān)鍵詞：人工智能

郭全中張金熠

【摘要】?jī)r(jià)值觀對(duì)齊關(guān)系著AI大模型是否能真正為人類服務(wù)，甚至關(guān)乎著意識(shí)形態(tài)安全乃至國家政治安全。從意義、準(zhǔn)則、路徑、困境四個(gè)維度對(duì)AI大模型價(jià)值觀對(duì)齊進(jìn)行全面剖析，認(rèn)為安全問題與應(yīng)用保障是AI大模型價(jià)值觀對(duì)齊的驅(qū)動(dòng)力量，原生價(jià)值觀、目標(biāo)價(jià)值觀、普適價(jià)值觀是AI大模型價(jià)值觀對(duì)齊的價(jià)值選擇，尤其強(qiáng)調(diào)國內(nèi)AI大模型應(yīng)以社會(huì)主義核心價(jià)值觀為對(duì)齊目標(biāo)。價(jià)值觀對(duì)齊的主要實(shí)踐路徑包括非遞歸監(jiān)督與可擴(kuò)展監(jiān)督兩條，并對(duì)國內(nèi)外常見的四種價(jià)值觀對(duì)齊范式進(jìn)行簡(jiǎn)要介紹，總結(jié)出對(duì)齊稅、價(jià)值觀以及對(duì)齊效果評(píng)估方面的對(duì)齊困境。

【關(guān)鍵詞】人工智能；大模型；價(jià)值觀對(duì)齊；人工智能對(duì)齊技術(shù)

以生成式AI模型ChatGPT問世為標(biāo)志，AI模型進(jìn)入多模態(tài)大模型時(shí)代。伴隨著智能駕駛、語音識(shí)別、推薦算法、智能繪畫等AI技術(shù)與日常生活場(chǎng)景相結(jié)合，AI系統(tǒng)及其設(shè)計(jì)者帶來的潛在風(fēng)險(xiǎn)更加復(fù)雜且不可預(yù)知。大模型的特點(diǎn)包括擴(kuò)展定理與涌現(xiàn)能力，其中涌現(xiàn)能力是指當(dāng)模型規(guī)模超過某個(gè)閾值后才能被觀測(cè)到的能力。[1]目前，大模型涌現(xiàn)能力的根源尚不可知，直接影響著大模型的可解釋性，也將間接影響大模型的監(jiān)控與能力控制，加劇倫理隱患，甚至或?qū)I推向不可知、不可控的技術(shù)黑洞。這正是安全問題始終占據(jù)AI領(lǐng)域關(guān)鍵議題的原因之一。

從技術(shù)倫理學(xué)的發(fā)軔到人工智能倫理研究的不斷推進(jìn)，再到如今AI大模型的出現(xiàn)為AI安全領(lǐng)域帶來新的挑戰(zhàn)，確保人工智能系統(tǒng)的目標(biāo)和行為與人類的意圖和價(jià)值觀相一致的AI對(duì)齊成為當(dāng)前AI安全的核心議題。OpenAI首席技術(shù)官M(fèi)ira Murati曾表示，“人工智能系統(tǒng)正在成為日常生活的一部分。關(guān)鍵是確保這些機(jī)器符合人類的意圖和價(jià)值觀”。而價(jià)值觀對(duì)齊作為AI對(duì)齊的重要組成部分，是保障AI價(jià)值觀安全的重要手段，甚至關(guān)乎著意識(shí)形態(tài)安全乃至國家政治安全，具有十分重要的研究意義。所謂價(jià)值觀對(duì)齊，是指確保AI模型的價(jià)值觀與人類價(jià)值觀相一致。但為何對(duì)齊？向誰對(duì)齊？如何對(duì)齊？為何難對(duì)齊？都是AI大模型價(jià)值觀對(duì)齊亟待探討的問題。

一、為何對(duì)齊：AI大模型的安全風(fēng)險(xiǎn)與發(fā)展需求

安全與發(fā)展是一體之兩翼、驅(qū)動(dòng)之雙輪，兩者相輔相成、辯證統(tǒng)一。安全風(fēng)險(xiǎn)與發(fā)展需求是驅(qū)動(dòng)AI技術(shù)演進(jìn)的“雙輪”，AI大模型的價(jià)值觀不僅通過技術(shù)架構(gòu)影響其安全性，還決定著AI大模型規(guī)?；瘧?yīng)用時(shí)的價(jià)值基礎(chǔ)與價(jià)值導(dǎo)向。符合技術(shù)應(yīng)用區(qū)域的道德情感、法律規(guī)范、地域文化以及意識(shí)形態(tài)的價(jià)值觀，是AI大模型進(jìn)入該區(qū)域市場(chǎng)的重要前提。因此，為降低安全風(fēng)險(xiǎn)、滿足發(fā)展需求，AI大模型需保持AI價(jià)值觀與人類價(jià)值觀的一致性，即確保價(jià)值觀對(duì)齊。

（一）安全問題是AI大模型價(jià)值觀對(duì)齊的內(nèi)在動(dòng)力

AI的安全風(fēng)險(xiǎn)一定程度上來源于AI大模型的內(nèi)部，同時(shí)驅(qū)動(dòng)著AI大模型不斷進(jìn)行價(jià)值觀對(duì)齊。DeepMind公司研究人員基于計(jì)算機(jī)科學(xué)、語言學(xué)以及社會(huì)科學(xué)等多學(xué)科文獻(xiàn)分析大語言模型（LLM）的倫理與社會(huì)風(fēng)險(xiǎn)，歸納出包括歧視、仇恨言論和排斥，真實(shí)信息危害，錯(cuò)誤信息危害，惡意使用，人機(jī)交互危害，環(huán)境和社會(huì)經(jīng)濟(jì)危害等六大類風(fēng)險(xiǎn)。[2]其中，前三類風(fēng)險(xiǎn)來自AI大模型的訓(xùn)練機(jī)制與訓(xùn)練數(shù)據(jù)，惡意使用與人機(jī)交互危害則是在AI大模型的人機(jī)交互過程中所暴露出的模型自身的潛在安全問題，上述五類都關(guān)乎AI價(jià)值觀的健康與否，也會(huì)影響AI大模型價(jià)值觀與人類價(jià)值觀的符合程度。

AI大模型是基于大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練，包含百億及以上參數(shù)且能通過微調(diào)（fine-tuning）、上下文學(xué)習(xí)（in-context learning）、零樣本（zero-shot）等方式廣泛應(yīng)用于下游任務(wù)上的AI模型。在模型訓(xùn)練階段，由于AI大模型多采用半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)模式的大規(guī)模預(yù)訓(xùn)練，大量未標(biāo)注數(shù)據(jù)參與模型訓(xùn)練，這意味著AI模型將會(huì)延續(xù)原始數(shù)據(jù)中存在的價(jià)值觀念，如歧視、仇恨言論、排斥性規(guī)范等。例如Gopher模型會(huì)顯示職業(yè)與性別相關(guān)的刻板印象等。而在模型應(yīng)用階段，模型自身的可靠性、可控性、魯棒性等都需要進(jìn)行定期檢驗(yàn)，尤其是向廣大用戶開放后，可能存在用戶構(gòu)造針對(duì)性語句對(duì)模型進(jìn)行誘導(dǎo)，從而使大模型生產(chǎn)帶有偏見、歧視等不良價(jià)值導(dǎo)向的風(fēng)險(xiǎn)內(nèi)容。例如有網(wǎng)民通過調(diào)整語句表述誘導(dǎo)ChatGPT輸出關(guān)于如何自殺的言論；微軟在推特平臺(tái)推出的聊天機(jī)器人Tay在24小時(shí)內(nèi)被用戶調(diào)教為集性別歧視、種族歧視于一身的“不良少女”。

綜上可見，大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練方式為AI大模型帶來的涌現(xiàn)能力與內(nèi)生風(fēng)險(xiǎn)一體兩面，“量變引發(fā)質(zhì)變”的同時(shí)，不可預(yù)測(cè)的內(nèi)生風(fēng)險(xiǎn)也隨之而來，尤其是在價(jià)值觀層面，其影響更是隱性且持續(xù)的。作為意識(shí)形態(tài)的核心，價(jià)值觀安全勢(shì)將波及意識(shí)形態(tài)安全。而意識(shí)形態(tài)是立國之本，因此，對(duì)于我國本土AI大模型以及其他AI大模型的本土化應(yīng)用而言，國家意識(shí)形態(tài)安全是其價(jià)值觀對(duì)齊的題中應(yīng)有之義、重中之重。設(shè)計(jì)者對(duì)AI大模型價(jià)值觀安全的考量不能僅僅停留在經(jīng)濟(jì)、社會(huì)、文化層面，在探索價(jià)值觀對(duì)齊技術(shù)路徑時(shí)還需充分把握保障國家意識(shí)形態(tài)安全的極端重要性，在模型訓(xùn)練與測(cè)試、監(jiān)測(cè)中關(guān)注與回應(yīng)國家意識(shí)形態(tài)工作需要。

（二）應(yīng)用保障是AI大模型價(jià)值觀對(duì)齊的外在需求

正如前文所言，AI大模型在實(shí)際應(yīng)用過程中也時(shí)常面臨倫理危機(jī)，而價(jià)值觀對(duì)齊能夠有效保障AI大模型的規(guī)模化、產(chǎn)業(yè)化應(yīng)用順利落地。當(dāng)前，AI大模型在多模態(tài)領(lǐng)域呈現(xiàn)出較好的全面發(fā)展，音頻、視頻、圖像、文字、3D等模態(tài)的AI識(shí)別與生成技術(shù)均日趨成熟，并且能夠進(jìn)行不同語言間的識(shí)別轉(zhuǎn)換。Meta公司推出的AnyMAL模型更是推進(jìn)了基于LLM的多模態(tài)同頻交互，使一個(gè)模型可以對(duì)不同模態(tài)輸入內(nèi)容（文本、圖像、視頻、音頻、IMU運(yùn)動(dòng)傳感器數(shù)據(jù)）實(shí)現(xiàn)理解并生成文本響應(yīng)。上述技術(shù)進(jìn)步不僅促進(jìn)了全球范圍的跨國交流，還使AI大模型的交互體驗(yàn)朝類人方向再進(jìn)一步，更為AI大模型的應(yīng)用落地開拓了豐富的商業(yè)市場(chǎng)。

誠然，AI大模型早已實(shí)現(xiàn)文字或語音層面的跨語言溝通，2022年冬奧會(huì)期間，記者使用智能錄音筆完成跨語種語音轉(zhuǎn)寫并實(shí)現(xiàn)快速出稿。但真正流暢的日常性跨語種交流仍存在障礙，原因在于不同語言背后的價(jià)值觀念、思維方式、文化體系不同。語言是思維的外殼，從語言的表層形式上能看出思維方式的差異。以英語和漢語為例，英語的結(jié)構(gòu)特點(diǎn)是拼音文字且具有嚴(yán)格的語法規(guī)范和完整的語法結(jié)構(gòu)，而漢語作為象形文字，其結(jié)構(gòu)特征之一是象形性，且古代中國語言（文言文）在語法結(jié)構(gòu)和語法規(guī)則方面具有隨意和散漫的特點(diǎn)。[3]這一語言差異反映到思維方式上，則呈現(xiàn)出英語國家與漢語國家在理性思維邏輯與直覺具象邏輯、分散性思維和整體思維、形式思維和辯證思維、以主客體相分離為基礎(chǔ)的思維方式和以主客體相統(tǒng)一為基礎(chǔ)的思維方式等諸多方面的差異。[4]對(duì)于AI大模型而言，英語既是其主流編程語言，也往往是主要的交互指令語言，這使得具有英語思維特征的AI大模型在向其他地區(qū)推廣過程中，即便能夠借助強(qiáng)大的語言轉(zhuǎn)換能力實(shí)現(xiàn)跨語言溝通，也很難真正適應(yīng)當(dāng)?shù)氐那楦械赖?、思維方式與文化環(huán)境。以相同邏輯研發(fā)的中文AI大模型在早期階段也時(shí)常出現(xiàn)“驢唇不對(duì)馬嘴”的交互體驗(yàn)。

價(jià)值觀對(duì)齊恰恰是解決這一應(yīng)用推廣障礙的有效方式，通過基于特定國家或地區(qū)的包括法律規(guī)范、文化習(xí)俗、情感表達(dá)等多樣化語料輸入實(shí)現(xiàn)模型微調(diào)，推進(jìn)AI大模型的區(qū)域性價(jià)值觀對(duì)齊，從而使其更好地適應(yīng)不同國家或地區(qū)的法律、文化以及價(jià)值觀念。對(duì)于本土AI大模型而言，價(jià)值觀對(duì)齊能夠倒逼其進(jìn)行更多基于本土語料的模型訓(xùn)練，甚至調(diào)整模型訓(xùn)練邏輯，以契合本土的價(jià)值觀與思維模式，從而一定程度上降低以英語思維為核心的AI大模型價(jià)值觀影響，更有利于服務(wù)好本土用戶，符合國家技術(shù)治理要求。

二、向誰對(duì)齊：AI大模型價(jià)值觀對(duì)齊的價(jià)值選擇

價(jià)值選擇是AI大模型價(jià)值觀對(duì)齊的核心問題，向誰對(duì)齊關(guān)系到AI大模型的價(jià)值導(dǎo)向。在AI大模型的價(jià)值體系中，存在隱匿于技術(shù)架構(gòu)中的原生價(jià)值觀、價(jià)值觀對(duì)齊所需達(dá)成的目標(biāo)價(jià)值觀以及AI大模型共同追求的普適價(jià)值觀三個(gè)維度。在不同維度上，AI對(duì)齊的價(jià)值觀選擇標(biāo)準(zhǔn)有所不同，但無論哪一維度都不能違背世界范圍內(nèi)普遍認(rèn)同的人類共同價(jià)值與國際法基本原則。

（一）設(shè)計(jì)者價(jià)值觀是AI大模型原生價(jià)值觀的核心組成

技術(shù)具有鮮明的意識(shí)形態(tài)屬性。Dallas Smythe指出，從技術(shù)研發(fā)到應(yīng)用，是一個(gè)政治的過程，即社會(huì)權(quán)力參與其中為實(shí)現(xiàn)自身的意圖展開斗爭(zhēng)的過程，同時(shí)他也強(qiáng)調(diào)，發(fā)展中國家/社會(huì)主義國家在技術(shù)引進(jìn)時(shí)對(duì)文化甄別以及技術(shù)政治性辨別的重要性。[5]AI大模型作為人工智能技術(shù)的最新產(chǎn)物，其研發(fā)過程也不可避免地受到設(shè)計(jì)者價(jià)值觀及其隱含的價(jià)值認(rèn)同與意識(shí)形態(tài)的形塑。設(shè)計(jì)者通過對(duì)技術(shù)路徑的選擇與技術(shù)方式的應(yīng)用，將自身價(jià)值觀傳輸?shù)紸I大模型之中。因此，設(shè)計(jì)者價(jià)值觀作為最初的價(jià)值選擇，伴隨AI大模型的研發(fā)成為其原生價(jià)值觀的核心組成部分。

此外，大規(guī)模預(yù)訓(xùn)練也使得隱匿在海量數(shù)據(jù)中的價(jià)值觀伴隨著復(fù)雜的學(xué)習(xí)算法進(jìn)入AI大模型的價(jià)值體系當(dāng)中，與設(shè)計(jì)者價(jià)值觀共同組成了AI大模型的原生價(jià)值體系。但就現(xiàn)實(shí)情況而言，這一價(jià)值體系本身存在諸多安全風(fēng)險(xiǎn)，例如政治安全風(fēng)險(xiǎn)、倫理安全風(fēng)險(xiǎn)、意識(shí)形態(tài)安全風(fēng)險(xiǎn)等。對(duì)于意識(shí)形態(tài)存在明顯差異的國家而言，AI大模型的引入無形中夾帶了其他意識(shí)形態(tài)的引入，這正是價(jià)值觀對(duì)齊時(shí)首先關(guān)注AI大模型原生價(jià)值觀的意義所在。認(rèn)識(shí)到AI大模型原生價(jià)值觀的存在，才能夠在價(jià)值觀對(duì)齊時(shí)關(guān)注到隱匿于技術(shù)架構(gòu)中的政治傾向、意識(shí)形態(tài)傾向等隱性價(jià)值觀并加以分析理解，從而更好地把握AI大模型的價(jià)值體系，調(diào)整并確保其與應(yīng)用區(qū)域價(jià)值觀的一致性，避免以技術(shù)為載體的意識(shí)形態(tài)入侵。

（二）合情、合法、合文化、合意識(shí)形態(tài)的價(jià)值觀是AI大模型價(jià)值觀對(duì)齊的目標(biāo)價(jià)值觀

認(rèn)識(shí)到AI大模型的原生價(jià)值觀是進(jìn)行價(jià)值觀對(duì)齊的重要前提，由于原生價(jià)值觀在應(yīng)用過程中不總能符合人類的意圖與價(jià)值觀，AI大模型的價(jià)值觀對(duì)齊受到廣泛重視。但正如海量數(shù)據(jù)中包含歧視、偏見、暴力、政治傾向等不良價(jià)值觀念，作為對(duì)齊目標(biāo)的人類價(jià)值觀具有多元多維的特征，AI大模型在價(jià)值觀對(duì)齊時(shí)需要根據(jù)其所在區(qū)域的差異進(jìn)行一定的個(gè)性化選擇。

價(jià)值選擇時(shí)，道德情感、法律法規(guī)、國家區(qū)域文化以及意識(shí)形態(tài)是AI大模型價(jià)值觀對(duì)齊確定目標(biāo)價(jià)值觀的四大維度。實(shí)際操作中，設(shè)計(jì)者需秉持“求同存異”的對(duì)齊原則，將合情、合法、合文化、合意識(shí)形態(tài)的價(jià)值觀有機(jī)嵌入AI大模型中，使其輸出符合目標(biāo)價(jià)值觀。其中，合情指符合道德情感，AI大模型在聊天對(duì)話、智能繪畫等內(nèi)容生成過程中需要符合基本的道德情感，從而使指令響應(yīng)在滿足基本信息獲取需求的同時(shí)滿足人類的情感需求，如愛國主義情感、責(zé)任感、自尊感等。合法指符合法律法規(guī)，對(duì)不同國家或地區(qū)而言，人工智能法律的頒布并不同步，內(nèi)容上也有一定差異，因此AI大模型需要面向特定國家或地區(qū)的法律法規(guī)進(jìn)行一致性調(diào)整。2023年8月15日起，我國《生成式人工智能服務(wù)管理暫行辦法》正式實(shí)施，截至9月底，11家國內(nèi)AI大模型已獲批正式面向公眾開放，目前尚未有國際AI大模型通過審批。合文化是指符合國家區(qū)域文化，以中西方文化為例，“Dragon（龍）”在西方文化中寓意邪惡，而“龍”在中國文化中象征祥瑞。面對(duì)文化差異，AI大模型價(jià)值觀對(duì)齊時(shí)需要“存異”以確保符合不同國家區(qū)域文化，從而靈活服務(wù)于不同文化群體。合意識(shí)形態(tài)是指符合國家或地區(qū)的意識(shí)形態(tài)，當(dāng)今世界范圍內(nèi)存在著意識(shí)形態(tài)的斗爭(zhēng)與矛盾，服務(wù)于不同意識(shí)形態(tài)陣營的AI大模型應(yīng)該有意識(shí)地在價(jià)值觀對(duì)齊過程中完成主流意識(shí)形態(tài)的堅(jiān)持與維護(hù)，以確保國家或地區(qū)的意識(shí)形態(tài)安全。

對(duì)于我國AI大模型來說，AI大模型價(jià)值觀對(duì)齊的目標(biāo)價(jià)值觀可以精準(zhǔn)概括為社會(huì)主義核心價(jià)值觀。涵蓋國家、社會(huì)、個(gè)人三個(gè)層面的社會(huì)主義核心價(jià)值觀是在中國特色社會(huì)主義實(shí)踐中形成的，反映了社會(huì)主義的本質(zhì)要求和中國人民的價(jià)值共識(shí)，并且與中華優(yōu)秀傳統(tǒng)文化和人類文明優(yōu)秀成果相承接，是中國式現(xiàn)代化的重要價(jià)值內(nèi)核。中國的AI大模型應(yīng)當(dāng)堅(jiān)持貫徹社會(huì)主義核心價(jià)值觀，以符合國家發(fā)展與人民需要的價(jià)值導(dǎo)向更好地服務(wù)國民用戶，切實(shí)保障國家社會(huì)安全、文化安全、政治安全。

（三）全人類共同價(jià)值是AI大模型追求的普適價(jià)值觀

AI大模型屬于跨越地域、民族、文化的人工智能系統(tǒng)，在AI技術(shù)能力提升的同時(shí)，國際交流更加便捷，基于社會(huì)、經(jīng)濟(jì)、文化、政治等方面差異而產(chǎn)生的國際沖突與摩擦也更為頻繁，因此在這一國際形勢(shì)復(fù)雜多變的時(shí)期，幫助全人類達(dá)成共識(shí)以應(yīng)對(duì)國際性問題與時(shí)代性問題的全人類共同價(jià)值成為當(dāng)前世界價(jià)值體系的迫切需求。對(duì)于AI大模型而言，價(jià)值觀對(duì)齊本質(zhì)上是確保AI系統(tǒng)的價(jià)值觀與人類的意圖和價(jià)值觀保持一致，但世界范圍內(nèi)目前仍缺乏具有普遍共識(shí)的價(jià)值體系。

2015年9月28日，習(xí)近平主席出席第七十屆聯(lián)合國大會(huì)一般性辯論發(fā)表講話時(shí)，首次提出“全人類共同價(jià)值”，即“和平、發(fā)展、公平、正義、民主、自由，是全人類的共同價(jià)值，也是聯(lián)合國的崇高目標(biāo)”[6]。全人類共同價(jià)值的內(nèi)核是尋求人類價(jià)值與不同民族、國家之間形成的最大公約數(shù)，是一種世界文明向度的發(fā)展觀和價(jià)值體系，以推動(dòng)構(gòu)建人類命運(yùn)共同體為實(shí)踐路徑，超越了意識(shí)形態(tài)的對(duì)立壁壘，為促進(jìn)世界共同發(fā)展和進(jìn)步提供了價(jià)值支撐，契合人類共同追求。[7]相較于“自私擴(kuò)張式”的西方普世價(jià)值，全人類共同價(jià)值以人民為中心，立足現(xiàn)實(shí)，超越了霸權(quán)思維與階級(jí)分裂邏輯。

AI大模型價(jià)值觀對(duì)齊的關(guān)鍵在于價(jià)值觀念的一致性，而確保價(jià)值觀一致是為了保障在AI發(fā)展過程中全人類的根本利益不受侵害。和平與發(fā)展是人類的生存價(jià)值觀，是人類生存與人類社會(huì)得以進(jìn)步的基本保障；公平和正義是人類的社會(huì)價(jià)值觀，可以確保社會(huì)分配與契約精神的持續(xù)有效；民主與自由是人類的政治價(jià)值觀，它體現(xiàn)出尊重人類主體性與社會(huì)發(fā)展客觀規(guī)律的重要性。Elon Musk認(rèn)為，“確?！斯ぶ悄軐?duì)齊的一個(gè)方法是將機(jī)器與人類緊密聯(lián)系起來，它們應(yīng)該是個(gè)人意志的延伸，而不是一個(gè)可能叛變并形成自己的目標(biāo)意圖的系統(tǒng)”[8]。AI大模型旨在服務(wù)全人類，因此全人類共同價(jià)值正是設(shè)計(jì)者在設(shè)計(jì)AI大模型與進(jìn)行價(jià)值觀對(duì)齊時(shí)應(yīng)當(dāng)追求的價(jià)值目標(biāo)，以最大程度實(shí)現(xiàn)世界范圍內(nèi)AI大模型的價(jià)值觀對(duì)齊，增強(qiáng)AI大模型的通用能力。

三、何以向善：AI大模型價(jià)值觀對(duì)齊的實(shí)踐路徑

明確AI對(duì)齊的價(jià)值觀目標(biāo)是AI大模型價(jià)值觀對(duì)齊的實(shí)踐前提，基于現(xiàn)有對(duì)齊路徑，AI大模型價(jià)值向善的方式可以概括為外部對(duì)齊與內(nèi)部對(duì)齊兩種思路。其中，外部對(duì)齊是指選擇正確的損失函數(shù)或獎(jiǎng)勵(lì)函數(shù)，并確保人工智能系統(tǒng)的訓(xùn)練目標(biāo)與人類的價(jià)值觀相匹配，即人類價(jià)值或預(yù)期目標(biāo)與AI模型訓(xùn)練目標(biāo)之間的對(duì)齊。內(nèi)部對(duì)齊則是指確保人工智能系統(tǒng)經(jīng)過訓(xùn)練，能夠?qū)崿F(xiàn)設(shè)計(jì)者設(shè)定的目標(biāo)，即AI模型代理真實(shí)優(yōu)化的目標(biāo)與設(shè)計(jì)者設(shè)計(jì)的訓(xùn)練目標(biāo)的對(duì)齊。[9]因此，外部對(duì)齊方式與價(jià)值觀對(duì)齊這一細(xì)化目標(biāo)相一致，為AI大模型的價(jià)值觀對(duì)齊提供了明確路徑。目前外部對(duì)齊方式呈現(xiàn)出方案多樣性與思路差異性的特征，如圖1所示。其中非遞歸監(jiān)督方法與可擴(kuò)展監(jiān)督方法分別用于低于/高于人類水平的AI系統(tǒng)。本文將具體介紹幾種國內(nèi)外AI大模型較為常用的價(jià)值觀對(duì)齊方式。

（一）監(jiān)督學(xué)習(xí)（SL）

監(jiān)督學(xué)習(xí)（SL）是機(jī)器學(xué)習(xí)的常用方法，指通過使用標(biāo)注好的樣本數(shù)據(jù)來訓(xùn)練模型，從而使模型能夠預(yù)測(cè)新的未標(biāo)注樣本的輸出。目前，AI大模型的價(jià)值觀對(duì)齊訓(xùn)練沒有停留在基于人類示范回答的監(jiān)督學(xué)習(xí)，而是在反饋信號(hào)、對(duì)齊過程等方面進(jìn)行創(chuàng)新，不斷豐富以監(jiān)督學(xué)習(xí)為核心的對(duì)齊范式。例如阿里巴巴天貓精靈和通義大模型團(tuán)隊(duì)聯(lián)合發(fā)起的“100 PoisonMpts”大語言模型治理開源中文數(shù)據(jù)集邀請(qǐng)數(shù)十個(gè)領(lǐng)域深耕多年的專家學(xué)者各自給AI模型投放100個(gè)含有誘導(dǎo)偏見、歧視回答的“毒藥”，并對(duì)AI模型的輸出結(jié)果進(jìn)行評(píng)分與排序。此外，專家學(xué)者還需對(duì)評(píng)分不佳的結(jié)果進(jìn)行改寫或重寫，從而為AI模型注入積極的人類價(jià)值觀。這一數(shù)據(jù)集通過集合多領(lǐng)域?qū)＜覍W(xué)者的數(shù)據(jù)標(biāo)注并開源，為中文AI大模型價(jià)值觀對(duì)齊提供優(yōu)質(zhì)數(shù)據(jù)。拓爾思公司推出的“拓天大模型”則將標(biāo)注環(huán)節(jié)轉(zhuǎn)換為大量清洗獲取高質(zhì)量數(shù)據(jù)以搭建通用訓(xùn)練數(shù)據(jù)集，直接基于《互聯(lián)網(wǎng)新聞信息稿源單位名單》中的媒體數(shù)據(jù)、意識(shí)形態(tài)合規(guī)數(shù)據(jù)等高質(zhì)量數(shù)據(jù)進(jìn)行模型訓(xùn)練，并將學(xué)習(xí)強(qiáng)國、《人民日?qǐng)?bào)》等權(quán)威數(shù)據(jù)形成向量數(shù)據(jù)庫，AI模型輸出結(jié)果后與數(shù)據(jù)庫內(nèi)的權(quán)威數(shù)據(jù)進(jìn)行向量核查，從而保障AI大模型輸出結(jié)果的價(jià)值導(dǎo)向與意識(shí)形態(tài)正確，同時(shí)采用RRHF、RLHF、基于AI反饋等多種對(duì)齊方案，以實(shí)現(xiàn)AI大模型的價(jià)值觀對(duì)齊。

（二）基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）

RLHF是目前最常用的非遞歸監(jiān)督方法，也是AI大模型主要的價(jià)值觀對(duì)齊方式。RLHF是指使用強(qiáng)化學(xué)習(xí)的方法利用人類反饋信號(hào)直接優(yōu)化語言模型。RLHF依靠人類對(duì)AI模型的輸出進(jìn)行評(píng)級(jí)反饋，再由研究人員將帶有人類價(jià)值偏好的反饋告知模型以強(qiáng)化其對(duì)人類偏好的學(xué)習(xí)，從而生成更合理且符合人類價(jià)值觀的輸出。該范式具體包括預(yù)訓(xùn)練模型（監(jiān)督微調(diào)，即SFT）、根據(jù)人類偏好反饋訓(xùn)練獎(jiǎng)勵(lì)函數(shù)（獎(jiǎng)勵(lì)模型訓(xùn)練）、運(yùn)用獎(jiǎng)勵(lì)函數(shù)以強(qiáng)化學(xué)習(xí)方式優(yōu)化AI模型（近端策略優(yōu)化，即PPO）三個(gè)階段，最終使得AI大模型進(jìn)一步與人類價(jià)值觀對(duì)齊。值得一提的是，將基于人類偏好的反饋視為人類價(jià)值觀的等價(jià)物是RLHF的假設(shè)前提，這既為實(shí)現(xiàn)AI大模型的價(jià)值觀對(duì)齊提供了可操作性，也帶來不可避免的價(jià)值觀窄化。

在實(shí)踐中，OpenAI公司推出的GPT系列模型自GPT-3開始便在海量訓(xùn)練數(shù)據(jù)參數(shù)基礎(chǔ)上加入人工標(biāo)注數(shù)據(jù)與RLHF，有效提升了AI大模型對(duì)人類價(jià)值觀的對(duì)齊水平，從而增強(qiáng)了指令響應(yīng)的合理性與安全性。復(fù)旦大學(xué)自然語言處理（FudanNLP）團(tuán)隊(duì)深入研究AI大模型的RLHF細(xì)節(jié)后，優(yōu)化強(qiáng)化學(xué)習(xí)階段的PPO算法，推出大模型訓(xùn)練更穩(wěn)定的PPO-max算法，在有用性與無害性的性能測(cè)試中，該算法均有進(jìn)步表現(xiàn)。[10]目前，該團(tuán)隊(duì)將PPO-max算法接入MOSS-RLHF模型，推出了國內(nèi)首個(gè)借助RLHF實(shí)現(xiàn)人類價(jià)值觀對(duì)齊的中文大模型。

（三）基于排序的人類偏好對(duì)齊（RRHF）

RLHF依賴于強(qiáng)化學(xué)習(xí)算法對(duì)AI大模型進(jìn)行人類偏好對(duì)齊，但其強(qiáng)化學(xué)習(xí)階段的PPO算法需要復(fù)雜的超參數(shù)調(diào)整與高水平的訓(xùn)練資源，為AI大模型的價(jià)值觀對(duì)齊設(shè)置了一定的技術(shù)門檻。對(duì)此，來自阿里巴巴達(dá)摩院與清華大學(xué)的研究人員提出不使用強(qiáng)化學(xué)習(xí)算法，而是通過條件概率的對(duì)數(shù)對(duì)來自不同來源的采樣響應(yīng)進(jìn)行評(píng)分，并通過排序損失來學(xué)習(xí)將這些概率與人類偏好對(duì)齊，也就是基于排序的人類偏好對(duì)齊（RRHF）范式。[11]相比于RLHF的“三步走”，該范式能夠在一次訓(xùn)練中完成整個(gè)對(duì)齊過程，且占據(jù)更少顯存資源，從而能擴(kuò)展到更大規(guī)模的模型上進(jìn)行訓(xùn)練。同時(shí)RRHF的代碼實(shí)踐與傳統(tǒng)監(jiān)督微調(diào)算法的難易程度基本相當(dāng)，很大程度上降低了AI大模型價(jià)值觀對(duì)齊的技術(shù)門檻。此外，RRHF訓(xùn)練后的AI模型可同時(shí)作為生成語言模型與獎(jiǎng)勵(lì)模型。在對(duì)齊效果方面，上述研究人員基于RRHF算法訓(xùn)練了AI模型Wombat-7B和Wombat-7B-GPT4，在幾小時(shí)訓(xùn)練后得到的袋熊Wombat模型便獲得更好的價(jià)值觀對(duì)齊。

（四）憲法人工智能（Constitutional AI）

Anthropic公司提出的憲法人工智能（Constitutional AI）不同于上述基于人類反饋的對(duì)齊范式，而是完全基于模型訓(xùn)練在無人類反饋條件下實(shí)現(xiàn)AI大模型的價(jià)值觀對(duì)齊。Constitutional AI的模型對(duì)齊過程分為兩個(gè)階段，如圖2所示：第一階段屬于監(jiān)督學(xué)習(xí)階段，根據(jù)整理的AI原則和過程范例訓(xùn)練原始模型進(jìn)行自我批評(píng)與修改其響應(yīng)，微調(diào)后形成“憲法”模型；第二階段屬于強(qiáng)化學(xué)習(xí)階段，通過強(qiáng)化學(xué)習(xí)訓(xùn)練模型，再以“憲法”模型根據(jù)此前提供的AI原則生成的反饋為評(píng)估標(biāo)準(zhǔn)，使AI模型選擇更無害地輸出。目前，該公司在AI原則的選取上較為謹(jǐn)慎且盡量擴(kuò)大原則的覆蓋范圍，當(dāng)前版本包括《聯(lián)合國人權(quán)宣言》、蘋果公司的數(shù)據(jù)隱私規(guī)則等，這一AI“憲法”正應(yīng)用于其AI聊天機(jī)器人Claude的價(jià)值觀對(duì)齊當(dāng)中。

除了上述常見的AI大模型價(jià)值觀對(duì)齊路徑，來自卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了“自對(duì)齊”（Self-Alignment）范式，OpenAI超級(jí)對(duì)齊研究團(tuán)隊(duì)提出要訓(xùn)練出“與人類水平相當(dāng)?shù)淖詣?dòng)對(duì)齊器”（automated human-level alignment researcher），達(dá)特茅斯學(xué)院等高校與DeepMind公司聯(lián)合提出將AI大模型放入模擬人類社會(huì)中使其通過互動(dòng)的方式學(xué)習(xí)價(jià)值觀的“基于模擬人類社會(huì)的訓(xùn)練”（Training in Simulated Human Society），等等?？傮w而言，AI大模型價(jià)值觀對(duì)齊已經(jīng)處在AI領(lǐng)域的風(fēng)口浪尖，不論何種對(duì)齊范式，其本質(zhì)都是為了確保AI價(jià)值觀與人類的意圖和價(jià)值觀保持一致，從而保障人類生命安全與生存發(fā)展不受到AI的毀滅式?jīng)_擊。

四、對(duì)齊困境：AI大模型價(jià)值觀對(duì)齊的現(xiàn)實(shí)挑戰(zhàn)

在AI大模型價(jià)值觀對(duì)齊的實(shí)踐過程中，盡管對(duì)齊范式不斷豐富、持續(xù)創(chuàng)新，AI大模型的價(jià)值觀在應(yīng)用中仍有漏洞。究其原因，AI大模型價(jià)值觀對(duì)齊在對(duì)齊行為本身、價(jià)值觀本身以及對(duì)齊效果評(píng)估三個(gè)方面還存在不小的現(xiàn)實(shí)挑戰(zhàn)。

（一）對(duì)齊稅：AI對(duì)齊行為的一體兩面

對(duì)齊稅，又被稱為“安全稅”，一般用來指代AI大模型為實(shí)現(xiàn)對(duì)齊而產(chǎn)生的損失，例如增加的開發(fā)時(shí)間，額外的計(jì)算，甚至性能下降等。涌現(xiàn)能力是AI大模型的獨(dú)特之處，在使用RLHF進(jìn)行價(jià)值觀對(duì)齊時(shí)，對(duì)齊行為無形中為AI大模型的能力涌現(xiàn)戴上了“緊箍咒”，以犧牲模型能力的方式來換取價(jià)值觀對(duì)齊。然而研發(fā)AI大模型并非公益事業(yè)，AI大模型訓(xùn)練所需的算法、算力與算據(jù)對(duì)研發(fā)團(tuán)隊(duì)的時(shí)間、精力以及金錢消耗都是巨大的，OpenAI公司從第一代GPT模型到GPT-4花了5年時(shí)間，僅GPT-3就花費(fèi)了1200萬美元的訓(xùn)練費(fèi)用。因此，對(duì)齊稅的存在使得研發(fā)團(tuán)隊(duì)不得不平衡AI對(duì)齊效果與AI任務(wù)性能，在價(jià)值觀對(duì)齊方面對(duì)齊稅的實(shí)際情況如今尚待評(píng)估，但不可否認(rèn)，如何在對(duì)齊效果與下游性能之間找到最佳平衡點(diǎn)，是AI大模型價(jià)值觀對(duì)齊必然面臨的困境。

（二）價(jià)值觀：隨時(shí)間、空間、文化而流動(dòng)

人的價(jià)值觀并非一成不變，而是會(huì)伴隨著時(shí)間、空間、文化的改變而改變。從時(shí)間角度看，不同時(shí)代的價(jià)值觀念天差地別，唐代以胖為美而宋朝以瘦為美，如今的人權(quán)觀念在奴隸社會(huì)根本無從談起；從空間角度看，小到社會(huì)場(chǎng)景、大到國家地區(qū)，不同空間下的價(jià)值觀也存在差異，在特定場(chǎng)景下符合道德價(jià)值的行為在其他情景下可能違反道德，例如抽煙行為轉(zhuǎn)移到室內(nèi)則是不道德的；從文化角度看，由于文化與亞文化的多樣性，即使在同一時(shí)空下，不同群體的價(jià)值觀也大相徑庭，甚至觀念間會(huì)產(chǎn)生沖突，例如耽美文化與異性戀文化之間的矛盾沖突。作為對(duì)齊目標(biāo)的價(jià)值觀本身是具有流動(dòng)性的，那么，價(jià)值觀對(duì)齊應(yīng)當(dāng)如何選擇、如何判定就失去了永恒不變的標(biāo)準(zhǔn)。這就要求價(jià)值觀對(duì)齊方式需要將價(jià)值觀自身的流變納入考慮，以確保目標(biāo)價(jià)值觀能夠反映價(jià)值觀念的變化，從而實(shí)現(xiàn)AI價(jià)值觀與人類價(jià)值觀的動(dòng)態(tài)一致。這一目標(biāo)為價(jià)值觀對(duì)齊提出了更高的技術(shù)與倫理要求。

（三）對(duì)齊效果評(píng)估：評(píng)估體系難以建立

盡管近幾年來基于RLHF的對(duì)齊方法取得了較好的效果并且演化出諸多改進(jìn)的變體，但由于AI模型本身的隨機(jī)性、道德準(zhǔn)則的模糊性、評(píng)分模型的覆蓋率以及訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量等問題，當(dāng)下的對(duì)齊程度與人類自身的道德標(biāo)準(zhǔn)仍相去甚遠(yuǎn)。[12]而價(jià)值觀對(duì)齊的有效性不穩(wěn)定，使得科學(xué)系統(tǒng)的評(píng)估體系難以建立，客觀全面的對(duì)齊效果便無從知曉，對(duì)齊方式的持續(xù)優(yōu)化與創(chuàng)新往往陷于“盲人摸象”的窘境，難以高效推進(jìn)。

五、結(jié)語

價(jià)值觀對(duì)齊是AI大模型發(fā)展至今快速形成的AI對(duì)齊領(lǐng)域，國內(nèi)學(xué)界鮮少涉足。本文從意義、準(zhǔn)則、路徑、困境四個(gè)維度對(duì)AI大模型價(jià)值觀對(duì)齊進(jìn)行了全面剖析，首先指出安全問題與應(yīng)用保障對(duì)AI大模型價(jià)值觀對(duì)齊的驅(qū)動(dòng)作用，從原生價(jià)值觀、目標(biāo)價(jià)值觀、普適價(jià)值觀三個(gè)維度分析AI大模型價(jià)值觀對(duì)齊的價(jià)值選擇，尤其是強(qiáng)調(diào)國內(nèi)AI大模型應(yīng)以社會(huì)主義核心價(jià)值觀為對(duì)齊目標(biāo)，然后指出價(jià)值觀對(duì)齊的主要實(shí)踐路徑包括非遞歸監(jiān)督與可擴(kuò)展監(jiān)督，并對(duì)國內(nèi)外常見的四種價(jià)值觀對(duì)齊范式進(jìn)行了簡(jiǎn)要介紹，最后總結(jié)了對(duì)齊稅、價(jià)值觀以及對(duì)齊效果評(píng)估三方面的對(duì)齊困境。

對(duì)于現(xiàn)階段AI大模型的價(jià)值觀對(duì)齊實(shí)踐來說，一個(gè)適合AI大模型的普適價(jià)值觀、一個(gè)有效評(píng)估價(jià)值觀對(duì)齊效果的評(píng)價(jià)體系與多個(gè)學(xué)科領(lǐng)域?qū)＜覍W(xué)者的深度協(xié)同合作，能夠突破價(jià)值觀對(duì)齊的現(xiàn)有困境，強(qiáng)化人類價(jià)值觀對(duì)AI大模型的價(jià)值引領(lǐng)，以激發(fā)AI大模型在廣泛社會(huì)領(lǐng)域的應(yīng)用實(shí)踐與創(chuàng)新推動(dòng)，使AI大模型以更安全的姿態(tài)更快速地發(fā)展。

[本文為北京市社會(huì)科學(xué)基金規(guī)劃重點(diǎn)項(xiàng)目“首都互聯(lián)網(wǎng)平臺(tái)企業(yè)社會(huì)責(zé)任與協(xié)同治理體系研究”的階段性成果，批準(zhǔn)號(hào)（22XCA002）]

參考文獻(xiàn)：

[1]羅錦釗，孫玉龍，錢增志，等.人工智能大模型綜述及展望[EB/OL].http：//kns.cnki.net/kcms/detail/13.1097.TN.20230829.1111.002.html.

[2]Weidinger L，Uesato J，Rauh M，et al.Taxonomy of risks posed by language models[C].Proceedings of the 2022 ACM Conference on Fairness，Accountability，and Transparency.2022：214-229.

[3]陳聲柏.中西思維方式差異的原因建構(gòu)[J].蘭州大學(xué)學(xué)報(bào)，2004（2）：85-90.

[4]鄧凡艷.英漢語言差異與中西思維模式[J].湖南師范大學(xué)社會(huì)科學(xué)學(xué)報(bào)，1999（3）：115-119+123.

[5]達(dá)拉斯·斯邁思，王洪喆.自行車之后是什么？——技術(shù)的政治與意識(shí)形態(tài)屬性[J].開放時(shí)代，2014（4）：95-107+94.

[6]習(xí)近平.論堅(jiān)持推動(dòng)構(gòu)建人類命運(yùn)共同體[M].北京：中央文獻(xiàn)出版社，2018：254.

[7]王虎學(xué)，陳婉馨.全人類共同價(jià)值與西方“普世價(jià)值”：界定、甄別與超越[J].治理現(xiàn)代化研究，2023（1）：72-79.

[8]沃爾特·艾薩克森.埃隆·馬斯克傳[M].北京：中信出版社，2023：229.

[9]Shen T，Jin R，Huang Y，et al. Large Language Model Alignment：A Survey[J]. arXiv preprint arXiv：2309.15025，2023.

[10]Zheng R，Dou S，Gao S，et al.Secrets of RLHF in Large Language Models Part I：PPO[J].arXiv preprint arXiv：2307.04964，2023.

[11]Yuan Z，Yuan H，Tan C，et al.Rrhf：Rank responses toalign language models with human feedback without tears[J].arXiv preprint arXiv：2304.05302，2023.

[12]矣曉沅，謝幸.大模型道德價(jià)值觀對(duì)齊問題剖析[J].計(jì)算機(jī)研究與發(fā)展，2023（9）：1926-1945.

作者簡(jiǎn)介：郭全中，中央民族大學(xué)新聞與傳播學(xué)院教授，互聯(lián)網(wǎng)平臺(tái)企業(yè)發(fā)展與治理研究中心主任（北京 100081），江蘇紫金傳媒智庫高級(jí)研究員（南京 210000）；張金熠，中央民族大學(xué)新聞與傳播學(xué)院碩士生（北京 100020）。

編校：趙亮

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

AI向善：AI大模型價(jià)值觀對(duì)齊的內(nèi)容與實(shí)踐