郭全中 張金熠
【摘要】?jī)r(jià)值觀對(duì)齊關(guān)系著AI大模型是否能真正為人類服務(wù),甚至關(guān)乎著意識(shí)形態(tài)安全乃至國家政治安全。從意義、準(zhǔn)則、路徑、困境四個(gè)維度對(duì)AI大模型價(jià)值觀對(duì)齊進(jìn)行全面剖析,認(rèn)為安全問題與應(yīng)用保障是AI大模型價(jià)值觀對(duì)齊的驅(qū)動(dòng)力量,原生價(jià)值觀、目標(biāo)價(jià)值觀、普適價(jià)值觀是AI大模型價(jià)值觀對(duì)齊的價(jià)值選擇,尤其強(qiáng)調(diào)國內(nèi)AI大模型應(yīng)以社會(huì)主義核心價(jià)值觀為對(duì)齊目標(biāo)。價(jià)值觀對(duì)齊的主要實(shí)踐路徑包括非遞歸監(jiān)督與可擴(kuò)展監(jiān)督兩條,并對(duì)國內(nèi)外常見的四種價(jià)值觀對(duì)齊范式進(jìn)行簡(jiǎn)要介紹,總結(jié)出對(duì)齊稅、價(jià)值觀以及對(duì)齊效果評(píng)估方面的對(duì)齊困境。
【關(guān)鍵詞】人工智能;大模型;價(jià)值觀對(duì)齊;人工智能對(duì)齊技術(shù)
以生成式AI模型ChatGPT問世為標(biāo)志,AI模型進(jìn)入多模態(tài)大模型時(shí)代。伴隨著智能駕駛、語音識(shí)別、推薦算法、智能繪畫等AI技術(shù)與日常生活場(chǎng)景相結(jié)合,AI系統(tǒng)及其設(shè)計(jì)者帶來的潛在風(fēng)險(xiǎn)更加復(fù)雜且不可預(yù)知。大模型的特點(diǎn)包括擴(kuò)展定理與涌現(xiàn)能力,其中涌現(xiàn)能力是指當(dāng)模型規(guī)模超過某個(gè)閾值后才能被觀測(cè)到的能力。[1]目前,大模型涌現(xiàn)能力的根源尚不可知,直接影響著大模型的可解釋性,也將間接影響大模型的監(jiān)控與能力控制,加劇倫理隱患,甚至或?qū)I推向不可知、不可控的技術(shù)黑洞。這正是安全問題始終占據(jù)AI領(lǐng)域關(guān)鍵議題的原因之一。
從技術(shù)倫理學(xué)的發(fā)軔到人工智能倫理研究的不斷推進(jìn),再到如今AI大模型的出現(xiàn)為AI安全領(lǐng)域帶來新的挑戰(zhàn),確保人工智能系統(tǒng)的目標(biāo)和行為與人類的意圖和價(jià)值觀相一致的AI對(duì)齊成為當(dāng)前AI安全的核心議題。OpenAI首席技術(shù)官M(fèi)ira Murati曾表示,“人工智能系統(tǒng)正在成為日常生活的一部分。關(guān)鍵是確保這些機(jī)器符合人類的意圖和價(jià)值觀”。而價(jià)值觀對(duì)齊作為AI對(duì)齊的重要組成部分,是保障AI價(jià)值觀安全的重要手段,甚至關(guān)乎著意識(shí)形態(tài)安全乃至國家政治安全,具有十分重要的研究意義。所謂價(jià)值觀對(duì)齊,是指確保AI模型的價(jià)值觀與人類價(jià)值觀相一致。但為何對(duì)齊?向誰對(duì)齊?如何對(duì)齊?為何難對(duì)齊?都是AI大模型價(jià)值觀對(duì)齊亟待探討的問題。
一、為何對(duì)齊:AI大模型的安全風(fēng)險(xiǎn)與發(fā)展需求
安全與發(fā)展是一體之兩翼、驅(qū)動(dòng)之雙輪,兩者相輔相成、辯證統(tǒng)一。安全風(fēng)險(xiǎn)與發(fā)展需求是驅(qū)動(dòng)AI技術(shù)演進(jìn)的“雙輪”,AI大模型的價(jià)值觀不僅通過技術(shù)架構(gòu)影響其安全性,還決定著AI大模型規(guī)?;瘧?yīng)用時(shí)的價(jià)值基礎(chǔ)與價(jià)值導(dǎo)向。符合技術(shù)應(yīng)用區(qū)域的道德情感、法律規(guī)范、地域文化以及意識(shí)形態(tài)的價(jià)值觀,是AI大模型進(jìn)入該區(qū)域市場(chǎng)的重要前提。因此,為降低安全風(fēng)險(xiǎn)、滿足發(fā)展需求,AI大模型需保持AI價(jià)值觀與人類價(jià)值觀的一致性,即確保價(jià)值觀對(duì)齊。
(一)安全問題是AI大模型價(jià)值觀對(duì)齊的內(nèi)在動(dòng)力
AI的安全風(fēng)險(xiǎn)一定程度上來源于AI大模型的內(nèi)部,同時(shí)驅(qū)動(dòng)著AI大模型不斷進(jìn)行價(jià)值觀對(duì)齊。DeepMind公司研究人員基于計(jì)算機(jī)科學(xué)、語言學(xué)以及社會(huì)科學(xué)等多學(xué)科文獻(xiàn)分析大語言模型(LLM)的倫理與社會(huì)風(fēng)險(xiǎn),歸納出包括歧視、仇恨言論和排斥,真實(shí)信息危害,錯(cuò)誤信息危害,惡意使用,人機(jī)交互危害,環(huán)境和社會(huì)經(jīng)濟(jì)危害等六大類風(fēng)險(xiǎn)。[2]其中,前三類風(fēng)險(xiǎn)來自AI大模型的訓(xùn)練機(jī)制與訓(xùn)練數(shù)據(jù),惡意使用與人機(jī)交互危害則是在AI大模型的人機(jī)交互過程中所暴露出的模型自身的潛在安全問題,上述五類都關(guān)乎AI價(jià)值觀的健康與否,也會(huì)影響AI大模型價(jià)值觀與人類價(jià)值觀的符合程度。
AI大模型是基于大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練,包含百億及以上參數(shù)且能通過微調(diào)(fine-tuning)、上下文學(xué)習(xí)(in-context learning)、零樣本(zero-shot)等方式廣泛應(yīng)用于下游任務(wù)上的AI模型。在模型訓(xùn)練階段,由于AI大模型多采用半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)模式的大規(guī)模預(yù)訓(xùn)練,大量未標(biāo)注數(shù)據(jù)參與模型訓(xùn)練,這意味著AI模型將會(huì)延續(xù)原始數(shù)據(jù)中存在的價(jià)值觀念,如歧視、仇恨言論、排斥性規(guī)范等。例如Gopher模型會(huì)顯示職業(yè)與性別相關(guān)的刻板印象等。而在模型應(yīng)用階段,模型自身的可靠性、可控性、魯棒性等都需要進(jìn)行定期檢驗(yàn),尤其是向廣大用戶開放后,可能存在用戶構(gòu)造針對(duì)性語句對(duì)模型進(jìn)行誘導(dǎo),從而使大模型生產(chǎn)帶有偏見、歧視等不良價(jià)值導(dǎo)向的風(fēng)險(xiǎn)內(nèi)容。例如有網(wǎng)民通過調(diào)整語句表述誘導(dǎo)ChatGPT輸出關(guān)于如何自殺的言論;微軟在推特平臺(tái)推出的聊天機(jī)器人Tay在24小時(shí)內(nèi)被用戶調(diào)教為集性別歧視、種族歧視于一身的“不良少女”。
綜上可見,大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練方式為AI大模型帶來的涌現(xiàn)能力與內(nèi)生風(fēng)險(xiǎn)一體兩面,“量變引發(fā)質(zhì)變”的同時(shí),不可預(yù)測(cè)的內(nèi)生風(fēng)險(xiǎn)也隨之而來,尤其是在價(jià)值觀層面,其影響更是隱性且持續(xù)的。作為意識(shí)形態(tài)的核心,價(jià)值觀安全勢(shì)將波及意識(shí)形態(tài)安全。而意識(shí)形態(tài)是立國之本,因此,對(duì)于我國本土AI大模型以及其他AI大模型的本土化應(yīng)用而言,國家意識(shí)形態(tài)安全是其價(jià)值觀對(duì)齊的題中應(yīng)有之義、重中之重。設(shè)計(jì)者對(duì)AI大模型價(jià)值觀安全的考量不能僅僅停留在經(jīng)濟(jì)、社會(huì)、文化層面,在探索價(jià)值觀對(duì)齊技術(shù)路徑時(shí)還需充分把握保障國家意識(shí)形態(tài)安全的極端重要性,在模型訓(xùn)練與測(cè)試、監(jiān)測(cè)中關(guān)注與回應(yīng)國家意識(shí)形態(tài)工作需要。
(二)應(yīng)用保障是AI大模型價(jià)值觀對(duì)齊的外在需求
正如前文所言,AI大模型在實(shí)際應(yīng)用過程中也時(shí)常面臨倫理危機(jī),而價(jià)值觀對(duì)齊能夠有效保障AI大模型的規(guī)模化、產(chǎn)業(yè)化應(yīng)用順利落地。當(dāng)前,AI大模型在多模態(tài)領(lǐng)域呈現(xiàn)出較好的全面發(fā)展,音頻、視頻、圖像、文字、3D等模態(tài)的AI識(shí)別與生成技術(shù)均日趨成熟,并且能夠進(jìn)行不同語言間的識(shí)別轉(zhuǎn)換。Meta公司推出的AnyMAL模型更是推進(jìn)了基于LLM的多模態(tài)同頻交互,使一個(gè)模型可以對(duì)不同模態(tài)輸入內(nèi)容(文本、圖像、視頻、音頻、IMU運(yùn)動(dòng)傳感器數(shù)據(jù))實(shí)現(xiàn)理解并生成文本響應(yīng)。上述技術(shù)進(jìn)步不僅促進(jìn)了全球范圍的跨國交流,還使AI大模型的交互體驗(yàn)朝類人方向再進(jìn)一步,更為AI大模型的應(yīng)用落地開拓了豐富的商業(yè)市場(chǎng)。
誠然,AI大模型早已實(shí)現(xiàn)文字或語音層面的跨語言溝通,2022年冬奧會(huì)期間,記者使用智能錄音筆完成跨語種語音轉(zhuǎn)寫并實(shí)現(xiàn)快速出稿。但真正流暢的日常性跨語種交流仍存在障礙,原因在于不同語言背后的價(jià)值觀念、思維方式、文化體系不同。語言是思維的外殼,從語言的表層形式上能看出思維方式的差異。以英語和漢語為例,英語的結(jié)構(gòu)特點(diǎn)是拼音文字且具有嚴(yán)格的語法規(guī)范和完整的語法結(jié)構(gòu),而漢語作為象形文字,其結(jié)構(gòu)特征之一是象形性,且古代中國語言(文言文)在語法結(jié)構(gòu)和語法規(guī)則方面具有隨意和散漫的特點(diǎn)。[3]這一語言差異反映到思維方式上,則呈現(xiàn)出英語國家與漢語國家在理性思維邏輯與直覺具象邏輯、分散性思維和整體思維、形式思維和辯證思維、以主客體相分離為基礎(chǔ)的思維方式和以主客體相統(tǒng)一為基礎(chǔ)的思維方式等諸多方面的差異。[4]對(duì)于AI大模型而言,英語既是其主流編程語言,也往往是主要的交互指令語言,這使得具有英語思維特征的AI大模型在向其他地區(qū)推廣過程中,即便能夠借助強(qiáng)大的語言轉(zhuǎn)換能力實(shí)現(xiàn)跨語言溝通,也很難真正適應(yīng)當(dāng)?shù)氐那楦械赖?、思維方式與文化環(huán)境。以相同邏輯研發(fā)的中文AI大模型在早期階段也時(shí)常出現(xiàn)“驢唇不對(duì)馬嘴”的交互體驗(yàn)。
價(jià)值觀對(duì)齊恰恰是解決這一應(yīng)用推廣障礙的有效方式,通過基于特定國家或地區(qū)的包括法律規(guī)范、文化習(xí)俗、情感表達(dá)等多樣化語料輸入實(shí)現(xiàn)模型微調(diào),推進(jìn)AI大模型的區(qū)域性價(jià)值觀對(duì)齊,從而使其更好地適應(yīng)不同國家或地區(qū)的法律、文化以及價(jià)值觀念。對(duì)于本土AI大模型而言,價(jià)值觀對(duì)齊能夠倒逼其進(jìn)行更多基于本土語料的模型訓(xùn)練,甚至調(diào)整模型訓(xùn)練邏輯,以契合本土的價(jià)值觀與思維模式,從而一定程度上降低以英語思維為核心的AI大模型價(jià)值觀影響,更有利于服務(wù)好本土用戶,符合國家技術(shù)治理要求。
二、向誰對(duì)齊:AI大模型價(jià)值觀對(duì)齊的價(jià)值選擇
價(jià)值選擇是AI大模型價(jià)值觀對(duì)齊的核心問題,向誰對(duì)齊關(guān)系到AI大模型的價(jià)值導(dǎo)向。在AI大模型的價(jià)值體系中,存在隱匿于技術(shù)架構(gòu)中的原生價(jià)值觀、價(jià)值觀對(duì)齊所需達(dá)成的目標(biāo)價(jià)值觀以及AI大模型共同追求的普適價(jià)值觀三個(gè)維度。在不同維度上,AI對(duì)齊的價(jià)值觀選擇標(biāo)準(zhǔn)有所不同,但無論哪一維度都不能違背世界范圍內(nèi)普遍認(rèn)同的人類共同價(jià)值與國際法基本原則。
(一)設(shè)計(jì)者價(jià)值觀是AI大模型原生價(jià)值觀的核心組成
技術(shù)具有鮮明的意識(shí)形態(tài)屬性。Dallas Smythe指出,從技術(shù)研發(fā)到應(yīng)用,是一個(gè)政治的過程,即社會(huì)權(quán)力參與其中為實(shí)現(xiàn)自身的意圖展開斗爭(zhēng)的過程,同時(shí)他也強(qiáng)調(diào),發(fā)展中國家/社會(huì)主義國家在技術(shù)引進(jìn)時(shí)對(duì)文化甄別以及技術(shù)政治性辨別的重要性。[5]AI大模型作為人工智能技術(shù)的最新產(chǎn)物,其研發(fā)過程也不可避免地受到設(shè)計(jì)者價(jià)值觀及其隱含的價(jià)值認(rèn)同與意識(shí)形態(tài)的形塑。設(shè)計(jì)者通過對(duì)技術(shù)路徑的選擇與技術(shù)方式的應(yīng)用,將自身價(jià)值觀傳輸?shù)紸I大模型之中。因此,設(shè)計(jì)者價(jià)值觀作為最初的價(jià)值選擇,伴隨AI大模型的研發(fā)成為其原生價(jià)值觀的核心組成部分。
此外,大規(guī)模預(yù)訓(xùn)練也使得隱匿在海量數(shù)據(jù)中的價(jià)值觀伴隨著復(fù)雜的學(xué)習(xí)算法進(jìn)入AI大模型的價(jià)值體系當(dāng)中,與設(shè)計(jì)者價(jià)值觀共同組成了AI大模型的原生價(jià)值體系。但就現(xiàn)實(shí)情況而言,這一價(jià)值體系本身存在諸多安全風(fēng)險(xiǎn),例如政治安全風(fēng)險(xiǎn)、倫理安全風(fēng)險(xiǎn)、意識(shí)形態(tài)安全風(fēng)險(xiǎn)等。對(duì)于意識(shí)形態(tài)存在明顯差異的國家而言,AI大模型的引入無形中夾帶了其他意識(shí)形態(tài)的引入,這正是價(jià)值觀對(duì)齊時(shí)首先關(guān)注AI大模型原生價(jià)值觀的意義所在。認(rèn)識(shí)到AI大模型原生價(jià)值觀的存在,才能夠在價(jià)值觀對(duì)齊時(shí)關(guān)注到隱匿于技術(shù)架構(gòu)中的政治傾向、意識(shí)形態(tài)傾向等隱性價(jià)值觀并加以分析理解,從而更好地把握AI大模型的價(jià)值體系,調(diào)整并確保其與應(yīng)用區(qū)域價(jià)值觀的一致性,避免以技術(shù)為載體的意識(shí)形態(tài)入侵。
(二)合情、合法、合文化、合意識(shí)形態(tài)的價(jià)值觀是AI大模型價(jià)值觀對(duì)齊的目標(biāo)價(jià)值觀
認(rèn)識(shí)到AI大模型的原生價(jià)值觀是進(jìn)行價(jià)值觀對(duì)齊的重要前提,由于原生價(jià)值觀在應(yīng)用過程中不總能符合人類的意圖與價(jià)值觀,AI大模型的價(jià)值觀對(duì)齊受到廣泛重視。但正如海量數(shù)據(jù)中包含歧視、偏見、暴力、政治傾向等不良價(jià)值觀念,作為對(duì)齊目標(biāo)的人類價(jià)值觀具有多元多維的特征,AI大模型在價(jià)值觀對(duì)齊時(shí)需要根據(jù)其所在區(qū)域的差異進(jìn)行一定的個(gè)性化選擇。
價(jià)值選擇時(shí),道德情感、法律法規(guī)、國家區(qū)域文化以及意識(shí)形態(tài)是AI大模型價(jià)值觀對(duì)齊確定目標(biāo)價(jià)值觀的四大維度。實(shí)際操作中,設(shè)計(jì)者需秉持“求同存異”的對(duì)齊原則,將合情、合法、合文化、合意識(shí)形態(tài)的價(jià)值觀有機(jī)嵌入AI大模型中,使其輸出符合目標(biāo)價(jià)值觀。其中,合情指符合道德情感,AI大模型在聊天對(duì)話、智能繪畫等內(nèi)容生成過程中需要符合基本的道德情感,從而使指令響應(yīng)在滿足基本信息獲取需求的同時(shí)滿足人類的情感需求,如愛國主義情感、責(zé)任感、自尊感等。合法指符合法律法規(guī),對(duì)不同國家或地區(qū)而言,人工智能法律的頒布并不同步,內(nèi)容上也有一定差異,因此AI大模型需要面向特定國家或地區(qū)的法律法規(guī)進(jìn)行一致性調(diào)整。2023年8月15日起,我國《生成式人工智能服務(wù)管理暫行辦法》正式實(shí)施,截至9月底,11家國內(nèi)AI大模型已獲批正式面向公眾開放,目前尚未有國際AI大模型通過審批。合文化是指符合國家區(qū)域文化,以中西方文化為例,“Dragon(龍)”在西方文化中寓意邪惡,而“龍”在中國文化中象征祥瑞。面對(duì)文化差異,AI大模型價(jià)值觀對(duì)齊時(shí)需要“存異”以確保符合不同國家區(qū)域文化,從而靈活服務(wù)于不同文化群體。合意識(shí)形態(tài)是指符合國家或地區(qū)的意識(shí)形態(tài),當(dāng)今世界范圍內(nèi)存在著意識(shí)形態(tài)的斗爭(zhēng)與矛盾,服務(wù)于不同意識(shí)形態(tài)陣營的AI大模型應(yīng)該有意識(shí)地在價(jià)值觀對(duì)齊過程中完成主流意識(shí)形態(tài)的堅(jiān)持與維護(hù),以確保國家或地區(qū)的意識(shí)形態(tài)安全。
對(duì)于我國AI大模型來說,AI大模型價(jià)值觀對(duì)齊的目標(biāo)價(jià)值觀可以精準(zhǔn)概括為社會(huì)主義核心價(jià)值觀。涵蓋國家、社會(huì)、個(gè)人三個(gè)層面的社會(huì)主義核心價(jià)值觀是在中國特色社會(huì)主義實(shí)踐中形成的,反映了社會(huì)主義的本質(zhì)要求和中國人民的價(jià)值共識(shí),并且與中華優(yōu)秀傳統(tǒng)文化和人類文明優(yōu)秀成果相承接,是中國式現(xiàn)代化的重要價(jià)值內(nèi)核。中國的AI大模型應(yīng)當(dāng)堅(jiān)持貫徹社會(huì)主義核心價(jià)值觀,以符合國家發(fā)展與人民需要的價(jià)值導(dǎo)向更好地服務(wù)國民用戶,切實(shí)保障國家社會(huì)安全、文化安全、政治安全。
(三)全人類共同價(jià)值是AI大模型追求的普適價(jià)值觀
AI大模型屬于跨越地域、民族、文化的人工智能系統(tǒng),在AI技術(shù)能力提升的同時(shí),國際交流更加便捷,基于社會(huì)、經(jīng)濟(jì)、文化、政治等方面差異而產(chǎn)生的國際沖突與摩擦也更為頻繁,因此在這一國際形勢(shì)復(fù)雜多變的時(shí)期,幫助全人類達(dá)成共識(shí)以應(yīng)對(duì)國際性問題與時(shí)代性問題的全人類共同價(jià)值成為當(dāng)前世界價(jià)值體系的迫切需求。對(duì)于AI大模型而言,價(jià)值觀對(duì)齊本質(zhì)上是確保AI系統(tǒng)的價(jià)值觀與人類的意圖和價(jià)值觀保持一致,但世界范圍內(nèi)目前仍缺乏具有普遍共識(shí)的價(jià)值體系。
2015年9月28日,習(xí)近平主席出席第七十屆聯(lián)合國大會(huì)一般性辯論發(fā)表講話時(shí),首次提出“全人類共同價(jià)值”,即“和平、發(fā)展、公平、正義、民主、自由,是全人類的共同價(jià)值,也是聯(lián)合國的崇高目標(biāo)”[6]。全人類共同價(jià)值的內(nèi)核是尋求人類價(jià)值與不同民族、國家之間形成的最大公約數(shù),是一種世界文明向度的發(fā)展觀和價(jià)值體系,以推動(dòng)構(gòu)建人類命運(yùn)共同體為實(shí)踐路徑,超越了意識(shí)形態(tài)的對(duì)立壁壘,為促進(jìn)世界共同發(fā)展和進(jìn)步提供了價(jià)值支撐,契合人類共同追求。[7]相較于“自私擴(kuò)張式”的西方普世價(jià)值,全人類共同價(jià)值以人民為中心,立足現(xiàn)實(shí),超越了霸權(quán)思維與階級(jí)分裂邏輯。
AI大模型價(jià)值觀對(duì)齊的關(guān)鍵在于價(jià)值觀念的一致性,而確保價(jià)值觀一致是為了保障在AI發(fā)展過程中全人類的根本利益不受侵害。和平與發(fā)展是人類的生存價(jià)值觀,是人類生存與人類社會(huì)得以進(jìn)步的基本保障;公平和正義是人類的社會(huì)價(jià)值觀,可以確保社會(huì)分配與契約精神的持續(xù)有效;民主與自由是人類的政治價(jià)值觀,它體現(xiàn)出尊重人類主體性與社會(huì)發(fā)展客觀規(guī)律的重要性。Elon Musk認(rèn)為,“確?!斯ぶ悄軐?duì)齊的一個(gè)方法是將機(jī)器與人類緊密聯(lián)系起來,它們應(yīng)該是個(gè)人意志的延伸,而不是一個(gè)可能叛變并形成自己的目標(biāo)意圖的系統(tǒng)”[8]。AI大模型旨在服務(wù)全人類,因此全人類共同價(jià)值正是設(shè)計(jì)者在設(shè)計(jì)AI大模型與進(jìn)行價(jià)值觀對(duì)齊時(shí)應(yīng)當(dāng)追求的價(jià)值目標(biāo),以最大程度實(shí)現(xiàn)世界范圍內(nèi)AI大模型的價(jià)值觀對(duì)齊,增強(qiáng)AI大模型的通用能力。
三、何以向善:AI大模型價(jià)值觀對(duì)齊的實(shí)踐路徑
明確AI對(duì)齊的價(jià)值觀目標(biāo)是AI大模型價(jià)值觀對(duì)齊的實(shí)踐前提,基于現(xiàn)有對(duì)齊路徑,AI大模型價(jià)值向善的方式可以概括為外部對(duì)齊與內(nèi)部對(duì)齊兩種思路。其中,外部對(duì)齊是指選擇正確的損失函數(shù)或獎(jiǎng)勵(lì)函數(shù),并確保人工智能系統(tǒng)的訓(xùn)練目標(biāo)與人類的價(jià)值觀相匹配,即人類價(jià)值或預(yù)期目標(biāo)與AI模型訓(xùn)練目標(biāo)之間的對(duì)齊。內(nèi)部對(duì)齊則是指確保人工智能系統(tǒng)經(jīng)過訓(xùn)練,能夠?qū)崿F(xiàn)設(shè)計(jì)者設(shè)定的目標(biāo),即AI模型代理真實(shí)優(yōu)化的目標(biāo)與設(shè)計(jì)者設(shè)計(jì)的訓(xùn)練目標(biāo)的對(duì)齊。[9]因此,外部對(duì)齊方式與價(jià)值觀對(duì)齊這一細(xì)化目標(biāo)相一致,為AI大模型的價(jià)值觀對(duì)齊提供了明確路徑。目前外部對(duì)齊方式呈現(xiàn)出方案多樣性與思路差異性的特征,如圖1所示。其中非遞歸監(jiān)督方法與可擴(kuò)展監(jiān)督方法分別用于低于/高于人類水平的AI系統(tǒng)。本文將具體介紹幾種國內(nèi)外AI大模型較為常用的價(jià)值觀對(duì)齊方式。
(一)監(jiān)督學(xué)習(xí)(SL)
監(jiān)督學(xué)習(xí)(SL)是機(jī)器學(xué)習(xí)的常用方法,指通過使用標(biāo)注好的樣本數(shù)據(jù)來訓(xùn)練模型,從而使模型能夠預(yù)測(cè)新的未標(biāo)注樣本的輸出。目前,AI大模型的價(jià)值觀對(duì)齊訓(xùn)練沒有停留在基于人類示范回答的監(jiān)督學(xué)習(xí),而是在反饋信號(hào)、對(duì)齊過程等方面進(jìn)行創(chuàng)新,不斷豐富以監(jiān)督學(xué)習(xí)為核心的對(duì)齊范式。例如阿里巴巴天貓精靈和通義大模型團(tuán)隊(duì)聯(lián)合發(fā)起的“100 PoisonMpts”大語言模型治理開源中文數(shù)據(jù)集邀請(qǐng)數(shù)十個(gè)領(lǐng)域深耕多年的專家學(xué)者各自給AI模型投放100個(gè)含有誘導(dǎo)偏見、歧視回答的“毒藥”,并對(duì)AI模型的輸出結(jié)果進(jìn)行評(píng)分與排序。此外,專家學(xué)者還需對(duì)評(píng)分不佳的結(jié)果進(jìn)行改寫或重寫,從而為AI模型注入積極的人類價(jià)值觀。這一數(shù)據(jù)集通過集合多領(lǐng)域?qū)<覍W(xué)者的數(shù)據(jù)標(biāo)注并開源,為中文AI大模型價(jià)值觀對(duì)齊提供優(yōu)質(zhì)數(shù)據(jù)。拓爾思公司推出的“拓天大模型”則將標(biāo)注環(huán)節(jié)轉(zhuǎn)換為大量清洗獲取高質(zhì)量數(shù)據(jù)以搭建通用訓(xùn)練數(shù)據(jù)集,直接基于《互聯(lián)網(wǎng)新聞信息稿源單位名單》中的媒體數(shù)據(jù)、意識(shí)形態(tài)合規(guī)數(shù)據(jù)等高質(zhì)量數(shù)據(jù)進(jìn)行模型訓(xùn)練,并將學(xué)習(xí)強(qiáng)國、《人民日?qǐng)?bào)》等權(quán)威數(shù)據(jù)形成向量數(shù)據(jù)庫,AI模型輸出結(jié)果后與數(shù)據(jù)庫內(nèi)的權(quán)威數(shù)據(jù)進(jìn)行向量核查,從而保障AI大模型輸出結(jié)果的價(jià)值導(dǎo)向與意識(shí)形態(tài)正確,同時(shí)采用RRHF、RLHF、基于AI反饋等多種對(duì)齊方案,以實(shí)現(xiàn)AI大模型的價(jià)值觀對(duì)齊。
(二)基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)
RLHF是目前最常用的非遞歸監(jiān)督方法,也是AI大模型主要的價(jià)值觀對(duì)齊方式。RLHF是指使用強(qiáng)化學(xué)習(xí)的方法利用人類反饋信號(hào)直接優(yōu)化語言模型。RLHF依靠人類對(duì)AI模型的輸出進(jìn)行評(píng)級(jí)反饋,再由研究人員將帶有人類價(jià)值偏好的反饋告知模型以強(qiáng)化其對(duì)人類偏好的學(xué)習(xí),從而生成更合理且符合人類價(jià)值觀的輸出。該范式具體包括預(yù)訓(xùn)練模型(監(jiān)督微調(diào),即SFT)、根據(jù)人類偏好反饋訓(xùn)練獎(jiǎng)勵(lì)函數(shù)(獎(jiǎng)勵(lì)模型訓(xùn)練)、運(yùn)用獎(jiǎng)勵(lì)函數(shù)以強(qiáng)化學(xué)習(xí)方式優(yōu)化AI模型(近端策略優(yōu)化,即PPO)三個(gè)階段,最終使得AI大模型進(jìn)一步與人類價(jià)值觀對(duì)齊。值得一提的是,將基于人類偏好的反饋視為人類價(jià)值觀的等價(jià)物是RLHF的假設(shè)前提,這既為實(shí)現(xiàn)AI大模型的價(jià)值觀對(duì)齊提供了可操作性,也帶來不可避免的價(jià)值觀窄化。
在實(shí)踐中,OpenAI公司推出的GPT系列模型自GPT-3開始便在海量訓(xùn)練數(shù)據(jù)參數(shù)基礎(chǔ)上加入人工標(biāo)注數(shù)據(jù)與RLHF,有效提升了AI大模型對(duì)人類價(jià)值觀的對(duì)齊水平,從而增強(qiáng)了指令響應(yīng)的合理性與安全性。復(fù)旦大學(xué)自然語言處理(FudanNLP)團(tuán)隊(duì)深入研究AI大模型的RLHF細(xì)節(jié)后,優(yōu)化強(qiáng)化學(xué)習(xí)階段的PPO算法,推出大模型訓(xùn)練更穩(wěn)定的PPO-max算法,在有用性與無害性的性能測(cè)試中,該算法均有進(jìn)步表現(xiàn)。[10]目前,該團(tuán)隊(duì)將PPO-max算法接入MOSS-RLHF模型,推出了國內(nèi)首個(gè)借助RLHF實(shí)現(xiàn)人類價(jià)值觀對(duì)齊的中文大模型。
(三)基于排序的人類偏好對(duì)齊(RRHF)
RLHF依賴于強(qiáng)化學(xué)習(xí)算法對(duì)AI大模型進(jìn)行人類偏好對(duì)齊,但其強(qiáng)化學(xué)習(xí)階段的PPO算法需要復(fù)雜的超參數(shù)調(diào)整與高水平的訓(xùn)練資源,為AI大模型的價(jià)值觀對(duì)齊設(shè)置了一定的技術(shù)門檻。對(duì)此,來自阿里巴巴達(dá)摩院與清華大學(xué)的研究人員提出不使用強(qiáng)化學(xué)習(xí)算法,而是通過條件概率的對(duì)數(shù)對(duì)來自不同來源的采樣響應(yīng)進(jìn)行評(píng)分,并通過排序損失來學(xué)習(xí)將這些概率與人類偏好對(duì)齊,也就是基于排序的人類偏好對(duì)齊(RRHF)范式。[11]相比于RLHF的“三步走”,該范式能夠在一次訓(xùn)練中完成整個(gè)對(duì)齊過程,且占據(jù)更少顯存資源,從而能擴(kuò)展到更大規(guī)模的模型上進(jìn)行訓(xùn)練。同時(shí)RRHF的代碼實(shí)踐與傳統(tǒng)監(jiān)督微調(diào)算法的難易程度基本相當(dāng),很大程度上降低了AI大模型價(jià)值觀對(duì)齊的技術(shù)門檻。此外,RRHF訓(xùn)練后的AI模型可同時(shí)作為生成語言模型與獎(jiǎng)勵(lì)模型。在對(duì)齊效果方面,上述研究人員基于RRHF算法訓(xùn)練了AI模型Wombat-7B和Wombat-7B-GPT4,在幾小時(shí)訓(xùn)練后得到的袋熊Wombat模型便獲得更好的價(jià)值觀對(duì)齊。
(四)憲法人工智能(Constitutional AI)
Anthropic公司提出的憲法人工智能(Constitutional AI)不同于上述基于人類反饋的對(duì)齊范式,而是完全基于模型訓(xùn)練在無人類反饋條件下實(shí)現(xiàn)AI大模型的價(jià)值觀對(duì)齊。Constitutional AI的模型對(duì)齊過程分為兩個(gè)階段,如圖2所示:第一階段屬于監(jiān)督學(xué)習(xí)階段,根據(jù)整理的AI原則和過程范例訓(xùn)練原始模型進(jìn)行自我批評(píng)與修改其響應(yīng),微調(diào)后形成“憲法”模型;第二階段屬于強(qiáng)化學(xué)習(xí)階段,通過強(qiáng)化學(xué)習(xí)訓(xùn)練模型,再以“憲法”模型根據(jù)此前提供的AI原則生成的反饋為評(píng)估標(biāo)準(zhǔn),使AI模型選擇更無害地輸出。目前,該公司在AI原則的選取上較為謹(jǐn)慎且盡量擴(kuò)大原則的覆蓋范圍,當(dāng)前版本包括《聯(lián)合國人權(quán)宣言》、蘋果公司的數(shù)據(jù)隱私規(guī)則等,這一AI“憲法”正應(yīng)用于其AI聊天機(jī)器人Claude的價(jià)值觀對(duì)齊當(dāng)中。
除了上述常見的AI大模型價(jià)值觀對(duì)齊路徑,來自卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了“自對(duì)齊”(Self-Alignment)范式,OpenAI超級(jí)對(duì)齊研究團(tuán)隊(duì)提出要訓(xùn)練出“與人類水平相當(dāng)?shù)淖詣?dòng)對(duì)齊器”(automated human-level alignment researcher),達(dá)特茅斯學(xué)院等高校與DeepMind公司聯(lián)合提出將AI大模型放入模擬人類社會(huì)中使其通過互動(dòng)的方式學(xué)習(xí)價(jià)值觀的“基于模擬人類社會(huì)的訓(xùn)練”(Training in Simulated Human Society),等等??傮w而言,AI大模型價(jià)值觀對(duì)齊已經(jīng)處在AI領(lǐng)域的風(fēng)口浪尖,不論何種對(duì)齊范式,其本質(zhì)都是為了確保AI價(jià)值觀與人類的意圖和價(jià)值觀保持一致,從而保障人類生命安全與生存發(fā)展不受到AI的毀滅式?jīng)_擊。
四、對(duì)齊困境:AI大模型價(jià)值觀對(duì)齊的現(xiàn)實(shí)挑戰(zhàn)
在AI大模型價(jià)值觀對(duì)齊的實(shí)踐過程中,盡管對(duì)齊范式不斷豐富、持續(xù)創(chuàng)新,AI大模型的價(jià)值觀在應(yīng)用中仍有漏洞。究其原因,AI大模型價(jià)值觀對(duì)齊在對(duì)齊行為本身、價(jià)值觀本身以及對(duì)齊效果評(píng)估三個(gè)方面還存在不小的現(xiàn)實(shí)挑戰(zhàn)。
(一)對(duì)齊稅:AI對(duì)齊行為的一體兩面
對(duì)齊稅,又被稱為“安全稅”,一般用來指代AI大模型為實(shí)現(xiàn)對(duì)齊而產(chǎn)生的損失,例如增加的開發(fā)時(shí)間,額外的計(jì)算,甚至性能下降等。涌現(xiàn)能力是AI大模型的獨(dú)特之處,在使用RLHF進(jìn)行價(jià)值觀對(duì)齊時(shí),對(duì)齊行為無形中為AI大模型的能力涌現(xiàn)戴上了“緊箍咒”,以犧牲模型能力的方式來換取價(jià)值觀對(duì)齊。然而研發(fā)AI大模型并非公益事業(yè),AI大模型訓(xùn)練所需的算法、算力與算據(jù)對(duì)研發(fā)團(tuán)隊(duì)的時(shí)間、精力以及金錢消耗都是巨大的,OpenAI公司從第一代GPT模型到GPT-4花了5年時(shí)間,僅GPT-3就花費(fèi)了1200萬美元的訓(xùn)練費(fèi)用。因此,對(duì)齊稅的存在使得研發(fā)團(tuán)隊(duì)不得不平衡AI對(duì)齊效果與AI任務(wù)性能,在價(jià)值觀對(duì)齊方面對(duì)齊稅的實(shí)際情況如今尚待評(píng)估,但不可否認(rèn),如何在對(duì)齊效果與下游性能之間找到最佳平衡點(diǎn),是AI大模型價(jià)值觀對(duì)齊必然面臨的困境。
(二)價(jià)值觀:隨時(shí)間、空間、文化而流動(dòng)
人的價(jià)值觀并非一成不變,而是會(huì)伴隨著時(shí)間、空間、文化的改變而改變。從時(shí)間角度看,不同時(shí)代的價(jià)值觀念天差地別,唐代以胖為美而宋朝以瘦為美,如今的人權(quán)觀念在奴隸社會(huì)根本無從談起;從空間角度看,小到社會(huì)場(chǎng)景、大到國家地區(qū),不同空間下的價(jià)值觀也存在差異,在特定場(chǎng)景下符合道德價(jià)值的行為在其他情景下可能違反道德,例如抽煙行為轉(zhuǎn)移到室內(nèi)則是不道德的;從文化角度看,由于文化與亞文化的多樣性,即使在同一時(shí)空下,不同群體的價(jià)值觀也大相徑庭,甚至觀念間會(huì)產(chǎn)生沖突,例如耽美文化與異性戀文化之間的矛盾沖突。作為對(duì)齊目標(biāo)的價(jià)值觀本身是具有流動(dòng)性的,那么,價(jià)值觀對(duì)齊應(yīng)當(dāng)如何選擇、如何判定就失去了永恒不變的標(biāo)準(zhǔn)。這就要求價(jià)值觀對(duì)齊方式需要將價(jià)值觀自身的流變納入考慮,以確保目標(biāo)價(jià)值觀能夠反映價(jià)值觀念的變化,從而實(shí)現(xiàn)AI價(jià)值觀與人類價(jià)值觀的動(dòng)態(tài)一致。這一目標(biāo)為價(jià)值觀對(duì)齊提出了更高的技術(shù)與倫理要求。
(三)對(duì)齊效果評(píng)估:評(píng)估體系難以建立
盡管近幾年來基于RLHF的對(duì)齊方法取得了較好的效果并且演化出諸多改進(jìn)的變體,但由于AI模型本身的隨機(jī)性、道德準(zhǔn)則的模糊性、評(píng)分模型的覆蓋率以及訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量等問題,當(dāng)下的對(duì)齊程度與人類自身的道德標(biāo)準(zhǔn)仍相去甚遠(yuǎn)。[12]而價(jià)值觀對(duì)齊的有效性不穩(wěn)定,使得科學(xué)系統(tǒng)的評(píng)估體系難以建立,客觀全面的對(duì)齊效果便無從知曉,對(duì)齊方式的持續(xù)優(yōu)化與創(chuàng)新往往陷于“盲人摸象”的窘境,難以高效推進(jìn)。
五、結(jié)語
價(jià)值觀對(duì)齊是AI大模型發(fā)展至今快速形成的AI對(duì)齊領(lǐng)域,國內(nèi)學(xué)界鮮少涉足。本文從意義、準(zhǔn)則、路徑、困境四個(gè)維度對(duì)AI大模型價(jià)值觀對(duì)齊進(jìn)行了全面剖析,首先指出安全問題與應(yīng)用保障對(duì)AI大模型價(jià)值觀對(duì)齊的驅(qū)動(dòng)作用,從原生價(jià)值觀、目標(biāo)價(jià)值觀、普適價(jià)值觀三個(gè)維度分析AI大模型價(jià)值觀對(duì)齊的價(jià)值選擇,尤其是強(qiáng)調(diào)國內(nèi)AI大模型應(yīng)以社會(huì)主義核心價(jià)值觀為對(duì)齊目標(biāo),然后指出價(jià)值觀對(duì)齊的主要實(shí)踐路徑包括非遞歸監(jiān)督與可擴(kuò)展監(jiān)督,并對(duì)國內(nèi)外常見的四種價(jià)值觀對(duì)齊范式進(jìn)行了簡(jiǎn)要介紹,最后總結(jié)了對(duì)齊稅、價(jià)值觀以及對(duì)齊效果評(píng)估三方面的對(duì)齊困境。
對(duì)于現(xiàn)階段AI大模型的價(jià)值觀對(duì)齊實(shí)踐來說,一個(gè)適合AI大模型的普適價(jià)值觀、一個(gè)有效評(píng)估價(jià)值觀對(duì)齊效果的評(píng)價(jià)體系與多個(gè)學(xué)科領(lǐng)域?qū)<覍W(xué)者的深度協(xié)同合作,能夠突破價(jià)值觀對(duì)齊的現(xiàn)有困境,強(qiáng)化人類價(jià)值觀對(duì)AI大模型的價(jià)值引領(lǐng),以激發(fā)AI大模型在廣泛社會(huì)領(lǐng)域的應(yīng)用實(shí)踐與創(chuàng)新推動(dòng),使AI大模型以更安全的姿態(tài)更快速地發(fā)展。
[本文為北京市社會(huì)科學(xué)基金規(guī)劃重點(diǎn)項(xiàng)目“首都互聯(lián)網(wǎng)平臺(tái)企業(yè)社會(huì)責(zé)任與協(xié)同治理體系研究”的階段性成果,批準(zhǔn)號(hào)(22XCA002)]
參考文獻(xiàn):
[1]羅錦釗,孫玉龍,錢增志,等.人工智能大模型綜述及展望[EB/OL].http://kns.cnki.net/kcms/detail/13.1097.TN.20230829.1111.002.html.
[2]Weidinger L,Uesato J,Rauh M,et al.Taxonomy of risks posed by language models[C].Proceedings of the 2022 ACM Conference on Fairness,Accountability,and Transparency.2022:214-229.
[3]陳聲柏.中西思維方式差異的原因建構(gòu)[J].蘭州大學(xué)學(xué)報(bào),2004(2):85-90.
[4]鄧凡艷.英漢語言差異與中西思維模式[J].湖南師范大學(xué)社會(huì)科學(xué)學(xué)報(bào),1999(3):115-119+123.
[5]達(dá)拉斯·斯邁思,王洪喆.自行車之后是什么?——技術(shù)的政治與意識(shí)形態(tài)屬性[J].開放時(shí)代,2014(4):95-107+94.
[6]習(xí)近平.論堅(jiān)持推動(dòng)構(gòu)建人類命運(yùn)共同體[M].北京:中央文獻(xiàn)出版社,2018:254.
[7]王虎學(xué),陳婉馨.全人類共同價(jià)值與西方“普世價(jià)值”:界定、甄別與超越[J].治理現(xiàn)代化研究,2023(1):72-79.
[8]沃爾特·艾薩克森.埃隆·馬斯克傳[M].北京:中信出版社,2023:229.
[9]Shen T,Jin R,Huang Y,et al. Large Language Model Alignment:A Survey[J]. arXiv preprint arXiv:2309.15025,2023.
[10]Zheng R,Dou S,Gao S,et al.Secrets of RLHF in Large Language Models Part I:PPO[J].arXiv preprint arXiv:2307.04964,2023.
[11]Yuan Z,Yuan H,Tan C,et al.Rrhf:Rank responses toalign language models with human feedback without tears[J].arXiv preprint arXiv:2304.05302,2023.
[12]矣曉沅,謝幸.大模型道德價(jià)值觀對(duì)齊問題剖析[J].計(jì)算機(jī)研究與發(fā)展,2023(9):1926-1945.
作者簡(jiǎn)介:郭全中,中央民族大學(xué)新聞與傳播學(xué)院教授,互聯(lián)網(wǎng)平臺(tái)企業(yè)發(fā)展與治理研究中心主任(北京 100081),江蘇紫金傳媒智庫高級(jí)研究員(南京 210000);張金熠,中央民族大學(xué)新聞與傳播學(xué)院碩士生(北京 100020)。
編校:趙 亮