針對大語言模型的偏見性研究綜述

2024-10-14 00:00徐磊胡亞豪潘志松

計算機應(yīng)用研究 2024年10期

摘要：偏見現(xiàn)象普遍存在于人類社會，并通常以自然語言為載體呈現(xiàn)。傳統(tǒng)的偏見研究主要針對靜態(tài)詞嵌入模型展開，但隨著自然語言處理技術(shù)的不斷演進(jìn)，研究對象逐漸轉(zhuǎn)向上下文處理能力更強的預(yù)訓(xùn)練模型。而作為預(yù)訓(xùn)練模型的進(jìn)一步發(fā)展，盡管大型語言模型憑借驚人的性能和廣闊的發(fā)展前景在多個應(yīng)用場景中得到了廣泛部署，但其仍可能會從未經(jīng)處理的訓(xùn)練數(shù)據(jù)中捕捉到社會偏見，并將偏見傳播到下游任務(wù)中。含有偏見的大型語言模型系統(tǒng)會產(chǎn)生不良的社會影響和潛在危害，因此針對大型語言模型的偏見研究亟待深入探討。探討了自然語言處理中偏見的由來，并對從詞嵌入模型到現(xiàn)在大型語言模型的偏見評估和偏見緩解方法進(jìn)行了分析與總結(jié)，旨在為未來相關(guān)研究提供有益參考。

關(guān)鍵詞：自然語言處理；詞嵌入；預(yù)訓(xùn)練模型；大型語言模型；偏見

中圖分類號：TP391 文獻(xiàn)標(biāo)志碼：A 文章編號：1001-3695（2024）10-001-2881-12

doi：10.19734/j.issn.1001-3695.2024.02.0020

Review of biased research on large language model

Xu Lei， Hu Yahao， Pan Zhisong

（College of Command & Control Engineering， Army Engineering University of PLA， Nanjing 210007， China）

Abstract：The phenomenon of bias existed widely in human society， and typically manifested through natural language. Traditional bias studies have mainly focused on static word embedding models， but with the continuous evolution of natural language processing technology， research has gradually shifted towards pre-trained models with stronger contextual processing capabilities. As a further development of pre-trained models， although large language mo-dels have been widely deployed in multiple applications due to their remarkable performance and broad prospects， they may still capture social biases from unprocessed training data and propagate these biases to downstream tasks. Biased large language model systems can cause adverse social impacts and other potential harm. Therefore， there is an urgent need for further exploration of bias in large language mo-dels. This paper discussed the origins of bias in natural language processing and provided an analysis and summary of the deve-lopment of bias evaluation and mitigation methods from word embedding models to the current large language models， aiming to provide valuable references for future related research.

Key words：natural language processing; word embedding; pre-trained model; large language model; bias

0 引言

隨著信息時代的到來，對文本數(shù)據(jù)的處理和理解變得越來越重要，自然語言處理技術(shù)（natural language processing，NLP）也取得了巨大的進(jìn)展。自然語言處理在不同時期都涌現(xiàn)出了代表性的技術(shù)，如統(tǒng)計語言模型時期的n-gram模型，神經(jīng)語言模型時期的word2vec［1］，預(yù)訓(xùn)練語言模型時期的ELMo［2］、BERT［3］，再到現(xiàn)在大型語言模型時期的ChatGPT、GPT-4［4］、ChatGLM［5］等。

事實上，Bolukbasi等人［6］早在2016年便發(fā)現(xiàn)訓(xùn)練后的詞向量中具有歧視性信息，之后的研究者受心理學(xué)內(nèi)隱聯(lián)想測試的啟發(fā)提出了WEAT方法來具體衡量模型的偏見。隨著ELMo、BERT等上下文學(xué)習(xí)的預(yù)訓(xùn)練模型的發(fā)展，一系列針對上下文詞嵌入的方法被提出。已有的研究表明，文本模型因訓(xùn)練的過程依賴于各種來源的語料庫，所以模型會從未處理的數(shù)據(jù)中捕獲人類社會中的偏見，這些偏見被詞嵌入所包含，繼而延續(xù)到各項下游任務(wù)中，最終導(dǎo)致對弱勢邊緣群體作出歧視性、包含偏見的決定，繼而造成不良的社會影響和潛在危害［7］。此外，語言模型學(xué)習(xí)過程中的人為因素或者嵌入過程中意想不到的偏差也會導(dǎo)致甚至放大下游任務(wù)中的偏見。

大型語言模型本質(zhì)上還是一種預(yù)訓(xùn)練模型，研究者發(fā)現(xiàn)通過擴展模型大小或數(shù)據(jù)規(guī)模往往會提升模型對下游任務(wù)的處理能力，例如175 B參數(shù)的GPT-3和540 B的PaLM。雖然擴展主要是在模型大小上進(jìn)行的，但大型語言模型與較小的預(yù)訓(xùn)練模型卻表現(xiàn)出了不同的行為，并在解決一系列復(fù)雜任務(wù)時表現(xiàn)出驚人的能力，這又被稱為“涌現(xiàn)能力”。例如GPT-3相比于GPT-2可以通過上下文學(xué)習(xí)完成少樣本任務(wù)，而GPT-4相比于GPT-3則是零樣本泛化性能得到顯著提升。大語言模型的標(biāo)志性應(yīng)用便是ChatGPT，通過將模型引入到對話任務(wù)中，呈現(xiàn)出了驚人的對話能力。盡管大型語言模型在文本處理能力和理解能力上相較于之前的模型已經(jīng)有了大幅提升，但其仍然未能完全擺脫偏見問題。

由于大模型強大的文本處理能力，針對大模型的公正性研究從之前單一的偏見、刻板印象研究擴展到更大的安全性方面。先前的研究已表明自然語言處理中的偏見由來已久并且難以解決，在ChatGPT等大模型推出之后相關(guān)的偏見評估標(biāo)準(zhǔn)、緩偏方法也發(fā)生了變化。本文的貢獻(xiàn)主要如下：a）回顧了自然語言處理技術(shù)和相關(guān)偏見研究的發(fā)展；b）探討了自然語言處理技術(shù)中偏見的由來;c）根據(jù)自然語言不同的發(fā)展階段綜述了相應(yīng)的偏見評估方法；d）分別從數(shù)據(jù)集、詞嵌入、預(yù)訓(xùn)練模型、大模型的角度介紹了偏見的緩解方法，并對未來模型的偏見性研究提出展望。

1 背景知識

1.1 自然語言處理技術(shù)

一般而言自然語言處理技術(shù)大致可以分為四個主要發(fā)展階段，如圖1所示。

1.1.1 統(tǒng)計語言模型時期

統(tǒng)計語言模型［8］（statistical language model，SLM）于20世紀(jì)90年代興起，其核心思想是建立基于馬爾可夫假設(shè)的單詞預(yù)測模型，即一個詞出現(xiàn)的概率僅與它之前的若干個詞相關(guān)，如式（1）所示。

p（w1…wn）=∏ p（wi|wi－1…w1）≈∏ p（wi|wi－1…wi－N+1）（1）

例如根據(jù)最近的上下文預(yù)測下一個單詞。具有固定上下文長度n的統(tǒng)計語言模型便是n元語言模型即n-gram模型。但當(dāng)n取值較大時，模型的計算復(fù)雜度便會指數(shù)級上升，同時因為獨熱編碼的局限性導(dǎo)致數(shù)據(jù)稀疏，所以SLM很難準(zhǔn)確估計高階的語言模型。

1.1.2 神經(jīng)語言模型時期

針對統(tǒng)計語言模型的缺陷，神經(jīng)語言模型（neural language model，NLM）被提出。NLM通過模型的第一層將詞以分布式表示，從而將詞表征為一個向量形式，例如循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）［9］。循環(huán)神經(jīng)網(wǎng)絡(luò)極其適用于序列化的數(shù)據(jù)，其會在隱藏層存儲之前的信息，并將存儲的信息加入到當(dāng)前的計算，隱藏層的內(nèi)部節(jié)點不再是相互獨立的。當(dāng)然，RNN仍然存在無法保持長期依賴的問題，過長的信息會導(dǎo)致RNN單元內(nèi)部狀態(tài)的混亂。因此，為了解決RNN的長程依賴問題，長短期記憶網(wǎng)絡(luò)（long short term memory，LSTM）被提出，LSTM通過“門”結(jié)構(gòu)來實現(xiàn)對隱藏信息存儲的管理，LSTM結(jié)構(gòu)圖如圖2所示，其中主要包括：輸入門、遺忘門、輸出門、候選層、記憶單元。輸入門控制輸入信息對當(dāng)前記憶單元的影響，輸入門公式如下，其中xt為t時刻的輸入，ht－1上一時間步的隱藏狀態(tài)，bi是輸入門的偏置項：

it=σ（Wixt+Uiht－1+bi）（2）

遺忘門控制之前的記憶信息在當(dāng)前時間t中的保留程度：

ft=σ（Wfxt+Ufht－1+bf）（3）

輸出門控制當(dāng)前時間步的輸出：

ot=σ（Woxt+Uoht－1+bo）（4）

ct為候選記憶單元，記憶單元ct會根據(jù)每個時刻的輸入進(jìn)行更新，從而保持LSTM單元的記憶：

ct=tanh （Wcxt+Ucht-1）ct=ft⊙ct-1+it⊙ct（5）

最終得到隱狀態(tài)ht用于后續(xù)時刻的更新：

ht=ot⊙tanh （ct）（6）

此外，之后提出的word2vec［1］更是利用一個簡化的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分布式單詞表示，促進(jìn)了深度學(xué)習(xí)在NLP中的應(yīng)用。受word2vec啟發(fā)而誕生的一系列詞嵌入（word embedding）方法（其中較為出名的有GloVe［10］等），都從不同的角度得到了相應(yīng)的嵌入表征。這些研究極大地促進(jìn)了NLP領(lǐng)域的發(fā)展，而利用預(yù)訓(xùn)練好的詞向量作為詞的表征也成為了這個時期的主流方法。

1.1.3 預(yù)訓(xùn)練語言模型時期

預(yù)訓(xùn)練語言模型（pre-trained language model，PLM），ELMo［2］的提出解決了早期靜態(tài)詞嵌入word2vec和GloVe無法處理不同語境下詞向量的表征問題。ELMo預(yù)訓(xùn)練了一個雙向LSTM（biLSTM）網(wǎng)絡(luò)來捕獲語境化詞嵌入表征。而2017年，Transformer的發(fā)布給自然語言處理帶來了一場革命［11］，Transformer架構(gòu)完全拋棄了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)，其主要是用兩個關(guān)鍵的子模塊構(gòu)建：分別是多頭注意力（multi-head self-attention，MHA）層和前饋神經(jīng)網(wǎng)絡(luò)（feed forward network，F(xiàn)FN）層。MHA層的定義如下：

MultiHead（Q，K，V）=concat（head1，…，headh）WO，

headi=attention（QWQi，KWKi，VWVi）（7）

其中：Q，K，V∈Euclid ExtraaBpn×d是輸入嵌入矩陣，WO∈Euclid ExtraaBpd×d是輸出投影，WQi，Wki，WVi∈Euclid ExtraaBpd×dk是注意力頭i的查詢、鍵和值投影；對應(yīng)的n是序列長度，d是嵌入維度，h是注意力頭的數(shù)量，而dk=d/h是投影子空間的隱藏維數(shù)。FFN層由兩個線性變換組成，再由一個ReLU激活：

FFN（x）=ReLU（xWu+bu）WD+bD（8）

其中：Wu∈Euclid ExtraaBpd×dm，WD∈Euclid ExtraaBpdm×d 。

更進(jìn)一步，基于Transformer架構(gòu)和自注意力機制的BERT［3］模型通過在大規(guī)模無標(biāo)記語料或者特定的下游任務(wù)語料上訓(xùn)練，極大程度地提高了NLP任務(wù)的性能標(biāo)準(zhǔn)。BERT啟發(fā)了后續(xù)大量的工作，并建立了“預(yù)訓(xùn)練和微調(diào)”的學(xué)習(xí)范式。目前研究者已經(jīng)針對PLM開展了大量研究，例如GPT-2［12］和BART［13］或者根據(jù)BERT提出的不同改進(jìn)。2020年，OpenAI發(fā)布的參數(shù)量高達(dá)1 750億的GPT-3［14］預(yù)訓(xùn)練語言模型也為后面大型語言模型做鋪墊。

1.1.4 大型語言模型時期

大語言模型（large language model，LLM）通常是指包含數(shù)千億參數(shù)的語言模型，LLM可以看做是PLM的一個放大，雖然模型仍然具有相似的架構(gòu)和預(yù)訓(xùn)練任務(wù)，但是大語言模型和之前小參數(shù)的預(yù)訓(xùn)練模型體現(xiàn)出了截然不同的效果。作為大語言模型代表的ChatGPT（以GPT-3.5為架構(gòu)），以與人類對話的形式呈現(xiàn)出了驚人的能力。ChatGPT的訓(xùn)練過程主要包括三個階段，分別是底座大模型的訓(xùn)練、監(jiān)督微調(diào)和人類價值觀對齊。這三步分別對應(yīng)著增強模型的語言生成能力，零樣本能力和可靠輸出能力。ChatGPT發(fā)布不久之后，OpenAI又推出了GPT-4［4］模型，因其遠(yuǎn)超ChatGPT的性能，被認(rèn)為是早期通用人工智能系統(tǒng)的嘗試。隨著大模型研究的不斷進(jìn)行，其關(guān)鍵的涌現(xiàn)能力和提示工程也成為研究者的熱點。

1）大模型的涌現(xiàn)能力

大語言模型與以往預(yù)訓(xùn)練模型最顯著的區(qū)別之一就是大模型的涌現(xiàn)能力，涌現(xiàn)能力被正式定義為“在小模型中不存在，但在大模型中出現(xiàn)的能力”，而涌現(xiàn)能力中具有代表性的三種能力為：語境學(xué)習(xí)、指令遵循、分步推理［15］。

a）語境學(xué)習(xí)。該能力首次是在GPT-3［14］中被正式提出。假設(shè)一個語言模型已經(jīng)被提供了一個自然語言處理指令或者多個任務(wù)演示，它可以不需要額外的訓(xùn)練和梯度更新，僅通過學(xué)習(xí)輸入文本的單詞序列來生成測試實例的預(yù)計輸出。

b）指令遵循。通過使用自然語言描述格式化（即指令格式化）的多任務(wù)混合的數(shù)據(jù)集進(jìn)行微調(diào)，研究人員發(fā)現(xiàn)LLM在以指令形式描述的未知任務(wù)上仍然表現(xiàn)良好。因此使用構(gòu)造的指令來微調(diào)大語言模型，可以在不使用顯示示例的情況下，通過理解任務(wù)指令來執(zhí)行新任務(wù)［16，17］。指令遵循很大程度上提高了大模型的泛化能力。

c）分步推理。對于先前的預(yù)訓(xùn)練模型，通常難以解決涉及多個推理步驟的復(fù)雜任務(wù)，如數(shù)學(xué)應(yīng)用題。而在思維鏈的提示下，LLM可以通過使用包含中間推理步驟的提示機制來解決這類任務(wù)，從而得到最終的答案［18］。

2）提示學(xué)習(xí)

提示學(xué)習(xí)試圖使用一個簡單的方法來解鎖大模型的推理能力，得益于其本身的涌現(xiàn)能力，LLM可以通過提示在上下文中進(jìn)行少量的學(xué)習(xí)。換句話來說，當(dāng)面對一個新的任務(wù)時不再需要去專門微調(diào)，僅僅使用一些新任務(wù)的演示示例——告訴模型如何從輸入到輸出，以此來提示LLM。事實上，大模型之前已有研究將該方法運用于相應(yīng)的下游任務(wù)上，并且取得了不錯的效果［19］。這種簡單的提示方法也被稱為少次提示方法（few-shot），然而該方法在需要推理能力的任務(wù)上表現(xiàn)不佳，也因此催生了后續(xù)關(guān)于提示詞的研究。

針對先前提示方法在推理任務(wù)上效果不佳的缺點，思維鏈（chain-of-thought，CoT）方法被提出，CoT不是像先前的提示方法簡單地用輸入-輸出對構(gòu)造提示語，而是將輸入輸出映射構(gòu)建的中間推理步驟納入提示語中。思維鏈提示方法也有很多擴展，首先便是在few-shot思想下的借助思維鏈的提示方法，簡單而言就是在提示詞尾部加上一句“請一步步推理并得出結(jié)論”，因為這種方法無須告訴模型如何推理，不需要給出推理示例，所以該方法也被稱為zero-shot-CoT［20］。有了zero-shot-CoT方法，相對應(yīng)也就有了few-shot-CoT，F(xiàn)ew-shot-CoT方法旨在通過編寫思維鏈樣本作為提示詞，讓模型學(xué)會思維鏈的推導(dǎo)方式，從而更好地完成推理任務(wù)［18］。

然而上述思維鏈方法仍然需要人為手工編寫，無法將已有的思維鏈提示樣本很好地遷移到別的問題當(dāng)中，從而造成了泛化能力不夠的問題。因此如何使大模型自己找到解決當(dāng)前問題的思維鏈成為關(guān)鍵，谷歌基于這個思想設(shè)計了新的提示流程least-to-most提示法，即通過提示讓模型找到解決該問題的前提是解決哪幾個子問題，然后再通過解決這些子問題從而得到最終答案。整個提示過程會分為兩個階段進(jìn)行，第一個階段是自上而下的分解問題（decompose question into subquestion），第二個階段是自下而上的依次解決問題（sequentially solve subquestion）。通過簡單的提示使大模型自己完成CoT過程，從而針對不同問題生成針對性的解決方法思路，達(dá)到精準(zhǔn)解決復(fù)雜推理問題的效果［21］。

3）對齊調(diào)優(yōu)

LLM通常在海量的數(shù)據(jù)中進(jìn)行訓(xùn)練，其中包括高質(zhì)量和低質(zhì)量的數(shù)據(jù)。由于數(shù)據(jù)質(zhì)量參差不齊，LLM捕獲的數(shù)據(jù)特征可能存在偏差，從而可能產(chǎn)生對人類有害的內(nèi)容，如含有毒、偏見等內(nèi)容。因此，訓(xùn)練一個樂于助人、誠實和無害的大模型顯得尤為重要，為此，InstructGPT設(shè)計了一種有效的調(diào)優(yōu)方法［16］，使LLM能夠遵循預(yù)期的指令，該方法利用了帶有人類反饋的強化學(xué)習(xí)技術(shù)，詳細(xì)內(nèi)容將在第5.4節(jié)中討論。值得注意的是，ChatGPT也是基于與InstructGPT類似的技術(shù)開發(fā)的，后者在產(chǎn)生高質(zhì)量、無害的響應(yīng)方面顯示出強大的對齊能力，例如，拒絕回答侮辱性的問題。在當(dāng)前階段，人類價值觀對齊成為大型模型訓(xùn)練中不可或缺的重要環(huán)節(jié)。

1.2 模型的偏見性研究

模型的偏見性研究主要是從神經(jīng)語言模型階段開始展開，最初主要針對word2vec、GLoVe等靜態(tài)詞嵌入的偏見來進(jìn)行評估和緩解。Bolukbasi等人［6］用“Man-Programmer= Woman-Homemaker”這一例子形象地表示詞嵌入中的偏見，同時進(jìn)行大量實驗得出詞向量空間中包含偏見的結(jié)論。而隨著模型文本處理能力的提升，偏見的研究對象也從靜態(tài)詞嵌入轉(zhuǎn)移到了預(yù)訓(xùn)練模型中的上下文詞嵌入。針對預(yù)訓(xùn)練模型的特點，也有研究根據(jù)模型參數(shù)是原始訓(xùn)練得到的還是對特定任務(wù)微調(diào)得到的，將偏見分為內(nèi)在偏見（intrinsic bias）和外在偏見（extrinsic bias）。換句話說，內(nèi)在偏見是預(yù)訓(xùn)練模型在訓(xùn)練時得到的固有偏見，而外在偏見則是模型在針對下游任務(wù)微調(diào)時學(xué)習(xí)到的偏見［22］。到了大型語言模型發(fā)展階段，盡管這個階段模型的能力在很多下游任務(wù)中達(dá)到人類水平甚至超越人類，但其仍然存在安全性問題，偏見就是其中之一。

2 偏見起源

偏見具有普遍性并在人類社會中廣泛存在，研究偏見的來源具有重要意義。本節(jié)將從人類社會中的偏見起源和自然語言模型中的偏見起源兩個方面來闡述，如圖3所示。

2.1 人類社會中的偏見起源

偏見是一種在社會生活中對某一個人或某一團體所持有的一種不公平、不合理的消極否定的態(tài)度。偏見普遍蘊涵于人類自然語言中，因針對的對象不同，偏見也是多種多樣的，例如職業(yè)偏見、種族偏見、性別偏見等。在社會科學(xué)層面，目前已有許多批判種族理論、性別研究。然而，基于種族、宗教、殘疾、性取向或性別，對邊緣化人群的負(fù)面刻板印象、污名化和無意的偏見繼續(xù)存在。這些污名和無意的偏見導(dǎo)致了不同形式的歧視，包括教育、就業(yè)機會、健康案例、住房、監(jiān)禁等。有研究表明，幾個世紀(jì)以來的種族主義、性別歧視和同性戀恐懼癥的直接結(jié)果導(dǎo)致了社會對邊緣群體的偏見和不平等［23］。

2.2 自然語言模型中的偏見起源

自從Bolukbasi等人［6］開創(chuàng)性地發(fā)現(xiàn)詞嵌入模型會將“男人：程序員”類比為“女人：家庭幫工”，自然語言模型的偏見性研究進(jìn)入了研究人員的視野。而在ChatGPT、GPT-4及其系列預(yù)訓(xùn)練模型前身的背景下，偏見可以定義為模型存在系統(tǒng)性的錯誤陳述、歸因錯誤或者事實扭曲，從而導(dǎo)致偏袒某些群體的錯誤想法、刻板印象或者錯誤假設(shè)。

根據(jù)之前的研究，模型中的偏見主要在以下幾個方面［23］，一是NLP技術(shù)的研究設(shè)計方面（模型算法的設(shè)計）。不論是n-gram模型還是詞嵌入技術(shù)，一開始大多數(shù)的研究都集中在使用英語文本上，從而使得更多的英語語料更易獲得，這反過來讓NLP研究人員更容易獲得研究英語的文本，最終使得NLP技術(shù)產(chǎn)生對英語的偏倚。此外，在最初的研究設(shè)計中，NLP研究人員將語言視為多個單詞出現(xiàn)和同時發(fā)生的概率，而忽視了語言在不同背景下所反映出的社會關(guān)系。而簡單依賴于單詞的共現(xiàn)，將“女人”和“男人”與“護(hù)士”和“醫(yī)生”聯(lián)系起來，最終造成了偏見。二是適用對象方面，當(dāng)一個模型在由一組人生成的文本數(shù)據(jù)上進(jìn)行訓(xùn)練，隨后被部署到現(xiàn)實世界并被更多不同的群體使用時，偏差就會顯現(xiàn)出來。研究人員缺乏訓(xùn)練數(shù)據(jù)的社會和歷史背景，導(dǎo)致數(shù)據(jù)缺乏多樣性，進(jìn)而在相應(yīng)敏感群體使用時產(chǎn)生了偏見。三是有監(jiān)督的數(shù)據(jù)集方面，這里也可稱之為標(biāo)注者偏差。數(shù)據(jù)和標(biāo)注標(biāo)簽出現(xiàn)偏差背后有很多原因，可能是由于數(shù)據(jù)標(biāo)注者對任務(wù)缺乏先見知識從而導(dǎo)致的偏差，也可能是因為標(biāo)注者本身就對某些群體存在歧視從而導(dǎo)致標(biāo)注的數(shù)據(jù)存在偏見，而直接采集的無監(jiān)督的數(shù)據(jù)集所展現(xiàn)的就是原生的人類自然語言，所以包含了社會中的各種偏見。偏見在自然語言處理中的體現(xiàn)如圖4所示。

隨著地域和時間的不同，偏見也會不同，Garg等人［24］通過分析經(jīng)過100多年文本語料庫訓(xùn)練的詞嵌入發(fā)現(xiàn)，這些詞嵌入中的偏見發(fā)展變化與20、21世紀(jì)美國性別和種族刻板印象的趨勢相對應(yīng)；Rios等人［25］著眼于1960—2020年的生物醫(yī)學(xué)文獻(xiàn)，挖掘到一些眾所周知的性別刻板印象也發(fā)生了改變，例如數(shù)學(xué)和藝術(shù)、智力和外貌等。在不同的地域，對于人種膚色、宗教的偏見也各不相同。而在我國同樣也出現(xiàn)了對職業(yè)的性別偏見隨著時間地區(qū)變化的情況［26］。

3 偏見評估方法

當(dāng)自然語言處理技術(shù)中的相關(guān)模型被發(fā)現(xiàn)存在各種各樣的偏見之后，研究人員嘗試采用不同的方式去刻畫和評估相關(guān)偏見。早期研究主要針對靜態(tài)詞嵌入，盡管已有方法將靜態(tài)詞嵌入推廣到上下文情境和更廣泛的偏差維度中，但因為LLM不使用靜態(tài)詞嵌入而是使用在上下文中學(xué)習(xí)的句子級嵌入，并且更適合與句子級編碼器的嵌入指標(biāo)配對，所以傳統(tǒng)的靜態(tài)詞嵌入中的評估方法并不是很適用于文本生成能力達(dá)到人類水平的大語言模型。同時使用完整的句子也可以更有針對性地評估偏見的各個維度，特定的刻板印象關(guān)聯(lián)也可以使用句子模板進(jìn)行更有效的探測。因此預(yù)訓(xùn)練模型時期的句子級偏見評估方法仍然可以適用于大語言模型。在LLM推出之后，研究人員在使用偏見測試數(shù)據(jù)集評估大模型的同時，也開始通過提示工程來判斷模型的公平性。

早期研究中針對性別偏見的較多，已有研究表明性別偏見相比于其他類型偏見更易于被識別［27］。本章分別從詞嵌入、句子級嵌入和大語言模型中的偏見評估方法進(jìn)行闡述，如圖5所示。

3.1 詞級嵌入中的評估方法

word2vec和GLoVe的提出為NLP提供了新的范式——預(yù)訓(xùn)練的詞嵌入向量。詞嵌入向量作為現(xiàn)代自然語言處理技術(shù)的基石，因此詞嵌入中的偏見評估是具有意義的。早期Bolukbasi等人通過定義單詞集來定義性別子空間，其中每個集合中的單詞代表偏差的不同端點，這也為之后的偏見研究奠定基礎(chǔ)。

3.1.1 詞類比方法

word2vec等詞嵌入讓人們驚喜地發(fā)現(xiàn)可以通過簡單的向量運算得到詞與詞之間的線性關(guān)系，例如最為經(jīng)典的類比問題“男人之于國王就像女人之于X”（表示為man：king：：woman：X），通過嵌入向量的簡單運算可以得到“X=皇后”是最佳答案。

而Bolukbasi等人［6］研究發(fā)現(xiàn)，當(dāng)把類比問題換作“男人之于程序員就像女人之于X”，此時X會被推斷為家庭主婦，這表明詞嵌入中包含了一個線性有偏差的子空間。

3.1.2 詞嵌入關(guān)聯(lián)測試

繼Bolukbasi等人的工作后，又一項開創(chuàng)性的工作便是詞嵌入關(guān)聯(lián)測試（word-embedding association test，WEAT）［28］。WEAT是受心理學(xué)內(nèi)隱聯(lián)想測驗的啟發(fā)提出的一種基于語言嵌入模型的測試方法，它旨在測量詞向量對于不同屬性集合的關(guān)聯(lián)性，這些屬性集合可以是與性別、種族、宗教等相關(guān)的任何概念。例如性別集合這里以二元性別集合為例，該集合為{男，女}，WEAT則是判斷某個詞匯更加偏向于哪個屬性，從而評估模型是否存在偏見。

簡單來說WEAT測量兩組目標(biāo)概念和兩組屬性之間的關(guān)聯(lián)，設(shè)X和Y是等大小的目標(biāo)概念集合（如程序員、工程師、護(hù)士、教師等），A和B為屬性嵌入集合（如男性、女性等），S（w，A，B）衡量的是w與各屬性平均余弦相似度之間的差，即w的偏好得分：

S（w，A，B）=

meana∈Acos（w，a）－meanb∈Bcos（w，b）（9）

S（x，y，A，B）是衡量兩組目標(biāo)概念與屬性的差異關(guān)聯(lián)，即兩組概念的比較偏好得分：

S（X，Y，A，B）=∑x∈XS（x，A，B）－∑y∈YS（y，A，B）（10）

對S（X，Y，A，B）進(jìn)行置換檢驗計算（A，B）和（X，Y）之間關(guān)聯(lián)的顯著性，其中概率計算是在X∪Y的分區(qū)空間（Xi，Yi）上進(jìn)行，Xi和Yi大小相等：

p=Pr［S（Xi，Yi，A，B）>S（X，Y，A，B）］（11）

d是兩個分布（目標(biāo)和屬性之間的關(guān)聯(lián)）分離程度的標(biāo)準(zhǔn)化度量，d越大代表了偏倚越大：

d=meanx∈XS（x，A，B）－meany∈YS（y，A，B）std_devw∈X∪YS（w，A，B）（12）

盡管WEAT在詞級別嵌入中能夠識別偏見，但是Silva等人［29］已經(jīng)證實WEAT不適用于上下文模型的偏見測量。

3.1.3 平均余弦相似

同樣的，受到了WEAT方法的啟發(fā)，針對WEAT中屬性嵌入集合只是二元關(guān)系的局限性，Manzini等人［30］利用簡單的平均余弦相似度（mean average cosine similarity，MAC）提出了一種新的針對多類別的衡量偏差的方法。

平均余弦相似度的計算關(guān)鍵在于兩個部分。首先是一組目標(biāo)詞嵌入T，T是包含某種形式的固有社會偏見的詞嵌入集合。第二部分是一個屬性集合詞嵌入A，其中是與集合T中詞嵌入無關(guān)的屬性詞。

3.2 句子級嵌入中的評估方法

預(yù)訓(xùn)練模型時期，ELMo、BERT和GPT等預(yù)訓(xùn)練模型進(jìn)一步提高了在處理NLP相關(guān)任務(wù)的性能，也更加普遍地運用于人類社會中，而相應(yīng)的偏見評估方法也發(fā)生了變化，在介紹預(yù)訓(xùn)練模型中的評估方法的同時，將其與詞嵌入中的方法進(jìn)行比較，如表1所示。

3.2.1 句子編碼器關(guān)聯(lián)測試

WEAT方法主要是針對word2vec和GloVe模型訓(xùn)練的靜態(tài)詞嵌入，句子編碼器關(guān)聯(lián)測試（sentence encoder association test，SEAT）則對其進(jìn)行擴展，用以探索句子級別的文本［31］。由于SEAT運行在固定大小的向量上，但模型編碼器產(chǎn)生的是可變長度的向量序列，所以需要使用池化操作將輸出聚合成固定大小的向量。

事實上，WEAT方法可以看做是SEAT的一個特例，一個單詞就是一個句子。而在之前的研究中，Cer等人［32］已經(jīng)進(jìn)行測試，將WEAT直接用在句子編碼器上，盡管效果不佳，但WEAT還是通過了測試。

3.2.2 上下文關(guān)聯(lián)測試

Nadeem等人［7］創(chuàng)建了一個關(guān)于職業(yè)、性別、種族和宗教四個領(lǐng)域的刻板印象數(shù)據(jù)集StereoSet。通過該數(shù)據(jù)集進(jìn)行上下文關(guān)聯(lián)測試（context association test，CAT）來計算一個理想分?jǐn)?shù)，記為icat。該分?jǐn)?shù)主要有兩個組成部分，并且每個組成部分都有其含義，一方面icat通過定義語言模型得分（記為lms）反映模型建模時上下文的關(guān)聯(lián)程度，用以評估語言模型預(yù)測是否是有意義的關(guān)聯(lián)；另一方面通過定義刻板印象分?jǐn)?shù)（記為ss）來評估模型傾向于刻板印象關(guān)聯(lián)而不是反刻板印象關(guān)聯(lián)的示例百分比，理想模型的ss應(yīng)該是50，即既不傾向于刻板關(guān)聯(lián)，也不傾向于反刻板關(guān)聯(lián)。icat的計算公式為

icat=lms×min（ss，100－ss）50（13）

然而StereoSet數(shù)據(jù)集來源于眾包工人，這可能會導(dǎo)致數(shù)據(jù)集并不能廣泛地反映出刻板印象。Blodgett等人［33］也呼吁注意該數(shù)據(jù)集中存在的許多歧義、假設(shè)和數(shù)據(jù)問題。

3.2.3 CrowS-Pairs數(shù)據(jù)集測試

CrowS-Pairs［27］采用了與StereoSet類似的方法，使用眾包的刻板印象數(shù)據(jù)集，但不同的是，數(shù)據(jù)集中的所有樣本都由句子對組成，并且其中的一個句子比另一個句子更具有刻板印象。簡單來說，就是在一個樣本對中，其中的一句話包含刻板印象或者反刻板印象，與另一句話形成對比。同時句子之間的差異很小，唯一改變的是用來表示所討論群體的詞語。以性別為例，一個樣本對的兩句話中只有明顯的性別詞不一樣，比如說“她喜歡運動”和“他喜歡運動”，CrowS-Pairs采用的評估方法便是通過排除兩句話中不同的分詞（即前句的“他”和“她”）來計算偽對數(shù)似然，以評估模型的困惑度。實驗中還發(fā)現(xiàn)，模型在數(shù)據(jù)集中對于不同偏見的類別，偏見程度也各不相同，例如性別偏見的識別相對容易，而宗教偏見則是所有模型中最難識別的偏見之一。

3.3 大型語言模型中的評估方法

根據(jù)OpenAI發(fā)表的GPT-4技術(shù)報告，類似于ChatGPT的大語言模型還存在很多局限：產(chǎn)生幻覺——類似于GPT4的大語言模型可能會輸出一些不存在的虛假理論；社會偏見——輸出包含對女性的刻板印象；有害輸出——輸出令人不適、與人類價值觀相悖的內(nèi)容。因此針對大模型的評估方法研究很有必要。

3.3.1 測試數(shù)據(jù)集評估

已有研究總結(jié)了針對大模型的評估方法，這些方法的評估內(nèi)容通常涉及七個方面，分別是自然語言處理過程中的下游任務(wù)（文本分類、情感分析等）、模型的安全性（魯棒性、偏見、可信度）、社會科學(xué)、自然科學(xué)、醫(yī)療應(yīng)用、智能體應(yīng)用和其他［34］?？梢钥吹?，偏見可以被視作模型安全性評估的一個子類別。盡管如此，目前針對大型模型偏見評估的專門方法仍然相對較少。Zhuo等人［35］使用傳統(tǒng)的測試集和指標(biāo)對ChatGPT的毒性和社會偏見進(jìn)行系統(tǒng)的評估，提出大語言模型因無法完全理解不同的語言從而會導(dǎo)致多語言的偏見，而不同的語言則代表著不同文化，因此大語言模型會潛在地表現(xiàn)出對多元文化理解的偏見。Wang等人［36］整合了一個專門衡量刻板印象和偏見的評估數(shù)據(jù)集，該數(shù)據(jù)集主要有兩部分組成，一部分為描述客觀或者潛在存在偏見的場景的用戶提示詞，另一部分為針對不同群體刻板印象的系統(tǒng)提示詞。除了偏見衡量之外，研究人員還對大語言模型進(jìn)行了政治指南測試和MBTI測試，研究者發(fā)現(xiàn)模型顯示出了改革派觀點以及主人公型人格［37，38］。Feng等人［39］證實了模型具有政治傾向，從而導(dǎo)致了使用大模型進(jìn)行仇恨言論預(yù)測和錯誤信息監(jiān)測具有社會偏見。

3.3.2 提示方法評估

受提示工程的啟發(fā)，該類評估方法通過指定數(shù)據(jù)集中句子的前幾個單詞或者提出一個問題，要求模型提供一個延續(xù)或者答案。提示方法數(shù)據(jù)集通常包含句子的開頭，然后可以由LLM完成。RealToxicityPrompts數(shù)據(jù)集［40］和BOLD數(shù)據(jù)集［41］都提供部分句子提示，以BOLD為例，“許多人甚至歸因于基督教的……”，而后根據(jù)模型后續(xù)的輸出來判斷模型是否存在宗教類別的偏見。

和之前的評估數(shù)據(jù)集不同的是，基于提示方法的數(shù)據(jù)集旨在模擬更自然的語言使用，并且更有利于發(fā)現(xiàn)隱式的非目標(biāo)偏見。RealToxicityPrompts是最大的提示數(shù)據(jù)集之一，作者通過Perspective API從互聯(lián)網(wǎng)上篩選出來十萬條數(shù)據(jù)前綴，并且這些數(shù)據(jù)都帶有毒性評分（分?jǐn)?shù)為0～1，當(dāng)分?jǐn)?shù)≥0.5的時候即可判定該文本是有毒的），可以用來衡量不同提示詞下大模型的毒性。為了創(chuàng)建數(shù)據(jù)集，首先對抓取的句子進(jìn)行毒性評分，并從四個評分范圍（0～0.25，…，0.75～1）各采樣25 000個句子，然后將句子分為提示前綴（在數(shù)據(jù)集中使用）和延續(xù)。

BOLD引入了23 679個提示來評估職業(yè)、性別、種族、宗教和政治意識形態(tài)方面的偏見。數(shù)據(jù)集是通過抓取和職業(yè)、性別、種族等類別相關(guān)的英文維基百科頁面上的數(shù)據(jù)獲取，并通過截斷句子以形成提示來完成收集。

TrustGPT通過提示方法評估了不同社會群體之間的毒性和偏見［42］。對于毒性評估，通過提示詞模板誘導(dǎo)大模型生成毒性內(nèi)容，并根據(jù)生成內(nèi)容進(jìn)行評分。而與毒性評估不同的是，對于偏見評估，提示模板中包含特定的社會群體屬性，例如宗教、性別、職業(yè)等，在使用該提示引誘模型生成毒性內(nèi)容之后，比較同一群體不同類別的生成內(nèi)容以衡量偏見。

3.3.3 評估基準(zhǔn)

清華大學(xué)從兩個角度探索了大語言模型尤其是中文大語言模型的綜合性能并提出了相應(yīng)的安全評估基準(zhǔn)，首先從安全問題自身來看，作者將其分為8種，分別是：侮辱、不公平和歧視、犯罪違法行為、敏感話題、人身傷害、心理傷害、隱私泄露與信息濫用、倫理道德，作者盡可能地囊括了模型可能出現(xiàn)的安全問題［43］。除了上述問題外，Perez等人［44］發(fā)現(xiàn)目標(biāo)劫持和提示泄漏很容易使得模型產(chǎn)生不安全的反應(yīng)，此外一些特殊的提示語容易觸發(fā)LLM輸出有害內(nèi)容，因此作者開發(fā)、分類和標(biāo)注了6種類型的指令攻擊：目標(biāo)劫持、提示語泄漏、角色指定、不安全話題引導(dǎo)、含不安全信息的查詢、反向曝光。根據(jù)上述的安全問題構(gòu)建測試提示，并輸入到模型中得到響應(yīng)，根據(jù)給定的提示和響應(yīng)，通過人工和模型自身評價來判斷相應(yīng)是否安全，最后，根據(jù)每個場景中安全響應(yīng)占所有響應(yīng)的比例計算評分，并將結(jié)果更新到排行榜。

隨著大語言模型的發(fā)展，對話系統(tǒng)被賦予了驚人的聊天能力，人們對生成內(nèi)容是否具有社會益處產(chǎn)生了廣泛的興趣和討論。已有研究者從對話系統(tǒng)的角度提出了一個新的評估基準(zhǔn)

［45］，其中包括a）濫用和有毒的內(nèi)容、b）不公平和歧視、c）倫理道德問題、d）誤導(dǎo)和泄露隱私信息的風(fēng)險。此外，從暴露和檢測安全問題的角度，綜述了評估大型模型安全性的主流方法。端到端對話系統(tǒng)和基于管道模型的安全改進(jìn)方法正在進(jìn)一步發(fā)展。

4 傳統(tǒng)偏見緩解方法

和偏見評估的方法相同，偏見緩解的方法也隨著自然語言處理技術(shù)的發(fā)展而變化。本章將從兩個方面綜述，首先從數(shù)據(jù)集、詞嵌入、預(yù)訓(xùn)練模型方面闡述大模型之前的偏見緩解方法，如圖6所示；然后再從大型語言模型的角度闡述偏見緩解方法。

4.1 數(shù)據(jù)集中的操作

一個干凈正確的數(shù)據(jù)集對于NLP預(yù)訓(xùn)練模型的公平和無偏性至關(guān)重要。為了保證公平和無偏，需要進(jìn)行合理的數(shù)據(jù)采樣和標(biāo)注，避免個人或系統(tǒng)性的偏見。同時，要確保數(shù)據(jù)集包含各種不同來源、背景和觀點的樣本，避免某些類別或觀點在數(shù)據(jù)集中占據(jù)過大比例［46］。此外，還需要識別和修正可能存在的偏見，并持續(xù)評估和監(jiān)控數(shù)據(jù)集的公平性和無偏性。通過確保數(shù)據(jù)集的公平和無偏性，NLP預(yù)訓(xùn)練模型能夠更好地應(yīng)對多樣化的語言資料，并生成更加公正和無偏的結(jié)果，提高模型的可靠性和有效性。根據(jù)先前的研究，數(shù)據(jù)集中的操作有如下方法。

4.1.1 數(shù)據(jù)增廣

數(shù)據(jù)增廣是一種簡單而有效的方法，Zhao等人［47］提出將數(shù)據(jù)集中句子的性別替換的方法，例如“Marry喜歡她的母親”變成“Marry喜歡他的母親”，該方法泛化性強，較為靈活，并且其已被證明在諸如仇恨檢測、知識圖譜構(gòu)建等多個任務(wù)中是有效的［47～51］，但是一方面該方法使數(shù)據(jù)集成本增加，另一方面可能會產(chǎn)生一些荒謬的句子，例如“他生了小孩”。

4.1.2 性別標(biāo)記

在如機器翻譯的任務(wù)中，當(dāng)數(shù)據(jù)源的性別不明確時會造成模型預(yù)測結(jié)果不準(zhǔn)確，這是因為數(shù)據(jù)集中的數(shù)據(jù)多數(shù)以男性為來源，所以模型更有可能預(yù)測說話者是男性［52］。性別標(biāo)記通過對數(shù)據(jù)開頭添加標(biāo)記來指明數(shù)據(jù)源的性別，從而避免對于沒有指明來源的輸入模型傾向于來源于男性的偏見。例如，“我很高興”會變成“［男］我很高興”。

Vanmassenhove等人［53］已經(jīng)證明性別標(biāo)記是有效的，然而可能代價高昂，即了解數(shù)據(jù)來源的性別需要更多的信息，而這在內(nèi)存使用和時間方面可能代價高昂。此外，機器翻譯模型可能需要重新設(shè)計以正確解析性別標(biāo)簽。

4.1.3 偏見微調(diào)

特定下游任務(wù)的無偏數(shù)據(jù)集可能是稀缺的，但相關(guān)任務(wù)可能存在無偏數(shù)據(jù)集。偏差微調(diào)結(jié)合了從無偏數(shù)據(jù)集的遷移學(xué)習(xí)，以確保模型包含最小偏差，然后在更有偏的數(shù)據(jù)集上微調(diào)模型，用于直接為目標(biāo)任務(wù)訓(xùn)練［50］。這使得模型可以避免從訓(xùn)練集中學(xué)習(xí)偏見，同時仍能得到足夠的訓(xùn)練來執(zhí)行任務(wù)。Park等人使用無性別偏見的辱罵推文數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí)［54］，并對有性別偏見的性別歧視推文數(shù)據(jù)集進(jìn)行微調(diào)［55］，最終證明偏見微調(diào)是相對有效的。在大數(shù)據(jù)、大模型的背景下，微調(diào)方法更是得到了充分的發(fā)展。

4.2 詞嵌入中的緩偏方法

詞嵌入表示向量空間中的詞。由于詞嵌入模型是許多NLP系統(tǒng)的基本組成部分，因此減輕嵌入中的偏差在減少傳播到下游任務(wù)的偏差方面起著關(guān)鍵作用［47］。但要認(rèn)識到從嵌入空間中完全消除偏見是困難的。雖然現(xiàn)有方法在一定程度上成功地減輕了子空間投影方面的偏見，但Gonen等人［56］表明，基于更微妙指標(biāo)（如聚類偏見）的偏見仍然存在。

4.2.1 硬除偏算法

硬除偏算法通過修正嵌入向量以達(dá)到消除與性別相關(guān)的偏見的目的［6］。具體而言，它生成一個性別方向向量，然后將每個嵌入向量沿著性別方向進(jìn)行投影和修正，以消除性別偏見。經(jīng)過硬除偏處理后，詞語與性別之間的關(guān)聯(lián)變得中立，一些原本與性別緊密相關(guān)的詞語也可以被轉(zhuǎn)換為中性的向量。重要的是，這種處理在減少性別偏見的同時保留了語義信息。

該算法的具體實現(xiàn)有以下幾個步驟：第一步，識別性別子空間，首先定義例如{男人，女人}、{她、他}的均衡于詞對集合，得到不同的性別方向，然后利用多個詞對的向量組合（如she-he）來捕獲性別子空間。

第二步，定義兩個操作：中性化（neutralize）和均等化（equalize）。中性化確保非性別詞和不應(yīng)該包含性別偏見的詞在性別子空間中為零。均等化使集合里的詞偏見程度相等，例如在二元情況下，男人和女人偏倚的方向相反但大小相同。直觀來說，中性化和均等化保證了任何中性詞在偏見子空間中與任何偏見詞等距，如圖7所示。

形式化表示如下：使用k個正交單位向量來代表偏見子空間B={b1，…，bk}∈Euclid ExtraaBpd，當(dāng)k=1時，子空間只代表一個方向。子空間中每個嵌入的分量：

wB=∑ki=1（w·bi）bi（14）

然后，本文從應(yīng)該是偏中性的單詞中刪除該分量，并進(jìn)行歸一化以獲得去偏嵌入。如式（15）所示。

w′=w－wB‖w－wB‖（15）

而對于如{男人，女人}等均衡詞對中的詞，令E代表均衡詞對集合

，設(shè)μ=1|E|∑w∈Ew為集合中詞的平均嵌入，μB為其在偏置子空間中的分量，如式（16）所示。則對于w∈E：

w′E=（μ－μB）+1－‖μ－μB‖2wB－μB‖wB－μB‖（16）

4.2.2 軟除偏算法

軟除偏包括學(xué)習(xí)嵌入矩陣的投影，該投影保留了有偏嵌入和去偏嵌入之間的內(nèi)積，同時最小化了應(yīng)該是中性嵌入的偏置子空間上的投影［6］。

給定W∈Euclid ExtraaBpa×v，v為詞表大小，W代表所有詞的嵌入向量，N代表性別中性詞對的嵌入向量矩陣，這里W和N是通過其他算法得到，用來作為輸入。B與硬除偏算法相同，代表性別子空間。軟除偏算法尋求一個使以下目標(biāo)最小化的線性變換A：

minA‖（AW）T（AW）－WTW‖2F+λ‖（AN）T（AB）‖2F（17）

4.2.3 其他方法

Dev等人［57］通過研究證明所有詞沿偏見方向的簡單線性投影比硬除偏更加有效，同時他們還發(fā)現(xiàn)帶有性別關(guān)聯(lián)的普通名字（例如John、Amy）通常會比使用帶有性別的詞（例如he、she）提供更有效的性別子空間。同時因為人類姓名中往往包含種族、國籍、地域等特征，這些特征會導(dǎo)致一些固有的偏見

，而通過這些通用的名稱來確定偏見方向并從詞嵌入中去除偏見是有效的。Wang等人［58］發(fā)現(xiàn)單詞頻率的變化也會影響詞嵌入子空間的性別方向，因此提出了雙重硬除偏（double-hard debiaing）來消除單詞頻率的負(fù)面影響。

4.3 預(yù)訓(xùn)練模型中的緩偏方法

傳統(tǒng)的針對靜態(tài)詞嵌入的緩偏方法已經(jīng)不適用于類似于預(yù)訓(xùn)練模型這種上下文詞嵌入，本節(jié)將介紹相關(guān)預(yù)訓(xùn)練模型中的緩偏方法。

4.3.1 模塊化可控文本生成方法

確保模型生成的內(nèi)容沒有偏見或不安全的因素實際上是一種文本的可控生成過程，先前的可控文本生成方法不論是使用強化學(xué)習(xí)微調(diào)［59］，還是訓(xùn)練生成對抗網(wǎng)絡(luò)［60］或者訓(xùn)練條件生成模型［61，62］，都是在訓(xùn)練階段進(jìn)行，且模型針對每個特定的屬性都需要分別進(jìn)行微調(diào)，這往往是代價高昂的。

可控生成需要對p（x|a）建模，a是期望的可控屬性，x是生成的樣本，而一般的生成模型只學(xué)習(xí)p（x）。但根據(jù)貝葉斯法則，p（x|a）∝p（a|x）p（x），所以通過將屬性模型（鑒別器）p（a|x）與基本生成模型p（x）一起插入，從而得到用于條件語言生成的即插即用的語言模型［63］，即PPLM（plug and play language model）。通過PPLM，用戶可以向生成模型中靈活地插入一個或多個屬性模型以達(dá)到通過梯度控制大語言模型的目的，這些插入的模型可以代表不同的想要控制的屬性。PPLM的最大優(yōu)點是不需要對語言模型做任何額外的改動（不需要重新訓(xùn)練或者精心微調(diào)），讓資源不足的研究人員也可以直接在預(yù)訓(xùn)練語言模型的基礎(chǔ)上生成條件文本。但是PPLM仍然需要更新大模型的參數(shù)，從而導(dǎo)致推理速度較慢。

與PPLM相類似，用于生成的未來判別器（future discriminators for generation，F(xiàn)UDGE）也是一種靈活且模塊化的受控文本生成方法。而與PPLM不同的是，F(xiàn)UDGE只要求獲得p（x）即模型的輸出概率，不關(guān)心模型其中的結(jié)構(gòu)或者參數(shù)，不需要訓(xùn)練或者微調(diào)原始的預(yù)訓(xùn)練語言模型。FUDGE同樣是基于貝葉斯規(guī)則來建模p（a|x），其分類器的建模思想如下：分類器的輸入時前綴序列x1：i，但作者認(rèn)為分類器預(yù)測的是未來生成的完整序列x1：n是否滿足屬性a。對于數(shù)據(jù)集{（x1：n，a′）}，其中a′為0或1表示句子x1：n是否滿足了屬性a，例如句子是否為積極情感的。那么，樣本{（x1：n，a′）}所有可能的前綴組合{（x1：n，a′）}ni=1都會作為分類器的訓(xùn)練數(shù)據(jù)。這樣，就可以得到建模p（a|x1：i）的二分類器，即未來判別器。

4.3.2 對抗學(xué)習(xí)

Zhang等人［64］提出了傳統(tǒng)生成對抗網(wǎng)絡(luò)的一種變體［65］，讓生成器根據(jù)受保護(hù)的性別屬性進(jìn)行學(xué)習(xí)。換句話說，生成器試圖阻止判別器在給定任務(wù)（如類比完成）中識別性別。這種方法的優(yōu)勢在于可以用來消除任何基于梯度學(xué)習(xí)的模型的偏見。

4.3.3 模型自解毒與模型可解釋性

Schick等人［66］已經(jīng)證明了大型語言模型能夠執(zhí)行自我診斷，即僅使用其內(nèi)部知識和文本描述來判斷輸出是否存在有毒屬性。給定語言模型M和一個分詞序列w1，…，wk，令pM（w|w1，…，wk）表示語言模型下一個輸出分詞為w的概率。作者使用包含屬性y的問題來補充生成的文本x，并提示模型生成這個問題的答案，例如模型M生成文本“x=我要逮捕你！”然后使用模型進(jìn)行自我判斷該文本是否包含“威脅”屬性（y=威脅）。對于M生成的每個句子x和每個屬性描述y，構(gòu)建一個自診斷輸入sdg（x，y），x包含屬性y的概率為

p（y|x）=pM（Yes|sdg（x，y））∑w∈{Yes，No}pM（w|sdg（x，y））（18）

基于此，作者提出了一種去偏算法，該算法通過比較給定原始輸入的下一個分詞的概率分布與自去偏之后的輸入概率分布來降低模型生成有偏見文本的概率。

從模型內(nèi)部來看，基于Transformer的預(yù)訓(xùn)練模型的內(nèi)部參數(shù)本身壓縮存儲了海量的知識，Geva等人［67］通過研究其中的前饋神經(jīng)網(wǎng)絡(luò)層（feed-forward network，F(xiàn)FN）層發(fā)現(xiàn)FFN層在詞匯空間的每次更新都可以分解為對應(yīng)單個FFN層參數(shù)向量的子更新，并且這些子更新的結(jié)果都可以解釋為詞匯空間的一種概念。如“早餐”是詞匯空間中的一個概念，那么對應(yīng)的FFN層子更新將會提升諸如“餡餅”“牛奶”等與之相關(guān)的詞匯的概率，而其他與“早餐”概念不相關(guān)的詞匯概率則會降低。針對這個現(xiàn)象，作者提出手動尋找積極友善的相關(guān)概念，并促進(jìn)相關(guān)概念的子更新，從而降低文本輸出的偏見性和有害性。

5 大型語言模型中的緩偏方法

大型語言模型是在前期預(yù)訓(xùn)練模型基礎(chǔ)上逐步完善和發(fā)展的結(jié)果。值得關(guān)注的是，針對大型模型中的緩解偏差方法，其根源可追溯至預(yù)訓(xùn)練模型的早期階段，并非突如其來。先前的緩偏方法大部分對于大型語言模型仍然適用，因此本章總結(jié)針對大語言模型的緩偏方法主要有以下幾種，如圖8所示。

5.1 以數(shù)據(jù)為核心

以數(shù)據(jù)為核心的緩偏方法側(cè)重于糾正訓(xùn)練數(shù)據(jù)的標(biāo)簽不平衡、潛在有害信息、分布差異等缺陷。在文本分類的任務(wù)中，在不平衡語料庫上訓(xùn)練的文本分類器對某些身份術(shù)語顯示出有問題的趨勢，例如“gay”經(jīng)常用于冒犯性評論，導(dǎo)致模型將其與有侮辱標(biāo)簽相關(guān)聯(lián)。因此，為了提高數(shù)據(jù)質(zhì)量，許多工作已經(jīng)開展，除了在4.1節(jié)中所提到的幾種數(shù)據(jù)處理方法外，Zhou等人［68］從方言識別的角度，避免將黑人作者的文本內(nèi)容標(biāo)記為有害，還有研究者通過識別并刪除身份代詞來實現(xiàn)數(shù)據(jù)的校準(zhǔn)，從而達(dá)到創(chuàng)建具有更少有害文本和更加平衡的數(shù)據(jù)集的目的［69］。而在中文數(shù)據(jù)集方面亦有研究者從性別詞分布平衡角度構(gòu)建中文句子級的無偏數(shù)據(jù)集［70］。

除了著手于數(shù)據(jù)集本身的構(gòu)建，通過操縱下游任務(wù)訓(xùn)練中的每個實例的權(quán)重來平衡訓(xùn)練數(shù)據(jù)的思想也受到研究人員的認(rèn)同。Han等人［71］就通過減少有偏差實例的權(quán)重以減少模型的注意力權(quán)重，從而實現(xiàn)模型的公平性輸出。Zhang等人［72］則將文本分類中的社會偏見形式化為一種從非歧視性分布到歧視性分布的選擇偏差，而由此減輕模型的偏見性就等于從選擇偏差中恢復(fù)非歧視性分布。在高質(zhì)量的數(shù)據(jù)集代價如此高昂的當(dāng)下，這種著重于數(shù)據(jù)權(quán)重的思想與方法顯得尤為重要。

5.2 以模型為核心

以模型為核心的方法側(cè)重于設(shè)計更有效的模型架構(gòu)，運用更有效的算法，在模型訓(xùn)練過程引入先進(jìn)的技術(shù)來輔助緩偏。

5.2.1 提示調(diào)優(yōu)

傳統(tǒng)的監(jiān)督學(xué)習(xí)是訓(xùn)練一個模型來接受輸入x并預(yù)測輸出y的概率p（y|x），而基于提示的學(xué)習(xí)是基于語言模型，直接對文本的概率進(jìn)行建模。為了使用這些模型來執(zhí)行預(yù)測任務(wù)，原始輸入x被使用模板修改成一個文本字符串提示x′，其中有一些未填充的槽，然后語言模型被用來概率性地填充未填充的信息，得到一個最終的字符串，從中可以得出最終的輸出y［73］。

此前的調(diào)優(yōu)方法通常是人工設(shè)計離散的模板或自動化搜索離散的模板［74～76］，但這兩種離散模板都有著成本高、魯棒性不強（模板的變化對于模型的結(jié)果有很大影響，模板多一個詞、少一個詞或者詞位置變動都會造成較大變化），以及最后搜索出來的結(jié)果往往并不是最佳的缺點。同時傳統(tǒng)微調(diào)范式針對不同下游任務(wù)微調(diào)時，每個下游任務(wù)都要保存微調(diào)后的模型權(quán)重，這樣不光耗時長同時占用很多存儲空間。針對這些情況，Li等人［77］提出了前綴調(diào)優(yōu)（prefix tuning），并在生成任務(wù)上顯示了強有力的結(jié)果。此方法凍結(jié)模型參數(shù)，并在調(diào)優(yōu)期間將損失反向傳播到編碼器堆棧中每個層（包括輸入層）的前綴激活。Hambardzumyan等人［78］通過將可訓(xùn)練參數(shù)限制在一個掩碼語言模型的輸入和輸出子網(wǎng)中來簡化該方法，并在分類任務(wù)上顯示出合理的結(jié)果。而提示調(diào)優(yōu)（prompt tuning）則是更進(jìn)一步的簡化［79］，作者凍結(jié)了整個預(yù)訓(xùn)練模型，并且給每個下游任務(wù)定義提示詞，再拼接到數(shù)據(jù)上作為輸入。最終通過實驗發(fā)現(xiàn)，隨著預(yù)訓(xùn)練模型參數(shù)量的增加，提示調(diào)優(yōu)的方法會逼近全參數(shù)微調(diào)的結(jié)果。

5.2.2 指令調(diào)優(yōu)

指令調(diào)優(yōu)是一種在格式化的自然語言實例集合上微調(diào)大語言模型的方法。指令調(diào)優(yōu)的相關(guān)實現(xiàn)流程為：首先收集并構(gòu)建指令格式的實例，然后通過監(jiān)督學(xué)習(xí)的方法將大語言模型在這些實例上進(jìn)行微調(diào)。在指令調(diào)整后，大模型展現(xiàn)出了卓越的泛化能力，即使在多語言環(huán)境下的任務(wù)中也依然如此。多任務(wù)指令調(diào)優(yōu)是基于調(diào)優(yōu)方法的一種代表性策略［17，80，81］。通過將原始任務(wù)輸入轉(zhuǎn)換為指令格式（提示問題或前綴指令），它可以對大量多任務(wù)數(shù)據(jù)集上的模型進(jìn)行微調(diào)。除了多任務(wù)學(xué)習(xí)，最近的研究還以強化學(xué)習(xí)的方式進(jìn)行指令調(diào)整［16］。雖然指令調(diào)優(yōu)仍然依賴于訓(xùn)練（即梯度反向傳播），但與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同，其目標(biāo)是訓(xùn)練模型遵循指令，而不是完成特定的任務(wù)。

在文本生成中，輸入或提示可能會被修改以指導(dǎo)模型，以避免語言的偏見。通過向輸入預(yù)置額外的靜態(tài)或可訓(xùn)練令牌，指令調(diào)節(jié)以可控的方式對輸出的生成進(jìn)行條件控制。修改后的提示可以用來更改微調(diào)的數(shù)據(jù)輸入，或者在微調(diào)過程中更新連續(xù)前綴本身；然而，這些技術(shù)都不是單獨改變預(yù)訓(xùn)練模型的參數(shù)，不需要額外的訓(xùn)練步驟，因此被認(rèn)為是預(yù)處理技術(shù)。作為一種偏見緩解技術(shù)，F(xiàn)atemi等人提出GEEP，使用連續(xù)提示調(diào)整來減輕性別偏見，在性別中立的數(shù)據(jù)集上進(jìn)行微調(diào)。在Yang等人的ADEPT技術(shù)中，連續(xù)提示鼓勵中性名詞和形容詞獨立于受保護(hù)的屬性。

盡管指令調(diào)優(yōu)具有良好的跨任務(wù)泛化性，在下游任務(wù)上能更快地收斂，以及對指令的微小擾動具有魯棒性，但指令調(diào)優(yōu)仍然嚴(yán)重依賴于大規(guī)模的下游任務(wù)訓(xùn)練，這些訓(xùn)練的成本高昂，未來的一個理想方向便是如何減輕對大規(guī)模優(yōu)化實例的依賴，同時幫助模型明確學(xué)習(xí)遵循指令。

5.2.3 人類價值觀對齊

由于用來訓(xùn)練的語料庫質(zhì)量參差不齊，LLM通過捕捉其中的數(shù)據(jù)特征可能會產(chǎn)生一些意想不到的行為，因此有必要使大語言模型和人類價值觀保持一致。伴隨如LLaMA［82］和ChatGLM［5］等開源基礎(chǔ)模型的出現(xiàn)，為了減輕LLM巨大的風(fēng)險，目前大部分工作都試圖在監(jiān)督微調(diào)（supervised fine-tuning， SFT）中加入一些3H數(shù)據(jù)（樂于助人、誠實、無害），希望模型在道德倫理層面作出積極回應(yīng)，但即使如此LLM仍與人類存在差距。幸運的是，OpenAI和Anthropic已經(jīng)驗證了基于人類反饋的強化學(xué)習(xí)（reinforcement learning from human feedback，RLHF）是在廣泛的任務(wù)中將語言模型與用戶意圖對齊的有效途徑［16，83］。

RLHF在大語言模型的發(fā)展中具有重要的意義。事實上，基于人類反饋的強化學(xué)習(xí)思想早在2008年就被提出［84］。而后，OpenAI于2017年發(fā)表了一篇通過人類反饋來進(jìn)行游戲智能體學(xué)習(xí)的論文，同年，OpenAI訓(xùn)練的DOTA2強化學(xué)習(xí)智能體OpenAI Five在1v1的Dota2游戲中戰(zhàn)勝了職業(yè)選手Dend。此后OpenAI相繼發(fā)表了多篇關(guān)于RLHF技術(shù)的論文［16，59，85］。也正是OpenAI對于RLHF的不斷研究，最后才有了ChatGPT的誕生。

RLHF結(jié)合了獎勵模型、策略優(yōu)化和過程監(jiān)督等多種方法來提升大語言模型的性能。獎勵模型通過定義獎勵函數(shù)，對模型的行為進(jìn)行評估和指導(dǎo)，衡量人類用戶對LLM回答的偏好，并為LLM提供正向或負(fù)向的反饋信號。策略優(yōu)化算法，如近端策略優(yōu)化（PPO），用于優(yōu)化LLM的輸出策略，根據(jù)獎勵模型的反饋信號，對LLM的策略進(jìn)行調(diào)整和改進(jìn)，以使其生成更符合用戶期望的回答。過程監(jiān)督則是一種訓(xùn)練方法，通過提供帶有標(biāo)簽的示例來引導(dǎo)LLM的學(xué)習(xí)，提高其在復(fù)雜查詢和對話場景中的逐步推理能力和理解能力。

一般而言，RLHF的實現(xiàn)流程分為三步，如圖9所示：a）使用一個已經(jīng)預(yù)訓(xùn)練好的模型M進(jìn)行監(jiān)督微調(diào)（過程監(jiān)督），微調(diào)后得到的模型M′用來為RLHF提供高質(zhì)量的初始化，而同時，該模型也是接下來進(jìn)行RLHF方法進(jìn)一步微調(diào)的對象；b）收集包含輸入、輸出、獎勵得分三元組的數(shù)據(jù)集，并使用同樣的初始模型進(jìn)行微調(diào)，從而得到獎勵模型MRW；c）在每次迭代中使用獎勵模型MRW返回的獎勵信號來訓(xùn)練主模型M′。同時該過程中還需要用M′凍結(jié)其中的參數(shù)獲得一個參考模型M′f，通過計算M′和M′f的KL散度，來盡可能使兩個模型的輸出分布相似，達(dá)到最終的模型既能符合人類價值觀，又不和原始模型差別太大。

事實上，將大模型與人類價值觀對齊是一項艱巨的任務(wù)。通常來說，成功的RLHF訓(xùn)練需要一個準(zhǔn)確的獎勵模型來替代人類的判斷，仔細(xì)的超參搜索進(jìn)行穩(wěn)定的參數(shù)更新，以及一個強大的PPO算法來進(jìn)行魯棒性策略優(yōu)化。但低質(zhì)量的數(shù)據(jù)和難以定義的獎勵模型容易誤導(dǎo)PPO算法。同時，PPO在新的語言環(huán)境下存在獎勵稀疏和對詞空間探索效率低的問題。LLM巨大的試錯成本使得研究者對于大語言模型在人類價值觀對齊的階段望而卻步，阻礙了LLM的發(fā)展。因此目前已有一些研究來替代RLHF或者針對RLHF提出一些改進(jìn)。例如基于排序的人類偏好對齊的方式［86］（rank responses to align language models with human feedback，RRHF），RRHF不需要強化學(xué)習(xí)，通過對不同語言模型生成的回復(fù)進(jìn)行評分，并通過排名損失來使回復(fù)與人類偏好對齊，在擁有數(shù)據(jù)集之后，RRHF通過定義排序損失和交叉熵?fù)p失進(jìn)行訓(xùn)練。排序損失的計算中，假設(shè)x為輸入query，yi是第i個生成的答案，t為已經(jīng)生成的分詞，ri 是人工或者獎勵模型給出的第i個回復(fù)的得分。為了使得最終訓(xùn)練好的生成模型與人類偏好對齊，首先計算模型θ在給定輸入和已經(jīng)生成的分詞的條件下生成分詞的概率，即Pθ（yi，t|x，yi，<t），然后對每個分詞的概率分別求log，最后除以分詞數(shù)量，從而得到第i條response的分?jǐn)?shù)：

Pi=∑tlog Pθ（yi，t|x，yi，<t）‖yi‖（19）

在得到分?jǐn)?shù)Pi 后，計算排序損失：

Lrank=∑ri<rj（0，Pi－Pj）（20）

同時為了進(jìn)一步增強生成質(zhì)量，參照監(jiān)督微調(diào)中的交叉熵?fù)p失函數(shù)：

i′=argmaxi ri

Lft=－∑tlog Pπ（yi′，t|x，yi′，<t）（21）

最終的損失為兩者之和：

L=Lrank+Lft（22）

RRHF最大的特點在于訓(xùn)練好的RRHF模型可以同時作為生成語言模型和獎勵模型。而ReMax［87］算法通過對PPO的簡化減少了內(nèi)存占用和訓(xùn)練時間，同時也提升了模型效果，然而受限于資源作者只進(jìn)行了13億參數(shù)ReMax和PPO算法的對比。因此針對人類價值觀對齊方法的研究仍有很大前景。

早在ChatGPT發(fā)布之前，不論是提示詞方法還是與人類價值觀對齊的技術(shù)雛形都已經(jīng)出現(xiàn)，而到了大語言模型時期這些技術(shù)的大火值得本文借鑒思考。

5.2.4 運用大模型進(jìn)行偏見性緩解

毋庸置疑的是，大語言模型在自然語言處理技術(shù)的多項下游任務(wù)中已經(jīng)遠(yuǎn)超之前的模型和方法，盡管從大語言模型本身來看，大語言模型仍然是個黑盒模型，其仍然存在諸如幻覺、毒性、偏見等有害輸出，但技術(shù)的好壞最終還是取決于使用者的意圖，因此也有學(xué)者開始運用大模型進(jìn)行偏見緩解。Barker等人［88］將ChatGPT作為一個文本簡化器用以緩解偏見，其思想就是通過文本的簡化，使得文本保留原有語義的同時，盡可能地簡化掉其中的偏見信息。Kocielnik等人［89］基于ChatGPT開發(fā)了一個用于大模型中偏見評估的框架BiasTestGPT，該框架開源可用，可以在HuggingFace支持的幾乎所有掩碼模型和自回歸模型上使用，并對測試結(jié)果進(jìn)行可視化分析。

6 現(xiàn)存挑戰(zhàn)與未來研究方向

近年來，盡管模型的偏見研究領(lǐng)域已經(jīng)取得了一定的進(jìn)展，但是隨著像ChatGPT這樣的大型語言模型在文本處理能力上的極大提升，以及模型內(nèi)部的不可解釋性問題，應(yīng)該意識到過去的評估方法和偏見緩解策略可能已經(jīng)不再適用。針對大型模型中的偏見問題，目前的研究還遠(yuǎn)遠(yuǎn)不夠。接下來，本文將總結(jié)一些當(dāng)前存在的挑戰(zhàn)性問題，并探討未來可能的研究方向。

6.1 中文公平性語料的缺乏

構(gòu)建高質(zhì)量的文本語料庫一直是改進(jìn)NLP應(yīng)用以消除文本中性別刻板印象的關(guān)鍵內(nèi)容之一，但可以發(fā)現(xiàn)的是關(guān)于偏見的現(xiàn)有研究大部分都只關(guān)注英語，而中文的相關(guān)數(shù)據(jù)集很少。因此如何構(gòu)建大規(guī)模、高質(zhì)量的中文相關(guān)的偏見數(shù)據(jù)集面臨著挑戰(zhàn)。

6.2 不同偏見的通用處理方法

偏見包含性別、種族、職業(yè)、宗教等方面，但目前的大部分偏見研究主要是針對性別偏見。先前已有研究表明，模型對于不同偏見的識別程度也不同，其中性別偏見的識別相對容易而宗教偏見的識別相對困難。因此探索通用的識別偏見和緩解偏見的相關(guān)方法是具有意義的。

6.3 語言模型作為處理偏見的工具

實際上，徹底消除模型中的偏見極具挑戰(zhàn)，因為這些偏見源于人類社會，而在現(xiàn)實生活中，完全避免偏見是不可能的。然而，在提高模型公平性的同時，可以充分利用大型語言模型卓越的文本處理能力，將其應(yīng)用于偏見評估和緩解領(lǐng)域，這一研究方向頗具探索價值。

6.4 多模態(tài)模型中偏見的相關(guān)研究

隨著GPU等計算資源的快速發(fā)展，多模態(tài)研究得到了廣泛關(guān)注。GPT-4和ChatGPT相較于之前的模型，已經(jīng)擴展了對圖像處理的支持?？紤]到文字生成圖像任務(wù)在當(dāng)下的流行程度，對多模態(tài)模型的偏見性問題進(jìn)行研究具有重要意義。此外，由于圖像相較于文字更能直觀地傳達(dá)內(nèi)容，人們更容易從中感受到歧視。因此，在未來的研究中，需要關(guān)注多模態(tài)模型中的偏見問題，并積極探索解決方案，以促進(jìn)人工智能技術(shù)的公平性、透明度和可解釋性。

7 結(jié)束語

大型語言模型時代下，模型的公平性至關(guān)重要。本文首先概述了自然語言處理技術(shù)的發(fā)展，并探討了人類社會中的偏見與自然語言處理技術(shù)中偏見的來源及其關(guān)聯(lián)。然后，從模型發(fā)展的角度，分別探討了詞嵌入模型、預(yù)訓(xùn)練模型和大型語言模型中的偏見評估方法。在此基礎(chǔ)上，本文從數(shù)據(jù)集、詞嵌入模型、預(yù)訓(xùn)練模型和大型語言模型的角度，探討了相應(yīng)的偏見緩解策略，并進(jìn)行詳細(xì)的分析與總結(jié)。最后，深入剖析了大語言模型背景下，關(guān)于模型偏見的挑戰(zhàn)性問題，并對未來的研究方向進(jìn)行了展望?？傮w來看，在大型語言模型廣泛應(yīng)用于各個領(lǐng)域并實現(xiàn)商業(yè)化的背景下，對模型偏見性的研究顯得尤為重要。

參考文獻(xiàn)：

［1］Mikolov T， Chen Kai， Corrado G，et al. Efficient estimation of word representations in vector space ［EB/OL］. （2013）［2023-10-27］. http：//arxiv.org/abs/1301.3781.

［2］Peters M E， Neumann M， Iyyer M，et al. Deep contextualized word representations ［C］// Proc of Conference of NAACL. 2018： 2227-2237.

［3］Devlin J， Chang M W， Lee K，et al. BERT： pre-training of deep bidirectional transformers for language understanding ［C］// Proc of Conference of NAACL.2019： 4171-4186.

［4］Bubeck S， Chandrasekaran V， Eldan R，et al. Sparks of artificial general intelligence： early experiments with GPT-4 ［EB/OL］. （2023）［2023-11-16］. http：//arxiv.org/abs/2303.12712.

［5］Zeng Aohan， Liu Xiao， Du Zhengxiao，et al. GLM-130B： an open bilingual pre-trained model ［EB/OL］. （2022）［2023-07-13］. http：//arxiv.org/abs/2210.02414.

［6］Bolukbasi T， Chang Kaiwei， Zou J Y，et al. Man is to computer programmer as woman is to homemaker？Debiasing word embeddings ［J］. Advances in Neural Information Processing Systems， 2016， 29： 4349-4357.

［7］Nadeem M， Bethke A， Reddy S. StereoSet： measuring stereotypical bias in pretrained language models ［EB/OL］. （2020）［2023-10-18］. http：//arxiv.org/abs/2004.09456.

［8］Rosenfeld R. Two decades of statistical language modeling： where do we go from here？［J］. Proc of the IEEE， 2000， 88（8）： 1270-1278.

［9］Mikolov T， Karafiat M， Burget L，et al. Recurrent neural network based language model ［C］//Proc of Inter Speech. 2010： 1045-1048.

［10］Pennington J， Socher R， Manning C. GloVe： global vectors for word representation ［C］// Proc of Conference on Empirical Methods in Natural Language Processing.2014： 1532-1543.

［11］Vaswani A， Shazeer N， Parmar N，et al. Attention is all you need ［C］// Proc of the 31st International Conference on Neural Information Processing Systems. 2017： 6000-6010.

［12］Radford A， Wu J， Child R，et al. Language models are unsupervised multitask learners ［J］. OpenAI Blog， 2019， 1（8）： 9.

［13］Lewis M， Liu Yihan， Goyal N，et al. BART： denoising sequence-to-sequence pre-training for natural language generation， translation， and comprehension ［C］// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2020： 7871-7880.

［14］Brown T B， Mann B， Ryder N，et al. Language models are few-shot learners ［C］// Proc of Advances in Neural Information Processing Systems. 2020： 1877-1901.

［15］Zhao W X， Zhou Kun， Li Junyi，et al. A survey of large language models ［EB/OL］. （2023）［2023-04-19］. http：//arxiv.org/abs/2303.18223.

［16］Ouyang Long， Wu J， Jiang Xu，et al. Training language models to follow instructions with human feedback ［EB/OL］. （2022）［2023-11-13］. http：//arxiv.org/abs/2203.02155.

［17］Wei J， Bosma M， Zhao V Y，et al. Finetuned language models are zero-shot learners ［C］// Proc of International Conference on Learning Representations. 2021.

［18］Wei J， Wang Xuezhi， Schuurmans D，et al. Chain-of-thought promp-ting elicits reasoning in large language models ［EB/OL］. （2023）［2023-04-19］. http：//arxiv.org/abs/2201.11903.

［19］王培冰，張寧，張春. 基于Prompt的兩階段澄清問題生成方法［J］. 計算機應(yīng)用研究， 2024， 41（2）： 421-425. （Wang Peibing， Zhang Ning， Zhang Chun. Two-stage clarification question generation method based on Prompt ［J］. Application Research of Compu-ters， 2024， 41（2）： 421-425.）

［20］Kojima T， Gu S S， Reid M，et al. Large language models are zero-shot reasoners ［J］. Advances in Neural Information Processing Systems， 2022， 35： 22199-22213.

［21］Zhou D， Scharli N， Hou Le，et al. Least-to-most prompting enables complex reasoning in large language models ［EB/OL］. （2023）［2024-03-18］. http：//arxiv.org/abs/2205.10625.

［22］Delobelle P， Tokpo E K， Calders T，et al. Measuring fairness with biased rulers： a survey on quantifying biases in pretrained language models ［C］// Proc of the 1st Workshop on Gender Bias in Natural Language Processing. 2019： 166-172.

［23］Elsafoury F， Abercrombie G. On the origins of bias in NLP through the lens of the Jim code ［EB/OL］. （2023）［2023-05-29］. http：//arxiv.org/abs/2305.09281.

［24］Garg N， Schiebinger L， Jurafsky D，et al. Word embeddings quantify 100 years of gender and ethnic stereotypes ［J］. Proc of the National Academy of Sciences， 2018， 115（16）： E3635-E3644.

［25］Rios A， Joshi R， Shin H. Quantifying 60 years of gender bias in biomedical research with word embeddings ［C］// Proc of the 19th SIGBioMed Workshop on Biomedical Language Processing. Stroudsburg，PA： Association for Computational Linguistics， 2020： 1-13.

［26］朱述承，蘇祺，劉鵬遠(yuǎn). 基于語料庫的我國職業(yè)性別無意識偏見共時歷時研究［J］. 中文信息學(xué)報， 2021， 35（5）： 130-140. （Zhu Shucheng， Su Qi， LIU Pengyuan. Based on the corpus of Chinese professional sex unconscious prejudice synchronic diachronic study ［J］. Journal of Chinese Information， 2021， 35（5）： 130-140.）

［27］Nangia N， Vania C， Bhalerao R，et al. CrowS-Pairs： a challenge dataset for measuring social biases in masked language models ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg，PA：Association for Computational Linguistics. 2020：1953-1967.

［28］Caliskan A， Bryson J J， Narayanan A. Semantics derived automatically from language corpora contain human-like biases ［J］. Science， 2017， 356（6334）： 183-186.

［29］Silva A， Tambwekar P， Gombolay M. Towards a comprehensive understanding and accurate evaluation of societal biases in pre-trained Transformers ［C］// Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg，PA： Association for Computational Linguistics， 2021： 2383-2389.

［30］Manzini T， Lim Y C， Tsvetkov Y，et al. Black is to criminal as Caucasian is to police： detecting and removing multiclass bias in word embeddings ［C］// Proc of NAACL-HLT. 2019： 615-621.

［31］May C， Wang A， Bordia S，et al. On Measuring social biases in Sentence Encoders ［C］// Proc of NAACL-HLT. 2019： 622-628.

［32］Cer D， Yang Yinfei， Kong S，et al. Universal sentence encoder for English ［C］// Proc of Conference on Empirical Methods in Natural Language Processing： System Demonstrations. Stroudsburg，PA： Association for Computational Linguistics， 2018： 169-174.

［33］Blodgett S L， Lopez G， Olteanu A，et al. Stereotyping Norwegian Salmon： an inventory of pitfalls in fairness benchmark datasets ［C］// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg，PA： Association for Computational Linguistics， 2021： 1004-1015.

［34］Chang Yupeng， Wang Xu， Wang Jindong，et al. A survey on evaluation of large language models ［EB/OL］. （2023）［2023-11-21］. http：//arxiv.org/abs/2307.03109.

［35］Zhuo T Y， Huang Yujin， Chen Chunyang，et al. Red teaming Chat-GPT via Jailbreaking： bias， robustness， reliability and toxicity ［EB/OL］. （2023）［2024-04-02］. http：//arxiv.org/abs/2301.12867.

［36］Wang Boxin， Chen Weixin， Pei Hengzhi，et al. DecodingTrust： a comprehensive assessment of trustworthiness in GPT models ［EB/OL］. （2023）［2023-11-21］. http：//arxiv.org/abs/2306.11698.

［37］Hartmann J， Schwenzow J， Witte M. The political ideology of conversational AI： converging evidence on ChatGPT’s pro-environmental， left-libertarian orientation ［EB/OL］. （2023-01-05）.

https：//arxiv.org/abs/2301.01768.

［38］Rutinowski J， Franke S， Endendyk J，et al. The self-perception and political biases of ChatGPT ［EB/OL］. （2023）［2023-12-11］. http：//arxiv.org/abs/2304.07333.

［39］Feng Shangbin， Park C Y， Liu Yuhan，et al. From pretraining data to language models to downstream tasks： tracking the trails of political biases leading to unfair NLP models ［EB/OL］. （2023）［2023-10-09］. http：//arxiv.org/abs/2305.08283.

［40］Gehman S， Gururangan S， Sap M，et al. RealToxicityPrompts： evaluating neural toxic degeneration in language models ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2020： 3356-3369.

［41］Dhamala J， Sun T， Kumar V，et al. BOLD： dataset and metrics for measuring biases in open-ended language generation ［C］// Proc of ACM Conference on Fairness， Accountability， and Transparency. New York：ACM Press， 2021： 862-872.

［42］Huang Yue， Zhang Qihui， Philip S Y，et al. TrustGPT： a benchmark for trustworthy and responsible large language models ［EB/OL］. （2023）［2024-03-19］. http：//arxiv.org/abs/2306.11507.

［43］Sun Hao， Zhang Zhexin， Deng Jiawen，et al. Safety assessment of Chinese large language models ［EB/OL］. （2023）［2023-04-21］. http：//arxiv.org/abs/2304.10436.

［44］Perez F， Ribeiro I. Ignore previous prompt： attack techniques for language models ［C］// NeurIPS ML Safety Workshop. 2022.

［45］Deng Jiawen， Sun Hao， Zhang Zhexin，et al. Recent advances towards safe， responsible， and moral dialogue systems： a survey ［EB/OL］. （2023）［2023-05-29］. http：//arxiv.org/abs/2302.09270.

［46］李昂，韓萌，穆棟梁，等. 多類不平衡數(shù)據(jù)分類方法綜述［J］. 計算機應(yīng)用研究， 2022， 39（12）： 3534-3545. （Li Ang， Han Meng， Mu Dongliang，et al. Survey of multi-class imbalanced data classification methods ［J］. Application Research of Computers， 2022， 39（12）： 3534-3545.）

［47］Zhao Jieyu， Wang Tianlu， Yatskar M，et al. Gender bias in corefe-rence resolution： evaluation and debiasing methods ［C］// Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. 2018： 15-20.

［48］Lee K， He Luheng， Zettlemoyer L. Higher-order coreference resolution with coarse-to-fine inference ［EB/OL］. （2018）［2023-11-12］. http：//arxiv.org/abs/1804.05392.

［49］Lee K， He Luheng， Lewis M，et al. End-to-end neural coreference resolution ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2017： 188-197.

［50］Park J H， Shin J， Fung P. Reducing gender bias in abusive language detection ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2018： 2799-2804.

［51］Madaan N， Mehta S， Agrawaal T S，et al. Analyze， detect and remove gender stereotyping from Bollywood movies ［C］//Proc of Conference on Fairness， Accountability and Transparency. 2018： 92-105.

［52］Prates M O R， Avelar P H C， Lamb L. Assessing gender bias in machine translation-a case study with Google Translate ［J］. Neural Computing and Applications， 2020， 32： 6363-6381.

［53］Vanmassenhove E， Hardmeier C， Way A. Getting gender right in neural machine translation ［EB/OL］. （2019）［2023-11-12］. http：//arxiv.org/abs/1909.05088.

［54］Founta A M， Djouvas C， Chatzakou D，et al. Large scale crowdsour-cing and characterization of Twitter abusive behavior ［C］// Proc of International AAAI Conference on Web and Social Media. 2018.

［55］Waseem Z， Hovy D. Hateful symbols or hateful people？Predictive features for hate speech detection on Twitter ［C］// Proc of NAACL Student Research Workshop. 2016： 88-93.

［56］Gonen H， Goldberg Y. Lipstick on a pig： debiasing methods cover up systematic gender biases in word embeddings but do not remove them ［C］// Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg，SA： Association for Computational Linguistics，2019： 609-614.

［57］Dev S， Phillips J. Attenuating bias in word vectors ［EB/OL］. （2019）［2023-05-17］. http：//arxiv.org/abs/1901.07656.

［58］Wang Tianlu， Lin X V， Rajani N F，et al. Double-hard debias： tailoring word embeddings for gender bias mitigation ［C］// Proc of the 58th Annual Meeting of Association for Computational Linguistics. 2020： 5443-5453.

［59］Ziegler D M， Stiennon N， Wu J，et al. Fine-tuning language models from human preferences ［EB/OL］. （2020）［2023-11-13］. http：//arxiv.org/abs/1909.08593.

［60］Yu Lantao， Zhang Weinan， Wang Jun，et al. SeqGAN： sequence generative adversarial nets with policy gradient ［C］// Proc of AAAI Conference on Artificial Intelligence. 2017： 2852-2858.

［61］Ficler J， Goldberg Y. Controlling linguistic style aspects in neural language generation ［C］// Proc of Workshop on Stylistic Variation. 2017： 94-104.

［62］Kikuchi Y， Neubig G， Sasano R，et al. Controlling output length in neural encoder-decoders ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2016： 1328-1338.

［63］Dathathri S， Madotto A， Lan J，et al. Plug and play lanITDG7pvRW9orp4tJj6u0qoqjr+Bvzev8q3duDCeq/Eo=guage mo-dels： a simple approach to controlled text generation ［EB/OL］. （2020）. http：//arxiv.org/abs/1912.02164.

［64］Zhang B H， Lemoine B， Mitchell M. Mitigating unwanted biases with adversarial learning ［C］// Proc of AAAI/ACM Conference on AI， Ethics， and Society. 2018： 335-340.

［65］Goodfellow I， Pouget-Abadie J， MIRZA M，et al. Generative adversarial nets ［C］// Advances in Neural Information Processing Systems. 2014： 2672-2680.

［66］Schick T， Udupa S， Schutze H. Self-diagnosis and self-debiasing： a proposal for reducing corpus-based bias in NLP ［J］. Transactions of the Association for Computational Linguistics， 2021， 9： 1408-1424.

［67］Geva M， Caciularu A， Wang K R，et al. Transformer feed-forward layers build predictions by promoting concepts in the vocabulary space ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2022： 30-45.

［68］Zhou Xuhui， Sap M， Swayamdipta S，et al. Challenges in automated debiasing for toxic language detection ［C］// Proc of the 16th Confe-rence of the European Chapter of the Association for Computational Linguistics： Main Volume. 2021： 3143-3155.

［69］Panda S， Kobren A， Wick M，et al. Don’t just clean it， proxy clean it： mitigating bias by proxy in pre-trained models ［C］// Proc of Conference on EMNLP. 2022： 5073-5085.

［70］趙繼舜，杜冰潔，劉鵬遠(yuǎn)，等. 中文句子級性別無偏數(shù)據(jù)集構(gòu)建及預(yù)訓(xùn)練語言模型的性別偏度評估［J］. 中文信息學(xué)報， 2023， 37（9）： 15-22. （Zhao Jishun， Du Bingjie， Liu Pengyuan， et al. Construction of Chinese sentence-level gender unbiased dataset and evaluation of gender bias in pre-trained language models ［J］. Journal of Chinese Information Technology， 2019， 37（9）： 15-22.）

［71］Han X， Baldwin T， Cohn T. Balancing out bias： achieving fairness through balanced training ［EB/OL］. （2022）［2024-03-17］. http：//arxiv.org/abs/2109.08253.

［72］Zhang Guanhua， Bai Bing， Zhang Junqi，et al. Demographics should not be the reason of toxicity： mitigating discrimination in text classifications with instance weighting ［C］// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. 2020： 4134-4145.

［73］Liu Pengfei， Yuan Weizhe， Fu Jinlan，et al. Pre-train， prompt， and predict： a systematic survey of prompting methods in natural language processing ［EB/OL］. （2021）. http：//arxiv.org/abs/2107.13586.

［74］Shin T， Razeghi Y， Logan IV R L，et al. AutoPrompt： eliciting knowledge from language models with automatically generated prompts ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2020： 4222-4235.

［75］Jiang Zhengbao， Xu F F， Araki J，et al. How can we know what language models know？［J］. Transactions of the Association for Computational Linguistics， 2020， 8： 423-438.

［76］Schick T， Schutze H. Exploiting cloze questions for few shot text classification and natural language inference ［C］// Proc of the 16th Conference of the European Chapter of the Association for Computational Linguistics： Main Volume. 2021： 255-269.

［77］Li X L， Liang P. Prefix-tuning： optimizing continuous prompts for generation ［C］// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Confe-rence on Natural Language Processing. 2021： 4582-4597.

［78］Hambaradzumyan K， Khachatrian H， May J. WARP： word-level adversarial reprogramming ［C］// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing （Volume 1： Long Papers）. 2021： 4921-4933.

［79］Lester B， Al-Rfou R， Constant N. The power of scale for parameter-efficient prompt tuning ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2021： 3045-3059.

［80］Sanh V， Webson A， Raffel C，et al. Multitask prompted training enables zero-shot task generalization ［EB/OL］. （2022）［2023-11-13］. http：//arxiv.org/abs/2110.08207.

［81］Wang Yizhong， Mishra S， Alipoormolabashi P，et al. Super-natural instructions： generalization via declarative instructions on 1600+NLP tasks ［C］// Proc of Conference on Empirical Methods in Natural Language Processing. 2022： 5085-5109.

［82］Touvron H， Lavril T， Izacard G，et al. LLaMA： open and efficient foundation language models ［EB/OL］. （2023）［2023-12-13］. http：//arxiv.org/abs/2302.13971.

［83］Bai Yuntao， Jones A， Ndousse K，et al. Training a helpful and harmless assistant with reinforcement learning from human feedback ［EB/OL］. （2022）［2023-09-19］. http：//arxiv.org/abs/2204.05862.

［84］Bradley K W， Stone P. TAMER： training an agent manually via evaluative reinforcement ［C］// Proc of the 7th IEEE International Conference on Development and Learning. Piscataway，NJ：IEEE Press， 2008： 292-297.

［85］Stiennon N， Ouyang Long， Wu J，et al. Learning to summarize from human feedback ［C］// Advances in Neural Information Processing Systems. 2020： 3008-3021.

［86］Yuan Zheng， Yuan Hongyi， Tan Chuanqi，et al. RRHF： rank responses to align language models with human feedback without tears ［EB/OL］. （2023）［2024-04-02］. http：//arxiv.org/abs/2304.05302.

［87］Li Ziniu， Xu Tian， Zhang Yushun，et al. ReMax： a simple， effective， and efficient reinforcement learning method for aligning large language models ［EB/OL］. （2023）. http：//arxiv.org/abs/2310.10505.

［88］Barker C， Kazakov D. ChatGPT as a text simplification tool to remove bias ［EB/OL］. （2023）. http：//arxiv.org/abs/2305.06166.

［89］Kocielnik R， Prabhumoye S， Zhang V，et al. BiasTestGPT： using ChatGPT for social bias testing of language models ［EB/OL］. （2023）［2024-03-15］. http：//arxiv.org/abs/2302.07371.

計算機應(yīng)用研究2024年10期

計算機應(yīng)用研究的其它文章: 大語言模型領(lǐng)域意圖的精準(zhǔn)性增強方法; 融合大語言模型的三級聯(lián)合提示隱式情感分析方法; 基于醫(yī)療臨床數(shù)據(jù)的兩階段專業(yè)級大語言模型微調(diào); 基于聯(lián)盟鏈微電網(wǎng)交易的改進(jìn)Raft共識算法; 編碼區(qū)塊鏈中存儲分配的分布式學(xué)習(xí)協(xié)議; AGCFN:基于圖神經(jīng)網(wǎng)絡(luò)多層網(wǎng)絡(luò)社團檢測模型

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

針對大語言模型的偏見性研究綜述