鮮于波 黃偉鑫
按照經(jīng)典論辯理論,論辯是單個或多個主體之間通過單個命題或命題組合來證明自身觀點、表達自身立場、反駁他方觀點,以達到說服對方、消除爭議、謀求共識的理性行為。([24])
由于互聯(lián)網(wǎng)的高速發(fā)展,用戶在網(wǎng)上產(chǎn)生了海量的論辯性文本。隨著人工智能的發(fā)展,尤其是自然語言處理技術(shù)的迅速發(fā)展,越來越多的研究開始借助機器學(xué)習(xí)等方法對這些文本進行計算分析。在這些工作中,立場檢測旨在檢測論辯者針對特定話題所發(fā)表的觀點的立場傾向,研究如何從非結(jié)構(gòu)化自然語言文本中識別其立場。無論是從其應(yīng)用前景還是學(xué)術(shù)價值來看,立場檢測都是非常重要的內(nèi)容,因此立場檢測已經(jīng)成為一個新興的熱門研究領(lǐng)域。
從現(xiàn)有的研究來看,大部分的立場檢測都集中在法庭辯論([23])、或者在線論壇中的討論([26])和微博([32])上,相關(guān)研究也取得了一定的進展。但是在中文界,論辯挖掘的研究還沒有受到充分的重視,現(xiàn)有大部分立場檢測主要分析社交媒體。從研究的現(xiàn)狀來看,由于問題本身的挑戰(zhàn)性,立場識別的準確性和模型的通用性都還有較大的改進空間。
近幾年來,預(yù)訓(xùn)練大模型的興起([12])標志自然語言處理范式發(fā)生了很大的變化。然而人們逐漸發(fā)現(xiàn)對大模型進行微調(diào)的要求也越來越高,復(fù)雜多樣的下游任務(wù)也使得預(yù)訓(xùn)練和微調(diào)架構(gòu)的設(shè)計變得十分困難繁瑣。因此,研究者們迫切希望能有一種更加高效、輕量級別的少樣本學(xué)習(xí)方法,而提示學(xué)習(xí)就代表了這方面的最新研究范式。
在中文自然語言處理領(lǐng)域,有關(guān)提示學(xué)習(xí)的研究方興未艾,但是使用提示模型進行論辯研究的很少,特別是關(guān)于論辯文本立場檢測的相關(guān)工作也不多。此外,作為論辯挖掘研究基礎(chǔ)的論辯語料庫的構(gòu)建也是一件很耗費人工的工作。不過提示學(xué)習(xí)的少樣本學(xué)習(xí)的特點和優(yōu)勢非常有利于論辯領(lǐng)域的研究,可以在一定程度上解決數(shù)據(jù)稀缺、模型微調(diào)難和泛化能力差等問題。因此,將提示方法應(yīng)用到論辯文本立場檢測就有良好的理論和實踐意義。
本文通過開展論辯文本立場檢測的研究,在新構(gòu)建的論辯數(shù)據(jù)庫上采用新的提示學(xué)習(xí)方法進行模型構(gòu)建和小樣本實驗,表明提示學(xué)習(xí)的模型設(shè)計方法有助于文本論辯立場檢測任務(wù),并在小樣本的條件下也依然能取得十分可觀的性能。
主要創(chuàng)新在于針對論辯文本立場檢測任務(wù)下實現(xiàn)了提示學(xué)習(xí)的方法。本文設(shè)計了兩種新型的適用于立場檢測任務(wù)方法:掩碼位置導(dǎo)向手工模板和語義相似度加權(quán)表達器,還實現(xiàn)了提示學(xué)習(xí)領(lǐng)域自動模板生成方法([13])在立場檢測上的設(shè)計,并與手工模板進行了實驗對比。實驗結(jié)果顯示本文基于提示學(xué)習(xí)的中文立場檢測模型P-RoBERTaMPOT+SSWV達到了較好的效果:通過使用少量數(shù)據(jù)訓(xùn)練,該模型就能達到與主流大模型微調(diào)模型相近的效果,特別是在中文論辯數(shù)據(jù)集上實現(xiàn)了較大的性能改進。
本文的內(nèi)容安排如下:首先分析論辯文本立場檢測的發(fā)展與現(xiàn)狀,并對基于提示學(xué)習(xí)的立場檢測模型的設(shè)計思路和方法進行介紹,然后在一般提示學(xué)習(xí)模型的主要框架上,引入了P-RoBERTaMPOT+SSWV中的模板工程和表達器工程,隨后進行模型的實驗評估與分析,最后是分析和展望。
文獻中關(guān)于立場檢測任務(wù)主要有三種主流定義:通用立場檢測([14]),謠言立場檢測([30])以及假新聞立場檢測([8])等。通用立場檢測又可以分為多目標立場檢測([19])和跨目標立場檢測([3])。目前文獻中數(shù)量最多、最常見的關(guān)于立場檢測的定義是單目標立場檢測。從關(guān)注的問題來看,論辯文本的立場檢測屬于一種特殊的立場檢測類型,但是由于論辯文本的特點,論辯立場的檢測也自有特殊之處。
立場檢測的早期工作中,一個典型的方法來自Somasundaran 等([20]),他們把重點放在了在線辯論上。其他的一些研究則增加了對討論線程之間互動性的研究,例如Stede 等([22])強調(diào)了反駁(rebuttals)在討論當中的重要性。Hasan 等([9])對意識形態(tài)論辯進行了研究。對于在線辯論,Sridhar 等([21])的研究將語言學(xué)特征與基于網(wǎng)絡(luò)結(jié)構(gòu)的特征進行了結(jié)合。還有一些立場檢測研究分析了學(xué)生論文,如Faulkner 等([6,32])。
在現(xiàn)有文獻中,現(xiàn)有的立場檢測方法大致可以分為兩大類:基于特征的統(tǒng)計機器學(xué)習(xí)方法和深度學(xué)習(xí)方法。([33])
在現(xiàn)有的研究中,基于特征的傳統(tǒng)統(tǒng)計機器機器算法如支持向量機([9])、決策樹和隨機森林([1])、隱馬爾可夫模型HMM 和條件隨機場CRF([9]),K 近鄰算法([18]),對數(shù)線性模型([5]),最大熵([10])等方法都得到廣泛的應(yīng)用。
近年來,隨著人工智能的發(fā)展,深度學(xué)習(xí)(如RNN 及其變體和CNN 等)被大量應(yīng)用于立場檢測的研究中,如雙向LSTM([3])、卷積神經(jīng)網(wǎng)絡(luò)CNN([36])和加入注意力機制Attention 的神經(jīng)網(wǎng)絡(luò)方法([29,32])等。
深度學(xué)習(xí)雖然功能強大,但存在模型體積大、訓(xùn)練時間長等特點,并且不同的下游任務(wù)需要訓(xùn)練和保存不同的模型,這要消耗大量的資源空間。因此隨著預(yù)訓(xùn)練和大規(guī)模語言模型尤其是GPT([16])的發(fā)展,提示學(xué)習(xí)成為自然語言處理領(lǐng)域的一種新范式。大模型如bert([25])、GPT-3([16])等帶來了一種新處理下游任務(wù)的方法:通過使用自然語言提示信息和任務(wù)示例作為上下文,因此只需少量樣本甚至零樣本。該方法能更好地利用預(yù)訓(xùn)練模型中的知識,能獲得更好的性能和增強模型的泛化性能。
提示學(xué)習(xí)方法在許多自然語言處理任務(wù)上均可獲得不錯的效果。隨著這一新范式的提出,許多研究者開始針對不同任務(wù)手工設(shè)計提示模板([4,15,27])等。但是手工設(shè)計提示模板比較耗時耗力,因此最近也有一些針對自動化模板的方法研究。例如Hambardzumyan([7])等提出了一種自動提示生成方法,簡化了提示模板的設(shè)計。
在提示學(xué)習(xí)中,一項十分重要的工作是設(shè)計表達器或映射(verbalizer),如Schick 等([17])手工制作的表達器等。但手工設(shè)計受先驗知識影響較大,還需要足夠的數(shù)據(jù)集來進行優(yōu)化調(diào)整。有鑒于此,一些研究提出了提示學(xué)習(xí)的自動表達器的構(gòu)造方法,如Wei 等([28]),還有一些其他工作嘗試從外部知識庫中選擇相關(guān)詞等([11])。
總的來看,提示學(xué)習(xí)新范式具有很多的優(yōu)勢。使用提示模板,使得模型可以在少樣本學(xué)習(xí)條件下也能達到較高性能。提示學(xué)習(xí)通過將下游任務(wù)融入提示,設(shè)計模板的工作量和資源耗費要大大小于微調(diào)預(yù)訓(xùn)練模型。此外,提示學(xué)習(xí)中手工模板是由自然語言構(gòu)成的,這意味著人們可以比較方便地借助自己對下游任務(wù)相關(guān)的領(lǐng)域知識來設(shè)計模板,提高模型的可解釋性。
從上面的分析也可以看到,現(xiàn)有研究在論辯文本立場的研究中采用提示學(xué)習(xí)方法的研究很少,尤其是中文世界在論辯挖掘方面的研究還處于一個起步階段。因此,在中文文本包括網(wǎng)絡(luò)文本分析領(lǐng)域,采用提示學(xué)習(xí)和少樣本學(xué)習(xí)的方法對論辯文本立場進行分析是非常有必要的和有意義的工作。
本文立場檢測模型基于提示學(xué)習(xí),這里提示學(xué)習(xí)主要框架包括提示模板工程、預(yù)訓(xùn)練模型以及表達器工程三個大模塊。([12])
3.1.1 提示模板工程
在提示學(xué)習(xí)方法中,第一步是提示模板工程。本文先給出提示學(xué)習(xí)在文本分類任務(wù)中的一般定義。給定一個輸出x={x1,...,xn},其真實標簽y ∈Y(Y表示所有類別的標簽集),標簽詞集Vy定義為{v1,...,vn},其中Vy ∈V(V表示模型的整個詞匯表)被映射到標簽為y的類別中。在預(yù)訓(xùn)練語言模型M 中,Vy的每個詞vi被填充到掩碼([MASK])的概率可以表示為:P([MASK]=v ∈Vy|xp)
由此,立場檢測的任務(wù)可以轉(zhuǎn)換為標簽詞的概率計算問題,計算公式如公式(1):
3.1.2 預(yù)訓(xùn)練模型
關(guān)于預(yù)訓(xùn)練模型,翁沫豪([34])最近的研究對比了各類預(yù)訓(xùn)練模型在論辯立場檢測任務(wù)上的性能,他的實驗證明RoBERTa([35])在立場分類任務(wù)上表現(xiàn)最好。RoBERTa在其他場合也得到廣泛的應(yīng)用。因此本文將采用RoBERTabase進行實驗。
3.1.3 表達器工程
表達器是一類用來將標簽詞映射到類別詞的函數(shù)以緩解文本與標簽空間的差異。一種最常見的做法是用與標簽y相關(guān)的詞對Vy進行擴展,例如在話題識別任務(wù)中V={“體育”}可以通過知識圖譜、語義關(guān)聯(lián)等方法進行擴展,如:
在立場檢測任務(wù)下,必須注意的是,立場檢測任務(wù)的文本所涉及的領(lǐng)域并不是某一特定領(lǐng)域,標簽之間的領(lǐng)域存在交叉性,這在模型設(shè)計中應(yīng)予以考慮。
模板工程的方法可以分為手工設(shè)計模板和自動模板生成兩大類。手工設(shè)計的模板采用自然語言的形式,由詞匯表中離散的詞或token 組成。由于手工模板是較為耗時費力的任務(wù),因此開始學(xué)術(shù)界提出了自動化的模板生成方法。([13])
本文分別在手工與自動模板上進行了立場檢測模型的設(shè)計。在手工模板設(shè)計上使用掩碼位置導(dǎo)向的手工模板,在自動模板生成方法上使用P-tuning 方法實現(xiàn)立場檢測任務(wù)。
3.2.1 掩碼位置導(dǎo)向的手工模板
如采用手工方式設(shè)計一個立場檢測模板,首先一個問題是如何將立場檢測的任務(wù)特點與模型的架構(gòu)結(jié)合起來。本文采用的RoBERTa是一種掩碼語言模型,那么我們需要設(shè)計的模板就應(yīng)該是通過MASK 遮蔽某些詞,然后讓模型預(yù)測出它的值,然后將預(yù)測出的值映射到數(shù)據(jù)的真實標簽上。
一個做法是將立場檢測任務(wù)轉(zhuǎn)換成一個完形填空問題。但與一般的文本分類任務(wù)不同的是,立場檢測任務(wù)有兩個輸入,一個是話題,一個是該話題下的一段文本。上述兩個輸入關(guān)聯(lián)性很強,如何將這兩個輸入關(guān)聯(lián)起來,就是立場檢測任務(wù)進行手工模板設(shè)計的主要挑戰(zhàn)。
本文從MASK 出發(fā),以MASK 在模板中的位置關(guān)系作為導(dǎo)向,設(shè)計了掩碼位置導(dǎo)向的手工模板-MPOT(Mask Position oriented Template)。為了盡可能的對比各類模板以體現(xiàn)方法的可靠性和一般性,本文從模板中出現(xiàn)的輸入和掩碼的位置關(guān)系出發(fā),窮舉了所有可能并對每種可能的位置關(guān)系設(shè)計了一個手工模板。具體方法如下。用X 表示輸入的話題,T 表示輸入的文本,M 表示掩碼MASK。根據(jù)三者在模板中的位置關(guān)系,總共有XTM、TXM、XMT、TMX、MXT、MTX 六種情況,分別設(shè)計了如下六種手工模板。
P1=:X 話題中,觀點T 持M 態(tài)度
P2=:在X 話題中持M 態(tài)度
P3=:以下觀點在X 話題中持M 態(tài)度:T
P4=:觀點T,M 話題X
P5=:M 話題X:T
P6=:一個M 觀點:T,話題:X
根據(jù)掩碼M 所在的位置,模板可以分為三類:前置掩碼模板:P1,P2,中置掩碼模板:P3,P4,后置掩碼模板:P5,P6。同時,由于立場檢測任務(wù)的分類標簽是支持、反對以及中立,均為兩個字組成的詞。RoBERTa的中文分詞器是以字為單位進行分割的,因此我們的模板在實際實驗時需要添加兩個空位,如對模板P1來說,實際輸入時應(yīng)該為“在X 話題中,觀點T 持MM 態(tài)度”。
3.2.2 自動提示模板
本文對立場檢測模板如何自動化構(gòu)建進行了探究。自動模板設(shè)計的一項新方法來自Liu 等([13])提出的一種名為P-tuning 的方法,該方法的特點是可以自動搜索連續(xù)空間中的提示,使用梯度下降方法將模板的構(gòu)建轉(zhuǎn)化成了連續(xù)參數(shù)優(yōu)化問題。
據(jù)此,本文設(shè)計了立場檢測自動提示模板(Auto P-tuning for Stance Detection),其主要結(jié)構(gòu)如下:
令V表示預(yù)訓(xùn)練模型M的詞匯表,[Pi]表示模板P中的第i個token。X表示話題,T表示文本,Y表示標簽。P-tuning 將[Pi]視為偽token 并將模板Pauto映射為:
其中,hi ∈V(0≤i ≤m)是可學(xué)習(xí)的嵌入向量(Embedding vector),將其定義為新的輸入嵌入層作為模型編碼器Encoder 的一部分。在訓(xùn)練的過程中,保持預(yù)訓(xùn)練模型參數(shù)不變,僅更新構(gòu)造的嵌入層參數(shù),最后,根據(jù)本任務(wù)的目標函數(shù)L,對連續(xù)提示進行優(yōu)化。
本文采用分類問題常用的交叉熵作為目標函數(shù),可以通過最小化交叉熵來得到目標函數(shù)分布的近似分布,它的表達式為:
其中D為數(shù)據(jù)真實結(jié)果的概率分布,M為模型預(yù)測結(jié)果的概率分布。
與[13]提出的模式類似,圖1 是掩碼位置導(dǎo)向的手工模板MPOT 以及實現(xiàn)了自動模板生成方法Auto P-tuning 在立場檢測任務(wù)上的概念示意圖。
其中離散手工提示以手動模板作為例子。黃色框代表模板中固定的詞;藍色框中X代表輸入的話題,T代表輸入的文本;紅色框[MASK]代表掩碼的所在位置(模型需要預(yù)測的位置)。在圖1 左圖離散手工提示中,MPOT 模板生成器生成手工模板后,模板固定不再改變,通過預(yù)訓(xùn)練模型和表達器來實現(xiàn)預(yù)測。在圖1 右圖連續(xù)自動提示中,通過偽提示詞和提示編碼器通過反向傳播機制可以不斷更新與優(yōu)化。
圖1:離散手工提示和連續(xù)自動提示的示意圖
表達器的主要目的是構(gòu)建標簽詞到類標簽的映射。本文經(jīng)過標簽詞集的構(gòu)建與擴展、表達器的使用兩個步驟構(gòu)造了一個語義相似度加權(quán)表達器SSWV(Semantic Similarity Weighting Verbalizer)。
3.3.1 標簽詞集的構(gòu)建與擴展
對于本文的立場檢測問題,真實類標簽集為Y={支持,反對,中立}。那么最簡單、直觀、基礎(chǔ)的標簽集可以構(gòu)建為V支持={支持}、V反對={反對}以及V中立={中立}。
有了這個基礎(chǔ)標簽集后,如何對其進行擴展有不同的做法,而對于立場檢測任務(wù),一般的方法比較難以適用。任何領(lǐng)域、任何話題下的文本都可能存在立場,立場可以用支持、反對、中立來被劃分,從這三類標簽不難看出,很難找到一個領(lǐng)域的知識能與支持或反對或中立相匹配,且不產(chǎn)生知識交叉。一種方法是通過外部知識融入的方法來擴展標簽詞集([11]),另外很多研究者采用了不同的分類標簽命名來完成立場檢測任務(wù),例如Gorrell 等([11])使用了評論(comment),支持(support),疑惑(query),否認(deny)作為立場分類標簽。不難發(fā)現(xiàn),這其中很多標簽所表達的含義和指向的數(shù)據(jù)是相同的,比如贊成、同意、支持等,都是表達正面一方的立場。因此本文采用尋找與標簽語義相近的方法對標簽詞集進行擴展,以支持、反對、中立三個標簽作為語義中心詞,尋找詞向量空間中與之距離相近的詞作為擴展詞。
本文選擇詞表容量最大的中文近義詞工具包Synonyms 來進行語義相似度計算。我們利用Synonyms 對三個標簽分別進行近義詞語義相似度搜索,只選擇其中長度為2 的詞,并從每個標簽的候選詞中選擇了相似度最高的10 個詞作為擴展詞。擴展后的標簽詞集見表1:
表1:立場檢測擴展標簽詞集
3.3.2 表達器的使用——基于加權(quán)平均算法
根據(jù)上小節(jié),給定一個立場標簽,其對應(yīng)的標簽詞集已經(jīng)被擴展到包含10 個標簽詞的集合。下面對這些標簽詞在表達器中如何恰當使用進行設(shè)計。一些論文采用了平均法對標簽詞集的概率值進行計算,本文中,每個標簽詞的重要性明顯是不同的,因此采用加權(quán)平均算法,將各標簽詞集的相似度進行歸一化后作為加權(quán)權(quán)重,以區(qū)分個標簽詞的重要性。
具體計算公式如下:類標簽y ∈Y所對應(yīng)的標簽詞集Vy={v1,...,vn},它所對應(yīng)的語義相似度集為:SVy={SV1,...,SVn}。那么根據(jù)公式(4)可得權(quán)重向量WVy={wV1,...,wVn}
那么,模型的輸出標簽y~的計算公式如下:
即給定一個輸入xp,通過模板工程和預(yù)訓(xùn)練模型后獲得某類標簽y 所對應(yīng)的標簽詞集所有標簽詞的對數(shù)概率后,根據(jù)權(quán)重向量加權(quán)求和,得到該標簽的條件概率值,并由此輸出立場預(yù)測。
本文實驗的第一階段是模板篩選,對本文設(shè)計的6 個MPOT 手工模板和自動模板方法P-tuning 進行對比實驗,從而篩選出其中最佳的模板方式,得到本文的最佳模型。第二階段是少樣本學(xué)習(xí)實驗。目的是檢驗第一階段得到的RoBERTaMPOT+SSWV在少樣本場景下的性能。分別設(shè)置了0、32、64、128 四個數(shù)量級別的訓(xùn)練樣本數(shù),還對原始數(shù)據(jù)集的每個話題進行分層抽樣以提高樣本的代表性。
所有實驗在兩個中文數(shù)據(jù)集上進行,分別為NLPCC 2016 年共享任務(wù)中所發(fā)布的“中文微博立場檢測”數(shù)據(jù)集和中山大學(xué)網(wǎng)絡(luò)文本論辯語料庫,前者在中文立場檢測領(lǐng)域是最為常用的數(shù)據(jù)集。
“中文微博立場檢測數(shù)據(jù)集”共包括4000 條微博數(shù)據(jù),被分成五個話題類,每個數(shù)據(jù)都有一個立場標簽,為代表支持的“FAVOR”、代表反對的“AGAINST”以及代表中立的“NONE”中的一個。
中山大學(xué)網(wǎng)絡(luò)文本論辯語料庫是2022 年由中山大學(xué)邏輯與認知研究所建立的一個中文論辯挖掘語料庫,文本來源于國內(nèi)最大的問答社區(qū)知乎,包含的話題總計有26 個,涵蓋了經(jīng)濟、社會等多個領(lǐng)域的爭議性話題。該數(shù)據(jù)庫也有三個標簽,分別為代表支持,反對和中立的的“pro”,“con”和“non”。
表2:數(shù)據(jù)集大小統(tǒng)計表
4.2.1 模板篩選實驗
對于兩個數(shù)據(jù)集均使用70%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),15%的數(shù)據(jù)作為測試數(shù)據(jù)為驗證集數(shù)據(jù),15%的數(shù)據(jù)作為測試數(shù)據(jù)。根據(jù)表2,數(shù)據(jù)的長度平均在與100 以內(nèi),最大的也僅為332,數(shù)量也很少,因此本文實驗的maxlen 統(tǒng)一設(shè)置為256 以盡可能的保留更多的文本信息,并對不足長度的數(shù)據(jù)進行填充。
對于微博數(shù)據(jù)集,在每個模板上均訓(xùn)練了30 個輪次,對于中山大學(xué)網(wǎng)絡(luò)文本論辯數(shù)據(jù)集,由于數(shù)據(jù)集更大,對每個模板訓(xùn)練了50 個輪次。優(yōu)化后的實驗參數(shù)設(shè)置見表3。
4.2.2 少樣本學(xué)習(xí)實驗
該部分實驗設(shè)置了0、32、64、28 四個數(shù)量的樣本訓(xùn)練集。由于數(shù)據(jù)量不同,模型最終收斂的輪次也不同,這里每個實驗均取過度擬合前最大的指標值。
表3:模板篩選實驗參數(shù)表
實驗對比的主要模型有:
微博數(shù)據(jù)集的對比模型:奠雨潔等([31])中文微博立場檢測模型以及趙姝穎([35])。另外國外相關(guān)研究也進行了參考[2]。論辯語料庫的對比模型:翁沫豪([34])對所構(gòu)建的論辯語料庫進行了立場檢測任務(wù),在RoBERTabase上達到了70.6%的準確率。
本文對RoBERTabase+Fine tuning 在少樣本實驗上保持翁([34])參數(shù)設(shè)置,學(xué)習(xí)率為2e-5,訓(xùn)練批次3 輪。由于奠雨潔等([31])并沒有公開其模型的具體實驗代碼與參數(shù),無法對其進行少樣本學(xué)習(xí)實驗。本文主要與其完整訓(xùn)練的模型結(jié)果進行對比。
4.3.1 模板篩選實驗
表4:模板篩選實驗結(jié)果
在兩個數(shù)據(jù)集上的實驗結(jié)果都記錄在了表4 中,從實驗結(jié)果可以看出:
(1) 手工模板P6在兩個數(shù)據(jù)集上均取得了最高的F1-Score,分別為0.68 和0.8725,并且在論辯語料庫中取得了最高的準確率0.8918。雖然在微博數(shù)據(jù)集上P6的準確率低于P3,但只相差不到0.003。因此,根據(jù)實驗結(jié)果可得P6是當中最佳的立場檢測手工模板。
(2)前置掩碼的模板要比中置、后置掩碼的模板效果要好(前置掩碼模板:P1,P2,中置掩碼模板:P3,P4,后置掩碼模板:P5,P6)。其可能原因有以下兩點:一是前置的掩碼,其位置在長度不斷變化的數(shù)據(jù)加入后,掩碼的Mask 的位置比較固定。例如對比模板P5和模板P1,在文本數(shù)據(jù)輸入并生成模板后,P5中的MASK位置始終保持在首位(除模型固定的特殊符號[CLS]外);而對于P1模板,其位置則會隨著輸入的觀點和話題的長度大小而改變。相對固定的MASK 位置會給與模型一定的監(jiān)督信號,并在不斷的訓(xùn)練過程中疊加增強。另一個可能的原因是與模型學(xué)習(xí)的難度有關(guān),可能數(shù)據(jù)前置位的規(guī)律更容易被識別,相對與后置位更容易學(xué)習(xí)。
(3)對比手工模板和自動模板方法,可看出P-tuning 在兩個數(shù)據(jù)集上的表現(xiàn)不盡人意,而且P-tuning 方法在收斂速度較慢。
(4)對比數(shù)據(jù)集之間的性能差別,中山大學(xué)網(wǎng)絡(luò)文本論辯語料庫(以下簡稱論辯語料庫)比中文微博立場檢測數(shù)據(jù)集性能高。這說明了論辯語料庫中的文本立場能更準確被模型所檢測,這體現(xiàn)了論辨性越高的文本,立場就越容易識別。
經(jīng)過以上對第一階段實驗結(jié)果分析,本文通過掩碼位置導(dǎo)向的手工模板方法MPOT 選擇出的最佳模板為手工模板P6,結(jié)合所使用的RoBERTa預(yù)訓(xùn)練模型和語義相似度加權(quán)表達器,得到提示學(xué)習(xí)的立場檢測模型:P-RoBERTaMPOT+SSWV。
表5:少樣本學(xué)習(xí)實驗結(jié)果
少樣本學(xué)習(xí)實驗結(jié)果如表5,模型P-RoBERTaMPOT+SSWV僅用128 個數(shù)據(jù)訓(xùn)練的條件下在兩個數(shù)據(jù)集上分別達到了60.75%和68.35%的準確率。從實驗結(jié)果可見:
(1)P-RoBERTaMPOT+SSWV在零樣本學(xué)習(xí)下均取得了50%左右的準確率。如果直接使用RoBERTa的預(yù)訓(xùn)練任務(wù)進行零樣本預(yù)測,其準確率在兩個數(shù)據(jù)集上均不到30%。這反映了本文設(shè)計的MPOT 和SSWV 確實能夠提高RoBERTa的預(yù)測能力。
(2)隨著實驗從0-shot 到128-shot 的變化,所有方法的性能都有所提升。這表明增加有標簽的數(shù)據(jù)數(shù)量可以一定程度上增加少樣本學(xué)習(xí)的效果。
(3)針對微博數(shù)據(jù)集而言,P-RoBERTaMPOT+SSWV在與使用128 個數(shù)據(jù)的少樣本學(xué)習(xí)條件下達到了60.75%,與使用預(yù)訓(xùn)練模型RoBERTa在所有數(shù)據(jù)的條件下進行微調(diào)的結(jié)果64.83%只相差了4 個百分點,而兩者所使用的數(shù)據(jù)量相差大約23倍之多,訓(xùn)練時間相差15 倍。由此可見,基于提示學(xué)習(xí)的P-RoBERTaMPOT+SSWV模型在少樣本學(xué)習(xí)下,幾乎可以媲美預(yù)訓(xùn)練模型+微調(diào)的方法,這將節(jié)省大量的數(shù)據(jù)標注、模型訓(xùn)練的人力和時間。
(4)針對論辯語料庫而言,P-RoBERTaMPOT+SSWV在少樣本學(xué)習(xí)下所達到的效果幾乎與方法持平(在128-shot 下僅相差2 個百分點)。而如使用所有數(shù)據(jù),更是大幅超越了RoBERTa+FT 的方法,提升了18.58%。
總的來說,模型P-RoBERTaMPOT+SSWV在大多數(shù)情況下達到了較好的表現(xiàn),尤其是在少樣本學(xué)習(xí)的場景下以及在論辯語料庫上實現(xiàn)了較大幅度的性能提升,并且模型在具有一定差異性的數(shù)據(jù)集上均實現(xiàn)了穩(wěn)定的性能,這也表明了該模型具有較好的泛化性能。
為了更好地理解模型的內(nèi)部結(jié)構(gòu)以及模型對數(shù)據(jù)的處理,本文進行了三個補充實驗,以觀察所設(shè)計的SSWV 表達器對模型的影響。
補充實驗一:表達器vs.SSWV 表達器
表6:表達器對比實驗
本實驗保持其他模型架構(gòu)不變,僅改變其中的表達器。以未進行任何知識擴展的表達器,只是將標簽類名作為標簽詞的作為對比表達器,結(jié)果顯示,本文設(shè)計的SSWV 在不同數(shù)據(jù)集上均使模型有較大幅度的提升(分別約為8%、11%)。這體現(xiàn)出使用語義相似度對進行標簽擴展的方法的有效性。
補充實驗二:立場檢測各類別的模型指標
本文的立場檢測有三個類別,分別是支持、中立和反對。本實驗對模型在這三個類別數(shù)據(jù)上的性能進行了統(tǒng)計,使用精確率、召回率和F1-Score 作為評價指標。實驗結(jié)果見表7:
表7:類別指標對比實驗
通過實驗結(jié)果,可以看到本文模型在支持和反對類別的數(shù)據(jù)上均有較好的性能表現(xiàn),F(xiàn)1-Score 均超過0.9,而在中立類別的數(shù)據(jù)上表現(xiàn)較弱一些。這顯示了模型對立場鮮明的數(shù)據(jù)有更好的預(yù)測能力,而對立場不明確的文本表現(xiàn)稍弱。
補充實驗三:語料庫大小對自動模板生成方法P-tuning 的性能影響
由前面的結(jié)果可見,自動模板生成方法P-tuning 的性能表現(xiàn)欠佳,可能原因之一有數(shù)據(jù)樣本過少。本文在中山大學(xué)網(wǎng)絡(luò)文本論辯語料庫的基礎(chǔ)上,擴充該語料庫,觀察P-tuning 的性能。我們采用了增加現(xiàn)有的語料庫的方式。UKP Sentential Argument Mining Corpus 是一個英文文本論證語料庫,含8 個話題共25492 個句子的數(shù)據(jù),每個論證采用“話題+論證句+立場”的形式。本文通過使用谷歌翻譯獲得了相應(yīng)的中文文本。然后將其與原語料庫混合并隨機打亂進行實驗,結(jié)果顯示在表8:
表8:擴充語料庫對自動模板生成實驗
由此可見,擴充語料庫對自動模板生成確實有一定的準確率的提升(5%),但對比手工模板仍然有一定的差距,這說明了單純擴大語料庫規(guī)模的方法還是有一定的局限性。
本文結(jié)合自然語言處理領(lǐng)域最新的提示學(xué)習(xí)方法對立場檢測任務(wù)展開了研究,提出了一種新型的基于提示學(xué)習(xí)的立場檢測模型P-RoBERTaMPOT+SSWV,獲得了較好的效果,并在少樣本學(xué)習(xí)的場景下取得了與預(yù)訓(xùn)練+微調(diào)的方法相近的性能。實驗顯示,在零樣本學(xué)習(xí)場景下,提示學(xué)習(xí)的方法確實能改進現(xiàn)有的結(jié)果,這顯示了提示學(xué)習(xí)的有效性和發(fā)展前景。實驗也表明論辯結(jié)構(gòu)越明顯的文本,其立場檢測效果越高。這既體現(xiàn)出論辯文本的特點,也證明提示學(xué)習(xí)在論辯文本立場的分析上可以發(fā)揮更多的作用,值得我們進一步去探索。
本文也存在一些不足和有待改進之處,如在提示學(xué)習(xí)框架中,對不同體量和架構(gòu)的預(yù)訓(xùn)練模型的對比研究或采用更新的預(yù)訓(xùn)練大模型也是十分有必要的。此外,如何更好地設(shè)計具體手工模板的語言是一個重要問題,如何改進自動模板生成方法以及提出更好的提示方法也有待將來進一步的研究。