言佳潤(rùn),鮮于波
(中山大學(xué) 哲學(xué)系邏輯與認(rèn)知研究所,廣東 廣州 510275)
隨著互聯(lián)網(wǎng)技術(shù)的火速發(fā)展,以及互聯(lián)網(wǎng)使用的廣泛普及,越來(lái)越多的人選擇在社交網(wǎng)站、在線(xiàn)論壇等地方,發(fā)表自己的觀(guān)點(diǎn)并圍繞一個(gè)或多個(gè)話(huà)題進(jìn)行討論,試圖反駁或說(shuō)服對(duì)方,這些行為都產(chǎn)生了大量的論辯文本,而這些論辯文本通常是非結(jié)構(gòu)化或半結(jié)構(gòu)化的。如何高效準(zhǔn)確地自動(dòng)識(shí)別與提取網(wǎng)絡(luò)對(duì)話(huà)論辯文本中的論辯元素與結(jié)構(gòu)具有極大意義與研究?jī)r(jià)值。近年來(lái),在論辯文本上形成了新的研究方向 ——論辯挖掘,通過(guò)機(jī)器學(xué)習(xí)與自然語(yǔ)言處理方法對(duì)論辯文本進(jìn)行分析,自動(dòng)識(shí)別、提取其中的論辯元素與論辯結(jié)構(gòu)等,以此來(lái)對(duì)網(wǎng)絡(luò)對(duì)話(huà)文本進(jìn)行自動(dòng)分析,獲得更深層次的理解。
論辯挖掘?qū)儆谝粋€(gè)新興的領(lǐng)域,相比其他的文本分析,它處理的對(duì)象和需要完成的任務(wù)具有更高的復(fù)雜性與難度。論辯挖掘前期的研究主要通過(guò)人工構(gòu)建特征工程的方法,這些方法在論辯挖掘研究上具有一定的效用,但也存在明顯的不足。隨著深度學(xué)習(xí)相關(guān)技術(shù)的不斷發(fā)展,其方法也不斷應(yīng)用到論辯挖掘相關(guān)研究任務(wù)上來(lái)。近年來(lái),預(yù)訓(xùn)練模型在自然語(yǔ)言處理領(lǐng)域中飛速發(fā)展。但是最近自然語(yǔ)言處理中較新的“預(yù)訓(xùn)練模型+Prompt+預(yù)測(cè)”范式,即預(yù)訓(xùn)練提示學(xué)習(xí),在論辯挖掘領(lǐng)域中的使用還不多見(jiàn)。
另外,從現(xiàn)有的研究看,大部分論辯挖掘研究都是建立在英語(yǔ)語(yǔ)料庫(kù)上的。最近,論辯挖掘在中文信息處理上也受到一定的重視。不過(guò)總的來(lái)看,中文論辯文本語(yǔ)料庫(kù)的建立,以及對(duì)其論辯元素論辯關(guān)系的識(shí)別與抽取還處于一個(gè)發(fā)展階段。
鑒于中文和英文在論辯文本上存在很多不同之處,獨(dú)立的中文論辯分析是必須的。首先,中英文有非常不同的語(yǔ)言結(jié)構(gòu),在詞匯、語(yǔ)法、表達(dá)方式等方面存在明顯差異。其次,不同辯論數(shù)據(jù)蘊(yùn)含著不同的文化背景。中文辯論數(shù)據(jù)往往反映了中國(guó)傳統(tǒng)文化、思維方式和價(jià)值觀(guān)。在表達(dá)風(fēng)格上,中文和英文也有很大差異。在中文辯論文本中,表達(dá)方式往往更加含蓄,英文辯論數(shù)據(jù)則更注重邏輯性、條理性和證據(jù)。此外,中文和英文辯論數(shù)據(jù)在語(yǔ)言習(xí)慣方面也存在不同,如中文偏好使用成語(yǔ)、俗語(yǔ)、諺語(yǔ)等傳統(tǒng)表達(dá)方式。這使得在中英文文本處理上,尤其是論辯文本分析中存在一定的差異,中文文本通常被認(rèn)為有自己特殊的處理難度。因此展開(kāi)對(duì)中文論辯文本包括網(wǎng)絡(luò)對(duì)話(huà)論辯文本的挖掘具有一定的迫切性和現(xiàn)實(shí)意義。
本文使用預(yù)訓(xùn)練模型+微調(diào)以及預(yù)訓(xùn)練模型+Prompt+預(yù)測(cè)這兩種方法,在本文構(gòu)建的中文網(wǎng)絡(luò)對(duì)話(huà)論辯文本語(yǔ)料庫(kù)上,完成論辯挖掘的論辯元素分類(lèi)與論辯關(guān)系識(shí)別任務(wù),這也是該方法應(yīng)用于中文論辯挖掘研究的初步嘗試。
本文第1節(jié)先回顧了論辯挖掘相關(guān)理論與技術(shù),對(duì)論辯挖掘任務(wù)涉及的理論和方法進(jìn)行簡(jiǎn)要分析;第2節(jié)介紹構(gòu)建中文網(wǎng)絡(luò)對(duì)話(huà)論辯文本語(yǔ)料庫(kù)的方法;第3節(jié)構(gòu)造了基于預(yù)訓(xùn)練和基于提示的深度學(xué)習(xí)模型,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析;第4節(jié)是結(jié)語(yǔ)與展望。
論辯(Argumentation)作為一種社會(huì)的、理性的話(huà)語(yǔ)行為活動(dòng),是指用一系列的命題或論據(jù)來(lái)證明或反對(duì)一個(gè)觀(guān)點(diǎn)主張,使得己方所認(rèn)同的觀(guān)點(diǎn)的合理性能夠被接受,來(lái)達(dá)到說(shuō)服或駁倒對(duì)方的目的[1]。論辯文本通??梢苑譃楠?dú)白型和對(duì)話(huà)型。對(duì)話(huà)型論辯文本是由不同人討論互動(dòng)產(chǎn)生的,不同人所持的觀(guān)點(diǎn)不一致,每個(gè)人會(huì)提出支持自己主張的前提,也可能會(huì)反駁他人的主張。因此對(duì)話(huà)型論辯更加關(guān)注論辯文本的宏觀(guān)結(jié)構(gòu),主要分析不同主張之間的支持或是反對(duì)關(guān)系。
通常,論辯挖掘主要分為論辯元素識(shí)別任務(wù)以及論辯關(guān)系識(shí)別任務(wù),其中論辯元素識(shí)別任務(wù)可以分為論辯元素邊界檢測(cè)與句子分類(lèi)這兩個(gè)子任務(wù)。典型的論辯挖掘流程主要是在論辯元素識(shí)別與分類(lèi)的基礎(chǔ)上,再對(duì)論辯元素之間的論辯關(guān)系進(jìn)行抽取與分類(lèi),但是將其作為聯(lián)合任務(wù)處理的研究也是可以看到的一種方法。
目前在論辯元素的識(shí)別和論辯元素之間關(guān)系的識(shí)別上已經(jīng)進(jìn)行了大量的工作[2]。Moens等人[3]在2007年就開(kāi)展了相關(guān)工作。Palau與Moens[4]首次定義了論辯挖掘的基本任務(wù);Mochales與Moens基于新聞文本和議會(huì)討論文本等進(jìn)行了論辯挖掘研究[5]。Goudas 等人[6]基于博客和其他網(wǎng)站等社交媒體上的論辯文本進(jìn)行研究,Petasis等人[7]將基于圖的文本排序提取摘要算法 TextRank[8],并將其應(yīng)用于論辯元素識(shí)別任務(wù);Addawood 等人[9]利用社交媒體文本對(duì)論據(jù)的類(lèi)型進(jìn)行了研究,通過(guò)推特上的文本數(shù)據(jù)標(biāo)注了3 000條文本的論據(jù)分類(lèi)語(yǔ)料庫(kù);Dusmanu等人[10]通過(guò)線(xiàn)性回歸分類(lèi)器對(duì)推特文本進(jìn)行分類(lèi);Peldszus[11]標(biāo)注了論辯元素與論辯關(guān)系的短篇論證語(yǔ)料數(shù)據(jù)集[12];Stab和 Gurveych[13-14]基于議論文論辯文本構(gòu)建了論辯語(yǔ)料庫(kù),將論辯元素分為論點(diǎn)與論據(jù)、論辯關(guān)系分為支持與攻擊,Stab 等人[15]又進(jìn)一步擴(kuò)充了學(xué)生議論文論辯語(yǔ)料庫(kù),并對(duì)論辯的結(jié)構(gòu)進(jìn)行了分析。Nguyen[16-17]等人通過(guò)主題模型(LDA)構(gòu)建上下文相關(guān)特征表示。Persing 等人[18]設(shè)計(jì)了一個(gè)端到端的論辯挖掘框架。這些研究采用的基本上都是基于統(tǒng)計(jì)的特征工程機(jī)器學(xué)習(xí)方法,核心在于如何定義和提取文本的特征。但如何定義特征以及改進(jìn)模型的泛化性能一直是機(jī)器學(xué)習(xí)論辯文本分析的挑戰(zhàn)。
隨著深度學(xué)習(xí)的發(fā)展,該方法在近年來(lái)也被廣泛應(yīng)用到論辯挖掘任務(wù)中[19]。Eger等人[20]提出了一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)論辯挖掘模型,聯(lián)合了論辯挖掘的兩個(gè)子任務(wù),使用了BiLSTM 在說(shuō)服性文章上進(jìn)行了實(shí)驗(yàn);Koreeda等人[21]在詞嵌入技術(shù)的基礎(chǔ)上,提出了一種基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型,識(shí)別論辯元素之間的攻擊與支持關(guān)系。Potash等人[22]將序列到序列的基于注意力機(jī)制的指針網(wǎng)絡(luò)[23]應(yīng)用于論辯挖掘,獲得論辯元素之間的序列信息。廖祥文等人[24]使用深度卷積網(wǎng)絡(luò)(CNN)以及高速神經(jīng)網(wǎng)絡(luò)以獲得論辯文本在字符級(jí)別、詞級(jí)別的參數(shù)表示,再將其輸入BiLSTM,同時(shí)訓(xùn)練論辯挖掘的多個(gè)子任務(wù),進(jìn)行聯(lián)合預(yù)測(cè)與迭代學(xué)習(xí)。
典型的論辯挖掘流程的先后關(guān)系最近也受到挑戰(zhàn)。Stab 等人[14]發(fā)現(xiàn),論辯元素之間的關(guān)系也可以反過(guò)來(lái)給論辯元素的分類(lèi)提供一些有價(jià)值的信息。Carstens 等人[25]認(rèn)為句子的論辯性并不一直是依賴(lài)于它的上下文,更可能依賴(lài)于句子之間的關(guān)系,這樣聯(lián)合任務(wù)學(xué)習(xí)就有自己的優(yōu)勢(shì)。
近幾年,預(yù)訓(xùn)練模型在自然語(yǔ)言處理領(lǐng)域被廣泛應(yīng)用,在許多任務(wù)中取得了不錯(cuò)的結(jié)果。Chakrabarty等人[26]基于在線(xiàn)論辯論壇 ChangeMyView的CMV 數(shù)據(jù)集[27]將BERT[28]模型應(yīng)用在論辯元素分類(lèi)和論辯關(guān)系識(shí)別任務(wù)上;Schaefer等人[29]利用預(yù)訓(xùn)練模型BERT[28]等方法進(jìn)行了Tweet文本的論辯挖掘。不過(guò)現(xiàn)有研究中的文本通常篇幅較短,這往往降低了論辯文本分析的困難程度。
目前,自然語(yǔ)言處理中Prompt方法正在興起,已經(jīng)成為自然語(yǔ)言處理的新范式。它體現(xiàn)為在預(yù)訓(xùn)練語(yǔ)言模型支持下的 Prompt 挖掘工程[30],即對(duì)輸入的文本相關(guān)信息按照特定的模板進(jìn)行處理,以直接將下游任務(wù)重構(gòu)成一個(gè)更能對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行充分利用的形式。這是通過(guò)對(duì)下游任務(wù)進(jìn)行適當(dāng)?shù)?Prompt,使得下游任務(wù)靠近預(yù)訓(xùn)練語(yǔ)言模型,讓預(yù)訓(xùn)練語(yǔ)言模型或大模型本身就可以對(duì)所需的輸出進(jìn)行直接預(yù)測(cè)。
對(duì)于具體 Prompt 的設(shè)計(jì),主要需要考慮預(yù)訓(xùn)練模型的選擇、Prompt 工程、Answer工程等。Prompt 工程是指創(chuàng)建一個(gè)可以在下游任務(wù)上獲得最有效性能的提示函數(shù)f_Prompt(x)的過(guò)程,可以理解為下游任務(wù)設(shè)計(jì)一個(gè)合適的模板,需要根據(jù)具體任務(wù)考慮使用什么預(yù)訓(xùn)練語(yǔ)言模型和Prompt 的形式,再由此決定使用人工提示工程還是自動(dòng)提示工程。
目前基于Prompt的研究方式有很多[30]。Prompt 工程最原始自然的方式就是通過(guò)人工經(jīng)驗(yàn)來(lái)手工創(chuàng)建直觀(guān)的模板,可以在一定程度上解決很多問(wèn)題,但是也有許多不足。Shin 等人[31]的研究表明,人工創(chuàng)建模板需要大量的時(shí)間與經(jīng)驗(yàn),特別是對(duì)語(yǔ)義解析等復(fù)雜的任務(wù)更是如此。Jiang 等人[32]研究發(fā)現(xiàn)人工設(shè)計(jì)最佳的Prompt比較困難,即使是經(jīng)驗(yàn)豐富的設(shè)計(jì)者也不一定能很好完成,而自動(dòng)提示工程則希望通過(guò)一些手段而使得模型可以自己找到高質(zhì)量的Prompt模板。其中自動(dòng)提示工程分兩類(lèi),一類(lèi)是離散的Prompt,這里的Prompt是實(shí)際的文本字符串,也就是真實(shí)的文本;另一類(lèi)是連續(xù)的,這種 Prompt 是一種Embedding,即一個(gè)連續(xù)空間中的向量,可以直接在底層語(yǔ)言模型的嵌入空間中進(jìn)行描述和優(yōu)化。
基于上述考慮,Liu等人提出了 P-tuning方法[33]。P-tuning方法首次提出通過(guò)連續(xù)空間搜索的embedding 設(shè)計(jì) Prompt,需要使用少量的可訓(xùn)練參數(shù)來(lái)將自動(dòng)連續(xù) Prompt輸入預(yù)訓(xùn)練語(yǔ)言模型。此外,對(duì)于如何將GPT與 Prompt 相結(jié)合并應(yīng)用于自然語(yǔ)言理解任務(wù)中也進(jìn)行了探討。
相比微調(diào),Prompt 所需要的參數(shù)少很多,也不需要像微調(diào)一樣對(duì)每個(gè)任務(wù)都保存整個(gè)預(yù)訓(xùn)練模型的副本,只需要存儲(chǔ)特定于下游任務(wù)的一個(gè)小單元即可。同時(shí),Prompt在零樣本或小樣本中往往也更適配??梢灶A(yù)見(jiàn),將Prompt 應(yīng)用在論辯挖掘任務(wù)中,是值得探討的工作。
此外,論辯語(yǔ)料庫(kù)也是論辯挖掘研究要構(gòu)建的重要因素,論辯挖掘的研究基于語(yǔ)料庫(kù)。表1列出了目前部分研究中所使用的代表性語(yǔ)料庫(kù)類(lèi)型、論辯結(jié)構(gòu)以及具體的標(biāo)注方案[2]。
表1 部分代表性論辯語(yǔ)料庫(kù)
標(biāo)注可以有不同粒度層面的,如篇章級(jí)別、句子級(jí)別、子句級(jí)別、字符級(jí)別。相比句子粒度,子句粒度可以更精確地描述論辯結(jié)構(gòu)。現(xiàn)在所存在的語(yǔ)料庫(kù)大多為基于獨(dú)白型長(zhǎng)文本的,其微觀(guān)結(jié)構(gòu)的論辯成分主要由前提與結(jié)論組成,語(yǔ)種多為英語(yǔ),可用的中文語(yǔ)料庫(kù)相對(duì)很少,規(guī)模不大。
在中文學(xué)術(shù)界,論辯挖掘近來(lái)逐步受到重視和研究,對(duì)深度學(xué)習(xí)在論辯挖掘上也有了比較深入的了解[19]。論辯挖掘的主要任務(wù)如論辯成分分類(lèi)[38]、文本中論辯片段的抽取和論辯元素之間的關(guān)系檢測(cè)等[39]課題都得到了一定的研究。國(guó)內(nèi)業(yè)界相關(guān)評(píng)測(cè)也在開(kāi)展中,如中國(guó)情感計(jì)算大會(huì)2022 第二屆智慧論辯評(píng)測(cè)(1)http://www.playcongcong.plus/?cat=3以及中國(guó)法律智能技術(shù)評(píng)測(cè)2022中的論辯理解(2)http://cail.cipsc.org.cn/等。
綜上可以看到,目前采用大模型以及提示學(xué)習(xí)方法對(duì)論辯文本進(jìn)行研究的工作還不多,分析的文本也比較短。對(duì)于中文論辯文本的系統(tǒng)分析還處于一個(gè)快速發(fā)展階段,需要展開(kāi)更多的工作。作為研究基礎(chǔ)的中文語(yǔ)料庫(kù)還少見(jiàn)到,因此構(gòu)建中文論辯語(yǔ)料庫(kù)也是目前所急需的工作。
本文實(shí)驗(yàn)的文本數(shù)據(jù)是中文網(wǎng)絡(luò)對(duì)話(huà)文本,這一般是比較零散的對(duì)話(huà)形式。本文選取了微博的熱議話(huà)題榜中的討論作為數(shù)據(jù)集,爬取并人工篩選了200篇文本數(shù)據(jù)作為本次研究的數(shù)據(jù),其中多為針對(duì)社會(huì)熱點(diǎn)話(huà)題進(jìn)行對(duì)話(huà)型的討論,如“親情關(guān)系”“戀愛(ài)問(wèn)題”“讀書(shū)問(wèn)題”“納稅問(wèn)題”等,其中每個(gè)文本都是針對(duì)一個(gè)話(huà)題進(jìn)行討論。為了使論辯過(guò)程更加清晰,本文選取類(lèi)似針對(duì)一個(gè)問(wèn)題提出“是否”的話(huà)題討論來(lái)進(jìn)行實(shí)驗(yàn),例如,“是否應(yīng)該提高個(gè)稅起征點(diǎn)”。這種對(duì)話(huà)討論一般會(huì)具有更加清晰的論辯。每個(gè)討論選取按照熱度排序前10左右的評(píng)論放入語(yǔ)料庫(kù),其中對(duì)一些無(wú)意義的評(píng)論進(jìn)行清洗,每個(gè)評(píng)論為一個(gè)自然段。
本文所標(biāo)注的200篇文本數(shù)據(jù)一共包含有97 843個(gè)字符(不包括標(biāo)點(diǎn)符號(hào)),樣本平均字符數(shù)等相關(guān)統(tǒng)計(jì)信息如表2所示。
表2 文本數(shù)據(jù)信息
每篇文本都是關(guān)于一個(gè)話(huà)題的,每個(gè)文本是針對(duì)同一個(gè)話(huà)題的多人回帖的連貫文本。在每個(gè)討論中,幾乎每個(gè)人都有或多或少對(duì)話(huà)題持有贊成或者反對(duì)的觀(guān)點(diǎn),故而在廣泛的“前提-結(jié)論”結(jié)構(gòu)中加入“話(huà)題”元素,并添加與之相關(guān)的論辯關(guān)系,即在論辯關(guān)系中引入“贊成”與“反對(duì)”關(guān)系。
論辯語(yǔ)料庫(kù)中每個(gè)文本中的論辯元素分為3類(lèi),即前提(Premise)、主張(Claim)以及話(huà)題(Topic)。文本論辯結(jié)構(gòu)如圖1所示。
圖1 標(biāo)注文本論辯結(jié)構(gòu)
圖2 P-tuning自動(dòng)構(gòu)建Prompt
文本中的句子論辯關(guān)系分為如下類(lèi)別: 支持(Support)、攻擊(Attack)、贊成(For)、反對(duì)(Against)。其中主張和話(huà)題之間的關(guān)系是贊成或反對(duì)關(guān)系,主張和前提之間或前提之間是支持或攻擊關(guān)系。
本次標(biāo)注的工具是為命名實(shí)體識(shí)別和關(guān)系抽取任務(wù)設(shè)計(jì)的 Brat軟件[40]。標(biāo)注標(biāo)準(zhǔn)的確認(rèn)由中山大學(xué)論辯研究實(shí)驗(yàn)室小組討論完成。具體的文本獲取與標(biāo)注由本文作者二人完成。由于多人論辯文本標(biāo)注的一致性一直是論辯語(yǔ)料庫(kù)的一個(gè)難點(diǎn),所以本文的標(biāo)注流程是: 兩人分別對(duì)一半文本按照既定原則進(jìn)行標(biāo)注,然后交換標(biāo)注校對(duì),如果對(duì)標(biāo)注有疑問(wèn)或標(biāo)注存在矛盾之處,則進(jìn)行討論以達(dá)到一致。
標(biāo)注時(shí)遵循以下原則: 在標(biāo)注文本選擇對(duì)象時(shí),要求按照子句的粒度進(jìn)行選擇,而不是以完整的句子作為基本單位。標(biāo)注兩個(gè)論辯元素之間的關(guān)系的時(shí)候,一般要遵循“直接關(guān)系原則”以及“就近原則”。直接關(guān)系原則指的是標(biāo)注的是文本中論辯元素之間可以直接得到的明顯關(guān)系,而不是需要聯(lián)想、引申或者推理才能得出的關(guān)系。標(biāo)注后的語(yǔ)料庫(kù)相關(guān)統(tǒng)計(jì)信息如表3所示。其中平均一個(gè)文本中含有一個(gè)話(huà)題,10個(gè)主張,4個(gè)前提。主張占比最大,前提較少,非論辯成分則相對(duì)很少。
表3 語(yǔ)料庫(kù)論辯元素與關(guān)系分布
標(biāo)注好后會(huì)得到與原論辯文本相對(duì)應(yīng)的后綴名為ann的文件。每個(gè)實(shí)體標(biāo)注或關(guān)系標(biāo)注占一行。例如,第一行的1表示序號(hào),“T1”是第一個(gè)實(shí)體(T代表實(shí)體,R表示關(guān)系),“Topic”是實(shí)體類(lèi)型,后面兩個(gè)數(shù)字為標(biāo)注在文本中的起始位置和終止位置,最后為所標(biāo)注的內(nèi)容。一個(gè)標(biāo)注好的文本片段如下所示:
1 T1 Topic 0 11 被愛(ài)的前提是要漂亮嗎?
2 T2 Claim 15 31一定要先愛(ài)自己啊,才會(huì)被別人愛(ài)。
10 T10 Premise 256 377 還是要現(xiàn)實(shí)點(diǎn)…
12 R1 against Arg1: T2 Arg2: T1
13 R2 attack Arg1: T3 Arg2: T2
14 R3 for Arg1: T3 Arg2: T1
18 R7 support Arg1: T6 Arg2: T5
本文的語(yǔ)料庫(kù)一共包含有200個(gè)樣本,將其打亂后進(jìn)行隨機(jī)分配,這里是隨機(jī)分為訓(xùn)練集與測(cè)試集,其中包括180個(gè)訓(xùn)練集、20個(gè)測(cè)試集。語(yǔ)料庫(kù)中的數(shù)據(jù)類(lèi)型在進(jìn)行具體訓(xùn)練前需要轉(zhuǎn)換成預(yù)訓(xùn)練可以輸入的形式。將文本按照標(biāo)注切分成句子,分別處理成句子與元素類(lèi)型標(biāo)簽、源-目標(biāo)有向句子對(duì)與關(guān)系標(biāo)簽的格式,獲得標(biāo)準(zhǔn)數(shù)據(jù)。
基于這個(gè)句子長(zhǎng)度的統(tǒng)計(jì)和實(shí)驗(yàn)所使用模型的種類(lèi),要對(duì)實(shí)驗(yàn)中句子的大小進(jìn)行規(guī)定。句子輸入模型需將句子進(jìn)行對(duì)齊,保持尺寸一致才可以。如句子長(zhǎng)度超過(guò)了規(guī)定的大小,多出的部分就會(huì)被截掉,句子的長(zhǎng)度不到規(guī)定的大小,就需要補(bǔ)齊0 保持一樣的長(zhǎng)度,補(bǔ)0 不影響模型的學(xué)習(xí)預(yù)測(cè)。
語(yǔ)料庫(kù)中句子長(zhǎng)度是不均衡的,基于單句子加上[CLS]、[SEP]長(zhǎng)度不大于128 的占約99%,故可以設(shè)置其句子長(zhǎng)度為128;源-目標(biāo)句子對(duì)是由兩個(gè)句子組成的,且最長(zhǎng)的不到256,故可以設(shè)置其長(zhǎng)度為256。
本文的目標(biāo)是論辯元素的識(shí)別與論辯關(guān)系的識(shí)別。論辯元素的識(shí)別的基本單位是句子,是一個(gè)句子序列標(biāo)注的問(wèn)題,而論辯元素之間的關(guān)系檢測(cè)建模為一個(gè)句子對(duì)分類(lèi)任務(wù)。本文分別采用微調(diào)預(yù)訓(xùn)練語(yǔ)言模型與基于提示的預(yù)訓(xùn)練語(yǔ)言模型的方法完成上述任務(wù)。
3.2.1 基于微調(diào)的預(yù)訓(xùn)練模型方法
由于本文語(yǔ)料庫(kù)的構(gòu)建方式是以子句為粒度進(jìn)行,于是按照標(biāo)注切分進(jìn)行句子的輸入,直接進(jìn)行論辯元素的分類(lèi)任務(wù),同時(shí)這也有利于后續(xù)關(guān)系識(shí)別工作。
本文實(shí)驗(yàn)的關(guān)系識(shí)別也是對(duì)輸入的有向“源-目標(biāo)”對(duì)的關(guān)系進(jìn)行分類(lèi)?!霸?目標(biāo)”對(duì)是源指向目標(biāo)的有向句子對(duì),在本文語(yǔ)料庫(kù)中可以理解為“前提-主張”“主張-話(huà)題”等由分類(lèi)后識(shí)別的元素組成。而語(yǔ)料庫(kù)標(biāo)注的論辯結(jié)構(gòu)是具有一定規(guī)則的,比如源是前提,那目標(biāo)就只能是同一自然段的前提或主張。通過(guò)規(guī)則清理過(guò)的有效有向?qū)Π凑罩赶虻墓潭ǚ较蜉斎氲酵瓿申P(guān)系識(shí)別的預(yù)訓(xùn)練模型,然后進(jìn)行關(guān)系分類(lèi),該模型通過(guò)有標(biāo)注的數(shù)據(jù)集進(jìn)行微調(diào)。這里的模型和一般預(yù)訓(xùn)練模型分類(lèi)任務(wù)類(lèi)似,通過(guò)預(yù)訓(xùn)練模型后的最后一層的[CLS]輸出分類(lèi)標(biāo)簽。
3.2.2 基于提示的預(yù)訓(xùn)練模型方法
8.牛呼吸道合胞體病毒感染。主要發(fā)生于集約化養(yǎng)殖斷奶犢牛及青年牛,發(fā)病率高達(dá)90%以上,死亡率低,秋冬多發(fā),通過(guò)氣霧或呼吸道分泌物迅速傳播,運(yùn)輸、惡劣的環(huán)境等應(yīng)激可促使本病的暴發(fā),繼發(fā)細(xì)菌感染死亡率升高。
本文還使用了基于提示的預(yù)訓(xùn)練模型方法P-tuning。這是一個(gè)自動(dòng)設(shè)計(jì)連續(xù)模板的方法,由于論辯文本具有語(yǔ)義復(fù)雜性,所以它比人工構(gòu)建模板更適合當(dāng)前的任務(wù)。
P-tuning自動(dòng)化模板將一組離散輸入Token(偽Prompt)通過(guò)預(yù)訓(xùn)練的嵌入層映射到Embedding上,結(jié)合上下文得到目標(biāo),再對(duì)Encoder優(yōu)化。本文實(shí)驗(yàn)中用[u1]~[u8]作為預(yù)訓(xùn)練模型詞表中的[unused1]~[unused8],即通過(guò)這幾個(gè)從未見(jiàn)過(guò)的偽提示token 來(lái)構(gòu)建模板。對(duì)于這些Token 來(lái)說(shuō),它們的數(shù)目是一個(gè)超參數(shù),通過(guò)已標(biāo)注數(shù)據(jù)來(lái)一起自動(dòng)找出所需要的模板。這個(gè)模板即對(duì)現(xiàn)在任務(wù)的描述,使得本文的任務(wù)更加接近預(yù)訓(xùn)練模型。在這里,模板為{h1,…,h4,e(x),h5,…,h8,e(y)},其中y在使用BERT[30]模型時(shí)為MASK,在使用GPT[41]模型時(shí)必須放在末尾。當(dāng)然,也不是一定需要8個(gè)token,這個(gè)可以根據(jù)任務(wù)自行設(shè)定。
接下來(lái)需要對(duì)Embedding層進(jìn)行重新定義與替換修改。由于本文標(biāo)注數(shù)據(jù)比較小,所以需要固定整個(gè)模型的權(quán)重,只對(duì)這幾個(gè)Token的Embedding進(jìn)行優(yōu)化,使之可以起到模板的作用。理論上,模型的權(quán)重很多都被固定了,要學(xué)習(xí)的參數(shù)也很少,故而在小樣本數(shù)據(jù)上也可以學(xué)出來(lái)模板而不會(huì)過(guò)擬合,適合本文實(shí)驗(yàn)的小樣本數(shù)據(jù)。
這樣,本文針對(duì)本次實(shí)驗(yàn)兩個(gè)任務(wù)也可以如前面的方法一樣,看作句子的論辯元素分類(lèi)以及源-目標(biāo)對(duì)(句子對(duì))的關(guān)系分類(lèi)任務(wù),分別自動(dòng)構(gòu)建滿(mǎn)足任務(wù)需求連續(xù)的可學(xué)習(xí)模板,使得本文的任務(wù)向預(yù)訓(xùn)練模型靠近,讓預(yù)訓(xùn)練模型其本身就可以對(duì)所需的輸出進(jìn)行直接預(yù)測(cè)。
3.3.1 實(shí)驗(yàn)設(shè)置
在微調(diào)預(yù)訓(xùn)練模型的實(shí)驗(yàn)中,使用了BERT、XLNet[42]、RoBERTa[43]這三類(lèi)預(yù)訓(xùn)練語(yǔ)言模型,選擇了其基礎(chǔ)版本與擴(kuò)大參數(shù)的版本,其中BERT 除了其base 版本與large 版本外,還選擇了在中文任務(wù)上表現(xiàn)優(yōu)秀的BERT-WWM。
在基于提示的預(yù)訓(xùn)練模型的實(shí)驗(yàn)中,則選擇了BERT、RoBERTa、GPT 這三種預(yù)訓(xùn)練模型。其中,預(yù)訓(xùn)練模型都使用了Huggingface 所提供的預(yù)訓(xùn)練模型。
在微調(diào)預(yù)訓(xùn)練模型實(shí)驗(yàn)中,論辯元素分類(lèi)任務(wù)的學(xué)習(xí)率設(shè)為1e-8,由于句子長(zhǎng)度設(shè)為128,故訓(xùn)練批大小Batch Size設(shè)置為32,訓(xùn)練輪次Epoch設(shè)置為5輪。論辯關(guān)系識(shí)別任務(wù)中學(xué)習(xí)率也為為1e-8,訓(xùn)練批大小Batch Size 由于句子長(zhǎng)度變長(zhǎng),故設(shè)置為16,訓(xùn)練輪次Epoch為5輪。在提示學(xué)習(xí)實(shí)驗(yàn)中,論辯元素分類(lèi)任務(wù)的學(xué)習(xí)率為6e-4,訓(xùn)練批大小Batch Size設(shè)置為32,訓(xùn)練輪次Epoch為20輪。論辯關(guān)系識(shí)別任務(wù)中學(xué)習(xí)率為6e-4,批大小Batch Size 設(shè)置為16,訓(xùn)練輪次Epoch為20輪。
3.3.2 論辯元素識(shí)別實(shí)驗(yàn)分析
表4為對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)后的論辯元素分類(lèi)實(shí)驗(yàn)結(jié)果??梢钥吹?在論辯元素識(shí)別任務(wù)中,這幾個(gè)預(yù)訓(xùn)練模型的準(zhǔn)確率都較高,幾乎都達(dá)到了0.8及其以上,其中XLNet 的兩個(gè)模型表現(xiàn)最好,可能與輸入中除了短句還存在有一些較長(zhǎng)的句子有關(guān),而XLNet 本身在長(zhǎng)文本上比較擅長(zhǎng)。不過(guò)本實(shí)驗(yàn)的結(jié)果發(fā)現(xiàn)RoBERTa與BERT在論辯元素識(shí)別的任務(wù)上表現(xiàn)似乎沒(méi)有太大區(qū)別。
可以看到,其large/mid 版本比base版本提高的準(zhǔn)確率不大,兩者表現(xiàn)差不多,甚至XLNet 的準(zhǔn)確率在參數(shù)增加后還下降了,這表明現(xiàn)在模型中參數(shù)的擴(kuò)充對(duì)論辯元素識(shí)別任務(wù)沒(méi)起到太大作用,這可能和現(xiàn)有實(shí)驗(yàn)的小樣本數(shù)據(jù)有關(guān)。對(duì)于BERT 來(lái)說(shuō),BERT-WWM 的準(zhǔn)確率比其base 與large 版本均有著明顯的提高,這也正符合BERT-WWM 在預(yù)訓(xùn)練階段使用了更大規(guī)模的中文語(yǔ)料,對(duì)中文任務(wù)有更好的適應(yīng)性的特點(diǎn)。
隨后本文采用預(yù)訓(xùn)練提示學(xué)習(xí)來(lái)對(duì)論辯元素識(shí)別進(jìn)行實(shí)驗(yàn),相關(guān)實(shí)驗(yàn)結(jié)果如表5所示。
表5 預(yù)訓(xùn)練提示學(xué)習(xí)-論辯元素識(shí)別
就準(zhǔn)確率而言,RoBERTa 效果最好,GPT 明顯差于RoBERTa 與BERT。BERT 雖然效果比不上改進(jìn)后的RoBERTa,但是其作為自編碼語(yǔ)言模型,似乎還是天然的在論辯元素識(shí)別這種自然語(yǔ)言理解任務(wù)而非生成任務(wù)上,優(yōu)于GPT這種自回歸語(yǔ)言模型。雖然有研究表明將GPT 與Prompt 相結(jié)合應(yīng)用于自然語(yǔ)言理解領(lǐng)域,在某些任務(wù)上甚至GPT 比BERT 更優(yōu)秀[33]。但是在本實(shí)驗(yàn)任務(wù)中可以看出來(lái),對(duì)于論辯元素的識(shí)別來(lái)說(shuō)不是這樣的。這與Bert模型雙向上下文建模方式使得模型對(duì)論辯元素的識(shí)別更有益。
同時(shí)實(shí)驗(yàn)也發(fā)現(xiàn),在BERT、RoBERTa 上,使用預(yù)訓(xùn)練提示學(xué)習(xí)不比對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)差,甚至可以有更好的效果。如RoBERTa 在預(yù)訓(xùn)練提示學(xué)習(xí)中準(zhǔn)確率達(dá)到了0.837,優(yōu)于預(yù)訓(xùn)練微調(diào)中RoBERTa-large 的0.811 與RoBERTa-base的0.798,BERT 在預(yù)訓(xùn)練提示學(xué)習(xí)中的準(zhǔn)確率也大于BERT-base、BERT-large在預(yù)訓(xùn)練微調(diào)中的準(zhǔn)確率。這也說(shuō)明,將Prompt 提示應(yīng)用于論辯元素識(shí)別任務(wù)上是可行的。
本文還研究了隨著訓(xùn)練數(shù)據(jù)集的不斷減小,預(yù)訓(xùn)練微調(diào)與預(yù)訓(xùn)練提示學(xué)習(xí)兩種方法在論辯元素識(shí)別任務(wù)下的準(zhǔn)確率變化。本文選取了在兩種方法中均有較好表現(xiàn)的RoBERTa 預(yù)訓(xùn)練模型,在原訓(xùn)練集中隨機(jī)抽取150 個(gè)數(shù)據(jù)、120 個(gè)數(shù)據(jù)以及90 個(gè)數(shù)據(jù),分別作為訓(xùn)練集進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果顯示,預(yù)訓(xùn)練提示學(xué)習(xí)在小樣本數(shù)據(jù)集中的確更具有優(yōu)勢(shì),在小樣本或零樣本數(shù)據(jù)集的任務(wù)中也具有更好的發(fā)展?jié)摿?。由于本文采用小樣本學(xué)習(xí),總樣本數(shù) 200比較小,增大數(shù)據(jù)集對(duì)在論辯元素識(shí)別任務(wù)準(zhǔn)確率的影響還有待將來(lái)的工作。
3.3.3 論辯元素關(guān)系識(shí)別實(shí)驗(yàn)分析
由于任何兩個(gè)論辯元素之間都可能存在論辯關(guān)系,因此存在論辯關(guān)系的可能在文本中位置比較接近,也可能是距離較遠(yuǎn)。論辯元素之間的關(guān)系識(shí)別需要模型有較強(qiáng)的上下文理解能力,這在論辯挖掘中一直都是一個(gè)比較困難的問(wèn)題。本文采用預(yù)訓(xùn)練微調(diào)實(shí)驗(yàn)的結(jié)果如表6所示。
表6 微調(diào)-論辯關(guān)系識(shí)別
可以看到,其準(zhǔn)確率與召回率都比前一個(gè)任務(wù)低,不過(guò)這是在論辯元素識(shí)別約0.85 正確率的基礎(chǔ)上進(jìn)行的,因此會(huì)存在一定的錯(cuò)誤累積,且相比前一個(gè)任務(wù),論辯元素之間關(guān)系識(shí)別本身也更加復(fù)雜。這其中RoBERTa-large 和XLNet的表現(xiàn)最好。在每一類(lèi)預(yù)訓(xùn)練語(yǔ)言模型中,其大參數(shù)版本(large/mid)相比基礎(chǔ)版本均有了比較明顯的效果提示,說(shuō)明了參數(shù)的擴(kuò)充在關(guān)系識(shí)別任務(wù)上在一定程度上是有用的,這可能是因?yàn)閷?duì)于一篇文本中的論辯元素之間的關(guān)系的判斷更加復(fù)雜,也需要更多的語(yǔ)義知識(shí)。同樣,在這個(gè)任務(wù)中BERT-WWM 的準(zhǔn)確率對(duì)比其base 與large 版本有了更明顯的提高,也符合其對(duì)中文任務(wù)的適應(yīng)性,同時(shí)也可能是因?yàn)锽ERT-WWM 采用全詞mask 后,可以學(xué)到詞的語(yǔ)義信息,而這對(duì)關(guān)系識(shí)別任務(wù)來(lái)說(shuō)比較有效。
使用Prompt方法的論辯關(guān)系識(shí)別實(shí)驗(yàn)結(jié)果如表7所示??梢园l(fā)現(xiàn),就準(zhǔn)確率而言,GPT效果最好,高于BERT、RoBERTa等。除了GPT以外的這兩個(gè)預(yù)訓(xùn)練模型結(jié)合P-tuning在論辯關(guān)系識(shí)別任務(wù)上,目前來(lái)說(shuō)還是不那么適合,BERT、RoBERTa使用預(yù)訓(xùn)練提示學(xué)習(xí)的準(zhǔn)確率遠(yuǎn)低于使用微調(diào)時(shí)。不過(guò)預(yù)訓(xùn)練提示學(xué)習(xí)時(shí)使用GPT的準(zhǔn)確率,比有些模型微調(diào)時(shí)高,大概處于本次實(shí)驗(yàn)使用預(yù)訓(xùn)練微調(diào)的模型的中間水平。
表7 Prompt-論辯關(guān)系識(shí)別實(shí)驗(yàn)準(zhǔn)確率
還可以看出,GPT與Prompt相結(jié)合,雖然可能目前在論辯元素分類(lèi)的任務(wù)上表現(xiàn)不夠好,但是值得注意的是,在目前的論辯挖掘領(lǐng)域中,在關(guān)系識(shí)別和預(yù)測(cè)任務(wù)上甚至比BERT更好。眾所周知,雙向BERT類(lèi)模型在訓(xùn)練和預(yù)測(cè)階段存在不一致性,所以這應(yīng)該與GPT生成模型單向性對(duì)預(yù)測(cè)性任務(wù)(訓(xùn)練和預(yù)測(cè)階段都只能先看到前面先出現(xiàn)的論辯句子)有一定的天生優(yōu)勢(shì)有關(guān)。
此外,實(shí)驗(yàn)發(fā)現(xiàn),在關(guān)系識(shí)別任務(wù)上,實(shí)驗(yàn)結(jié)果中的準(zhǔn)確率都大于召回率,這意味著漏掉了一些真正的正例。其中主張對(duì)主張的attack(攻擊)關(guān)系的召回率最低,這可能也與語(yǔ)料庫(kù)中的標(biāo)簽分別不均有關(guān),或許可以將主張與主張之間的宏觀(guān)關(guān)系與前提與主張之間的微觀(guān)關(guān)系區(qū)分出來(lái),對(duì)宏觀(guān)關(guān)系主張之間的支持單獨(dú)設(shè)計(jì)一個(gè)標(biāo)簽,不與前提支持主張中的“支持”放在一起,這樣主張之間的兩種關(guān)系會(huì)相對(duì)稍微平衡。
結(jié)合論辯和自然語(yǔ)言理解的理論,可以看到論辯關(guān)系不僅僅涉及對(duì)論辯元素語(yǔ)義的理解,也涉及其在論辯文本中的位置結(jié)構(gòu)信息。如果缺少明確線(xiàn)索和提示,判斷論辯元素之間的關(guān)系就是一個(gè)富于挑戰(zhàn)性的任務(wù)。這可能需要對(duì)論辯文本整體性以及論辯模式(Scheme)有更完善的理解。
本文的主要貢獻(xiàn)如下:
(1) 針對(duì)中文網(wǎng)絡(luò)對(duì)話(huà)論辯現(xiàn)狀,提出一個(gè)合理的論辯結(jié)構(gòu)標(biāo)注方案,在“前提-結(jié)論”結(jié)構(gòu)的基礎(chǔ)上,引入“話(huà)題”這個(gè)新的論辯元,將“贊成”或“反對(duì)”作為論辯關(guān)系加入論辯結(jié)構(gòu),并由此構(gòu)建了一個(gè)中文網(wǎng)絡(luò)對(duì)話(huà)論辯語(yǔ)料庫(kù)。
(2) 將最近自然語(yǔ)言處理新范式——預(yù)訓(xùn)練提示學(xué)習(xí),應(yīng)用到論辯挖掘中的元素識(shí)別和關(guān)系識(shí)別任務(wù)上。根據(jù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),將預(yù)訓(xùn)練提示學(xué)習(xí)用于完成論辯挖掘任務(wù)的方案是可行的,且準(zhǔn)確率與現(xiàn)今取得很好效果的預(yù)訓(xùn)練微調(diào)方法相近,有時(shí)準(zhǔn)確率甚至更高。同時(shí)預(yù)訓(xùn)練提示學(xué)習(xí)在小樣本或零樣本數(shù)據(jù)集上有著更好的效果,非常具有發(fā)展?jié)摿?。以往更擅長(zhǎng)生成任務(wù)的GPT,其與Prompt 結(jié)合后也可以較好地完成論辯關(guān)系識(shí)別任務(wù)。
當(dāng)然,本文也存在一些局限。在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)了一些可以改善的空間,如可以對(duì)本文的小樣本語(yǔ)料庫(kù)進(jìn)行擴(kuò)充,在語(yǔ)料庫(kù)標(biāo)注標(biāo)準(zhǔn)上進(jìn)行多人標(biāo)注,然后進(jìn)行一致性檢驗(yàn)。改進(jìn)實(shí)驗(yàn)方法和模型提高預(yù)訓(xùn)練提示學(xué)習(xí)方法在關(guān)系識(shí)別上的準(zhǔn)確性還需進(jìn)一步的研究等。
本文的研究和實(shí)驗(yàn)表明,從理論以及某些領(lǐng)域上已有的應(yīng)用效果來(lái)看,提示模板的構(gòu)建確實(shí)是有很大的發(fā)展?jié)摿Φ?。提示學(xué)習(xí)不僅在小樣本、零樣本任務(wù)上激活了許多新的研究,也為預(yù)訓(xùn)練模型與下游任務(wù)的靠近提供了一個(gè)新的思路,有必要在論辯挖掘領(lǐng)域進(jìn)行進(jìn)一步探索。