武闐闐,宋子堯,韓 旭,程苗苗,鞏捷甫,3,王士進,3,宋 巍
(1. 首都師范大學 信息工程學院和交叉學科研究院,北京 100056;2. 科大訊飛股份有限公司 AI研究院,安徽 合肥 230088;3. 認知智能國家重點實驗室,安徽 合肥 230088)
自動抽取自然語言中的論辯結構或判斷論辯質量的論辯挖掘任務已受到研究者越來越多的關注。然而,現(xiàn)有研究主要關注識別論辯文本中的論證成分或結構[1],對論證方法的研究相對較少。
本文旨在研究比喻在學生議論文中的運用及其論證作用。比喻是常見的語言現(xiàn)象,它可以用具體的喻體來表述抽象的本體。比喻不僅是語言的修辭手法,也是強有力的創(chuàng)造性推理工具[2]。此外,作為一種特殊的比喻形式,隱喻也可以被用作一種論證手段。研究表明,在政治用語中,隱喻比字面用語更能產生情感上的共鳴,并在影響決策方面表現(xiàn)出更強的有效性。如在句子“It’s time tojumpstart the economyand put it to work for the middle-class. ”中,“jumpstart”意為“啟動”,讓人聯(lián)想到經濟就像一輛故障的汽車,“啟動經濟”即為“恢復經濟”,“jumpstart”比“restore”更富于感染力[3]。比喻的傳統(tǒng)性和論證結論的合理性都會對論證的產生和理解有不同的影響[2]。
盡管論辯中比喻的作用已在語言學理論中被廣泛討論,但以往的研究并沒有嘗試自動分析比喻在論辯挖掘中的作用。本文進行初步嘗試,探究比喻在論辯挖掘中的自動分析方法。本文的主要貢獻如下:
(1) 構建了一個比喻論證數(shù)據(jù)集,包含1 220篇學生議論文中的比喻句及其論辯角色。論辯角色分為論點、論據(jù)、闡釋或者其他。進而,將比喻論點按照作用分為事實論點、價值論點、策略論點三類。初步分析了學生議論文中比喻運用的方式和作用。該數(shù)據(jù)集為進一步探索比喻論辯作用分析提供基本數(shù)據(jù)基礎。
(2) 提出了比喻論點作用分類任務,并比較了基于預訓練語言模型精調和基于提示大語言模型的方法。實驗結果表明,基于精調的方法依然具有更好的表現(xiàn),可作為未來研究的基線系統(tǒng)。
(3) 構建了一個集成比喻識別、論辯角色識別和比喻論點分類的流水線系統(tǒng),自動分析比喻句的論辯作用。實驗結果表明,錯誤級聯(lián)問題較為嚴重,亟待提高流水線系統(tǒng)的能力。
本文初步嘗試研究學生議論文中論證方法,并沒有涉及隱喻的解釋和推理。我們將其留給未來工作進一步探究。
論辯挖掘是指利用自然語言處理和機器學習等相關技術,挖掘非結構化文本中的論辯性質和結構信息[4]。在不同領域的文本中,論辯信息包含觀點、依據(jù)以及邏輯過程等[1],挖掘論辯信息具有重要研究意義。Cabrio和Villata提出了一個論辯挖掘流程框架,將任務分為論辯提取和論辯關系預測兩個階段[5]。目前,論辯挖掘任務主要涉及政治辯論、在線辯論、法律文本、議論文、學術類和社交網(wǎng)絡等方面[1]。論辯成分通常分為前提和結論,其他分類包括依據(jù)、事實和價值等[6]。論辯挖掘任務的主要模型是機器學習模型和基于深度學習的神經網(wǎng)絡模型[1]。
本文主要研究學生議論文中的論辯挖掘,已有工作主要圍繞論辯結構分析展開。Stab和Gurevych提出了一種分類主張和前提,并識別論證支持關系的方法[7],同時將論證結構建模為樹形結構以提取整體論證結構[8]。Wagemans從理論角度分析了隱喻在議論文中作為論點和論據(jù)的作用,并結合實例詳細說明了隱喻在論證文本中的主張和立場重建[9]。Song等采用自注意力模型建模句子之間的位置和關系,并用于識別學生議論文中的話語元素[10]。Lauscher等將論辯結構信息融入修辭關系挖掘任務中,通過不同層級的BiLSTM模型進行訓練,并提出了一個多任務模型,證明論辯結構信息對修辭關系預測有明顯提升[11]。黃華新和祝文昇分析了隱喻在科學論證中作為材料前提、連接前提和論證立場的作用,并強調只有在科學論證中合理地使用隱喻才能發(fā)揮其積極作用并被接受和認可[12]。目前,還尚未有對學生議論文中的比喻句的論辯分析。
比喻一般包括明喻和隱喻。明喻是一種直接使用“比如”“像”等喻詞比較兩種事物的修辭手法。隱喻不使用顯性喻詞,常用“是”“變成”“成為”等詞語來代替喻詞,可以幫助我們理解復雜的概念并表達抽象的事物。隱喻識別任務的目標是從文本數(shù)據(jù)中識別隱喻。目前有三種主要的隱喻理論: Lakoff和Johnson提出的概念隱喻理論(Conceptual Metaphor Theory),認為隱喻是從源域到目標域的概念映射[13];Wilks提出的選擇偏好限制理論(Selectional Preference Violation),認為謂語對于論元有一定的選擇傾向性,而隱喻則破壞了選擇偏好[14];Group提出的隱喻識別程序理論(Metaphor Identification Procedure),認為隱喻是詞的字面含義與上下文中的含義不一致而導致的結果[15]。
隱喻識別主要包含句子級、關系級和單詞級三種類別。Krishnakumaran和Zhu將隱喻分為名詞隱喻、主-謂-賓動詞隱喻和形容詞-名詞隱喻三種[16]。Tsvetkov研究跨語言的隱喻識別,并提出一種基于語義特征的分類器,結合了語義類別、抽象度和命名實體類型[17]。目前多數(shù)隱喻數(shù)據(jù)集的標注工作都是由MIP理論[15]指導完成的,例如,VU Amsterdam隱喻語料庫[18]、Mohammad動詞隱喻數(shù)據(jù)集[19]等。
近年來,隱喻識別已成為序列標注任務,Wu等人提出一種基于Word2Vec、POS標簽和單詞蔟,由CNN和BiLSTM編碼的模型[20]。Gao等人將GloVe[21]和ELMo[22]表示連接起來,由BiLSTM編碼,利用softmax分類進行隱喻識別[23]?;赥ransformer的預訓練語言模型,例如,BERT[24]和RoBERTa[25],也在隱喻檢測中有很大的積極作用。Zhang等將MIP[16]和SPV[15]兩種語言規(guī)則轉換為語義匹配任務,結合兩者提出了MisNet模型,有效地解決了傳統(tǒng)隱喻識別失效的問題[26]。Song等將動詞隱喻轉化為目標詞與上下文的關系分類問題[27]。
中文方面的比喻識別工作相對較少。Liu等提出一個神經網(wǎng)絡框架來優(yōu)化比喻句子分類、比喻成分提取和語言建模三個任務,進行明喻檢測和本喻體提取[28]。Zhu等提出FECRF(Figure Extraction CRF)模型,在RoBERTa基礎上增加CRF層抽取比喻、比擬、借代、夸張、反語、通感、問語、排比、對偶、反復、對比以及引語這十二種修辭手法[29]。
(1) 比喻句子
比喻是一種廣泛存在于日常生活中的語言表達方式,本文主要關注明喻和隱喻。我們以句子為單位,標注每一句話是否為比喻句。本文沒有區(qū)分明喻和隱喻,包括明喻或隱喻的句子均被視為比喻句。
(2) 論辯角色
參考Burstein等人提出的篇章要素定義和分類[30],將議論文中的論辯角色歸納為以下四類:
論點: 在議論文中,論點是指作者對作文主題表達的主張或觀點。比喻論點是指采用比喻的修辭提出論點,例如,表1的句(1),將抽象的“理想”具體化為“沙漠綠洲”,表明理想對人的重要性。
表1 比喻論辯角色表
論據(jù): 在議論文中,論據(jù)是指作者為證明論點所提出的依據(jù),通常分為事實論據(jù)和理論論據(jù)。而比喻論據(jù)通常有兩種形式: ①直接引用帶有比喻修辭的名言、警句或詩句,如表1中的句(2); ②采用比喻的修辭手法對論據(jù)進行潤色或闡釋。
闡釋: 在議論文中,闡釋是對提出的論點或論據(jù)進一步闡述解釋的過程。比喻闡釋常常采用“作比較、打比方”的方式來證明論點。例如,表1中的句(3)為了論證閱讀對我們的重要性,將“人”比成“鳥”,將“閱讀”比作“鳥的翅膀”,將“豐富閱讀”比作“豐滿羽毛”,生動闡釋“人需多讀書”的觀點。
其他: 比喻還可以用于情感增強等其他作用。在議論文中,比喻句能夠更好地表達作者的思想,增強文章的感染力,但可能和主旨不直接相關。同時,比喻還能夠用于描述風景和事物,例如,表1中的句(4),增強文章的藝術性和生動性。通常這類句子在論證方面并沒有直接的作用。
(3) 論點類型
參考Wegemans等人對英文議論文中比喻的角色分類[9],我們進一步將議論文中的比喻論點劃分為三種: 事實、價值和策略,以分析比喻論點傳遞信息的類型。
事實: 指某個實體(事物、人物、事件或行動),具有特定的經驗屬性。在議論文中,事實也是有爭議的論點,并不是一個堅定的事實,但可以通過證據(jù)或經驗加以證實。例如,表2中的句(1),將“商業(yè)化的文化”比作“快餐”,提出“如今的社會已經失去了文化的厚重感”的觀點,這個事實論點是可以得到證實的。
表2 比喻論點分類表
價值: 指某個實體(事物、人物、事件或行動)具有特定的價值屬性,通常包含作用、特點及褒貶評價。例如,表2中的句(2),作者將“安全”比作“金”和“?!?突出安全的重要性。
策略: 指應執(zhí)行某項具體行動,通常是作者呼吁應該采取的行動。例如,表2中的句(3),將“夢想”比作“種子”,“實現(xiàn)夢想”比作“成為參天大樹”,作者旨在呼吁人們要堅定信念,勇于奮斗,才能實現(xiàn)夢想。比喻策略論點在本文的議論文數(shù)據(jù)集中也較為常見。
(4) 論辯質量
本文的研究人員根據(jù)作文的整體論辯質量進行打分,從整體結構、主題相關性、中心明確性、論據(jù)合理性和豐富程度等多個角度切入,最終規(guī)定議論文整體論辯質量評分等級為優(yōu)、良、中。
本文所采用的數(shù)據(jù)集來源于“樂樂課堂網(wǎng)站”,由兩位標注人員一起標注,標注結果的Kappa值為0.732,對于不一致的部分,選用第三位更專業(yè)的標注人員進行仲裁得到最終結果。其中包含1 220篇學生中文議論文,共標注2 889個比喻句,其中有1 050個論點句、413個論據(jù)句、1 259個闡釋句、167個其他類型句。在比喻論點中,有54個事實,586個價值,410個策略。
1 220篇議論文平均每篇有2.37條比喻句。其中,評分為優(yōu)的作文共有107篇,共包含338個比喻句,平均每篇3.19條;評分為良的作文共有640篇,包含1 488個比喻句,平均每篇有2.33條;評分為中的作文共有473篇,包含1 063條比喻句,平均每篇有2.25條。從比喻句的數(shù)量分布來看,得分高的議論文中比喻句的平均數(shù)量更多。
為了進一步探究比喻句和論辯質量的相關性,我們計算了所有議論文的論辯質量得分與其包含比喻句的數(shù)量之間的皮爾遜相關系數(shù),結果為0.064,優(yōu)和中的議論文與比喻句數(shù)量的皮爾遜相關系數(shù)為0.116。此外,本文還計算了比喻論點、比喻論據(jù)、比喻闡釋和其他類型比喻句的數(shù)量與作文評分等級之間的相關性。由表3可知,比喻論點和作文評分等級(優(yōu)、中)的相關性最大,為0.195,比喻論據(jù)次之,而闡述和其他的相關性相比較低。由此可知,比喻論點和議論文評分的相關性是最高的。進而本文又計算了事實論點、價值論點和策略論點與作文評分等級的相關性,如表3所示,策略論點最高,為0.158,價值為0.141,事實論點相關性最差,為0.006。由此可知,議論文寫作時,在價值論點和策略論點中合理運用比喻能夠提升作文得分。
表3 議論文得分和比喻角色相關性統(tǒng)計表
我們構建了一個比喻論證分析系統(tǒng),包括3個主要模塊。圖1展示了該系統(tǒng)的流程圖。輸入一篇議論文作文,比喻識別模塊能夠自動識別其中的比喻句,論辯角色識別模塊能夠識別整篇文章句子級的論辯角色。結合這兩個模塊的輸出,系統(tǒng)能夠得到比喻論點。比喻論點作為論點類型分類模塊的輸入,該模塊完成了比喻論點作為價值、事實、策略的三分類任務。
圖1 比喻論證分析系統(tǒng)流程圖
本模塊將議論文在句子級別分類為: 比喻句和其他句。嘗試了基于抽取的FECRF方法[29]和基于精調BERT[24]等預訓練語言模型的分類方法。
(1) FECRF
FECRF使用RoBERTa結合CRF層抽取包含比喻、比擬等十二種修辭手法[29]。我們將此模型應用于議論文數(shù)據(jù)集中比喻和比擬句的自動識別。
(2) 基于精調預訓練語言模型的方法
將比喻識別視為二元分類問題,采用預訓練語言模型作為基礎模型,訓練比喻識別器。
本模塊將論辯角色分類為論點、論據(jù)、闡釋和其他。由于流水線系統(tǒng)在論辯角色識別模塊中只篩選論點,因此本模塊采用BERT等預訓練語言模型,訓練一個二元分類器,論點標簽為1,其余三個論辯角色標簽為0,主要評估模型對比喻論點的二分類效果。我們嘗試了直接用比喻句作為模型輸入以及將比喻句和作文題目進行拼接作為模型輸入兩種策略。
本模塊將比喻論點分類為: 價值、事實或策略。嘗試了基于精調和基于提示的方法。
(1) 基于精調預訓練語言模型的方法
該模塊采用BERT等預訓練語言模型作為基礎模型訓練一個比喻論點三分類的分類器。
(2) 基于提示大語言模型的方法
Wei等人[30]提出了一種新的思維鏈和小樣本學習的方法,用于在三種大型語言模型上進行實驗。研究結果表明,采用思維鏈可以提高語言模型對算術、符號和常識推理的處理能力。此外,一些學者證實,在構造提示時,通過提供結構化的樣例或標序號的方法,可以使大型模型表現(xiàn)更佳[31]。
我們使用OpenAI的GPT-3(Generative Pretrained Transformer 3)[32]大語言模型,通過構造思維鏈提示文本,與大型模型進行問答交互,誘導其完成比喻論點的三分類任務。采用了三種提示文本,如表4所示。
表4 用于比喻類型分類的提示文本設計
零樣本學習給出論點類型分類以及事實、價值和策略的相應定義,引導模型生成答案。
小樣本學習進一步增加了N組示例,每組樣本由三個不同類別的句子構成。
小樣本思維鏈學習通過思維鏈的方式增加了N組示例。
數(shù)據(jù)集被劃分為訓練集、驗證集和測試集。測試集包括100篇議論文,余下數(shù)據(jù)的80%作為訓練數(shù)據(jù),20%作為驗證數(shù)據(jù)。
本文采用了準確率(Accuracy)、精確率(Precision)、召回率(Recall)和宏平均F1值(macro-F1)指標對系統(tǒng)進行了評估。
比喻識別模塊中,FECRF模塊采用RoBERTa-zh-Large作為模型。基于精調BERT的方法采用BERT-Base-Chinese模型實現(xiàn)二分類,比喻句為正樣本,其余句為負樣本??紤]樣本均衡,對負樣本做抽樣處理。擴充的對比實驗模型采用BERT-Large(yechen/BERT-Large-Chinese)(1)https://huggingface.co/yechen/bert-large-chinese、DeBERTa(IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese)(2)https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese。BERT-Large是比BERT更大規(guī)模的模型,DeBERTa采用比BERT更先進的解耦注意力的訓練策略。
論辯角色識別和比喻論點類型分類也使用BERT-Base-Chinese模型作為基礎模型。訓練時均采用Adam作為優(yōu)化器,學習率為2e-5。
基于大模型的比喻論點類型分類通過調用GPT3的API進行測試。
我們將FECRF模型與基于預訓練語言模型的比喻識別模型進行對比。如表5所示,FECRF識別出的比喻精確率高達92.5%,但召回率較低;而BERT-Base在經過我們的數(shù)據(jù)集精調之后,精確率低于FECRF,但召回率值為89.5%,遠高于FECRF,F1值為78.5%,體現(xiàn)了更好的識別效果。這是因為我們的數(shù)據(jù)集中有大量隱喻,而FECRF對明喻學習效果很好,對隱喻學習效果不佳。
表5 比喻識別結果對比 (單位: %)
我們假設所有比喻被正確識別,以分析比喻論辯角色識別。結果如表6所示,可以看出,主題詞的加入并沒有使模型分類效果提升。我們的本意是捕捉比喻句與主題之間的關聯(lián)幫助區(qū)分其角色,但從實驗數(shù)據(jù)可得出,主題詞幫助作用不大。BERT-Base的F1值最高為67.9%,其余預訓練語言模型的效果僅次于BERT-Base。比喻論辯角色分類任務具有極強的挑戰(zhàn)性,并且模型只關注比喻句本身可能無法獲得更多有效的信息。
表6 比喻論辯角色識別結果對比 (單位: %)
我們首先假設比喻句和論點句都被正確識別,將基于精調預訓練語言模型的方法和GPT3提示學習的方法進行對比,實驗結果如表7所示。
表7 比喻論點類型分類實驗結果 (單位: %)
從表7中可以看出,在四個評估指標上,有監(jiān)督學習的效果依然優(yōu)于GPT3,其BERT-Large的Macro-F1值高達69.6%,BERT-Base的ACC值高達80.6%。經過分析BERT-Base的錯誤數(shù)據(jù),在144條測試數(shù)據(jù)中,模型將事實論點預測為價值論點9次,事實論點的數(shù)據(jù)較少,模型學習效果較差;策略論點預測為價值論點11次,我們觀察具體的錯誤數(shù)據(jù)發(fā)現(xiàn),一個單一論點可能既包含價值方面的陳述,也會存在策略方面的陳述,但在標注時,標注人員只根據(jù)句子中的核心成分定義比喻論點的類型。因此對于一個比喻句論點類型的分類問題,我們的模型依舊存在缺陷,后續(xù)的改進會加上句子核心部分的學習。在GPT3模型中,隨著一組樣本的加入精確率提高5.3%,Macro-F1值提升1.9%;當樣本數(shù)量由一組增至兩組時,macro-F1值降低1.2%,ACC值提升1.3%。隨著思維鏈的加入,一組樣本的表現(xiàn)并沒有太大進步,但兩組樣本+思維鏈學習和兩組樣本學習相比,精確率提升8.4%,Macro-F1值提升4.7%,說明思維鏈對大語言模型正確理解任務并推理的幫助很大,并且在思維鏈模型中,樣本數(shù)量的增多使模型的效果有較大提升,在樣本學習模型中兩組樣本學習的Macro-F1值卻比一組樣本學習的差,說明樣本的質量和思維鏈的使用對模型學習的效果具有一定影響。
為了研究比喻在論點中的支撐作用或核心作用對比喻論點分類的效果的影響,本文將測試集按照比喻是否為論點核心分為兩部分: 比喻成分為論點核心和比喻成分用于支撐論點。例如,“人生,就像一條有盡頭似乎又沒盡頭的路”這個論點中的比喻成分起到核心作用。在“人生亦如這本險遭埋沒的童話: 站對舞臺,造就成功”一句中,核心成分在“站對舞臺,造就成功”,這是一個策略論點,而前面的比喻成分僅起到支撐論點的作用。
我們發(fā)現(xiàn),比喻在事實論點中通常并不起核心作用,而是起到潤色或支撐的作用,而比喻在一個價值論點中通常起到核心作用。從表8的數(shù)據(jù)中可以看出,當比喻作為論點的核心成分時,預訓練語言模型和GPT3的分類效果均要優(yōu)于比喻作為支撐作用的效果,說明比喻作為論點核心時,機器能夠學到更多和比喻論點類型相關的信息。BERT-Large在比喻作為論點核心的數(shù)據(jù)集上分類效果是最優(yōu)的,Macro-F1值高達70.8%,BERT-Base的ACC值高達84.1%。當比喻用于支撐論點時,GPT3兩組樣本學習的ACC值比一組樣本提升8.1%。
表8 核心/支撐比喻論點分類實驗結果 (單位: %)
最后,我們使用自動的比喻識別和論辯角色分類模塊,測試流水線系統(tǒng)的性能。比喻識別模塊選用基于精調BERT的模型,論辯角色分類模塊選用不加主題詞的基于精調BERT的模型,論點作用分類模塊選用基于精調BERT模型,這三個模型拼成整個流水線系統(tǒng)。經測試,該流水線系統(tǒng)進行比喻論點分類的實驗指標如下:P值為44.0%,R值為28.2%,Macro-F1值為34.4%,ACC值為51.4%。由此結果可知,每個環(huán)節(jié)都起重要作用,該任務具有挑戰(zhàn)性,其中最難的模塊是比喻論辯角色識別任務,模型在預測時會將論證和論點識別混亂,因此后續(xù)需進一步探討如何使模型更好地區(qū)分論證和論點。該任務的數(shù)據(jù)集存在不均衡的問題,事實比喻論點分布較少,論點多類型問題需要進一步探討,因此仍然有較大的提升空間。
本文主要針對學生議論文中的比喻論證進行挖掘、分析與處理。我們通過數(shù)據(jù)集構建與分析探討了學生作文中的比喻論證運用情況。我們發(fā)現(xiàn),在比喻論證中,和作文評分最相關的是比喻論點。因此,本文重點研究比喻論點的作用和分類,結合相關理論,將比喻論點劃分為三種類型: 事實論點、價值論點和策略論點。本文提出了比喻論證分析系統(tǒng),該系統(tǒng)包含三個模塊: 比喻識別、論辯角色識別和比喻論點類型分類。實驗結果顯示,比喻識別和論辯角色識別可以取得中等的識別效果;在比喻論點分類任務中,有監(jiān)督學習方法通常優(yōu)于基于大模型的方法,而思維鏈學習則對大模型處理比喻論點分類任務有一定幫助。由于多步驟錯誤級聯(lián),基于自動識別模塊的比喻論點分類流水線系統(tǒng)的表現(xiàn)仍有較大的提升空間。
本文是針對比喻在論辯文本中作用分析的初步嘗試。比喻,尤其是隱喻,不僅是修辭手法,也是認知推理過程,我們將在未來工作中進一步融入隱喻解釋,考察隱喻的真實含義以幫助論辯角色識別。此外,我們也將考察隱喻的新穎性和創(chuàng)新性,分析它們對論辯質量的影響。在論辯文本生成中,引入比喻的論辯類型或論點類型作為指導信息也有助于生成更有趣的比喻論點。