徐 健,郭語凡,喻雪寒,黃雨馨,楊婷婷,王唯一,劉 政
(1. 南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095;2. 南京農(nóng)業(yè)大學(xué)經(jīng)濟管理學(xué)院農(nóng)林經(jīng)濟管理博士后流動站,南京 210095)
隨著數(shù)字學(xué)術(shù)出版物數(shù)量的爆發(fā)式增長,信息爆炸與知識匱乏的矛盾日益突出。在學(xué)術(shù)大數(shù)據(jù)的背景下,如何利用機器學(xué)習(xí)、自然語言處理等技術(shù)對學(xué)術(shù)文獻中的文本進行自動化、細(xì)粒度地組織,挖掘其中蘊藏的理論與知識,是擺在科技情報領(lǐng)域?qū)W者面前的一個重要且富有挑戰(zhàn)性的科學(xué)問題。學(xué)術(shù)觀點,或稱學(xué)者觀點(論點),是指學(xué)者對于研究問題的看法、發(fā)現(xiàn)、見解或主張,是學(xué)者開展學(xué)術(shù)研究對學(xué)界形成的主要貢獻,也是學(xué)術(shù)信息交流的主要內(nèi)容和形式。1644 年,約翰·彌爾頓在其著作《論出版自由》中,首次提出觀點的自由市場理論,認(rèn)為真理是通過各種意見的自由辯論和競爭獲得的,并非權(quán)力賜予。以“太陽與地球運動關(guān)系”這一問題為例,不同歷史時期學(xué)者提出、豐富和發(fā)展了地心說、日心說和宇宙大爆炸等學(xué)術(shù)論斷,如圖1 所示。可以看出,新學(xué)術(shù)論斷對原有論斷的質(zhì)疑、證偽、修正或推翻可視為科學(xué)研究進步的表現(xiàn)。同時,不同學(xué)派、學(xué)者學(xué)術(shù)觀點或論斷的交鋒、爭辯、相互補充和借鑒形成了學(xué)術(shù)研究進步的內(nèi)在動力。與知識被廣泛接受不同,學(xué)術(shù)論斷(或觀點)具有主觀性的特點,主要是由于不同學(xué)者在研究視角、立場、知識結(jié)構(gòu)、價值觀等方面存在差異。同時,學(xué)術(shù)論斷的正確性還需在實踐中經(jīng)過同行學(xué)者和專家的進一步檢驗。
圖1 學(xué)術(shù)論斷在推動知識更新與科學(xué)進步中作用示意圖
學(xué)術(shù)觀點(或論點)通常以學(xué)術(shù)文本中的論斷性句子(claim sentences)的形式出現(xiàn)。目前,對領(lǐng)域?qū)W術(shù)觀點的梳理和歸納通常通過人工閱讀和整理,繁重的閱讀任務(wù)擠占了學(xué)者思考和實驗的時間,降低了其研究效率?;诖?,本文探索學(xué)術(shù)論斷句的自動識別方法,選擇信息資源管理領(lǐng)域499篇論文摘要和249 篇論文全文作為研究樣本,標(biāo)注其中論斷句和非論斷句,利用傳統(tǒng)機器學(xué)習(xí)和深度方法對此類句子進行識別。本文關(guān)注的研究問題包括:①學(xué)術(shù)論斷句的判定標(biāo)準(zhǔn)有哪些?②何種分類器對學(xué)術(shù)論斷句的識別效果較好?③學(xué)術(shù)論斷句和非學(xué)術(shù)論斷句在長度、位置、TextRank 權(quán)重等方面的特征存在什么差異,能否被用于識別學(xué)術(shù)論斷句?通過探究上述問題,在明確學(xué)術(shù)論斷句概念基礎(chǔ)上,通過非結(jié)構(gòu)化的外在語言表現(xiàn)形式將學(xué)術(shù)觀點句與非學(xué)術(shù)觀點句區(qū)分開來,形成初具規(guī)模的標(biāo)注語料和標(biāo)注平臺,為其他功能類型語句標(biāo)注、識別提供思路與工具上的參考。同時,通過對比不同類型特征對于學(xué)術(shù)論斷句識別的有用性和各類識別方法的準(zhǔn)確性,為后續(xù)學(xué)術(shù)論斷句的進一步分類、組織與語義關(guān)聯(lián)奠定基礎(chǔ)。同時,本文的研究內(nèi)容還可以進一步豐富觀點挖掘研究場景,完善學(xué)術(shù)文本處理方法,通過對學(xué)術(shù)文本中的論斷進行識別可以提高讀者閱讀效率。相關(guān)過程對學(xué)術(shù)信息資源利用效率、知識服務(wù)水平和知識交流效率的提高具有重要價值。
本文組織結(jié)構(gòu)如下:第2 節(jié)從論辯挖掘、學(xué)術(shù)文本處理兩個角度梳理相關(guān)研究,指出現(xiàn)有研究不足;第3 節(jié)介紹數(shù)據(jù)集和標(biāo)注過程,明確標(biāo)注標(biāo)準(zhǔn),對標(biāo)注結(jié)果進行描述;第4 節(jié)介紹了所使用模型與基準(zhǔn)模型原理、評價指標(biāo),開展識別實驗,分析實驗結(jié)果,對比論斷句和非論斷句文本特征,探索各類特征對識別效果的影響;最后,總結(jié)本文的研究結(jié)論,討論研究的局限性和創(chuàng)新性,并對未來研究進行展望。
論辯挖掘(argument minging)研究可視為觀點挖掘(opinion mining)的延續(xù),所分析的文本類型涵蓋新聞、政治演講、學(xué)術(shù)論文、法院判例等內(nèi)容。相關(guān)研究旨在對非結(jié)構(gòu)化文本進行分析,抽取其中的論辯結(jié)構(gòu),其理論來源于哲學(xué)中的邏輯學(xué)。早在20 世紀(jì)50 年代,圖爾敏模型[1](Toulmin model)就已被提出,包括主張、依據(jù)、正當(dāng)理由、支援、模態(tài)限定詞、反駁等元素。弗里曼(J. B. Freeman)將反駁分為消解反駁(undercutting defeater)和直接反駁(rebutting defeater),進一步豐富了圖爾敏模型[2]。
現(xiàn)有論辯挖掘研究在方法層面重點關(guān)注論辯部件(argument component)和論辯結(jié)構(gòu)(argument structure)的識別與抽取。其中,論辯部件可視為論辯結(jié)構(gòu)的基本元素,也稱為argumentative discourse unit(ADU)或argument unit,具有判斷性(declar‐ative)、可證偽性(falsifiability)的特征。Walton[3]將論辯結(jié)構(gòu)定義為若干前提與結(jié)論間組成的支持或攻擊關(guān)系。論辯關(guān)系中的前件(premise) 和結(jié)論(conclusion)均可被稱為論辯部件。目前,對論辯部件的識別包括非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)兩種方法:①在非監(jiān)督學(xué)習(xí)方法方面,Petasis 等[4]在帖子和議論文數(shù)據(jù)上驗證了基于TextRank 的抽取式摘要算法有助于論辯部件的識別。Levy 等[5]通過觀察提出一種在語料庫層面的查詢表達式,并據(jù)此進行論斷句識別。②在監(jiān)督學(xué)習(xí)方法方面,Mochales-Palau等[6]、Palau 等[7]、Moens 等[8]在Araucaria 數(shù)據(jù)集上使用二元分類的方法進行論辯性句子的識別,并對各類特征與分類器效果進行了對比。此外,Habernal等[9]發(fā)現(xiàn)論辯部件與句子并非一一對應(yīng),還可能存在一句內(nèi)包含多個論辯部件或者一個論辯部件由多句組成的現(xiàn)象。針對一句對應(yīng)多個論辯部件的情況,目前多數(shù)研究通過序列標(biāo)注的方式對句內(nèi)詞匯角色進行標(biāo)注,通過識別論辯部件邊界詞進行論辯部件的抽取,代表性研究如Park 等[10]、Sardianos等[11]、Petasis[12]等。
論辯結(jié)構(gòu)主要是指論辯部件間關(guān)系,包括微觀和宏觀兩個層面:①微觀關(guān)系旨在分析論辯部件(argumentative components)間的推理關(guān)系,主要應(yīng)用在獨白型文本或篇幅較短的評論信息中。Trevisan等[13]通過詞性標(biāo)注的方式歸納了英文中表示論點和結(jié)論間推理關(guān)系的提示詞(conclusiva)。Carstens等[14]通過對句子對之間的關(guān)系進行分類,實現(xiàn)了論辯性句子的識別。Stab 等[15]在使用多類分類器對論辯部件類別進行判定的基礎(chǔ)上,進一步采用分類的算法對論辯部件二元對是否存在支持關(guān)系進行分類。Lawrence 等[16]從語料庫中抽取關(guān)聯(lián)陳述,使用矩陣表示主題不同方面間的關(guān)聯(lián)與推理關(guān)系。②論辯性文本間宏觀關(guān)系多出現(xiàn)在對白型文本或多文檔分析中。例如,Palau 等[7]使用語法分析的方法對法律文本中論斷間的關(guān)系進行判斷,Boltu?i? 等[17]采用文本蘊含分析(text entailment analysis)的方法對論壇中不同帖子之間的語義關(guān)系進行判定。受ACL、EMNLP 等國際會議推動,目前該領(lǐng)域方法已經(jīng)在教育、法律、社交媒體、辯論等類型文本上開展了廣泛的實驗,涌現(xiàn)出了較多的領(lǐng)域語料庫。
論辯挖掘在學(xué)術(shù)場景下主要有如下三個方面的應(yīng)用:①對學(xué)生撰寫的議論文論辯結(jié)構(gòu)進行識別并對其質(zhì)量進行評估。例如,Ong 等[18]使用基于規(guī)則的方法對來自匹茲堡心理學(xué)本科生撰寫的議論文中的句子類型進行識別并對文章質(zhì)量進行評分,發(fā)現(xiàn)其與專家對文章的評分存在相關(guān)性;Song 等[19]對學(xué)生撰寫論文的論證策略(argument schema)進行標(biāo)注,并分析其與專家評分之間的相關(guān)關(guān)系;Beig‐man Klebanov 等[20]研究發(fā)現(xiàn)論證結(jié)構(gòu)可以比文章內(nèi)容本身更準(zhǔn)確地預(yù)測文章質(zhì)量。②學(xué)術(shù)文本中論辯結(jié)構(gòu)表示方法。Green[21]研究了醫(yī)學(xué)診斷報告中的論辯修辭結(jié)構(gòu)的表示方法。Accuosto 等[22]以計算機語言學(xué)(computational linguistics,CL)和生物醫(yī)學(xué)(biomedicine,BIO)領(lǐng)域為例,提出一種摘要層面論辯單元和關(guān)系的標(biāo)注方案,并利用轉(zhuǎn)移學(xué)習(xí)方法預(yù)測文本論辯結(jié)構(gòu)[23]。③論斷句識別方法方面。Graves 等[24]發(fā)現(xiàn)實驗性論文標(biāo)題中的動詞出現(xiàn)頻次隨時間增長,這有助于知識的傳播。Park 等[25]探索了利用語義、句法等特征識別學(xué)術(shù)論文中的比較型論斷句。從整體上來看,學(xué)術(shù)場景的論辯挖掘研究相對較少;而且,國外相關(guān)研究熱度較大,國內(nèi)開展的研究還比較少,以中文為對象的論辯挖掘則更加少見。相關(guān)研究還存在判斷標(biāo)準(zhǔn)缺失、語料標(biāo)注不規(guī)范的問題。本文著重關(guān)注中文學(xué)術(shù)文本中論斷句的標(biāo)注與抽取工作,形成標(biāo)注語料,并探索其自動化識別方法。未來還將就學(xué)術(shù)論斷的進一步分類、關(guān)聯(lián)和組織開展研究。
學(xué)術(shù)文本是學(xué)者發(fā)表自己觀點與思想、研究發(fā)現(xiàn)的一種重要手段,通過閱讀學(xué)術(shù)文本可以與同領(lǐng)域?qū)W者進行跨時間和空間地信息交流,對學(xué)者增長見識、把握前沿、獲得啟發(fā)等具有重要作用。學(xué)術(shù)文本數(shù)量的增長促進了各類學(xué)術(shù)文本分析與處理工具的產(chǎn)生與發(fā)展。相關(guān)研究涉及計算機語言學(xué)、自然語言處理和語義出版等學(xué)科領(lǐng)域。其中,對學(xué)術(shù)文本按照一定的方式進行分類可以滿足用戶更細(xì)粒度的檢索需求,學(xué)術(shù)文本分類主要關(guān)注論文中各個片段功能的識別,按照粒度可以分為句子層面和篇章層面。
句子層面主要關(guān)注定義句[26]、創(chuàng)新句[27]、未來工作句[28]、研究方法句[29]等類型句子的識別方法,其潛在應(yīng)用主要在于為用戶提供更細(xì)粒度的檢索結(jié)果。在此基礎(chǔ)上,部分學(xué)者對特定類型的句子進行了更細(xì)粒度的劃分。例如,張穎怡等[29]將研究方法句進一步分為使用研究方法和引用研究方法,并對其分布情況做了對比。溫浩[30]將創(chuàng)新句分為問題、方法、結(jié)果等6 種類型,并研究其自動識別的方法。學(xué)術(shù)文本中的句子功能在語法、語義和語用各個層面均有不同的分類標(biāo)準(zhǔn)和方式,各個類別之間的重合和覆蓋關(guān)系也需要進一步探討。同時,在漢語和學(xué)術(shù)環(huán)境下句子往往比較長,可以視為復(fù)句,還需要進一步拆分為具有單一功能類型的子句才可以開展學(xué)術(shù)評價、知識挖掘等類型的應(yīng)用。
學(xué)術(shù)文本結(jié)構(gòu)主要關(guān)注學(xué)術(shù)論文中各篇章的功能,目前各學(xué)者主要關(guān)注功能的識別。Ma 等[31]構(gòu)建了一個數(shù)據(jù)標(biāo)注平臺,旨在解決語料標(biāo)注過程中的數(shù)據(jù)管理與規(guī)范問題。在識別方法上,Ma 等[32]、陸偉等[33]、黃永等[34]探索了利用章節(jié)內(nèi)容、位置、標(biāo)題及段落內(nèi)容識別學(xué)術(shù)文本結(jié)構(gòu)功能的方法。在應(yīng)用上,方龍等[35]提出將學(xué)術(shù)文本結(jié)構(gòu)功能特征應(yīng)用于關(guān)鍵詞抽取,在ScienceDirect 數(shù)據(jù)庫上取得了較好的效果。本文的研究內(nèi)容可以視為論辯挖掘和學(xué)術(shù)文本信息分類的交叉領(lǐng)域,其概念的界定和相關(guān)理論主要來自前者,而所用的方法與技術(shù)則更多地借鑒了學(xué)術(shù)文本信息分類方面的方法。在研究中,重點關(guān)注學(xué)術(shù)文本中的論斷句的判斷標(biāo)準(zhǔn),并探索現(xiàn)有學(xué)術(shù)文本處理技術(shù)在論斷句識別過程中的效果,為后續(xù)論斷句結(jié)構(gòu)化知識建模和關(guān)系判斷奠定基礎(chǔ)。
本文立足圖書情報領(lǐng)域,從摘要和全文兩個層面研究學(xué)術(shù)文本論斷句標(biāo)注過程和自動化識別方法。本文選擇信息資源管理領(lǐng)域部分學(xué)術(shù)文本文獻,搜集和處理文獻題錄信息,尋找全文內(nèi)容,構(gòu)建數(shù)據(jù)集。在此基礎(chǔ)上組建數(shù)據(jù)標(biāo)注小組,在標(biāo)注過程中探討標(biāo)注論斷句的判斷標(biāo)準(zhǔn),對論斷句和非論斷句進行標(biāo)注,形成語料集,為下文探索學(xué)術(shù)論文句識別方法提供訓(xùn)練與測試數(shù)據(jù)集(圖2)。
圖2 學(xué)術(shù)文本中論斷句標(biāo)注過程
本研究選擇《中文社會科學(xué)引文索引》(Chi‐nese Social Sciences Citation Index,CSSCI) 作 為 數(shù)據(jù)源,以“關(guān)鍵詞=信息資源管理”為檢索式,共獲得1998—2018 年這21 年發(fā)表的499 篇文獻,檢索日期為2019 年5 月31 日。之所以將語料限定在該主題內(nèi),主要是基于標(biāo)注團隊的學(xué)科和專業(yè)背景,且數(shù)據(jù)規(guī)模適中。下載這些題錄數(shù)據(jù),并使用Java程序?qū)@些數(shù)據(jù)進行解析,存儲在MySQL 數(shù)據(jù)庫中。在中國知網(wǎng)中對這些數(shù)據(jù)進行逐一查詢,發(fā)現(xiàn)部分文獻由于數(shù)據(jù)庫記錄錯誤,或者由于文獻較早并未找到數(shù)據(jù)來源。在這499 篇文獻中,有463 篇找到了摘要,249篇有HTML 格式正文。對摘要中數(shù)據(jù)按照正則表達式[!?。?。縘進行分句;對于全文數(shù)據(jù),先按照正則表達式[0123346789 零一二三四五六七八九][^.)](.)*[^.,?!。,?!]識別一級標(biāo)題,然后按照摘要分句的方式對一級標(biāo)題下的各個段落進行分句,對句子文內(nèi)和段內(nèi)位置順序進行記錄。對句子中出現(xiàn)的亂碼進行識別,對句子錯分和非正文短句進行剔除。
最終,從摘要和全文中分別得到853 個和24401個句子,形成本文的研究數(shù)據(jù)。在摘要層面,平均每篇文獻包含1.85 個摘要句,句均長度為65.1 個字;在全文層面,平均每篇文獻包含98.0 個全文句,句均長度為60.6 個字。招募5 名標(biāo)注人員,以文檔為單元分配標(biāo)注任務(wù),任務(wù)分配過程要確保各摘要和全文被3 位人員標(biāo)注,以便對爭議性標(biāo)注結(jié)果進行最終決策。
在預(yù)標(biāo)注階段,針對標(biāo)注過程中存在的分歧進行討論,形成論斷句的6 個判定標(biāo)準(zhǔn),包括3 個必要條件和3 個充分條件。必要條件可從反面排除非論斷句,充分條件可從正面確定論斷句。具體而言,必要條件是指論斷句一定具有的特征,若不符合則為非論斷句,包括:①信念感。主要排除那些作者尚未形成確定判斷的語句,包括疑問句和假設(shè)階段的判斷句;②對象和判斷完備。主要對未形成完整命題的短文本,包括短標(biāo)題、不完整的句子進行剔除。③可證偽。這個判斷標(biāo)準(zhǔn)主要是指存在與該論斷相對立或者競爭關(guān)系的其他論斷,此處主要排除對事實的描述和對現(xiàn)有方法、工具的介紹,此類句子在句前添加“我認(rèn)為”后,句子會變得不通順。充分條件是指滿足此類條件的一定是論斷句,但論斷句并不一定滿足該標(biāo)準(zhǔn),包括:①預(yù)測性。對未來發(fā)展進行預(yù)測,預(yù)測結(jié)果需要未來發(fā)展進行驗證。②個人理解。對一些抽象概念的定義和理解,學(xué)術(shù)應(yīng)允許存在對同一概念的不同理解。③包含一定價值判斷和主張傾向的句子。建立在價值觀基礎(chǔ)上,是一種應(yīng)然性判斷。需要說明的是,本研究并未區(qū)分作者本人的論斷和引用他人的論斷,也未區(qū)分個人觀點和公認(rèn)的觀點;同時,在標(biāo)注過程中并未考慮論斷句間的論辯關(guān)系。因此,本研究識別的論斷句既包括論點句,也可能包括論斷性的論據(jù)句,相關(guān)例句如表1所示。
表1 論斷句標(biāo)注標(biāo)準(zhǔn)和反面例句
本節(jié)對學(xué)術(shù)觀點句的標(biāo)注可以分為摘要層面和全文層面。標(biāo)注人員采用如圖3 所示的界面對文獻摘要中的句子進行標(biāo)注。單擊句子,可將該句標(biāo)注為論斷句(句子底線變?yōu)楹谏珜嵕€),再次點擊后可以標(biāo)記為非論斷句(句子底線變?yōu)楹谏摼€),第三次點擊刪除其論斷句標(biāo)注結(jié)果(刪除底線)。在左上角分別有標(biāo)注完成和清除標(biāo)注結(jié)果兩個按鈕,分別可以提交標(biāo)注任務(wù)和取消標(biāo)注結(jié)果。文獻《重視發(fā)展二級學(xué)科,科學(xué)定名一級學(xué)科——再論本學(xué)科建設(shè)問題》的摘要共包含3 句話。第一句話是對圖書館學(xué)教育萎縮的原因進行解讀,第二句話介紹了該研究的任務(wù),最后一句話表達了作者的建議。將第一句和第三句標(biāo)注為論斷句,通過異步的方式完成存儲。
圖3 摘要層面論斷句/非論斷句標(biāo)注
在全文層面,本研究選擇了與論文整體研究主題契合程度比較高的句子進行標(biāo)注。學(xué)術(shù)論文的關(guān)鍵詞、摘要、標(biāo)題等集中反映了學(xué)術(shù)論文的研究主題與研究對象,因此,主要從這三個部分中識別論文的研究主題詞。遍歷整個文檔庫,計算各個詞匯的逆文檔頻率和重要性。考慮各個詞匯的位置與數(shù)量,計算各詞匯對其所在論文主題的揭示程度,其計算過程為
其中,wi,j表示第j篇文獻中的詞匯wi的重要性;context 可以取值為關(guān)鍵詞、標(biāo)題與摘要,本研究分別設(shè)置其權(quán)重分別為1、0.5 和0.1,對于未出現(xiàn)在三個主題區(qū)的詞匯,其權(quán)重設(shè)定為0.01。對于每一個句子,其重要性記為各個詞匯形成的向量與論文重要性詞匯形成的向量之間的余弦夾角。計算完成后,從中抽取出主題相似性排在前20%的句子。圖4 給出了全文標(biāo)注的樣例界面,背景為灰色的句子是被選出的主題相似性比較高的句子,其余標(biāo)注過程與摘要相同。
圖4 全文層面論斷句和非論斷句標(biāo)注
由于標(biāo)注過程中有多位標(biāo)注人員參與,本研究選擇kappa 指標(biāo)[36]來評估標(biāo)注人員之間的一致性程度,該指標(biāo)取值為[0,1.0]。通常情況下,該指標(biāo)小于0.2,說明一致性程度較低;該指標(biāo)位于[0.2,0.4),說明標(biāo)注的一致性程度一般;該指標(biāo)位于[0.4,0.6),說明一致性程度中等;該指標(biāo)位于[0.6,0.8),說明兩者標(biāo)注一致性程度較強;該指標(biāo)位于[0.8,1.0],說明一致性程度很強。例如,Ai和Aj是不同的兩個標(biāo)注者,計算標(biāo)注者Ai和Aj對于共同待標(biāo)注句子的標(biāo)注矩陣Mi,k和Mj,k,通過計算Mi,k的轉(zhuǎn)置和Mj,k矩陣相乘的乘積形成混淆矩陣,最后計算該混淆矩陣的kappa 值。此外,本研究將所有可標(biāo)注文獻隨機分給5 位標(biāo)注者(分別記作A1~A5),確保每篇文獻的摘要和全文至少分配給3 名標(biāo)注者。將學(xué)術(shù)文獻摘要和全文賦予5 位標(biāo)注者進行標(biāo)注,形成20 個kappa 數(shù)值,任務(wù)分配與標(biāo)注一致性如表2 所示。
表2 學(xué)術(shù)觀點句識別標(biāo)注一致性結(jié)果
從表2 可以看出,標(biāo)注者A1和A2一致性高達93.95%,可認(rèn)為其標(biāo)注近乎完全一致。剩余各標(biāo)注二元組的一致性也都大于70%,可認(rèn)為是高度一致。對于每一篇論文的摘要和全文的標(biāo)注結(jié)果進行合并。為保障數(shù)據(jù)的準(zhǔn)確性,對標(biāo)注者標(biāo)注存在不一致的句子召集標(biāo)注者進行最終決策,采取多數(shù)裁定原則。最終,共形成2884 句論斷句,2479 句非論斷句,具體標(biāo)注數(shù)據(jù)如表3 所示。
表3 論斷句標(biāo)注結(jié)果
在生成論斷句標(biāo)注數(shù)據(jù)的基礎(chǔ)上,本文將學(xué)術(shù)文本中論斷句的識別轉(zhuǎn)化為論斷句與非論斷句的二元分類問題。選擇部分文本用傳統(tǒng)機器學(xué)習(xí)方法與深度學(xué)習(xí)方法進行訓(xùn)練,評估各算法識別效果。在此基礎(chǔ)上,對比論斷句和非論斷句在長度、位置、TextRank 特征上分布的差異,分析不同特征對識別算法效果是否存在提升作用。
本文使用WEKA 和PyTorch 中提供的分類器模型進行論斷句識別實驗,前者主要包含傳統(tǒng)機器學(xué)習(xí)算法,后者則主要提供一些深度學(xué)習(xí)算法的實現(xiàn)。
本文選擇傳統(tǒng)的機器學(xué)習(xí)算法包括:方法①k近鄰(k-nearest neighbor,kNN)[37]:該方法是最簡單的文本分類方法之一,尋找與待分類節(jié)點最相近的k個節(jié)點,然后將其類別設(shè)定為這k個節(jié)點中數(shù)目最多的類別;方法②樸素貝葉斯(naive Bayesian,NB)[38]:該方法采用貝葉斯推理過程將文本類別判定轉(zhuǎn)化為詞匯類別判定問題,假設(shè)文本中的詞匯特征之間相互獨立;方法③決策樹算法:對待分類數(shù)據(jù)特征進行分析構(gòu)建決策樹,可視為一系列分類特征,本文選擇C4.5 算法[39]進行模型訓(xùn)練;方法④支持向量機(support vector machine,SVM)[40]:該方法使用代數(shù)運算的方法計算分類的邊界,核心技術(shù)包括最大間隔、對偶、核技巧,比較適合二元分類問題;方法⑤最小序列優(yōu)化(sequential minimal optimization,SMO)[41]:該方法是一種解決支持向量機訓(xùn)練過程中所產(chǎn)生優(yōu)化問題的算法。
BERT (bidirectional encoder representation from transformers)[42]由谷歌提出,近年來在文本挖掘領(lǐng)域獲得了廣泛的應(yīng)用。本文選擇的深度學(xué)習(xí)方法包括:方法⑥BERT+FC、方法⑦BERT+BiLSTM(bi‐directional long short-term memory)兩個模型。前者使用BERT 對句子進行表示,使用全連接層(fully connection layer)進行分類學(xué)習(xí);后者在BERT 層對句子進行表示的基礎(chǔ)上,加入雙向長短時記憶網(wǎng)絡(luò),輸出預(yù)測結(jié)果。在模型運行過程中,隱藏層設(shè)置為768,開啟BERT 的fine-turning 微調(diào)模式,Epoch設(shè)置為10,Batch 為32,學(xué)習(xí)率設(shè)置為2e-5。
本文將學(xué)術(shù)文本中論斷句的識別轉(zhuǎn)化為一個句子二元分類問題。嘗試使用傳統(tǒng)機器學(xué)習(xí)分類和深度學(xué)習(xí)算法對學(xué)術(shù)論斷句進行識別。表4 為識別方法結(jié)果鄰接表。
表4 識別方法的結(jié)果鄰接表
使用準(zhǔn)確率(p)與召回率(r)、F_1 值三種指標(biāo)對模型識別的效果進行評價。計算公式為
為避免過適應(yīng)性,使用10 折交叉檢驗的方式進行模型效果的評估。也就是將數(shù)據(jù)集盡可能平均地分為10 份,訓(xùn)練10 次,每輪選擇1 份數(shù)據(jù)作為測試集,其中,方法①~方法⑤使用剩余9 份作為訓(xùn)練集,方法⑥和方法⑦則將這9 份中的8 份作為訓(xùn)練集,1 份作為驗證集。各分類方法在論斷句識別任務(wù)中的效果如表5 所示。
從表5 可以看出,深度學(xué)習(xí)方法整體上要顯著優(yōu)于傳統(tǒng)機器學(xué)習(xí)算法的識別效果。其中,BERT+BiLSTM 在摘要和全文層面均取得論斷句識別效果最優(yōu)的效果。SVM 方法在摘要層面表現(xiàn)最差,訓(xùn)練出的模型將所有數(shù)據(jù)都預(yù)測為非論斷句,導(dǎo)致論斷句識別的準(zhǔn)確率和召回率均為0。結(jié)合上文訓(xùn)練數(shù)據(jù)判斷,該方法在預(yù)測時會更多地將未知數(shù)據(jù)標(biāo)注為多數(shù)類別。此外,各類方法在摘要層面的識別綜合效果F_1 值均不如在全文層面,說明在摘要識別方面還存在比較大的提升空間,數(shù)據(jù)規(guī)模、正負(fù)例比例是影響模型識別效果的主要原因。同時,本文是對整句進行標(biāo)注的,那些既包含論斷性子句又包含非論斷性子句的長句,加大了論斷句的識別難度。
表5 各分類方法識別效果對比分析 %
為進一步改善識別效果,本文對標(biāo)注的摘要和全文中的論斷句和非論斷句的文本特征進行對比,包括長度、位置、TextRank 等,并將其融入識別模型中,以期提升傳統(tǒng)機器學(xué)習(xí)方法識別論斷句的效果。
1)長度特征對比分析
在摘要層面,共有463 篇858 個句子,其中390句被標(biāo)注為論斷句,468 句被標(biāo)注為非論斷句。摘要層面,論斷句長度平均為184.2 個字,非論斷句平均長度為187.5 個字,圖5 為摘要中論斷句/非論斷句長度頻率分布折線圖。將句子長度以10 為組距分組,計算各組句子數(shù)目及頻次占比,將多于300 個字的句子作為最后一組單獨呈現(xiàn)。
從圖5 可以看出,論斷句在50~190 個字長度區(qū)間的頻次要顯著高于非論斷句。在全文層面,標(biāo)注全文中的論斷句長度平均為191.6 個字,非論斷句長度平均為139.2個字,其長度頻率分布折線如圖6所示。
圖5 摘要中論斷句與非論斷句長度頻率分布折線圖
從圖6 可以看出,論斷句與非論斷句長度的頻率分布存在顯著差異。在低于80 個字的句子中,非論斷句占比較高,論斷句占比較低,說明長度特征可能有助于學(xué)術(shù)文本中論斷句的識別。這可能是由于在標(biāo)注過程中,一些較短的句子如標(biāo)題、過渡句等并未包含完整的命題信息,更多地被標(biāo)注為非論斷句。
圖6 全文中論斷句與非論斷句長度頻率分布折線圖
2)位置特征對比分析
為揭示摘要中論斷句和非論斷句位置分布差異,本文對不同句數(shù)摘要中論斷句出現(xiàn)位置頻次進行統(tǒng)計。在標(biāo)注的463 篇摘要中,數(shù)量最多的為9句,大部分文獻(97.2%) 摘要句數(shù)在5 句以內(nèi)。為分析摘要中各位置論斷句占比,本文繪制了5 句內(nèi)摘要各位置論斷句概率圖,每列表示相應(yīng)句數(shù)摘要的情況,括號內(nèi)數(shù)字表示對應(yīng)該摘要句數(shù)的文獻數(shù)目,黑色部分面積表示該位置論斷句占比,如圖7 所示。
圖7 摘要中論斷句出現(xiàn)位置頻次分布
從圖7 可以看出,在僅包含1 個句子的摘要(223篇)中,包含論斷句的情況比較少(20.1%),大多是對研究過程的客觀論述。在包含2 個句子的摘要中(150 篇)中,首句為論斷句的占比要大于第2 句為論斷句的占比。在包含2~5 個句子的摘要中,位置越靠前,論斷句出現(xiàn)概率就越高。在全文層面,本文從段內(nèi)位置和文內(nèi)位置兩個方面對論斷句出現(xiàn)位置進行分析。共有249 篇文獻擁有全文數(shù)據(jù),共標(biāo)記出論斷句2513 句,非論斷句1992 句。僅有1 句的段落中,僅20.2%的句子被標(biāo)注為論斷句,這要遠(yuǎn)低于整體上55.8%的論斷句占比。單句段落通常為過渡句,多被標(biāo)注為非論斷句。在包含2 個句子的段落(69.5%)中,首句標(biāo)注為論斷句的概率要高于第2 句(56.5%)。在3句及3句以上段落中,統(tǒng)計段首句、段中句和段尾句標(biāo)注為論斷句的概率分布如圖8所示。
圖8 3句及3句以上段落中論斷句出現(xiàn)位置概率分布
從圖8 可以看出,在3 句及3 句以上的段落中,段落首尾處被標(biāo)注為論斷句的概率要比段中句高,且段首句要略低于段尾句。這符合寫作過程中,在首句或尾句給出論斷的習(xí)慣。本文使用文內(nèi)相對位置來表示論斷句與非論斷句在全文中的位置,即對論文中各個句子按照出現(xiàn)次序進行編號,句子文內(nèi)相對位置定義為其編號與全文句子數(shù)目的比值。將句子文內(nèi)相對位置按照0.05 的組距分為20 組(左開右閉),論斷句在文內(nèi)相對位置的概率分布折線如圖9 所示。
從圖9 可以看出,論斷句在論文開頭和結(jié)尾兩處出現(xiàn)的概率較大,整體呈U 形分布。具體來說,論斷句在文內(nèi)相對位置前5%和后15%出現(xiàn)的概率要高于非論斷句,其他位置非論斷句出現(xiàn)的概率要高于論斷句。這可能是因為在寫作過程中,多數(shù)學(xué)者會在論文最前面直接拋出論點或者在論文末尾總結(jié)性地給出結(jié)論。
圖9 論斷句和非論斷句在文內(nèi)相對位置的概率分布折線圖
3)TextRank 特征對比分析
在文摘研究領(lǐng)域,TextRank 算法[43]常被用于抽取文本中比較重要的詞與句子,其核心思想是用隨機游走的方式對句子權(quán)重進行計算。使用HanLP 工具[44]計算各文獻句子初始TextRank 權(quán)重,并對該數(shù)值采用均值歸一化的方式形成最終取值介于0~1 的文內(nèi)相對權(quán)重。對歸一化后的TextRank 數(shù)值按0.05的組距進行分組操作,共得到20 組(左開右閉),圖10 給出了全文層面標(biāo)注論斷句、非論斷句和所有句子的頻率分布對比。
圖10 論斷句和非論斷句TextRank權(quán)重頻率分布折線圖
整體來看,所有句子的文內(nèi)相對TextRank 權(quán)重呈現(xiàn)倒U 形分布,而本文標(biāo)注的論斷句和非論斷句分布頻率卻隨著TextRank 數(shù)值的升高呈上升趨勢,這是由于本文在選擇標(biāo)注數(shù)據(jù)時就選擇了和全文主題比較契合的句子。從標(biāo)注結(jié)果來看,非論斷句和論斷句頻率分布曲線在TextRank 取值為0.55 處存在交點,在大于該值的組內(nèi),論斷句分布頻率要略高于非論斷句。非論斷句TextRank 均值為0.520,而論斷句TextRank 均值略高,為0.538。
根據(jù)上文論斷句和非論斷句文本特征對比分析的結(jié)果,考慮在摘要和全文層面將部分特征融入識別模型以提升效果。這些特征包括:
(1)長度特征集。包括31 個特征。將句子長度以10 為組距,分成31 組,多于300 個字的歸為第31 組,將句長所屬組對應(yīng)特征賦值為1,其余賦值為0。
(2)段內(nèi)句數(shù)與位置。共包括6 個特征:獨段句和兩句段落分別將para_single 和para_dual 特征賦值為1,其余特征賦值為0。三句(含)以上段落將para_multi 特征賦值為1,para_first、para_middle和para_last 分別表示是否為段首、段中和段尾句。
(3)文內(nèi)相對位置。包括20 個特征項。將句子文內(nèi)相對位置以0.05 為組距,分成20 組,將句子文內(nèi)相對位置所屬組對應(yīng)特征賦值為1,其余賦值為0。
(4)TextRank。將句子TextRank 值以0.05 為組距分成20 組,所屬組對應(yīng)特征項賦值為1,其余賦值為0。
上述特征中,(1)和(2)是摘要和全文層面共有的特征,而(3)和(4)則是全文層面數(shù)據(jù)所獨有的特征。按照4.3 節(jié)的分析結(jié)果,在摘要和全文層面分別選擇傳統(tǒng)機器學(xué)習(xí)模型中表現(xiàn)最優(yōu)的SMO 和SVM 進行特征擴充實驗。表6 列出了加入這些特征后,模型識別效果變化情況。
表6 特征擴充識別效果分析
從表6 可以看出,在摘要數(shù)據(jù)上,僅加入長度特征后模型識別效果有較小提升,而段內(nèi)位置特征加入后,識別效果幾乎沒有變化;結(jié)果顯示,將長度特征加入綜合特征后,準(zhǔn)確率、召回率、F_1 值均小幅度提升0.5%。在全文數(shù)據(jù)上,長度、段內(nèi)位置和文內(nèi)相對位置特征有助于識別效果的提升;TextRank 特征加入后,論斷句識別效果幾乎沒有變化;最終,將有助于提升識別效果的三個特征全部加入特征集,識別準(zhǔn)確率提升2.9%,召回率提升0.1%,F(xiàn)_1 值提升2.0%。
在現(xiàn)代科學(xué)研究中,系統(tǒng)地掌握、及時地了解各領(lǐng)域、學(xué)派、學(xué)者最新的研究發(fā)現(xiàn)和學(xué)術(shù)主張對學(xué)者開展研究工作起著越來越重要的作用。本文在對前人研究進行歸納的基礎(chǔ)上,提出學(xué)術(shù)論斷句的6 個判定標(biāo)準(zhǔn),必要性標(biāo)準(zhǔn)可用于排除非論斷句,包括信念感、完備性、可證偽,充分性標(biāo)準(zhǔn)包括預(yù)測、個人理解和價值判斷三個標(biāo)準(zhǔn)。選擇信息資源管理領(lǐng)域部分論文數(shù)據(jù)開展摘要和全文層面的標(biāo)注實驗,在此基礎(chǔ)上實現(xiàn)論斷句自動化識別。對論斷句和非論斷句文本特征進行分析,研究發(fā)現(xiàn):①使用本文提出的判斷標(biāo)準(zhǔn),標(biāo)注者在摘要和全文層面對學(xué)術(shù)文本中論斷句和非論斷句標(biāo)注的一致性較高。②基于BERT+BiLSTM 論斷句識別方法取得了最優(yōu)的性能。③論斷句和非論斷句的長度在全文中的分布差異要大于在摘要中的差異;論斷句出現(xiàn)在文內(nèi)開頭和結(jié)尾的概率要高于非論斷句,段首和段尾句被標(biāo)注為論斷句的概率高于段中句;學(xué)術(shù)論文中論斷句TextRank 特征取值顯著高于非論斷句。在摘要層面,加入長度特征后,論斷句識別效果在F_1值上提升了0.5%。在全文層面,加入長度、段內(nèi)相對位置、文內(nèi)相對位置特征后,分類器識別效果在F_1 值上取得了2%的提升效果。
本文不足之處在于:①僅選取了信息資源管理領(lǐng)域的部分?jǐn)?shù)據(jù),數(shù)據(jù)量較少,范圍局限于人文社科領(lǐng)域,對自然科學(xué)領(lǐng)域的數(shù)據(jù)并未涉及,相關(guān)識別方法和結(jié)論的普適性還需進一步驗證,未來應(yīng)在此方面加以補充;②在論斷句語料標(biāo)注過程中,雖然不同標(biāo)注人員在一定判定原則的前提下取得了較高的一致性,但數(shù)據(jù)規(guī)模較小,未來應(yīng)對提出的判斷標(biāo)準(zhǔn)進行進一步完善;同時,論文不同區(qū)域的論斷句重要性并不相同,未來應(yīng)考慮論斷句權(quán)重計算問題;③當(dāng)前學(xué)術(shù)文本中論斷句識別已經(jīng)取得較好的效果,但使用的方法、選擇的特征相對有限,準(zhǔn)確率與召回率仍然存在一定提升空間,未來應(yīng)著重挖掘文本的功能結(jié)構(gòu)和推理結(jié)構(gòu),探索詞匯特征、句法特征、位置和長度特征的融合,提高論斷句或?qū)W術(shù)觀點句的識別效果。
此外,在本文的研究基礎(chǔ)上未來還應(yīng)開展如下方向的研究:①本文從整句層面對論斷句進行了識別,未區(qū)分整句中的論斷性和非論斷性成分;未來,應(yīng)從詞匯層面精確地識別邊界,從主題、研究對象和判斷類型等多維視角構(gòu)建學(xué)術(shù)論斷的分類體系,并使用知識抽取的方式對各類論斷句進行細(xì)粒度地結(jié)構(gòu)化表示;②論斷句僅是學(xué)術(shù)觀點或論點的必要條件,未來應(yīng)從論斷句與上下文的修辭、邏輯關(guān)系入手對學(xué)術(shù)文本中的核心學(xué)術(shù)論點進行識別;同時,應(yīng)從歸納和演繹的視角對各個論斷的論證方式和論據(jù)進行識別、匹配和分析,在此基礎(chǔ)上對論點進行權(quán)重評估,從論點間關(guān)系間角度識別文獻核心論點及其之間的語義關(guān)系,全面揭示學(xué)術(shù)論文論證結(jié)構(gòu);③在對單篇學(xué)術(shù)論文論證結(jié)構(gòu)進行識別的基礎(chǔ)上,對同主題多文檔論證結(jié)構(gòu)進行聚類、對齊、比較和歸納,發(fā)現(xiàn)研究者在觀點上的分歧,綜合不同研究視角的觀點對研究對象和問題形成整體性和更全面的認(rèn)知。相關(guān)技術(shù)與方法在學(xué)術(shù)觀點的查重、創(chuàng)新性評估、自動識別學(xué)派上有著廣泛的應(yīng)用前景。