程齊凱,李鵬程,張國標(biāo),陸 偉
(1.武漢大學(xué)信息管理學(xué)院,武漢430072;2.武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢430072)
學(xué)術(shù)文本作為一種高信息密度的文檔資源,是科研工作者實(shí)現(xiàn)知識(shí)生產(chǎn)和知識(shí)組織的重要載體。隨著可獲取數(shù)字圖書資源的日益激增,“信息爆炸”和“信息過載”使得信息精準(zhǔn)檢索和知識(shí)快速獲取越發(fā)困難[1]。即便是在面對(duì)一個(gè)相對(duì)較小的研究課題時(shí),研究者也需要耗費(fèi)大量時(shí)間和精力來完成相關(guān)文獻(xiàn)的查閱工作。為方便研究者索引文獻(xiàn)和獲取知識(shí),現(xiàn)有的符號(hào)系統(tǒng)制定了類目繁多的分類標(biāo)引框架[2],研究者通過使用統(tǒng)一普適的分類號(hào)來提高檢索效率。然而,以文獻(xiàn)為粒度單元的檢索策略,并不能滿足研究者逐漸增長(zhǎng)的細(xì)粒度、導(dǎo)向性的知識(shí)快速獲取需求。Ribaupierre等[3]指出,科研人員信息獲取行為往往基于目標(biāo)和任務(wù)驅(qū)動(dòng),對(duì)于文章中的問題、方法或結(jié)果等特定語篇內(nèi)容更為關(guān)注。因此,學(xué)者們?cè)噲D在理解文本語義信息的基礎(chǔ)上實(shí)現(xiàn)詞匯粒度層面的文本標(biāo)簽構(gòu)建,為知識(shí)密集型領(lǐng)域的知識(shí)服務(wù)體系提供底層索引支持。
學(xué)術(shù)文本詞匯功能識(shí)別的目的是抽取出學(xué)術(shù)文本中表征的問題、方法、對(duì)象和工具等詞匯,其本質(zhì)為信息抽取問題。命名實(shí)體識(shí)別(named entity recognition,NER)作為信息抽?。╥nformation ex‐traction,IE)領(lǐng)域中的重要下游分支,其任務(wù)形式與學(xué)術(shù)文本詞匯功能識(shí)別也較為相似。鑒于命名實(shí)體識(shí)別的相關(guān)基礎(chǔ)技術(shù)(如分詞、詞性標(biāo)注、句法分析)都日趨完善,一種行之有效的策略是使用命名實(shí)體識(shí)別中的序列標(biāo)注完成學(xué)術(shù)文本詞匯功能的自動(dòng)識(shí)別[11,18]。事實(shí)上,隨著基于統(tǒng)計(jì)學(xué)習(xí)的有監(jiān)督模型蓬勃發(fā)展,現(xiàn)有研究多將信息抽取問題轉(zhuǎn)換為機(jī)器可解的標(biāo)簽判定問題或分類問題[4-5],如在詞匯功能識(shí)別任務(wù)中是判別每一個(gè)詞匯或詞匯組合是否屬于特定類別。然而,“人工標(biāo)注語料+機(jī)器學(xué)習(xí)算法”模式下的信息抽取需要大規(guī)模、高質(zhì)量的標(biāo)注語料來完成有監(jiān)督學(xué)習(xí)模型的訓(xùn)練擬合,難以批量獲取的源數(shù)據(jù)以及復(fù)雜煩瑣的數(shù)據(jù)預(yù)處理,使得語料構(gòu)建的成本不斷攀升,由此造成現(xiàn)有判別式識(shí)別方法在準(zhǔn)確率、召回率的提升上頗受掣肘。
在此背景下,本文提出了一種基于深度學(xué)習(xí)和標(biāo)題生成策略的學(xué)術(shù)文本問題方法識(shí)別模型,應(yīng)用Encoder-Decoder架構(gòu)模型讀取文本的語義特征,以自動(dòng)文摘的任務(wù)形式生成能夠揭示文本中核心問題與核心方法的特定樣式標(biāo)題,最終利用正則化實(shí)現(xiàn)問題方法的指代詞匯抽取。相對(duì)于傳統(tǒng)的詞匯功能識(shí)別,本文所提出方法將功能性詞匯的抽取識(shí)別轉(zhuǎn)化為特定形式的標(biāo)題生成問題,具有以下優(yōu)點(diǎn):①可直接利用數(shù)據(jù)庫中所存有的大量規(guī)則樣式標(biāo)題作為模型的訓(xùn)練標(biāo)簽,省去了最為耗時(shí)費(fèi)力的標(biāo)注工作,使得高質(zhì)量、大規(guī)模的語料構(gòu)建成為可能;②本文能夠從涉及多方法、多問題的學(xué)術(shù)文本中直接識(shí)別出具有對(duì)應(yīng)關(guān)系的核心問題與核心方法,可為問題方法對(duì)應(yīng)的知識(shí)庫構(gòu)建提供支持;③相比于判別式分類和序列標(biāo)注的任務(wù)形式,序列到序列的功能詞匯生成須在深層分析和理解文本語義的基礎(chǔ)上實(shí)現(xiàn),與人類行為模式更為契合。
全文后續(xù)內(nèi)容安排如下:第2節(jié)簡(jiǎn)要介紹本文的相關(guān)研究現(xiàn)狀,第3節(jié)詳細(xì)描述基于標(biāo)題生成策略的詞匯功能識(shí)別模型構(gòu)建,第4節(jié)為具體的實(shí)驗(yàn)過程以及實(shí)驗(yàn)結(jié)果,第5節(jié)在全文的基礎(chǔ)上給出了總結(jié)。
在自然語言處理領(lǐng)域中,學(xué)者們通常從語法、語義和語用三個(gè)層面對(duì)語言進(jìn)行建模。語法研究是通過對(duì)語言結(jié)構(gòu)的表示來描述語言符號(hào)的支配規(guī)則,早期的自然語言處理研究也多集中于此[6-8],如分析句子主謂賓結(jié)構(gòu)和詞匯間依存關(guān)系的句法分析便是經(jīng)典任務(wù)之一。在過去的二十余年里,語法層面的自然語言處理研究取得了較大發(fā)展,相關(guān)技術(shù)在諸多領(lǐng)域中也被廣為應(yīng)用[9-10]。隨著統(tǒng)計(jì)學(xué)習(xí)和表示學(xué)習(xí)興起,如何在語義和語用層面表征語句的字符含義以及理解當(dāng)前語境下所表達(dá)的內(nèi)容信息,成為了學(xué)者們的關(guān)注熱點(diǎn)。
詞匯是語言構(gòu)成中最小的基本語義單元,詞匯功能識(shí)別的目的則是從語義和語用的角度探究詞匯在文本中所承載的功能角色[18]。Kondo等[11]于2009年使用CRF(conditional random field)模型對(duì)科技文獻(xiàn)標(biāo)題中的詞匯進(jìn)行“領(lǐng)域(head)”“目標(biāo)(goal)”“方法(method)”及“其他(other)”的類別判定,根據(jù)得到的方法/技術(shù)來描繪特定領(lǐng)域內(nèi)技術(shù)的演化路徑和發(fā)展趨勢(shì)。隨后Nanba等[12]進(jìn)一步將研究點(diǎn)聚焦于“技術(shù)(technology)”識(shí)別,應(yīng)用SVM(support vector machine)方法在專利文本上取得了0.431的召回率和0.545的準(zhǔn)確率。針對(duì)專利分析,Trappey等[13]及Choi等[14]使用“技術(shù)-功效”矩陣[15]實(shí)現(xiàn)專利文本中前沿技術(shù)的識(shí)別挖掘。Gupta等[16]使用句法模板從科技文獻(xiàn)中識(shí)別出“話題(focus)”“技術(shù)(technique)”及“應(yīng)用(application)”。在前者基 礎(chǔ)上,Tsai等[17]對(duì)Bootstrapping算法進(jìn)行了改進(jìn),使得計(jì)算量降低的同時(shí)提升了準(zhǔn)確度。程齊凱[18]在已有文獻(xiàn)的基礎(chǔ)上對(duì)詞匯功能的概念進(jìn)行了界定,詞匯或術(shù)語在文本中所承擔(dān)角色,并構(gòu)建了較為完善的學(xué)術(shù)文本詞匯功能框架。此后,李信等[19]從語義理解的角度出發(fā),依據(jù)程齊凱[18]所構(gòu)建的詞匯功能框架設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)基于詞匯功能識(shí)別的科研文獻(xiàn)分析系統(tǒng)。劉智鋒等[20]將詞匯功能研究的判別對(duì)象限定為關(guān)鍵詞,制定了計(jì)量學(xué)領(lǐng)域關(guān)鍵詞語義功能分類框架:領(lǐng)域、對(duì)象、主題、方法和數(shù)據(jù),并基于該框架構(gòu)建了關(guān)鍵詞語義功能標(biāo)注數(shù)據(jù)集。
總而言之,詞匯功能識(shí)別的相關(guān)研究仍處于初步探索階段,出于研究目的和功能定義等主觀因素,學(xué)者們并未能夠就詞匯的具體功能類別劃分達(dá)成一致。除此之外,客觀上存在的諸多制約也使得詞匯功能的統(tǒng)一顯得殊為不易。例如,每個(gè)學(xué)科或領(lǐng)域中均可能存在獨(dú)有所屬的功能類別,窮盡各個(gè)領(lǐng)域中的所有類別需要極大的工作量;再者,明確各個(gè)功能類別的劃分界線,以及發(fā)現(xiàn)各個(gè)類別間的潛在上下位關(guān)系,也顯得極其困難。通過對(duì)上述研究的梳理分析發(fā)現(xiàn),盡管學(xué)者們?cè)谠~匯功能類別的具體劃分上不盡相同,但對(duì)于“問題”和“方法”的功能類別卻表現(xiàn)出了一致的認(rèn)同性。這是由于“問題驅(qū)動(dòng)”在科學(xué)的進(jìn)步乃至研究工作的推進(jìn)中均扮演了關(guān)鍵角色。因此,本文沿用程齊凱[18]所提出的詞匯功能劃分體系,將學(xué)術(shù)文本詞匯功能分為領(lǐng)域無關(guān)詞匯功能和領(lǐng)域相關(guān)詞匯功能。其中,領(lǐng)域無關(guān)詞匯功能僅包含兩類:?jiǎn)栴}和方法。研究問題與研究方法作為科技文獻(xiàn)的核心知識(shí)單元,本文將聚焦于學(xué)術(shù)文本中領(lǐng)域無關(guān)詞匯功能——研究方法和研究問題識(shí)別,通過采取標(biāo)題生成策略和引入注意力機(jī)制的方法實(shí)現(xiàn)學(xué)術(shù)文本問題方法的指代詞獲取。
標(biāo)題生成,是指用限定長(zhǎng)度的單句對(duì)既定的信息內(nèi)容進(jìn)行概括表示,信息對(duì)象包括且不限于文本[21-22]、圖像[23]以及視頻[24-25]等。學(xué)術(shù)文本的標(biāo)題生成可理解為全文層面的自動(dòng)文摘任務(wù),即將全文信息高度凝練為一定形式的規(guī)則短句,使得其能夠扼要表示文本的核心研究?jī)?nèi)容。依據(jù)生成策略,自動(dòng)文摘可分為抽取式和生成式兩種。抽取式是對(duì)文檔中的詞或句進(jìn)行重要性排序[26],生成式則是在理解文本語義的基礎(chǔ)上實(shí)現(xiàn)對(duì)原文的復(fù)述[27]。針對(duì)句子級(jí)層面的文本摘要任務(wù),Nallapati等[28]與Ayana等[29]分別使用抽取式和生成式方法進(jìn)行了探討。隨著序列語言模型和NLP技術(shù)的日趨成熟,生成式文摘在語句可讀性和關(guān)鍵信息完整性上得到顯著提升,seq2seq+attention組合方案也逐步成為生成式文摘中的經(jīng)典模式[30-31]。鑒于生成式文摘的思想和過程與人類的行為模式更為貼近,本文采用基于seq2seq架構(gòu)的生成式模型實(shí)現(xiàn)學(xué)術(shù)文本的標(biāo)題生成,并引入注意力機(jī)制以優(yōu)化標(biāo)題的生成效果。
標(biāo)題作為一篇文獻(xiàn)的概括性描述,具有表達(dá)作者寫作意圖及文本主旨核心的重要作用。如Hoey所述,任何語篇中的閱讀和寫作過程都可看作是作者和讀者之間一種交流互動(dòng),標(biāo)題為該互動(dòng)提供了一種 可 視 化 對(duì)話窗 口[32]。Paiva等[33]與Jamali等[34]的研究指出,標(biāo)題中涵蓋研究問題或研究結(jié)果的文獻(xiàn)傾向于得到更高的閱覽量和被引量。這是由于在現(xiàn)存形式的文獻(xiàn)檢索中,系統(tǒng)所返回的查詢結(jié)果多表現(xiàn)為相關(guān)文獻(xiàn)的標(biāo)題羅列展示,其中讀者試圖通過標(biāo)題信息預(yù)見作者將要回答的問題。在這一作用機(jī)理下,將研究問題和研究方法信息列入標(biāo)題中,以直觀揭示本文主旨核心的做法在當(dāng)前并不鮮見。在現(xiàn)有的期刊數(shù)據(jù)庫中,存在大量標(biāo)題樣式為“Re‐search of A based on B”或“基于A的B研究”的期刊論文??紤]到這種規(guī)則特征在某種意義上是對(duì)文本研究?jī)?nèi)容的映射,Kondo等[11]利用該思想在英、日文獻(xiàn)的標(biāo)題上實(shí)現(xiàn)了“領(lǐng)域(head)”“目標(biāo)(goal)”和“方法(method)”等功能性詞匯的抽取。此外,采用標(biāo)題生成的方式對(duì)學(xué)術(shù)文本中的關(guān)鍵信息予以揭示的研究也不乏先例。例如,程齊凱[18]闡述了標(biāo)題生成策略在文檔級(jí)詞匯功能揭示中的作用機(jī)理;Putra等[35]則提出了一種涵蓋文本研究目的(research purpose)及研究方法(research method)的標(biāo)題生成模型,以供作者在擬定標(biāo)題時(shí)作為備選參考。
本文借助標(biāo)題生成的思想來完成問題方法描述詞匯的獲取。值得注意的是,Putra等[35]與本文的任務(wù)目標(biāo)較為相似,但在具體實(shí)驗(yàn)方法上與本文有較大區(qū)別,其在數(shù)據(jù)預(yù)處理中需將句子進(jìn)行目標(biāo)(AIM)、方法(OWN_MTHD)和其他(NR)的類別標(biāo)注,本文參考程齊凱[18]的策略,利用現(xiàn)存有的規(guī)則標(biāo)題直接完成seq2seq模型輸出標(biāo)簽的獲取。
為了解決學(xué)術(shù)文本中詞匯功能的自動(dòng)識(shí)別問題,本文提出了一種基于標(biāo)題生成策略的神經(jīng)網(wǎng)絡(luò)模型,通過將文本摘要轉(zhuǎn)化成規(guī)則標(biāo)題的形式,實(shí)現(xiàn)學(xué)術(shù)文本中研究問題與研究方法指代詞的獲取。簡(jiǎn)而言之,本文的研究任務(wù)可定義為:給定一個(gè)長(zhǎng)度為m的文本序列T={s1,s2,…,sm},生成長(zhǎng)度為n的句子序列S={w1,w2,…,wn}(m?n),最終從序列S中抽取出所需的問題字符串wi和方法字符串wj。
整體研究過程如下:①數(shù)據(jù)獲取及預(yù)處理。包括數(shù)據(jù)的采集、清洗及標(biāo)注等工作;②標(biāo)題生成模型構(gòu)建。采用基于Encoder-Decoder架構(gòu)的語言序列模型,在理解文本語義的基礎(chǔ)上,實(shí)現(xiàn)輸入文本序列的摘要化,生成既定形式的規(guī)則標(biāo)題;③問題方法指代詞抽取。通過標(biāo)題進(jìn)行分詞、詞性標(biāo)注及句法分析,利用規(guī)則匹配從中抽取出能夠描述文本核心研究方法與核心研究問題的功能性詞匯。
現(xiàn)有基于有監(jiān)督學(xué)習(xí)的詞匯功能識(shí)別,偏好于采用分類或序列標(biāo)注的方法來完成詞匯的功能類別判定[17-18],即通過在標(biāo)注數(shù)據(jù)集上進(jìn)行有監(jiān)督訓(xùn)練,以實(shí)現(xiàn)問題方法等標(biāo)簽的功能判定。這一策略的缺點(diǎn):必須為學(xué)習(xí)算法準(zhǔn)備一定數(shù)量的高質(zhì)量訓(xùn)練數(shù)據(jù)集,要求能夠準(zhǔn)確、完備標(biāo)注出科技文獻(xiàn)中問題方法等功能性詞匯。同時(shí),對(duì)于涉及多問題方法的文獻(xiàn),還需考慮該問題和方法究竟是作為文中的主要研究對(duì)象出現(xiàn),還是僅僅作為參考背景而提及。
大規(guī)模的科學(xué)文獻(xiàn)問題方法標(biāo)注數(shù)據(jù)并不容易獲取。首先,現(xiàn)實(shí)場(chǎng)景中的開放式陳述使得研究方法和研究問題具有諸多變體和表達(dá)形式;其次,需要在對(duì)文獻(xiàn)仔細(xì)分析的基礎(chǔ)上才能完成核心問題與核心方法的標(biāo)注工作;最后,必須有多名行業(yè)專家參與數(shù)據(jù)標(biāo)注,以避免文檔主題的單一性。為克服訓(xùn)練數(shù)據(jù)的獲取難題,文本提出了一種將信息抽取問題轉(zhuǎn)化為標(biāo)題生成問題的詞匯功能識(shí)別方法,從待識(shí)別的全文或者摘要中生成類似于“基于[方法]的[問題]”的樣式標(biāo)題,繼而間接識(shí)別出能夠描述學(xué)術(shù)文獻(xiàn)中核心問題和核心方法的功能性詞匯。
在中文學(xué)術(shù)文本中,存在著大量的類似于“基于X的Y研究”樣式的標(biāo)題。與此相對(duì)應(yīng)地,ACL數(shù)據(jù)庫和ACM數(shù)據(jù)庫收錄的論文中也存在著大量類似“X based on Y”“X using Y”“Y algorithm based X”的樣式標(biāo)題。這些標(biāo)題在一定程度上明確揭示了論文的核心問題和核心方法。圖1給出了一個(gè)標(biāo)題與摘要的標(biāo)注示例。在所示論文中,標(biāo)題的形式為“基于X的Y方法”,標(biāo)題文本給出了該文檔的核心問題和核心方法,分別是“微博情感分類”和“監(jiān)督學(xué)習(xí)”,這些詞匯或者詞匯的同近義詞也同時(shí)在摘要中出現(xiàn)。
基于上述分析,本文將核心問題和核心方法的識(shí)別問題轉(zhuǎn)化為利用摘要(或全文)生成“基于X的Y研究”這一標(biāo)題的問題。相對(duì)于前一問題,后一問題更容易解決,且后者的訓(xùn)練數(shù)據(jù)更容易獲得。在學(xué)術(shù)數(shù)據(jù)庫中,存在著大量標(biāo)題形似“基于X的Y”的論文,這些論文的標(biāo)題和對(duì)應(yīng)的摘要(或全文)構(gòu)成了標(biāo)題生成模型訓(xùn)練天然存在的標(biāo)注數(shù)據(jù)。
Encoder-Decoder是seq2seq模型中的一種經(jīng)典架構(gòu),其由三個(gè)部分組成:Encoder、Decoder以及連接兩者的中間狀態(tài)向量。其中,Encoder模塊負(fù)責(zé)對(duì)輸入信號(hào)的特征讀取,將所輸入的文本序列編碼成一個(gè)固定大小的狀態(tài)向量W。待Encoder逐步完成輸入的編碼操作后,將包含全部特征信息的W傳給Decoder,再通過Decoder對(duì)狀態(tài)向量W的學(xué)習(xí)來進(jìn)行輸出。
圖1 論文標(biāo)題與摘要的對(duì)照示例
在圖2所示的經(jīng)典Encoder-Decoder模型結(jié)構(gòu)圖中,每一個(gè)box代表了一個(gè)語義讀取單元(通常是LSTM(long short-term memory)或 者GRU(gated recurrent unit)),用以捕獲輸入序列的語義信息。待得到包含序列語義特征的中間狀態(tài)向量W=F(A,B,C)后,由Decoder模塊對(duì)W進(jìn)行解碼操作,在每個(gè)時(shí)間步生成當(dāng)前狀態(tài)的語義輸出X、Y、Z,其中,X=f(W),Y=f(W,X),Z=f(W,X,Y)。
圖2 Encoder-Decoder模型
學(xué)術(shù)文本的標(biāo)題自動(dòng)生成是在Encoder-Decoder架構(gòu)基礎(chǔ)上完成,具體模型如圖3所示。輸入層為預(yù)處理過的學(xué)術(shù)文本序列,對(duì)于每一條摘要為{S1,S2,…,Sm}的數(shù)據(jù)語料,均對(duì)應(yīng)標(biāo)簽為{基于…的…}樣式的規(guī)則標(biāo)題;在嵌入層中,使用word2vec方法[36]對(duì)輸入層中文本進(jìn)行向量化表征,完成字符轉(zhuǎn)向量的操作;隨后,將該特征向量傳至由雙向LSTM所構(gòu)成的Encoder層中并實(shí)現(xiàn)輸入信息的語義編碼,通過LSTM中的前后向迭代捕獲文本中的潛在語義信息。此外,為力求文獻(xiàn)摘要與生成標(biāo)題間信息的充分交互,本文在編碼層與解碼層間引入了注意力機(jī)制,該機(jī)制可有效解決生成式文摘中的信息冗余問題,并廣泛應(yīng)用于seq2seq架構(gòu)神經(jīng)網(wǎng)絡(luò)模型中[30]。本文通過使用注意力機(jī)制學(xué)習(xí)不同詞位在標(biāo)題生成中的權(quán)重信息,以減少因文本字符長(zhǎng)度增加而造成的細(xì)節(jié)丟失。最終,由同樣是雙向LSTM所構(gòu)成的Decoder層對(duì)中間層向量進(jìn)行語義解碼,并在全連接層輸出能夠揭示文中研究問題與研究方法的規(guī)則樣式標(biāo)題——基于XX的XX。
圖3 基于Encoder-Decoder的標(biāo)題生成模型
以上為使用seq2seq Encoder-Decoder模型實(shí)現(xiàn)標(biāo)題生成的概要流程,這一架構(gòu)的序列語言模型在諸多其他任務(wù)上也都取得了較好的效果。但其也存在一定弊端:①Encoder將輸入編碼為固定大小狀態(tài)向量的過程實(shí)際上是一個(gè)“信息有損壓縮”的過程,轉(zhuǎn)化向量過程中信息的損失率和信息量的大小呈正相關(guān)。②隨著sequence length的增加,較長(zhǎng)時(shí)間維度的序列輸入會(huì)引起RNN(recurrent neural net‐work)模型的擬合中出現(xiàn)梯度彌散。針對(duì)上述問題,本文采用信息密度更為富集的摘要代替全文作為輸入,并引入Attention機(jī)制加以輔助解決。盡管如此,模型效果仍有巨大的提升空間,后續(xù)研究中將進(jìn)一步引入關(guān)鍵詞特征信息進(jìn)行問題與方法的識(shí)別。
在實(shí)現(xiàn)特定樣式標(biāo)題的生成后,本研究需要對(duì)所得到的生成結(jié)果進(jìn)行分詞、句法分析以及詞性標(biāo)注等后續(xù)處理,最終應(yīng)用基于模板抽取的方法從標(biāo)題中識(shí)別出相應(yīng)的問題方法指代詞,完成學(xué)術(shù)文本中問題方法詞的識(shí)別獲取。
表1 給出了所生成標(biāo)題中頻次最高的5種組合形式,以及對(duì)應(yīng)的問題方法詞抽取規(guī)則。其中,對(duì)于形式為“基于A的B的C”的標(biāo)題較為特殊,涉及3個(gè)對(duì)象主體。本文依循邏輯推理將A與C認(rèn)定為該文的核心研究方法和核心研究問題(A和B是方法問題對(duì)應(yīng)關(guān)系,B和C是方法問題對(duì)應(yīng)關(guān)系)。此外,通過表1中的統(tǒng)計(jì)結(jié)果可發(fā)現(xiàn),本文所提出的標(biāo)題生成模型能夠較好的學(xué)習(xí)標(biāo)題的樣式規(guī)則特征,使得所生成標(biāo)題能夠滿足本文的任務(wù)需求。最后,為避免因不同抽取規(guī)則造成的實(shí)驗(yàn)效果波動(dòng),依據(jù)生成標(biāo)題的統(tǒng)計(jì)結(jié)果,選用占比最高(97%)的規(guī)則模板“基于A的B”統(tǒng)一完成所有生成標(biāo)題中的問題方法抽取,即視A為文中的研究方法,B為研究問題。
表1 標(biāo)題統(tǒng)計(jì)及問題方法抽取規(guī)則
本研究的所有實(shí)驗(yàn)均在表2所示的環(huán)境配置中完成。
表2 實(shí)驗(yàn)環(huán)境
本文是在生成特定樣式標(biāo)題的基礎(chǔ)上,應(yīng)用規(guī)則匹配實(shí)現(xiàn)學(xué)術(shù)文本中問題方法指代詞的識(shí)別獲取。因此,本次實(shí)驗(yàn)及評(píng)價(jià)涵蓋兩方面:標(biāo)題的生成質(zhì)量和問題方法的命中效果。由于當(dāng)前研究多為基于有監(jiān)督學(xué)習(xí)的判別式分類,少有采用生成式的策略實(shí)現(xiàn)詞匯功能的自動(dòng)識(shí)別,故在文中并未設(shè)置對(duì)照實(shí)驗(yàn)。
為了能夠?qū)?biāo)題的生成質(zhì)量以及問題方法的命中效果進(jìn)行全面評(píng)估,本文共選取了四項(xiàng)評(píng)價(jià)指標(biāo):BLEU、Turing test、Exact match和Unigram。
Exact match是檢索領(lǐng)域中一種常用的關(guān)鍵詞匹配模式,要求匹配項(xiàng)之間的字符完全相同;Uni‐gram是在單個(gè)字符層面計(jì)算匹配項(xiàng)中出現(xiàn)相同字符的比率;BLEU是一種基于N-gram均值的相似度計(jì)算方法,被廣泛應(yīng)用于機(jī)器翻譯評(píng)價(jià)中[37];Turing test則是一種驗(yàn)證機(jī)器是否具備人類思維的著名測(cè)試,旨在消除機(jī)器與人類之間的模糊性,在本文中用以衡量標(biāo)題生成模型的學(xué)習(xí)能力[38]。
具體而言,在標(biāo)題生成質(zhì)量評(píng)價(jià)上,使用BLEU和Turing test在語句級(jí)層面評(píng)測(cè)所生成標(biāo)題的信息度和流暢度;在問題方法命中評(píng)價(jià)上,使用Exact match和Unigram在字符級(jí)層面評(píng)測(cè)問題與方法的命中率。
本文的實(shí)驗(yàn)數(shù)據(jù)來自百度學(xué)術(shù)和Google學(xué)術(shù),選取工程技術(shù)、計(jì)算機(jī)和圖書情報(bào)等多個(gè)領(lǐng)域的2000—2018年中文學(xué)術(shù)期刊論文共574752篇。經(jīng)規(guī)則過濾后,得到標(biāo)題樣式為“基于A的B”中文期刊文獻(xiàn)共計(jì)163367篇(占比約28%),其中每篇文獻(xiàn)包含文章標(biāo)題及摘要字段。對(duì)數(shù)據(jù)集亂序處理后從中等比例隨機(jī)抽取出4000篇文獻(xiàn)作為測(cè)試集,其余則作為訓(xùn)練集用于模型擬合。
訓(xùn)練參數(shù)設(shè)定上,本實(shí)驗(yàn)選擇生成式文本摘要任務(wù)常用的預(yù)設(shè)初始值并經(jīng)多輪迭代調(diào)優(yōu)后:神經(jīng)網(wǎng)絡(luò)隱藏層維度為128;嵌入層向量化維度設(shè)為300(未使用預(yù)訓(xùn)練詞向量);詞匯表(Vocab)mini_count為32;字符最大長(zhǎng)度為400;訓(xùn)練最小批量為64;迭代epoch次數(shù)為100,學(xué)習(xí)率采取衰減策略(初始值為1e-5,每訓(xùn)練500步衰減5%)。
4.4.1 標(biāo)題生成質(zhì)量評(píng)測(cè)
語句層面的標(biāo)題生成評(píng)測(cè)需要同時(shí)考慮詞位信息和語義信息,如標(biāo)題的可讀性和信息還原度。因此,本文選擇BLEU和Turing test兩種指標(biāo)對(duì)標(biāo)題的生成質(zhì)量予以量化評(píng)價(jià)。
1)BLEU
BLEU的思想是判斷源標(biāo)題與生成標(biāo)題的相似度,其原理是計(jì)算兩個(gè)標(biāo)題中N元共現(xiàn)詞的頻率,并依據(jù)N值(N=1,2,3)進(jìn)行加權(quán)求和。一般而言,1-gram用以表示對(duì)原文信息的還原度,2-gram和3-gram則反映語句的流暢性和可讀性。BLEU具體計(jì)算公式為
其中,BP(brevity penalty)為引入的懲罰因子,用于修正N-gram匹配值與句子長(zhǎng)度間的負(fù)向關(guān)系;Pn為N-gram下的計(jì)算得分,wn為其對(duì)應(yīng)權(quán)重值,通常為1/n。在本次BLEU測(cè)評(píng)中,選用測(cè)試集中的全部數(shù)據(jù)共計(jì)4000條,用以與標(biāo)題生成模型的結(jié)果進(jìn)行BLUE匹配計(jì)算。表3為BLEU測(cè)試的詳細(xì)結(jié)果。
表3 BLEU測(cè)試結(jié)果
由表3分析發(fā)現(xiàn),1-gram、2-gram和3-gram的結(jié)果呈依次單調(diào)遞減狀態(tài):1-gram最高,為0.640;3-gram最低,為0.390。然而,由于原標(biāo)題與生成標(biāo)題依循相同的樣式特征——即均含有“基”“于”和“的”這三個(gè)特定字符,因此,1-gram結(jié)果的單獨(dú)參考意義相對(duì)有限。通過差值比較分析發(fā)現(xiàn),即使在1-gram結(jié)果略顯“虛高”的情況下,標(biāo)題在2-gram上的測(cè)試表現(xiàn)較1-gram并未出現(xiàn)較大程度的下滑,1-gram、2-gram及3-gram的測(cè)試成績(jī)以相對(duì)平滑的幅度層級(jí)遞減。該實(shí)驗(yàn)結(jié)果表明,由本文所設(shè)計(jì)的標(biāo)題生成模型能夠在信息完整度與語句流暢性上較好的滿足需求。
2)Turing test
Turing test最初被用于判定機(jī)器能否表現(xiàn)出與人等價(jià)或無法區(qū)分的智能,在本文中用于衡量標(biāo)題生成模型在模擬人類寫作上的學(xué)習(xí)能力。具體而言,本文采用文獻(xiàn)[38]中的Turing test測(cè)試方法:為每一段摘要配對(duì)兩個(gè)標(biāo)題——原文標(biāo)題和機(jī)器生成標(biāo)題,在未告知的情況下由三名博士研究生依據(jù)摘要內(nèi)容進(jìn)行最優(yōu)標(biāo)題投票,選擇票數(shù)≥2的標(biāo)題作為最終結(jié)果。
在表4所示的Turing test實(shí)驗(yàn)樣例中,標(biāo)題1和摘要均為原文內(nèi)容(由人類撰寫),標(biāo)題2則為對(duì)應(yīng)機(jī)器生成結(jié)果。限于人工評(píng)測(cè)方法的既有缺陷,本次Turing test實(shí)驗(yàn)只隨機(jī)選取了200條數(shù)據(jù)作為測(cè)試集,具體結(jié)果如表5所示。從表5結(jié)果可發(fā)現(xiàn),在大多數(shù)情況下(65%),模型生成標(biāo)題的質(zhì)量在一定程度上能達(dá)到原文水準(zhǔn),少部分情況下表現(xiàn)更優(yōu)(28%)。該實(shí)驗(yàn)結(jié)果表明,基于Encoder-Decoder架構(gòu)的seq2seq模型能夠較好的學(xué)習(xí)人類在標(biāo)題上的行書特征,可為學(xué)術(shù)文本中核心問題與核心方法的識(shí)別研究提供有力支撐。
表4 Turing test樣例
表5 Turing test實(shí)驗(yàn)結(jié)果
表6 問題方法命中評(píng)測(cè)結(jié)果
4.4.2 問題方法命中評(píng)測(cè)
問題方法的命中效果評(píng)價(jià)需在字符級(jí)和詞匯級(jí)層面,對(duì)得到的問題方法詞進(jìn)行真實(shí)值匹配計(jì)算。因此,本文選擇Exact match和Unigram作為評(píng)測(cè)指標(biāo),以代替?zhèn)鹘y(tǒng)抽取式方法中所選用的準(zhǔn)確率、召回率和F1值。問題方法的命中評(píng)測(cè)結(jié)果如表6所示。其中,使用Unigram在單個(gè)字符粒度層面測(cè)試問題方法詞的命中效果;使用Exact match測(cè)試模型能夠在多大程度上對(duì)原標(biāo)題中的問題方法詞予以還原。
從表6發(fā)現(xiàn),更為嚴(yán)格的匹配規(guī)則使得Unigram與Exact match的實(shí)驗(yàn)結(jié)果間存在顯著差距。其中,Unigram在問題方法上的結(jié)果均值為0.497,Exact match的結(jié)果均值為0.272,這表明模型具有以相同字段命中問題和方法的能力。此外,問題和方法在命中效果上的表現(xiàn)也不盡相同:方法的命中均值為0.401,高于問題的命中均值0.368。經(jīng)分析發(fā)現(xiàn),其原因是問題和方法在語言層面上的描述差異。通常而言,研究方法相對(duì)于研究問題具有更好的表述規(guī)范性。例如,對(duì)于計(jì)算機(jī)領(lǐng)域中大多數(shù)技術(shù)方法,往往能找到既有的約定術(shù)語或通用名稱,模型在迭代學(xué)習(xí)后就能夠較好的擬合其概率分布。而對(duì)于研究問題,開放性的語言組織使得問題的描述形式顯得更為多變和復(fù)雜,使得其特征學(xué)習(xí)更為困難。
4.4.3 綜合評(píng)測(cè)
鑒于以上評(píng)測(cè)方法均存在一定缺陷,本文采用了量化評(píng)分的方式對(duì)生成標(biāo)題的質(zhì)量以及問題方法的命中進(jìn)行綜合評(píng)價(jià)。Unigram和Exact match無法識(shí)別問題和方法的同義詞及變體,如SVM與支持向量機(jī)雖指向同一實(shí)體,但Unigram與Exact match兩種指標(biāo)均無法對(duì)其匹配。同時(shí),Turing測(cè)試中無法指定可依循的評(píng)測(cè)規(guī)則,摻雜了較高主觀性。因此,本文從五個(gè)層面(表7)對(duì)標(biāo)題的生成質(zhì)量和問題方法的命中效果進(jìn)行綜合評(píng)測(cè)。具體流程如下:①從測(cè)試集中隨機(jī)選出500條數(shù)據(jù),每條數(shù)據(jù)包含標(biāo)題和摘要字段;②將500條數(shù)據(jù)中的原標(biāo)題均替換為對(duì)應(yīng)的機(jī)器生成標(biāo)題,并在未告知的情況下由三名博士研究生進(jìn)行獨(dú)立評(píng)測(cè);③要求在理解摘要語義的基礎(chǔ)上完成每個(gè)待測(cè)標(biāo)題的量化評(píng)分;④獨(dú)立重復(fù)多次實(shí)驗(yàn),對(duì)結(jié)果累計(jì)求均值。綜合評(píng)測(cè)的最終結(jié)果如圖4所示。
從圖4中生成標(biāo)題在得分序列上的分布可知,生成標(biāo)題的評(píng)測(cè)結(jié)果集中于3~5分區(qū)間(70%)。其中,能夠準(zhǔn)確描述文本問題或方法的高質(zhì)量標(biāo)題(分值≥4)占比達(dá)到46.4%。該結(jié)果表明通過深度學(xué)習(xí)方法的應(yīng)用,本文所提出的基于標(biāo)題生成策略學(xué)術(shù)文本問題的方法識(shí)別具備相當(dāng)?shù)目尚行院陀行浴?/p>
表7 綜合評(píng)測(cè)評(píng)分細(xì)則
圖4 綜合評(píng)測(cè)結(jié)果
由于本文的目的是通過生成特定樣式的規(guī)則標(biāo)題實(shí)現(xiàn)文本中核心問題與核心方法的獲取,與傳統(tǒng)標(biāo)題生成任務(wù)[29]或文本摘要任務(wù)[31]具有一定區(qū)別,因此,本研究并未與之進(jìn)行對(duì)照實(shí)驗(yàn)。從表8所示的結(jié)果樣例可發(fā)現(xiàn),對(duì)于具有一定行文范式的摘要而言,通過大規(guī)模樣本的學(xué)習(xí),模型能夠較好地捕獲摘要中的關(guān)鍵語義信息,繼而生成限定內(nèi)容及形式的目標(biāo)標(biāo)題。
學(xué)術(shù)文本詞匯功能識(shí)別的目的是抽取文本中具有特定意義的表征詞匯。受限于數(shù)據(jù)集等諸多因素的制約,目前基于有監(jiān)督學(xué)習(xí)的分類式識(shí)別方法存在識(shí)別準(zhǔn)確率低、召回率有限和泛化性差等問題。因此,本文提出了一種基于深度學(xué)習(xí)和標(biāo)題生成策略的文檔級(jí)學(xué)術(shù)文本詞匯功能識(shí)模型,將問題方法指代詞的抽取問題轉(zhuǎn)化為特定形式的標(biāo)題生成問題,在規(guī)則標(biāo)題的基礎(chǔ)上實(shí)現(xiàn)特定功能詞匯的生成和獲取。實(shí)驗(yàn)結(jié)果表明,通過深度學(xué)習(xí)方法的應(yīng)用,標(biāo)題生成策略能夠有效識(shí)別出描述學(xué)術(shù)文本研究問題和研究方法的功能性詞匯。
本研究仍然存在諸多不足:①學(xué)術(shù)文本的詞匯功能是對(duì)詞匯在學(xué)術(shù)文本中角色的定義,包括且不限于問題、方法、領(lǐng)域、工具以及指標(biāo)等,本文為簡(jiǎn)化處理,僅僅選取了學(xué)術(shù)文本中最為核心的問題和方法作為本次的研究對(duì)象,后續(xù)將采用其他特征和策略實(shí)現(xiàn)更為廣義的詞匯功能識(shí)別;②本文僅使用了LSTM、GRU等模型,未將BERT、Transformer等模型應(yīng)用于文本信息的語義表征,這些模型的引入能進(jìn)一步提升識(shí)別的效果;③模型僅僅使用了學(xué)術(shù)文本中的標(biāo)題和摘要,在語義建模中未能加入關(guān)鍵詞、引文網(wǎng)絡(luò)、作者行文偏好等信息,這些信息的引入對(duì)提升模型的效果是有潛在價(jià)值的。后續(xù)研究將在更大的數(shù)據(jù)集上開展,應(yīng)用Transformer、強(qiáng)化學(xué)習(xí)等表現(xiàn)力更強(qiáng)的深度學(xué)習(xí)方法,通過分析文獻(xiàn)的類型(技術(shù)研究論文、應(yīng)用研究論文、綜述)、引文網(wǎng)絡(luò)、作者偏好等信息,實(shí)現(xiàn)更加精確和魯棒的詞匯功能識(shí)別。
表8 機(jī)器生成標(biāo)題結(jié)果樣例