李綱 徐健 余輝 馬亞雪
[摘要][目的/意義]基于被引片段識別的科技文摘生成是文獻(xiàn)計量學(xué)、信息檢索和自然語言處理等領(lǐng)域共同關(guān)注的研究問題。通過梳理相關(guān)成果,可為后續(xù)研究提供借鑒。[方法/過程]本文首先介紹被引片段概念,進(jìn)而從被引片段識別與分類、文摘生成與評價等步驟對相關(guān)研究進(jìn)行綜述。[結(jié)果/結(jié)論]當(dāng)前被引片段識別總體上可以分為機(jī)器學(xué)習(xí)和檢索兩類,分面判定還存在標(biāo)準(zhǔn)不一致的問題,摘要生成與評估方法相關(guān)研究較欠缺。
[關(guān)鍵詞]被引片段;科技摘要;引文上下文
科研工作者在科學(xué)研究活動中通常需要閱讀大量科技文獻(xiàn)以了解研究領(lǐng)域現(xiàn)狀。在當(dāng)前學(xué)術(shù)論文數(shù)量與日俱增的情況下,通過閱讀科技文獻(xiàn)的摘要將大幅度減小科研工作者閱讀文獻(xiàn)的壓力。當(dāng)前科技文獻(xiàn)摘要的形成過程可分為作者撰寫和自動生成兩種方式。前者雖然能精準(zhǔn)地概括文章的核心內(nèi)容,但由于其是從作者角度而非讀者角度完成的,因此很難客觀地反映該文對學(xué)界的貢獻(xiàn)與影響。自動文摘作為一種自動凝練目標(biāo)文獻(xiàn)核心內(nèi)容的方法,具有效率高和客觀性強(qiáng)的特點(diǎn),因而在信息檢索與信息抽取等領(lǐng)域具有廣泛的應(yīng)用。按照摘要與原文的關(guān)系的不同,自動文摘技術(shù)可分為抽取型文摘和理解型文摘,后者受當(dāng)前語義理解和自然語言處理技術(shù)限制較大,所以目前關(guān)于自動文摘的研究主要集中在抽取型文摘上嘲。傳統(tǒng)抽取型摘要的做法是計算目標(biāo)文獻(xiàn)中各句子重要性并選取若干關(guān)鍵句生成文摘,這樣生成的摘要同樣不能從讀者角度反映該文的影響力。于是,越來越多的研究者嘗試從引文角度考慮該問題闈?;谝牡恼夹g(shù)的基本概念是引文內(nèi)容,又稱引文上下文(citation context),包含了對被引文獻(xiàn)的介紹與述評,從讀者角度揭示了被引文章對學(xué)界的影響。當(dāng)前,如何通過引文上下文生成摘要存在直接法與間接法兩種思路,前者對目標(biāo)文獻(xiàn)的引文句進(jìn)行組織進(jìn)而完成摘要生成,后者需從被引文獻(xiàn)中識別出被引片段并對其進(jìn)行融合,生成最終的摘要。為方便對本文所評述自動摘要方式有直觀的理解,筆者歸納了摘要的種類并繪制摘要的分類圖譜,如圖1所示。
引文上下文是指引文標(biāo)記所處的上下文,當(dāng)前廣泛用于引用動機(jī)識別、主題識別、信息檢索、文檔聚類等領(lǐng)域。直接使用引文上下文生成單文檔文摘最早開始于2008年Qazvinian等的研究,作者對被引文獻(xiàn)的引文上下文進(jìn)行聚類與排序,從而生成被引文獻(xiàn)的摘要。Kaplan等將指代消解(corefcrenee resolver)應(yīng)用于引文上下文的抽取,實(shí)驗(yàn)證明該方法相比于其他方法在抽取引文上下文時效果更優(yōu),抽取出的內(nèi)容可進(jìn)一步用于文摘生成。HUE21等將引文句視為文獻(xiàn)的使用上下文,并將之與結(jié)構(gòu)上下文組成混合引文上下文開展基于影響點(diǎn)的文摘研究。直接利用引文上下文生成文摘目前已有較多的成果,但引文上下文中除包含對被引文獻(xiàn)的介紹和評述外還包含了施引者的觀點(diǎn),因此有學(xué)者指出直接使用引文上下文的文摘存在主題偏移和信息缺失的問題,因此基于被引片段的文摘生成受到越來越多研究者的關(guān)注。
基于被引片段的文摘研究最早開始于文獻(xiàn)“GeneratingImpact-Based Summaries for Scientific Literature”,與直接使用引文上下文生成摘要相比,這種方式生成的摘要來自于原文,從而避免了主題偏移的問題。Mei利用文章的所有引文上下文構(gòu)建其影響模型,在原文中尋找能反映該影響的句子,并加以組織生成文摘。Cohan通過對被引片段進(jìn)行聚類,從各類簇中抽取重要性較高的幾個句子形成文摘。在web of knowledge、Google Scholar平臺上以檢索式“cited spans summary”“reference text spans summary”等為關(guān)鍵詞進(jìn)行檢索,發(fā)現(xiàn)相關(guān)結(jié)果并不多,大量的成果集中于2014TAC和2016CL-SciSumm的會議論文上。同時,國內(nèi)針對被引片段的自動文摘相關(guān)成果則更加少。通過查找相關(guān)文獻(xiàn)進(jìn)行擴(kuò)充,通過人工閱讀共得到相關(guān)文獻(xiàn)26篇。當(dāng)前基于被引片段的文摘步驟可概括為兩步:首先從被引文獻(xiàn)中識別并抽取被引片段,并判定其在語篇中的功能;其次,從被引文獻(xiàn)中抽取若干句子本文通過文獻(xiàn)。本文首先用實(shí)例介紹被引片段的概念,接著以兩次文摘比賽的步驟歸納與評述該領(lǐng)域研究現(xiàn)狀,以期為后續(xù)相關(guān)研究提供借鑒。
1被引片段概念
在引文分析領(lǐng)域,“被引片段”是一個嶄新的概念,是引文內(nèi)容分析未來發(fā)展的重要的研究方向。單篇文獻(xiàn)會包含多個研究主題,而其他文獻(xiàn)在引用它時僅僅是因?yàn)槟硞€主題。施引者會引用其認(rèn)定對自己研究有參考價值的內(nèi)容,這部分內(nèi)容正是本文所述的被引片段(Cited Spans or Reference Span)。一般認(rèn)為,在一次引用過程中被引片段與引文上下文具有對應(yīng)關(guān)系,相比于被引頻次,被引片段更清晰與具體地說明了該文獻(xiàn)對學(xué)界的貢獻(xiàn)與影響,圖2用實(shí)例說明被引片段的概念:
在圖2中,施引文獻(xiàn)C10-2104中被標(biāo)注的句子就是引文上下文,文獻(xiàn)C02-1025中被標(biāo)注的句子為被引片段。文獻(xiàn)C10-2104因?yàn)樾枰獙Α癵lobal features”來源進(jìn)行說明而引用了文獻(xiàn)C02-2105。此時,文獻(xiàn)C02-1025中關(guān)于“global features”的描述語句“Global features are extracted from other occurrences of the same token in the whole document”則可稱為對應(yīng)的被引片段。在這次引用過程中,文獻(xiàn)C02-1025中關(guān)于“global feature”的研究對文獻(xiàn)C10-2104具有一定參考價值與借鑒意義。在單次引用中,被引片段從內(nèi)容角度揭示了該文獻(xiàn)被引用的原因,反映了該文獻(xiàn)對后續(xù)研究的借鑒作用。通過組織與整合某篇文獻(xiàn)的多個被引片段,即可全面地評估其對學(xué)界的影響,進(jìn)而生成摘要。
2被引片段識別與分類
2.1被引片段識別endprint
被引片段識別就是從被引文獻(xiàn)中尋找與引文上下文相對應(yīng)的那部分內(nèi)容,識別結(jié)果可以是句子的一個片段、也可以是一個整句或者若干連續(xù)句子的集合。目前被引片段的識別方法總體上可以分為:基于信息檢索的方法、基于機(jī)器學(xué)習(xí)的方法兩類。
2.1.1基于信息檢索的方法
基于信息檢索的方法將被引文獻(xiàn)中的句子按照與引文上下文的相似性或重要性進(jìn)行排序,選擇排名最靠前的句子作為被引片段?;谙嗨菩缘姆椒ㄕJ(rèn)為被引文獻(xiàn)中與某引文上下文中相似度越高的句子越可能是其對應(yīng)的被引片段。例如,Molla通過擴(kuò)充句子規(guī)模、增加句子上下文窗口的方式對傳統(tǒng)的TF-IDF公式進(jìn)行改進(jìn)計算引文上下文與被引句之間的余弦相似度,并選取最相似的三句話作為被引片段。Cohan利用向量空間模型計算引文上下文與被引文獻(xiàn)中各句子的相似性,并將基于偽相關(guān)反饋的重排序技術(shù)引入到被引片段識別過程中。日本學(xué)者Nomoto將引文上下文視為問題,而被引文獻(xiàn)中的句子為待選答案,被引片段的識別就轉(zhuǎn)化為問答系統(tǒng)的問題。該方法將基于單層神經(jīng)網(wǎng)絡(luò)預(yù)測的相似性和基于詞袋模型計算的余弦相似性進(jìn)行融合,進(jìn)而定位被引片段。而基于重要性的排序方法則認(rèn)為,句子在被引文獻(xiàn)中越重要則其越有可能被其他文獻(xiàn)引用。例如,Klamp提出一種改進(jìn)的關(guān)鍵句識別算法(Textrank),將引文上下文與句子的相似性最為句子的初始權(quán)重,經(jīng)過隨機(jī)游走過程確定被引文獻(xiàn)中句子的重要性并進(jìn)行排序。
由上可知,無論是基于相似度計算還是基于重要性排序,基于信息檢索的被引片段識別方法過程簡單,效率較高。但是將被引片段識別問題轉(zhuǎn)化為信息檢索問題在理論上還缺乏一定的依據(jù),關(guān)于相似性與重要性的假設(shè)也需進(jìn)一步推敲。筆者認(rèn)為,只有從語義理解的角度對被引文獻(xiàn)與引文上下文間的關(guān)系進(jìn)行探索才能更精準(zhǔn)地尋找被引片段。此外,這種方法在操作過程中還存在兩個問題:第一是排名前幾位的句子在位置上不一定相鄰,這不符合被引片段連續(xù)幾個句子的特征,第二是被引片段選取的門檻難以確定。
2.1.2基于機(jī)器學(xué)習(xí)的方法
相較于基于信息檢索的識別方法,更多研究者使用機(jī)器學(xué)習(xí)方法來識別和抽取被引片段。按照實(shí)現(xiàn)方法的不同,該方法又可分為分類學(xué)習(xí)方法(Classification)和排序?qū)W習(xí)(Learning to rank)的方法。前者將被引片段識別問題轉(zhuǎn)化為句子的二元分類問題,即被引文獻(xiàn)中所有句子被判定為匹配與不匹配兩個類別,所有匹配的句子被即被視為被引片段。目前常用的分類方法有支持向量機(jī),樸素貝葉斯,常用的分類特征有位置特征和相似度特征。后者則融合多種排序特征對句子進(jìn)行排序,Cao等和Lu等學(xué)者分別利用SVMRANK和RANKLIB工具進(jìn)行此方面的探索。
綜上所述,無論是基于分類學(xué)習(xí)的方法還是基于排序?qū)W習(xí)的方法,均可以有效利用多種信息作為特征進(jìn)行學(xué)習(xí),但都存在一個較大的問題:類別不均衡。在尋找引文上下文的過程中,被引文獻(xiàn)中僅少數(shù)幾個句子被標(biāo)注為被引片段,正負(fù)例比率較低使該方法識別占少數(shù)的被引片段比較困難。此外,分類器可能將被引文獻(xiàn)中的所有句子都判定為非被引片段,同時也有可能將幾十甚至幾百個句子都判定為被引片段,這將大大降低該方法的可用性。此外,也有學(xué)者通過人工定義抽取規(guī)則,實(shí)現(xiàn)被引片段的識別。該方法具有較高的執(zhí)行效率,過程易于理解,但在實(shí)際操作過程中相關(guān)啟發(fā)式規(guī)則的歸納費(fèi)時費(fèi)力,且規(guī)則覆蓋范圍有限,從而使得該方法具有過適應(yīng)性(over-fitting)。
2.1.3被引片段識別評價
被引片段識別結(jié)果的評價根據(jù)粒度可分為句子和單詞兩個層面,前者通過計算系統(tǒng)識別出的被引片段和人工標(biāo)注結(jié)果之間重合度(Overlap)完成,后者則使用ROUGE完成,具體指標(biāo)有準(zhǔn)確率,召回率和F1值。目前各研究團(tuán)隊(duì)被引片段識別結(jié)果與人工標(biāo)注的結(jié)果有很大的差異,以2016年JCDL舉辦的CL-SciSumm比賽為例,目前關(guān)于被引片段識別的準(zhǔn)確率最高僅為12%。這說明當(dāng)前關(guān)于被引片段研究還不成熟,需要就被引片段理論與特征開展進(jìn)一步探究。
2.2被引片段分類
被引片段分類的目的是形成結(jié)構(gòu)化的文摘,下面分別介紹文摘結(jié)構(gòu)相關(guān)理論、被引片段分類及其評估過程。
2.2.1文摘結(jié)構(gòu)相關(guān)理論
作者在撰寫科技文獻(xiàn)的摘要時,需注意其分面邏輯性(即先寫什么后寫什么)以提高文摘質(zhì)量和主題表達(dá)能力。同樣地,在自動文摘生成過程中,也要按照一定的標(biāo)準(zhǔn)對備選句子進(jìn)行分類、組織與篩選。結(jié)構(gòu)化文摘通過收集有關(guān)目標(biāo)文獻(xiàn)各方面信息生成文摘,使得對目標(biāo)文摘描述具有全面性和簡潔性。目前,國內(nèi)情報學(xué)領(lǐng)域期刊如現(xiàn)代圖書情報技術(shù)、圖書情報工作等均要求作者投稿時提交結(jié)構(gòu)化摘要,這也是目前學(xué)術(shù)文摘規(guī)范未來發(fā)展的趨勢。當(dāng)前主流的文摘結(jié)構(gòu)表示模型主要有ANSI模型、CISP模型等(具體情況見表1)。其中ANSI模型是從摘要的結(jié)構(gòu)進(jìn)行劃分文摘分面的,而CISP是從正文撰寫角度進(jìn)行摘要分面劃分。2016年CL-SciSumm比賽將文摘分面定義為假說、目標(biāo)、方法、結(jié)果、意義五類,參賽者需判定前一步驟識別出的被引片段的類別。
從表1中可以看出,當(dāng)前關(guān)于文摘結(jié)構(gòu)分面尚未有統(tǒng)一的標(biāo)準(zhǔn),這與各學(xué)科研究內(nèi)容與研究模式有一定關(guān)系。此外,對于一些觀點(diǎn)類、評述類的文獻(xiàn)來說,上述偏實(shí)驗(yàn)研究類論文的文摘結(jié)構(gòu)也并不適合。
2.2.2被引片段分類研究
被引片段作為最終摘要內(nèi)容的來源,需要判定其在整個摘要結(jié)構(gòu)中的功能,該過程可視為一個多元分類問題。筆者認(rèn)為,既然被引片段來自于被引文獻(xiàn),則其分類與基于正文的學(xué)術(shù)文摘結(jié)構(gòu)識別當(dāng)屬具有相關(guān)之處。Guo等分別利用支持向量機(jī)算法實(shí)現(xiàn)了基于文本內(nèi)容特征的文摘語句分類。Yamamoto等在分類特征的選取上考慮了動詞時態(tài)、語句位置等信息。白光祖等針對不同類別建立特征詞集,研究小樣本情形下學(xué)術(shù)文摘類別判定問題。具體到被引片段分類上,Lu等在被引片段分類過程中,使用了正文和引文中文本與其所在章節(jié)標(biāo)題的用詞信息。Malenfant等認(rèn)為被引片段與其對應(yīng)引文的類別是一樣的,因此可根據(jù)引文類別推斷被引片段的類別。Li等使用多個分類器進(jìn)行投票以提高分類準(zhǔn)確率。在實(shí)際引用過程中,方法、結(jié)果類引用較多,而意義、假說部分的內(nèi)容引用次數(shù)較少,針對被引片段分布偏斜問題主要解決方法有基于分類器算法的改進(jìn)和訓(xùn)練集的重構(gòu)。與其他多分類問題一樣,被引片段分類的評價指標(biāo)主要是各個類別Precise-Recall和F-measure指標(biāo)。此外,整體層面的評價指標(biāo)有正確率,各類別性能的宏平均和微平均等。endprint
3文摘生成與評估
3.1文摘生成
目前,基于被引片段的文摘基本思路可概括為:為被引文獻(xiàn)中的每句話進(jìn)行重要性打分,通過一定策略抽取重要性較高的句子生成滿足長度條件的摘要。在句子重要性打分方面,Mei等利用所有引文句和原文推測文獻(xiàn)影響力模型,該模型可以視為被引片段集合,之后計算文中各句子與該模型的KL距離作為句子重要性值。Cao等提出一種改進(jìn)的流形排序算法,該方法將文獻(xiàn)內(nèi)部句子問相似性與引文句間相似性的值進(jìn)行線性融合,通過隨機(jī)游走過程迭代計算每個句子權(quán)重并從中選擇最重要的句子。陳海華等使用支持向量回歸(SVR)方法融合位置、長度、相似性特征預(yù)測文獻(xiàn)中各句子重要性得分。Li等計算文獻(xiàn)中各句包括基于層次主題模型(HLDA)的相似度、句子長度、句子位置等在內(nèi)的5種數(shù)值特征,利用線性加權(quán)的方式計算句子重要性。Saggion等用向量空間模型表示標(biāo)題、摘要、全文、引文句等文本,利用線性回歸模型對包括相似性、位置、重要性等特征參數(shù)進(jìn)行學(xué)習(xí)。系統(tǒng)生成的摘要不僅僅要求內(nèi)容全面,而且要求簡潔,冗余信息少,基于被引片段的科技文摘賽事一般將之設(shè)置為選擇性任務(wù)。值得注意的是,當(dāng)前大多數(shù)研究并未嚴(yán)格使用識別出的被引片段與其類別生成結(jié)構(gòu)化摘要,該部分研究還比較欠缺。
自動摘要的長度一般設(shè)定為固定句子數(shù)或字符數(shù),這與具體任務(wù)要求有關(guān)。例如2016年CL-SciSumm比賽官方要求目標(biāo)摘要字?jǐn)?shù)為250個字符,而有的學(xué)者將長度設(shè)置為若干句子數(shù)目。還有的學(xué)者考慮了目標(biāo)文獻(xiàn)本身長度按比例設(shè)置摘要長度。在實(shí)際生成摘要的過程中,存在若干用詞相同、語義相近的句子組成摘要的情形,此時就需要結(jié)合一定的去重策略篩除語義冗余的句子,使摘要盡可能全面的覆蓋文章的各個方面。當(dāng)前很多研究利用最大邊緣算法(Maximum Marginal Relevance,MMR)通過計算待選句子和已選句子的相似度,選擇超過某閾值的句子生成摘要。針對自然語言中多詞一義的問題劉天祎等指出要結(jié)合相關(guān)知識庫才能更好地實(shí)現(xiàn)語義層面的去重。
3.2文摘評估
摘要評估是針對系統(tǒng)生成摘要的長度、全面性、真實(shí)性、可讀性等方面的評判。具體而言,文摘評價標(biāo)準(zhǔn)的制定可以分為主觀評測和基于標(biāo)準(zhǔn)結(jié)果的兩種情況,前者需要人工閱讀系統(tǒng)生成的文摘并給出評價。后者需要提前定義目標(biāo)文獻(xiàn)文摘的參考答案(Golden standards),一般而言由原文作者撰寫的摘要和人工生成兩種,通過對比該參考答案與系統(tǒng)生成文摘的相似性進(jìn)行文摘質(zhì)量的評價。文摘領(lǐng)域的評價指標(biāo)一般使用ROUGE,該方法基于N元詞共現(xiàn)信息計算系統(tǒng)生成文摘和人工生成文摘的匹配程度,包括ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-SU四種評測標(biāo)準(zhǔn)。
目前幾乎所有的評價方案均只限于內(nèi)容的完備性和準(zhǔn)確性上,關(guān)于摘要連貫性、可讀性等方面還未有較好的評估方案。在今后的研究中,應(yīng)考慮引入用戶對生成摘要的質(zhì)量反饋機(jī)制,提高生成摘要的連貫性和可讀性。
4結(jié)語
當(dāng)前關(guān)于被引片段文摘的研究多集中在微軟亞洲研究院組織的比賽上,而學(xué)界對于被引片段概念的了解與接受程度普遍較低,從而導(dǎo)致相關(guān)研究比較少,國內(nèi)研究則更是少之又少。本文按步驟對基于被引片段文摘技術(shù)進(jìn)行深入分析與探討,從而對整體研究進(jìn)行述評。研究發(fā)現(xiàn),當(dāng)前相關(guān)研究及其應(yīng)用中還存在若干問題與困難。具體如下:被引片段識別與分類是該領(lǐng)域研究的主流,然而對被引片段概念、特征等在理論層面的探討較少,目前被引片段標(biāo)注過程不規(guī)范,并未經(jīng)過多人標(biāo)注;相關(guān)研究表明零被引文獻(xiàn)也是有價值的,但該文摘方法不太適合零被引和低被引的情況,同時也存在某文獻(xiàn)被引片段過于集中導(dǎo)致文摘覆蓋面低的問題(例如,文獻(xiàn)的方法被引用了若干次,而文獻(xiàn)的結(jié)果部分無人引用);相比于網(wǎng)頁,學(xué)術(shù)文獻(xiàn)一般在10頁到30頁之間,將如此長篇幅的文本壓縮成不到300個單詞的文摘,其壓縮比例和困難程度均比較大,從目前研究來看,機(jī)器生成文摘與人工生成文摘差異較大,效果并不能使人滿意;自動文摘最終的用戶是讀者,不僅要對信息進(jìn)行濃縮還要保障其可讀性和可理解性,這種抽取型文摘僅僅是若干句子的集合,句子順序混亂與句子間邏輯缺乏,相關(guān)研究缺乏用戶對文摘質(zhì)量的反饋。
當(dāng)前,關(guān)于被引片段的自動文摘研究受到文獻(xiàn)計量、信息檢索、自然語言處理、文本挖掘等領(lǐng)域的共同關(guān)注。相關(guān)研究尚處于起步階段,尚存較多待解決問題,未來研究中應(yīng)著重剖析被引片段概念的內(nèi)涵,優(yōu)化其識別與分類的方法,設(shè)計更加科學(xué)合理的文摘結(jié)構(gòu),同時考慮被引片段范圍集中的問題,生成更加全面、客觀的摘要,引入讀者對文摘的反饋機(jī)制,帶動該項(xiàng)研究實(shí)用性水平的提升。endprint