動態(tài)流形方法在多文檔文摘模型上的應(yīng)用

2018-03-20 09:10劉美玲鄭德權(quán)王慧強

計算機技術(shù)與發(fā)展 2018年3期

劉美玲,鄭德權(quán),王慧強,于洋

(1.東北林業(yè)大學(xué) 信息與計算機工程學(xué)院，黑龍江哈爾濱 150040；2.哈爾濱工業(yè)大學(xué) 教育部-微軟語言語音重點實驗室，黑龍江哈爾濱 150001；3.哈爾濱工程大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，黑龍江哈爾濱 150001)

0 引言

在Web2.0時代，網(wǎng)絡(luò)上的各種新聞、論壇、博客、在線聊天等信息跟靜態(tài)網(wǎng)頁信息相比體現(xiàn)出非常明顯的動態(tài)演化性。網(wǎng)絡(luò)信息隨著時間的變化而出現(xiàn)、發(fā)展直至消亡，一個話題在不同的時刻具有不同的側(cè)重點，而不同時刻的話題內(nèi)容之間具有關(guān)聯(lián)性，如何針對這類持續(xù)發(fā)展變化的話題或者事件提供動態(tài)摘要已經(jīng)成為一個新的研究方向。

傳統(tǒng)的多文檔文摘[1]技術(shù)是一種靜態(tài)文摘,即針對某個封閉的靜態(tài)文檔集生成摘要,不考慮文檔集的對外聯(lián)系。動態(tài)文摘是傳統(tǒng)靜態(tài)文摘的延伸和擴展,除了需要保證文摘信息的主題相關(guān)性和內(nèi)容的低冗余性之外,還需要針對內(nèi)容的動態(tài)演化性分析已出現(xiàn)信息和新出現(xiàn)信息的關(guān)系，使文摘隨話題的演化而動態(tài)更新。動態(tài)文摘與靜態(tài)文摘的最大區(qū)別在于分析已出現(xiàn)信息和新出現(xiàn)信息的關(guān)系,從而對內(nèi)容的動態(tài)演化性進(jìn)行建模。

TAC2008的評測任務(wù)中Update Summarization作為文摘研究的標(biāo)準(zhǔn)備受關(guān)注，文中對動態(tài)多文檔文摘動態(tài)演化的內(nèi)容選擇問題展開進(jìn)一步的研究。流形排序(manifold-ranking)是經(jīng)典的排序方法，之前在話題相關(guān)文摘中的應(yīng)用效果不錯,但該方法并不能捕捉時間片進(jìn)化的信息。文中以動態(tài)信息的模擬演化為目標(biāo)，通過建立動態(tài)流形排序模型來為動態(tài)多文檔文摘話題相關(guān)的內(nèi)容選擇提供重要性排序。

提出了一種動態(tài)流形排序模型(dynamic manifold ranking model,DMRM)，將其用于動態(tài)多文檔文摘的研究中，使文摘同時融入了文檔的流形結(jié)構(gòu)和動態(tài)演化性。在動態(tài)多文檔文摘領(lǐng)域,對相關(guān)文檔集進(jìn)行特征抽取是文摘技術(shù)的核心。主流思想是以信息顯著性和信息新穎性為主要特征,根據(jù)句子信息顯著度和信息新穎度對句子加權(quán)排序,抽取排序值最高的句子作為文摘句;對已經(jīng)提取的文檔集特征,根據(jù)信息顯著度對句子加權(quán)排序,進(jìn)而根據(jù)信息新穎度過濾句子,過濾掉信息新穎度低的句子,最后從剩余的句子集合中抽取排序值高的句子作為文摘句。在上述兩種思想中,都把文檔集中的句子看成是孤立的,認(rèn)為句子之間沒有關(guān)聯(lián),這是一種錯誤的假設(shè)。文檔集中的句子,有相當(dāng)一部分相互之間具有關(guān)聯(lián)性。

文中提出的動態(tài)流形排序思想彌補了上述兩種模型的不足,基于動態(tài)分析,考慮了句子之間的相關(guān)性。動態(tài)流行排序是一種迭代算法,考慮了句子集合中數(shù)據(jù)點的流行結(jié)構(gòu)，經(jīng)迭代后,相似的句子趨向于具有相同的排序值,同類的句子趨向于具有相同的排序值，克服了常規(guī)文摘方法的缺點。

1 相關(guān)工作

1.1 動態(tài)多文檔文摘和流行排序的相關(guān)研究

美國NIST[2]承辦的Document Understanding Conference (DUC) 2007[3]首次提出了動態(tài)文摘任務(wù),在IARPA[4]的支持下于2007年舉行了第一屆評測會議，并且在Text Analysis Conference (TAC)2008[5]中仍然被作為重要的評測任務(wù)之一。在時序信息高速演化的背景下,快速的動態(tài)信息獲取技術(shù)成為數(shù)據(jù)挖掘和自然語言處理的研究重點。

國內(nèi)很多學(xué)者在文摘方面的研究效果顯著，例如，靜態(tài)文摘和動態(tài)文摘相結(jié)合就是一種基于改進(jìn)文摘模型的動態(tài)文摘解決方法。張瑾等[6]提出了一種基于模糊隸屬度的文檔過濾模型。該方法從對動態(tài)內(nèi)容的建模入手,通過模式識別和傳統(tǒng)文摘生成方法，對動態(tài)內(nèi)容進(jìn)行提取和分析。在動態(tài)網(wǎng)絡(luò)演化信息中,句子選擇和排序也需要動態(tài)變化，因此需要解決如何在排列策略中體現(xiàn)動態(tài)內(nèi)容的演化性問題。文中主要對信息顯著度(information significance，IS)[7]和信息新穎度(information novelty,IN)兩種指標(biāo)進(jìn)行評估和分析,在此基礎(chǔ)上改進(jìn)設(shè)計一種基于動態(tài)時序內(nèi)容的句子排列流形策略。

流形這個概念最早產(chǎn)生于人類對感知的研究[8],最初階段關(guān)系到與物理世界(地球的表面)和幾何公理研究有關(guān)的多維參數(shù)思想的分析[9]。從拓?fù)鋵W(xué)角度出發(fā),流形表示一個局部為歐幾里德的拓?fù)淇臻g。局部歐幾里德特性意味著對于空間上任一點都有一個鄰域,在這個鄰域中的拓?fù)渑cRm空間中的開放單位圓相同,Rm表示m維歐氏空間,從拓?fù)淇臻g的一個開集(鄰域)到歐氏空間的開子集的同胚映射,使得每個局部可坐標(biāo)化。它的本質(zhì)是分段線性處理[10]。流形學(xué)習(xí)的主要目標(biāo)是從非線性高維數(shù)據(jù)中發(fā)現(xiàn)嵌入其中的低維光滑流形，以進(jìn)行維數(shù)約簡和數(shù)據(jù)分析。

流形排序[11-12]在話題相關(guān)的靜態(tài)多文檔文摘中得到了很好的應(yīng)用,在傳統(tǒng)文摘技術(shù)中應(yīng)用流形排序?qū)W習(xí)算法中得到了啟發(fā)。文中面向動態(tài)多文檔文摘領(lǐng)域,提出了一種面向查詢的動態(tài)流形排序模型,該模型更好地體現(xiàn)了文檔的流行結(jié)構(gòu)和動態(tài)演化性。

1.2 主流的評測方法

目前在時序多文檔文摘的評價方面完全沿用傳統(tǒng)靜態(tài)多文檔文摘的評價方法,包括自動評價ROUGE[10]、BE[13]方法和人工評價金字塔(PYRAMID)[14]方法。文摘評價主要面向文摘的內(nèi)容選擇和語言質(zhì)量。自動評價針對文摘的內(nèi)容選擇進(jìn)行評測,而人工評價則針對文摘的內(nèi)容選擇、語言質(zhì)量和整體的反映度(綜合考慮面向話題的覆蓋度和流利度)進(jìn)行評測。

TAC是多文檔文摘領(lǐng)域最有影響的國際評測會議,由美國國家技術(shù)標(biāo)準(zhǔn)局(national institute of standards and technology，NIST)主辦的DUC和TREC中的問答評測演化而來。TAC評測由美國IARPA(intelligence advanced research projects activity)資助,每年由NIST的信息技術(shù)研究室中的信息檢索組主辦,由來自政府、企業(yè)和學(xué)術(shù)界的顧問委員會監(jiān)督。Update summarization評測面向英語,測試語料主要來自TREC中QA評測的AQUAINT-2數(shù)據(jù)集。

2 DMRM多文檔文摘模型

2.1 動態(tài)流形排序思想

經(jīng)典流形排序主要用于數(shù)據(jù)點查詢問題中,即數(shù)據(jù)挖掘領(lǐng)域。其主要排序特征是查詢數(shù)據(jù)點,查詢數(shù)據(jù)點一般來說是靜態(tài)的,這是經(jīng)典流形排序為靜態(tài)模型的原因。在動態(tài)多文檔文摘領(lǐng)域,其主要的排序特征是信息顯著性和信息新穎性。具體而言,信息顯著性包括的特征有:句子與所有其他句子相似度累加值特征;句子在文檔中的位置特征;句子的長度特征。信息新穎性包括的特征有:與歷史文摘的相似度值,相似度愈小,新穎性愈強;句子的時間特征。文中提出的動態(tài)流行排序模型主要使用這五個特征對句子加權(quán),進(jìn)行文摘內(nèi)容的選擇和排序。

2.2 DMRM的算法流程

DMRM的算法流程如圖1所示。

圖1 DMRM的算法流程

2.3 DMRM的建立

2.3.1 句子相似度矩陣W

該模型的第一步為相似度矩陣的建立，用來度量句子集合中句子之間的相關(guān)性,是動態(tài)流行排序思想的基礎(chǔ)。相似度矩陣的建立過程也是為文檔集中的句子集建立帶權(quán)無向圖的過程。該矩陣的建立要依賴于兩句子之間的相似度算法,所以相似度算法的選擇至關(guān)重要。雖然該領(lǐng)域中已存在不少相似度算法,但是其在該模型中的應(yīng)用效果均不佳?；诖?文中提出了基于TII的句子相似度計算算法,其算法公式如下：

(1)

其中,W為句子si和sj中的同現(xiàn)詞;Weight(w)=TF(w)*IDF(w)*ISF(w)為詞語W的權(quán)重，其中TF(w)表示詞語W的頻率,IDF(w)表示詞語W的反文檔頻率,ISF(w)表示詞語W的反句子頻率。此三值的統(tǒng)計范圍均為當(dāng)前文檔集句子集合,其中IDF(w)=1/DF(w)，DF(w)為整個文檔集合中包含詞W的文檔數(shù),ISF(w)=1/SF(w),SF(w)為整個文檔集中包含詞W的句子數(shù)；length(si)和length(sj)分別表示si和sj的長度。

運用該相似度算法對文檔集句子集合中所有句子其相互之間的相似度值進(jìn)行計算,即可建立相似度矩陣W。

2.3.2 句子顯著度向量A

動態(tài)流行排序模型的第二步為句子特征值的提取。定義向量A,其元素表示當(dāng)前文檔集句子集合中相應(yīng)句子與所有其他句子的相似度累加值,這個值是衡量句子重要性的一個特征。這種思想基于投票原理:句子集合中的句子之間具有關(guān)聯(lián)性,這種關(guān)聯(lián)性的強弱可通過其與其他句子間的相似度大小來體現(xiàn),同時與其具有關(guān)聯(lián)性的句子數(shù)量同樣能體現(xiàn)出這種關(guān)聯(lián)性強弱。綜合考慮以上兩項因素,文中提出用句子間的相似度累加值作為衡量句子關(guān)聯(lián)性的參數(shù),若某句子擁有相當(dāng)大的關(guān)聯(lián)性度量值,即表示該句子所含信息的顯著度值很大,那么該句子將成為一重要的候選文摘句，因此該特征將成為候選文摘句選擇的一重要指標(biāo)。計算某句子sent相似度累加值的公式如下:

(2)

其中，n表示當(dāng)前文檔集中句子的總數(shù)；Sim(sent,si)可由式(1)的計算方法得到,表示句子sent和句子si之間的相似度。

運用該算法計算句子集合中所有句子的相應(yīng)值,即可建立向量A。

2.3.3 句子冗余度向量B

向量B中的元素表示句子與歷史文摘中所有句子的相似度累加值,這個值是衡量句子信息新穎度的一個參數(shù)值?；谏鲜鐾镀痹?句子與歷史文摘句子集合的相似度累加值愈大,該句子與歷史文摘中的句子具有的關(guān)聯(lián)性愈大,表明該句子包含更多冗余信息。在動態(tài)流形排序模型中使用此特征可過濾掉信息冗余度高的句子,這是動態(tài)流形排序模型動態(tài)性的表現(xiàn)之一。文中提出的計算公式如下:

(3)

其中,n表示歷史文摘中的句子總數(shù)；Sim(sent,si)同式(2)。

運用該公式計算當(dāng)前文檔句子集合中所有句子的相應(yīng)值,即可得到向量B。

2.3.4 動態(tài)特征選擇

(1)句子時間特征向量C的建立。

由于句子時間特征是文摘動態(tài)性的一個重要體現(xiàn),因此系統(tǒng)融入了對其的考慮。直接考慮每個句子的時間特征涉及到時間短語的提取和歸一化,這是時序多文檔文摘的研究內(nèi)容,考慮起來過于復(fù)雜,而且該系統(tǒng)的研究內(nèi)容為動態(tài)多文檔文摘,與時序多文檔文摘有一定的區(qū)別,沒有必要考慮所有的時間短語。所以該系統(tǒng)將避開直接考慮句子級的時間特征,而從文檔集整體角度去考慮時間特征,這為問題的解決提供了方便?？紤]到文檔集中各個文檔的出版時間有先有后,以及動態(tài)多文檔文摘具有動態(tài)演化特性,所以出版時間靠前的文檔具有小的新穎性,出版時間靠后的文摘具有大的新穎性?；诖嗽?文中以文檔在文檔集合中出現(xiàn)的時間順序來衡量該文檔的新穎性,進(jìn)而衡量該文檔中句子的新穎性。句子信息新穎性度量值計算公式如下:

Time_Weight(sent)=i

(4)

其中，Time_Weight(sent)為句子sent的時間特征權(quán)值；i為句子sent所屬文檔在文檔集中根據(jù)時間排序的排序值。

運用該公式即可計算當(dāng)前文檔句子集合中所有句子的相應(yīng)值，形成時間特征權(quán)重向量C。

(2)句子位置特征向量D的建立。

句子的位置特征對于多文檔文摘系統(tǒng)是不可或缺的。句子在文檔中的位置決定了其重要性,根據(jù)文章的規(guī)律,位置靠前和靠后的句子比在中間的句子具有更高的重要性，加入句子位置特征能使文摘系統(tǒng)具有更好的性能。所以文中在動態(tài)流形排序模型算法中加入句子的位置特征,其計算公式如下:

(5)

其中,Position_Weight(sent)表示句子sent的位置特征值;ps表示句子sent在所屬文檔中的位置值。

利用該公式即可計算當(dāng)前文檔中所有句子的相應(yīng)值,從而建立句子位置特征向量D。

(3)句子長度特征。

無論對于靜態(tài)多文檔文摘系統(tǒng),還是動態(tài)多文檔文摘系統(tǒng),句子長度特征都是必不可少的。若句子太短,則該句子不具有很高的重要性；若句子太長,即使重要,由于占用文摘的空間太大,也不利于文摘的效果的提高,因為在動態(tài)多文檔文摘中,文摘是有字?jǐn)?shù)限制的。例如,TAC是國際上著名的文摘評測會議,其update summary任務(wù)是專門針對動態(tài)多文檔文摘評測的,其要求文摘字?jǐn)?shù)在一百字以內(nèi)，因而對句子長度的考慮是必須的。文中按如下方法使用該特征:當(dāng)句子長度大于n1與小于n2時,考慮該句子;否則舍去。該模型算法中,設(shè)置n1為10,n2為25。在算法設(shè)計階段沒有用到句子長度特征,而在文摘句優(yōu)選階段考慮句子長度特征,有助于動態(tài)流形排序算法的實現(xiàn)。

2.3.5 動態(tài)流形排序思想的核心

經(jīng)典流形排序思想主要用于早期的數(shù)據(jù)點查詢問題,描述如下:令f表示一個排序函數(shù),其賦予每一個節(jié)點xi一個排序值fi,如此,f可表示為一個向量f=[f1,f2,…,fn]T。同時,定義向量y=[y1,y2,…,yn]T,若xi是一個查詢,則令yi=1;否則,令yi=0。首先定義相鄰矩陣W={Wij|i,j=1,2,…,n},其中Wij表示從xi到xj的相似度。再定義另外一個矩陣S,其計算公式為S=D-1W,其中D為對角陣,其第(i,i)個元素等于W第i行之和,其他值均為0,矩陣S稱拉普拉斯矩陣,其值Sij即為從xi到xj的轉(zhuǎn)移概率。在矩陣?yán)绽咕仃嘢的基礎(chǔ)上,句子x1,x2,…,xn的重要性權(quán)重f可由與之相鄰的其他句子推導(dǎo)出來。f的計算公式可以遞歸地表示為:

f(t+1)=α*S*f(t)+(1-β)*y

(6)

其中,α和1-α分別表示相鄰節(jié)點和初始的查詢數(shù)據(jù)點的排序值對當(dāng)前排序值的相對貢獻(xiàn)。

分析經(jīng)典流形排序模型算法可知,整個算法只使用了一個特征,即查詢數(shù)據(jù)點。因為對數(shù)據(jù)查詢問題就只依賴于這一個特征,所有元素的排序值都由此特征決定。動態(tài)多文檔文摘的目的是抽取最重要的指定數(shù)量的句子作為文檔集的文摘,其排序?qū)ο笫钱?dāng)前文檔集的句子集合。由前面的分析可知，句子的重要性程度依賴于五個特征:與當(dāng)前文檔集中句子集合的相似度累加值；與歷史文摘中句子集合的相似度累加值；句子的位置特征；句子的時間特征；句子的長度特征。由于動態(tài)流形排序算法暫不考慮句子的長度特征,故還有四個需考慮的特征,根據(jù)這四個特征建立了四個向量。其中句子與當(dāng)前文檔集中句子集合相似度累加值向量A和句子位置特征向量D的加入意味著在句子排序值中加入了句子的信息顯著度;句子與歷史文摘中句子集合相似度累加值向量B和句子時間特征向量C的加入意味著在句子排序值中加入了信息新穎度,體現(xiàn)了該動態(tài)流形排序模型的動態(tài)性。

動態(tài)流形排序思想的核心-迭代計算句子的排序值向量f(t)受經(jīng)典流形排序思想的啟發(fā),文中提出的動態(tài)流行排序迭代算法公式為:

f(t+1)=α*S*f(t)+β*A-γ*B+η*C+λ*D

(7)

其中，f(t)和f(t+1)分別表示一次迭代前后的排序值；α為相鄰點對該句子排序值的貢獻(xiàn)；β為當(dāng)前文檔集中與之相似的句子集合對該句子排序值的貢獻(xiàn)；γ為歷史文摘中與之相似的句子對該句子的懲罰；η為該句子時間特征對之排序值的貢獻(xiàn)；λ為句子位置特征對該句子排序值的貢獻(xiàn)。

該公式計算完成之后的f(t+1)的最終值記為向量f,其第i個元素為句子senti的權(quán)重，也就是Weigth(senti)。

由式(7)可知，該算法基于迭代算法,算法的迭代次數(shù)理所當(dāng)然地會影響實驗結(jié)果。迭代次數(shù)過多,句子集合中的所有句子排序值差異將非常小,那么對后面的其他算法,很小的參數(shù)波動都會使得實驗結(jié)果有很大的差異性;評測語料的不同也會使實驗結(jié)果產(chǎn)生很大的差異性,使算法的穩(wěn)定性變差。迭代次數(shù)過少,句子之間的關(guān)聯(lián)性所起的作用就相當(dāng)小,達(dá)不到動態(tài)流形排序原本的目的。因此,迭代次數(shù)的確定也是算法的一個重要環(huán)節(jié)。

2.3.6 文摘句優(yōu)選算法

動態(tài)流形排序的優(yōu)點是考慮了句子之間的關(guān)聯(lián)性,使重要的句子之間互相推薦,使得抽取的文摘句都具有很高的重要性；缺點恰巧也在此,因為該算法導(dǎo)致抽取的句子都是相互之間有很高相似度的句子,用此句子集合形成的文摘具有很高的冗余性,使得文摘的概括面非常窄,導(dǎo)致結(jié)果不理想。若想通過此模型得到好的文摘,必須解決文摘句的優(yōu)選問題。傳統(tǒng)的MMR文摘句優(yōu)選算法,句子之間的相似度計算基于詞頻統(tǒng)計方法,由于該算法不能很好地計算句子之間的相似度,傳統(tǒng)的MMR文摘句優(yōu)選算法的效果不佳?；诖?文中提出了一種新的文摘句優(yōu)選算法,其計算公式如下:

New_Weight(sent)=α*Old_Weight(sent)-

(8)

3 實驗

3.1 實驗語料及評測方法

在TAC2008中,Update Summarization任務(wù)的測試語料由來自AQUAINT-2的48個話題組成,每個話題包含兩個時間片,且均由10個文檔組成。評價標(biāo)準(zhǔn)采用文摘評測領(lǐng)域著名的ROUGE工具,其中最主要的兩個指標(biāo)ROUGE-2和ROUGE-SU4*是評價Update文摘的。

3.2 實驗結(jié)果及分析

迭代算法中的所有參數(shù)都影響系統(tǒng)的性能。不同的參數(shù)設(shè)置,相應(yīng)的實驗結(jié)果差異性很大，因此針對文中提出的模型,測試了以下的參數(shù)設(shè)置。

做了三組實驗,第一組比較信息新穎度和信息顯著度對_DMRM的貢獻(xiàn),第二組比較不同的迭代次數(shù)對_DMRM的影響，第三組比較DMRM性能與TAC2008 Update，分別如表1～3所示。

表1 不同參數(shù)設(shè)置的比較

從表1可以看出,當(dāng)α=0.4，β=0.3,γ=0.1，η=0.1，λ=0.1時,文摘性能最好。最好效果出現(xiàn)在α=0.4的參數(shù)設(shè)置上,表明了句子集合中句子之間的關(guān)聯(lián)性對文摘句抽取影響很大,由得分可以看出動態(tài)流行排序在動態(tài)多文檔文摘領(lǐng)域中具有一定適用性。

表2 不同迭代次數(shù)的比較

從表2可以看出,當(dāng)?shù)螖?shù)為50時,ROUGE-2(R-2)和ROUGE-SU4(R-SU4)得分最高,即文摘性能最好，說明此模型的時間復(fù)雜度適中,系統(tǒng)運行起來速度較快。

表3 與TAC2008發(fā)布結(jié)果的比較

TAC2008總共發(fā)布了73個系統(tǒng)分?jǐn)?shù),表3中列出了前三名系統(tǒng)的ROUGE-2和ROUGE-SU4打分,與此分?jǐn)?shù)比較,本模型在TAC2008的發(fā)布結(jié)果中排名第1,說明動態(tài)流行排序模型很有潛力,是一種不錯的動態(tài)多文檔文摘建模方法。

綜上,在動態(tài)多文檔文摘領(lǐng)域,動態(tài)流行排序思想值得研究,是一種有效的動態(tài)多文檔文摘方法。

4 結(jié)束語

在認(rèn)真研究國內(nèi)外多文檔文摘領(lǐng)域最新發(fā)展的基礎(chǔ)上,創(chuàng)新性地對動態(tài)內(nèi)容的演化關(guān)系進(jìn)行了差異性分析?？紤]到文摘句的信息新穎度和信息顯著度對文摘的重要性,運用流行排序思想整合信息新穎度和信息顯著度對句子集合中所有句子進(jìn)行排序,根據(jù)排序值抽取句子形成文摘。同時融入對句子歷史信息特征的懲罰和時間特征的獎勵后,還能實現(xiàn)對文檔集所含信息動態(tài)演化性的建模,使文摘具有動態(tài)性，對于推動動態(tài)多文檔文摘領(lǐng)域的發(fā)展起到了一定的作用。下一步將是研究如何與其他模型更好地融合，使動態(tài)文摘具有更好的顯著性和新穎性。

[1] NENKOVA A,MASKEY S,LIU Y.Automatic summarization[C]//Proceedings of the 49th annual meeting of the association for computational linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2001.

[2] ALLAN J,JIN H,RAJMAN M,et al.Topic-based novelty detection[R].Baltimore:Center for Language and Speech Processing,Johns Hopkins University,1999.

[3] TRIPATHY A,AGRAWAL A,RATH S K.Classification of sentimental reviews using machine learning techniques[C]//Proceedings of 3rd international conference on recent trends in computing.[s.l.]:[s.n.],2015:821-829.

[4] ALLAN J,PAPKA R,LAVRENKO V.On-line new event detection and tracking[C]//Proceedings of the 21st annual international ACM SIGIR conference on research and development in information retrieval.New York,NY,USA:ACM，1998:37-45.

[5] GILLICK D,FAVRE B.A scalable global model for summarization[C]//Proceedings of the workshop on integer linear programming for natural language processing.[s.l.]:[s.n.],2009:10-18.

[6] 張瑾，許洪波.基于動態(tài)內(nèi)容的文摘方法研究[C]//全國信息檢索與內(nèi)容安全學(xué)術(shù)會議.出版地不詳:出版者不詳,2007.

[7] XIE X,LIU Y,LE W,et al.S-looper:automatic summarization for multipath string loops[C]//International symposium on software testing and analysis.New York,NY,USA:ACM,2015:188-198.

[8] SEUNG H,LEE D D.The manifold ways of perception[J].Science,2000,290(5500):2268-2269.

[9] 陳惠勇.流形概念的起源與發(fā)展[J].太原理工大學(xué)學(xué)報:社會科學(xué)版,2007,25(3):53-57.

[10] 徐蓉,姜峰,姚鴻勛.流形學(xué)習(xí)概述[J].智能系統(tǒng)學(xué)報,2006,1(1):44-51.

[11] NASTASE V.Topic-driven multi-document summarization with encyclopedic knowledge and spreading activation[C]//Conference on empirical methods in natural language processing.Stroudsburg,PA,USA:Association for Computational Linguistics, 2008:763-772.

[12] SILVEIRA S B,BRANCO A.Extracting multi-document summaries with a double clustering approach[M]//Natural language processing and information systems.Berlin:Springer,2012:70-81.

[13] LIN C Y,HOVY E.Automatic evaluation of summaries using n-gram cooccurrence statistics[C]//Proceedings of the 2003 conference of the North American chapter of the association for computational linguistics on human language technology.Stroudsburg,PA,USA:Association for Computational Linguistics,2003:71-78.

[14] FERREIRA R,CABRAL L D S,FREITAS F,et al.A multi-document summarization system based on statistics and linguistic treatment[J].Expert Systems with Applications,2014,41(13):5780-5787.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡