国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于引文上下文分析的文獻(xiàn)排序方法研究

2017-05-31 06:30汪琦凡魏楊燁
軟件導(dǎo)刊 2017年5期

汪琦凡 魏楊燁

摘要摘要:基于全文的信息檢索技術(shù)很難準(zhǔn)確進(jìn)行主題識(shí)別,無法識(shí)別文章的重要性。利用引文上下文語義構(gòu)建一個(gè)引文網(wǎng)絡(luò)可達(dá)到提升檢索效率和效果的目的。通過分析引文上下文,將相關(guān)文獻(xiàn)排序,從而確定重要文獻(xiàn)。引文上下文包含的語詞如果與目標(biāo)語詞相關(guān),那么就在兩篇文獻(xiàn)之間創(chuàng)建一個(gè)有向且賦予權(quán)重的邊,然后在這個(gè)由不同邊構(gòu)成的網(wǎng)絡(luò)里用相關(guān)的排序算法找出重要文獻(xiàn)。該排序方法可通過給定檢索語詞找出重要文獻(xiàn),即便檢索出的文章中不含有既定檢索詞也同樣成立,極大增加了文獻(xiàn)檢索的查全率和查準(zhǔn)率。

關(guān)鍵詞關(guān)鍵詞:引文分析;引文網(wǎng)絡(luò);文獻(xiàn)排序

DOIDOI:10.11907/rjdk.171127

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005014603

0引言

研究人員在某個(gè)知識(shí)領(lǐng)域進(jìn)行主題學(xué)習(xí)之前,需要充分掌握有關(guān)該主題的相關(guān)知識(shí),找出該領(lǐng)域的核心文獻(xiàn),引文索引是一個(gè)非常有用的導(dǎo)航檢索工具。有些引文索引系統(tǒng)提供了檢索全文的平臺(tái),而有些引文索引可在不需要獲得全文的情況下檢索相關(guān)文獻(xiàn)。引文充分反映了某一篇文獻(xiàn)被引次數(shù)的情況,而引用次數(shù)排名靠前的文章,在一定程度上代表了這個(gè)領(lǐng)域的研究進(jìn)展,可用來評(píng)估文獻(xiàn)的重要性。

引文索引是一個(gè)通過全盤掃描文獻(xiàn)的過程,是根據(jù)學(xué)科領(lǐng)域主題找到重要文章的方法。文獻(xiàn)文本中包含大量與主題不相關(guān)的文字,這些文字可能會(huì)在例子中,或者在反證里使用,使用全文檢索方法會(huì)有各種各樣的問題。例如用信息檢索工具檢索文章,文本中某個(gè)章節(jié)里包含“癌癥”一詞,結(jié)果所有文本中出現(xiàn)了“癌癥”的語詞都會(huì)被檢索出來,雖然這個(gè)詞與文章的主要論點(diǎn)不怎么相關(guān)。因此,檢索工具無法幫助我們確定哪一篇文獻(xiàn)是主題最相關(guān)的文獻(xiàn)。

引文還可以測(cè)量某一篇文獻(xiàn)的影響。一個(gè)以文章為節(jié)點(diǎn)形成引文網(wǎng)絡(luò),如果文獻(xiàn)i包含有文獻(xiàn)j的引文,就可以將文獻(xiàn)i與文獻(xiàn)j用線連接在一起,然后根據(jù)點(diǎn)入度(例如引用數(shù)量)來給檢索出來的文章加權(quán)排序,從而形成一個(gè)引文網(wǎng)絡(luò),該網(wǎng)絡(luò)可以通過文獻(xiàn)集合來確定其中最重要的文獻(xiàn)。

引文上下文是圍繞在參考文獻(xiàn)附近用來參考其它科學(xué)文獻(xiàn)的文本[1]。引文上下文是確認(rèn)一篇文獻(xiàn)主要研究意義的重要方法,因?yàn)樽髡呤峭ㄟ^簡(jiǎn)明扼要的引文來參考其他人的文獻(xiàn)。文章越是被相同的語詞引用,就表示這篇文章在這個(gè)主題領(lǐng)域里越重要。

引文上下文通常是由特定且被定義的文字組成。絕大多數(shù)情況下,引文上下文是對(duì)被引文獻(xiàn)的一個(gè)高度概括。換言之,引文上下文即是表征被引文獻(xiàn)的關(guān)鍵語詞。引文上下文分析提供了在沒有獲取全文的情況下,也可以去推論被引文獻(xiàn)主要觀點(diǎn)的方法。

引文上下文對(duì)于文獻(xiàn)的撰寫十分重要,體現(xiàn)后來研究者對(duì)前人工作的借鑒與認(rèn)可,為文獻(xiàn)與文獻(xiàn)之間建立了一條知識(shí)紐帶[2]。

本文根據(jù)論文主題詞找出重要文章,使用從引文上下文中提取語詞來創(chuàng)建上下文語境的引文網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)中基于Schwartz等[3]所提出的網(wǎng)絡(luò)分析方法,找到最重要的文章。

文本內(nèi)容相似性也可以提高文獻(xiàn)檢索的準(zhǔn)確度和效率[4]。如果有兩個(gè)密切相關(guān)的概念C1和C2,可能一篇文章一直在談?wù)揅1而從未提及C2。如果全文檢索,C2是不會(huì)被檢索出來的。

1相關(guān)工作

1.1引文上下文

S.Bradshaw[5]提出文檔索引模型(Reference Directed Indexing,RDI),RDI模型的原理是:抽取引用句里的語詞作為檢索式,然后對(duì)文檔進(jìn)行標(biāo)引。該模型采用一個(gè)固定的窗口——引文上下文兩側(cè)約50~100字。然后根據(jù)引文創(chuàng)建一個(gè)索引詞表。當(dāng)某些語詞頻繁出現(xiàn),RDI值就會(huì)增加。創(chuàng)建完所有的索引數(shù)據(jù)集后,對(duì)給定的查詢檢索式,RDI會(huì)首先檢查它包含查詢的所有語詞在其索引列表中的文章,然后根據(jù)RDI值進(jìn)行排列。最后在檢索排名前十的文章里,檢查有多少篇是基于RDI模型返回的相關(guān)文獻(xiàn),并將其與全文檢索方法對(duì)比。

文獻(xiàn)之間的連接關(guān)系不僅存在于科學(xué)文獻(xiàn)中,而且大量存在于網(wǎng)頁中。Ritchie等[6]探討了網(wǎng)絡(luò)和科學(xué)文獻(xiàn)之間的相似性,指出超鏈接不能完全類比引文,因?yàn)槌溄拥臄?shù)量很多,論文的引用數(shù)卻以某種方式存在限制,它們各不相同。Aljaber等[1]也在網(wǎng)頁和科學(xué)引文之間找到了一些相似性。

引文上下文還可以用來概括文章。Radev等[7]使用ngram模型從引文上下文數(shù)據(jù)集中提取關(guān)鍵語詞,然后用這些關(guān)鍵短語構(gòu)建摘要。還有些學(xué)者會(huì)將科技文獻(xiàn)的引文根據(jù)文章的概念性、可操作性、組織性、革命性等進(jìn)行分類[8]。

Aljaber等[1]對(duì)如何確定引文上下文以及如何將引文上下文與相關(guān)的引文匹配,采用了一個(gè)簡(jiǎn)單而有效的方法——將預(yù)定窗口大小里引文周圍的語詞作為數(shù)據(jù)。他們嘗試了不同的窗口大小,發(fā)現(xiàn)有50個(gè)字引文的窗口是文檔聚類最佳的引文上下文大小。

1.2網(wǎng)絡(luò)生成

構(gòu)建網(wǎng)絡(luò)方式多樣。Kessler[9]提出文獻(xiàn)耦合假設(shè),該假設(shè)認(rèn)為相似的文獻(xiàn)大多有著類似的參考文獻(xiàn)。如果兩篇文章引用了同一篇文獻(xiàn),那么兩篇文章是耦合的。此時(shí),可以在擁有相同引文數(shù)量的兩篇文獻(xiàn)之間創(chuàng)建一個(gè)無向加權(quán)邊,從而構(gòu)建相應(yīng)網(wǎng)絡(luò)。

另外從文章出發(fā)構(gòu)建網(wǎng)絡(luò)的方法則是使用共引分析。文章A和文章B的共引數(shù)量就是共同引用了A和B的文章數(shù)量[10]。該方法假設(shè)相似的文章被同時(shí)引用的頻率很大。Gipp等[11]對(duì)共引分析進(jìn)行了擴(kuò)展——共引相似性分析(Cocitation Proximity Analysis ,CPA)。

2引文分析排序方法

2.1相關(guān)理論

被大量引用且與主題相關(guān)的文獻(xiàn)通常是該領(lǐng)域內(nèi)的種子文獻(xiàn),所以被引數(shù)量越大意味著該文獻(xiàn)越重要。

引用某一篇文獻(xiàn)可能存在很多動(dòng)機(jī):它可能是題外話,也可能是批評(píng)而不是贊同,由此很難自動(dòng)確定引文上下文的意圖[12]。但是總的來說,一篇文章被許多文章用相同的語詞引用,那么它會(huì)在這語詞區(qū)域內(nèi)得到一種集中確認(rèn),可從累積的引證文獻(xiàn)中抽取出被引文獻(xiàn)的語義部分。

按照前人總結(jié)出來的方法來定義引文上下文語詞,采用固定大小的窗口來確定引文上下文[5]。

在所有文章的引文上下文里,將每個(gè)雙字詞組作為定義語詞。例如,如果有3篇文章被引用到一個(gè)引文上下文里,我們就會(huì)提取上下文中每一個(gè)雙字詞組來作為這3篇文章的定義語詞,這更容易從引文上下文里抽取有意義的語詞。單字詞的抽取方法會(huì)造成很多同義詞問題,例如,“social network”是一個(gè)專有名詞,但是拆開之后,“social”和“network”會(huì)涉及到更加寬泛的定義。

2.2引文網(wǎng)絡(luò)

引用上下文是圍繞引文標(biāo)記的文本。這個(gè)文本的范圍可以定義為句子、詞或者字符。從引證文獻(xiàn)到被引文獻(xiàn)之間創(chuàng)建一個(gè)有向邊,從而構(gòu)建一個(gè)引文網(wǎng)絡(luò),就是所謂的有向圖。

一個(gè)引文網(wǎng)絡(luò)里的邊所承載的信息比一個(gè)單純的二元關(guān)系要多??蓮囊纳舷挛睦锾崛≌Z詞,也就是一個(gè)單詞或者一個(gè)組詞,而這些詞正是作者用來解釋引文的。

A為所有文章的集合,然后用小寫的拉丁字母來代替A中的文章,例如i,j∈A。讓T成為A文章集合中所有的元素。為了區(qū)別,使用小寫的希臘字母來表示T集合中的元素,例如β,τ∈T。

一個(gè)以元素標(biāo)記的網(wǎng)絡(luò)記成G(A,C),這個(gè)網(wǎng)絡(luò)是一個(gè)邊集有向圖C=A×A,當(dāng)文章i引用文章j,那么(i,j) ∈C。邊(i,j) ∈C 被記成Ti,jT,其中Ti,j是所有出現(xiàn)在文章i到文章j的引文上下文中最新的元素。Ti,j可在相同的引文上下文中出現(xiàn)多次。當(dāng)然,如果文章i和文章j沒有引文,也可能出現(xiàn)Ti,j,或引文上下文的集合中沒有任何元素。

根據(jù)某一個(gè)元素去獲取一個(gè)引文上下文的網(wǎng)絡(luò),即β∈T稱為一個(gè)元素。那么子圖G(A,C)中的Gβ(A,Cβ)就稱為引文網(wǎng)絡(luò)。在元素β中,Cβ∈C,并且如果β∈Ti,j,那么(i,j)∈Cβ。于是,就可運(yùn)行這個(gè)網(wǎng)絡(luò)標(biāo)準(zhǔn)的排名算法,找到這個(gè)元素的重要文獻(xiàn)。

圖1的例子是由6篇文章組成的一個(gè)引文上下文網(wǎng)絡(luò),與之對(duì)應(yīng)的元素標(biāo)記引文網(wǎng)絡(luò)A={a1,a2,…,a6}和圖2中給出的T={τ1,τ2,…,τ6}。引文網(wǎng)絡(luò)中的元素τ1和τ4也都在圖2中相應(yīng)給出。

2.3語詞相似性

一個(gè)語詞一般不足以完整識(shí)別一篇文獻(xiàn)所包含的所有主題,因?yàn)閮H僅只是用一個(gè)單詞傳達(dá)信息時(shí)會(huì)有噪音存在,如同義詞等。本文方法是在文檔檢索過程中使用相似語詞,即如果兩個(gè)詞在相當(dāng)數(shù)量的引文中出現(xiàn),那么這兩個(gè)詞就認(rèn)定是相似的。為了定義語詞的相似性,本文還用到以下方法。

詞頻是語詞-文檔矩陣方法中一個(gè)重要概念,記作F=[fβj],其中fβj是引文上下文中用語詞β引用文章j的文章數(shù)量。也就是說,fβj是在引文網(wǎng)絡(luò)Gβ中文章j的引用次數(shù)。F實(shí)質(zhì)上是從文章節(jié)點(diǎn)和詞節(jié)點(diǎn)之間的無向加權(quán)二分網(wǎng)絡(luò)中抽取出來的。例如,圖2中的一個(gè)二分網(wǎng)絡(luò),f是詞項(xiàng)文檔矩陣。

使用簡(jiǎn)單的詞頻方法存在一定問題:除了少數(shù)幾個(gè)詞外,幾乎所有的詞會(huì)被看作同等重要。例如,文章集合中的“癌癥”一詞,可能幾乎所有的引文上下文中都會(huì)有“癌癥”這個(gè)詞,所以需要縮小在引文上下文中出現(xiàn)的語詞權(quán)重。原則上,減少語詞頻次權(quán)重正是因?yàn)樵撜Z詞在引文上下文里的頻繁出現(xiàn)。Term-frequency-inverse document frequency(tf-idf)就是解決此問題的一種統(tǒng)計(jì)方法[13]。這種方法廣泛運(yùn)用于信息檢索和文本挖掘中,它表現(xiàn)了一篇文檔中一個(gè)語詞對(duì)于文檔的重要性。語詞β的逆向文檔頻率定義如下:

idf(β)=log|A|[]j∈Asgn(fβj)(1)

其中sgn(x)被如下函數(shù)定義:

sgn(x)=1,x>0,0,x=0,-1,x<0.(2)

顯然,x<0不會(huì)考慮在內(nèi)。

定義權(quán)重語詞文檔矩陣N=[nβj],N=D×F,其中D=[dτβ],它是一個(gè)|T|×|T|的對(duì)角矩陣:

dβτ=idf(β),t=β,0,otherwise(3)

然后讓?duì)潞挺映蔀檎Z詞β和語詞τ對(duì)應(yīng)的行向量。B和τ的代入顯示了文章數(shù)據(jù)集里的語詞β和語詞τ的權(quán)重語詞頻率。如果想知道這些語詞在文章中重復(fù)了多少,只需要對(duì)比行向量β和τ即可。出于這個(gè)目的,采用樣本中β和τ的皮爾遜相關(guān)系數(shù)pβ。

其中是向量x的詞的平均數(shù)。樣本皮爾遜相關(guān)系數(shù)與樣本x和樣本y對(duì)應(yīng),給定一個(gè)-1~1的值。一個(gè)為1的值意味著用一個(gè)線性方程來描述x與y之間的關(guān)系,所有的數(shù)據(jù)點(diǎn)都在一條x增加y就增加的線上。而數(shù)值為-1則代表所有的數(shù)據(jù)點(diǎn)在一條x增加y就減少的線上。這和數(shù)據(jù)沒有關(guān)系,因?yàn)榻o語詞τ和語詞β賦值-1,就不得不讓它們相互補(bǔ)充。

最終,定義語詞的相似性。如果pβτ<δ,且0<δ<1,就認(rèn)為語詞τ與語詞β相似。

2.4相似語詞集合的引文網(wǎng)絡(luò)

給定語詞β,相似的集合就為Sβ={T|τ相似于β},可把相似的語詞引文網(wǎng)絡(luò)合并到一個(gè)權(quán)重的有向網(wǎng)絡(luò)中。子圖G(A,C)的GSβ(A,CSβ) 就被稱作為β-相似引文網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)可以合并和β相似的語詞引文網(wǎng)絡(luò)的邊。例如,CSβ=Uτ∈SβCτ,wij的邊(i,j) ∈CSβ,那么它就是邊合并之后權(quán)重的總和。即:

wij=∑(i,j)∈Tij∩Sβpβτ(5)

注意:Sβ不能為空,因?yàn)棣隆蔛β。

通過給定一個(gè)語詞β,構(gòu)建一個(gè)β-相似引文網(wǎng)絡(luò)后,就可以運(yùn)行網(wǎng)絡(luò)中的排序算法,找出β詞語相關(guān)主題中最重要的文章。

3結(jié)語

引文索引是建立在布爾檢索之上的,所以任何一篇文章的查詢語句集就相當(dāng)于一個(gè)給定的查詢列表。文章的作者會(huì)用許多語詞去描述研究過程,而有些語詞可能與文章最主要的研究意義無關(guān)。因此,不相關(guān)的文章可能會(huì)排在檢索結(jié)果前面,這僅僅是因?yàn)檫@些文章可能在其它領(lǐng)域是重要文章,所以有必要構(gòu)建一個(gè)衡量主題識(shí)別相關(guān)性和影響的方法。

從上下文語義出發(fā)去檢索一篇重要文獻(xiàn)是一個(gè)新方法。當(dāng)前,大部分引文分析研究集中在被引數(shù)量而忽視了引文的潛在原因,本文辦法解決了這個(gè)問題。

利用引文上下文的方法是為了給重要的文章排序。對(duì)于一個(gè)給定的主題語詞,首先要?jiǎng)?chuàng)建一個(gè)相似語詞集合,然后再查詢包含有相似語詞集合的引文上下文。只有通過檢測(cè)引文上下文,才能創(chuàng)建主題相關(guān)的網(wǎng)絡(luò),才能應(yīng)用鏈接分析,在網(wǎng)絡(luò)中找到相關(guān)主題最重要的文章。

參考文獻(xiàn)參考文獻(xiàn):

[1]ALJABER,BADER.Document clustering of scientific texts using citation contexts[J].Information Retrieval Journal,2010,13(2):101131.

[2]陸偉,孟睿,劉興幫.面向引用關(guān)系的引文內(nèi)容標(biāo)注框架研究[J].中國(guó)圖書館學(xué)報(bào),2014(6):93104.

[3]SCHWARTZ,ARIEL S,M HEARST.Summarizing key concepts using citation sentences[J].The Workshop on Linking Natural Language Processing and Biology: Towards Deeper Biological Literature Analysis Association for Computational Linguistics,2006(5):134135.

[4]劉盛博,丁堃,張春博.引文分析的新階段:從引文著錄分析到引用內(nèi)容分析[J].圖書情報(bào)知識(shí),2015 (3):2534.

[5]BRADSHAW,SHANNON.Reference directed indexing: redeeming relevance for subject search in citation indexes.research and advanced technology for digital libraries[J].Springer Berlin Heidelberg,2003(4):499510.

[6]RITCHIE ANNA,S TEUFEL,S ROBERTSON.How to find better index terms through citations[J].The Workshop on How Can Computational Linguistics Improve Information Retrieval Association for Computational Linguistics,2006(6):2532.

[7]QAZVINIAN,VAHED,D R RADEV,et al.Citation summarization through key phrase extraction[C].COLING 2010,International Conference on Computational Linguistics,Proceedings of the Conference,Beijing,China DBLP,2010:895903.

[8]MORAVCSIK,MICHAEL J,P MURUGESAN.Some results on the function and quality of citations[J].Social Studies of Science,1975,5(1):8692.

[9]KESSLER.Bibliographic coupling between scientific papers[J].Journal of the Association for Information Science and Technology,1963,14(1):1025.

[10]SMALL,HENRY.Cocitation in the scientific literature: a new measure of the relationship between two documents[J].Journal of the Association for Information Science and Technology,1973,24(4):265269.

[11]GIPP,BELA,J BEEL.Citation proximity analysis (CPA)a new approach for identifying related work based on cocitation analysis[C].International Conference on Scientometrics & Informetrics,2009:571575.

[12]A ABUJBARA,J EZRA,D RADEV.Purpose and polarity of citation: towards nlpbased bibliometrics[C].HLTNAACL,2013.

[13]MANNING,CHRISTOPHER D,P RAGHAVAN,et al.Introduction to information retrieval[M].北京:人民郵電出版社,2010.

責(zé)任編輯(責(zé)任編輯:杜能鋼)