基于引文上下文分析的文獻(xiàn)排序方法研究

2017-05-31 06:30汪琦凡魏楊燁

軟件導(dǎo)刊 2017年5期

汪琦凡　魏楊燁

摘要摘要：基于全文的信息檢索技術(shù)很難準(zhǔn)確進(jìn)行主題識(shí)別，無法識(shí)別文章的重要性。利用引文上下文語義構(gòu)建一個(gè)引文網(wǎng)絡(luò)可達(dá)到提升檢索效率和效果的目的。通過分析引文上下文，將相關(guān)文獻(xiàn)排序，從而確定重要文獻(xiàn)。引文上下文包含的語詞如果與目標(biāo)語詞相關(guān)，那么就在兩篇文獻(xiàn)之間創(chuàng)建一個(gè)有向且賦予權(quán)重的邊，然后在這個(gè)由不同邊構(gòu)成的網(wǎng)絡(luò)里用相關(guān)的排序算法找出重要文獻(xiàn)。該排序方法可通過給定檢索語詞找出重要文獻(xiàn)，即便檢索出的文章中不含有既定檢索詞也同樣成立，極大增加了文獻(xiàn)檢索的查全率和查準(zhǔn)率。

關(guān)鍵詞關(guān)鍵詞：引文分析；引文網(wǎng)絡(luò)；文獻(xiàn)排序

DOIDOI：10.11907/rjdk.171127

中圖分類號(hào)：TP391

文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)文章編號(hào)：16727800（2017）005014603

0引言

研究人員在某個(gè)知識(shí)領(lǐng)域進(jìn)行主題學(xué)習(xí)之前，需要充分掌握有關(guān)該主題的相關(guān)知識(shí)，找出該領(lǐng)域的核心文獻(xiàn)，引文索引是一個(gè)非常有用的導(dǎo)航檢索工具。有些引文索引系統(tǒng)提供了檢索全文的平臺(tái)，而有些引文索引可在不需要獲得全文的情況下檢索相關(guān)文獻(xiàn)。引文充分反映了某一篇文獻(xiàn)被引次數(shù)的情況，而引用次數(shù)排名靠前的文章，在一定程度上代表了這個(gè)領(lǐng)域的研究進(jìn)展，可用來評(píng)估文獻(xiàn)的重要性。

引文索引是一個(gè)通過全盤掃描文獻(xiàn)的過程，是根據(jù)學(xué)科領(lǐng)域主題找到重要文章的方法。文獻(xiàn)文本中包含大量與主題不相關(guān)的文字，這些文字可能會(huì)在例子中，或者在反證里使用，使用全文檢索方法會(huì)有各種各樣的問題。例如用信息檢索工具檢索文章，文本中某個(gè)章節(jié)里包含“癌癥”一詞，結(jié)果所有文本中出現(xiàn)了“癌癥”的語詞都會(huì)被檢索出來，雖然這個(gè)詞與文章的主要論點(diǎn)不怎么相關(guān)。因此，檢索工具無法幫助我們確定哪一篇文獻(xiàn)是主題最相關(guān)的文獻(xiàn)。

引文還可以測(cè)量某一篇文獻(xiàn)的影響。一個(gè)以文章為節(jié)點(diǎn)形成引文網(wǎng)絡(luò)，如果文獻(xiàn)i包含有文獻(xiàn)j的引文，就可以將文獻(xiàn)i與文獻(xiàn)j用線連接在一起，然后根據(jù)點(diǎn)入度（例如引用數(shù)量）來給檢索出來的文章加權(quán)排序，從而形成一個(gè)引文網(wǎng)絡(luò)，該網(wǎng)絡(luò)可以通過文獻(xiàn)集合來確定其中最重要的文獻(xiàn)。

引文上下文是圍繞在參考文獻(xiàn)附近用來參考其它科學(xué)文獻(xiàn)的文本[1]。引文上下文是確認(rèn)一篇文獻(xiàn)主要研究意義的重要方法，因?yàn)樽髡呤峭ㄟ^簡(jiǎn)明扼要的引文來參考其他人的文獻(xiàn)。文章越是被相同的語詞引用，就表示這篇文章在這個(gè)主題領(lǐng)域里越重要。

引文上下文通常是由特定且被定義的文字組成。絕大多數(shù)情況下，引文上下文是對(duì)被引文獻(xiàn)的一個(gè)高度概括。換言之，引文上下文即是表征被引文獻(xiàn)的關(guān)鍵語詞。引文上下文分析提供了在沒有獲取全文的情況下，也可以去推論被引文獻(xiàn)主要觀點(diǎn)的方法。

引文上下文對(duì)于文獻(xiàn)的撰寫十分重要，體現(xiàn)后來研究者對(duì)前人工作的借鑒與認(rèn)可，為文獻(xiàn)與文獻(xiàn)之間建立了一條知識(shí)紐帶[2]。

本文根據(jù)論文主題詞找出重要文章，使用從引文上下文中提取語詞來創(chuàng)建上下文語境的引文網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)中基于Schwartz等[3]所提出的網(wǎng)絡(luò)分析方法，找到最重要的文章。

文本內(nèi)容相似性也可以提高文獻(xiàn)檢索的準(zhǔn)確度和效率[4]。如果有兩個(gè)密切相關(guān)的概念C1和C2，可能一篇文章一直在談?wù)揅1而從未提及C2。如果全文檢索，C2是不會(huì)被檢索出來的。

1相關(guān)工作

1.1引文上下文

S.Bradshaw[5]提出文檔索引模型（Reference Directed Indexing，RDI），RDI模型的原理是：抽取引用句里的語詞作為檢索式，然后對(duì)文檔進(jìn)行標(biāo)引。該模型采用一個(gè)固定的窗口——引文上下文兩側(cè)約50～100字。然后根據(jù)引文創(chuàng)建一個(gè)索引詞表。當(dāng)某些語詞頻繁出現(xiàn)，RDI值就會(huì)增加。創(chuàng)建完所有的索引數(shù)據(jù)集后，對(duì)給定的查詢檢索式，RDI會(huì)首先檢查它包含查詢的所有語詞在其索引列表中的文章，然后根據(jù)RDI值進(jìn)行排列。最后在檢索排名前十的文章里，檢查有多少篇是基于RDI模型返回的相關(guān)文獻(xiàn)，并將其與全文檢索方法對(duì)比。

文獻(xiàn)之間的連接關(guān)系不僅存在于科學(xué)文獻(xiàn)中，而且大量存在于網(wǎng)頁中。Ritchie等[6]探討了網(wǎng)絡(luò)和科學(xué)文獻(xiàn)之間的相似性，指出超鏈接不能完全類比引文，因?yàn)槌溄拥臄?shù)量很多，論文的引用數(shù)卻以某種方式存在限制，它們各不相同。Aljaber等[1]也在網(wǎng)頁和科學(xué)引文之間找到了一些相似性。

引文上下文還可以用來概括文章。Radev等[7]使用ngram模型從引文上下文數(shù)據(jù)集中提取關(guān)鍵語詞，然后用這些關(guān)鍵短語構(gòu)建摘要。還有些學(xué)者會(huì)將科技文獻(xiàn)的引文根據(jù)文章的概念性、可操作性、組織性、革命性等進(jìn)行分類[8]。

Aljaber等[1]對(duì)如何確定引文上下文以及如何將引文上下文與相關(guān)的引文匹配，采用了一個(gè)簡(jiǎn)單而有效的方法——將預(yù)定窗口大小里引文周圍的語詞作為數(shù)據(jù)。他們嘗試了不同的窗口大小，發(fā)現(xiàn)有50個(gè)字引文的窗口是文檔聚類最佳的引文上下文大小。

1.2網(wǎng)絡(luò)生成

構(gòu)建網(wǎng)絡(luò)方式多樣。Kessler[9]提出文獻(xiàn)耦合假設(shè)，該假設(shè)認(rèn)為相似的文獻(xiàn)大多有著類似的參考文獻(xiàn)。如果兩篇文章引用了同一篇文獻(xiàn)，那么兩篇文章是耦合的。此時(shí)，可以在擁有相同引文數(shù)量的兩篇文獻(xiàn)之間創(chuàng)建一個(gè)無向加權(quán)邊，從而構(gòu)建相應(yīng)網(wǎng)絡(luò)。

另外從文章出發(fā)構(gòu)建網(wǎng)絡(luò)的方法則是使用共引分析。文章A和文章B的共引數(shù)量就是共同引用了A和B的文章數(shù)量[10]。該方法假設(shè)相似的文章被同時(shí)引用的頻率很大。Gipp等[11]對(duì)共引分析進(jìn)行了擴(kuò)展——共引相似性分析（Cocitation Proximity Analysis ，CPA）。

2引文分析排序方法

2.1相關(guān)理論

被大量引用且與主題相關(guān)的文獻(xiàn)通常是該領(lǐng)域內(nèi)的種子文獻(xiàn)，所以被引數(shù)量越大意味著該文獻(xiàn)越重要。

引用某一篇文獻(xiàn)可能存在很多動(dòng)機(jī)：它可能是題外話，也可能是批評(píng)而不是贊同，由此很難自動(dòng)確定引文上下文的意圖[12]。但是總的來說，一篇文章被許多文章用相同的語詞引用，那么它會(huì)在這語詞區(qū)域內(nèi)得到一種集中確認(rèn)，可從累積的引證文獻(xiàn)中抽取出被引文獻(xiàn)的語義部分。

按照前人總結(jié)出來的方法來定義引文上下文語詞，采用固定大小的窗口來確定引文上下文[5]。

在所有文章的引文上下文里，將每個(gè)雙字詞組作為定義語詞。例如，如果有3篇文章被引用到一個(gè)引文上下文里，我們就會(huì)提取上下文中每一個(gè)雙字詞組來作為這3篇文章的定義語詞，這更容易從引文上下文里抽取有意義的語詞。單字詞的抽取方法會(huì)造成很多同義詞問題，例如，“social network”是一個(gè)專有名詞，但是拆開之后，“social”和“network”會(huì)涉及到更加寬泛的定義。

2.2引文網(wǎng)絡(luò)

引用上下文是圍繞引文標(biāo)記的文本。這個(gè)文本的范圍可以定義為句子、詞或者字符。從引證文獻(xiàn)到被引文獻(xiàn)之間創(chuàng)建一個(gè)有向邊，從而構(gòu)建一個(gè)引文網(wǎng)絡(luò)，就是所謂的有向圖。

一個(gè)引文網(wǎng)絡(luò)里的邊所承載的信息比一個(gè)單純的二元關(guān)系要多?？蓮囊纳舷挛睦锾崛≌Z詞，也就是一個(gè)單詞或者一個(gè)組詞，而這些詞正是作者用來解釋引文的。

A為所有文章的集合，然后用小寫的拉丁字母來代替A中的文章，例如i，j∈A。讓T成為A文章集合中所有的元素。為了區(qū)別，使用小寫的希臘字母來表示T集合中的元素，例如β，τ∈T。

一個(gè)以元素標(biāo)記的網(wǎng)絡(luò)記成G（A，C），這個(gè)網(wǎng)絡(luò)是一個(gè)邊集有向圖C=A×A，當(dāng)文章i引用文章j，那么（i，j） ∈C。邊（i，j） ∈C 被記成Ti，jT，其中Ti，j是所有出現(xiàn)在文章i到文章j的引文上下文中最新的元素。Ti，j可在相同的引文上下文中出現(xiàn)多次。當(dāng)然，如果文章i和文章j沒有引文，也可能出現(xiàn)Ti，j，或引文上下文的集合中沒有任何元素。

根據(jù)某一個(gè)元素去獲取一個(gè)引文上下文的網(wǎng)絡(luò)，即β∈T稱為一個(gè)元素。那么子圖G（A，C）中的Gβ（A，Cβ）就稱為引文網(wǎng)絡(luò)。在元素β中，Cβ∈C，并且如果β∈Ti，j，那么（i，j）∈Cβ。于是，就可運(yùn)行這個(gè)網(wǎng)絡(luò)標(biāo)準(zhǔn)的排名算法，找到這個(gè)元素的重要文獻(xiàn)。

圖1的例子是由6篇文章組成的一個(gè)引文上下文網(wǎng)絡(luò)，與之對(duì)應(yīng)的元素標(biāo)記引文網(wǎng)絡(luò)A={a1，a2，…，a6}和圖2中給出的T={τ1，τ2，…，τ6}。引文網(wǎng)絡(luò)中的元素τ1和τ4也都在圖2中相應(yīng)給出。

2.3語詞相似性

一個(gè)語詞一般不足以完整識(shí)別一篇文獻(xiàn)所包含的所有主題，因?yàn)閮H僅只是用一個(gè)單詞傳達(dá)信息時(shí)會(huì)有噪音存在，如同義詞等。本文方法是在文檔檢索過程中使用相似語詞，即如果兩個(gè)詞在相當(dāng)數(shù)量的引文中出現(xiàn)，那么這兩個(gè)詞就認(rèn)定是相似的。為了定義語詞的相似性，本文還用到以下方法。

詞頻是語詞-文檔矩陣方法中一個(gè)重要概念，記作F=[fβj]，其中fβj是引文上下文中用語詞β引用文章j的文章數(shù)量。也就是說，fβj是在引文網(wǎng)絡(luò)Gβ中文章j的引用次數(shù)。F實(shí)質(zhì)上是從文章節(jié)點(diǎn)和詞節(jié)點(diǎn)之間的無向加權(quán)二分網(wǎng)絡(luò)中抽取出來的。例如，圖2中的一個(gè)二分網(wǎng)絡(luò)，f是詞項(xiàng)文檔矩陣。

使用簡(jiǎn)單的詞頻方法存在一定問題：除了少數(shù)幾個(gè)詞外，幾乎所有的詞會(huì)被看作同等重要。例如，文章集合中的“癌癥”一詞，可能幾乎所有的引文上下文中都會(huì)有“癌癥”這個(gè)詞，所以需要縮小在引文上下文中出現(xiàn)的語詞權(quán)重。原則上，減少語詞頻次權(quán)重正是因?yàn)樵撜Z詞在引文上下文里的頻繁出現(xiàn)。Term-frequency-inverse document frequency（tf-idf）就是解決此問題的一種統(tǒng)計(jì)方法[13]。這種方法廣泛運(yùn)用于信息檢索和文本挖掘中，它表現(xiàn)了一篇文檔中一個(gè)語詞對(duì)于文檔的重要性。語詞β的逆向文檔頻率定義如下：

idf（β）=log|A|[]j∈Asgn（fβj）（1）

其中sgn（x）被如下函數(shù)定義：

sgn（x）=1，x>0，0，x=0，-1，x<0.（2）

顯然，x<0不會(huì)考慮在內(nèi)。

定義權(quán)重語詞文檔矩陣N=[nβj]，N=D×F，其中D=[dτβ]，它是一個(gè)|T|×|T|的對(duì)角矩陣：

dβτ=idf（β），t=β，0，otherwise（3）

然后讓?duì)潞挺映蔀檎Z詞β和語詞τ對(duì)應(yīng)的行向量。B和τ的代入顯示了文章數(shù)據(jù)集里的語詞β和語詞τ的權(quán)重語詞頻率。如果想知道這些語詞在文章中重復(fù)了多少，只需要對(duì)比行向量β和τ即可。出于這個(gè)目的，采用樣本中β和τ的皮爾遜相關(guān)系數(shù)pβ。

其中是向量x的詞的平均數(shù)。樣本皮爾遜相關(guān)系數(shù)與樣本x和樣本y對(duì)應(yīng)，給定一個(gè)-1～1的值。一個(gè)為1的值意味著用一個(gè)線性方程來描述x與y之間的關(guān)系，所有的數(shù)據(jù)點(diǎn)都在一條x增加y就增加的線上。而數(shù)值為-1則代表所有的數(shù)據(jù)點(diǎn)在一條x增加y就減少的線上。這和數(shù)據(jù)沒有關(guān)系，因?yàn)榻o語詞τ和語詞β賦值-1，就不得不讓它們相互補(bǔ)充。

最終，定義語詞的相似性。如果pβτ<δ，且0<δ<1，就認(rèn)為語詞τ與語詞β相似。

2.4相似語詞集合的引文網(wǎng)絡(luò)

給定語詞β，相似的集合就為Sβ={T|τ相似于β}，可把相似的語詞引文網(wǎng)絡(luò)合并到一個(gè)權(quán)重的有向網(wǎng)絡(luò)中。子圖G（A，C）的GSβ（A，CSβ）就被稱作為β-相似引文網(wǎng)絡(luò)，在這個(gè)網(wǎng)絡(luò)可以合并和β相似的語詞引文網(wǎng)絡(luò)的邊。例如，CSβ=Uτ∈SβCτ，wij的邊（i，j） ∈CSβ，那么它就是邊合并之后權(quán)重的總和。即：

wij=∑（i，j）∈Tij∩Sβpβτ（5）

注意：Sβ不能為空，因?yàn)棣隆蔛β。

通過給定一個(gè)語詞β，構(gòu)建一個(gè)β-相似引文網(wǎng)絡(luò)后，就可以運(yùn)行網(wǎng)絡(luò)中的排序算法，找出β詞語相關(guān)主題中最重要的文章。

3結(jié)語

引文索引是建立在布爾檢索之上的，所以任何一篇文章的查詢語句集就相當(dāng)于一個(gè)給定的查詢列表。文章的作者會(huì)用許多語詞去描述研究過程，而有些語詞可能與文章最主要的研究意義無關(guān)。因此，不相關(guān)的文章可能會(huì)排在檢索結(jié)果前面，這僅僅是因?yàn)檫@些文章可能在其它領(lǐng)域是重要文章，所以有必要構(gòu)建一個(gè)衡量主題識(shí)別相關(guān)性和影響的方法。

從上下文語義出發(fā)去檢索一篇重要文獻(xiàn)是一個(gè)新方法。當(dāng)前，大部分引文分析研究集中在被引數(shù)量而忽視了引文的潛在原因，本文辦法解決了這個(gè)問題。

利用引文上下文的方法是為了給重要的文章排序。對(duì)于一個(gè)給定的主題語詞，首先要?jiǎng)?chuàng)建一個(gè)相似語詞集合，然后再查詢包含有相似語詞集合的引文上下文。只有通過檢測(cè)引文上下文，才能創(chuàng)建主題相關(guān)的網(wǎng)絡(luò)，才能應(yīng)用鏈接分析，在網(wǎng)絡(luò)中找到相關(guān)主題最重要的文章。

參考文獻(xiàn)參考文獻(xiàn)：

[1]ALJABER，BADER.Document clustering of scientific texts using citation contexts[J].Information Retrieval Journal，2010，13（2）：101131.

[2]陸偉，孟睿，劉興幫.面向引用關(guān)系的引文內(nèi)容標(biāo)注框架研究[J].中國(guó)圖書館學(xué)報(bào)，2014（6）：93104.

[3]SCHWARTZ，ARIEL S，M HEARST.Summarizing key concepts using citation sentences[J].The Workshop on Linking Natural Language Processing and Biology： Towards Deeper Biological Literature Analysis Association for Computational Linguistics，2006（5）：134135.

[4]劉盛博，丁堃，張春博.引文分析的新階段：從引文著錄分析到引用內(nèi)容分析[J].圖書情報(bào)知識(shí)，2015 （3）：2534.

[5]BRADSHAW，SHANNON.Reference directed indexing： redeeming relevance for subject search in citation indexes.research and advanced technology for digital libraries[J].Springer Berlin Heidelberg，2003（4）：499510.

[6]RITCHIE ANNA，S TEUFEL，S ROBERTSON.How to find better index terms through citations[J].The Workshop on How Can Computational Linguistics Improve Information Retrieval Association for Computational Linguistics，2006（6）：2532.

[7]QAZVINIAN，VAHED，D R RADEV，et al.Citation summarization through key phrase extraction[C].COLING 2010，International Conference on Computational Linguistics，Proceedings of the Conference，Beijing，China DBLP，2010：895903.

[8]MORAVCSIK，MICHAEL J，P MURUGESAN.Some results on the function and quality of citations[J].Social Studies of Science，1975，5（1）：8692.

[9]KESSLER.Bibliographic coupling between scientific papers[J].Journal of the Association for Information Science and Technology，1963，14（1）：1025.

[10]SMALL，HENRY.Cocitation in the scientific literature： a new measure of the relationship between two documents[J].Journal of the Association for Information Science and Technology，1973，24（4）：265269.

[11]GIPP，BELA，J BEEL.Citation proximity analysis （CPA）a new approach for identifying related work based on cocitation analysis[C].International Conference on Scientometrics & Informetrics，2009：571575.

[12]A ABUJBARA，J EZRA，D RADEV.Purpose and polarity of citation： towards nlpbased bibliometrics[C].HLTNAACL，2013.

[13]MANNING，CHRISTOPHER D，P RAGHAVAN，et al.Introduction to information retrieval[M].北京：人民郵電出版社，2010.

責(zé)任編輯（責(zé)任編輯：杜能鋼）

軟件導(dǎo)刊2017年5期

軟件導(dǎo)刊的其它文章: 基于標(biāo)準(zhǔn)地址庫的95598客戶服務(wù)故障工單地址匹配方法; 關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)算法在學(xué)生考研成功影響因素分析中的應(yīng)用; Spark 2.0平臺(tái)在大數(shù)據(jù)處理中的應(yīng)用研究; 社交網(wǎng)絡(luò)用戶關(guān)系分析; 高性能HTTPS服務(wù)中的TIME_WAIT分析; 多信道Buffer感知機(jī)會(huì)路由協(xié)議

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于引文上下文分析的文獻(xiàn)排序方法研究