基于文本相似度分析的期刊引文有效性識別研究

2018-01-07 09:41鞠秀芳

現(xiàn)代情報 2018年11期

鞠秀芳

〔摘要〕真實性、準確性、直接性與完整性是引用參考文獻的首要準則，然而種種研究表明，當前的研究論著中引而不注、過度引用、模糊標注甚至虛假引用等不當引用行為日漸增多，這極大地影響了科學(xué)研究領(lǐng)域的學(xué)術(shù)風(fēng)氣，給讀者閱讀、期刊審稿及成果評定等工作帶來了許多不便。本文利用文本相似度算法建立期刊引文有效性識別方法，試圖從海量期刊引文數(shù)據(jù)中識別出期刊引文的真實有效性。實驗表明，本文的期刊引文有效性識別方法在引文有效性方面實現(xiàn)了較好的識別效果，可為虛假引文的識別工作提供可靠的依據(jù)，從而為編輯人員發(fā)現(xiàn)、修正虛假引用問題提供幫助，彰顯科學(xué)研究的嚴謹務(wù)實精神。

〔關(guān)鍵詞〕文本相似度；虛假引文；引文有效性；向量空間模型

DOI：10.3969/j.issn.1008-0821.2018.11.003

〔中圖分類號〕G250252〔文獻標識碼〕A〔文章編號〕1008-0821（2018）11-0014-04

Research on Identification of Journal Citation Validity

Based on Text Similarity AnalysisJu Xiufang

（Institute for Chinese Social Sciences Research and Assessment，Nanjing University，Nanjing 210093，China）

〔Abstract〕Truth，accuracy，directness and completeness are the primary criteria for citing references.However，various studies have shown that miscitations such as omission，excessive citation，fuzzy labeling and even false citation in current research works are becoming more and more normal，which have greatly affected the academic atmosphere in the field of scientific research.Peoples reading，periodical review and evaluation of results have brought a lot of inconvenience.In this paper，the text similarity algorithm was used to establish a method to identify the validity of periodical citations，trying to identify the true validity of periodical citations from a large number of periodical citation data.Experiments showed that this method achieved a good recognition effect on Citation validity，and provided a reliable basis for the identification of false citations，thus providing help for editors to find and correct false citations，and highlighting the rigorous and pragmatic spirit of scientific research.

〔Key words〕text similarity；false citation；citation validity；vector space model

一般來說，真實性、準確性、直接性與完整性是引用參考文獻的基本要求。隨著引文分析法在論文評價、期刊評價、科學(xué)家評價、學(xué)科評價、科研績效評價和科技競爭力評價等各個領(lǐng)域的廣泛應(yīng)用，參考文獻正慢慢脫離“展示科學(xué)研究的繼承性”這一初衷，越來越多地受到作者、編輯、機構(gòu)等多方面的人為影響，種種不當引用行為日漸增多[1]。王立宏等認為學(xué)術(shù)不端行為（抄襲、剽竊、誘引、匿引、轉(zhuǎn)引、濫引、崇引、引而不標）和引用不當行為（過度引用、錯標、誤標、引用時差）是不當引用的兩大主要表現(xiàn)形式[2]；金鐵成認為期刊編輯同樣存在引文失范行為，共有6類行為：學(xué)術(shù)論文文后沒有引文、學(xué)術(shù)期刊編輯隨意刪減作者的引文、限制論文的引文數(shù)量、文中不標注引文編號、期刊過度自引、期刊互惠引用等[3]。種種不當?shù)囊眯袨闃O大地影響了科學(xué)研究領(lǐng)域的學(xué)術(shù)風(fēng)氣，給讀者閱讀、期刊審稿及成果評定等工作帶來了許多不便。其中，虛假引用無論是從引文質(zhì)量還是學(xué)術(shù)影響上更是首當其沖，對學(xué)者、期刊、管理者造成了多方面不良的影響。如何從數(shù)量巨大、類型復(fù)雜的期刊引文數(shù)據(jù)中識別出期刊引文的真實有效性，為學(xué)術(shù)研究正本清源，彰顯科學(xué)研究的嚴謹務(wù)實精神，是當前引文分析研究領(lǐng)域急需解決的問題之一。

在情報檢索和信息處理中，面對海量的非結(jié)構(gòu)化的學(xué)術(shù)論文，關(guān)鍵技術(shù)之一就是文本內(nèi)容的相似度計算技術(shù)。文本相似度的計算是各應(yīng)用領(lǐng)域（如搜索引擎、新聞推送、文本聚類與分類、網(wǎng)頁查重、機器翻譯、自動問答系統(tǒng)等）處理自然語言的關(guān)鍵技術(shù)之一，也是信息處理領(lǐng)域的熱點和難點，受到了廣大研究領(lǐng)域的高度重視。本文針對虛假引用現(xiàn)象，利用文本相似度算法深入論文內(nèi)容研究，嘗試從海量文獻中識別出期刊引文的真實有效性。

2018年11月第38卷第11期現(xiàn)代情報Journal of Modern InformationNov.，2018Vol38No112018年11月第38卷第11期基于文本相似度分析的期刊引文有效性識別研究Nov.，2018Vol38No111引文有效性的定義及分析

引文引用是否有效的核心是施引論文中的觀點是否真實有效的出現(xiàn)在被引文獻之中。一般來說，引用參考文獻通常有4種情況：

1）引用有歷史背景和意義的文獻；

2）引用實驗中的方法；

3）引用支持性或批判性的證據(jù)；

4）引用相關(guān)文獻用于比較。

科研工作者出于上述目的在引用他人的概念、數(shù)據(jù)、觀點時出于表達的需要，通常有直接引用、間接引用、轉(zhuǎn)引以及隱含引用幾種情況。

無論哪種引用目的、哪種引用方式，參考文獻的觀點、數(shù)據(jù)、表述需要真實有效的出現(xiàn)在施引文獻中，方可判定引文是有效引用。鑒于參考文獻表明了科學(xué)研究的某種繼承性，本文認為在施引文獻和參考文獻之間天然存在相關(guān)性，但一般情況下兩者之間并不存在上下關(guān)系、同義關(guān)系或整體——部分等相關(guān)關(guān)系，施引文獻和參考文獻的整體相關(guān)性并不高。施引文獻和參考文獻兩者相關(guān)只是因為施引文獻引用了參考文獻中的部分內(nèi)容、觀點或數(shù)據(jù)，即參考文獻被引用的內(nèi)容和施引文獻中引用的內(nèi)容具有相似性。一般來說，直接引用的內(nèi)容相似性高，間接引用或轉(zhuǎn)引的內(nèi)容相似性略低。因此本文認為，如施引文獻中引用的文字內(nèi)容與參考文獻中的某段表述、數(shù)據(jù)、觀點具有相似性，則稱為引文有效，否則則稱為引文無效。對引文有效性的識別可用參考文獻與施引文獻引用的文本內(nèi)容的相似性程度進行度量。

2文本相似度計算

一般來說，相關(guān)文本的兩個或多個變量之間存在以下依存關(guān)系：上下關(guān)系、同義關(guān)系、反義關(guān)系、整體——部分關(guān)系，主體——屬性關(guān)系等，反映出文本變量之間的關(guān)聯(lián)。相似文本的變量之間則一般表現(xiàn)為同義關(guān)系、上下關(guān)系、整體——部分關(guān)系。

由于應(yīng)用場景以及需要解決問題、達成目標的差異性，學(xué)界對文本相似度尚沒有統(tǒng)一定義。本文認為文本相似度分析是指對兩個給定的文本通過詞匯、語句、段落進行比較，判定兩者的差異，從而確定文本的相似程度，通常用[0，1]之間的某個數(shù)值進行度量。相似性越強，數(shù)值越接近1（意味著比較的文本完全相同）；相似性越弱，數(shù)值越接近0（意味著比較的文本完全不同）。Lin D在文獻An Information-theoretic Definition of Similarity中給出了相似度定理[4]：

Sim（A，B）=logP（common（A，B））logP（desctription（A，B））（1）

common（A，B）是比較文本A、B的共性部分，description（A，B）是比較文本A、B的全部信息。此定義由于其通用性，是在多種應(yīng)用領(lǐng)域下采用較多的概念。

國內(nèi)外研究人員針對不同應(yīng)用提出了諸多相似度計算方法并已成功應(yīng)用。目前已有的可用于文本相似度計算的有向量空間模型（Vector Space Model）、布爾模型、隱含語義標引（Latent Semantic Index）模型、P-normal模型、字符串匹配模型、概率模型等文本表示模型。這些模型運用數(shù)學(xué)的語言和工具對文本信息及其處理過程加以翻譯和抽象，解決文本相似度計算中的文本表示、特征加權(quán)和相似度計算問題。其中Salton等于20世紀60年代末提出的向量空間模型VSM（Vector Space Model）是目前最有效的文本結(jié)構(gòu)化表示模型，已經(jīng)被廣泛用于文本檢索、自動文摘、自動分類、機器翻譯、輿情控制等領(lǐng)域。VSM認為詞與詞之間是獨立的，文本表達的意義與詞語在文中出現(xiàn)的順序與位置沒有關(guān)聯(lián)，僅與詞語出現(xiàn)的次數(shù)有關(guān)。如參考文獻A可以看成是由詞語（a1，a2，a3，…，an）構(gòu)成，每一個詞語ai的權(quán)重Wi就是n維坐標所對應(yīng)的坐標值，由此參考文獻A可以用一個n維的文本向量空間表示。對于解決文本的相似度問題VSM有很強的可計算性和可操作性，是本文進行相似度計算的主要方法[5]。

3期刊引文有效性識別方法與實現(xiàn)

對引文有效性的識別即對引用內(nèi)容與參考文獻內(nèi)容相似度的計算。本文的引文有效性識別方法主要分成3步：文本表示，特征詞權(quán)重確定，相似度計算。

31參考文獻的文本表示

文本表示是指從參考文獻和引用內(nèi)容中抽取出能體現(xiàn)參考文獻主要內(nèi)容的特征詞，以形成參考文獻的向量表示，包括參考文獻和施引文獻引用的內(nèi)容部分，主要解決抽取什么特征向量和抽取多少特征項量的問題。

期刊論文是人類自然語言的文本表示，屬于非結(jié)構(gòu)化信息。為了便于計算機處理論文信息，需要將論文進行預(yù)處理，即將非結(jié)構(gòu)化的論文信息轉(zhuǎn)化為能夠被計算機直接處理的結(jié)構(gòu)化文本信息，通常有分詞和去停用詞兩個步驟。

分詞就是將待比較的論文切割成單個的詞，并根據(jù)詞性進行標注。目前常用的漢語分詞系統(tǒng)有：ICTCLAS分詞系統(tǒng)、HTTPCWS、SCWS——簡易中文分詞系統(tǒng)、PhpanAlysis、盤古分詞、MMSEG4J無組件分詞系統(tǒng)以及中國科學(xué)院的NLPIR中文分詞系統(tǒng)。NLPIR中文分詞系統(tǒng)可以基于信息交叉熵自動發(fā)現(xiàn)新特征語言，從較長的文本內(nèi)容中自適應(yīng)測試語料的語言概率分布模型，實現(xiàn)自適應(yīng)分詞，在本文的期刊引文識別方法中分詞效果最好，是本文主要使用的分詞方法[6]。

文本預(yù)處理的第二步是去停用詞。所謂停用詞是指出現(xiàn)頻率較高但實際意義不大的詞，包括連詞、嘆詞、語氣詞等沒有實際意義的功能詞以及地名、人名等詞匯詞。去除、過濾停用詞可以有效降低文本相似度計算的誤差，提高計算效率并節(jié)省存儲空間。目前使用的停用詞都是根據(jù)人類經(jīng)驗非自動化生成的，由此匯集而成停用詞表，目前尚沒有普遍應(yīng)用的通用停用詞表工具。已有停用詞表包括哈工大停用詞詞庫”、“四川大學(xué)機器學(xué)習(xí)智能實驗室停用詞庫”、百度停用詞表“等。

考慮到引文有效性識別過程中涉及的參考文獻詞匯量比較大，如果將文本預(yù)處理之后的每個詞語都作為特征項，必然出現(xiàn)維度非常高的情形。為了提高計算計算效率，本文需要對特征項進行降維處理。傳統(tǒng)VSM無法回避同義詞、多義詞現(xiàn)象，需要對這些原始詞進行“合成”，使用SVD對原始的文本向量組成的矩陣分解以實現(xiàn)將原來的向量轉(zhuǎn)換成新的向量，從而消除詞的同義性和多義性對表征文本從而導(dǎo)致計算效果不佳的影響。圖1期刊引文有效性識別文本表示模塊

現(xiàn)代情報2018年11期

現(xiàn)代情報的其它文章: 大數(shù)據(jù)環(huán)境下數(shù)字出版知識服務(wù)主要模式研究; 基于非傳統(tǒng)安全視角的網(wǎng)絡(luò)輿情演化機理與智慧治理方略; 在線健康社區(qū)用戶診療信息求助行為; 基于出聲思考法的移動圖書館信息接受障礙研究; 微信政治謠言的生態(tài)治理對策研究; 智慧城市建設(shè)中數(shù)據(jù)開放保障研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于文本相似度分析的期刊引文有效性識別研究