蔣勇青,劉芳,于洋
(中國科學(xué)技術(shù)信息研究所,北京 100038)
學(xué)術(shù)文獻相似性檢測比對資源應(yīng)用分析與建設(shè)策略探究
——基于萬方檢測系統(tǒng)的實證分析
蔣勇青,劉芳,于洋
(中國科學(xué)技術(shù)信息研究所,北京 100038)
比對資源庫建設(shè)是學(xué)術(shù)文獻相似性檢測系統(tǒng)建設(shè)中的重要環(huán)節(jié)。本文通過重點研究實際檢測統(tǒng)計數(shù)據(jù)并分析引用或非典型性引用甚至可能的抄襲文獻的特征,為檢測系統(tǒng)比對資源建設(shè)提供可行策略與發(fā)展思路。從2016年向萬方數(shù)據(jù)論文相似性檢測系統(tǒng)送檢的學(xué)術(shù)文獻中隨機抽樣650萬篇,對抽樣送檢文獻檢測結(jié)果中共計845 889篇被引用或非典型性引用甚至可能的抄襲文獻從文獻類型、被相似頻率、發(fā)表時間等維度進行數(shù)據(jù)分析。調(diào)查發(fā)現(xiàn),比對數(shù)據(jù)中的學(xué)位論文引用或非典型性引用甚至可能的抄襲次數(shù)最多,發(fā)表或公開時間在2—10年的比對數(shù)據(jù)引用或非典型性引用甚至可能的抄襲次數(shù)最多。此次研究為將來學(xué)術(shù)文獻相似性檢測系統(tǒng)的持續(xù)建設(shè)與優(yōu)化提供全新的思路與方法借鑒。
文獻檢測;比對資源建設(shè);學(xué)術(shù)不端
近年來學(xué)術(shù)不端行為層出不窮,最初的學(xué)術(shù)不端典型個體事件逐步蔓延為社會性“群體事件”。學(xué)術(shù)不端的防治已成為國內(nèi)外學(xué)術(shù)界與教育領(lǐng)域共同關(guān)注的焦點,大眾呼吁在保障自由學(xué)術(shù)環(huán)境的前提下,全面構(gòu)建學(xué)術(shù)規(guī)范體系以維持良好的學(xué)術(shù)秩序[1]。為有效貫徹落實在學(xué)術(shù)及科研領(lǐng)域的學(xué)術(shù)不端審查工作,利用數(shù)字化與智能化等全新技術(shù)手段推進學(xué)術(shù)文獻相似性檢測工具的全面建設(shè)與持續(xù)發(fā)展,對提高我國整體學(xué)術(shù)與科技發(fā)展水平,努力實現(xiàn)科技強國的宏偉目標(biāo)有重大且深遠的意義[2]。
近年來,政府相關(guān)管理機構(gòu)為有效防治學(xué)術(shù)不端行為,陸續(xù)頒布相關(guān)政策及辦法。如科技部頒布的《國家科技計劃實施中科研不端行為處理辦法(試行)》[3]與教育部頒布的《教育部關(guān)于嚴肅處理高等學(xué)校學(xué)術(shù)不端行為的通知》[4],旨在建立常態(tài)化的學(xué)術(shù)監(jiān)督機制,營造風(fēng)氣清正、求真務(wù)實的學(xué)術(shù)氛圍。然而,數(shù)字化與智能化等信息技術(shù)的迅猛發(fā)展為學(xué)術(shù)不端行為提供了更多方便,也使得學(xué)術(shù)監(jiān)督機制中學(xué)術(shù)不端行為的甄別判定環(huán)節(jié)增加難度。在此背景下,學(xué)術(shù)文獻相似性檢測系統(tǒng)應(yīng)運而生,成為遏制學(xué)術(shù)不端行為的實用和有效工具。
國內(nèi)學(xué)界針對學(xué)術(shù)文獻相似性檢測的發(fā)展與應(yīng)用展開了多方面的探索研究,綜合來看,主要包括四個方向:(1)學(xué)術(shù)文獻相似性檢測工具的使用意義,如胡政平的《學(xué)術(shù)不端文獻檢測與期刊質(zhì)量的提升》[5]等;(2)學(xué)術(shù)文獻相似性檢測的場景性應(yīng)用與對比分析,如張旻浩等的《國內(nèi)外學(xué)術(shù)不端文獻檢測系統(tǒng)平臺的比較研究》[2]、榮曼等的《學(xué)術(shù)不端文獻檢測系統(tǒng)在醫(yī)學(xué)論文編輯出版過程中的合理應(yīng)用》[6]等;(3)學(xué)術(shù)文獻相似性檢測結(jié)果的分析與使用,如孔琪穎等的《正確看待“科技期刊學(xué)術(shù)不端文獻檢測系統(tǒng)”檢測結(jié)果》[7]等;(4)學(xué)術(shù)文獻相似性檢測算法與技術(shù)研究,如王曉笛等的《學(xué)術(shù)文獻抄襲檢測研究進展》[8]與《基于語義角色標(biāo)注的文獻相似度檢測研究》[9]。
綜上所述,目前相關(guān)研究主要集中于如何有效甄別與判定學(xué)術(shù)不端行為以及對檢測技術(shù)的深入研究方面。調(diào)研發(fā)現(xiàn),檢測工具使用者有效嘗試了如何科學(xué)合理地使用檢測結(jié)果數(shù)據(jù),改變檢測工具發(fā)展初期僅采用使用者相似比數(shù)值的單一指標(biāo)情況。然而,現(xiàn)有研究少見對引用或非典型性引用甚至可能的抄襲的來源文獻分布研究,對于檢測系統(tǒng)建設(shè)中的重要環(huán)節(jié)——比對資源建設(shè)更是鮮有陳述。因此,本文通過實證分析,將會得到:(1)比對資源不同會給檢測結(jié)果帶來較大變化;(2)引用或非典型性引用甚至可能的抄襲的來源文獻能很大程度反映其需求規(guī)律與資源利用情況。本文將重點對檢測工具比對資源建設(shè)策略與規(guī)劃進行拓展與完善,助力學(xué)術(shù)文獻相似性檢測市場專業(yè)化進程的持續(xù)發(fā)展。
萬方數(shù)據(jù)論文相似性檢測系統(tǒng)是國內(nèi)較早服務(wù)于高校及各類學(xué)術(shù)機構(gòu)的文獻檢測工具。2010年將自主開發(fā)的“基于滑動窗口的低頻匹配特征算法”應(yīng)用于全新的萬方數(shù)據(jù)論文相似性檢測系統(tǒng)。該系統(tǒng)歷經(jīng)7年的穩(wěn)健發(fā)展,在算法方面進行基于語義實現(xiàn)的查全查準(zhǔn)的優(yōu)化升級,在數(shù)據(jù)方面持續(xù)匯聚海量學(xué)術(shù)期刊、碩博士學(xué)位論文、國家專利等全文比對數(shù)據(jù),萬方檢測服務(wù)始終堅持客觀、公正、精準(zhǔn)、全面的原則,秉承關(guān)注學(xué)術(shù)環(huán)境、維護學(xué)術(shù)誠信、恪守學(xué)術(shù)道德、尊重學(xué)術(shù)成果的理念,提供多版本、多維度的檢測報告,檢測結(jié)果精準(zhǔn)翔實,為科研管理機構(gòu)、教育領(lǐng)域、出版發(fā)行領(lǐng)域、學(xué)術(shù)個體等用戶提供各類學(xué)術(shù)科研成果的相似性檢測服務(wù)。
本次研究的對象是來源于萬方數(shù)據(jù)論文相似性檢測工具的2016年部分抽樣檢測結(jié)果中列出的相似文獻及其相關(guān)元數(shù)據(jù)信息,對檢測過程中同一篇文獻的多次檢測結(jié)果進行合并,保障數(shù)據(jù)分析結(jié)果盡可能接近實際情況,使研究結(jié)果具有更高的可借鑒性。
在萬方論文相似性檢測系統(tǒng)2016年全部送檢學(xué)術(shù)文獻中隨機抽樣650萬篇,在檢測結(jié)果中統(tǒng)計得出被相似文獻845 889篇,并從文獻類型、被相似頻率、發(fā)表時間等維度進行分析與總結(jié)。
本文圍繞三個問題展開討論:(1)分析2016年論文相似性檢測數(shù)據(jù)的文獻相似總體情況;(2)基于相似頻次的文獻分布情況,如相似文獻發(fā)表時間、類型等;(3)基于論文檢測統(tǒng)計結(jié)果對未來學(xué)術(shù)論文相似性檢測比對數(shù)據(jù)選擇的借鑒意義。
針對萬方數(shù)據(jù)論文相似性檢測工具2016年送檢論文的部分抽樣檢測結(jié)果數(shù)據(jù),本文以相似文獻為單元進行多維度數(shù)據(jù)分析,包括相似文獻的類型(期刊文獻、學(xué)位論文等)、相似文獻發(fā)表或公開時間、相似文獻的被相似次數(shù)以及相似文獻是否被送檢文獻列為參考文獻等。以下為本次研究中涉及的研究概念解釋。
(1)相似文獻:送檢論文被檢測出的相似文本內(nèi)容的來源學(xué)術(shù)文獻;
(2)被相似次數(shù):全部送檢論文檢測結(jié)果中某篇相似文獻出現(xiàn)的總次數(shù)(單篇送檢論文中多次檢測出同一篇相似文獻,按出現(xiàn)一次計);
(3)單篇平均被相似次數(shù):按不同維度劃分相似文獻后,某類相似文獻的被相似次數(shù)總數(shù)除以相似文獻數(shù)量所得的平均值。
本文隨機抽樣選擇的送檢文獻共有845 889篇相似文獻。如表1所示,被相似次數(shù)為0—9次的文獻有806 949篇,占比95.40%。本文將相似文獻被相似次數(shù)在10次以內(nèi)的行為定義為非典型性引用和可能的抄襲,不列入本文研究重點。被相似次數(shù)大于等于10次的相似文獻共38 940篇,按被相似次數(shù)呈線性分布且逐漸遞減的趨勢,經(jīng)初步分析該分布規(guī)律較合理,可針對此次的研究數(shù)據(jù)作進一步分析。
表1 相似次數(shù)統(tǒng)計表
相似文獻的時間取值以年份為基本單位,其中期刊文獻的時間值為其發(fā)表年份,學(xué)位論文的時間值為學(xué)位授予年份,會議論文的時間值為會議舉辦年份。
相似文獻的時間分布為1992—2016年,其中無1993年及1994年的文獻,同時,2016年比對數(shù)據(jù)文獻的更新具有明顯的延時性。據(jù)統(tǒng)計,相似文獻的數(shù)量按發(fā)表年份呈線性分布。即在全部檢測出的相似文獻中,文獻發(fā)表或公開的年份越接近當(dāng)前日期,相似文獻的數(shù)量越多,表明作者在選擇可能引用或可能抄襲的文獻時傾向于新發(fā)表或公開的論文成果。
相似文獻數(shù)量按發(fā)表時間逐年增加,2014年相似文獻的數(shù)量達到峰值。由于從期刊正式發(fā)表或?qū)W位授予,到其他學(xué)者可從平臺獲取學(xué)術(shù)文獻并引用存在一定時間差,2016年在萬方數(shù)據(jù)論文相似性檢測平臺中送檢的論文引用或非典型性引用甚至可能抄襲2014年發(fā)表或公開的學(xué)術(shù)文獻最多,共有相似文獻5 272篇。
根據(jù)相似文獻發(fā)表或公開時間分布情況,對發(fā)表或公開時間在2008—2014年的相似文獻作進一步的類型分析,如表2所示。2008—2014年相似文獻中學(xué)位論文占比為77%—87%,呈逐年下降趨勢;期刊論文占比為11%—22%,呈逐年上升趨勢;相似文獻中會議論文數(shù)量較少,并未體現(xiàn)出明顯的分布趨勢。
論文作者引用或非典型性引用甚至可能的抄襲期刊論文時,對文獻新穎性要求更高,更易選擇最新發(fā)表的期刊論文。引用或非典型性引用甚至可能的抄襲學(xué)位論文時,對新穎性要求相對較低,可能選擇學(xué)位授予時間為8—10年的學(xué)位論文。原因可能有兩點。(1)學(xué)位論文自學(xué)位授予日起至被收錄到學(xué)術(shù)文獻數(shù)據(jù)平臺供其他學(xué)者獲取所經(jīng)歷的時間較期刊文獻更長。相較期刊論文的紙質(zhì)刊發(fā)、收錄及在網(wǎng)絡(luò)平臺上線的公開流程,學(xué)位論文的網(wǎng)絡(luò)公開過程效率較低,執(zhí)行流程不夠成熟。(2)學(xué)位論文較期刊論文的研究更具系統(tǒng)性。其中,國內(nèi)外研究背景、課題緒論等內(nèi)容更易被引用或非典型性引用甚至可能的抄襲,且網(wǎng)絡(luò)開放的學(xué)位論文主要為國內(nèi)高校優(yōu)秀碩博士畢業(yè)論文,論文學(xué)術(shù)價值整體較高。
表2 2008—2014年發(fā)表或公開的相似文獻類型分析
在學(xué)術(shù)論文寫作過程中,可引用多種類型的學(xué)術(shù)資源,包括學(xué)術(shù)期刊文獻、碩博士學(xué)位論文、會議論文、科技報告文獻、標(biāo)準(zhǔn)文獻、專利文獻、成果文獻,以及部分網(wǎng)絡(luò)資源。而學(xué)術(shù)價值高,且被學(xué)者普遍引用的主要為學(xué)術(shù)期刊文獻、學(xué)位論文及會議論文三大類。
全部相似文獻中,期刊論文共447 416篇,占比52.89%;學(xué)位論文共382 514篇,占比45.22%;會議論文共15 959篇,占比1.89%。被相似次數(shù)大于等于10次的相似文獻中,期刊論文共7 307篇,占比18.76%;學(xué)位論文共31 407篇,占比80.66%;會議論文共226篇,占比0.58%。
基于上述結(jié)論,本文對相似文獻類型分布進行更深入的數(shù)據(jù)統(tǒng)計,統(tǒng)計顯示全部相似文獻中期刊文獻的數(shù)量為7 307篇,貢獻被相似次數(shù)共139 040次,平均單篇期刊文獻被相似19.02次;學(xué)位論文的數(shù)量為31 407篇,貢獻被相似次數(shù)共730 034次,平均單篇學(xué)位論文被相似23.24次;會議論文的數(shù)量為226篇,貢獻被相似次數(shù)共4 224次,平均單篇會議論文被相似18.69次。
期刊文獻與會議論文的平均單篇被相似次數(shù)較接近,而學(xué)位論文的平均單篇被相似次數(shù)達23.24次,明顯高于期刊文獻與會議論文,再次證明學(xué)位論文是文獻檢測中質(zhì)量高且被引用或非典型性引用甚至可能的抄襲最為頻繁的一種文獻類型,對學(xué)術(shù)文獻相似性檢測結(jié)果具有重要影響。
對三類主要相似文獻的被相似次數(shù)進行標(biāo)準(zhǔn)差分析發(fā)現(xiàn),會議論文被相似次數(shù)波動較小,而期刊文獻與學(xué)位論文被相似次數(shù)波動較大。相似文獻中期刊文獻與學(xué)位論文的被相似情況可能存在較明顯的最大值與最小值群分布差距,需要通過更多維度對上述兩種類型的文獻進行分析,如學(xué)科領(lǐng)域分布、文獻來源機構(gòu)分布、核心期刊與非核心期刊分布、碩博士學(xué)位分布等。
因在被相似次數(shù)大于等于10次的相似文獻中,學(xué)位論文占比超過80%,本文重點對相似文獻中的學(xué)位論文情況作進一步深入剖析。相似文獻來源單位總計547家,相似文獻在10篇以下的共286家,貢獻被相似次數(shù)共853次;相似文獻大于等于10篇的共261家,貢獻被相似次數(shù)709 726次。
按相似文獻單篇被相似次數(shù)降序統(tǒng)計發(fā)現(xiàn),中南財經(jīng)政法大學(xué)共計相似文獻28篇,合計被相似4 166次,單篇學(xué)位論文被相似頻率約149次;西南財經(jīng)大學(xué)共計相似文獻86篇,合計被相似次數(shù)11 236次,單篇學(xué)位論文平均被相似次數(shù)約131次;哈爾濱理工大學(xué)共計相似文獻82篇,合計被相似次數(shù)7 158次,單篇學(xué)位論文平均被相似次數(shù)87次。
對各學(xué)位授予單位的相似文獻數(shù)量及相似文獻合計被相似次數(shù)進行統(tǒng)計。如圖1所示,按相似文獻數(shù)量降序排列結(jié)果發(fā)現(xiàn),電子科技大學(xué)、廈門大學(xué)、重慶大學(xué)的學(xué)位論文合計被相似次數(shù)與相似文獻數(shù)量均分列前三位,分別有1 170篇文獻被相似29 596次、860篇文獻被相似23 435次、921篇文獻被相似22 956次。
圖1 基于引用或非典型性引用甚至可能的抄襲次數(shù)的學(xué)位論文相似文獻來源統(tǒng)計
選取相似文獻數(shù)量前20位的學(xué)位授予單位進行分析(見表3),發(fā)現(xiàn)這20家學(xué)位授予單位中,綜合性大學(xué)占比較高,也不乏一定數(shù)量的理工類專業(yè)院校。同時,前20位的學(xué)位授予單位中,有11家為“雙一流”建設(shè)高校,其中前10位中有9家為“雙一流”建設(shè)高校,可見“雙一流”建設(shè)高校產(chǎn)出的學(xué)術(shù)成果在國內(nèi)學(xué)術(shù)環(huán)境中對學(xué)術(shù)研究有重要影響。
表3 學(xué)位論文相似文獻來源統(tǒng)計
本次研究發(fā)現(xiàn),比對資源類型與發(fā)表時間是學(xué)術(shù)文獻檢測的重要影響因素,針對資源類型及發(fā)表時間進行比對資源建設(shè)策略的制定對學(xué)術(shù)文獻相似性檢測系統(tǒng)的專業(yè)化與精準(zhǔn)化發(fā)展具有積極作用與實際意義。
(1)重點關(guān)注高新穎性比對資源建設(shè)。研究發(fā)現(xiàn),新穎性較高的學(xué)術(shù)文獻資源在論文檢測中具有更高貢獻度,然而最新發(fā)表的學(xué)術(shù)文獻并非貢獻度最高,研究顯示學(xué)術(shù)論文作者雖更易選擇新穎性高的文獻,但也體現(xiàn)出較明顯的“延遲引用現(xiàn)象”。
董建軍對期刊文獻引用分布規(guī)律的研究發(fā)現(xiàn)國內(nèi)期刊文獻的引用次數(shù)達到高峰所需時間較長[10],一般在2—6年呈現(xiàn)逐步上升的趨勢,此現(xiàn)象與本研究中通過論文檢測相似文獻統(tǒng)計的時間分布情況十分吻合。同時,此規(guī)律也符合王名揚等提出的在部分學(xué)科中明顯存在“延遲引用現(xiàn)象”的論證[11]。因此,可初步認為,發(fā)表或公開時間2—10年的學(xué)術(shù)文獻具有較明顯的被引用或抄襲可能,是學(xué)術(shù)不端行為檢測工具重點需要關(guān)注的比對數(shù)據(jù)。
因此,作為學(xué)術(shù)不端行為預(yù)防的有力武器,在選擇論文相似性檢測工具進行檢測時,不僅要著眼于兩年以內(nèi)的新論文或?qū)W術(shù)成果,還要重點檢查發(fā)表或公開時間在2—10年的學(xué)術(shù)文獻。研究結(jié)果還反映出論文檢測工具的數(shù)據(jù)建設(shè)不需要過多投入在舊文獻上,否則既會給論文檢測帶來不必要的干擾,也會因大量數(shù)據(jù)的不斷累積導(dǎo)致論文檢測工具性能的持續(xù)下降。
(2)全面豐富論文檢測比對數(shù)據(jù),確保高質(zhì)量文獻的穩(wěn)定供應(yīng)。研究發(fā)現(xiàn)論文作者在不同類型學(xué)術(shù)文獻中,更傾向于引用或非典型性引用甚至可能的抄襲碩博士學(xué)位論文。同時,論文作者引用或非典型性引用甚至可能的抄襲的相似文獻類型日趨豐富。隨著檢測比對數(shù)據(jù)的不斷擴容,論文檢測工具可檢測出的學(xué)術(shù)不端行為范圍也隨之?dāng)U大。除本文中重點分析的期刊文獻、學(xué)位論文及會議論文外,論文作者也出現(xiàn)了引用或可能的抄襲網(wǎng)絡(luò)文獻、專利文獻等其他文獻類型的情況。
由此可見,在選擇論文相似性檢測工具的比對數(shù)據(jù)類型時,可以遵循“全面建設(shè)、重點保障”的原則。一方面,不斷豐富比對數(shù)據(jù)類型,全方位預(yù)防學(xué)術(shù)不端行為;另一方面,重點收錄引用或非典型性引用甚至可能的抄襲出現(xiàn)頻率較高的文獻類型,對其進行重災(zāi)區(qū)重點防治。其中,以學(xué)位論文為重點關(guān)注對象,通過對不同學(xué)位層次及不同類型學(xué)位授予單位的差異性分析,進行合理的學(xué)位論文比對數(shù)據(jù)建設(shè)。建議加強碩博士學(xué)位論文收集范圍,重點收錄“雙一流”建設(shè)高校及“雙一流”建設(shè)學(xué)科的學(xué)位論文成果。
(3)基于比對資源特征調(diào)優(yōu)文獻相似性檢測算法路線。本文的結(jié)果不僅為未來學(xué)術(shù)文獻相似性檢測系統(tǒng)的比對數(shù)據(jù)建設(shè)提供重要決策依據(jù),也為相似性檢測算法的專業(yè)化與精準(zhǔn)化發(fā)展提供參考。數(shù)據(jù)顯示學(xué)位論文具有最多的被引用或非典型性引用甚至可能的抄襲次數(shù),對學(xué)術(shù)文獻相似性檢測的結(jié)果有重要影響。相較其他類型文獻,學(xué)位論文篇幅較長,結(jié)構(gòu)清晰,通過此次研究可初步推斷,學(xué)位論文的摘要、緒論、研究方法設(shè)計等部分在實際檢測結(jié)果中的貢獻值也存在差異,同質(zhì)化檢測處理將無法進一步提升檢測結(jié)果精度。針對學(xué)位論文被引用或非典型性引用甚至可能的抄襲情況相對較多的問題,后續(xù)將專門針對學(xué)位論文進行結(jié)構(gòu)化分析,采用多層次多策略的方法,建立文本結(jié)構(gòu)化識別模型與特征向量計算模型,為不同文本部分選擇不同的相似性計算算法與條件權(quán)值,以有效提升檢測結(jié)果精準(zhǔn)度。通過上述檢測數(shù)據(jù)能進一步分析論文作者在引用或非典型性引用甚至可能的抄襲學(xué)位論文時的內(nèi)容偏好,為學(xué)術(shù)不端行為預(yù)防與處理提供更多決策依據(jù)。另外,相似文獻的時間屬性也可以考慮被賦予一定權(quán)值納入檢測結(jié)果,減少誤識的相似結(jié)果,提高算法的精準(zhǔn)度。
基于2016年在萬方論文相似性檢測系統(tǒng)中送檢的學(xué)術(shù)文獻檢測部分抽樣結(jié)果,本次研究主要針對論文檢測比對資源的資源類型及資源發(fā)表時間兩項影響因素進行分析與探究,提出在上述因素影響下論文檢測比對資源建設(shè)策略應(yīng)重點關(guān)注的方向。未來研究還將融入對相似文獻的學(xué)科分布、來源分布的深入分析統(tǒng)計,并進一步擴大樣本容量。
[1] 萬蘇春.學(xué)術(shù)不端行為及其治理研究——以2010—2016年國內(nèi)學(xué)界文獻研究為綜述對象[J].宜春學(xué)院學(xué)報,2017,39(4):111-116.
[2] 張旻浩,高國龍,錢俊龍.國內(nèi)外學(xué)術(shù)不端文獻檢測系統(tǒng)平臺的比較研究[J].中國科技期刊研究,2011,22(4):514-521.
[3] 國家科技部.第11號令《國家科技計劃實施中科研不端行為處理辦法(試行)》.2007年1月1日實行[EB/OL].(2007-08-13)[2017-04-26].http://scitech.people.com.cn/GB/25509/39796/41759/6108064.html.
[4] 中央政府門戶網(wǎng)站.教育部關(guān)于嚴肅處理高等學(xué)校學(xué)術(shù)不端行為的通知[EB/OL].(2009-03-21)[2017-07-01].http://www.gov.cn/gzdt/2009-03/21/content_1264527.htm.
[5] 胡政平.學(xué)術(shù)不端文獻檢測與期刊質(zhì)量的提升[J].出版發(fā)行研究,2012(11):87-89.
[6] 榮曼,董海原.學(xué)術(shù)不端文獻檢測系統(tǒng)在醫(yī)學(xué)論文編輯出版過程中的合理應(yīng)用[J].中國科技期刊研究,2017,28(3):215-219.
[7] 孔琪穎,蔡斐,張利平,等.正確看待“科技期刊學(xué)術(shù)不端文獻檢測系統(tǒng)”檢測結(jié)果[J].編輯學(xué)報,2009,21(6):544-546.
[8] 王曉笛,王效岳,白如江.學(xué)術(shù)文獻抄襲檢測研究進展[J].圖書情報工作,2013,57(8):141-148.
[9] 王曉笛,祝娜,白如江,等.基于語義角色標(biāo)注的文獻相似度檢測研究[J].圖書情報工作,2014,58(12):130-135.
[10] 董建軍.科技期刊文獻引用分布規(guī)律的探討[J].中國科技期刊研究,2013,24(4):688-693.
[11] 王名揚,于光,于達仁.文獻的“延遲引用現(xiàn)象”分析[J].情報雜志,2011,30(5):60-62,84.
The Exploration of Resource Construction Strategy in Academic Literature Similarity Detection System:Empirical Analysis Based on Wanfang Detection
JIANG YongQing, LIU Fang, YU Yang
(Institute of Science and Technology Information of China, Beijing 100038, China)
The data base construction is an important part of the academic literature similarity detection system development. This paper gathered the information of 845 889 similarity articles, acquired from 6.5 million srandom sampling journal papers, dissertations and other type literatures submitted in the Wanfangdata’s Similarity Detection system in 2016. The paper summarized and evaluated the statistical data in the aspects of literature types, plagiarism numbers and published time. Results showed that, the dissertations had the highest cited or plagiarized number among all the literature types, at the same time, the papers published in 2 to10 years had the most cited or plagiarized times.The research provided new ideas and methods for the further development of the academic literature similarity detection system.
Literature Detection;Comparison Resource Construction; Academic Misconduct
2017-12-13)
G25
10.3772/j.issn.1673-2286.2017.12.006
蔣勇青,男,1963年生,高級工程師,研究方向:信息資源建設(shè)與服務(wù)、知識服務(wù)、科研管理、企業(yè)管理,E-mail:jiang@wanfangdata.com.cn。
劉芳,女,1992年生,碩士,研究方向:知識服務(wù)、項目管理。
于洋,女,1983年生,碩士,工程師,研究方向:數(shù)字編輯。