□ 孔媛媛 鄧 艷
學(xué)位論文相似性檢測系統(tǒng)主要為檢測研究生學(xué)位論文中出現(xiàn)的不端行為提供輔助工具,是在技術(shù)上反抄襲、反剽竊的有效手段之一[1]。全國各大高校都開始對研究生學(xué)位論文進(jìn)行相似性檢測,南京郵電大學(xué)從2009年開始對申請學(xué)位的博士和碩士研究生學(xué)位論文進(jìn)行檢測,以及時發(fā)現(xiàn)和處理學(xué)位論文抄襲等不良行為。通過兩年的實施,每年都有10%的學(xué)生未達(dá)到要求需要重新修改論文,對研究生學(xué)位論文質(zhì)量起到了很好的把控作用[2]。目前,國內(nèi)學(xué)位論文相似性檢測系統(tǒng)主要有四個系統(tǒng):中國知網(wǎng)CNKI的學(xué)術(shù)不端行為檢測系統(tǒng)、萬方數(shù)據(jù)的論文相似性檢測系統(tǒng)、維普通達(dá)論文檢測系統(tǒng)和超星數(shù)據(jù)庫大雅相似性分析系統(tǒng)。中國知網(wǎng)CNKI的學(xué)術(shù)不端行為檢測系統(tǒng)是目前最普遍使用的系統(tǒng),系統(tǒng)目前的檢測范圍涵蓋中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫、中國博士論文網(wǎng)絡(luò)出版總庫、中國優(yōu)秀碩士論文網(wǎng)絡(luò)出版總庫、中國報紙全文數(shù)據(jù)庫、中國專利全文數(shù)據(jù)庫(知網(wǎng)版)、中國科技成果數(shù)據(jù)庫(知網(wǎng)版)、中國年鑒網(wǎng)絡(luò)出版總庫、中國工具書數(shù)據(jù)庫、中國標(biāo)準(zhǔn)數(shù)據(jù)庫(知網(wǎng)版)。正陸續(xù)引進(jìn)英文數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫等資源[3]。萬方數(shù)據(jù)的論文相似性檢測系統(tǒng)也是高校目前普遍使用的系統(tǒng),僅次于CNKI,系統(tǒng)的檢測范圍涵蓋中國學(xué)術(shù)期刊數(shù)據(jù)庫(CSPD)、中國學(xué)位論文全文數(shù)據(jù)庫(CDDB)//中國學(xué)術(shù)會議論文數(shù)據(jù)庫(CCPD)和中國學(xué)術(shù)網(wǎng)頁數(shù)據(jù)庫(CSWD)。其學(xué)位論文數(shù)據(jù)庫的涵蓋量全是最大的優(yōu)勢[4]。維普通達(dá)論文檢測系統(tǒng)是繼中國知網(wǎng)和萬方后,又一個擁有海量期刊文獻(xiàn)系統(tǒng)支持的論文防抄襲檢測系統(tǒng),其優(yōu)點(diǎn)是用戶自己掌控檢測流程,自己檢測,自己看結(jié)果,不想留痕跡自己可以刪除論文,安全性比較好。檢測結(jié)果報告較其他網(wǎng)站更為人性化,方便修改。維普通達(dá)收錄的文本數(shù)據(jù)庫包含:擁有文獻(xiàn)全文3,200余萬篇,是國內(nèi)最大最完善的中文科技期刊全文數(shù)據(jù)庫;互聯(lián)網(wǎng)數(shù)據(jù)庫(監(jiān)控Google收錄的數(shù)十億個頁面);論文庫(收錄各院校及科研院所的200多萬碩士、博士論文,每周更新,滿足跨學(xué)科比對需求)。超星數(shù)據(jù)庫大雅相似性分析系統(tǒng)是超星公司推出的相似性檢測系統(tǒng),其數(shù)據(jù)庫優(yōu)勢是中文圖書和報紙全文數(shù)據(jù)庫。
對于常見的文件格式.doc/.pdf/.txt,四個系統(tǒng)都支持上傳,知網(wǎng)和維普支持.zip和.rar壓縮包格式文件上傳。在操作方式上,四個系統(tǒng)都支持單篇檢測和批量檢測功能,對于批量檢測功能,知網(wǎng):上傳論文一步;萬方:創(chuàng)建任務(wù)、添加論文和開始檢測三步;維普:提交論文、確認(rèn)檢測文檔和開始檢測三步;大雅:任務(wù)名、選擇文件和上傳三步。知網(wǎng)系統(tǒng)的操作方式最簡單直接,而維普系統(tǒng)的操作是最慢的。
知網(wǎng):復(fù)制比(總復(fù)制比、去除引用文獻(xiàn)檢測結(jié)果復(fù)制比、去除本人文獻(xiàn)檢測結(jié)果復(fù)制比)、總檢測指標(biāo)(重合字?jǐn)?shù)、總字?jǐn)?shù)、總段落數(shù)、疑似段落數(shù)、前部重合字?jǐn)?shù)、后部重合字?jǐn)?shù))、子檢測指標(biāo)(重合字?jǐn)?shù)、小段落數(shù)、大段落數(shù)、最大段長、平均段長、前部重合度、后部重合度)、相似片段分布;維普:相似比(總相似比、自寫率、復(fù)寫率、引用率),相似片斷(包括:期刊庫片斷、碩博庫片斷、互聯(lián)網(wǎng)片斷、高校特色片斷、自建庫片斷),字?jǐn)?shù)(包括:總字?jǐn)?shù)、重復(fù)字?jǐn)?shù)、總章節(jié)數(shù)、疑似章節(jié)數(shù));萬方:相似比(總相似比、參考文獻(xiàn)相似比、排除參考文獻(xiàn)相似比),相似片段分布;大雅:相似度(總相似度、過濾參考文獻(xiàn)后相似度)、重復(fù)字?jǐn)?shù)和過濾參考文獻(xiàn)后的重復(fù)字?jǐn)?shù),相似片段分布。在實際操作中,高校論文管理機(jī)構(gòu)最關(guān)注的指標(biāo)是“去除本人文獻(xiàn)檢測結(jié)果復(fù)制比”和“相似片段分布”,其中“去除本人文獻(xiàn)檢測結(jié)果復(fù)制比”只有知網(wǎng)系統(tǒng)有,而維普系統(tǒng)缺乏相似片段分布圖。因此,從指標(biāo)體系看,知網(wǎng)的指標(biāo)體系最詳細(xì),指標(biāo)維度最多,也最符合實際需求。
我們從2015年畢業(yè)的研究生學(xué)位論文中挑選出20篇學(xué)位論文,分別在四個系統(tǒng)中進(jìn)行了檢測,20篇學(xué)位論文的檢測平均復(fù)制比,知網(wǎng)系統(tǒng)18.94%,維普系統(tǒng)18.8%,萬方系統(tǒng)4.64%,大雅系統(tǒng)2.91%。從比較結(jié)果可以看出,知網(wǎng)和維普的檢測復(fù)制比較高、性能較優(yōu),而萬方和大雅的檢測復(fù)制比都比較低、性能較差。其中檢測性能較好的知網(wǎng)系統(tǒng)和維普系統(tǒng),兩者結(jié)果相似的論文數(shù)是6個占2.31%,知網(wǎng)比維普復(fù)制比多的論文數(shù)量和維普比知網(wǎng)復(fù)制比多的論文數(shù)量相同??梢?,這兩個系統(tǒng)的檢測結(jié)果各有側(cè)重,性能相當(dāng)。
我們選取了一篇項目管理專業(yè)的研究生學(xué)位論文《雇傭關(guān)系模式與組織認(rèn)同、工作績效關(guān)系研究》(以下簡稱”學(xué)位論文A”)在四個系統(tǒng)上分別檢測,同時下載檢測報告進(jìn)行分析比較。從論文檢測速度上看,大雅速度最快只用5s時間,維普速度最慢使用200s時間,如果大批量論文檢測以維普系統(tǒng)的檢測速度肯定無法完成。從論文檢測結(jié)果上看,同一篇論文四個系統(tǒng)的復(fù)制比,知網(wǎng)和維普的結(jié)果接近檢測復(fù)制比高,性能優(yōu);萬方和大雅的檢測復(fù)制比低,性能差。我們對檢測報告進(jìn)行了詳細(xì)分析,發(fā)現(xiàn)學(xué)位論文A跟一篇公開收錄的學(xué)位論文B有較大的相似性,但就這兩篇學(xué)位論文的對比結(jié)果,對四個系統(tǒng)的檢測報告進(jìn)行分析,得出“跟最相似文獻(xiàn)的重復(fù)率對比”的指標(biāo),從跟最相似文獻(xiàn)的重復(fù)率對比上看,結(jié)果從高到低分別是:知網(wǎng)、萬方、大雅、維普,知網(wǎng)和萬方的結(jié)果較接近,性能較優(yōu)。從章節(jié)分析能力看,同樣排版的學(xué)位論文,只有維普系統(tǒng)正確區(qū)分出論文章節(jié),知網(wǎng)和萬方按照自己標(biāo)準(zhǔn)分段,而大雅系統(tǒng)沒有進(jìn)行任何分段,章節(jié)分析能力上維普系統(tǒng)最優(yōu)。從報告長度和內(nèi)容上看,知網(wǎng)和維普系統(tǒng)的檢測報告都多達(dá)六十多頁,比較詳細(xì);但萬方和大雅只有十頁左右,太簡單。
本文對國內(nèi)主流的四個學(xué)位論文相似性檢測系統(tǒng)——知網(wǎng)系統(tǒng)、萬方系統(tǒng)、維普系統(tǒng)、大雅系統(tǒng)進(jìn)行了分析與比較,從各方面比較結(jié)果看,知網(wǎng)系統(tǒng)的優(yōu)勢是期刊和論文數(shù)據(jù)庫非常全面、檢測結(jié)果比較準(zhǔn)確,缺點(diǎn)是章節(jié)分析能力不佳;萬方系統(tǒng)的優(yōu)勢是研究生論文數(shù)據(jù)庫全,缺點(diǎn)是期刊數(shù)據(jù)庫太少、檢測結(jié)果不準(zhǔn);維普系統(tǒng)的優(yōu)勢是章節(jié)分析能力好,缺點(diǎn)是檢測技術(shù)速度太慢,相似性統(tǒng)計數(shù)據(jù)不準(zhǔn);大雅系統(tǒng)的優(yōu)勢是電子圖書數(shù)據(jù)庫全,缺點(diǎn)是論文和期刊數(shù)據(jù)庫太少、檢測結(jié)果不準(zhǔn)。綜合比較而言,每個系統(tǒng)都有待改進(jìn)的地方,但知網(wǎng)系統(tǒng)的性能最優(yōu)、綜合性能最佳。
[1]張旻浩,高國龍,錢俊龍.國內(nèi)外學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)平臺的比較研究[J].中國科技期刊研究,2011,4:514~521
[2]孔媛媛,王昆,徐小龍.高校研究生學(xué)術(shù)道德和學(xué)術(shù)規(guī)范工作的制度建設(shè)和措施[J].教育教學(xué)論壇,2014,50:271~272
[3]李志明.知網(wǎng)、萬方、維普論文相似性檢測系統(tǒng)比較研究[J].大學(xué)圖書情報學(xué)刊,2015,1:61 ~64
[4]林豪慧,陳如好.知網(wǎng)、維普、萬方的同質(zhì)化和差異化評析[J].圖書館學(xué)研究,2009,9:25 ~27