于海浩,汪 偉,黃成哲,孫 栩
(黑龍江工程學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150050)
抄襲檢測是反抄襲的有效手段,是幫助教師評價(jià)學(xué)生學(xué)習(xí)成果的有力工具,對學(xué)校教育教學(xué)質(zhì)量的提高有重大的促進(jìn)作用[1]。許多學(xué)校和機(jī)構(gòu)都制定了各種學(xué)術(shù)規(guī)范和標(biāo)準(zhǔn)來檢測抄襲[2-4]。國內(nèi)應(yīng)用最廣泛的是CNKI,國外抄襲檢測系統(tǒng)主要有Turnitin、PlagScan、Dupli Checker、Plagiarism Checker、Copyleaks等系統(tǒng)。
針對抄襲檢測技術(shù)的應(yīng)用,學(xué)生不斷實(shí)施反抄襲技術(shù)。他們利用改變語序、相似詞替換、主被動語句修改、概念泛化等多種手段來逃避抄襲系統(tǒng)的檢測。這種行為對抄襲檢測軟件構(gòu)成嚴(yán)峻挑戰(zhàn),需要抄襲檢測軟件不斷地改進(jìn)抄襲檢測的算法和模型。抄襲語料是抄襲檢測技術(shù)的研究基礎(chǔ),反映真實(shí)抄襲文本的語料庫對抄襲現(xiàn)象和規(guī)律的分析、抄襲檢測算法的設(shè)計(jì)起著至關(guān)重要的作用[5]。但抄襲者一般不會同意將他所采用的多種反抄襲手段和反抄襲改寫的內(nèi)容應(yīng)用于研究中,使得真實(shí)抄襲檢測語料庫的獲取比較困難。
針對學(xué)生多變的抄襲手段和抄襲語料匱乏的問題,開發(fā)了實(shí)驗(yàn)報(bào)告抄襲檢測系統(tǒng),在實(shí)現(xiàn)實(shí)驗(yàn)、實(shí)習(xí)報(bào)告、課程論文、作業(yè)等抄襲檢測的基礎(chǔ)上,創(chuàng)新性地增加了以下三項(xiàng)功能:
1)針對不同抄襲類型的自適應(yīng)抄襲檢測。系統(tǒng)使用自適應(yīng)抄襲類型檢測算法[6],動態(tài)判別不同抄襲類型,涵蓋了對照搬照抄、簡單修改的低模糊抄襲、釋義修改的高模糊抄襲的檢測。
2)抄襲語料自動獲取。系統(tǒng)使用基于自然標(biāo)注的抄襲語料獲取算法[7-9],從學(xué)生多次提交的同一主題的文檔中自動獲取高質(zhì)量的釋義抄襲語料。
3)抄襲算法自動更新。系統(tǒng)通過自動獲得的抄襲語料不斷訓(xùn)練抄襲檢測模型,實(shí)現(xiàn)抄襲檢測算法的自動更新。
在實(shí)現(xiàn)創(chuàng)新性功能的基礎(chǔ)上,使用實(shí)驗(yàn)報(bào)告抄襲檢測系統(tǒng),對提高高校教學(xué)質(zhì)量、減輕教師工作負(fù)擔(dān)具有重要價(jià)值。主要作用有如下幾個(gè)方面:
1)方便了解學(xué)生專業(yè)知識的掌握情況。教師利用系統(tǒng)的智能化分析,能夠很好地了解學(xué)生對專業(yè)知識的掌握情況,并能夠做出合理的作業(yè)評價(jià),有利于學(xué)生水平的整體提高。
2)減輕教師的工作負(fù)擔(dān)和壓力。系統(tǒng)的重復(fù)性檢測可以讓教師免去審查學(xué)生是否具有抄襲行為的工作,極大地減輕了教師的工作負(fù)擔(dān)和壓力,同時(shí)通過報(bào)告質(zhì)量檢測中的自動打分,可以輔助教師完成作業(yè)、報(bào)告的批改工作,減少教師的工作量。
3)有利于改變學(xué)校學(xué)風(fēng)。反抄襲技術(shù)在教學(xué)活動中的使用,能夠促進(jìn)學(xué)生的自主學(xué)習(xí)和創(chuàng)新意識,保證學(xué)校畢業(yè)生的質(zhì)量,營造學(xué)生良好的學(xué)習(xí)氛圍。
實(shí)驗(yàn)報(bào)告抄襲檢測系統(tǒng)以在抄襲檢測國際評測PAN@CLEF上多次獲得第一名的抄襲檢測算法為技術(shù)基礎(chǔ),圍繞高校與課程相關(guān)的各種文檔的原創(chuàng)性檢查這一主要功能,實(shí)現(xiàn)實(shí)驗(yàn)、實(shí)習(xí)報(bào)告、作業(yè)等全過程質(zhì)量管理,輔助教師評估學(xué)生報(bào)告質(zhì)量,實(shí)時(shí)發(fā)現(xiàn)報(bào)告中的學(xué)術(shù)不端問題,有效預(yù)防抄襲行為,引導(dǎo)學(xué)生遵守學(xué)術(shù)規(guī)范,樹立學(xué)術(shù)誠信。
在本系統(tǒng)中,教師的主要任務(wù)是建立課程和該課程下的所有實(shí)驗(yàn),導(dǎo)入學(xué)生數(shù)據(jù),設(shè)定相關(guān)參數(shù)。教師人工檢查學(xué)生報(bào)告是否抄襲交由系統(tǒng)自動完成,極大地減輕了教師的工作負(fù)擔(dān),降低了抄襲率。具體對比情況見表1。學(xué)生主要任務(wù)是將自己的報(bào)告形成電子文檔后上傳到系統(tǒng)中,對于報(bào)告沒有通過的學(xué)生,需要修改后重新上傳報(bào)告。系統(tǒng)通過從學(xué)生多次提交的同一主題文檔中自動獲取高質(zhì)量的釋義抄襲語料,并且利用這些語料不斷訓(xùn)練更準(zhǔn)確的抄襲檢測算法和模型[6]。具體對比情況見表2。
表1 抄襲比重與效率對比調(diào)查
表2 抄襲檢測時(shí)間與準(zhǔn)確率對比
系統(tǒng)總體框架如圖1所示。其中,文本的深度匹配模塊實(shí)現(xiàn)針對不同抄襲類型的自適應(yīng)抄襲檢測,抄襲語料構(gòu)建器實(shí)現(xiàn)抄襲語料自動獲取,并且向文本的深度匹配模塊提供模型訓(xùn)練和更新的數(shù)據(jù)。
圖1 系統(tǒng)總體框架
圖2 抄襲語料構(gòu)建過程
1.3.1 多類型文本特征提取
現(xiàn)有的研究大多以文本在某類特征上(如詞匯、語義等)的相似度作為是否存在抄襲的依據(jù)。這樣的方法在低模糊的抄襲和非模糊的抄襲上取得了較好的效果,但在高模糊抄襲的識別上卻丟失了大量的抄襲種子,最終無法獲得令人滿意的效果。筆者采用的多類型文本特征主要有詞匯特征、語義特征和句法特征。詞匯特征采用的是基于單詞的n-gram和基于字符的n-gram。這些特征包括N-gram距離、Dice系數(shù)、Jaccard系數(shù)等;語義特征采用WordNet3.0作為語義庫,利用語義距離,根據(jù)文獻(xiàn)[10]計(jì)算兩個(gè)概念的語義相似度,從而獲得待比較文本片段在語義上的相似度;句法特征方面采用文獻(xiàn)[11]POS n-gram距離;結(jié)構(gòu)特征采用文獻(xiàn)[12]的Word Pair Order,該特征用于計(jì)算兩個(gè)文本片段中以相同順序出現(xiàn)的兩個(gè)單詞。
1.3.2 基于邏輯回歸模型的抄襲檢測自適應(yīng)算法
使用邏輯回歸模型結(jié)合詞匯、句法、語義和結(jié)構(gòu)特征來自適應(yīng)各類型的抄襲,并通過利用各種特征來捕獲更多抄襲種子。
(1)
系統(tǒng)通過訓(xùn)練這個(gè)基于二項(xiàng)邏輯回歸的分類器C,學(xué)習(xí)各類抄襲特征的預(yù)測結(jié)果在最終分類決策中的權(quán)重,據(jù)此判斷文本片段si∈dplg與rj∈dsrc存在抄襲的概率。如果si與rj存在抄襲的概率大于si與rj不存在抄襲的概率,則分類器輸出為1,否則輸出為-1。利用分類器C(si,rj),對給定的dplg=(s1,s2,…,sn)和dsrc=(r1,r2,…,rn),獲得dplg和dsrc中所有疑似抄襲片段對(si,rj)的列表,這些抄襲片段對將作為抄襲種子。
系統(tǒng)目前支持用戶并發(fā)數(shù)1 000以上,單篇論文詳細(xì)分析時(shí)間5.9 s以內(nèi),日檢測量可達(dá)10 000篇,可疑片段召回率70%,抄襲檢測精確率96%,系統(tǒng)界面展示如圖3所示。
圖3 系統(tǒng)界面展示
文中選取三門課程,對每門課程同一實(shí)驗(yàn)內(nèi)容的所有學(xué)生的實(shí)驗(yàn)報(bào)告分別通過人工方式和系統(tǒng)自動檢測方式進(jìn)行數(shù)據(jù)對比,如表1所示。其中,合格抄襲率是教師設(shè)定的學(xué)生報(bào)告確認(rèn)為合格的抄襲率最高值,抄襲率=抄襲字?jǐn)?shù)/全文字?jǐn)?shù),抄襲占比=抄襲學(xué)生數(shù)/全部學(xué)生數(shù)。從表1—2可以看出,使用系統(tǒng)的教師平均檢查時(shí)間降低至原來的1/6,學(xué)生的抄襲占比下降近38%。
將上述三門課程實(shí)驗(yàn)內(nèi)容每名學(xué)生的實(shí)驗(yàn)報(bào)告分別在兩個(gè)抄襲檢測算法中運(yùn)行,一個(gè)抄襲檢測算法是使用自動獲取抄襲語料來不斷訓(xùn)練、更新抄襲檢測模型的機(jī)器學(xué)習(xí)算法,另一個(gè)使用傳統(tǒng)的啟發(fā)式算法。從表1—2對比可知,每篇抄襲檢測平均時(shí)間提高近5 s,準(zhǔn)確率提高近3%。
文中設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的實(shí)驗(yàn)報(bào)告抄襲檢測系統(tǒng)。該系統(tǒng)采用基于自然標(biāo)注的抄襲語料自動獲取方法,從學(xué)生多次提交的同一主題的文檔中自動獲取高質(zhì)量的釋義抄襲語料,利用這些語料不斷訓(xùn)練更準(zhǔn)確的抄襲檢測算法,模型的應(yīng)用提升了抄襲檢測的性能。實(shí)際應(yīng)用表明,該系統(tǒng)能夠滿足高校教學(xué)科研活動的需要,對實(shí)踐教學(xué)質(zhì)量的提升有良好的促進(jìn)作用。