呂 遠(yuǎn) 葉繼元
(1.南京大學(xué)信息管理學(xué)院 南京 210023;2.南京工業(yè)大學(xué)圖書館 南京 211816)
改革開放以來,隨著經(jīng)濟(jì)社會(huì)的高速發(fā)展,在科研學(xué)術(shù)方面我國也取得了令世人矚目的巨大成就。但與之而來的學(xué)術(shù)失范、不端現(xiàn)象也是越來越猖獗,論文學(xué)術(shù)不規(guī)范的問題即是其中一個(gè)重要表現(xiàn)形式,該問題在高校研究生群體中表現(xiàn)尤為突出。由于研究生群體初涉科研工作,每一篇學(xué)術(shù)論文的發(fā)表都需要經(jīng)過大量的學(xué)術(shù)規(guī)范方面的評(píng)審。目前對(duì)論文學(xué)術(shù)規(guī)范方面的評(píng)審主要是定性的主觀性評(píng)價(jià),這需要耗費(fèi)大量的時(shí)間和人力成本。如何對(duì)論文的學(xué)術(shù)規(guī)范水平做一個(gè)高效的科學(xué)合理的客觀評(píng)價(jià),達(dá)到提升評(píng)審效率,降低評(píng)審成本的預(yù)期效果。這已經(jīng)成為當(dāng)下亟待解決的一個(gè)課題。
近幾年關(guān)于學(xué)術(shù)規(guī)范和評(píng)價(jià)研究,國內(nèi)外的研究成果較為豐富。劉大可從研究生學(xué)術(shù)規(guī)范意識(shí)培養(yǎng)的角度進(jìn)行了研究,界定了學(xué)術(shù)規(guī)范的內(nèi)涵與作用,并分析了造成學(xué)術(shù)失范的主要原因,在此基礎(chǔ)上,從發(fā)揮師生關(guān)系作用的角度,提出高等院校及導(dǎo)師對(duì)研究生學(xué)術(shù)規(guī)范意識(shí)培養(yǎng)的管理機(jī)制[1]。王剛教授對(duì)社會(huì)科學(xué)學(xué)術(shù)研究規(guī)范做了詳細(xì)分析,他認(rèn)為一個(gè)科學(xué)、全面的社會(huì)科學(xué)學(xué)術(shù)研究規(guī)范應(yīng)該包括以下三個(gè)方面:哲學(xué)上的思辨、科學(xué)上的實(shí)證、人文上的關(guān)懷。哲學(xué)上的思辨為社會(huì)科學(xué)研究提供研究的源泉和動(dòng)力,科學(xué)上的實(shí)證為其提供研究的論證工具,而人文上的關(guān)懷則為社會(huì)科學(xué)研究提供價(jià)值規(guī)范[2]。葉繼元教授對(duì)學(xué)術(shù)規(guī)范進(jìn)行了科學(xué)定義,并提出了基本研究規(guī)范、研究程序規(guī)范、研究方法規(guī)范、論著寫作規(guī)范、引文規(guī)范、署名及著作方式規(guī)范、學(xué)術(shù)批評(píng)和評(píng)價(jià)規(guī)范等內(nèi)容體系。早在10多年前就出版了《學(xué)術(shù)規(guī)范通論》一書。一個(gè)學(xué)術(shù)作品是否規(guī)范,可以利用葉教授近些年提出的“全評(píng)價(jià)”理論框架來評(píng)價(jià)。所謂 “全評(píng)價(jià)”理論框架,他認(rèn)為,簡單地說就是,“六個(gè)要素”(六位一體)和“三大維度”?!傲鶄€(gè)要素”是指評(píng)價(jià)主體、評(píng)價(jià)客體、評(píng)價(jià)目的、評(píng)價(jià)標(biāo)準(zhǔn)及指標(biāo)、評(píng)價(jià)方法和評(píng)價(jià)制度,其中評(píng)價(jià)主體是核心,評(píng)價(jià)目的是龍頭,制約著其他要素?!叭缶S度”是指任一評(píng)價(jià)客體都可以從三個(gè)維度去考察:形式評(píng)價(jià)、內(nèi)容評(píng)價(jià)和價(jià)值、效用評(píng)價(jià)。形式評(píng)價(jià)主要是根據(jù)評(píng)價(jià)對(duì)象的表象來評(píng)價(jià),往往可以定量評(píng)價(jià),相對(duì)直觀、簡單。內(nèi)容評(píng)價(jià)主要深入評(píng)價(jià)對(duì)象的內(nèi)核,往往依靠同行專家來評(píng)價(jià),費(fèi)時(shí)費(fèi)力。效用評(píng)價(jià)是指對(duì)評(píng)價(jià)對(duì)象的實(shí)際貢獻(xiàn)、社會(huì)和經(jīng)濟(jì)效益、應(yīng)用結(jié)果、人們思想變化等的評(píng)價(jià),它依賴于一段時(shí)間或較長時(shí)間的評(píng)價(jià),是“進(jìn)行時(shí)”或“未完成時(shí)”,可以用數(shù)字,也可以用文字來表述[3]。
具體針對(duì)論文摘要的學(xué)術(shù)規(guī)范,全國文獻(xiàn)工作標(biāo)準(zhǔn)化技術(shù)委員會(huì)于1986年發(fā)布了GB6447—86文摘編寫規(guī)則[4],其中規(guī)定文摘是以提供文獻(xiàn)內(nèi)容梗概為目的,不加評(píng)論和補(bǔ)充解釋,簡明、確切地記述文獻(xiàn)重要內(nèi)容的短文;文摘包含四大要素,分別為目的、方法、結(jié)果、結(jié)論?;谶@一國家標(biāo)準(zhǔn),很多學(xué)者對(duì)摘要的規(guī)范做了相應(yīng)的研究。比較有代表性的有:高建群針對(duì)中文學(xué)術(shù)論文摘要的寫作規(guī)范[5],其將摘要分為研究報(bào)告型,綜述型,論證型,發(fā)現(xiàn)、發(fā)明型,計(jì)算型五大類,并分別探討了相應(yīng)摘要的寫作格式,最終概括了摘要的寫作總要求“忠實(shí)于原文、簡潔明了、章法規(guī)范”;金丹通過分析《工程索引》(EI)對(duì)英文摘要的要求[6],從寫作要求、時(shí)態(tài)、人稱和語態(tài)、常用詞匯等方面,總結(jié)了英文摘要寫作的規(guī)范。她認(rèn)為英文摘要的結(jié)構(gòu)可以概括為IMARD(Introduction、Material and Methods、Result and Discussion),包括引言、材料與方法、結(jié)果和討論部分。而利用數(shù)據(jù)挖掘技術(shù)對(duì)摘要學(xué)術(shù)規(guī)范做自動(dòng)化監(jiān)測的相關(guān)研究目前尚少。
論文摘要也可以通過計(jì)算機(jī)自動(dòng)生成,目前主要有兩種方式:一類是以TextRank算法為代表的抽取關(guān)鍵詞句的方式[7];另一類則是借助于深度神經(jīng)網(wǎng)絡(luò)讓計(jì)算機(jī)自動(dòng)“造句”,最終生成摘要。由于后者在技術(shù)上還有一些關(guān)鍵性的難點(diǎn)有待突破,現(xiàn)在應(yīng)用比較廣泛的是第一種方式。但由于抽取式摘要生成主要是基于詞頻,并沒有過多的語義信息,造成很多相關(guān)聯(lián)的詞匯都會(huì)被獨(dú)立對(duì)待,以至于無法建立文本段落中完整的語義信息,生成的摘要可閱讀性較差。因此借助于計(jì)算機(jī)自動(dòng)生成符合學(xué)術(shù)規(guī)范的摘要信息目前還不成熟。
綜上可以看出,目前學(xué)界關(guān)于學(xué)術(shù)規(guī)范及其評(píng)價(jià)研究的理論已經(jīng)很充實(shí),相關(guān)的模型框架也比較完備。但是在定量化的評(píng)價(jià)研究方面還有待深入。文章根據(jù)“全評(píng)價(jià)”理論框架,主要就其中的形式評(píng)價(jià)維度,嘗試?yán)脵C(jī)器學(xué)習(xí)技術(shù),結(jié)合卷積神經(jīng)網(wǎng)絡(luò),以摘要的文本內(nèi)容為研究對(duì)象(涉及到內(nèi)容評(píng)價(jià)的一部分),初步構(gòu)建了一個(gè)自動(dòng)化智能檢測模型,相較于傳統(tǒng)論文評(píng)審方式,不但可以節(jié)省大量人力物力,結(jié)果亦更具準(zhǔn)確性和客觀性。
卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)自20世紀(jì)60年代由Hubel和Wiesel首次提出以后[8],由于當(dāng)時(shí)缺乏訓(xùn)練數(shù)據(jù)和硬件設(shè)備性能不足的原因,一直沒有引起足夠的重視。2010年以后,像ImageNet這樣的大規(guī)模標(biāo)記數(shù)據(jù)的出現(xiàn)和GPU計(jì)算性能的快速提升,使得關(guān)于CNN的研究重新得到井噴式的發(fā)展。
CNN的應(yīng)用早期主要在手寫字符分類、圖像分類領(lǐng)域,比較有代表性的CNN結(jié)構(gòu)模型有Krizhevsky 2012年提出的AlexNet[9],該模型在ImageNet圖像分類競賽中以絕對(duì)優(yōu)勢奪冠。隨后不斷有新的CNN模型提出,比如牛津大學(xué)的VGG(Visual Geometry Group)、Google的 GoogleNet、微軟的ResNet等,這些研究都使得CNN的性能在圖像識(shí)別和分類的應(yīng)用中不斷得到提升。
圖1 CNN基本結(jié)構(gòu)
近幾年,CNN的應(yīng)用正逐步向更深層次的人工智能發(fā)展,自然語言處理就是其中一個(gè)重要領(lǐng)域。較有代表性的,2014年Yoon Kim提出了一個(gè)經(jīng)典的用于文本分類的單層CNN 模型[10]。
圖2 Yoon Kim提出的CNN結(jié)構(gòu)
該結(jié)構(gòu)使用長度不同的過濾器對(duì)詞向量進(jìn)行卷積,過濾器的寬度等于詞向量的長度,然后使用Max-polling池化層對(duì)每一個(gè)過濾器提取的向量進(jìn)行操作,最后模型的預(yù)測都是基于這些拼接起來的過濾器。較經(jīng)典的多層CNN模型為Nal Kalchbrenner 2014提出的Dynamic Convolutional Neural Network[11]。相較于前者,該模型更加復(fù)雜,多加入了一層用來實(shí)現(xiàn)“情感聚類”。
CNN作為一種特殊的神經(jīng)網(wǎng)絡(luò),在自然語言處理過程中,它的局部關(guān)聯(lián)特性能夠?qū)斎胛谋具M(jìn)行大量的特征提取,從而可以對(duì)輸入對(duì)象進(jìn)行精確的模擬;另外由于在卷積層中權(quán)重參數(shù)都是共享的,這就大大降低了模型的計(jì)算復(fù)雜度,與 N-Gram相比,運(yùn)行速度更快??傮w而言,CNN在自然語言處理中的性能表現(xiàn)是不錯(cuò)的。文章就是同時(shí)基于Yoon Kim的單層CNN結(jié)構(gòu)和傳統(tǒng)經(jīng)典的CNN模型結(jié)構(gòu),試圖將兩者結(jié)合起來,對(duì)論文摘要建立學(xué)術(shù)規(guī)范評(píng)價(jià)模型。
圖3 Nal Kalchbrenner提出的CNN結(jié)構(gòu)
根據(jù)國家有關(guān)論文摘要的撰寫規(guī)范,摘要通常應(yīng)具有研究目的、研究方法、研究結(jié)果和結(jié)論的陳述。摘要撰寫是否規(guī)范,專家通過閱讀文本即能判斷。如果要大規(guī)模的檢測摘要撰寫的規(guī)范程度,利用專家來閱讀和判斷的話,那很費(fèi)時(shí)費(fèi)力。如果能通過機(jī)器自動(dòng)檢測,則可以大大節(jié)省專家閱讀和判斷的時(shí)間和精力,且在某個(gè)方面可提高檢測精度。
為了對(duì)論文摘要數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,首先要建立數(shù)據(jù)集。文章以中國知網(wǎng)(CNKI)為數(shù)據(jù)源,選定圖書情報(bào)為檢索學(xué)科,檢索出了有結(jié)構(gòu)化數(shù)據(jù)的摘要信息2 500余條(均為符合規(guī)范的完整摘要文本),經(jīng)過導(dǎo)出和數(shù)據(jù)預(yù)處理操作,得到9 767條數(shù)據(jù)(同時(shí)包含規(guī)范和非規(guī)范的人造摘要文本),利用這些數(shù)據(jù)建立相應(yīng)的訓(xùn)練數(shù)據(jù)集(Train set,7 867條)、校驗(yàn)數(shù)據(jù)集(Validate set,1 500條)、測試數(shù)據(jù)集(Test set,400條)和詞匯表(Vocabulary set)。
以中國知網(wǎng)為檢索源,選取《圖書情報(bào)工作》和《情報(bào)科學(xué)》期刊為文獻(xiàn)來源,將檢索出來的摘要中有“目的/意義”“方法/過程”“結(jié)果/結(jié)論”標(biāo)識(shí)的論文下載下來,經(jīng)過剔除一些會(huì)議通知等無關(guān)內(nèi)容之后,將論文的摘要單獨(dú)提取出來,共計(jì)2 500余條數(shù)據(jù)信息。
經(jīng)過以下數(shù)據(jù)預(yù)處理操作:
將每一條摘要中的“目的/意義”“方法/過程”“結(jié)果/結(jié)論”分別提取出來,分別用A、B、C標(biāo)識(shí)。
構(gòu)造訓(xùn)練數(shù)據(jù)集、校驗(yàn)數(shù)據(jù)集、測試數(shù)據(jù)集和詞匯表。其中數(shù)據(jù)集的結(jié)構(gòu)主要包含三個(gè)部分:id、cotent和label,其中id為每條數(shù)據(jù)的唯一標(biāo)識(shí),content為文本內(nèi)容,label驗(yàn)證結(jié)果(1為符合學(xué)術(shù)規(guī)范,2為缺少目的意義,3為缺少方法過程,4為缺少結(jié)果結(jié)論)。label的判定規(guī)則如下:如果content中同時(shí)包含A、B、C,則label為1;如果content中沒有包含A,則label為2;如果content中沒有包含B,則label為3;如果content中沒有包含C,則label為4。(這里主要以期刊發(fā)表為準(zhǔn)則,即基于以下事實(shí):如果論文在期刊中發(fā)表,則默認(rèn)該論文的摘要部分符合學(xué)術(shù)規(guī)范;對(duì)于個(gè)別有明顯錯(cuò)誤的摘要內(nèi)容,輔之于人工標(biāo)注)
將每一條摘要中的A、B、C分別排列組合,構(gòu)造相應(yīng)的訓(xùn)練數(shù)據(jù)(共計(jì)7 867條)。對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗操作,包括清除無效數(shù)據(jù)、對(duì)空數(shù)據(jù)進(jìn)行補(bǔ)全等。通過編寫相應(yīng)Python程序,構(gòu)造好的數(shù)據(jù)集如下圖所示:
圖4 數(shù)據(jù)集圖
首先采用傳統(tǒng)的CNN模型(以下簡寫為模型1),完整結(jié)構(gòu)如下圖所示,包含輸入層、3個(gè)卷積層、1個(gè)池化層、1個(gè)全連接層和輸出層:其中模型的輸入為詞向量(Word embedding),輸出為每一段文本對(duì)應(yīng)的標(biāo)簽(即1、2、3、4,各自代表相應(yīng)的含義)。由于模型的參數(shù)對(duì)結(jié)果的準(zhǔn)確性影響很大,利用網(wǎng)格搜索經(jīng)過反復(fù)調(diào)參,對(duì)模型作如下參數(shù)初始化:
模型詞向量(Word embedding)維度設(shè)定為64,卷積核個(gè)數(shù)為8,卷積核大小為64,全連接層中神經(jīng)元個(gè)數(shù)為64,初始權(quán)重矩陣隨機(jī)選取符合正態(tài)分布的數(shù)值。池化層中采用Max Polling方式,輸出層中激活函數(shù)采用修正線性單元(Rectified linear unit,ReLu)激活并采用SoftMax進(jìn)行分類。準(zhǔn)確率校驗(yàn)過程采用交叉熵測度(Cross Entropy),權(quán)重優(yōu)化過程采用自適應(yīng)矩估計(jì)優(yōu)化器(Adam Optimizer)。另外,由于模型的數(shù)據(jù)量較小,為避免模型訓(xùn)練過程中發(fā)生過擬合,將Dropout比例設(shè)定為0.7,迭代次數(shù)為10。
類似的,利用Kim Y的單層CNN結(jié)構(gòu)(見圖2),對(duì)該模型(以下簡寫為模型2)參數(shù)做如下初始化操作:
模型詞向量(Word embedding)維度設(shè)定為520,卷積核大小有三類,分別為3、4、5,每一類卷積核的個(gè)數(shù)均為128,初始權(quán)重矩陣隨機(jī)選取符合正態(tài)分布的數(shù)值;池化層中采用Max Polling方式,輸出層中激活函數(shù)采用修正線性單元(Rectified linear unit,ReLu)激活并采用SoftMax進(jìn)行分類;準(zhǔn)確率校驗(yàn)過程采用交叉熵測度(Cross Entropy),權(quán)重優(yōu)化過程采用自適應(yīng)矩估計(jì)優(yōu)化器(Adam Optimizer);Dropout比例為0.5,迭代次數(shù)為200;L2 規(guī)范化參數(shù)為0。
圖5 CNN結(jié)構(gòu)圖
根據(jù)模型1和模型2的輸出結(jié)果可以判斷一段文本是否完整包含摘要結(jié)構(gòu)的四要素,如果不包含的話,亦可指出文本具體缺少哪一個(gè)要素。
利用TensorFlow和Sklearn框架,通過編寫Python程序可以將上述兩個(gè)模型很方便的實(shí)現(xiàn)出來。運(yùn)行程序發(fā)現(xiàn),模型1在測試集上的精確度為80.13%,模型2精確度為82.57%,基本達(dá)到了預(yù)期目標(biāo)(大于80%)。
結(jié)合TensorFlow提供的TensorBoard分析工具,可以看到模型圖(Graph)結(jié)構(gòu)分別如下所示:
圖6 模型1圖結(jié)構(gòu)(Graph)
圖7 模型2圖結(jié)構(gòu)(Graph)
其中模型訓(xùn)練過程中的精度(accuracy)和損失率(loss)變化趨勢圖如下:
圖8 模型1精度趨勢圖
圖9 模型1損失率趨勢圖
圖10 模型2精度趨勢圖
圖11 模型2損失率趨勢圖
進(jìn)一步觀察程序輸出結(jié)果中的模型評(píng)估指標(biāo):
圖12 模型1評(píng)估指標(biāo)
圖13 模型2評(píng)估指標(biāo)
可以看到模型1、2的查準(zhǔn)率(Precision)和召回率(Recall)這兩個(gè)指標(biāo)均達(dá)到80%以上,由于兩者是互斥的關(guān)系,80%的結(jié)果基本符合預(yù)期。
綜合利用上面兩個(gè)預(yù)測模型,對(duì)模型1、2的輸出結(jié)果求平均值,以該值作為我們最終模型的最終結(jié)果。觀察最終模型的評(píng)價(jià)指標(biāo)如下:
圖14 最終模型的評(píng)估指標(biāo)
可以看到最終模型的各項(xiàng)指標(biāo)都要高于單個(gè)模型(模型1、2)。其中精確達(dá)到83.20%,查準(zhǔn)率和召回率分別為84%和83%。
文章基于數(shù)據(jù)挖掘技術(shù)初步構(gòu)建了一個(gè)以論文摘要為研究對(duì)象的學(xué)術(shù)規(guī)范檢測模型,準(zhǔn)確率總體達(dá)到了83%+,雖然還沒有符合產(chǎn)品級(jí)的高精度(95%+)要求,但其證明通過利用機(jī)器學(xué)習(xí)的相關(guān)技術(shù)實(shí)現(xiàn)論文學(xué)術(shù)規(guī)范的智能化檢測是可行的。概括起來,該模型相較于傳統(tǒng)學(xué)術(shù)規(guī)范評(píng)審方式有以下幾方面優(yōu)勢:
評(píng)審效率高,節(jié)省大量人力成本。上述模型除了在訓(xùn)練階段耗費(fèi)較長時(shí)間(模型1為11分鐘,模型2為28分鐘),在應(yīng)用階段對(duì)400條樣本的預(yù)測僅耗時(shí)5秒,效率得到大幅度提升;并且模型只需初始訓(xùn)練一次即可,后續(xù)階段無需再次訓(xùn)練。
結(jié)果更具有客觀性和統(tǒng)一性。傳統(tǒng)的人工評(píng)審方式主觀性較大,可能會(huì)出現(xiàn)錯(cuò)誤, 甚至不同的專家之間也可能得出不同的結(jié)論。而利用機(jī)器學(xué)習(xí)的技術(shù)手段評(píng)審,就可以避免主觀性的誤判,提高評(píng)審的準(zhǔn)確率。
有利于論文的學(xué)術(shù)規(guī)范標(biāo)準(zhǔn)化。由于論文是由計(jì)算機(jī)評(píng)審,省去人工評(píng)審繁瑣的工作,從而可以把精力主要放在論文內(nèi)容的學(xué)術(shù)規(guī)范的評(píng)定上。標(biāo)準(zhǔn)作為模型訓(xùn)練階段的一個(gè)基石,標(biāo)準(zhǔn)統(tǒng)一了,評(píng)審結(jié)果也就更具有一致性。
為了進(jìn)一步提高模型的準(zhǔn)確率,對(duì)上述CNN模型的進(jìn)一步優(yōu)化,后續(xù)工作可以考慮從以下幾方面展開:
數(shù)據(jù)集數(shù)量規(guī)模較小。模型訓(xùn)練數(shù)據(jù)集總量共計(jì)7300余條,這對(duì)于構(gòu)建一個(gè)高精度的神經(jīng)網(wǎng)絡(luò)而言,是遠(yuǎn)遠(yuǎn)不夠的,一般來說,數(shù)據(jù)集的量級(jí)最好在萬以上。CNN模型結(jié)構(gòu)過于簡單。模型1目前僅包含三個(gè)卷積層和一個(gè)池化層,可以考慮引入多個(gè)卷積層和多個(gè)池化層以提高精度,比如采用LeNet模型等。詞向量的構(gòu)建目前采用的Id標(biāo)識(shí)(即每個(gè)字唯一對(duì)應(yīng)于詞匯表中的相應(yīng)Id),這樣不能從語義上對(duì)詞義相近的字進(jìn)行區(qū)分,優(yōu)化過程中可以考慮采用Word2vec或Tf-Idf的方法。模型的初始權(quán)重矩陣目前為隨機(jī)矩陣,可以考慮采用Xavier初始化方法[12],防止梯度消減和梯度爆炸,從而提高模型的穩(wěn)定性。
(來稿時(shí)間:2018年10月)