摘? 要:為規(guī)范科研成果管理流程,減少科研管理人員工作量,提高科研成果審核的及時(shí)性和準(zhǔn)確性,設(shè)計(jì)了基于網(wǎng)絡(luò)爬蟲技術(shù)的科研成果真實(shí)性驗(yàn)證算法,根據(jù)設(shè)計(jì)的算法,采用Python語言編寫程序,爬取了科研成果網(wǎng)絡(luò)數(shù)據(jù),與湖南工程職業(yè)技術(shù)學(xué)院2019年度科研成果數(shù)據(jù)進(jìn)行了比對(duì),從匹配的結(jié)果來看,網(wǎng)絡(luò)爬蟲技術(shù)能有效實(shí)現(xiàn)科研成果的真實(shí)性驗(yàn)證,為科研成果管理的數(shù)字化、自動(dòng)化、智能化提供了技術(shù)支撐。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;科研成果;自動(dòng)化
Abstract:In order to standardize the management process of scientific research achievements,reduce the workload of scientific research management personnel,and improve the timeliness and accuracy of scientific research achievement audit,the authenticity verification algorithm of scientific research achievement based on web crawler technology is designed. According to the designed algorithm,the program is written in Python language,and the network data of scientific research achievement are crawled and compared with the data of scientific research achievement of Hunan Vocational College of Engineering in 2019,from the matching results,the web crawler technology can effectively realize the authenticity verification of scientific research achievement,and provide technical support for the digitization,automation and intellectualization of scientific research achievement managements.
Keywords:web crawler;scientific research achievements;automation
0? 引? 言
近年來,我院立項(xiàng)的科研項(xiàng)目,獲得的科研成果越來越多,科研領(lǐng)域越來越廣泛。但長期以來,我院的科研管理工作依然停留在傳統(tǒng)的數(shù)字化管理階段,科研成果匯總后以簡(jiǎn)單的Excel文檔形式存儲(chǔ)在科研處,科研論文、專著及論文的真實(shí)性驗(yàn)證需要科研秘書人工到門戶網(wǎng)站逐條進(jìn)行查詢,工作量大,為減輕科研秘書的工作量,規(guī)范科研成果管理流程,實(shí)現(xiàn)科研成果管理的數(shù)字化、信息化、智能化,有必要建設(shè)我院智慧科研成果管理服務(wù)平臺(tái)。
1? 平臺(tái)需求分析
科研成果管理平臺(tái)的用戶角色包括教職工,二級(jí)學(xué)院及處室科研秘書,學(xué)??蒲刑幟貢=搪毠ぶ饕獙?shí)現(xiàn)科研成果的登記,二級(jí)學(xué)院及處室科研秘書主要實(shí)現(xiàn)本部門教職工科研成果的審核,學(xué)??蒲刑幟貢饕獙?shí)現(xiàn)全校教職工科研成果的審核,具體功能需求為:
(1)教職工登錄系統(tǒng)后可以添加、刪除、修改、查看個(gè)人的科研成果;
(2)二級(jí)學(xué)院及處室科研秘書登錄系統(tǒng)后可以添加、刪除、修改、查看個(gè)人的科研成果和審核本部門的科研成果;
(3)二級(jí)學(xué)院及處室科研秘書登錄系統(tǒng)后可以添加、刪除、修改、查看個(gè)人的科研成果并對(duì)全校的科研成果進(jìn)行自動(dòng)化初審。學(xué)校科研秘書登錄系統(tǒng)后可以添加、刪除、修改、查看個(gè)人的科研成果并對(duì)全校的科研成果進(jìn)行自動(dòng)化復(fù)審;
(4)科研成果包括論文、專利、專著、立項(xiàng)課題、論文獲獎(jiǎng)等信息,所有科研成果能根據(jù)基礎(chǔ)數(shù)據(jù)設(shè)置的參數(shù)自動(dòng)生成獎(jiǎng)勵(lì)信息,并對(duì)個(gè)人獎(jiǎng)勵(lì)進(jìn)行統(tǒng)計(jì)匯總;
(5)系統(tǒng)能自動(dòng)生成個(gè)人業(yè)績,二級(jí)學(xué)院及處室科研業(yè)績、學(xué)??蒲袠I(yè)績相關(guān)圖表,供教職工個(gè)人、二級(jí)部門領(lǐng)導(dǎo)、學(xué)校領(lǐng)導(dǎo)查看;
(6)系統(tǒng)能按指定條件查詢生成可視化科研成果縱向?qū)Ρ确治鰣D,供校領(lǐng)導(dǎo)查閱;
(7)系統(tǒng)能自動(dòng)從網(wǎng)上爬取其他同類高校的科研數(shù)據(jù),生成橫向?qū)Ρ瓤梢暬瘓D表,供校領(lǐng)導(dǎo)查看。
2? 平臺(tái)功能模塊設(shè)計(jì)
根據(jù)平臺(tái)需求,對(duì)智慧科研成果管理平臺(tái)的功能模塊進(jìn)行了設(shè)計(jì),平臺(tái)主要包括基礎(chǔ)數(shù)據(jù)設(shè)置、科研業(yè)績考核、科研成果管理、智能決策管理、系統(tǒng)管理5個(gè)模塊,具體設(shè)計(jì)如圖1所示。
其中科研成果登管理系統(tǒng)的核心模塊,主要實(shí)現(xiàn)科研論文、專利、專著、立項(xiàng)課題及獲獎(jiǎng)?wù)撐牡墓芾砗途S護(hù)??蒲袠I(yè)績考核模塊包括個(gè)人業(yè)績查看、學(xué)院業(yè)績查看、學(xué)校業(yè)績查看。智能決策模塊主要實(shí)現(xiàn)歷年學(xué)校論文發(fā)表及立項(xiàng)課題的數(shù)據(jù)分析,學(xué)校歷年發(fā)表論文及立項(xiàng)課題情況與同類高校發(fā)表論文及立項(xiàng)課題情況的橫向?qū)Ρ确治觥?/p>
3? 平臺(tái)網(wǎng)絡(luò)爬蟲需求
科研成果登記后,二級(jí)學(xué)院及處室科研秘書需對(duì)本部門所有教職工的科研成果進(jìn)行初審,驗(yàn)證科研成果的真實(shí)性,學(xué)??蒲刑幟貢枰獙?duì)全校教職工的科研成果進(jìn)行復(fù)審,驗(yàn)證科研成果的真實(shí)性,傳統(tǒng)方法需要科研秘書人工訪問科研成果查新網(wǎng)站,逐條比對(duì)教職工登記的科研成果,工作量大,工作效率低。
為減輕科研秘書的工作量,提高科研成果審核的及時(shí)性和準(zhǔn)確性,提高科研成果管理效率,有必要引入網(wǎng)絡(luò)爬蟲技術(shù)來爬取網(wǎng)絡(luò)數(shù)據(jù),再將爬取的網(wǎng)絡(luò)數(shù)據(jù)與教職工登記的科研成果數(shù)據(jù)進(jìn)行比對(duì),來實(shí)現(xiàn)科研成果的自動(dòng)化驗(yàn)證。
4? 網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用
4.1? 爬蟲技術(shù)
Scrapy爬蟲技術(shù)主要包括爬蟲,項(xiàng)目管道。爬取網(wǎng)絡(luò)數(shù)據(jù)時(shí),先要獲取需要爬取的URL鏈接,再從URL鏈接中找到訪問URL請(qǐng)求頭,并將請(qǐng)求頭內(nèi)容封裝合適的存儲(chǔ)結(jié)構(gòu)。請(qǐng)求頭發(fā)送請(qǐng)求給爬蟲程序,爬蟲程序執(zhí)行完后,將處理后響應(yīng)內(nèi)容提交給項(xiàng)目管道,最后通過項(xiàng)目管道來執(zhí)行具體的數(shù)據(jù)操作。
4.2? 科研成果自動(dòng)審核關(guān)鍵算法描述
構(gòu)建網(wǎng)絡(luò)爬蟲先需要尋找目標(biāo)相關(guān)網(wǎng)絡(luò),從相關(guān)網(wǎng)絡(luò)上獲取有價(jià)值的網(wǎng)頁內(nèi)容;然后分析所獲取的網(wǎng)頁內(nèi)容,并提取有用數(shù)據(jù),在將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)結(jié)構(gòu)中,最后利用數(shù)據(jù)結(jié)構(gòu)展示或進(jìn)一步處理,具體程序流程如圖2所示。
先讀取數(shù)據(jù)表中數(shù)據(jù),將數(shù)據(jù)保存在內(nèi)存中,循環(huán)判斷是否是最后一條數(shù)據(jù),如果不是,開始爬取數(shù)據(jù),并提取爬取到的有用數(shù)據(jù),再判斷爬取的數(shù)據(jù)與數(shù)據(jù)庫數(shù)據(jù)是否匹配,如果匹配成功,則修改數(shù)據(jù)表中審核字段標(biāo)志為“已審核”,否則繼續(xù)循環(huán)判斷是否是數(shù)據(jù)表中最后一條數(shù)據(jù),如果是,則退出循環(huán)。
4.3? 核心代碼解析
匹配URL地址數(shù)據(jù)用到Scrapy爬蟲,首先在爬蟲的方法里面獲取數(shù)據(jù)表中數(shù)據(jù),數(shù)據(jù)存入data,關(guān)鍵代碼為:
其中parse_detail為獲取數(shù)據(jù)源方法,獲取數(shù)據(jù)后,要與數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行匹配,如果匹配成功,再修改審核標(biāo)志,如果匹配不成功,則不修改審核標(biāo)志。
5? 運(yùn)行效果
通過網(wǎng)絡(luò)爬蟲技術(shù),將爬取的數(shù)據(jù)與數(shù)據(jù)表中登記的數(shù)據(jù)進(jìn)行對(duì)比,如果匹配成功,則修改數(shù)據(jù)表中審核字段為已審核,運(yùn)行效果如圖3所示。
在圖3中,可以看到審核標(biāo)志已經(jīng)修改為“已審核”,有效減少了科研成果管理人員的工作量,提升了高校的信息資源建設(shè)效率。
6? 結(jié)? 論
根據(jù)高??蒲谐晒芾砹鞒虒?duì)智慧科研管理平臺(tái)進(jìn)行了需求分析,設(shè)計(jì)了智慧科研管理平臺(tái)功能模塊,探索了網(wǎng)絡(luò)爬蟲技術(shù)在科研成果真實(shí)性驗(yàn)證中的應(yīng)用,實(shí)現(xiàn)了科研成果的自動(dòng)化審核,在規(guī)范科研成果管理的同時(shí),為智慧科研成果管理的自動(dòng)化、智能化建設(shè)提供了有力的支撐。
參考文獻(xiàn):
[1] 曾麗英.基于SSM框架的高??蒲泄芾硐到y(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].南昌:南昌航空大學(xué),2019.
[2] 李志剛.山大商院科研成果管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].大連:大連理工大學(xué),2018.
[3] 安素青.基于web的高等學(xué)??蒲泄芾硐到y(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [D].青島:青島大學(xué),2018.
[4] 余帆.云南財(cái)經(jīng)大學(xué)科研管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].濟(jì)南:山東大學(xué),2018.
[5] 嚴(yán)秋萍.高??蒲袆?chuàng)新服務(wù)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn) [D].長沙:湖南大學(xué),2018.
[6] 李宛澤.曲靖師范學(xué)院科研成果管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [D].濟(jì)南:山東大學(xué),2017.
[7] 張素珍,單振芳,白增山.基于網(wǎng)絡(luò)備份的科技成果管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].電腦知識(shí)與技術(shù),2017,13(27):62-63+88.
[8] 詹楊.高職院校教科研信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [J].襄陽職業(yè)技術(shù)學(xué)院學(xué)報(bào),2017,16(1):84-87.
[9] 廖清遠(yuǎn),楊小燕.基于多客戶端的高職院??蒲泄芾硐到y(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].電腦編程技巧與維護(hù),2016(24):66-67+75.
作者簡(jiǎn)介:唐紹華(1980.10—),男,漢族,湖南常寧人,教師,副教授,工程師,碩士,研究方向:職業(yè)技術(shù)教育、軟件架構(gòu)設(shè)計(jì)、企業(yè)信息化。