郭麗蓉
(山西警察學(xué)院,山西 太原 030021)
科研是高校的一項(xiàng)重要工作,科研搞好了,能促進(jìn)教學(xué)有活力,進(jìn)而培養(yǎng)好人才。隨著我院對科研工作的重視,科研工作量統(tǒng)計(jì)也越來越成為一項(xiàng)重要而繁瑣的工作。本文通過設(shè)計(jì)一套高校實(shí)用的科研工作量統(tǒng)計(jì)系統(tǒng)快速統(tǒng)計(jì)出我院科研工作量,提高了工作效率。作為科研工作者,獲取數(shù)據(jù)只是第一步,更重要的是通過對獲取的數(shù)據(jù)分析,從不同的角度挖掘出數(shù)據(jù)背后的價(jià)值,比如就科研成果的高產(chǎn)期、低迷期數(shù)據(jù)要分析是什么原因?qū)е碌模瑢Ω飨挡靠蒲泄ぷ髁拷y(tǒng)計(jì)分析得出科研高產(chǎn)部門、低產(chǎn)部門等,對后續(xù)學(xué)院相關(guān)決策政策等提供數(shù)據(jù)支持。
Python作為目前較流行的一門程序設(shè)計(jì)語言,應(yīng)用靈活且范圍廣,其在人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、搜索引擎等方面有廣泛的應(yīng)用。Python是由荷蘭人Guido van Rossum于1989年圣誕節(jié)期間開發(fā)的一個(gè)新的腳本解釋程序語言。Python的設(shè)計(jì)哲學(xué)是“優(yōu)雅”、“明確”、“簡單”。Python不僅擁有一個(gè)強(qiáng)大的標(biāo)準(zhǔn)庫,而且Python社區(qū)提供了大量的第三方模塊,擴(kuò)展其使用功能,可以說覆蓋了科學(xué)計(jì)算、Web開發(fā)、數(shù)據(jù)庫接口、圖形系統(tǒng)等多個(gè)領(lǐng)域[1]。
本文基于Python設(shè)計(jì)的科研工作量統(tǒng)計(jì)系統(tǒng)不僅實(shí)現(xiàn)了對數(shù)據(jù)的收集,而且實(shí)現(xiàn)了對數(shù)據(jù)的多維度分析。
根據(jù)系統(tǒng)實(shí)現(xiàn)的功能,系統(tǒng)模型設(shè)計(jì)如圖1所示。系統(tǒng)的主要界面是基于Python的第三方圖形開發(fā)界面庫Tkinter來實(shí)現(xiàn)的,系統(tǒng)主界面中提供其主要功能的進(jìn)入方式,使用方便,輸出快捷。
圖1 系統(tǒng)模型
數(shù)據(jù)主要來源為知網(wǎng)統(tǒng)計(jì)的關(guān)于我院從2000年-2018年發(fā)表的論文,數(shù)量上的統(tǒng)計(jì)如表1所示。
表1 2000年-2018年論文統(tǒng)計(jì)
論文題名、作者、來源、發(fā)表時(shí)間、被引、下載等詳細(xì)信息統(tǒng)計(jì)相對復(fù)雜,獲取的網(wǎng)頁數(shù)據(jù)需要使用Python進(jìn)行規(guī)范化整理。為了后續(xù)使用數(shù)據(jù)的方便,將論文相關(guān)信息以Excel文檔存放。以提取論文作者為例,部分代碼如下:
soup=BeautifulSoup(html,"lxml")
author_list=soup.find_all('td',class_='author_flag')
i=0
for author in author_list:
author=author.text.strip()
sheet1.write(i+1,1,author)
i+=1
在數(shù)據(jù)提取過程中,使用了Python的標(biāo)準(zhǔn)庫requests及第三方庫BeautifulSoup、 os、re、xlwt等。提取的關(guān)鍵是使用BeautifulSoup庫對網(wǎng)頁進(jìn)行解析,在解析過程中,需要有對網(wǎng)頁源代碼分析的能力,能夠準(zhǔn)確定位信息所在標(biāo)簽,正確調(diào)用庫的方法來獲取數(shù)據(jù)。獲取數(shù)據(jù)后還需對數(shù)據(jù)進(jìn)行清洗。數(shù)據(jù)清洗主要是對獲取到的數(shù)據(jù)中存在的缺失值或異常值進(jìn)行相應(yīng)的數(shù)據(jù)變換來將數(shù)據(jù)規(guī)范化。
在將論文題名、作者、來源、發(fā)表時(shí)間、被引、下載等詳細(xì)信息的數(shù)據(jù)整理后,還需與教工個(gè)人相關(guān)信息進(jìn)行關(guān)聯(lián),便于后期從多維度去分析數(shù)據(jù)。該系統(tǒng)目前從年度數(shù)據(jù)、系部數(shù)據(jù)、科研領(lǐng)域等方面分析數(shù)據(jù),來獲取數(shù)據(jù)形成的成因及數(shù)據(jù)背后的價(jià)值。
對收集到的數(shù)據(jù)從年度方面來分析的意義在于掌握科研工作的活躍期,研究促進(jìn)科研發(fā)展的因素,同時(shí)了解科研工作的低迷期,分析造成科研積極性不高的原因,進(jìn)而做出如何保證科研工作常態(tài)化的相關(guān)促進(jìn)決策。通過對我院2000-2018年的數(shù)據(jù)分析可以看出,2001-2002、2008-2009、2017-2018這三個(gè)時(shí)期是我院的科研活躍期,通過學(xué)院發(fā)展背景分析,我院于2000年升格為大專院校,學(xué)生素質(zhì)的提升對教師也提出了更高的要求,內(nèi)外綜合因素促使教師的科研的積極主動(dòng)性大力提升,因此2001-2002年屬于高產(chǎn)期。當(dāng)經(jīng)過一段時(shí)間的提升,教師自身認(rèn)為自己的水平已經(jīng)足以滿足目前的教學(xué)工作時(shí),科研產(chǎn)出會有相應(yīng)的回落。2010年左右剛好是一批教師職稱晉升的的關(guān)鍵時(shí)期,教師在自己的職業(yè)發(fā)展上準(zhǔn)備必要的支撐材料,所以2008-2009年又是一個(gè)活躍期。當(dāng)2016年我院升格為本科院校后,對教師提出了更高的要求,新的內(nèi)外環(huán)境下,教師為了滿足教學(xué)的需要及自身能力水平的提升,科研工作又進(jìn)入一個(gè)新的活躍期。
對收集到的數(shù)據(jù)從系部產(chǎn)出量方面分析,掌握重視科研工作的系部,了解這些系部積極從事科研工作的因素,對這些因素進(jìn)行分析,進(jìn)而帶動(dòng)其他系部從事科研工作的積極性。以2018年度為例,網(wǎng)安、治安、偵查、警戰(zhàn)等系部科研論文數(shù)量較多。盡管各個(gè)系部教師數(shù)量不等,會對數(shù)據(jù)有影響,但主要的原因是這些系部均屬于有本科專業(yè)的系部,在領(lǐng)導(dǎo)的重視下,科研教學(xué)的雙重引導(dǎo)下,教師積極從事科研工作。教師也有更大的收獲,在各自的專業(yè)上精益求精。
對收集到的數(shù)據(jù)從科研領(lǐng)域分析,關(guān)注教師從事的科研工作的重點(diǎn),是否契合時(shí)代要求,是否符合專業(yè)方向的發(fā)展。
對收集到的數(shù)據(jù)如果只從數(shù)據(jù)本身看,難以直觀觀察到數(shù)據(jù)發(fā)展趨勢或體現(xiàn)的狀態(tài)等,而圖形圖表能夠高效清晰地表達(dá)數(shù)據(jù)包含的信息,所以可以通過數(shù)據(jù)可視化為圖形圖表帶來更直觀的觀察數(shù)據(jù)[2]。該系統(tǒng)主要從年度數(shù)據(jù)、系部數(shù)據(jù)、科研領(lǐng)域等方面利用Python提供的數(shù)據(jù)分析和開發(fā)工具挖掘數(shù)據(jù)背后的信息。系統(tǒng)主要應(yīng)用Python豐富的第三方庫Matplotlib、Pandas、jieba等庫完成數(shù)據(jù)的可視化。
通過對年度數(shù)據(jù)可視化如圖2所示,可清晰看到2001年、2005年、2009年、2018年是數(shù)據(jù)論文的高發(fā)期,在數(shù)據(jù)分析模塊已經(jīng)做過分析,活躍期與學(xué)院發(fā)展過程中的機(jī)遇有關(guān)。在可視化過程中,一定要注意對圖表中漢字顯示需要填加相應(yīng)的代碼。功能實(shí)現(xiàn)部分代碼如下:
plt.bar(numbers[' 年份'], numbers[' 數(shù)量'])
plt.rcParams[' font.sans-serif'] = [' SimHei']
plt.xticks(numbers[' 年份'],rotation=45)
plt.yticks(y)
plt.title(u' 2000年-2018年論文統(tǒng)計(jì)')
plt.xlabel(u' 年 份')
plt.ylabel(u' 數(shù) 量')
圖2 年度統(tǒng)計(jì)圖
從系部數(shù)據(jù)角度可視化如圖3所示,各系的專業(yè)及對科研的重視導(dǎo)致科研產(chǎn)出也有所差別,可以明顯看到網(wǎng)安系的論文數(shù)量居首,結(jié)合實(shí)際調(diào)研,網(wǎng)安系重視學(xué)科建設(shè)規(guī)劃、專業(yè)發(fā)展,教學(xué)科研要求較高促使教師的科研積極性提高。此外,作為學(xué)院的老牌專業(yè)偵查、治安等多年的專業(yè)積淀,科研產(chǎn)出也較高。通過數(shù)據(jù)展示提供給各系部,希望能有效促進(jìn)教師的科研活力。功能實(shí)現(xiàn)部分代碼如下:
x=list(numbers[' 系部'])
y=list(numbers[' 數(shù)量'])
for a,b in zip(x,y):
plt.text(a,b,' %.0f' %b,ha='center',va='bottom',fontsize=20)
圖3 系部統(tǒng)計(jì)圖
從科研領(lǐng)域數(shù)據(jù)可視化如圖4所示,可以明確展示教師的研究重點(diǎn),系統(tǒng)主要通過導(dǎo)入WordCloud庫生成的指定詞云,并在不斷的優(yōu)化過程中去掉沒有實(shí)質(zhì)統(tǒng)計(jì)意義的關(guān)鍵詞[3]。
圖4 研究關(guān)鍵詞
本文設(shè)計(jì)的基于Python的科研論文統(tǒng)計(jì)分析平臺,能夠高效統(tǒng)計(jì)分析我院科研論文數(shù)據(jù),通過挖掘數(shù)據(jù)背后的價(jià)值為相關(guān)科研決策提供數(shù)據(jù)支持。