黃曉林 王輝 黃卉 蔣欣宏
[摘要] 科技報告是與科研項目緊密相關(guān)的特種文獻?;诳萍紙蟾鏀?shù)據(jù),采用文獻計量學(xué)和復(fù)雜網(wǎng)絡(luò)的方法,對湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域的研發(fā)現(xiàn)狀進行了分析。研究發(fā)現(xiàn),湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域研發(fā)目前側(cè)重在種植業(yè)、現(xiàn)代種業(yè)和農(nóng)技推廣應(yīng)用等方向;各研究熱點間聯(lián)系較多,也較緊密;不同主要研究熱點所屬的研究主題不同,研究的內(nèi)容也有所區(qū)分。
[關(guān)鍵詞]湖南;現(xiàn)代農(nóng)業(yè);研發(fā)現(xiàn)狀;科技報告
[中圖分類號]F327;G358[文獻標識碼]A
1? ? 引言
當前,我國正由傳統(tǒng)農(nóng)業(yè)向現(xiàn)代農(nóng)業(yè)轉(zhuǎn)型,已進入發(fā)展現(xiàn)代農(nóng)業(yè),加快構(gòu)建新型農(nóng)業(yè)經(jīng)營體系,深入推進農(nóng)業(yè)發(fā)展方式轉(zhuǎn)變,建設(shè)社會主義新農(nóng)村的關(guān)鍵時期。農(nóng)業(yè)科技創(chuàng)新是推進農(nóng)業(yè)現(xiàn)代化的重要動力。我國農(nóng)業(yè)科技進步貢獻率已達到57.5%,但仍與發(fā)達國家有較大差距。湖南省作為農(nóng)業(yè)大省,總體R&D投入占GDP比重偏弱,2016年僅為1.5%。因此了解區(qū)域農(nóng)業(yè)領(lǐng)域的研發(fā)現(xiàn)狀,對做好農(nóng)業(yè)產(chǎn)業(yè)規(guī)劃布局,合理分配有限的農(nóng)業(yè)領(lǐng)域研發(fā)資金,最終促進區(qū)域農(nóng)業(yè)的健康發(fā)展,具有重要意義。
科技報告是科技人員為了描述其從事的科研、設(shè)計、工程、試驗和鑒定等活動的過程、進展和結(jié)果,按照規(guī)定的標準格式編寫而成的特種文獻。在我國,科技報告由國家和各級政府采取一定的行政手段強制形成,是國家和地區(qū)的重要戰(zhàn)略資源。由于科技報告與科技項目關(guān)系的特殊性,科技報告不僅記錄了科技項目的基本信息,它同時還有對科技項目科學(xué)研究和技術(shù)實施內(nèi)容的完整描述。我國于2014年建立國家科技報告共享服務(wù)系統(tǒng),目前已收錄各類科技計劃項目提交的科技報告10萬余份。湖南省于2015年啟動科技報告工作,截止2018年4月,湖南省科技報告共享服務(wù)系統(tǒng)已收錄科技報告1377份。
2? ? 數(shù)據(jù)來源及分析方法
本研究數(shù)據(jù)來源于“湖南科技報告共享服務(wù)系統(tǒng)”(http://www.hnstrs.cn/)。在科技報告技術(shù)領(lǐng)域中,以“農(nóng)業(yè)”為主題詞進行檢索,得到的結(jié)果有“農(nóng)業(yè)-種植”、“農(nóng)業(yè)-養(yǎng)殖”和“農(nóng)業(yè)-農(nóng)產(chǎn)品加工”等技術(shù)領(lǐng)域分類,為了提高檢索結(jié)果覆蓋的準確性,對“資源與環(huán)境”,“生物與醫(yī)藥-中藥”等領(lǐng)域分類下與農(nóng)業(yè)領(lǐng)域存在交叉的科技報告進行人工篩選。對選中的科技報告信息進行采集,采集的字段包括科技報告題名、關(guān)鍵詞和立項年度等信息。為更準確的體現(xiàn)湖南省農(nóng)業(yè)領(lǐng)域的研發(fā)現(xiàn)狀,本研究只采集了2013年(含)以后立項相關(guān)科技項目產(chǎn)生的科技報告。截止2018年4月,湖南科技報告共享服務(wù)系統(tǒng)共收錄2013年(含)以來立項科技項目產(chǎn)生的農(nóng)業(yè)領(lǐng)域相關(guān)科技報告248份。
為提高分析的準確性,本文將每份科技報告的題名和關(guān)鍵詞分別合并為一條信息,并且進行切分詞處理,刪除虛詞,并且人工剔除研究(research)、關(guān)鍵(key)、方法(method)和進展(development)等一些在題名中普遍存且干擾分析的詞匯,從而形成包含248條熱點詞信息的文本語料庫。本文語言處理及分析采用python語言及gensim工具包實現(xiàn)。詞頻統(tǒng)計采用bibexcel軟件實現(xiàn)。
復(fù)雜網(wǎng)絡(luò)在現(xiàn)實社會中廣泛存在,節(jié)點和邊是復(fù)雜網(wǎng)絡(luò)中的基本要素,在復(fù)雜網(wǎng)絡(luò)中,個體或事物即為節(jié)點,節(jié)點之間存在的關(guān)系(關(guān)聯(lián))即為邊。兩個不同熱點詞在同一篇文獻中出現(xiàn),即表示熱點詞存在一條邊,稱之為詞共現(xiàn)?;诖?,不同的熱點詞在一定的文獻樣本中可形成廣泛的聯(lián)結(jié),即基于詞共現(xiàn)的復(fù)雜網(wǎng)絡(luò)。通過對復(fù)雜網(wǎng)絡(luò)的可視化,可以發(fā)現(xiàn)網(wǎng)絡(luò)中的研究熱點。本文復(fù)雜網(wǎng)絡(luò)計算及可視化采用Gephi 0.9.2軟件實現(xiàn)。
圍繞某個或某幾個研究熱點往往會形成特定的研究主題,但在復(fù)雜網(wǎng)絡(luò)中由于節(jié)點之間邊關(guān)系復(fù)雜,不一定形成明顯的社團結(jié)構(gòu),不同主題之間往往難以區(qū)分。為挖掘出隱藏在復(fù)雜網(wǎng)絡(luò)中的研究主題及其網(wǎng)絡(luò),本文采用python語言環(huán)境下自然語言處理工具模塊word2vec實現(xiàn)。Word2vec通過神經(jīng)網(wǎng)絡(luò)的方法進行學(xué)習(xí),其中的連續(xù)詞袋(Continuous Bag-of-Words,CBOW)模型,在輸入某一個特定詞的上下文相關(guān)的詞對應(yīng)的多維詞向量后,經(jīng)過模型訓(xùn)練,可以輸出這一個特定詞的詞向量。從而計算不同詞向量與特定詞向量的余弦相似度(余弦距離),最后可輸出經(jīng)過歸一化處理的余弦距離最近的相關(guān)詞匯。Word2vec工具中CBOW模型原理如圖1,具體的實現(xiàn)模型及算法參見Mikolov的相關(guān)論文,這里不再贅述。
3? ? 湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域研發(fā)現(xiàn)狀分析
3.1? ? 高頻詞分析
對詞頻進行計量統(tǒng)計,排名前20的熱點詞如表1所示。從表1中可以發(fā)現(xiàn)湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域,種植業(yè)的栽培(cultivation)方向,在分析的248份報告中,有53份與栽培有關(guān),占比超過20%,這與湖南省農(nóng)業(yè)以種植業(yè)為主的產(chǎn)業(yè)結(jié)構(gòu)相符。其次,對新產(chǎn)品、工具、方法、技術(shù)的應(yīng)用(application),也受到廣大科研工作者的重視,這表明湖南省的農(nóng)業(yè)研究仍然以應(yīng)用研究為主。此外,育種(breeding)也是湖南省現(xiàn)代農(nóng)業(yè)關(guān)注的重要方向,這表明新品種研發(fā)是湖南省現(xiàn)代農(nóng)業(yè)發(fā)展的重要發(fā)力點,這與《湖南省“十三五”科技創(chuàng)新規(guī)劃》中將現(xiàn)代種業(yè)列為10大領(lǐng)域產(chǎn)業(yè)技術(shù)創(chuàng)新鏈之一的情況一致。除此之外,水稻(rice)、產(chǎn)業(yè)化(industrialization)、品種(variety)、系統(tǒng)(system)、品質(zhì)(quality)、資源(resoures)和有機的(organic)也是湖南省現(xiàn)代農(nóng)業(yè)的研發(fā)熱點詞,這其中既有湖南省傳統(tǒng)的研究熱點,也體現(xiàn)了近年來一些研究方向正成為新的研究熱點。
3.2? ? 熱點共現(xiàn)關(guān)系分析
為了更好的研究不同熱點之間的關(guān)系,我們以熱點詞為節(jié)點,其在科技報告中的共現(xiàn)關(guān)系為邊,進行復(fù)雜網(wǎng)絡(luò)分析。將從科技報告題名和關(guān)鍵詞中經(jīng)過分詞處理的單詞,詞頻3次以上,利用gephi軟件進行共現(xiàn)可視化作圖,保留共現(xiàn)3次以上的邊關(guān)系,其結(jié)果如圖2所示。由圖2可知,湖南省農(nóng)業(yè)領(lǐng)域研究熱點為栽培(cultivation)、水稻(rice)、育種(breeding)、應(yīng)用(application)和系統(tǒng)(system)等,這與表1的結(jié)果也一致。其中以栽培和應(yīng)用的關(guān)注度最高,與其它研究熱點的聯(lián)系也最多。但是由于所分析的科技報告都同屬于現(xiàn)代農(nóng)業(yè)領(lǐng)域的緣故,各節(jié)點之間關(guān)系較為緊密,僅系統(tǒng)(system)節(jié)點為核心的子網(wǎng)絡(luò)與其他節(jié)點的聯(lián)系相對較少,各節(jié)點未形成明顯的子網(wǎng)絡(luò)。
3.3? ? 核心熱點及其主題分析
雖然整個領(lǐng)域的熱點聯(lián)系整體較緊密,但是不同熱點之間的聯(lián)系緊密程度卻不一。結(jié)合表1和圖2,根據(jù)熱點詞的分布情況,選取部分頻次較高、邊關(guān)系較多的研究熱點為核心熱點詞,利用Word2Vec工具,計算核心熱點與其他所有熱點的余弦相似度(cosθ),對與之相關(guān)的研究主題進行了分析。Word2Vec模型參數(shù)如下:最小丟棄詞頻min_count=3,學(xué)習(xí)速率alpha=0.05,高頻詞匯隨機采樣配置閾值sample=0.0015,訓(xùn)練算法sg=0(C-Bow算法),迭代次數(shù)iter=30。選取余弦相似度最高的10個詞,部分結(jié)果如表2所示。
由表2可知,不同核心熱點詞形成的研究主題,其研究內(nèi)容是有所區(qū)分的。例如在栽培(cultivation)為核心的主題中,主要關(guān)注新技術(shù)、新品種和新裝備等的采用(introduction)、示范(demonstration)以及生產(chǎn)效率(efficient)的提高。以水稻(rice)為核心的研究主題則主要關(guān)注雜交水稻尤其是超級雜交稻(super hybrid rice)以及作物抗性(resistance)和適應(yīng)性(adaptability)。以育種(breeding)為核心的主題中,則可以看出研究者主要采用聯(lián)合(combination)育種、分子(molecular)育種、雜交(hybrid)育種等育種方法,育種方向主要在提升(promotion)品種的適應(yīng)性(adaptability)、產(chǎn)量(yield)和抗性(resistance)等。而以系統(tǒng)(system)為核心的研究主題,則明顯與信息(information)、服務(wù)(service)、智能(intelligent)、云(cloud)、在線(online)等熱點詞關(guān)系緊密,這表明借助新一代信息技術(shù)發(fā)展現(xiàn)代農(nóng)業(yè),已成為農(nóng)業(yè)信息化的必然趨勢。
4? ? 結(jié)論與建議
本文基于湖南省科技報告數(shù)據(jù),采用文獻計量、復(fù)雜網(wǎng)絡(luò)和模型分析等情報學(xué)手段和方法,分析了湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域的研發(fā)現(xiàn)狀。結(jié)果表明,湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域研發(fā)側(cè)重在種植業(yè)、現(xiàn)代種業(yè)和農(nóng)技推廣應(yīng)用等方向;農(nóng)業(yè)產(chǎn)業(yè)化、農(nóng)業(yè)信息化等正成為研究的新熱點;各研究熱點間聯(lián)系較多,也較緊密,除信息農(nóng)業(yè)外,未有形成較獨立的研究子網(wǎng)絡(luò)。不同主要研究熱點所屬的研究主題不同,研究的內(nèi)容也有所區(qū)分。
根據(jù)研究結(jié)果,本文對湖南省現(xiàn)代農(nóng)業(yè)領(lǐng)域研發(fā)提出如下建議:(1)立足省情,扎實做好種植業(yè)研發(fā)投入和農(nóng)技推廣。結(jié)合湖南省以種植業(yè)為主的農(nóng)業(yè)結(jié)構(gòu)和科技水平較低的現(xiàn)狀,做好作物新品種、先進農(nóng)業(yè)裝備和生產(chǎn)新技術(shù)的推廣示范工作,促進農(nóng)業(yè)科技成果轉(zhuǎn)移轉(zhuǎn)化,提高農(nóng)業(yè)科技進步貢獻率。(2)大力發(fā)展現(xiàn)代種業(yè)。依托《湖南省“十三五”科技創(chuàng)新規(guī)劃》強有力的政策支撐和袁隆平院士、官春云院士等育種團隊的雄厚科研實力,發(fā)揮優(yōu)勢,培育高產(chǎn)、高效和優(yōu)質(zhì)的作物和畜禽水產(chǎn)新品種,做大做強湖南現(xiàn)代種業(yè)。(3)重視農(nóng)業(yè)產(chǎn)業(yè)化、農(nóng)業(yè)信息化和生態(tài)農(nóng)業(yè)等新興熱點的發(fā)展。要注重產(chǎn)學(xué)研結(jié)合,科技成果必須服務(wù)于產(chǎn)業(yè),才能產(chǎn)生直接的經(jīng)濟效益。注重農(nóng)業(yè)生產(chǎn)的產(chǎn)業(yè)化、標準化,并積極融合互聯(lián)網(wǎng)+和物聯(lián)網(wǎng)等新一代的信息技術(shù),以提高生產(chǎn)效率。同時還要將生態(tài)環(huán)保的綠色發(fā)展理念植入到現(xiàn)代農(nóng)業(yè)的研發(fā)工作中,使新的農(nóng)業(yè)科研成果對資源節(jié)約型社會、環(huán)境友好型社會的建設(shè)起到積極的推動作用。
[參考文獻]
[1] 常理.農(nóng)業(yè)不平衡不充分問題將有效解決[N].經(jīng)濟日報,2018-06-01(007).
[2] 金麗華,張學(xué)友,錢選詩,等.我國農(nóng)業(yè)科技的發(fā)展及其對農(nóng)業(yè)生產(chǎn)的貢獻率[J]. 長江大學(xué)學(xué)報(自科版),2006,3(1):206-208.
[3] 湖南省科技廳. 湖南科技年鑒(2017卷)[M]. 長沙:湖南科學(xué)技術(shù)出版社,2018.
[4] 賀德方. 中國科技報告制度的建設(shè)方略[J]. 情報學(xué)報,2013,32(5):452-458.
[5] Mikolov, T., Yih, W., Zweig, G. Linguistic regularities in continuous space word representations[J]. NAACL HLT,2013:746-751.
[6] Mikolov, T., Chen, K., Corrado, G., Dean, J.. Efficient estimation of word representations in vector space[J]. Computer Science,2013:1-12.