国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本挖掘的國(guó)外農(nóng)業(yè)科研項(xiàng)目研究熱點(diǎn)主題分析

2018-07-26 02:42:56聶秀萍謝能付郝心寧樊景超
關(guān)鍵詞:類團(tuán)科研項(xiàng)目資助

聶秀萍,謝能付,郝心寧,樊景超

(中國(guó)農(nóng)業(yè)科學(xué)院 農(nóng)業(yè)信息研究所,北京 100081)

一個(gè)國(guó)家科研資助機(jī)構(gòu)資助的科研項(xiàng)目是該國(guó)家科技研發(fā)工作的具體部署,體現(xiàn)了國(guó)家科技發(fā)展戰(zhàn)略和科學(xué)研究活動(dòng)的重點(diǎn)與方向[1-10]。對(duì)農(nóng)業(yè)科研項(xiàng)目已有較多研究人員做過類似分析,如靜發(fā)沖等[5]基于文本挖掘的美國(guó)NSF生物科學(xué)部新興前沿項(xiàng)目主題分析進(jìn)行了研究。岳增慧等[9]利用共詞分析方法,通過對(duì)醫(yī)學(xué)倫理學(xué)領(lǐng)域關(guān)鍵詞共現(xiàn)關(guān)系進(jìn)行了挖掘,以判斷學(xué)科領(lǐng)域中主題間的聯(lián)系,進(jìn)而展現(xiàn)該學(xué)科的知識(shí)結(jié)構(gòu),發(fā)現(xiàn)研究熱點(diǎn),探索演進(jìn)趨勢(shì)。張金隆等[10]通過對(duì)2000~2009年批準(zhǔn)的自科基金IS類項(xiàng)目的搜集整理和統(tǒng)計(jì)分析,從項(xiàng)目的研究主題、研究熱點(diǎn)和分析層次進(jìn)行分析,以此來反映10年來中國(guó)IS領(lǐng)域研究的學(xué)術(shù)態(tài)勢(shì),同時(shí)為IS研究工作者的選題及申請(qǐng)相關(guān)基金項(xiàng)目提供參考。

本文共收集和整理了美國(guó)、歐盟、日本、以色列、加拿大、澳大利亞6個(gè)國(guó)家近5年(2013~2017年)國(guó)家科研資助機(jī)構(gòu)資助的農(nóng)業(yè)科研項(xiàng)目共計(jì)有1744條信息,經(jīng)過處理得到有效數(shù)據(jù)1504條。通過對(duì)項(xiàng)目數(shù)據(jù)進(jìn)行分析,可以發(fā)現(xiàn)相關(guān)研究的主要課題[1],了解相關(guān)領(lǐng)域的發(fā)展趨勢(shì)[2],已有研究主要通過傳統(tǒng)的文本分析方法對(duì)項(xiàng)目?jī)?nèi)容進(jìn)行歸納,缺少系統(tǒng)化的輔助手段以概覽項(xiàng)目的熱點(diǎn)主題。利用文本挖掘、文獻(xiàn)計(jì)量等方法,對(duì)項(xiàng)目進(jìn)行文本聚類,進(jìn)而歸納出熱點(diǎn)項(xiàng)目主題[3-4],并基于分析出的項(xiàng)目主題來分析項(xiàng)目?jī)?nèi)容,將美國(guó)、歐盟、日本、以色列、加拿大、澳大利亞6個(gè)國(guó)家5年(2013~2017年)國(guó)家科研資助機(jī)構(gòu)資助的農(nóng)業(yè)科研項(xiàng)目的研究主題及其特點(diǎn)充分展示出來,揭示農(nóng)業(yè)科學(xué)發(fā)展的方向和重點(diǎn),前瞻識(shí)別重要學(xué)科領(lǐng)域和重要學(xué)科問題,為優(yōu)化我國(guó)農(nóng)業(yè)科研資源配置、制定我國(guó)農(nóng)業(yè)科研發(fā)展戰(zhàn)略等提供借鑒。

1 數(shù)據(jù)來源與分析方法

1.1 數(shù)據(jù)來源和采集方法

本研究從國(guó)外對(duì)應(yīng)國(guó)家相應(yīng)的網(wǎng)站以及互聯(lián)網(wǎng)收集和整理了美國(guó)、歐盟、日本、以色列、加拿大、澳大利亞6個(gè)國(guó)家近5年(2013~2017年)國(guó)家科研資助機(jī)構(gòu)資助投資項(xiàng)目。針對(duì)每個(gè)國(guó)家,從本國(guó)相關(guān)項(xiàng)目信息網(wǎng)站以及互聯(lián)網(wǎng)進(jìn)行收集,共采集到1744條項(xiàng)目信息,經(jīng)過人工處理得到有效數(shù)據(jù)1504條。

1.2 分析方法

項(xiàng)目數(shù)據(jù)包含多個(gè)字段,每一項(xiàng)都反映出項(xiàng)目不同的信息,主要包括項(xiàng)目名稱、項(xiàng)目執(zhí)行時(shí)間、項(xiàng)目承擔(dān)國(guó)家以及項(xiàng)目摘要等重要信息。項(xiàng)目摘要包含項(xiàng)目的核心內(nèi)容。本研究將項(xiàng)目摘要作為主題分析的主要對(duì)象。對(duì)無摘要的數(shù)據(jù)進(jìn)行剔除處理,最后得到了1504條有效數(shù)據(jù)。在此基礎(chǔ)上,采用文獻(xiàn)分析方法,對(duì)國(guó)外國(guó)立科研項(xiàng)目研究主題進(jìn)行分析。通過文本挖掘,實(shí)現(xiàn)對(duì)項(xiàng)目主題的類別和類團(tuán)分析,并可進(jìn)一步對(duì)項(xiàng)目主題進(jìn)行分析。

將文獻(xiàn)中所有的關(guān)鍵詞聚為一個(gè)個(gè)的關(guān)鍵詞類團(tuán)后,如果能夠用可視化的界面將聚類結(jié)果展示給用戶,就更能夠讓人對(duì)該領(lǐng)域的研究知識(shí)結(jié)構(gòu)有一個(gè)直觀的、宏觀的把握[5]。同時(shí),如果能夠獲得每類關(guān)鍵詞的密度視圖,那么就能夠清晰地了解到該領(lǐng)域研究具體集中的地方。荷蘭萊頓大學(xué)開發(fā)的針對(duì)文獻(xiàn)知識(shí)進(jìn)行分析的可視化工具VOSviewer,就是利用從文獻(xiàn)數(shù)據(jù)中抽取和構(gòu)建的共現(xiàn)矩陣來生成知識(shí)圖譜的。一個(gè)完整的基于VOSviewer關(guān)鍵詞共現(xiàn)關(guān)系分析的步驟一般有:關(guān)鍵詞預(yù)處理、高頻詞的選定、構(gòu)建共詞相似矩陣、VOSviewer構(gòu)建圖譜[11],具體如圖1所示。

圖1 基于VOSviewer關(guān)鍵詞共現(xiàn)關(guān)系分析的步驟圖

1.2.1 關(guān)鍵詞預(yù)處理 為了使挖掘結(jié)果更加具有準(zhǔn)確性,必須對(duì)項(xiàng)目標(biāo)題和項(xiàng)目?jī)?nèi)容進(jìn)行關(guān)鍵詞抽取,包括停用詞去標(biāo)點(diǎn)、數(shù)字以及詞性過濾等,為下一步的挖掘提供結(jié)構(gòu)化的規(guī)范數(shù)據(jù)[3]。

1.2.2 高頻詞的選定 共詞分析的主要對(duì)象是具有高頻率的關(guān)鍵詞,高頻詞的選定對(duì)關(guān)鍵詞的聚類有巨大影響。高頻詞的選定一般基于兩方面原則:所選取的高頻詞數(shù)量不能太少、不能太多。太少會(huì)導(dǎo)致必要信息的丟失,太多會(huì)使聚類分析過程變得很復(fù)雜。另外,所選取的高頻詞應(yīng)該能夠覆蓋所有主題要表達(dá)的信息[4]。在本文中,高頻詞的選定依據(jù)聚類標(biāo)簽圖點(diǎn)的顏色大小和顏色深淺決定。

1.2.3 構(gòu)建關(guān)鍵詞共現(xiàn)關(guān)系矩陣 關(guān)鍵詞共現(xiàn)矩陣的構(gòu)建是進(jìn)行聚類分析的基礎(chǔ)。統(tǒng)計(jì)同一關(guān)鍵詞在任何2篇文獻(xiàn)中出現(xiàn)的次數(shù),n個(gè)關(guān)鍵詞可以構(gòu)建n×n個(gè)共現(xiàn)矩陣,定義相似矩陣為S(5),S=(sij),其中sij≥0并且sij=sji,i,j∈{1,…,n}。采用VOS中關(guān)聯(lián)強(qiáng)度表示兩個(gè)個(gè)體之間的關(guān)系,讓高相似度個(gè)體之間的距離小,而相似度小的個(gè)體之間的距離更大。VOS中個(gè)體與個(gè)體之間的相似程度可以用如下的公式表示:

其中,sij表示個(gè)體i和個(gè)體j之間的相似度,cij表示個(gè)體i和個(gè)體j共同出現(xiàn)的總次數(shù),wi和wj分別表示個(gè)體i和個(gè)體j各自出現(xiàn)的次數(shù)。用上述公式表示兩個(gè)個(gè)體之間的相似度,Van Eck等[6]在2009年的一篇文章中專門探討了這一算法相對(duì)于其他的相似距離方法,如計(jì)算余弦相似度和Jaccard系數(shù)度量相似度的優(yōu)勢(shì)。

1.2.4 關(guān)鍵詞聚類分析 根據(jù)上述構(gòu)建相似矩陣的方法得到關(guān)鍵詞的共現(xiàn)相似矩陣,導(dǎo)入軟件VOSviewer,通過關(guān)鍵詞聚類操作得到具體聚類的結(jié)果,同時(shí)生成相應(yīng)的聚類標(biāo)簽圖譜、密度視圖、聚類密度視圖。指標(biāo)值越大表明類團(tuán)內(nèi)摘要相似度越高,主題越緊密。通過各類計(jì)算類團(tuán)的相似度,相似度越高的類團(tuán),其主題的共同點(diǎn)越多。考察各類中詞的分布,文檔頻次較高且詞頻較高的詞,可以反映類團(tuán)內(nèi)摘要內(nèi)容的共同特征,選取這些詞進(jìn)行類團(tuán)的主題進(jìn)行描述,并建立主題網(wǎng)絡(luò)。通過文本挖掘,實(shí)現(xiàn)了對(duì)項(xiàng)目摘要的自動(dòng)分類和主題概覽,以此為基礎(chǔ),對(duì)新興前沿項(xiàng)目主題作進(jìn)一步分析。

2 結(jié)果與分析

2.1 文本聚類結(jié)果分析

文本聚類是將若干文檔數(shù)據(jù)以某種方式把文檔進(jìn)行分類的過程,使得同一類文檔中包含的文檔間的相似度盡可能大,不同類之間文檔中的相似度盡可能小。對(duì)各個(gè)不同類團(tuán)的文本進(jìn)行挖掘,關(guān)鍵詞聚類標(biāo)簽的圖譜如圖2所示[12]。

圖2 關(guān)鍵詞聚類圖

研究使用VOSviewer軟件對(duì)文檔進(jìn)行聚類,圖中使用一個(gè)圓圈和標(biāo)簽可以表示一個(gè)元素,圓圈和字體的大小代表了重要性的高低,每一種顏色代表了一種類別。從圖2中可以很直觀地看到2013~2017年各國(guó)科研資助機(jī)構(gòu)資助的農(nóng)業(yè)科研項(xiàng)目中產(chǎn)量、作物、抵抗力、作物系統(tǒng)以及能源等比較突出的字體,這些都是很重要的標(biāo)簽并且都分在了各類當(dāng)中[13]。對(duì)類的邊緣數(shù)據(jù)進(jìn)行處理,并選擇具有明顯主題特征的關(guān)鍵詞作為描述詞,得出最后的研究主題及對(duì)應(yīng)的關(guān)鍵詞類團(tuán)表格,如表1所示。項(xiàng)目中的關(guān)鍵詞體現(xiàn)的不僅僅是一個(gè)項(xiàng)目的研究主題,還會(huì)將項(xiàng)目中需要用到的一些相關(guān)領(lǐng)域的知識(shí)和技術(shù)表現(xiàn)出來。

研究中使用VOSviewer軟件對(duì)文檔進(jìn)行聚類,經(jīng)過優(yōu)化最終根據(jù)所有的關(guān)鍵詞分布更加均勻的原則,最終確定為10個(gè)類別。第一類為科學(xué)監(jiān)測(cè):包含了21個(gè)關(guān)鍵詞,再去除與主題無關(guān)的關(guān)鍵詞還剩14個(gè)關(guān)鍵詞,包括氣候智能決策、氣候變化、生態(tài)位置描述、實(shí)例、實(shí)驗(yàn)數(shù)據(jù)、方法、監(jiān)測(cè)、國(guó)家數(shù)據(jù)庫、自然資源管理、預(yù)測(cè)、牧場(chǎng)生產(chǎn)、特定區(qū)域的信息;第二類有20個(gè)關(guān)鍵詞,去除邊緣關(guān)鍵詞后有16個(gè)關(guān)鍵詞,具體信息見表1。

2.2 各類的重點(diǎn)研究領(lǐng)域

由關(guān)鍵詞聚類圖可以得到2013~2017年各國(guó)科研資助機(jī)構(gòu)資助的農(nóng)業(yè)科研項(xiàng)目各類內(nèi)容的側(cè)重研究領(lǐng)域。在同一類中,圓圈越大則表明對(duì)應(yīng)的詞匯代表的主題詞在類中更具有代表性,下面具體分析各類中主要的研究點(diǎn)。

(1)由類之間的分布可知在圖2中粉色代表類1,在類1中包含了以下主題詞:Agriculture producer、climate smart decision making、climatic variability、create、design、ecological site description、example、experimental data、ltar、methodology、monitoring、national database、natural resource manager、network、order、prediction、rangeland production、region specific information、restoration、southwestern us、western us等,最后譯為中文為:農(nóng)業(yè)生產(chǎn)者、氣候智能決策、氣候變化、創(chuàng)造、設(shè)計(jì)、生態(tài)位置描述、實(shí)例、實(shí)驗(yàn)數(shù)據(jù)、方法、監(jiān)測(cè)、國(guó)家數(shù)據(jù)庫、自然資源管理、網(wǎng)絡(luò)、秩序、預(yù)測(cè)、牧場(chǎng)生產(chǎn)、特定區(qū)域的信息、復(fù)原、美國(guó)西南部、美國(guó)西部。去除一些不能表示主題的詞匯,代表類1的主題詞包括:農(nóng)業(yè)生產(chǎn)者、氣候智能決策、氣候變化、生態(tài)位置描述、實(shí)例、實(shí)驗(yàn)數(shù)據(jù)、方法、監(jiān)測(cè)、國(guó)家數(shù)據(jù)庫、自然資源管理、秩序、預(yù)測(cè)、牧場(chǎng)生產(chǎn)、特定區(qū)域的信息。在類1中說明側(cè)重研究的熱點(diǎn)主題信息是科學(xué)監(jiān)測(cè),表示如何通過適當(dāng)?shù)谋O(jiān)測(cè)技術(shù)和方法來提高農(nóng)作物的產(chǎn)量[14-15]。

圖3 關(guān)鍵詞聚類密度圖

(2)由類間的分布可知在圖2中綠色代表類2,在類2中包含了以下主題詞:agricultural、animal manure、benefit、conservation effects assessment project、crop production system、crop rotation、efficient management、environmental quality、environmental sustainability、farm、farmer、long term、performance、profitability、protect human health、quality、soil health、soil quality、use、year等,最后譯為中文為:農(nóng)業(yè)生產(chǎn)者、氣候智能決策、氣候變化、創(chuàng)造、設(shè)計(jì)、生態(tài)位置描述、實(shí)例、實(shí)驗(yàn)數(shù)據(jù)、方法、監(jiān)測(cè)、國(guó)家數(shù)據(jù)庫、自然資源管理、網(wǎng)絡(luò)、秩序、預(yù)測(cè)、牧場(chǎng)生產(chǎn)、特定區(qū)域的信息、復(fù)原、美國(guó)西南部、美國(guó)西部。去除一些不能表示主題的詞匯,代表類2的主題詞包括:農(nóng)業(yè)、畜牧業(yè)、效益、保護(hù)效應(yīng)影響評(píng)估項(xiàng)目、作物生產(chǎn)系統(tǒng)、作物輪種、高效管理、環(huán)境質(zhì)量、環(huán)境可持續(xù)性、農(nóng)場(chǎng)、收益性、保護(hù)人體健康、質(zhì)量、土壤健康、土壤質(zhì)量、功能等詞匯,但綠色圓圈最顯著的有質(zhì)量、性能等詞匯,說明類2的主要研究側(cè)重點(diǎn)在提高農(nóng)作物的產(chǎn)量和提高機(jī)器的性能等方面。

同理可知類3中,主要研究側(cè)重點(diǎn)在能源、農(nóng)業(yè)生態(tài)系統(tǒng)等方面;類4的主要研究側(cè)重點(diǎn)是抵抗力、疾病、水的質(zhì)量等方面,即通過一定的措施提升農(nóng)作物對(duì)于病蟲害的抵抗力;類5的主要研究側(cè)重點(diǎn)是抵抗力、疾病、水的質(zhì)量等方面,即通過一定的措施提升農(nóng)作物對(duì)于病蟲害的抵抗力;類6的主要研究側(cè)重點(diǎn)是農(nóng)作物、產(chǎn)量、小麥、玉米等方面,即研究影響農(nóng)作物產(chǎn)量的因素。

2.3 密度視圖

VOSviewer除了可以生成可視化的關(guān)鍵詞聚類知識(shí)圖譜外,還可以生成根據(jù)關(guān)鍵詞聚類的類團(tuán)所生成的密度視圖。其中圖譜默認(rèn)缺省顏色為紅、藍(lán)2個(gè)顏色,其中,節(jié)點(diǎn)在領(lǐng)域中的數(shù)量越大,顏色就會(huì)越接近于紅色;同樣,在領(lǐng)域中的數(shù)量越少,權(quán)重越小,顏色越接近于藍(lán)色。圖3就是根據(jù)關(guān)鍵詞聚類后的密度視圖,從圖中可以直觀地看出2013~2017年各國(guó)科研資助機(jī)構(gòu)資助的農(nóng)業(yè)科研項(xiàng)目中紅色區(qū)域有產(chǎn)量系統(tǒng)、作物質(zhì)量改善、作物抵抗力等關(guān)鍵詞,說明這些內(nèi)容是農(nóng)業(yè)科研項(xiàng)目中的熱點(diǎn)研究領(lǐng)域。對(duì)于作物的產(chǎn)量、產(chǎn)量系統(tǒng)、質(zhì)量改善、抵抗力等內(nèi)容是研究的熱點(diǎn)[16]。

3 結(jié)語

利用文獻(xiàn)計(jì)量方法、數(shù)據(jù)挖掘和信息分析技術(shù),對(duì)國(guó)外科研項(xiàng)目的投資主題進(jìn)行定性分析,可以揭示國(guó)外投資的農(nóng)業(yè)研究主題。這些主題可以在一定程度上反映國(guó)外重點(diǎn)投資的農(nóng)業(yè)學(xué)科和研究方向,顯示可能的農(nóng)業(yè)領(lǐng)域研究熱點(diǎn),為優(yōu)化我國(guó)農(nóng)業(yè)科研資源配置、制定我國(guó)農(nóng)業(yè)科研發(fā)展戰(zhàn)略等提供借鑒。

采用詞頻統(tǒng)計(jì)和關(guān)鍵詞共現(xiàn)的關(guān)鍵詞聚類方法對(duì)熱門研究主題進(jìn)行發(fā)掘,通過VOSviewer軟件可視化找到學(xué)科領(lǐng)域的熱門主題具有很好的效果,在很大程度上可以幫助研究人員更直觀、準(zhǔn)確地選擇自己的研究課題。由VOSviewer畫出的關(guān)鍵詞標(biāo)簽視圖可以根據(jù)圓圈的大小很清晰地識(shí)別出2013~2017年各國(guó)科研資助機(jī)構(gòu)資助的農(nóng)業(yè)科研項(xiàng)目聚類后所得到的分類各自的研究熱點(diǎn)研究領(lǐng)域。

猜你喜歡
類團(tuán)科研項(xiàng)目資助
基于PubMed數(shù)據(jù)庫病人報(bào)告結(jié)局研究熱點(diǎn)的共詞聚類分析
我校橫向科研項(xiàng)目再創(chuàng)佳績(jī)
高校資助育人成效的提升路徑分析
大學(xué)(2021年2期)2021-06-11 01:13:28
“隱形資助”低調(diào)又暖心
航天科研項(xiàng)目評(píng)審工作的思考與探索實(shí)踐
申請(qǐng)科研項(xiàng)目,不應(yīng)以職稱論高下
公民與法治(2016年4期)2016-05-17 04:09:24
美國(guó)防部資助研發(fā)能垂直起降的無人機(jī)
論科研項(xiàng)目檔案管理
西藏科技(2015年12期)2015-09-26 12:13:40
2600多名貧困學(xué)生得到資助
基于共詞分析和可視化的我國(guó)神經(jīng)病學(xué)領(lǐng)域熱點(diǎn)監(jiān)測(cè)
淅川县| 黄龙县| 淮北市| 福建省| 金塔县| 留坝县| 遂川县| 青龙| 铅山县| 莫力| 安徽省| 垫江县| 江孜县| 五台县| 诏安县| 九江市| 老河口市| 若尔盖县| 彰化县| 齐齐哈尔市| 顺昌县| 铜山县| 凌海市| 昌江| 波密县| 开封市| 乐清市| 双城市| 通辽市| 衡阳县| 浮山县| 铜梁县| 固阳县| 昌宁县| 新沂市| 兴文县| 离岛区| 承德市| 木里| 剑阁县| 九江市|