劉自強(qiáng) 岳麗欣
關(guān)鍵詞: 基金項(xiàng)目; 科學(xué)產(chǎn)出; 主題識(shí)別; 評(píng)估模型; 預(yù)測(cè)模型; 美國(guó)國(guó)家科學(xué)基金; 可視化
DOI:10.3969 / j.issn.1008-0821.2024.07.012
〔中圖分類號(hào)〕G250.252 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 07-0135-12
目前, 世界各國(guó)(地區(qū))十分重視科技創(chuàng)新, 科技創(chuàng)新是國(guó)家推動(dòng)經(jīng)濟(jì)增長(zhǎng)、提升國(guó)際競(jìng)爭(zhēng)力和解決社會(huì)經(jīng)濟(jì)發(fā)展問(wèn)題的關(guān)鍵因素之一[1] 。為了加強(qiáng)科技創(chuàng)新, 世界各國(guó)(地區(qū))紛紛增加對(duì)科技研究和發(fā)展的投入, 政府通過(guò)增加科研經(jīng)費(fèi)、建立科技創(chuàng)新基金等方式, 鼓勵(lì)科學(xué)家和研究機(jī)構(gòu)進(jìn)行前沿研究, 比如: 中國(guó)國(guó)家自然科學(xué)基金(National NaturalScience Foundation of China, NSFC)、美國(guó)國(guó)家科學(xué)基金會(huì)(National Science Foundation, NSF)、歐洲研究理事會(huì)(European Research Council, ERC)、德國(guó)研究基金會(huì)(Deutsche Forschungsgemeinschaft, DFG)和日本學(xué)術(shù)振興會(huì)(The Japan Society for the Promo?tion of Science, JSPS)等。
國(guó)家基金項(xiàng)目在科學(xué)技術(shù)發(fā)展過(guò)程中扮演著推動(dòng)和引領(lǐng)的重要作用, 不僅為科學(xué)研究提供了支持和推動(dòng)力, 資助產(chǎn)出了大量高質(zhì)量論文, 也為學(xué)術(shù)交流與合作、科技創(chuàng)新與應(yīng)用提供了幫助, 使得科學(xué)技術(shù)能夠不斷取得突破和進(jìn)步, 為社會(huì)發(fā)展和經(jīng)濟(jì)增長(zhǎng)做出巨大的貢獻(xiàn)[2] 。近年來(lái), 為了提高科學(xué)研究的質(zhì)量、優(yōu)化基金資助工作, 科學(xué)研究成果的評(píng)估和預(yù)測(cè)一直是政策制定者和科學(xué)界關(guān)注的焦點(diǎn)之一[3] 。2023 年6 月22 日, NSF 新成立的技術(shù)、創(chuàng)新和伙伴關(guān)系理事會(huì)(Directorate for Technology,Innovation and Partnerships, TIP), 啟動(dòng)了評(píng)估和預(yù)測(cè)技術(shù)結(jié)果(Assessing and Predicting Technology Out?comes, APTO)計(jì)劃, 將資助研究項(xiàng)目以識(shí)別新興趨勢(shì)使國(guó)家贏得未來(lái)的關(guān)鍵研發(fā)方向, 為決策者提供模型和信息(模型將預(yù)測(cè)特定技術(shù)的未來(lái)成果,以及哪些投資將可靠地改變或加速這些成果)以優(yōu)化NSF 資助工作, 以長(zhǎng)期提高美國(guó)的競(jìng)爭(zhēng)力, 該計(jì)劃資助總額為3000萬(wàn)美元。
評(píng)估與預(yù)測(cè)科學(xué)、技術(shù)結(jié)果對(duì)于優(yōu)化基金資助效果及提高科研質(zhì)量都具有重要作用, 而科學(xué)和技術(shù)的評(píng)估與預(yù)測(cè)存在一定的差異, 所以相關(guān)研究還有待進(jìn)一步深入。總體來(lái)說(shuō), 目前基金資助的科學(xué)產(chǎn)出評(píng)估及預(yù)測(cè)方法研究相對(duì)不足, 主要以專家評(píng)估、定性分析為主, 基于定量方法的基金資助的科學(xué)產(chǎn)出評(píng)估及預(yù)測(cè)主要以數(shù)理統(tǒng)計(jì)為主(發(fā)文量層面)[4-5] 。通過(guò)NSF 的APTO 計(jì)劃可知, 基金資助的科學(xué)、技術(shù)產(chǎn)出的評(píng)估與預(yù)測(cè)方向存在著巨大的研究潛力, 值得眾多學(xué)科領(lǐng)域有關(guān)學(xué)者進(jìn)行深入探索。
所以, 本研究旨在對(duì)基金科學(xué)產(chǎn)出的評(píng)估和預(yù)測(cè)問(wèn)題進(jìn)行探索, 從研究主題的角度切入, 評(píng)估和預(yù)測(cè)基金項(xiàng)目的科學(xué)產(chǎn)出(期刊論文), 具體擬從基金資助的科學(xué)產(chǎn)出主題投入和產(chǎn)出入手, 提出一種基于機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)和可視化技術(shù)的基金項(xiàng)目科學(xué)產(chǎn)出評(píng)估模型, 以全面地評(píng)估NSF 基金項(xiàng)目的科學(xué)創(chuàng)新和產(chǎn)出表現(xiàn)(投入產(chǎn)出比), 然后通過(guò)建立預(yù)測(cè)模型, 預(yù)測(cè)科學(xué)產(chǎn)出主題未來(lái)的內(nèi)容,以期為基金項(xiàng)目機(jī)構(gòu)進(jìn)行科學(xué)產(chǎn)出評(píng)估和預(yù)測(cè)工作提供一定的參考、借鑒。
1相關(guān)研究
1.1基金資助的科學(xué)產(chǎn)出評(píng)估
目前, 世界各國(guó)(地區(qū)) 十分重視科技創(chuàng)新,而基金資助及其科學(xué)產(chǎn)出是反映一個(gè)國(guó)家(地區(qū))、學(xué)科領(lǐng)域科技創(chuàng)新工作好壞的重要指標(biāo)之一。所以, 眾多研究者針對(duì)基金資助的科學(xué)產(chǎn)出評(píng)估問(wèn)題展開了大量探索, 旨在衡量和評(píng)估科研項(xiàng)目所產(chǎn)生的成果和影響力, 以期提高科技創(chuàng)新水平。
從評(píng)估指標(biāo)來(lái)說(shuō), 基金資助的科學(xué)產(chǎn)出評(píng)估相關(guān)研究主要關(guān)注兩個(gè)重點(diǎn)指標(biāo): ①科學(xué)產(chǎn)出數(shù)量評(píng)估, 研究者主要通過(guò)計(jì)量基金項(xiàng)目資助所產(chǎn)生的科學(xué)論文數(shù)量來(lái)進(jìn)行評(píng)估[6-7] ; ②科學(xué)產(chǎn)出質(zhì)量評(píng)估,研究者主要通過(guò)計(jì)量基金項(xiàng)目資助所產(chǎn)生的科學(xué)論文被引次數(shù)、影響因子等進(jìn)行評(píng)估[8] 。從學(xué)科領(lǐng)域來(lái)說(shuō), 基金資助的科學(xué)產(chǎn)出評(píng)估是眾多學(xué)科領(lǐng)域所共同關(guān)注的重要問(wèn)題: ①合成生物學(xué)領(lǐng)域的研究表明, 基金資助對(duì)科學(xué)產(chǎn)出具有積極影響, 有助于推動(dòng)該領(lǐng)域的發(fā)展[9] ; ②醫(yī)內(nèi)科、血瘀證和風(fēng)濕免疫等醫(yī)學(xué)領(lǐng)域的研究分析了國(guó)家自然科學(xué)基金在該領(lǐng)域的申請(qǐng)和資助情況, 并揭示了相關(guān)研究的趨勢(shì)和特點(diǎn)[10-12] ; ③智能電網(wǎng)[13] 、眼科學(xué)[14] 、創(chuàng)業(yè)教育[15] 、遙感科學(xué)[16] 等領(lǐng)域的研究也證明了基金資助科學(xué)產(chǎn)出評(píng)估的重要性。從基金項(xiàng)目類別來(lái)說(shuō),研究者對(duì)不同級(jí)別、不同類別基金資助的科學(xué)產(chǎn)出評(píng)估問(wèn)題進(jìn)行了有益探索: ①國(guó)家科學(xué)技術(shù)學(xué)術(shù)著作出版基金、國(guó)家出版基金等的研究分析了基金資助對(duì)出版業(yè)的影響和發(fā)展方向[17-19] ; ②中國(guó)博士后科學(xué)基金、杰青基金等的研究評(píng)估了不同科研資助項(xiàng)目的效益和影響因素[20-21] ; ③此外, 還有學(xué)者關(guān)注基金資助科學(xué)產(chǎn)出的國(guó)際比較, 對(duì)世界主要國(guó)家(地區(qū))的基礎(chǔ)學(xué)科基金資助情況進(jìn)行比較分析, 揭示了基金資助工作對(duì)國(guó)際合作影響的效果和趨勢(shì)[22-23] 。
總體而言, 現(xiàn)有研究對(duì)基金資助的科學(xué)產(chǎn)出評(píng)估問(wèn)題進(jìn)行了廣泛的探索, 但仍存在一些不足, 比如: ①目前的評(píng)估主要關(guān)注論文的外部數(shù)量特征(SCI 論文數(shù)量、H 指數(shù)等指標(biāo)), 忽略了具體內(nèi)容維度的評(píng)估; ②缺乏多維度評(píng)估, 目前的評(píng)估較為單一, 主要集中在數(shù)量和質(zhì)量維度(論文、專利等的數(shù)量和被引用指標(biāo)), 對(duì)于社會(huì)影響力方面的評(píng)估相對(duì)不足。為了應(yīng)對(duì)以上不足, 應(yīng)該建立多維度評(píng)估指標(biāo), 加強(qiáng)對(duì)具體內(nèi)容維度評(píng)估(比如研究主題維度), 關(guān)注社會(huì)影響力、響應(yīng)程度等(替代計(jì)量指標(biāo)的使用)。
1.2 基金資助的科學(xué)產(chǎn)出預(yù)測(cè)
基金資助的科學(xué)產(chǎn)出預(yù)測(cè)方法, 旨在利用文獻(xiàn)計(jì)量、數(shù)據(jù)挖掘、數(shù)理統(tǒng)計(jì)和可視化方法, 基于基金項(xiàng)目及其資助的論文或者專利數(shù)據(jù)進(jìn)行預(yù)測(cè)[24] ,以期通過(guò)對(duì)歷史數(shù)據(jù)的分析和建模, 預(yù)測(cè)科學(xué)產(chǎn)出的可能發(fā)展方向, 幫助基金資助機(jī)構(gòu)做出更準(zhǔn)確的決策和布局[25] ??偟膩?lái)說(shuō), 基金資助的科學(xué)產(chǎn)出預(yù)測(cè)和新興趨勢(shì)預(yù)測(cè)聯(lián)系較為緊密, 基金資助的科學(xué)產(chǎn)出預(yù)測(cè)可以看成是基于基金項(xiàng)目及其資助論文或者專利數(shù)據(jù)的新興趨勢(shì)預(yù)測(cè)問(wèn)題。目前, 研究者利用基金項(xiàng)目、論文和專利數(shù)據(jù)進(jìn)行新興趨勢(shì)預(yù)測(cè)研究產(chǎn)出了大量?jī)?yōu)秀成果[26-28] , 從數(shù)據(jù)源來(lái)看, 以單一論文或者專利數(shù)據(jù)為主, 部分研究者開始嘗試?yán)没痦?xiàng)目或者綜合利用基金項(xiàng)目、論文和專利等數(shù)據(jù)進(jìn)行新興趨勢(shì)預(yù)測(cè), 比如: 靜發(fā)沖等[29] 利用聚類方法對(duì)美國(guó)國(guó)家科學(xué)基金會(huì)資助的基金項(xiàng)目進(jìn)行分析, 展示了各類主題的項(xiàng)目研究?jī)?nèi)容以及識(shí)別新興主題, Ye G 等[30] 利用基金項(xiàng)目數(shù)據(jù)進(jìn)行研究前沿主題識(shí)別, 并利用演化可視化方法分析了研究前沿主題的發(fā)展趨勢(shì); 從方法技術(shù)來(lái)看, 以關(guān)鍵詞、引文分析等文獻(xiàn)計(jì)量為主, 部分研究者開始嘗試?yán)脵C(jī)器學(xué)習(xí)(分類、回歸、主題模型等)[31-32] 、深度學(xué)習(xí)等(向量表示學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等)[33] 前沿技術(shù)進(jìn)行新興趨勢(shì)預(yù)測(cè), 比如: 梁繼文等[34] 基于LDA 主題模型和詞向量模型進(jìn)行了知識(shí)單元重組視角下的科學(xué)主題預(yù)測(cè); 魏明珠等[35] 結(jié)合知識(shí)圖譜和深度神經(jīng)網(wǎng)絡(luò)模型提出了新興技術(shù)預(yù)測(cè)方法,通過(guò)訓(xùn)練產(chǎn)業(yè)新興技術(shù)預(yù)測(cè)模型, 實(shí)現(xiàn)了產(chǎn)業(yè)新興技術(shù)精準(zhǔn)預(yù)測(cè)。概括來(lái)說(shuō), 目前基金資助的科學(xué)產(chǎn)出預(yù)測(cè)相關(guān)研究仍存在一定的不足, 比如: 數(shù)據(jù)的局限(通常依賴于已發(fā)表、高被引的論文數(shù)據(jù))、預(yù)測(cè)方法和指標(biāo)的局限(需要將更多的因素指標(biāo)考慮進(jìn)科研預(yù)測(cè)模型中, 提高預(yù)測(cè)的準(zhǔn)確性)。
綜上所述, 基金資助的科學(xué)產(chǎn)出評(píng)估與預(yù)測(cè)是一個(gè)復(fù)雜而多維度的任務(wù), 單一的評(píng)價(jià)指標(biāo)可能無(wú)法全面反映基金項(xiàng)目及其資助科學(xué)產(chǎn)出的價(jià)值, 而僅通過(guò)論文數(shù)量、被引量等外部數(shù)量特征也難以有效進(jìn)行科學(xué)產(chǎn)出預(yù)測(cè)。因此, 本研究擬采用多種指標(biāo)和方法相結(jié)合的綜合評(píng)估、預(yù)測(cè)方式, 旨在對(duì)基金資助的科學(xué)產(chǎn)出評(píng)估和預(yù)測(cè)問(wèn)題進(jìn)行探索, 具體從研究主題的角度切入, 基于基金項(xiàng)目及其資助論文數(shù)據(jù)(根據(jù)基金號(hào), 獲取基金項(xiàng)目所資助的論文),評(píng)估基金資助的科學(xué)產(chǎn)出主題并預(yù)測(cè)其發(fā)展趨勢(shì),具體從投入、產(chǎn)出兩個(gè)方面, 全面地評(píng)估NSF 基金項(xiàng)目的科學(xué)創(chuàng)新和產(chǎn)出表現(xiàn), 然后通過(guò)建立預(yù)測(cè)模型預(yù)測(cè)論文主題未來(lái)的內(nèi)容和影響力, 以期提高科學(xué)產(chǎn)出評(píng)估和預(yù)測(cè)模型的準(zhǔn)確性與實(shí)用性, 為科研資助和管理提供支持。
2 方法框架
基金主題和資助的論文主題之間的關(guān)系可以被看作是一個(gè)相互反饋、相互影響的科學(xué)創(chuàng)新系統(tǒng),通過(guò)這種相互反饋關(guān)系, 基金主題和資助的論文主題可以在系統(tǒng)中相互影響、相互作用, 在時(shí)間維度上關(guān)聯(lián)式演化, 解決不斷變化的科學(xué)問(wèn)題。其中,基金項(xiàng)目對(duì)論文的發(fā)表起著重要引導(dǎo)、推動(dòng)作用,并且論文發(fā)表的數(shù)量、被引次數(shù)、社交媒體轉(zhuǎn)發(fā)數(shù)和新聞媒體轉(zhuǎn)發(fā)數(shù)等也可以反映基金項(xiàng)目的科學(xué)產(chǎn)出質(zhì)量, 此外, 基金資助通常會(huì)考慮到科學(xué)研究的新興趨勢(shì)、前沿?zé)狳c(diǎn)問(wèn)題, 從而引導(dǎo)研究者在特定主題方向進(jìn)行研究。
基于上述分析, 本研究設(shè)計(jì)了基金資助的科學(xué)產(chǎn)出主題評(píng)估和預(yù)測(cè)方法, 基本框架如圖1 所示,具體可以分為3 個(gè)主要步驟: 首先, 基于LDA 模型識(shí)別出基金項(xiàng)目及其資助論文中蘊(yùn)含的研究主題; 然后, 根據(jù)主題資助金額、主題資助期限、主題熱度、主題質(zhì)量和主題影響力等指標(biāo), 構(gòu)建基金資助的科學(xué)產(chǎn)出主題綜合評(píng)估模型; 最后, 基于深度學(xué)習(xí)方法從主題熱度和主題內(nèi)容兩個(gè)維度對(duì)基金資助的科學(xué)產(chǎn)出主題進(jìn)行預(yù)測(cè)。
2.1 基于LDA 模型的基金項(xiàng)目及其資助論文主題識(shí)別
本研究利用LDA 模型[36] 進(jìn)行基金及其資助論文主題識(shí)別, 其中, 最優(yōu)主題數(shù)量通過(guò)一致性分?jǐn)?shù)、困惑度指標(biāo)和人工判讀確定。LDA 模型中引入了隱變量來(lái)描述文檔的主題分布以及主題的詞分布, 從而將文檔的語(yǔ)料庫(kù)建模為一個(gè)概率模型, 聯(lián)合分布概率表示了LDA 模型中的概率分布關(guān)系,具體聯(lián)合分布概率如式(1) 所示。
P(θ,φ,w)= P(θ)P(φ)P(w |θ,φ) (1)
其中, P (θ) 是文檔—主題分布的先驗(yàn)分布,通常假設(shè)為Dirichlet 分布; P(φ)是主題—詞分布的先驗(yàn)分布, 也通常假設(shè)為Dirichlet 分布; P(w |θ,φ)是給定文檔—主題分布和主題—詞分布條件下, 生成文檔的詞分布的似然函數(shù)。
2.2 基金資助的科學(xué)產(chǎn)出主題評(píng)估指標(biāo)
如何有效評(píng)估基金資助的科學(xué)產(chǎn)出主題是一個(gè)值得深入分析的問(wèn)題。首先, 主題資助金額能夠反映該主題被認(rèn)為具有的重要性和研究潛力, 以及為其提供足夠的資源和支持的程度; 其次, 主題資助期限可以體現(xiàn)不同主題的研究時(shí)間需求, 確保足夠時(shí)間進(jìn)行深入研究和取得科研成果; 第三, 主題熱度作為一個(gè)衡量指標(biāo), 可以反映科研領(lǐng)域中的研究熱點(diǎn)和關(guān)注度, 為資源分配和科學(xué)研究的發(fā)展提供指導(dǎo); 第四, 主題質(zhì)量評(píng)估重點(diǎn)考慮研究的嚴(yán)謹(jǐn)性、數(shù)據(jù)可靠性和結(jié)果解讀的準(zhǔn)確性, 以提高科學(xué)產(chǎn)出的質(zhì)量和可信度; 最后, 主題影響力指標(biāo)可幫助評(píng)估研究成果對(duì)學(xué)術(shù)界和社會(huì)的影響程度, 體現(xiàn)科研成果的實(shí)際應(yīng)用和引領(lǐng)性。
基于以上深入分析, 通過(guò)對(duì)基金資助的科學(xué)產(chǎn)出主題評(píng)估的綜合考慮和基本指標(biāo)選擇原則(目標(biāo)相關(guān)性、真實(shí)性和可靠性、可操作性、多樣性和可衡量性), 本研究綜合基金項(xiàng)目及其資助的科學(xué)產(chǎn)出(論文)內(nèi)部、外部特征, 并結(jié)合主題識(shí)別結(jié)果(主題—文檔矩陣), 提出了基金資助的科學(xué)產(chǎn)出主題評(píng)估指標(biāo)體系(主題資助金額、主題資助期限、主題熱度、主題質(zhì)量和主題影響力5 個(gè)指標(biāo)), 并以各個(gè)指標(biāo)為基礎(chǔ)設(shè)計(jì)了基金資助的科學(xué)產(chǎn)出主題綜合評(píng)估模型。
基金資助的科學(xué)產(chǎn)出主題評(píng)估指標(biāo)的理論依據(jù)主要有: ①生產(chǎn)函數(shù)理論[37] , 生產(chǎn)函數(shù)理論是經(jīng)濟(jì)學(xué)中用來(lái)描述投入和產(chǎn)出關(guān)系的經(jīng)典理論, 在基金資助和科學(xué)研究中, 可以將科學(xué)產(chǎn)出視為一種“生產(chǎn)”, 投入的是資源(如時(shí)間、資金、人力等),產(chǎn)出的則是期刊論文、專利等成果, 根據(jù)生產(chǎn)函數(shù)理論, 一定的資源投入可以帶來(lái)一定的產(chǎn)出, 因此可以通過(guò)對(duì)比資助金額和其他相關(guān)指標(biāo)來(lái)評(píng)估資助的效果和產(chǎn)出; ②創(chuàng)新擴(kuò)散理論[38] : 創(chuàng)新擴(kuò)散理論是社會(huì)學(xué)中用來(lái)描述新事物在人群中傳播和接受過(guò)程的經(jīng)典理論, 在科學(xué)研究中, 可以將科學(xué)產(chǎn)出的擴(kuò)散視為一種“接受”, 通過(guò)分析科學(xué)產(chǎn)出的下載量、引用次數(shù)和影響力等指標(biāo), 可以評(píng)估科研論文的影響力和價(jià)值。
本文提出的基金資助的科學(xué)產(chǎn)出主題評(píng)估指標(biāo)如下:
1) 科學(xué)產(chǎn)出主題資助金額指標(biāo)
資助金額是指基金項(xiàng)目的研究經(jīng)費(fèi)數(shù)額, 通?;痦?xiàng)目的資助金額是由評(píng)審專家評(píng)估項(xiàng)目的科學(xué)價(jià)值和可行性, 并結(jié)合相關(guān)的經(jīng)費(fèi)預(yù)算和分配政策來(lái)決定的, 能在一定程度上反映基金項(xiàng)目的重要程度。
科學(xué)產(chǎn)出主題資助金額指標(biāo)(Topic Funding In?dex, TFI), 旨在通過(guò)基金資助的科學(xué)產(chǎn)出主題相關(guān)資助金額來(lái)測(cè)度科學(xué)產(chǎn)出主題的資助力度(具體根據(jù)各個(gè)論文標(biāo)注的基金號(hào)獲取相應(yīng)的資助金額, 進(jìn)而可以計(jì)算得到相應(yīng)主題資助金額)。具體計(jì)算方法如式(2) 所示。
其中, TFIi 、TTIi 、THIi 、TQIi 和TIIi 分別表示科學(xué)產(chǎn)出主題資助金額、主題資助期限、主題熱度、主題質(zhì)量和主題影響力指標(biāo), i 表示主題序號(hào),i∈{0,1,2,…,正整數(shù)}, j 表示任意主題相關(guān)論文的序號(hào), j∈{1,2,3,…,正整數(shù)}。
2.3 基金資助的科學(xué)產(chǎn)出主題預(yù)測(cè)
在基金資助的科學(xué)產(chǎn)出評(píng)估基礎(chǔ)上, 根據(jù)科學(xué)產(chǎn)出主題綜合分?jǐn)?shù)進(jìn)行排序, 然后利用深度學(xué)習(xí)方法(LSTM 模型和詞向量模型)分別對(duì)其進(jìn)行預(yù)測(cè)分析, 具體將從主題熱度時(shí)間序列和主題內(nèi)容兩個(gè)維度進(jìn)行預(yù)測(cè)。
主題熱度趨勢(shì)預(yù)測(cè)思路: 使用TensorFlow 和Keras 建立長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memo?ry, LSTM)模型來(lái)預(yù)測(cè)未來(lái)幾年的主題熱度趨勢(shì),并使用Matplotlib 庫(kù)繪制了預(yù)測(cè)結(jié)果和實(shí)際數(shù)據(jù)的折線圖。其中, 為了評(píng)價(jià)預(yù)測(cè)結(jié)果的準(zhǔn)確性, 通過(guò)均方根誤差(Root Mean Squared Error, RMSE)進(jìn)行計(jì)算, 計(jì)算方法如式(8) 所示。
主題內(nèi)容趨勢(shì)預(yù)測(cè)思路: 從系統(tǒng)論角度來(lái)看,基金主題和資助論文主題之間的關(guān)系可以被看作是一個(gè)相互反饋、相互影響的科學(xué)創(chuàng)新系統(tǒng), 基金主題內(nèi)容會(huì)影響到資助論文主題內(nèi)容, 但現(xiàn)實(shí)世界中變化和響應(yīng)之間必然存在時(shí)間延遲(滯后效應(yīng)),通過(guò)基金及其資助論文主題內(nèi)容上的滯后, 所以,在一定程度上可以根據(jù)基金主題內(nèi)容預(yù)測(cè)科學(xué)產(chǎn)出主題內(nèi)容。由于近期(近兩年)基金項(xiàng)目中相關(guān)知識(shí)(詞匯)會(huì)向論文主題傳遞、擴(kuò)散, 本研究的目標(biāo)是抽取出這部分詞匯作為科學(xué)產(chǎn)出主題內(nèi)容預(yù)測(cè)結(jié)果。具體將基于淺層神經(jīng)網(wǎng)絡(luò)模型(Word2Vec 模型)將近兩年的基金項(xiàng)目文本表示為語(yǔ)義向量, 然后通過(guò)計(jì)算語(yǔ)義距離遠(yuǎn)近來(lái)篩選出科學(xué)產(chǎn)出主題未來(lái)可能的內(nèi)容詞匯, 從而預(yù)測(cè)未來(lái)一定時(shí)間的科學(xué)產(chǎn)出主題內(nèi)容。
3 實(shí)證研究
3.1 數(shù)據(jù)來(lái)源
本研究的數(shù)據(jù)源自美國(guó)國(guó)家科學(xué)基金會(huì)的社會(huì)和經(jīng)濟(jì)科學(xué)部、Web of Science 數(shù)據(jù)庫(kù)和Altmetric數(shù)據(jù)庫(kù)。在數(shù)據(jù)收集過(guò)程中, 首先獲取了美國(guó)國(guó)家科學(xué)基金會(huì)官網(wǎng)中提供的歷年基金數(shù)據(jù)(XML 格式), 對(duì)這些數(shù)據(jù)進(jìn)行了解析、合并和格式轉(zhuǎn)換,篩選出了2013 年1 月1 日—2022 年12 月31 日社會(huì)和經(jīng)濟(jì)科學(xué)部資助的基金項(xiàng)目, 得到4 013個(gè)基金項(xiàng)目; 然后, 據(jù)社會(huì)和經(jīng)濟(jì)科學(xué)部資助的基金號(hào)構(gòu)建了簡(jiǎn)單、重復(fù)的檢索式(FG=1401525 OR FG=1407691 OR FG = 1411204ORFG = 1414342 OR……), 登錄Web of Science數(shù)據(jù)庫(kù)進(jìn)行高級(jí)檢索并導(dǎo)出相應(yīng)基金資助的論文題錄數(shù)據(jù)(XLS 格式),得到8 400篇基金資助的論文題錄數(shù)據(jù); 最后, 抽取出WOS 數(shù)據(jù)庫(kù)中導(dǎo)出的對(duì)應(yīng)論文DOI號(hào)碼, 使用Python爬蟲根據(jù)論文DOI 號(hào)抓取每篇論文的Altmetric數(shù)據(jù)。
3.2主題識(shí)別結(jié)果
在大小寫轉(zhuǎn)換、過(guò)濾停住詞等數(shù)據(jù)預(yù)處理基礎(chǔ)上, 利用LDA 模型主題識(shí)別, 通過(guò)一致性分?jǐn)?shù)、困惑度指標(biāo)和人工判讀綜合判定基金及其資助論文主題的最優(yōu)主題數(shù)量, 然后經(jīng)過(guò)處理, 共得到22個(gè)主題, 其中有7 個(gè)基金主題(NSF Topic,FT),15 個(gè)論文主題(Paper Topic,PT), 例如: 資源管理、決策分析、教育與健康和市場(chǎng)與經(jīng)濟(jì)等基金項(xiàng)目主題; 能源與環(huán)境、政策與環(huán)境、數(shù)據(jù)模型和社會(huì)與氣候等論文主題。部分結(jié)果如表1 所示。
3.3 基金資助的科學(xué)產(chǎn)出主題評(píng)估指標(biāo)計(jì)算結(jié)果
在主題識(shí)別結(jié)果基礎(chǔ)上,結(jié)合主題—文檔矩陣,根據(jù)本研究設(shè)計(jì)的主題資助金額、主題資助期限、主題熱度、主題質(zhì)量和主題影響力5 個(gè)指標(biāo)統(tǒng)計(jì)主題的數(shù)量、質(zhì)量和影響力等特征,從而得到各個(gè)主題的特征值, 進(jìn)而利用科學(xué)產(chǎn)出主題綜合評(píng)估模型TCEM 對(duì)各項(xiàng)主題特征值進(jìn)行計(jì)算,得到基金資助的科學(xué)產(chǎn)出主題評(píng)估指標(biāo)計(jì)算結(jié)果,如表2 所示。
分析表2 可知, 根據(jù)基金資助的科學(xué)產(chǎn)出主題綜合評(píng)估模型TCEM 計(jì)算, PT_1、PT_8、PT_11、PT_3、PT_10 和PT_13 等主題具有較高的投入產(chǎn)出比, 說(shuō)明這些主題在投入同樣的經(jīng)費(fèi)和時(shí)間前提下能夠產(chǎn)出更多高質(zhì)量、高影響力的論文成果, 所以將這些科學(xué)產(chǎn)出主題的綜合評(píng)估等級(jí)判定為等級(jí)1。
此外, 為了分析不同綜合評(píng)估等級(jí)的科學(xué)產(chǎn)出主題之間的相互關(guān)系, 本研究在各個(gè)指標(biāo)特征基礎(chǔ)上, 利用t-SNE 降維算法結(jié)合可視化方法將科學(xué)產(chǎn)出主題的五維指標(biāo)特征進(jìn)行降維并映射到二維空間中, 結(jié)果如圖2 所示。
圖2 中, 圓點(diǎn)表示科學(xué)產(chǎn)出主題, 原點(diǎn)顏色由綜合評(píng)估等級(jí)確定, 原點(diǎn)大小由TCEM 值確定, 根據(jù)各個(gè)科學(xué)產(chǎn)出主題的綜合評(píng)估等級(jí)分布可以大致將整個(gè)二維空間分為優(yōu)秀(Excellent)、良好(Good)、一般( Fair) 和合格( Pass) 4 個(gè)等級(jí)區(qū)域, 結(jié)合TCEM 結(jié)果可知, 具有相近TCEM 值的科學(xué)產(chǎn)出主題更傾向于分布在同一等級(jí)區(qū)域。其中, TCEM 等級(jí)為1 的科學(xué)產(chǎn)出主題中, 除了PT_10 都分布在優(yōu)秀(Excellent)區(qū)域, 在一定程度上說(shuō)明基金資助的科學(xué)產(chǎn)出主題評(píng)估指標(biāo)降維結(jié)果具有一定的實(shí)踐價(jià)值。在實(shí)踐工作中, 對(duì)于投入產(chǎn)出比更高的科學(xué)產(chǎn)出主題進(jìn)行預(yù)測(cè)具有更高的性價(jià)比, 所以, 本研究將以綜合評(píng)估等級(jí)為1 的科學(xué)產(chǎn)出主題為例進(jìn)行預(yù)測(cè)分析。
3.4 科學(xué)產(chǎn)出主題熱度預(yù)測(cè)分析
按照方法框架所述步驟, 導(dǎo)入所需的Tensor?flow、Keras 和Matplotlib 等工具包, 構(gòu)建了基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)LSTM 的時(shí)間序列預(yù)測(cè)模型, 對(duì)PT_1: 政策與環(huán)境、PT_8: 科研發(fā)展與實(shí)踐、PT_11: 健康與社會(huì)發(fā)展、PT_3: 氣候與資源、PT_10: 健康風(fēng)險(xiǎn)應(yīng)對(duì)、PT_13: 決策行為等科學(xué)產(chǎn)出主題熱度趨勢(shì)進(jìn)行了預(yù)測(cè)。具體調(diào)用train_model函數(shù)進(jìn)行模型訓(xùn)練并得到預(yù)測(cè)結(jié)果, 將預(yù)測(cè)結(jié)果和實(shí)際數(shù)據(jù)繪制成折線圖, 結(jié)果如圖3 所示。
圖3 展示了基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)LSTM 模型的預(yù)測(cè)結(jié)果和實(shí)際數(shù)據(jù)之間的比較。分析均方根誤差RMSE 結(jié)果可知, RMSE 值都位于0 和1 之間并接近于0, 最大值為0 0191, 表示模型效果較好; 并且通過(guò)觀察可知預(yù)測(cè)數(shù)據(jù)的趨勢(shì)和實(shí)際數(shù)據(jù)在趨勢(shì)和波動(dòng)方面較為一致, 訓(xùn)練得到的LSTM 模型可以較好地?cái)M合科學(xué)產(chǎn)出主題熱度時(shí)間序列的變化趨勢(shì)。
從主題熱度趨勢(shì)預(yù)測(cè)結(jié)果來(lái)看, 綜合評(píng)估等級(jí)為1 的科學(xué)產(chǎn)出主題熱度普遍呈上升趨勢(shì), 其中,PT_1: 政策與環(huán)境、PT_8: 科研發(fā)展與實(shí)踐、PT_3: 氣候與資源3 個(gè)主題的上升趨勢(shì)更加明顯, 說(shuō)明這幾個(gè)科學(xué)產(chǎn)出主題發(fā)展趨勢(shì)良好并且投入產(chǎn)出比較高, 值得投入更多政策、經(jīng)費(fèi)支持進(jìn)行優(yōu)先布局和重點(diǎn)支持。本研究將在具體內(nèi)容維度對(duì)綜合評(píng)估等級(jí)為1 的科學(xué)產(chǎn)出主題進(jìn)行預(yù)測(cè)分析。
3.5 科學(xué)產(chǎn)出主題內(nèi)容預(yù)測(cè)分析
在科學(xué)產(chǎn)出主題熱度預(yù)測(cè)分析結(jié)果基礎(chǔ)上, 本研究基于淺層神經(jīng)網(wǎng)絡(luò)Word2Vec 模型將近兩年的基金項(xiàng)目文本表示為語(yǔ)義向量, 然后通過(guò)兩兩計(jì)算詞匯之間的語(yǔ)義距離遠(yuǎn)近來(lái)篩選科學(xué)產(chǎn)出主題未來(lái)可能的內(nèi)容詞匯(僅保留了語(yǔ)義距離Top3 的詞匯), 從而預(yù)測(cè)未來(lái)一定時(shí)間的科學(xué)產(chǎn)出主題內(nèi)容,其中, 對(duì)PT_1: 政策與環(huán)境、PT_8: 科研發(fā)展與實(shí)踐、PT_11: 健康與社會(huì)發(fā)展、PT_3: 氣候與資源、PT_10: 健康風(fēng)險(xiǎn)應(yīng)對(duì)、PT_13: 決策行為等科學(xué)產(chǎn)出主題熱度內(nèi)容預(yù)測(cè)結(jié)果, 如圖4所示。
圖4 中, 各個(gè)科學(xué)產(chǎn)出主題內(nèi)的10 個(gè)紅色詞匯為主題原始詞匯, 嵌套圓內(nèi)的3 個(gè)黑色詞匯為計(jì)算得到的語(yǔ)義距離Top3 的基金項(xiàng)目詞匯, 為各個(gè)科學(xué)產(chǎn)出主題的內(nèi)容預(yù)測(cè)結(jié)果。本研究將結(jié)合上一步科學(xué)產(chǎn)出主題熱度預(yù)測(cè)分析結(jié)果, 以PT_1: 政策與環(huán)境、PT_8: 科研發(fā)展與實(shí)踐、PT_11: 健康與社會(huì)發(fā)展3 個(gè)科學(xué)產(chǎn)出主題為例, 進(jìn)行科學(xué)產(chǎn)出主題內(nèi)容預(yù)測(cè)分析。
PT_1: 政策與環(huán)境: 從主題熱度預(yù)測(cè)趨勢(shì)來(lái)看, 該主題呈現(xiàn)明顯的上升趨勢(shì), 具有較好的發(fā)展勢(shì)頭。從主題內(nèi)容預(yù)測(cè)結(jié)果來(lái)看, 未來(lái)兩年可能重點(diǎn)關(guān)注政策測(cè)試(Policy Test) 和政策研究(PolicyStudy); 健康領(lǐng)域(Health)的政策也將成為研究的焦點(diǎn); 政策制定過(guò)程中人權(quán)(Human Rights)的相關(guān)議題, 特別與政治(Political)和法律(Law)相關(guān)的議題將獲得更多關(guān)注; 在環(huán)境方面, 氣候變化(Climate Change)將持續(xù)成為重要議題, 相關(guān)詞匯可能包括氣候變化的相互作用( Climate Interac?tion)、氣候變化的多樣性(Climate Multiple)以及氣候變化的具體變化(Climate Changes)等; 環(huán)境相關(guān)的調(diào)查研究(Survey)也可能涉及經(jīng)濟(jì)(Economic)和發(fā)展(Develop)等詞匯; 此外, 可持續(xù)發(fā)展和創(chuàng)新(Innovation)將在未來(lái)兩年內(nèi)成為該主題的重點(diǎn)研究?jī)?nèi)容。
PT_8: 科研發(fā)展與實(shí)踐: 從主題熱度預(yù)測(cè)趨勢(shì)來(lái)看, 該主題同樣呈現(xiàn)明顯的上升趨勢(shì), 具有較好的發(fā)展勢(shì)頭。從主題內(nèi)容預(yù)測(cè)結(jié)果來(lái)看, 在未來(lái)兩年中, 凝聚力(Cohesion)、技術(shù)改進(jìn)(Improve)、過(guò)程組織(Organization)、方法改進(jìn)(Improve)和綜合發(fā)展(Include)將成為重要研究?jī)?nèi)容; 研究者對(duì)科研文章的邏輯結(jié)構(gòu)和信息銜接的關(guān)注(Cohesion)將增加, 以提高文章的可讀性和科學(xué)價(jià)值; 探索新技術(shù)如何改進(jìn)科學(xué)研究和實(shí)踐方法(Improve)將是熱門方向; 此外, 研究者還可能關(guān)注如何組織和優(yōu)化科研工作流程(Organization)以提高效率和質(zhì)量,以及改進(jìn)研究方法和策略(Approach)以提高研究的可靠性和創(chuàng)新性。
PT_11: 健康與社會(huì)發(fā)展: 從主題熱度預(yù)測(cè)趨勢(shì)來(lái)看, 該主題呈現(xiàn)先下降再上升的明顯的趨勢(shì),具有一定的發(fā)展?jié)摿Γ?這可能和全球范圍健康衛(wèi)生事件轉(zhuǎn)好相關(guān)(相關(guān)下降), 并隨著人們對(duì)健康問(wèn)題的重視, 相關(guān)研究逐漸開始增多。從主題內(nèi)容預(yù)測(cè)結(jié)果來(lái)看, 在未來(lái)兩年, 社會(huì)公眾參與(Socialpublic)可能受到研究者的重視, 比如: 通過(guò)社交媒體平臺(tái)傳播公益信息和促進(jìn)社會(huì)責(zé)任感; 社會(huì)健康(Social-health)問(wèn)題也會(huì)引發(fā)更多討論, 利用社交媒體傳播健康意識(shí)和鼓勵(lì)健康行為; 社會(huì)資本(Social-capital)的重要性也會(huì)引起關(guān)注, 包括發(fā)展社會(huì)網(wǎng)絡(luò)、社區(qū)組織和社交技能等; 此外, 數(shù)據(jù)分析(Analysis)和人工智能技術(shù)將在社會(huì)健康領(lǐng)域發(fā)揮重要作用, 通過(guò)識(shí)別(Identify)、檢查(Examine)和學(xué)習(xí)(Learn), 可以更好地了解社會(huì)健康問(wèn)題并為決策提供指導(dǎo), 這些趨勢(shì)的發(fā)展將推動(dòng)社會(huì)的健康發(fā)展和社會(huì)的可持續(xù)發(fā)展。
3.6 討論
本研究提出了基金資助的科學(xué)產(chǎn)出評(píng)估和預(yù)測(cè)方法, 綜合運(yùn)用了文獻(xiàn)計(jì)量、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和可視化方法, 建立了相關(guān)的評(píng)估指標(biāo)和預(yù)測(cè)模型,通過(guò)美國(guó)國(guó)家科學(xué)基金會(huì)社會(huì)和經(jīng)濟(jì)學(xué)部的基金項(xiàng)目及其資助論文的實(shí)證, 在一定程度上驗(yàn)證了方法的可行性和有效性, 對(duì)于優(yōu)化基金資助效果、提高科學(xué)研究質(zhì)量, 以及科研管理部門優(yōu)選布局方向、優(yōu)化資源配置等具有一定的理論和實(shí)踐指導(dǎo)意義。
首先, 本研究提出了主題資助金額、主題資助期限、主題熱度、主題質(zhì)量和主題影響力5 個(gè)指標(biāo), 并以之為基礎(chǔ)設(shè)計(jì)了基金資助的科學(xué)產(chǎn)出主題綜合評(píng)估模型, 可以有效評(píng)估基金資助的科學(xué)產(chǎn)出主題的投入產(chǎn)出比; 其次, 本研究利用LSTM 和Word2Vec模型進(jìn)行基金資助的科學(xué)產(chǎn)出主題時(shí)序和內(nèi)容的預(yù)測(cè)是合理、有效的, LSTM 模型可以捕捉到主題演化的模式和規(guī)律, 并用于預(yù)測(cè)未來(lái)主題的發(fā)展走向, 這種方法在時(shí)間序列預(yù)測(cè)領(lǐng)域有較高的可靠性和效果。Word2Vec 模型能夠?qū)卧~轉(zhuǎn)換為密集向量表示, 具有保留詞義和語(yǔ)義關(guān)系的能力,對(duì)于主題內(nèi)容的預(yù)測(cè), 可以使用Word2Vec 模型來(lái)學(xué)習(xí)主題詞匯之間的語(yǔ)義關(guān)聯(lián), 并在新的主題中預(yù)測(cè)相關(guān)的關(guān)鍵詞或主題詞。這種方法能夠豐富情報(bào)分析人員對(duì)科學(xué)研究主題的理解, 并有助于發(fā)現(xiàn)主題之間的關(guān)聯(lián)和新興方向的隱含主題。
但是, 本研究也存在一定的不足。比如: 數(shù)據(jù)涉及基金項(xiàng)目、論文和替代計(jì)量數(shù)據(jù), 在收集方面可能受到限制, 雖然本研究通過(guò)數(shù)據(jù)清洗、去重、排除異常值等方式, 提高了數(shù)據(jù)的可靠性和準(zhǔn)確性,但數(shù)據(jù)丟失、空值等可能仍會(huì)對(duì)研究結(jié)果具有一定影響; 在科學(xué)產(chǎn)出主題預(yù)測(cè)部分, 分為主題熱度和主題內(nèi)容兩個(gè)方面, 雖然可以增加分析的維度, 但是在具體解讀工作中做好兩者的整合對(duì)于情報(bào)工作者的情報(bào)分析能力具有一定的要求。
4結(jié)語(yǔ)
本研究提出了基金資助的科學(xué)產(chǎn)出評(píng)估和預(yù)測(cè)方法, 綜合主題資助金額、主題資助期限、主題熱度、主題質(zhì)量和主題影響力5 個(gè)指標(biāo), 可以有效評(píng)估基金資助的科學(xué)產(chǎn)出主題的投入產(chǎn)出比, 并設(shè)計(jì)了基于神經(jīng)網(wǎng)絡(luò)算法的主題熱度和主題內(nèi)容預(yù)測(cè)方法, 可以實(shí)現(xiàn)基金資助的科學(xué)產(chǎn)出主題評(píng)估和預(yù)測(cè)。通過(guò)對(duì)美國(guó)國(guó)家科學(xué)基金會(huì)社會(huì)和經(jīng)濟(jì)學(xué)部的基金項(xiàng)目及其資助論文的實(shí)證, 驗(yàn)證了方法的可行性和有效性。該方法雖然可以有效評(píng)估和預(yù)測(cè)基金資助的科學(xué)產(chǎn)出, 但仍存在一定的局限, 一方面是對(duì)于數(shù)據(jù)源的要求較高; 另一方面對(duì)于情報(bào)人員的解讀能力也有一定的要求。在未來(lái)的研究中, 本研究將嘗試改進(jìn)基于算法模型的評(píng)估和預(yù)測(cè)方法, 考慮采用更先進(jìn)的機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)模型來(lái)提高預(yù)測(cè)的準(zhǔn)確性和可靠性; 引入領(lǐng)域知識(shí), 結(jié)合領(lǐng)域?qū)<业闹R(shí), 將領(lǐng)域?qū)<业慕庾x能力納入模型中, 以幫助更好地解析和理解科學(xué)產(chǎn)出數(shù)據(jù)。