高楠 周慶山
關(guān)鍵詞: 新興技術(shù); 識(shí)別方法; 演化方法; 概念屬性
DOI:10.3969 / j.issn.1008-0821.2023.04.014
〔中圖分類號(hào)〕G252.8 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 04-0150-15
隨著新一輪科技革命和產(chǎn)業(yè)變革的加速演進(jìn),新興技術(shù)識(shí)別成為影響一個(gè)國(guó)家和地區(qū)未來發(fā)展戰(zhàn)略的重要議題。從歐盟“地平線2020” 計(jì)劃到德國(guó)“工業(yè)4 0” 戰(zhàn)略計(jì)劃, 再到中國(guó)的“十四五”國(guó)家科技創(chuàng)新規(guī)劃, 世界各國(guó)(地區(qū))都在積極制定科技發(fā)展戰(zhàn)略并加強(qiáng)科技創(chuàng)新部署。在這樣的社會(huì)大背景下, 技術(shù)的增長(zhǎng)和更新迭代的速度持續(xù)提升, 同時(shí), 技術(shù)之間的組合性、交叉性、變化性和依賴性也在不斷占據(jù)越來越重要的地位, 尤其是新興技術(shù)可能會(huì)改變已有產(chǎn)業(yè)的發(fā)展形態(tài), 創(chuàng)造出新興行業(yè), 并催生出一系列新的發(fā)展模式, 對(duì)加強(qiáng)科技戰(zhàn)略規(guī)劃、占領(lǐng)科技制高點(diǎn)、支撐科研前瞻布局等具有重要作用, 而如何快速、準(zhǔn)確地識(shí)別出具有較大發(fā)展?jié)摿Φ男屡d技術(shù)成為各國(guó)(地區(qū))關(guān)注的熱點(diǎn)。從國(guó)家角度來講, 新興技術(shù)的預(yù)測(cè)與識(shí)別有助于國(guó)家技術(shù)的總體布局與發(fā)展規(guī)劃; 從企業(yè)角度來講, 發(fā)現(xiàn)并識(shí)別具有潛力的新興技術(shù)有助于提前規(guī)劃、快速研發(fā)、節(jié)約成本和降低風(fēng)險(xiǎn), 更有助于確定研發(fā)重點(diǎn)和投資方向; 從研究人員個(gè)人的角度來講, 識(shí)別新興技術(shù)可以幫助研究人員了解領(lǐng)域新動(dòng)向, 使得關(guān)鍵的早期投資能更好地獲得回報(bào), 促進(jìn)產(chǎn)學(xué)研的結(jié)合。因此, 拓展新興技術(shù)識(shí)別方法,提高新興技術(shù)識(shí)別準(zhǔn)確性, 縮短新興技術(shù)預(yù)測(cè)周期, 深入把握技術(shù)領(lǐng)域適用性, 描繪技術(shù)演化路徑, 對(duì)于新興技術(shù)在未來的發(fā)展布局具有重要戰(zhàn)略意義, 也是迫切的現(xiàn)實(shí)需要。
1“新興技術(shù)”及相關(guān)概念
“新興技術(shù)” 已經(jīng)成為許多研究領(lǐng)域的核心術(shù)語之一, 尤其是在科學(xué)計(jì)量學(xué)、文獻(xiàn)計(jì)量學(xué)和技術(shù)挖掘領(lǐng)域。盡管被頻繁使用, 但目前仍然沒有形成明確的定義和屬性特征。
新興技術(shù)有許多不同的表達(dá)方式, 如新興研究主題、新興趨勢(shì)、新興研究領(lǐng)域等[1] , 其常用的英文表達(dá)為“Emerging technology”, Rotolo D 等[2]提煉了新興技術(shù)表達(dá)方式, 包括emerg? technolog?、tech? emergence、emergence of? technolog?、emerg?scien? technolog?、emerg? research、emerg? theme等, 并發(fā)現(xiàn)學(xué)者在開展新興技術(shù)相關(guān)研究時(shí), 標(biāo)題中出現(xiàn)“emerging” 及“emergence” 的覆蓋率高達(dá)57%, 且在表達(dá)“新興技術(shù)” 的概念時(shí), “Emer?ging technology” 與“technology emergence” 經(jīng)常交替使用。因此, 要追溯新興技術(shù)的起源, “emer?gence” 是核心關(guān)鍵詞之一。Burmaoglu S 等[3] 以科學(xué)哲學(xué)、復(fù)雜性理論和經(jīng)濟(jì)學(xué)3 個(gè)學(xué)科中“emer?gence” 概念的演變?yōu)榍腥朦c(diǎn), 揭示了新興技術(shù)的理論背景?!埃澹恚澹颍纾澹睿悖濉?一詞最早出現(xiàn)于19 世紀(jì)末, 并于20 世紀(jì)初在科學(xué)哲學(xué)領(lǐng)域流行起來; 20世紀(jì)30 年代, 該詞出現(xiàn)在復(fù)雜系統(tǒng)的研究中; 20世紀(jì)50 年代, 經(jīng)濟(jì)學(xué)家從進(jìn)化經(jīng)濟(jì)學(xué)的角度對(duì)“emergence” 進(jìn)行研究。
國(guó)外關(guān)于新興技術(shù)開創(chuàng)性的研究成果集中出現(xiàn)在由沃頓商學(xué)院的Day G S 等[4] 在2000 年出版的Wharton on Managing Emerging Technologies 著作中,提出“新興技術(shù)是一種基于科學(xué)的創(chuàng)新, 其有潛力創(chuàng)造一個(gè)新的產(chǎn)業(yè)或改變現(xiàn)有產(chǎn)業(yè), 既包括來自變革性創(chuàng)新的非連續(xù)創(chuàng)新, 以及基于各種前序研究而形成的漸進(jìn)性創(chuàng)新”。全球結(jié)構(gòu)和標(biāo)準(zhǔn)工作組將新興技術(shù)定義為: 已具備一定的實(shí)現(xiàn)條件, 但尚未得到充分、成熟的應(yīng)用的技術(shù)[5] 。國(guó)內(nèi)學(xué)者亦對(duì)新興技術(shù)展開積極研究, 華宏鳴等[6] 最早于1995年出版的《高新技術(shù)管理》中提出, “新興技術(shù)是目前還未被商業(yè)化, 但在未來的3 到5 年有可能商業(yè)化, 或者是目前已經(jīng)商業(yè)化, 但在未來可能產(chǎn)生顯著變化的技術(shù)”。目前最受業(yè)界認(rèn)可的是RotoloD 等[2] 給出新興技術(shù)的定義: “新興技術(shù)作為一種全新的、相對(duì)快速發(fā)展的技術(shù), 其特點(diǎn)是具有一定程度的持續(xù)性, 并有可能對(duì)社會(huì)經(jīng)濟(jì)領(lǐng)域產(chǎn)生相當(dāng)大的影響, 其最突出的影響在于未來, 因此在現(xiàn)階段仍有些不確定和模糊性”。其他學(xué)者對(duì)于新興技術(shù)的定義如表1 所示。
綜上, 本文認(rèn)為新興技術(shù)是一種正在興起或相對(duì)快速發(fā)展的、具有激進(jìn)新穎性的技術(shù), 經(jīng)過持續(xù)性發(fā)展, 很可能對(duì)未來的經(jīng)濟(jì)結(jié)構(gòu)或產(chǎn)業(yè)發(fā)展產(chǎn)生顯著性影響。
與“新興技術(shù)” 概念相近的有“熱點(diǎn)技術(shù)”“研究前沿” “顛覆性技術(shù)” 等。①熱點(diǎn)技術(shù)一般認(rèn)為是被學(xué)科共同體廣泛關(guān)注的具有重要影響力的研究?jī)?nèi)容[19] , 重點(diǎn)在于受到的“關(guān)注” 更多, “熱度” 更高, 其學(xué)科影響力已經(jīng)得到積累并顯露。與新興技術(shù)相比, 熱點(diǎn)技術(shù)的范圍更廣, 但其對(duì)新穎性、創(chuàng)新性的要求沒有新興技術(shù)高。隨著新興技術(shù)的發(fā)展, 有可能成為下一個(gè)熱點(diǎn)技術(shù)。但也有學(xué)者認(rèn)為新興技術(shù)與熱點(diǎn)技術(shù)是同一個(gè)概念的不同稱謂[20-21] ; ②研究前沿最早由Price D J[22] 于1965 年提出, 他認(rèn)為研究前沿由領(lǐng)域的30~50 篇最新發(fā)表的高被引文獻(xiàn)及其相關(guān)研究主題來反映, 具備成長(zhǎng)性、影響力及新穎性的特征, 這3 個(gè)特征與新興技術(shù)類似。與新興技術(shù)相比, 研究前沿的市場(chǎng)潛力已有所顯現(xiàn), 而新興技術(shù)能否成功還很難定論, 因此, 在不確定與模糊性上新興技術(shù)更高一些[23] 。但Toivanen H[24] 、Chen C M[25] 、盧超[26] 等學(xué)者則認(rèn)為“研究前沿” 與“新興技術(shù)” 是不同時(shí)代的不同表述, 但所反映的內(nèi)涵基本一致; ③顛覆性技術(shù)最早由Christensen C M[27] 于1997 年提出, 認(rèn)為其能夠?qū)ΜF(xiàn)有產(chǎn)業(yè)或市場(chǎng)格局帶來破壞性、顛覆性的影響, 并具有取代現(xiàn)有主流技術(shù)、形成新價(jià)值體系的能力。與新興技術(shù)相比, 顛覆性技術(shù)的不確定性與破壞性更強(qiáng), 更加強(qiáng)調(diào)創(chuàng)新的突破性, 其顛覆性需被投入市場(chǎng)應(yīng)用時(shí)才得以體現(xiàn)[28] 。
本文認(rèn)為新興技術(shù)與熱點(diǎn)技術(shù)、研究前沿、顛覆性技術(shù)在理論上確實(shí)存在區(qū)別, 但在實(shí)際的技術(shù)識(shí)別過程中可以發(fā)現(xiàn), 各類技術(shù)的識(shí)別方法區(qū)別度不大, 尤其是采用計(jì)量學(xué)方法進(jìn)行技術(shù)識(shí)別時(shí), 因此, 更為客觀的技術(shù)識(shí)別方法應(yīng)在通用的技術(shù)主題識(shí)別的基礎(chǔ)上, 結(jié)合各類技術(shù)的屬性特征進(jìn)行篩選與甄別。
2新興技術(shù)屬性特征與測(cè)量指標(biāo)
明晰新興技術(shù)屬性特征的意義在于使新興技術(shù)識(shí)別有了可依據(jù)、可測(cè)量的標(biāo)準(zhǔn), 而不是像前序相關(guān)研究那樣對(duì)專家智慧的依賴性很強(qiáng), 或缺乏可驗(yàn)證性。因此, 對(duì)于每種屬性特征, 有必要將學(xué)者常采用的經(jīng)典的測(cè)量指標(biāo)進(jìn)行梳理。Rotolo D 等[2] 通過對(duì)有關(guān)新興技術(shù)的經(jīng)典文獻(xiàn)進(jìn)行系統(tǒng)地回顧, 確定了新興技術(shù)的5 個(gè)屬性特征, 包括激進(jìn)的新穎性、相對(duì)快速增長(zhǎng)、連續(xù)性/ 一致性、顯著性影響、不確定與模糊性, 受到學(xué)界的廣泛認(rèn)可。本文采用Rotolo D 歸納的新興技術(shù)屬性特征, 并提煉了各特征典型的測(cè)量指標(biāo)。
2.1激進(jìn)的新穎性
在創(chuàng)新性研究中, 新穎性是將現(xiàn)有知識(shí)以一種全新的、前所未有的方式結(jié)合起來的結(jié)果, 可以是一種漸進(jìn)式的技術(shù)進(jìn)步, 也可以是一種躍進(jìn)性的技術(shù)革新[29] 。作為新興技術(shù)屬性特征的核心[2] , SmallH 等[15] 認(rèn)為, 新興技術(shù)的新穎性具備一種激進(jìn)的不連續(xù)的創(chuàng)新性; Bai G Z 等[30] 提出, 如果一個(gè)新主題在連續(xù)兩個(gè)時(shí)間窗口均被識(shí)別出, 則該主題可能代表一個(gè)新興技術(shù)的萌芽, 可作為一個(gè)候選新興主題。
評(píng)估新穎性最常用的方法有: ①比較候選新興技術(shù)主題與前序主題時(shí)間上的新舊度, 最常用的指標(biāo)有“被引文獻(xiàn)的平均發(fā)表時(shí)間”“簇類論文的平均發(fā)表時(shí)間”[31-33] 。如Jaric' I等[34] 通過被引文獻(xiàn)的平均年齡和近兩年參考文獻(xiàn)占比來反映主題新穎性。Huang L 等[35] 以主題詞出現(xiàn)的最早年份來反映新穎性; ②比較候選新興技術(shù)主題與前序主題內(nèi)容上的相似性, 如Liu Y 等[36] 將專利文本向量化,通過計(jì)算向量距離來評(píng)估新穎性; Liu X 等[37] 認(rèn)為, 新興技術(shù)主題在總數(shù)據(jù)集中出現(xiàn)的比例不能高于15%, 以保證其內(nèi)容上的新穎性。此外, 還有針對(duì)文獻(xiàn)類型的特點(diǎn)提出的反映新穎性的指標(biāo), 如Zhou Y 等[38] 通過兩個(gè)指標(biāo)來反映專利的新穎性,一是技術(shù)原創(chuàng)性, 即覆蓋的專利分類號(hào)數(shù)量越多,新穎性越高; 二是知識(shí)原創(chuàng)性, 即后向被引次數(shù)越高, 新穎度越低。
2.2相對(duì)快速增長(zhǎng)
Cozzens S 等[12] 、Small H 等[15] 、Wang Q[16] 均提出新興技術(shù)具有“在短時(shí)間內(nèi)快速增長(zhǎng)” 或至少是“增長(zhǎng)” 的屬性特征, 增長(zhǎng)性可以在多種維度上觀測(cè)到, 如領(lǐng)域參與者數(shù)量、基金資助金額、學(xué)術(shù)產(chǎn)出數(shù)量等。Boyack K W 等[39] 總結(jié)了增長(zhǎng)性的兩種表現(xiàn)形式: 一種是萌芽期漲勢(shì)不明顯, 但后續(xù)會(huì)爆發(fā)式增長(zhǎng); 另一種是在萌芽期迅速發(fā)展為領(lǐng)域焦點(diǎn), 隨后穩(wěn)步增長(zhǎng)。因此, 新興技術(shù)是相比于同領(lǐng)域其他技術(shù)而言, 發(fā)展得更快的技術(shù), 采用“相對(duì)快速增長(zhǎng)” 更為準(zhǔn)確。Xu H 等[40] 通過論文、期刊、基金和作者數(shù)量的平均增長(zhǎng)率來反映增長(zhǎng)性。Huang L 等[35] 為避免數(shù)據(jù)庫(kù)文獻(xiàn)收錄對(duì)結(jié)果測(cè)度的影響, 使用滑動(dòng)詞頻平均增長(zhǎng)率來反映該屬性特征。Zhou Y 等[38] 通過被引專利年齡的中位數(shù)來反映技術(shù)增長(zhǎng)速度。Liu X 等[37] 認(rèn)為, 新興技術(shù)主題的增長(zhǎng)速度至少為所有主題增長(zhǎng)速度的1 5倍。Poter A L 等[41] 認(rèn)為, 技術(shù)術(shù)語出現(xiàn)在活躍期的數(shù)量是出現(xiàn)在基期的2 倍以上, 即滿足了增長(zhǎng)性。宋欣娜等[42] 結(jié)合增長(zhǎng)因子與主題擴(kuò)散性模型來衡量技術(shù)的增長(zhǎng)性。此外, 還有研究通過基尼系數(shù)[43] 、前景因子[44] 、互信息[45] 來反映技術(shù)主題的增長(zhǎng)性。
2.3連續(xù)性/ 一致性
與剛萌芽的技術(shù)主題不同, 新興技術(shù)已經(jīng)表現(xiàn)出了持續(xù)一段時(shí)間的一致性或連續(xù)性, 其中, 一致性強(qiáng)調(diào)技術(shù)主題內(nèi)部結(jié)構(gòu)特征的邏輯互聯(lián); 連續(xù)性強(qiáng)調(diào)新興技術(shù)脫離始源技術(shù), 能夠以獨(dú)立主題存續(xù)一段時(shí)間, Day G S 等[8] 將之稱為“前序離散研究的匯集”。這個(gè)屬性特征為新興技術(shù)獲得更高的經(jīng)濟(jì)和社會(huì)影響力奠定了基礎(chǔ), 使之脫離了純粹的概念階段[14] 。Xu H 等[40] 使用Jaccard 系數(shù)來衡量相鄰時(shí)間窗內(nèi)主題的關(guān)聯(lián)性, 以是否具備連續(xù)的關(guān)聯(lián)性來體現(xiàn)技術(shù)主題的連續(xù)性。Huang L 等[35] 認(rèn)為,隨著技術(shù)主題成熟性的提高, 其在網(wǎng)絡(luò)社區(qū)中與其他節(jié)點(diǎn)間的聯(lián)系會(huì)變得更緊密, 因此, 以網(wǎng)絡(luò)密度比來衡量技術(shù)主題的一致性。Liu X 等[37] 通過設(shè)定的兩個(gè)標(biāo)準(zhǔn)來衡量技術(shù)主題的連續(xù)性, 一是主題詞至少出現(xiàn)在3 個(gè)時(shí)間窗口內(nèi); 二是主題詞在單個(gè)時(shí)間窗內(nèi)至少出現(xiàn)于7 份文檔中。
2.4顯著性影響
由于新興技術(shù)往往起源于為解決復(fù)雜問題而創(chuàng)建的復(fù)雜創(chuàng)新系統(tǒng)[46] , 因此, 新興技術(shù)有機(jī)會(huì)通過社會(huì)經(jīng)濟(jì)體系的多層次應(yīng)用與傳播, 從而產(chǎn)生廣泛的影響, 如改變競(jìng)爭(zhēng)基礎(chǔ)[10] , 創(chuàng)造一個(gè)新產(chǎn)業(yè)或改變現(xiàn)有產(chǎn)業(yè)[47] , 產(chǎn)生更大的經(jīng)濟(jì)影響力等。Xu H 等[48] 使用被引頻次反映主題的科學(xué)影響性。Huang L 等[35] 以PageRank 來計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)的影響性, 主題影響度等于屬于該主題的節(jié)點(diǎn)的平均PageRank 值。Jang W 等[49] 使用特征向量中心性來計(jì)算網(wǎng)絡(luò)節(jié)點(diǎn)的影響力。Xu S 等[50] 用DIM 模型中的線性回歸法計(jì)算主題的科學(xué)影響力。唐恒等[51]通過賦權(quán)后的用戶支持率與專利轉(zhuǎn)化率的和, 來表達(dá)技術(shù)主題的發(fā)展前景。黃璐等[52] 考慮到單純地依靠引用量測(cè)度技術(shù)主題的影響力會(huì)存在時(shí)間偏差, 因此, 將Time-rescaled 處理方法引入到Pag?eRank 中, 使節(jié)點(diǎn)得分能夠與同一時(shí)間段出現(xiàn)的節(jié)點(diǎn)進(jìn)行Z-score 標(biāo)準(zhǔn)化處理。
2.5不確定性與模糊性
新興技術(shù)是一種具有自組織和自適應(yīng)性的意外現(xiàn)象, 其不確定性是由產(chǎn)生時(shí)機(jī)的不可預(yù)測(cè)性和規(guī)模大小決定的[53] , 且由于技術(shù)涌現(xiàn)具有非線性和多因素性, 這使得新興技術(shù)的發(fā)展總是伴隨著不確定性與模糊性[54] 。由于這些技術(shù)仍然在開發(fā)中,其最終的影響還需要時(shí)間來檢驗(yàn), 況且技術(shù)的發(fā)展并不總伴隨著成功, 也存在失敗的風(fēng)險(xiǎn), 尤其是在技術(shù)發(fā)展早期, 信息不足使得大部分預(yù)測(cè)分析方法均失效。因此, 不確定性與模糊性是一個(gè)很難評(píng)估的屬性特征。目前, 對(duì)于該屬性特征的研究還很少, Wei L 等[55] 提出可通過跨學(xué)科的弱聯(lián)系或弱信號(hào)的捕捉, 來一定程度地反映新興技術(shù)發(fā)展的不確定性與模糊性; 許海云等[56] 基于知識(shí)網(wǎng)絡(luò)強(qiáng)弱關(guān)系變遷測(cè)度新興主題的未來不確定性。
3新興技術(shù)識(shí)別方法
通過文獻(xiàn)總結(jié)與歸納, 將新興技術(shù)識(shí)別方法分為定性分析法和定量分析法, 常見的定性分析法包括德爾菲法、情景分析法、頭腦風(fēng)暴法、技術(shù)路線圖等; 定量分析法主要分為三大類: 科學(xué)計(jì)量分析法、文本挖掘分析法和機(jī)器學(xué)習(xí)方法, 本文將重點(diǎn)介紹定量分析方法。
3.1科學(xué)計(jì)量分析法
3.1.1引文網(wǎng)絡(luò)
作為文獻(xiàn)計(jì)量學(xué)領(lǐng)域最常用的分析方法之一,也是新興技術(shù)識(shí)別最經(jīng)典的識(shí)別方法之一, 引文網(wǎng)絡(luò)分析法包括直接引文分析、共被引分析和耦合分析, 以及較少出現(xiàn)的作者引用網(wǎng)絡(luò)等。該類方法首先是構(gòu)建文獻(xiàn)間的引用關(guān)系網(wǎng)絡(luò), 再通過各種聚類方法, 實(shí)現(xiàn)對(duì)直接引用網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)及耦合網(wǎng)絡(luò)的聚類與可視化分析, 從而對(duì)新興技術(shù)進(jìn)行識(shí)別。
1) 共被引分析, 如González-Alcaide G 等[31]在選定了大規(guī)模集群領(lǐng)域作為知識(shí)基礎(chǔ)的278 篇核心文獻(xiàn)后, 對(duì)涉及的7 149篇參考文獻(xiàn)進(jìn)行共被引聚類, 生成的共被引矩陣由165 899對(duì)不同的參考文獻(xiàn)組成, 共形成5 個(gè)聚類簇, 再結(jié)合科學(xué)活動(dòng)、研究群體規(guī)模與穩(wěn)定性、參考文獻(xiàn)年齡等指標(biāo), 對(duì)新興技術(shù)進(jìn)行遴選與識(shí)別。Hou J 等[57] 采用共被引分析對(duì)信息科學(xué)領(lǐng)域2009—2016 年的新興研究主題進(jìn)行揭示, 研究發(fā)現(xiàn), 信息科學(xué)領(lǐng)域知識(shí)基礎(chǔ)發(fā)生了很大變化。
2) 耦合分析, 如Song K 等[58] 采用耦合分析法篩選出在聚類群外的離群專利, 結(jié)合回顧性技術(shù)特征分析和前瞻性市場(chǎng)需求分析, 對(duì)候選新興技術(shù)的技術(shù)特征和市場(chǎng)特征進(jìn)行評(píng)價(jià), 再根據(jù)這兩種特征值將候選技術(shù)映射到二維空間, 將第一象限的候選技術(shù)定義為新興技術(shù), 并將該方法應(yīng)用于汽車工業(yè), 驗(yàn)證了方法的可行性和可用性。Li M 等[59] 提出了一種衡量論文與專利間耦合關(guān)系的計(jì)算模型,結(jié)合耦合強(qiáng)度和耦合速度, 來對(duì)人工智能領(lǐng)域的新興技術(shù)和技術(shù)機(jī)會(huì)進(jìn)行識(shí)別。Jarneving B[60] 結(jié)合耦合分析和完全連接聚類分析識(shí)別了嚴(yán)重呼吸道癥候群領(lǐng)域的新興技術(shù)。
3) 直接引文分析, 如Kajikawa Y 等[61] 根據(jù)文獻(xiàn)間是否存在直接引用關(guān)系, 對(duì)能源研究領(lǐng)域的文獻(xiàn)數(shù)據(jù)進(jìn)行相關(guān)性過濾, 基于剩余文獻(xiàn)構(gòu)建直接引文網(wǎng)絡(luò), 再進(jìn)行拓?fù)渚垲悾?發(fā)現(xiàn)了每一個(gè)引文聚類簇都有其特色的研究主題, 不同引文聚類簇的增長(zhǎng)趨勢(shì)也不同, 研究表明, 通過直接引文網(wǎng)絡(luò)分析,可以從一系列文獻(xiàn)中有效地追蹤新興的研究領(lǐng)域,但研究也存在著因命名(根據(jù)集群中被引次數(shù)最多的20篇論文的標(biāo)題和摘要來命名聚類簇)造成的對(duì)引用次數(shù)較少的文獻(xiàn)的忽略問題。
4) 作者引用網(wǎng)絡(luò), 該方法用于新興技術(shù)探測(cè)的基礎(chǔ)共識(shí)是新興前沿的技術(shù)研究是由活躍作者所開展的, 但這種網(wǎng)絡(luò)聚類結(jié)果更適合于對(duì)領(lǐng)域的知識(shí)結(jié)構(gòu)和研究團(tuán)體進(jìn)行揭示, 并不能直接反映領(lǐng)域的研究主題。如Zhao D 等[62] 結(jié)合作者共被引網(wǎng)絡(luò)與作者耦合網(wǎng)絡(luò), 對(duì)信息科學(xué)領(lǐng)域的知識(shí)結(jié)構(gòu)和新興研究主題進(jìn)行揭示, 認(rèn)為出現(xiàn)在作者耦合網(wǎng)絡(luò),但未在作者共被引網(wǎng)絡(luò)中出現(xiàn)的聚類簇的作者所研究的主題即新興研究主題。Ma R[63] 采用作者耦合分析法對(duì)中國(guó)圖書情報(bào)領(lǐng)域的知識(shí)結(jié)構(gòu)進(jìn)行揭示,并提出了簡(jiǎn)單法、最小法、組合法3 種耦合強(qiáng)度計(jì)算方法, 研究發(fā)現(xiàn)最小法是計(jì)算作者耦合強(qiáng)度最合適的方法, 與作者共被引分析法相比, 作者耦合分析法具有更全面、具體地發(fā)現(xiàn)某一學(xué)科知識(shí)結(jié)構(gòu)的優(yōu)勢(shì), 也能反映該學(xué)科的研究前沿與新興研究。
引文網(wǎng)絡(luò)分析存在的共同問題包括: ①引用行為偏好無法避免, 引用內(nèi)容不同側(cè)重點(diǎn)不同, 但在引文網(wǎng)絡(luò)分析時(shí)無法區(qū)分; ②進(jìn)行引文網(wǎng)絡(luò)聚類的樣本數(shù)據(jù)選擇問題, 現(xiàn)有研究過多地關(guān)注于高被引文獻(xiàn), 使得低被引文獻(xiàn)的研究?jī)?nèi)容被忽略; ③引文網(wǎng)絡(luò)構(gòu)建對(duì)高質(zhì)量的引文數(shù)據(jù)庫(kù)依賴性較大; ④構(gòu)建的引文網(wǎng)絡(luò)多為無向網(wǎng)絡(luò), 對(duì)有向網(wǎng)絡(luò)的應(yīng)用較少, 加權(quán)引文網(wǎng)絡(luò)也要比非加權(quán)引文網(wǎng)絡(luò)少; ⑤由于識(shí)別結(jié)果是引文聚類簇, 不能直接得出技術(shù)主題, 還需要借助內(nèi)容分析法、文本挖掘技術(shù)或?qū)<抑腔鄣确绞絹韺?duì)聚類簇進(jìn)行命名, 且命名結(jié)果存在一定的信息偏差或信息遺漏。
3.1.2共現(xiàn)網(wǎng)絡(luò)
共現(xiàn)網(wǎng)絡(luò)以兩兩詞匯/ 類別在同一文獻(xiàn)中共同出現(xiàn)的次數(shù)為統(tǒng)計(jì)基礎(chǔ), 建立特定領(lǐng)域內(nèi)詞/ 類別的共現(xiàn)矩陣, 然后進(jìn)行聚類以呈現(xiàn)這些詞/ 類別間的親疏關(guān)系, 進(jìn)而反映出領(lǐng)域內(nèi)研究的熱點(diǎn)與新興趨勢(shì), 常見的有詞共現(xiàn)網(wǎng)絡(luò)和類別共現(xiàn)網(wǎng)絡(luò)。
1) 詞共現(xiàn)網(wǎng)絡(luò), 如Katsurai M 等[64] 提出了一種優(yōu)化的共詞網(wǎng)絡(luò)算法TrendNets, 其將共詞網(wǎng)絡(luò)矩陣分解為平滑部分和稀疏部分, 其中, 平滑部分表示平穩(wěn)的研究主題, 稀疏部分表示新興的研究主題, 以動(dòng)態(tài)共詞網(wǎng)絡(luò)來反映新興的研究趨勢(shì), 研究發(fā)現(xiàn), 與傳統(tǒng)共詞分析相比, TrendNets 在發(fā)現(xiàn)特征不明顯的新興話題方面具有優(yōu)勢(shì)。Li M[65] 提出了一種基于關(guān)鍵詞共現(xiàn)和突發(fā)詞檢測(cè)的改進(jìn)的共詞分析方法, 以共現(xiàn)次數(shù)與中間中心性來表示節(jié)點(diǎn)的權(quán)重, 以模塊度與平均輪廓系數(shù)來反映聚類結(jié)果,對(duì)技術(shù)預(yù)見領(lǐng)域的相關(guān)研究進(jìn)行分析, 發(fā)現(xiàn)詞共現(xiàn)可以呈現(xiàn)新興研究的基本面, 突發(fā)詞頻可以作為一種重要的補(bǔ)充。Besselaar P 等[66] 以主題詞與參考文獻(xiàn)的共現(xiàn)關(guān)系為基礎(chǔ)構(gòu)建共現(xiàn)矩陣并聚類, 將一組存在相似性的詞—參考文獻(xiàn)的聚類簇作為一個(gè)研究主題, 以兩篇論文共有的詞—參考文獻(xiàn)組合的數(shù)量來計(jì)算相似度, 該方法的優(yōu)點(diǎn)是結(jié)合了論文的兩種屬性, 來確定所研究領(lǐng)域的細(xì)粒度主題結(jié)構(gòu)。
近年來, 共詞分析法得到了持續(xù)改進(jìn), “共現(xiàn)詞” 從索引詞、關(guān)鍵詞發(fā)展到自由詞, 共現(xiàn)范圍從一篇論文之內(nèi)細(xì)化到一個(gè)段落之內(nèi), 乃至同一個(gè)句子之內(nèi), 切詞方法也得到了豐富, 如KEA[67] 、TF-IDF[68] 、TF-ISF[69] 、TextRank[70] 、共現(xiàn)統(tǒng)計(jì)信息法[71] 、中心度量法[72] 、循環(huán)神經(jīng)網(wǎng)絡(luò)[73] 等。該方法的缺陷在于對(duì)前期數(shù)據(jù)清洗要求較高, 如對(duì)同義詞、停用詞、低價(jià)值詞匯的篩選與處理等。此外, 受限于關(guān)鍵詞間的關(guān)聯(lián)關(guān)系, 如當(dāng)新興研究主題與其他傳統(tǒng)領(lǐng)域的關(guān)聯(lián)度不高時(shí), 很難通過共詞分析識(shí)別出來。還有學(xué)者認(rèn)為, 共詞分析會(huì)破壞知識(shí)結(jié)構(gòu)的穩(wěn)定性, 因?yàn)檫@種分析只是基于單個(gè)詞[74] 。
2) 類別共現(xiàn)網(wǎng)絡(luò), 如李瑞茜等[75] 將授權(quán)發(fā)明專利的IPC 主、副分類號(hào)對(duì)照到WIPO 發(fā)布的35個(gè)技術(shù)領(lǐng)域上, 構(gòu)建35×35 的非對(duì)稱技術(shù)關(guān)聯(lián)共類矩陣, 該矩陣的行代表主分類號(hào)的技術(shù)領(lǐng)域, 列表示副分類號(hào)的技術(shù)領(lǐng)域, 行列交叉處為對(duì)應(yīng)的主分類號(hào)與副分類號(hào)共同出現(xiàn)在一個(gè)專利的次數(shù), 結(jié)合中心度、結(jié)構(gòu)洞和中間人的分析, 識(shí)別了技術(shù)關(guān)聯(lián)網(wǎng)絡(luò)中的核心技術(shù)、中介技術(shù)和新興技術(shù)。
3.1.3異質(zhì)網(wǎng)絡(luò)
引文網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)一般都屬于同質(zhì)網(wǎng)絡(luò), 即網(wǎng)絡(luò)中的節(jié)點(diǎn)均屬于同一實(shí)體類型, 目前常見的混合不同網(wǎng)絡(luò)用以技術(shù)識(shí)別的研究, 也多基于同質(zhì)網(wǎng)絡(luò), 如混合共被引網(wǎng)絡(luò)與耦合網(wǎng)絡(luò)[76-77] 、混合直接引用網(wǎng)絡(luò)與共被引網(wǎng)絡(luò)。異質(zhì)網(wǎng)絡(luò)指網(wǎng)絡(luò)中的節(jié)點(diǎn)屬于不同的節(jié)點(diǎn)類型, 如Sebastian Y 等[78] 提出了一種新的異構(gòu)書目信息網(wǎng)絡(luò)模型(HBIN-LBD),旨在基于現(xiàn)有的各種書目元數(shù)據(jù)(包括作者、術(shù)語、出版商、被引文獻(xiàn)和論文)之間的相互聯(lián)系(包括詞共現(xiàn)關(guān)系、作者合著關(guān)系、耦合關(guān)系、直接引用關(guān)系), 構(gòu)建基于圖的異構(gòu)元路徑, 包括4 種二級(jí)元路徑、6 種三級(jí)元路徑、6 種四級(jí)元路徑, 并對(duì)不同類型實(shí)體間邊權(quán)重的計(jì)算方式進(jìn)行設(shè)計(jì), 從而發(fā)現(xiàn)研究論文之間的潛在聯(lián)系, 實(shí)現(xiàn)對(duì)自身聯(lián)系較少的交叉領(lǐng)域新興技術(shù)的識(shí)別。
3.?1.4混合分析
混合分析常見的有以下幾種類型的研究:
1) 對(duì)不同的網(wǎng)絡(luò)分析方法進(jìn)行對(duì)比研究, 如Boyack K W 等[79] 、Shibata N 等[80] 、張嘉彬[81] 、Jarneving B[82] 、Fujita K 等[83] 通過對(duì)直接引文網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)、耦合網(wǎng)絡(luò)識(shí)別結(jié)果的對(duì)比研究發(fā)現(xiàn): 在時(shí)間維度上, 直接引文網(wǎng)絡(luò)與耦合網(wǎng)絡(luò)的探測(cè)速度均要優(yōu)于共被引網(wǎng)絡(luò); 在精確度上, 耦合網(wǎng)絡(luò)要稍優(yōu)于共被引網(wǎng)絡(luò), 直接引文網(wǎng)絡(luò)是最不準(zhǔn)確的方法; 不同的引文網(wǎng)絡(luò)識(shí)別結(jié)果在數(shù)量與內(nèi)容上均存在差異, 但內(nèi)容方面也有一定的重疊; 加權(quán)引文網(wǎng)絡(luò)在新興主題探測(cè)方面比無加權(quán)引文網(wǎng)絡(luò)顯示出更多的優(yōu)越性, 且以引用頻次作為權(quán)重比以主題詞相似性、文獻(xiàn)相似性等作為權(quán)重的效果更好。
2) 對(duì)不同的網(wǎng)絡(luò)類型進(jìn)行融合/ 組合, 包括:①對(duì)不同的同質(zhì)網(wǎng)絡(luò)分析結(jié)果進(jìn)行組合, 如SmallH 等[15] 將兩個(gè)基于大規(guī)??茖W(xué)文獻(xiàn)的直接引用和共被引模型聚類結(jié)果進(jìn)行結(jié)合, 通過差異函數(shù)來篩選技術(shù)主題, 該函數(shù)能有效識(shí)別新的、快速增長(zhǎng)的主題集群, 最終識(shí)別出2007—2010 年每年的Top25新興研究主題, 并按照驅(qū)動(dòng)新興技術(shù)主題出現(xiàn)的原因, 對(duì)其進(jìn)行分類, 最后通過搜索與該主題相關(guān)的文獻(xiàn)或其主要研究人員所獲獎(jiǎng)項(xiàng)來進(jìn)行結(jié)果驗(yàn)證;②對(duì)不同的同質(zhì)網(wǎng)絡(luò)進(jìn)行融合, 再基于融合后的實(shí)體關(guān)系形成新的融合網(wǎng)絡(luò)。如蘇娜等[84] 采用基于Z-score 的多關(guān)系融合方法, 對(duì)科學(xué)計(jì)量學(xué)領(lǐng)域文獻(xiàn)集間的共現(xiàn)關(guān)系、文獻(xiàn)耦合關(guān)系、共被引關(guān)系進(jìn)行融合, 得到了比Janssens F 等[85] 所提的基于Fisher 的多關(guān)系融合方法更好的主題聚類結(jié)果。康宇航[86] 從異質(zhì)網(wǎng)絡(luò)視角出發(fā), 構(gòu)建“耦合—共被引” 混合網(wǎng)絡(luò)分析模型, 并從網(wǎng)絡(luò)整體、網(wǎng)絡(luò)組群、網(wǎng)絡(luò)個(gè)體3 個(gè)層面進(jìn)行技術(shù)機(jī)會(huì)分析。
3) 混合引文網(wǎng)絡(luò)與文本分析, 如Gl?nzel W等[87] 提出了一種基于耦合向量和文本相似性的線性組合算法來識(shí)別核心文檔, 通過核心文檔和不同時(shí)期聚類文檔集之間的交叉引用, 結(jié)合混合聚類算法, 來檢測(cè)新出現(xiàn)、增長(zhǎng)異常, 或內(nèi)容發(fā)生變化的新興技術(shù)主題, 并以生命科學(xué)、應(yīng)用科學(xué)和社會(huì)科學(xué)領(lǐng)域?yàn)槔M(jìn)行實(shí)證分析。
3.2文本挖掘分析法
3.2.1詞頻統(tǒng)計(jì)分析法
新興技術(shù)出現(xiàn)時(shí), 相關(guān)的主題詞出現(xiàn)的頻率也會(huì)越來越高, 甚至?xí)话l(fā)性出現(xiàn)高集中性、高密度特性的新主題詞, 詞頻統(tǒng)計(jì)分析法就是利用這一特性, 通過分析詞頻變化來識(shí)別新興技術(shù)。KleinbergJ[88] 提出, 可通過詞頻密度變化來識(shí)別出詞頻突發(fā)性增長(zhǎng)的一組詞, 進(jìn)而輔助新興主題識(shí)別。ChenC[89] 將Kleinberg 詞頻突破算法應(yīng)用于其開發(fā)的CiteSpace 系列軟件, 使之成為基于詞頻統(tǒng)計(jì)識(shí)別領(lǐng)域熱點(diǎn)及新興主題最常用的工具之一。劉自強(qiáng)等[90] 基于N-Gram 模型抽取蘊(yùn)含時(shí)間標(biāo)簽的多元詞匯Bi-Gram 與Tri-Gram, 以提高主題詞的語義表達(dá)能力, 然后構(gòu)建多元詞匯的詞頻時(shí)間序列, 利用分段線性回歸模型(PWLR)結(jié)合新興特征值, 進(jìn)行新興詞匯識(shí)別?;诟哳l詞或爆發(fā)詞來識(shí)別新興技術(shù)的優(yōu)點(diǎn)是操作簡(jiǎn)單, 可直觀地揭示研究領(lǐng)域的內(nèi)容特征, 但缺陷在于識(shí)別結(jié)果碎片化, 缺乏語義關(guān)聯(lián), 能夠揭示的內(nèi)容有限。
3.2.2主題模型分析法
主題模型能夠?qū)崿F(xiàn)以非監(jiān)督機(jī)器學(xué)習(xí)的方式,完成對(duì)文獻(xiàn)中隱含的語義結(jié)構(gòu)的揭示。在新興技術(shù)識(shí)別中最常用的主題模型即LDA 及其各種衍化版模型, 如DTM、cDTM、DIM、PLDA 等。LDA 最早由Blei D M 等[91] 于2003 年提出, 該模型可基于統(tǒng)計(jì)概率層面表達(dá)詞間的語義層次關(guān)系; 后于2006 年[92] , 在代表主題的多項(xiàng)分布的自然參數(shù)上使用狀態(tài)空間模型, 推出DTM(Dynamic Topic Mod?el)模型; 后又陸續(xù)推出連續(xù)時(shí)間動(dòng)態(tài)模型cDTM(Continuous Time Dynamic Topic)[93] 、動(dòng)態(tài)影響模型DIM (Document Influence Model)[94] 。2009 年,Wang Y 等[95] 對(duì)cDTM 模型進(jìn)行了改進(jìn), 提出PL?DA 模型。此外, 其他的主題模型還有MDTM(Mul?tiple Timescales DTM )[96] 、ToT ( Topic OverTime)[97] 、TDM(Trend Detection Model)[98] 等。
具體來看, Ranaei S 等[99] 以LED 和閃存技術(shù)為例, 對(duì)比分析了詞頻統(tǒng)計(jì)分析法(TF-IDF)、涌現(xiàn)評(píng)分法(Emergence Score, EScore) 和LDA 在識(shí)別新興技術(shù)方面的效果, 研究顯示, 詞頻統(tǒng)計(jì)分析法提供了新興技術(shù)更細(xì)節(jié)的涌現(xiàn)模式, 但結(jié)果中通用術(shù)語占了很大比例, 需要專家輔助解讀; EScore由于綜合考慮了術(shù)語頻率、規(guī)模和起源地, 能夠提供更全面的新興技術(shù)視角; LDA 能夠揭示新興技術(shù)主題間的聯(lián)系, 對(duì)于主題中每個(gè)詞的出現(xiàn), 可以根據(jù)其相鄰的關(guān)鍵詞進(jìn)行解釋。Yan E[100] 采用LDA 模型結(jié)合主題流行性和主題影響力指標(biāo), 以及對(duì)LIS 領(lǐng)域的新興技術(shù)主題進(jìn)行識(shí)別。徐路路等[101] 采用PLDA 模型結(jié)合項(xiàng)目、論文、專利3 種科技文獻(xiàn)數(shù)據(jù)源對(duì)石墨烯領(lǐng)域新興主題進(jìn)行探測(cè),并通過文獻(xiàn)調(diào)研結(jié)合專家智慧驗(yàn)證了該方法的可行性和有效性。
主題模型能高效地分析大規(guī)模非結(jié)構(gòu)化文檔集, 且在語義抽取與語義表達(dá)方面具有優(yōu)勢(shì), 但由于其屬于無監(jiān)督學(xué)習(xí)算法, 結(jié)果的可控性不高, 且前期對(duì)于數(shù)據(jù)的預(yù)處理要求較高, 包括通用詞刪除、主題詞規(guī)范、術(shù)語詞典構(gòu)建等, 否則會(huì)影響主題識(shí)別效果。
3.2.3結(jié)構(gòu)語義分析法
最常見的基于結(jié)構(gòu)語義進(jìn)行新興技術(shù)識(shí)別的方法, 即基于SAO(Subject-Action-Object)結(jié)構(gòu)的語義分析法。該方法在提取文獻(xiàn)中“主語—謂語—賓語” 結(jié)構(gòu)的基礎(chǔ)上, 通過分析Subject(S)、Ac?tion(A)、Object(O)間的語義關(guān)系, 來判斷所提取的SAO 結(jié)構(gòu)是表達(dá)了何種含義, 若AO 代表關(guān)鍵問題, S 代表解決方案, 則SAO 形成了“問題———解決方案” 模式; 若SO 代表系統(tǒng)組件, A 代表功能,則SAO 形成了“功能———系統(tǒng)組件” 模式[102] 。MaT 等[103] 提出了一種結(jié)合LDA 主題模型、SAO 結(jié)構(gòu)語義模型、機(jī)器學(xué)習(xí)和專家判斷的混合方法, 來識(shí)別染料敏化太陽能電池領(lǐng)域的新興技術(shù)和潛在機(jī)會(huì), 研究發(fā)現(xiàn), 與摘要相比, 標(biāo)題對(duì)專利技術(shù)主題識(shí)別準(zhǔn)確度的影響更大; 專利IPC 分類越獨(dú)特, 即與其他專利共通的IPC 分類越少, 技術(shù)主題識(shí)別的準(zhǔn)確度越大。周海煒等[104] 構(gòu)建了基于專利SAO 結(jié)構(gòu)和多指標(biāo)評(píng)價(jià)的新興技術(shù)識(shí)別模型, 該算法首先將SAO 與TF-IDF 算法相結(jié)合來計(jì)算專利文本相似性, 采用譜聚類與Scikit-learn 算法劃分手機(jī)芯片行業(yè)子技術(shù)領(lǐng)域, 再綜合多維指標(biāo)體系與專利量年度變化來判別新興技術(shù)。Choi S 等[105] 采用NLP 與語義信息鏈接方法從專利全文中提取SAO 結(jié)構(gòu), 將Subject、Object 轉(zhuǎn)換為名詞、動(dòng)詞的形式, 基于名詞—謂語矩陣構(gòu)建SAO 網(wǎng)絡(luò), 最后結(jié)合度數(shù)、中心性等指標(biāo), 以及行動(dòng)者網(wǎng)絡(luò)理論來識(shí)別新興技術(shù)。
SAO 可以在有效地表達(dá)詞間語義關(guān)系的基礎(chǔ)上, 清晰地反映技術(shù)的關(guān)鍵概念、屬性、結(jié)構(gòu)、功能、制備工藝等, 揭示技術(shù)是如何被使用或使用技術(shù)的目的, 以及如何與其他技術(shù)相互作用。但由于SAO 結(jié)構(gòu)的復(fù)雜性, 很難準(zhǔn)確地從文本信息中定位并提煉相應(yīng)的S、A、O 部分, 且由于技術(shù)的復(fù)雜性, 即使在專家的輔助下, 有時(shí)也很難解讀各部分間的語義關(guān)系。
3.3機(jī)器學(xué)習(xí)方法
為了提高新興技術(shù)識(shí)別準(zhǔn)確度, 機(jī)器學(xué)習(xí)方法被眾多學(xué)者使用, 其核心是將新興技術(shù)識(shí)別問題轉(zhuǎn)化為分類問題。如Liang Z 等[106]首先采用深度神經(jīng)網(wǎng)絡(luò)中的LSTM 和NNAR, 結(jié)合9 種計(jì)量指標(biāo)來對(duì)技術(shù)主題的熱度分值進(jìn)行預(yù)測(cè), 該指標(biāo)以時(shí)間序列的方式反映候選技術(shù)主題的影響力和增長(zhǎng)性; 其次, 從高熱度候選技術(shù)主題中篩選出新穎性高的新興技術(shù)主題, 此外, Liang Z 等綜合對(duì)比了分別在全局策略和局部策略下LSTM、NNAR、LightGBM、線性回歸、多項(xiàng)式回歸、EScore、Naive Method 7種方法在指標(biāo)值預(yù)測(cè)準(zhǔn)確性和最優(yōu)排序方面的表現(xiàn), 發(fā)現(xiàn)兩種神經(jīng)網(wǎng)絡(luò)模型在大多數(shù)指標(biāo)上表現(xiàn)均優(yōu)于其他5 種模型, LSTM 的表現(xiàn)還要優(yōu)于NNAR。Huang L 等[35] 提出了一種基于動(dòng)態(tài)共詞網(wǎng)絡(luò)的新興主題分析方法, 該方法首先構(gòu)建多時(shí)間切片下的動(dòng)態(tài)加權(quán)共詞網(wǎng)絡(luò), 再引入鏈路預(yù)測(cè)方法來揭示共詞網(wǎng)絡(luò)的動(dòng)態(tài)變化, 同時(shí), 采用機(jī)器學(xué)習(xí)算法擬合3 種鏈路預(yù)測(cè)指標(biāo), 充分評(píng)估局部結(jié)構(gòu)、路徑和隨機(jī)游走信息, 提高了鏈路預(yù)測(cè)方法的準(zhǔn)確性, 最后結(jié)合新穎性、增長(zhǎng)性、連續(xù)性和影響性4 種測(cè)量指標(biāo)進(jìn)行新興技術(shù)主題識(shí)別, 并經(jīng)專家驗(yàn)證確認(rèn)了本文方法的可行性和可靠性。Xu S 等[50] 利用動(dòng)態(tài)影響模型(DIM)識(shí)別技術(shù)主題, 并計(jì)算技術(shù)主題的增長(zhǎng)性、連續(xù)性和影響力, 通過引文影響力模型(CIM)計(jì)算新穎性, 采用多任務(wù)最小二乘支持向量模型(MTLS-SVM)對(duì)未來兩年的指標(biāo)值進(jìn)行預(yù)測(cè), 并以基因編輯領(lǐng)域?yàn)槔?識(shí)別到了3 個(gè)新興技術(shù)主題??椎骆旱龋郏保埃罚?使用BERT 預(yù)訓(xùn)練模型將專利文本向量化, 基于語義相似度構(gòu)建專利相似度網(wǎng)絡(luò),識(shí)別離群專利, 然后基于DNN 模型構(gòu)建離群專利指標(biāo)與技術(shù)影響力之間的關(guān)系, 實(shí)現(xiàn)從海量離群專利中快速、準(zhǔn)確地預(yù)測(cè)新興技術(shù), 識(shí)別出網(wǎng)絡(luò)中的離群點(diǎn)作為備選新興技術(shù)。
采用機(jī)器學(xué)習(xí)算法可以自動(dòng)化、高通量地處理領(lǐng)域全量數(shù)據(jù), 挖掘文獻(xiàn)的語義信息, 從而提高技術(shù)識(shí)別的全面性和準(zhǔn)確性。但基于監(jiān)督的機(jī)器學(xué)習(xí)方法需要大量的人工標(biāo)記訓(xùn)練樣本, 且實(shí)驗(yàn)結(jié)果的可解釋性差, 而無監(jiān)督機(jī)器學(xué)習(xí)雖不需要人工標(biāo)記訓(xùn)練集, 但準(zhǔn)確性和可控性稍差。此外, 機(jī)器學(xué)習(xí)方法的學(xué)習(xí)門檻較高, 不利于方法的普及。
3.4新趨勢(shì)與結(jié)果驗(yàn)證
隨著對(duì)新興技術(shù)識(shí)別研究的深入, 學(xué)者們開始關(guān)注新興技術(shù)的內(nèi)核, 即基于新興技術(shù)的屬性特征構(gòu)建指標(biāo)體系, 對(duì)基于上述各類識(shí)別方法所得的技術(shù)主題進(jìn)行篩選與甄別, 從而識(shí)別出新興技術(shù)主題, 并按照指標(biāo)表現(xiàn)進(jìn)行新興技術(shù)類別劃分。這一新趨勢(shì)表明了新興技術(shù)識(shí)別在不斷減少結(jié)果的主觀偏見性, 增加客觀及可驗(yàn)證性。如Porter A L 等[108]提出了基于Escore(Emergence Score)的新興技術(shù)主題探測(cè)方法, 該方法通過VantagePoint 提取文摘信息中的術(shù)語詞, 基于新穎性、連續(xù)性、增長(zhǎng)性和群體性的屬性特征設(shè)置術(shù)語篩選標(biāo)準(zhǔn), 再結(jié)合術(shù)語的Escore 值識(shí)別新興技術(shù)主題詞, 此外, 還以Escore指標(biāo)為基礎(chǔ), 設(shè)計(jì)出多個(gè)二級(jí)指標(biāo), 分別用于探測(cè)前沿機(jī)構(gòu)、國(guó)家和作者。Jang W 等[49] 以是否會(huì)在未來集中增長(zhǎng), 并會(huì)影響社會(huì)和技術(shù)發(fā)展作為新興技術(shù)的篩選標(biāo)準(zhǔn); Zhou Y 等[38] 通過新穎性、技術(shù)影響、社會(huì)影響特征來篩選新興技術(shù); Liu X 等[37]構(gòu)建一個(gè)三維評(píng)估框架系統(tǒng)來反映新興技術(shù)的持續(xù)性、區(qū)域性和增長(zhǎng)性; Zhang Y Y 等[73] 認(rèn)為新興科學(xué)技術(shù)以巨大的不確定性和極高的潛力為最主要的特征; Zhang B 等[110] 認(rèn)為新興技術(shù)的典型特征包括爆發(fā)性、持續(xù)性、突破性和競(jìng)爭(zhēng)優(yōu)勢(shì)。
該類方法的研究深度和識(shí)別精細(xì)度雖有提升,但仍存在著如下問題: ①部分研究的屬性特征與測(cè)量指標(biāo)之間缺乏聯(lián)系, 指標(biāo)選取的科學(xué)性和合理性存在質(zhì)疑; ②指標(biāo)權(quán)重確定、表征力判斷與閾值選取, 以及模型構(gòu)建等沒有統(tǒng)一的標(biāo)準(zhǔn), 難以界定;③指標(biāo)計(jì)算的普適性、可解釋性、可操作性難以協(xié)調(diào)與兼?zhèn)洹?/p>
對(duì)新興技術(shù)識(shí)別有兩種切入角度: 一種是對(duì)既定的新興技術(shù)進(jìn)行描述性分析[111] ; 另一種是對(duì)選定的領(lǐng)域進(jìn)行新興技術(shù)探測(cè)[15,112-113] , 目前多采用第二類研究的切入視角, 但出于嚴(yán)謹(jǐn)性考慮, 需要對(duì)識(shí)別結(jié)果進(jìn)行驗(yàn)證。目前, 常用的驗(yàn)證方法有3種: 資料驗(yàn)證法、專家評(píng)估法、指標(biāo)驗(yàn)證法。
1)資料驗(yàn)證法, 指通過已發(fā)表的學(xué)術(shù)成果或各類在業(yè)界具備影響力的獎(jiǎng)勵(lì)、項(xiàng)目等來對(duì)新興技術(shù)識(shí)別結(jié)果的客觀性、可靠性進(jìn)行驗(yàn)證, 這是目前應(yīng)用最多的驗(yàn)證方法。該方法的優(yōu)勢(shì)在于便捷、操作成本低且可靠性高, 但缺陷在于通過已經(jīng)出版的資料進(jìn)行結(jié)果驗(yàn)證, 在一定程度上降低了識(shí)別結(jié)果的時(shí)效性和價(jià)值性。如Small H 等[15] 通過諾貝爾獎(jiǎng)和領(lǐng)域權(quán)威獎(jiǎng)項(xiàng)進(jìn)行結(jié)果驗(yàn)證; Kajikawa Y 等[61] 通過與日本機(jī)構(gòu)繪制的領(lǐng)域?qū)<衣肪€圖進(jìn)行比對(duì), 實(shí)現(xiàn)結(jié)果驗(yàn)證; Wang Q[16] 通過與現(xiàn)有領(lǐng)域相關(guān)出版成果中提及的新興技術(shù)進(jìn)行比對(duì), 實(shí)現(xiàn)結(jié)果驗(yàn)證。
2) 專家評(píng)估法, 指通過專家對(duì)領(lǐng)域多年的知識(shí)與經(jīng)驗(yàn)積累對(duì)識(shí)別結(jié)果進(jìn)行評(píng)估, 優(yōu)點(diǎn)是經(jīng)過專家認(rèn)可的識(shí)別結(jié)果權(quán)威性、可靠性都得到了保證,缺點(diǎn)是主觀性強(qiáng)、時(shí)效性差。如Mu?oz -?cija T等[114] 通過專家訪談法、Chen C M[25] 通過調(diào)查問卷法, 周源等[115] 結(jié)合郵件、會(huì)議、問卷多種形式進(jìn)行結(jié)果驗(yàn)證, 此外, Jang W 等[49] 、Cozzens S 等[116] 、Choi Y 等[117] 、Arora S K 等[118] 、Ma T 等[119] 、HuangL 等[35] 、Li X 等[120] 均借助了專家智慧進(jìn)行結(jié)果驗(yàn)證。
3) 指標(biāo)驗(yàn)證法, 指通過各類指標(biāo)對(duì)實(shí)證分析所構(gòu)建模型的有效性進(jìn)行驗(yàn)證。該方法屬于一種間接的驗(yàn)證方法, 即通過驗(yàn)證模型的可靠性來對(duì)識(shí)別結(jié)果的可靠性進(jìn)行一定程度的保證, 不足之處在于只能證明識(shí)別的結(jié)果符合預(yù)設(shè)的各種標(biāo)準(zhǔn), 但符合標(biāo)準(zhǔn)的是否一定就是新興技術(shù)并不能得到證明。如Liang Z 等[106] 通過MAE、RMSE、NDCG@ k 3 種指標(biāo), 對(duì)LSTM、NNAR、LightGBM、LR、Na?ve 5 種模型進(jìn)行效果評(píng)估。
4研究問題與展望
4.1概念不明確, 標(biāo)準(zhǔn)不統(tǒng)一
由于對(duì)新興技術(shù)尚未形成統(tǒng)一的定義, 學(xué)者對(duì)屬性特征的理解也各有不同, 因此, 新興技術(shù)識(shí)別的方法流程、指標(biāo)設(shè)計(jì)、驗(yàn)證標(biāo)準(zhǔn)均存在差異, 尤其是在特征指標(biāo)設(shè)立方面存在許多問題, 如屬性特征與測(cè)量指標(biāo)之間缺乏聯(lián)系, 指標(biāo)選取的科學(xué)性和合理性存在質(zhì)疑; 指標(biāo)權(quán)重確定、表征力判斷與閾值選取等沒有統(tǒng)一的標(biāo)準(zhǔn); 指標(biāo)計(jì)算的普適性、可解釋性、可操作性難以協(xié)調(diào)與兼?zhèn)涞?。此外?現(xiàn)有研究缺乏對(duì)新興技術(shù)內(nèi)涵、外延、本質(zhì)特征及發(fā)展機(jī)制的探索, 多聚焦于引進(jìn)新的技術(shù)與方法, 以期不斷改進(jìn)技術(shù)識(shí)別效果, 但由于缺乏統(tǒng)一的理論根基支撐, 方法多樣性越來越強(qiáng), 不同的方法得到的識(shí)別結(jié)果不同, 使得方法的選擇與評(píng)價(jià)越來越困難。
4.2數(shù)據(jù)源類型選擇不均衡, 偏向性明顯
目前, 有關(guān)新興技術(shù)識(shí)別研究的數(shù)據(jù)源類型選擇偏向性明顯, 主要存在以下3 種情況:
1) 多單一數(shù)據(jù), 少多源數(shù)據(jù)?,F(xiàn)有研究大多聚焦于論文或?qū)@膯我粩?shù)據(jù), 較少采用多源數(shù)據(jù)進(jìn)行新興技術(shù)識(shí)別。部分研究引入了學(xué)位論文[121] 、會(huì)議論文[122] 、專著、Web 網(wǎng)絡(luò)數(shù)據(jù)[123] 、社交媒體數(shù)據(jù)[120] 、基金項(xiàng)目[124] 等不同的數(shù)據(jù)源類型,但綜合多種數(shù)據(jù)源類型進(jìn)行新興技術(shù)識(shí)別的研究仍然較少。如張維沖等[125] 、唐恒等[51] 嘗試綜合多源數(shù)據(jù)進(jìn)行新興技術(shù)識(shí)別, 二者的研究共同之處在于, 基于多種文獻(xiàn)類型的文摘數(shù)據(jù), 分別進(jìn)行主題抽取與新興技術(shù)主題識(shí)別, 然后再對(duì)不同文獻(xiàn)類型的識(shí)別結(jié)果作主題關(guān)聯(lián)分析, 若相似度高則合并為同一主題。但這種做法存在一個(gè)問題, 技術(shù)主題在不同文獻(xiàn)類型中的表達(dá)方式會(huì)有差異, 若僅基于主題相似度計(jì)算進(jìn)行同類主題合并, 會(huì)存在很大的誤差, 且相似度算法的選擇、閾值的設(shè)置均沒有統(tǒng)一標(biāo)準(zhǔn), 存在很強(qiáng)的主觀差異性。
2) 多文摘數(shù)據(jù), 少全文數(shù)據(jù)?,F(xiàn)有研究絕大部分均是基于文獻(xiàn)的文摘數(shù)據(jù)進(jìn)行主題抽取, 很少有基于全文數(shù)據(jù)進(jìn)行分析的。尤其是采用多種數(shù)據(jù)源進(jìn)行分析時(shí), 基于文本過載與處理效率的考慮,也是采用文摘數(shù)據(jù)進(jìn)行分析。隨著機(jī)器學(xué)習(xí)、文本挖掘技術(shù)應(yīng)用程度的不斷加深, 基于全文數(shù)據(jù)進(jìn)行新興技術(shù)識(shí)別將成為一種研究方向。
3) 多精選數(shù)據(jù), 少全量數(shù)據(jù)。很多研究基于領(lǐng)域內(nèi)特定期刊、高被引文獻(xiàn)等精選數(shù)據(jù)集進(jìn)行分析, 這樣做主要是為了去除噪聲影響, 提高識(shí)別精度與效率, 簡(jiǎn)化數(shù)據(jù)處理過程中的復(fù)雜度; 但根據(jù)“長(zhǎng)尾理論”[126] , 這樣做明顯會(huì)遺漏許多重要信息。
4.3“漸進(jìn)式” 回溯研究成主流, “躍進(jìn)式” 預(yù)測(cè)研究仍待發(fā)展
現(xiàn)有關(guān)于新興技術(shù)識(shí)別的研究大多基于“漸進(jìn)式發(fā)展” 的理論, 采用回溯性方式進(jìn)行研究, 即基于歷史數(shù)據(jù), 應(yīng)用預(yù)定義的規(guī)則來識(shí)別已出現(xiàn)的技術(shù)主題, 并回顧其技術(shù)發(fā)展歷程, 這類研究的通用方法流程為: 目標(biāo)領(lǐng)域數(shù)據(jù)集構(gòu)建、技術(shù)主題抽取、多維指標(biāo)體系構(gòu)建、新興技術(shù)主題篩選、方法驗(yàn)證。這類研究加強(qiáng)了對(duì)新興技術(shù)的理解, 并為后續(xù)的技術(shù)預(yù)測(cè)工作提供了有價(jià)值的參考, 但回溯性研究的成果是面向過去的未來, 因此, 無法滿足決策者和科學(xué)家對(duì)技術(shù)未來發(fā)展及技術(shù)預(yù)見方面的需求?;凇败S進(jìn)式發(fā)展” 理論技術(shù)演化研究及前瞻預(yù)測(cè)性的技術(shù)識(shí)別研究較少, 這類研究嘗試將新興技術(shù)主題預(yù)測(cè)轉(zhuǎn)變?yōu)榻y(tǒng)計(jì)學(xué)問題, 將給定歷史特征作為輸入, 未來指標(biāo)作為目標(biāo)輸出, 通過訓(xùn)練預(yù)測(cè)模型來預(yù)測(cè)新出現(xiàn)的技術(shù)主題[50,127,106] 。
針對(duì)新興技術(shù)識(shí)別與演化研究中出現(xiàn)的問題,未來應(yīng)從以下幾個(gè)方面加強(qiáng)研究:
1) 加強(qiáng)對(duì)新興技術(shù)內(nèi)涵、屬性特征、發(fā)生機(jī)制等的研究, 以求加強(qiáng)對(duì)新興技術(shù)概念、屬性特征的學(xué)術(shù)共識(shí), 構(gòu)建更加完善、可解釋性強(qiáng)的特征指標(biāo)體系, 增加新興技術(shù)識(shí)別的客觀性與可靠性。
2) 充分發(fā)揮多種數(shù)據(jù)源的特性, 加強(qiáng)多種文獻(xiàn)類型在新興技術(shù)識(shí)別中的應(yīng)用, 以提高識(shí)別結(jié)果的全面性與準(zhǔn)確性。此外, 加強(qiáng)多源信息融合的理論與方法研究, 以及全文數(shù)據(jù)和全量數(shù)據(jù)的應(yīng)用,拓寬新興技術(shù)識(shí)別乃至技術(shù)預(yù)測(cè)領(lǐng)域的切入視角。
3) 加強(qiáng)新興技術(shù)從回溯性描述到預(yù)測(cè)性探索研究的轉(zhuǎn)變, 以從未知的學(xué)科和領(lǐng)域中識(shí)別出未來極具價(jià)值和影響力的技術(shù)主題, 為未來的決策制定和戰(zhàn)略布局提供數(shù)據(jù)支撐。