數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系框架構(gòu)建

2022-04-01 01:57:20霍朝光盧小賓楊冠燦霍帆帆

圖書情報知識 2022年1期

霍朝光盧小賓楊冠燦霍帆帆

（中國人民大學(xué)信息資源管理學(xué)院，北京，100872）

1 引言

產(chǎn)業(yè)技術(shù)情報分析旨在圍繞某個特定產(chǎn)業(yè)領(lǐng)域，利用情報學(xué)分析方法，對產(chǎn)業(yè)的相關(guān)技術(shù)進(jìn)行類別識別和發(fā)展預(yù)見，揭示產(chǎn)業(yè)技術(shù)發(fā)展態(tài)勢與競爭格局、產(chǎn)業(yè)技術(shù)熱點與發(fā)展階段、關(guān)鍵技術(shù)布局及演化情況等[1-2]。產(chǎn)業(yè)技術(shù)情報分析是推動產(chǎn)業(yè)技術(shù)創(chuàng)新發(fā)展的重要支撐，在產(chǎn)業(yè)技術(shù)研發(fā)需求明確、產(chǎn)業(yè)技術(shù)重點攻關(guān)、產(chǎn)業(yè)資源分配、產(chǎn)業(yè)政策制定等方面發(fā)揮著重要的作用，是預(yù)警專利威脅、規(guī)避企業(yè)陷阱、反技術(shù)制裁的重要情報手段[3-4]。

數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析，是數(shù)據(jù)戰(zhàn)略浪潮下的科技尖兵。2020年4月《中共中央國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》提出土地、勞動力、資本、技術(shù)、數(shù)據(jù)市場配置五要素，首次明確數(shù)據(jù)成為五大生產(chǎn)要素之一。2020年10月8日，美國國防部發(fā)布《國防部數(shù)據(jù)戰(zhàn)略》（DoD Data Strategy），宣布將國防部建設(shè)成為“以數(shù)據(jù)為中心的機(jī)構(gòu)”[5]。數(shù)據(jù)可以是“石油”，也可以是“彈藥”，數(shù)據(jù)是國家、機(jī)構(gòu)和企業(yè)等單位的戰(zhàn)略資產(chǎn)，是數(shù)字經(jīng)濟(jì)的關(guān)鍵資源[6]。在全球數(shù)據(jù)戰(zhàn)略下，如何布局?jǐn)?shù)據(jù)戰(zhàn)略，釋放結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等產(chǎn)業(yè)技術(shù)數(shù)據(jù)紅利，構(gòu)建數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析體系，是全面、實時、自動、智能產(chǎn)業(yè)技術(shù)預(yù)見的重中之重[7]。

數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析，關(guān)鍵在于融合新興算法，完善現(xiàn)有情報分析方法體系。美國國際戰(zhàn)略研究中心（Center for Strategic and International Studies，CSIS）報告《保持情報優(yōu)勢：通過創(chuàng)新重塑情報》（Maintaining the Intelligence Edge: Reimagining and Reinventing Intelligence through Innovation）指出，新興技術(shù)不僅會改變情報系統(tǒng)評估全球威脅的相關(guān)性質(zhì)，還會改變情報系統(tǒng)準(zhǔn)確檢測和評估這些威脅的能力[8]，并且該報告提出將科學(xué)技術(shù)情報分析提升為核心分析學(xué)科，意在監(jiān)測他國新興和顛覆性技術(shù)領(lǐng)域的動態(tài)。

鑒于此，本文梳理了目前產(chǎn)業(yè)技術(shù)情報分析中采用的方法，比較各種分析方法的研究機(jī)理和特點，提出塑造數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析模式，在大數(shù)據(jù)環(huán)境下轉(zhuǎn)變傳統(tǒng)情報分析模式，面向各類型情報分析目標(biāo)，構(gòu)建數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系框架，強(qiáng)調(diào)塑造文本數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、圖像數(shù)據(jù)驅(qū)動的文本挖掘、圖挖掘、圖像挖掘等產(chǎn)業(yè)技術(shù)情報分析方法體系。

2 研究現(xiàn)狀

產(chǎn)業(yè)技術(shù)情報分析方法是產(chǎn)業(yè)技術(shù)情報分析與服務(wù)研究的科學(xué)方法論，是科技情報分析工作不可或缺的利器，也是智慧產(chǎn)業(yè)情報服務(wù)的核心[9]。歸納總結(jié)現(xiàn)有的產(chǎn)業(yè)技術(shù)情報分析方法，包括德爾菲法、技術(shù)路線圖、情境分析法等定性視角的情報分析方法，指標(biāo)預(yù)測法、技術(shù)屬性預(yù)測法、專利分析法、科學(xué)文獻(xiàn)分析法以及融合專家知識、基金信息、新聞報道等多種信息的定量視角的情報分析方法，各情報分析方法的研究機(jī)理、優(yōu)缺點以及應(yīng)用案例，如表1所示。

在定性的研究方法中，主要收集和利用專家對某一技術(shù)的態(tài)度、看法和知識。例如，通過問卷調(diào)查直接收集專家的意見，以多輪投票的形式讓專家進(jìn)行民主投票，在全面利用專家知識的同時，規(guī)避個別專家局限或極端的看法；通過構(gòu)建技術(shù)路線圖，邀請領(lǐng)域?qū)＜以诖私Y(jié)構(gòu)化、圖形化分析基礎(chǔ)上，進(jìn)行研判和推理；通過未來場景構(gòu)建，根據(jù)需求設(shè)想、牽引未來的技術(shù)發(fā)展。在以往定性研究方法中，往往缺乏大規(guī)模的客觀數(shù)據(jù)支持，更多是一種非數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法。

在定量的研究方法中，主要收集和利用專利、科學(xué)文獻(xiàn)、新聞報道、基金項目以及專家知識等，探測某一項產(chǎn)業(yè)技術(shù)的萌發(fā)勢頭，評估其發(fā)展階段，預(yù)判其發(fā)展?jié)摿?，?qiáng)調(diào)利用客觀數(shù)據(jù)，采用更加量化的科學(xué)方法，同時假以專家知識進(jìn)行佐證。例如指標(biāo)預(yù)測法、引文網(wǎng)絡(luò)分析法、共詞網(wǎng)絡(luò)分析法、文本主題模型法等一系列方法。目前，定量研究方法雖然具有一定的數(shù)據(jù)支持，在數(shù)據(jù)利用和方法應(yīng)用方面進(jìn)行了大量的探索，并引入以及改進(jìn)一系列較新的算法，但仍然缺乏數(shù)據(jù)驅(qū)動意識和系統(tǒng)的數(shù)據(jù)驅(qū)動思維，在應(yīng)用層面仍然集中在某一領(lǐng)域的數(shù)據(jù)集，方法應(yīng)用零散片段、缺乏體系，數(shù)據(jù)驅(qū)動的意識不夠鮮明，面向產(chǎn)業(yè)技術(shù)的情報分析方法體系有待進(jìn)一步整合。

3 數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析模式和目標(biāo)

3.1 產(chǎn)業(yè)技術(shù)情報分析模式轉(zhuǎn)變

數(shù)據(jù)驅(qū)動是第四范式思想—數(shù)據(jù)密集型研究范式時代的典型代表，即數(shù)據(jù)是現(xiàn)實世界事物、現(xiàn)象和行為在數(shù)字空間的映射，數(shù)據(jù)蘊含著現(xiàn)實世界的運行規(guī)律，陳國青等學(xué)者將其稱作數(shù)據(jù)驅(qū)動范式，強(qiáng)調(diào)利用數(shù)據(jù)進(jìn)行關(guān)系模式發(fā)現(xiàn)[43]。如圖1所示，數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系強(qiáng)調(diào)融合第四范式思想，強(qiáng)調(diào)從方法論視角以數(shù)據(jù)驅(qū)動的方式，革新產(chǎn)業(yè)技術(shù)情報方法體系，從第三研究范式到第四研究范式，產(chǎn)業(yè)技術(shù)情報分析的模式已經(jīng)完全不同，已經(jīng)由原先的問題發(fā)現(xiàn)、假設(shè)提出、采集數(shù)據(jù)、分析檢驗等思路變?yōu)閿?shù)據(jù)采集、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、知識驗證的模式，即數(shù)據(jù)驅(qū)動的知識全面創(chuàng)新，由此迫切需要融合新的產(chǎn)業(yè)技術(shù)情報分析方法[44]。

此外，數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析模式尤其強(qiáng)調(diào)主觀、客觀數(shù)據(jù)的融合。數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系，不僅強(qiáng)調(diào)囊括客觀的大數(shù)據(jù)，讓數(shù)據(jù)說話，還注重融合專家知識、領(lǐng)域觀點等主觀數(shù)據(jù)，促進(jìn)知識融合[45]，例如基于專家知識等主觀數(shù)據(jù)，構(gòu)建知識圖譜、知識庫等，將專家的主觀知識同客觀數(shù)據(jù)融合，以知識賦能情報分析，防止單純基于客觀數(shù)據(jù)的機(jī)器智能脫離產(chǎn)業(yè)技術(shù)的本質(zhì)規(guī)律，綜合圍繞數(shù)據(jù)中心、知識中心，構(gòu)建多維異構(gòu)數(shù)據(jù)融合的產(chǎn)業(yè)技術(shù)情報分析智慧體。

表1 ?產(chǎn)業(yè)技術(shù)情報分析方法Table 1 Information Analysis Methods of Industrial Technology

圖1 數(shù)據(jù)密集型研究范式下產(chǎn)業(yè)技術(shù)情報分析模式轉(zhuǎn)變Fig.1 Transformation of Industrial Technology Information Analysis Mode in the Data-intensive Paradigm

3.2 產(chǎn)業(yè)技術(shù)情報分析目標(biāo)

根據(jù)技術(shù)創(chuàng)新程度和影響差異，產(chǎn)業(yè)技術(shù)有類型之分，不同類型的產(chǎn)業(yè)技術(shù)形成不同的情報分析目標(biāo)。目前，產(chǎn)業(yè)技術(shù)情報分析工作主要圍繞持續(xù)性技術(shù)、突破性技術(shù)、顛覆性技術(shù)、新興技術(shù)、共性技術(shù)、卡脖子技術(shù)等目標(biāo)展開[23,46]，根據(jù)這些情報分析目標(biāo)的要求，需要圍繞各個產(chǎn)業(yè)或領(lǐng)域，對當(dāng)前產(chǎn)業(yè)技術(shù)發(fā)展態(tài)勢進(jìn)行評估，對初露頭角但具有潛在發(fā)展前景的產(chǎn)業(yè)技術(shù)進(jìn)行識別，對未來可能產(chǎn)生重大影響的產(chǎn)業(yè)技術(shù)進(jìn)行預(yù)測等。不同產(chǎn)業(yè)技術(shù)情報分析目標(biāo)，關(guān)乎不同形式的創(chuàng)新，其關(guān)系如表2所示。

其中，Ahsan和Musteen最早基于經(jīng)典的創(chuàng)新理論，從創(chuàng)新強(qiáng)度視角將技術(shù)創(chuàng)新劃分成突破性技術(shù)創(chuàng)新和持續(xù)性技術(shù)創(chuàng)新，持續(xù)性技術(shù)強(qiáng)調(diào)對現(xiàn)有技術(shù)漸進(jìn)式、增量式的性能或功能改進(jìn)，是漸進(jìn)式創(chuàng)新（incremental innovation）的集中體現(xiàn)[47]；突破性技術(shù)（radical technology）強(qiáng)調(diào)該技術(shù)對已有技術(shù)性能和功能有跳躍式突破，是一種非連續(xù)性、間接性技術(shù)創(chuàng)新，是突破式創(chuàng)新（radical innovation）的集中體現(xiàn)[48]。

表2 產(chǎn)業(yè)技術(shù)類型TTable2 Categories of Industrial Technology

顛覆性技術(shù)（disruptive technology）是Christensen于1995年在Disruptive Technologies: Catching the Wave中首次提及的一個概念，其強(qiáng)調(diào)顛覆性技術(shù)具有變革市場的潛力，例如原本一家經(jīng)營良好、管理完善的大公司，可能因為忽略這方面的技術(shù)而在競爭中失利進(jìn)而被淘汰[45]。顛覆性技術(shù)是顛覆式創(chuàng)新（disruptive innovation）的集中體現(xiàn)，其將完全顛覆現(xiàn)有技術(shù)、主流市場和在位的企業(yè)[49-50]。

新興技術(shù)（emerging technology）是由沃頓商學(xué)院新興技術(shù)管理研究小組提出，指一類基于科學(xué)的、可能創(chuàng)立一個新行業(yè)或改變一個現(xiàn)有行業(yè)的創(chuàng)新[51]。新興技術(shù)是區(qū)別于已有技術(shù)的、對新出現(xiàn)技術(shù)的統(tǒng)稱，強(qiáng)調(diào)技術(shù)的創(chuàng)新性、相對增值性、連續(xù)性、不確定性以及社會經(jīng)濟(jì)影響力等維度的特征[52]，多從計量或演化視角進(jìn)行識別和預(yù)測[53]。相對于新興技術(shù)，共性技術(shù)則是在很多領(lǐng)域已經(jīng)或未來可能被普遍應(yīng)用，對整個產(chǎn)業(yè)或多個產(chǎn)業(yè)產(chǎn)生深度影響的一類技術(shù)，其往往具有較廣的應(yīng)用范圍，并取得顯著效益，其技術(shù)往往是互相關(guān)聯(lián)的，因此從技術(shù)關(guān)聯(lián)角度來看其是制約眾多技術(shù)突破的關(guān)鍵[23]。

卡脖子技術(shù)則是由我國提出的本土概念，指短時期內(nèi)不易自主研發(fā)、又暫時性無替代產(chǎn)品，且絕對性地依賴于一兩個供應(yīng)商或供應(yīng)國的技術(shù)，該類技術(shù)尤其強(qiáng)調(diào)技術(shù)的壟斷性等特征[54]?！爸信d事件”“華為事件”“Matlab被禁事件”等一系列事件均說明了卡脖子技術(shù)對于企業(yè)生死存亡與國家經(jīng)濟(jì)命脈的重要性。2019年我國建立國家技術(shù)安全管理清單制度，致力解決卡脖子技術(shù)問題，從此帶有極強(qiáng)政治因素的卡脖子技術(shù)成為情報分析的焦點。

在眾多產(chǎn)業(yè)技術(shù)情報分析目標(biāo)中，根據(jù)優(yōu)先級劃分，卡脖子技術(shù)最為迫切，顛覆性技術(shù)次之，然后是突破性技術(shù)。卡脖子技術(shù)可能是顛覆性技術(shù)，也可能不屬顛覆性技術(shù)，顛覆性技術(shù)中也可能有卡脖子的，但是卡脖子技術(shù)、顛覆性技術(shù)均隸屬于突破性技術(shù)，突破性技術(shù)必然也是新興技術(shù)。不同產(chǎn)業(yè)技術(shù)情報分析目標(biāo)不是并列的關(guān)系，而是你中有我、交叉嵌套的關(guān)系，隨著優(yōu)先級遞增，情報分析深度越大，機(jī)密程度也越高。

4 數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法框架

本文在數(shù)據(jù)密集型研究范式轉(zhuǎn)變大環(huán)境下，基于數(shù)據(jù)驅(qū)動思維，強(qiáng)調(diào)革新產(chǎn)業(yè)技術(shù)情報分析方法論。根據(jù)數(shù)據(jù)表現(xiàn)形式的不同，目前產(chǎn)業(yè)技術(shù)數(shù)據(jù)主要有文本、音頻、圖像、視頻、網(wǎng)絡(luò)等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，分析數(shù)據(jù)特征及其處理模式，可以發(fā)現(xiàn)音頻數(shù)據(jù)雖然具有獨特的聲紋特質(zhì)，但對于產(chǎn)業(yè)技術(shù)情報分析而言這種聲紋特質(zhì)并無太大價值，通常將其轉(zhuǎn)換為相應(yīng)的文本，然后對文本內(nèi)容進(jìn)行挖掘，即其處理模式可借助文本挖掘?qū)崿F(xiàn)；對于視頻數(shù)據(jù)，視頻的本質(zhì)是動態(tài)的圖像，雖然處理難度大于普通靜態(tài)的圖像，但其處理模式仍歸屬圖像挖掘范疇。從數(shù)據(jù)來源來看，網(wǎng)絡(luò)數(shù)據(jù)（network data）雖然可以從文本、圖像等數(shù)據(jù)中析出，但是從計算方式來看，對網(wǎng)絡(luò)數(shù)據(jù)的預(yù)處理、檢索、挖掘以及存儲操作與文本、圖像等完全不同。因此，根據(jù)產(chǎn)業(yè)技術(shù)數(shù)據(jù)類型和數(shù)據(jù)計算方式，可以將產(chǎn)業(yè)技術(shù)目前所涉及到的數(shù)據(jù)處理模式歸納為文本、網(wǎng)絡(luò)和圖像三種核心數(shù)據(jù)處理模式。

鑒于此，本文構(gòu)建融合文本挖掘、圖挖掘和圖像挖掘的產(chǎn)業(yè)技術(shù)情報分析方法體系，其方法框架如圖2所示：

數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系框架，主要針對持續(xù)性技術(shù)、突破性技術(shù)、顛覆性技術(shù)、新興技術(shù)、共性技術(shù)和卡脖子技術(shù)六大產(chǎn)業(yè)技術(shù)情報分析目標(biāo)，強(qiáng)調(diào)通過文本挖掘、圖挖掘、圖像挖掘等三大方法體系，實現(xiàn)識別、預(yù)測、評估和預(yù)警四大情報分析任務(wù)。在四大情報分析任務(wù)中，識別主要包括對產(chǎn)業(yè)技術(shù)類型、產(chǎn)業(yè)技術(shù)狀態(tài)、產(chǎn)業(yè)技術(shù)脈絡(luò)以及異常產(chǎn)業(yè)技術(shù)等進(jìn)行一系列識別；預(yù)測主要包括對產(chǎn)業(yè)技術(shù)的發(fā)展趨勢、創(chuàng)新擴(kuò)散、影響力、關(guān)系等預(yù)測；評估主要包括對產(chǎn)業(yè)技術(shù)狀態(tài)、影響、結(jié)構(gòu)組成以及未來進(jìn)行評估；預(yù)警主要包括對產(chǎn)業(yè)技術(shù)的異常狀態(tài)、異常產(chǎn)業(yè)技術(shù)、技術(shù)差異、異常趨勢等預(yù)警。

圖2 ?數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析核心方法體系框架Fig. 2 The Core Method Framework of Data-driven Information Analysis of Industrial Technology

六大產(chǎn)業(yè)技術(shù)情報分析目標(biāo)，可分別圍繞四大情報分析任務(wù)展開，任何一類產(chǎn)業(yè)技術(shù)可能都需要涉及識別、預(yù)測、評估、預(yù)警等任務(wù)，每一種情報分析任務(wù)對六大產(chǎn)業(yè)技術(shù)同樣也都適用。四大情報分析任務(wù)與三大方法體系之間是可以直接完全對接融合在一起的，不存在任何割裂關(guān)系，任何一種情報分析任務(wù)的開展可能都需要三大方法體系的支持。三大方法體系同時也可以用于任何一種情報分析任務(wù)和任何一類產(chǎn)業(yè)技術(shù)的情報分析。六大產(chǎn)業(yè)技術(shù)在應(yīng)用三大方法體系時，主要體現(xiàn)在形形色色的數(shù)據(jù)中，一類數(shù)據(jù)對應(yīng)一類方法，多源異構(gòu)數(shù)據(jù)則對應(yīng)多種方法?？偠灾瑪?shù)據(jù)驅(qū)動范式下的產(chǎn)業(yè)技術(shù)情報分析中，文本數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、圖像數(shù)據(jù)三類核心數(shù)據(jù)是力量之源，文本挖掘、圖挖掘、圖像挖掘三大核心方法體系是方法之劍，識別、預(yù)測、評估、預(yù)警是情報分析的四大任務(wù)，而實現(xiàn)對六大產(chǎn)業(yè)技術(shù)的情報分析是終極目標(biāo)。

4.1 文本數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法

文本數(shù)據(jù)（text data）是產(chǎn)業(yè)技術(shù)最廣泛的載體，如科學(xué)文獻(xiàn)、專利文本、政策文本、新聞報道以及專家與學(xué)者對技術(shù)的評價與觀點信息等，如何從文本大數(shù)據(jù)中識別出相關(guān)產(chǎn)業(yè)技術(shù)，并根據(jù)文本特征對產(chǎn)業(yè)技術(shù)進(jìn)行分類和預(yù)測，是文本數(shù)據(jù)驅(qū)動產(chǎn)業(yè)技術(shù)情報分析模式研究的關(guān)鍵[55]。如圖3所示，將產(chǎn)業(yè)技術(shù)文本數(shù)據(jù)轉(zhuǎn)化為情報，其核心在于文本挖掘（text mining）等情報分析方法的融合。

文本挖掘是一種從文本數(shù)據(jù)中抽取隱含的、未知的、潛在有用的模式、關(guān)聯(lián)、規(guī)律和知識發(fā)現(xiàn)的過程[56]，需要依據(jù)自然語言處理（Natural Language Processing，NLP）等模式進(jìn)行文本預(yù)處理，進(jìn)而進(jìn)行文本解碼（text encoding）、文本相似度計算（text similarity）、文本分類（text categorization）、文本聚類（text clustering）、文本自動摘要（text summarization）、文本自動管理（automatic text management）等處理。面向產(chǎn)業(yè)技術(shù)的文本挖掘情報分析方法，強(qiáng)調(diào)在廣泛收集產(chǎn)業(yè)技術(shù)文本數(shù)據(jù)的基礎(chǔ)上，有效清洗、處理文本數(shù)據(jù)，結(jié)合具體的產(chǎn)業(yè)技術(shù)識別、預(yù)測任務(wù)，從海量文本數(shù)據(jù)中識別、提取文本特征，即在文本表示學(xué)習(xí)的基礎(chǔ)上輔以機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等方法，以實現(xiàn)產(chǎn)業(yè)技術(shù)情報分析目標(biāo)。其關(guān)鍵在于，針對海量的文本數(shù)據(jù)，如何提取文本中相關(guān)產(chǎn)業(yè)技術(shù)的特征，相比Bert動則上億個參數(shù)，如何借鑒Sentence-BERT、SBERT-WK等輕量級算法[57]，改進(jìn)并融合到產(chǎn)業(yè)技術(shù)文本挖掘方法體系中，是文本數(shù)據(jù)驅(qū)動情報分析研究的重點。

4.2 網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法

網(wǎng)絡(luò)數(shù)據(jù)是產(chǎn)業(yè)技術(shù)實體和關(guān)系最有力的表達(dá)方式之一，其以節(jié)點（node）代表相關(guān)產(chǎn)業(yè)技術(shù)及屬性，以邊（relation）代表產(chǎn)業(yè)技術(shù)之間的復(fù)雜關(guān)系，如產(chǎn)業(yè)技術(shù)相關(guān)知識網(wǎng)絡(luò)、合作網(wǎng)絡(luò)、引證網(wǎng)絡(luò)、價值鏈、集群網(wǎng)絡(luò)以及相關(guān)產(chǎn)業(yè)技術(shù)知識圖譜等，網(wǎng)絡(luò)數(shù)據(jù)又統(tǒng)稱為圖數(shù)據(jù)（graph data），因此如圖4所示，將產(chǎn)業(yè)技術(shù)網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化為情報的核心在于圖挖掘（graph mining）等情報分析方法的融合。

圖3 ?文本數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法Fig.3 Industrial Technology Information Analysis Driven by Text Data

圖挖掘是一種對圖（graph）或網(wǎng)絡(luò)數(shù)據(jù)中潛在的、未知的結(jié)構(gòu)、模式、規(guī)律等識別和預(yù)測的過程，其復(fù)雜程度超遠(yuǎn)單一的圖計算（graph computation）[58]。面向產(chǎn)業(yè)技術(shù)的圖挖掘情報分析方法，強(qiáng)調(diào)在合理識別和抽取節(jié)點與關(guān)系的基礎(chǔ)上，完成同構(gòu)、異構(gòu)等不同類型圖構(gòu)建，運用圖聚類、路徑計算、子圖識別、影響力計算等方法對圖中的節(jié)點和關(guān)系進(jìn)行計算[59]，根據(jù)節(jié)點影響力識別不同類型的產(chǎn)業(yè)技術(shù)，計算和揭示產(chǎn)業(yè)技術(shù)之間的直接與間接關(guān)系，根據(jù)子圖特征對產(chǎn)業(yè)技術(shù)集群進(jìn)行識別，并對相關(guān)產(chǎn)業(yè)技術(shù)之間未來的關(guān)系進(jìn)行預(yù)測。例如Common Neighbors、Admic Adar、Jaccard Coefficient等節(jié)點相似度計算模型，Shortest Path、Katz、FriendLink、Random Walk等關(guān)系相似度計算模型，Deepwalk、Node2vec、Edge2vec、SDNE等同構(gòu)網(wǎng)絡(luò)無監(jiān)督特征自學(xué)習(xí)模型，以及Metapath2vec、W-Metapath2vec[60]、TransPath[61]等異構(gòu)網(wǎng)絡(luò)特征自學(xué)習(xí)模型。

目前在圖挖掘方面比較受關(guān)注的當(dāng)屬廣度學(xué)習(xí)（broading learning）和圖神經(jīng) 網(wǎng) 絡(luò)（Graph Neural Network，GNN）等算法模型。其中，廣度學(xué)習(xí)主要針對異構(gòu)網(wǎng)絡(luò)，強(qiáng)調(diào)如何在異構(gòu)網(wǎng)絡(luò)中進(jìn)行圖挖掘，比較適用于產(chǎn)業(yè)技術(shù)多源異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)，可進(jìn)行識別、預(yù)測、預(yù)警等多種情報分析任務(wù)，例如CCMF（Crossnetwork Collaborative Matrix Factorization）、HUMOR （HeterogeneoUs Multi-sOurce ClusteRing）、ILSTM（Improved Long Short-Term Memory）等算法模型[62]。圖神經(jīng)網(wǎng)絡(luò)則適用于任何一種網(wǎng)絡(luò)數(shù)據(jù)，例如LGNN（Layered Graph Neural Network）、GGS-NN（Gated Graph Sequence Neural Network）、GPNN（Graph Parsing Neural Network）等算法模型[63]。隨著GNN的創(chuàng)新應(yīng)用和企業(yè)級應(yīng)用開放，上千億級關(guān)系的大型圖可在14小時內(nèi)完成訓(xùn)練，在1.2個小時內(nèi)完成后續(xù)推理預(yù)測工作[64]。隨著圖機(jī)器學(xué)習(xí)（Graph Machine Learning，GML）的發(fā)展和逐漸成熟，基于圖挖掘的產(chǎn)業(yè)技術(shù)情報分析，將成為科技尖兵開展情報工作必不可少的利器。

圖4 ?網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法Fig.4 Industrial Technology Information Analysis Driven by Network Data

4.3 圖像數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法

圖像數(shù)據(jù)也是產(chǎn)業(yè)技術(shù)重要的載體，如產(chǎn)業(yè)技術(shù)相關(guān)專利圖紙、設(shè)計圖紙、實驗圖像以及競爭產(chǎn)品圖像等，無論是動態(tài)的視頻，亦或?qū)崟r監(jiān)控的錄像與拍照，都是情報分析重要的圖像數(shù)據(jù)。如圖5所示，將產(chǎn)業(yè)技術(shù)圖像數(shù)據(jù)轉(zhuǎn)化為產(chǎn)業(yè)技術(shù)情報，需要根據(jù)情報分析需求，對相關(guān)圖像進(jìn)行切割、模式識別、特征提取等，根據(jù)圖像所包含的內(nèi)容進(jìn)行產(chǎn)業(yè)技術(shù)識別和預(yù)測，圖像挖掘（image mining）等情報分析方法是實施的關(guān)鍵。

圖像挖掘是一種利用計算機(jī)視覺（computer version）技術(shù)從圖像、視頻等數(shù)據(jù)中抽取信息和進(jìn)行知識發(fā)現(xiàn)的過程[65-66]。面向產(chǎn)業(yè)技術(shù)的圖像挖掘情報分析方法，強(qiáng)調(diào)融合計算機(jī)視覺、圖像處理、圖像檢索、統(tǒng)計學(xué)等多種技術(shù)為一體，在對圖像處理的基礎(chǔ)上，根據(jù)情報任務(wù)對圖像進(jìn)行分類、聚類以及匹配等，并結(jié)合專家主觀數(shù)據(jù)對從圖像中識別和預(yù)見的產(chǎn)業(yè)技術(shù)進(jìn)行修正，完成情報任務(wù)。例如，在進(jìn)行產(chǎn)業(yè)技術(shù)情報分析時，往往會遇到大量PDF格式的數(shù)據(jù)無法直接被機(jī)器閱讀，此時解析PDF就勢必需要借助圖像挖掘技術(shù)[67]。

面向產(chǎn)業(yè)技術(shù)情報分析的圖像挖掘，其關(guān)鍵在于提高機(jī)器對產(chǎn)業(yè)技術(shù)相關(guān)圖像的理解以及提高圖像數(shù)據(jù)中產(chǎn)業(yè)技術(shù)類別識別的準(zhǔn)確率，例如移植和改進(jìn)R-CNN（Regions with CNN features）、Fast R-CNN、Faster RCNN、YOLOv1（You Only Look Once）、SSD、RetinaNet等圖像挖掘算法，從人臉支付、自動駕駛、廣告檢測等領(lǐng)域，遷移到產(chǎn)業(yè)技術(shù)圖像情報分析中來。相對于其他領(lǐng)域比較廣泛和容易獲取的圖像數(shù)據(jù)而言，產(chǎn)業(yè)技術(shù)相關(guān)圖像數(shù)據(jù)卻常常難以獲取，獲取的完整度也大打折扣，而具有成熟標(biāo)注的產(chǎn)業(yè)技術(shù)圖像數(shù)據(jù)庫則更為稀少。產(chǎn)業(yè)技術(shù)情報分析作為科技尖兵，不應(yīng)對海量而豐富的圖像數(shù)據(jù)“熟視無睹”，不能成為“睜眼瞎”，科技情報領(lǐng)域的學(xué)者應(yīng)當(dāng)積極推進(jìn)圖像挖掘算法在產(chǎn)業(yè)技術(shù)情報分析方面的創(chuàng)新應(yīng)用，進(jìn)而形成面向科技情報分析的圖像挖掘方法研究體系。

5 結(jié)語

新時期我國產(chǎn)業(yè)技術(shù)的發(fā)展面臨著更多的挑戰(zhàn)和阻礙，為了更好地服務(wù)產(chǎn)業(yè)技術(shù)發(fā)展、賦能產(chǎn)業(yè)技術(shù)決策，我國更應(yīng)該創(chuàng)新情報分析理念，摒除落后的情報分析手段以及固有的情報文化障礙，積極融合新興技術(shù)，創(chuàng)新我國產(chǎn)業(yè)技術(shù)情報分析方法體系，重塑數(shù)據(jù)戰(zhàn)略浪潮下的科技“尖兵”，服務(wù)國家創(chuàng)新發(fā)展戰(zhàn)略。

本文梳理了目前產(chǎn)業(yè)技術(shù)情報分析中采用的方法，簡述了各種分析方法的研究機(jī)理和特點，論證了大數(shù)據(jù)環(huán)境下的情報分析模式及對應(yīng)的情報分析目標(biāo)，整合并構(gòu)建數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系框架，著力塑造與文本數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、圖像數(shù)據(jù)等相對應(yīng)的文本挖掘、圖挖掘、圖像挖掘方法體系，針對產(chǎn)業(yè)技術(shù)不同的情報分析目標(biāo)，打造與之相匹配的情報分析模式。

圖5 圖像數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法Fig. 5 Industrial Technology Information Analysis Driven by Image Data

數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系，絕不僅僅是單一維度方面的數(shù)據(jù)，文本挖掘、圖挖掘、圖像挖掘等產(chǎn)業(yè)技術(shù)分析模式，雖然自成一體，各有其適用的場景和獨特要求，但也互補(bǔ)互成，無論是方法層面的核心思想，還是應(yīng)用層面的靈活改進(jìn)，均可相互借鑒，例如借鑒文本表示學(xué)習(xí)思想形成的網(wǎng)絡(luò)表示學(xué)習(xí)，借鑒文本預(yù)訓(xùn)練模型Bert形成的圖網(wǎng)絡(luò)的預(yù)訓(xùn)練Graph-Bert[68]，以及將圖像數(shù)據(jù)當(dāng)作一種特殊的圖數(shù)據(jù)，利用圖神經(jīng)網(wǎng)絡(luò)（GNN）進(jìn)行圖像挖掘創(chuàng)新應(yīng)用等。數(shù)據(jù)驅(qū)動強(qiáng)調(diào)多維數(shù)據(jù)整合、多源異構(gòu)數(shù)據(jù)融合，從特征層面、模型層面、決策層面形成一體的融合機(jī)制，面向產(chǎn)業(yè)技術(shù)情報分析中的識別、預(yù)測、決策、預(yù)警等任務(wù)，全面搜集數(shù)據(jù)、充分利用數(shù)據(jù)，凝練形成新的產(chǎn)業(yè)技術(shù)情報分析方法體系。

作者貢獻(xiàn)說明

霍朝光：研究設(shè)計，論文撰寫；

盧小賓：研究設(shè)計，論文撰寫；

楊冠燦：論文修改；

霍帆帆：資料收集，參與修訂；

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡