霍朝光 盧小賓 楊冠燦 霍帆帆
(中國人民大學(xué)信息資源管理學(xué)院,北京,100872)
產(chǎn)業(yè)技術(shù)情報分析旨在圍繞某個特定產(chǎn)業(yè)領(lǐng)域,利用情報學(xué)分析方法,對產(chǎn)業(yè)的相關(guān)技術(shù)進(jìn)行類別識別和發(fā)展預(yù)見,揭示產(chǎn)業(yè)技術(shù)發(fā)展態(tài)勢與競爭格局、產(chǎn)業(yè)技術(shù)熱點與發(fā)展階段、關(guān)鍵技術(shù)布局及演化情況等[1-2]。產(chǎn)業(yè)技術(shù)情報分析是推動產(chǎn)業(yè)技術(shù)創(chuàng)新發(fā)展的重要支撐,在產(chǎn)業(yè)技術(shù)研發(fā)需求明確、產(chǎn)業(yè)技術(shù)重點攻關(guān)、產(chǎn)業(yè)資源分配、產(chǎn)業(yè)政策制定等方面發(fā)揮著重要的作用,是預(yù)警專利威脅、規(guī)避企業(yè)陷阱、反技術(shù)制裁的重要情報手段[3-4]。
數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析,是數(shù)據(jù)戰(zhàn)略浪潮下的科技尖兵。2020年4月《中共中央國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》提出土地、勞動力、資本、技術(shù)、數(shù)據(jù)市場配置五要素,首次明確數(shù)據(jù)成為五大生產(chǎn)要素之一。2020年10月8日,美國國防部發(fā)布《國防部數(shù)據(jù)戰(zhàn)略》(DoD Data Strategy),宣布將國防部建設(shè)成為“以數(shù)據(jù)為中心的機(jī)構(gòu)”[5]。數(shù)據(jù)可以是“石油”,也可以是“彈藥”,數(shù)據(jù)是國家、機(jī)構(gòu)和企業(yè)等單位的戰(zhàn)略資產(chǎn),是數(shù)字經(jīng)濟(jì)的關(guān)鍵資源[6]。在全球數(shù)據(jù)戰(zhàn)略下,如何布局?jǐn)?shù)據(jù)戰(zhàn)略,釋放結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等產(chǎn)業(yè)技術(shù)數(shù)據(jù)紅利,構(gòu)建數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析體系,是全面、實時、自動、智能產(chǎn)業(yè)技術(shù)預(yù)見的重中之重[7]。
數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析,關(guān)鍵在于融合新興算法,完善現(xiàn)有情報分析方法體系。美國國際戰(zhàn)略研究中心(Center for Strategic and International Studies,CSIS)報告《保持情報優(yōu)勢:通過創(chuàng)新重塑情報》(Maintaining the Intelligence Edge: Reimagining and Reinventing Intelligence through Innovation)指出,新興技術(shù)不僅會改變情報系統(tǒng)評估全球威脅的相關(guān)性質(zhì),還會改變情報系統(tǒng)準(zhǔn)確檢測和評估這些威脅的能力[8],并且該報告提出將科學(xué)技術(shù)情報分析提升為核心分析學(xué)科,意在監(jiān)測他國新興和顛覆性技術(shù)領(lǐng)域的動態(tài)。
鑒于此,本文梳理了目前產(chǎn)業(yè)技術(shù)情報分析中采用的方法,比較各種分析方法的研究機(jī)理和特點,提出塑造數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析模式,在大數(shù)據(jù)環(huán)境下轉(zhuǎn)變傳統(tǒng)情報分析模式,面向各類型情報分析目標(biāo),構(gòu)建數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系框架,強(qiáng)調(diào)塑造文本數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、圖像數(shù)據(jù)驅(qū)動的文本挖掘、圖挖掘、圖像挖掘等產(chǎn)業(yè)技術(shù)情報分析方法體系。
產(chǎn)業(yè)技術(shù)情報分析方法是產(chǎn)業(yè)技術(shù)情報分析與服務(wù)研究的科學(xué)方法論,是科技情報分析工作不可或缺的利器,也是智慧產(chǎn)業(yè)情報服務(wù)的核心[9]。歸納總結(jié)現(xiàn)有的產(chǎn)業(yè)技術(shù)情報分析方法,包括德爾菲法、技術(shù)路線圖、情境分析法等定性視角的情報分析方法,指標(biāo)預(yù)測法、技術(shù)屬性預(yù)測法、專利分析法、科學(xué)文獻(xiàn)分析法以及融合專家知識、基金信息、新聞報道等多種信息的定量視角的情報分析方法,各情報分析方法的研究機(jī)理、優(yōu)缺點以及應(yīng)用案例,如表1所示。
在定性的研究方法中,主要收集和利用專家對某一技術(shù)的態(tài)度、看法和知識。例如,通過問卷調(diào)查直接收集專家的意見,以多輪投票的形式讓專家進(jìn)行民主投票,在全面利用專家知識的同時,規(guī)避個別專家局限或極端的看法;通過構(gòu)建技術(shù)路線圖,邀請領(lǐng)域?qū)<以诖私Y(jié)構(gòu)化、圖形化分析基礎(chǔ)上,進(jìn)行研判和推理;通過未來場景構(gòu)建,根據(jù)需求設(shè)想、牽引未來的技術(shù)發(fā)展。在以往定性研究方法中,往往缺乏大規(guī)模的客觀數(shù)據(jù)支持,更多是一種非數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法。
在定量的研究方法中,主要收集和利用專利、科學(xué)文獻(xiàn)、新聞報道、基金項目以及專家知識等,探測某一項產(chǎn)業(yè)技術(shù)的萌發(fā)勢頭,評估其發(fā)展階段,預(yù)判其發(fā)展?jié)摿?,?qiáng)調(diào)利用客觀數(shù)據(jù),采用更加量化的科學(xué)方法,同時假以專家知識進(jìn)行佐證。例如指標(biāo)預(yù)測法、引文網(wǎng)絡(luò)分析法、共詞網(wǎng)絡(luò)分析法、文本主題模型法等一系列方法。目前,定量研究方法雖然具有一定的數(shù)據(jù)支持,在數(shù)據(jù)利用和方法應(yīng)用方面進(jìn)行了大量的探索,并引入以及改進(jìn)一系列較新的算法,但仍然缺乏數(shù)據(jù)驅(qū)動意識和系統(tǒng)的數(shù)據(jù)驅(qū)動思維,在應(yīng)用層面仍然集中在某一領(lǐng)域的數(shù)據(jù)集,方法應(yīng)用零散片段、缺乏體系,數(shù)據(jù)驅(qū)動的意識不夠鮮明,面向產(chǎn)業(yè)技術(shù)的情報分析方法體系有待進(jìn)一步整合。
數(shù)據(jù)驅(qū)動是第四范式思想—數(shù)據(jù)密集型研究范式時代的典型代表,即數(shù)據(jù)是現(xiàn)實世界事物、現(xiàn)象和行為在數(shù)字空間的映射,數(shù)據(jù)蘊含著現(xiàn)實世界的運行規(guī)律,陳國青等學(xué)者將其稱作數(shù)據(jù)驅(qū)動范式,強(qiáng)調(diào)利用數(shù)據(jù)進(jìn)行關(guān)系模式發(fā)現(xiàn)[43]。如圖1所示,數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系強(qiáng)調(diào)融合第四范式思想,強(qiáng)調(diào)從方法論視角以數(shù)據(jù)驅(qū)動的方式,革新產(chǎn)業(yè)技術(shù)情報方法體系,從第三研究范式到第四研究范式,產(chǎn)業(yè)技術(shù)情報分析的模式已經(jīng)完全不同,已經(jīng)由原先的問題發(fā)現(xiàn)、假設(shè)提出、采集數(shù)據(jù)、分析檢驗等思路變?yōu)閿?shù)據(jù)采集、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、知識驗證的模式,即數(shù)據(jù)驅(qū)動的知識全面創(chuàng)新,由此迫切需要融合新的產(chǎn)業(yè)技術(shù)情報分析方法[44]。
此外,數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析模式尤其強(qiáng)調(diào)主觀、客觀數(shù)據(jù)的融合。數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系,不僅強(qiáng)調(diào)囊括客觀的大數(shù)據(jù),讓數(shù)據(jù)說話,還注重融合專家知識、領(lǐng)域觀點等主觀數(shù)據(jù),促進(jìn)知識融合[45],例如基于專家知識等主觀數(shù)據(jù),構(gòu)建知識圖譜、知識庫等,將專家的主觀知識同客觀數(shù)據(jù)融合,以知識賦能情報分析,防止單純基于客觀數(shù)據(jù)的機(jī)器智能脫離產(chǎn)業(yè)技術(shù)的本質(zhì)規(guī)律,綜合圍繞數(shù)據(jù)中心、知識中心,構(gòu)建多維異構(gòu)數(shù)據(jù)融合的產(chǎn)業(yè)技術(shù)情報分析智慧體。
表1 ?產(chǎn)業(yè)技術(shù)情報分析方法Table 1 Information Analysis Methods of Industrial Technology
圖1 數(shù)據(jù)密集型研究范式下產(chǎn)業(yè)技術(shù)情報分析模式轉(zhuǎn)變Fig.1 Transformation of Industrial Technology Information Analysis Mode in the Data-intensive Paradigm
根據(jù)技術(shù)創(chuàng)新程度和影響差異,產(chǎn)業(yè)技術(shù)有類型之分,不同類型的產(chǎn)業(yè)技術(shù)形成不同的情報分析目標(biāo)。目前,產(chǎn)業(yè)技術(shù)情報分析工作主要圍繞持續(xù)性技術(shù)、突破性技術(shù)、顛覆性技術(shù)、新興技術(shù)、共性技術(shù)、卡脖子技術(shù)等目標(biāo)展開[23,46],根據(jù)這些情報分析目標(biāo)的要求,需要圍繞各個產(chǎn)業(yè)或領(lǐng)域,對當(dāng)前產(chǎn)業(yè)技術(shù)發(fā)展態(tài)勢進(jìn)行評估,對初露頭角但具有潛在發(fā)展前景的產(chǎn)業(yè)技術(shù)進(jìn)行識別,對未來可能產(chǎn)生重大影響的產(chǎn)業(yè)技術(shù)進(jìn)行預(yù)測等。不同產(chǎn)業(yè)技術(shù)情報分析目標(biāo),關(guān)乎不同形式的創(chuàng)新,其關(guān)系如表2所示。
其中,Ahsan和Musteen最早基于經(jīng)典的創(chuàng)新理論,從創(chuàng)新強(qiáng)度視角將技術(shù)創(chuàng)新劃分成突破性技術(shù)創(chuàng)新和持續(xù)性技術(shù)創(chuàng)新,持續(xù)性技術(shù)強(qiáng)調(diào)對現(xiàn)有技術(shù)漸進(jìn)式、增量式的性能或功能改進(jìn),是漸進(jìn)式創(chuàng)新(incremental innovation)的集中體現(xiàn)[47];突破性技術(shù)(radical technology)強(qiáng)調(diào)該技術(shù)對已有技術(shù)性能和功能有跳躍式突破,是一種非連續(xù)性、間接性技術(shù)創(chuàng)新,是突破式創(chuàng)新(radical innovation)的集中體現(xiàn)[48]。
表2 產(chǎn)業(yè)技術(shù)類型TTable2 Categories of Industrial Technology
顛覆性技術(shù)(disruptive technology)是Christensen于1995年在Disruptive Technologies: Catching the Wave中首次提及的一個概念,其強(qiáng)調(diào)顛覆性技術(shù)具有變革市場的潛力,例如原本一家經(jīng)營良好、管理完善的大公司,可能因為忽略這方面的技術(shù)而在競爭中失利進(jìn)而被淘汰[45]。顛覆性技術(shù)是顛覆式創(chuàng)新(disruptive innovation)的集中體現(xiàn),其將完全顛覆現(xiàn)有技術(shù)、主流市場和在位的企業(yè)[49-50]。
新興技術(shù)(emerging technology)是由沃頓商學(xué)院新興技術(shù)管理研究小組提出,指一類基于科學(xué)的、可能創(chuàng)立一個新行業(yè)或改變一個現(xiàn)有行業(yè)的創(chuàng)新[51]。新興技術(shù)是區(qū)別于已有技術(shù)的、對新出現(xiàn)技術(shù)的統(tǒng)稱,強(qiáng)調(diào)技術(shù)的創(chuàng)新性、相對增值性、連續(xù)性、不確定性以及社會經(jīng)濟(jì)影響力等維度的特征[52],多從計量或演化視角進(jìn)行識別和預(yù)測[53]。相對于新興技術(shù),共性技術(shù)則是在很多領(lǐng)域已經(jīng)或未來可能被普遍應(yīng)用,對整個產(chǎn)業(yè)或多個產(chǎn)業(yè)產(chǎn)生深度影響的一類技術(shù),其往往具有較廣的應(yīng)用范圍,并取得顯著效益,其技術(shù)往往是互相關(guān)聯(lián)的,因此從技術(shù)關(guān)聯(lián)角度來看其是制約眾多技術(shù)突破的關(guān)鍵[23]。
卡脖子技術(shù)則是由我國提出的本土概念,指短時期內(nèi)不易自主研發(fā)、又暫時性無替代產(chǎn)品,且絕對性地依賴于一兩個供應(yīng)商或供應(yīng)國的技術(shù),該類技術(shù)尤其強(qiáng)調(diào)技術(shù)的壟斷性等特征[54]?!爸信d事件”“華為事件”“Matlab被禁事件”等一系列事件均說明了卡脖子技術(shù)對于企業(yè)生死存亡與國家經(jīng)濟(jì)命脈的重要性。2019年我國建立國家技術(shù)安全管理清單制度,致力解決卡脖子技術(shù)問題,從此帶有極強(qiáng)政治因素的卡脖子技術(shù)成為情報分析的焦點。
在眾多產(chǎn)業(yè)技術(shù)情報分析目標(biāo)中,根據(jù)優(yōu)先級劃分,卡脖子技術(shù)最為迫切,顛覆性技術(shù)次之,然后是突破性技術(shù)。卡脖子技術(shù)可能是顛覆性技術(shù),也可能不屬顛覆性技術(shù),顛覆性技術(shù)中也可能有卡脖子的,但是卡脖子技術(shù)、顛覆性技術(shù)均隸屬于突破性技術(shù),突破性技術(shù)必然也是新興技術(shù)。不同產(chǎn)業(yè)技術(shù)情報分析目標(biāo)不是并列的關(guān)系,而是你中有我、交叉嵌套的關(guān)系,隨著優(yōu)先級遞增,情報分析深度越大,機(jī)密程度也越高。
本文在數(shù)據(jù)密集型研究范式轉(zhuǎn)變大環(huán)境下,基于數(shù)據(jù)驅(qū)動思維,強(qiáng)調(diào)革新產(chǎn)業(yè)技術(shù)情報分析方法論。根據(jù)數(shù)據(jù)表現(xiàn)形式的不同,目前產(chǎn)業(yè)技術(shù)數(shù)據(jù)主要有文本、音頻、圖像、視頻、網(wǎng)絡(luò)等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),分析數(shù)據(jù)特征及其處理模式,可以發(fā)現(xiàn)音頻數(shù)據(jù)雖然具有獨特的聲紋特質(zhì),但對于產(chǎn)業(yè)技術(shù)情報分析而言這種聲紋特質(zhì)并無太大價值,通常將其轉(zhuǎn)換為相應(yīng)的文本,然后對文本內(nèi)容進(jìn)行挖掘,即其處理模式可借助文本挖掘?qū)崿F(xiàn);對于視頻數(shù)據(jù),視頻的本質(zhì)是動態(tài)的圖像,雖然處理難度大于普通靜態(tài)的圖像,但其處理模式仍歸屬圖像挖掘范疇。從數(shù)據(jù)來源來看,網(wǎng)絡(luò)數(shù)據(jù)(network data)雖然可以從文本、圖像等數(shù)據(jù)中析出,但是從計算方式來看,對網(wǎng)絡(luò)數(shù)據(jù)的預(yù)處理、檢索、挖掘以及存儲操作與文本、圖像等完全不同。因此,根據(jù)產(chǎn)業(yè)技術(shù)數(shù)據(jù)類型和數(shù)據(jù)計算方式,可以將產(chǎn)業(yè)技術(shù)目前所涉及到的數(shù)據(jù)處理模式歸納為文本、網(wǎng)絡(luò)和圖像三種核心數(shù)據(jù)處理模式。
鑒于此,本文構(gòu)建融合文本挖掘、圖挖掘和圖像挖掘的產(chǎn)業(yè)技術(shù)情報分析方法體系,其方法框架如圖2所示:
數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系框架,主要針對持續(xù)性技術(shù)、突破性技術(shù)、顛覆性技術(shù)、新興技術(shù)、共性技術(shù)和卡脖子技術(shù)六大產(chǎn)業(yè)技術(shù)情報分析目標(biāo),強(qiáng)調(diào)通過文本挖掘、圖挖掘、圖像挖掘等三大方法體系,實現(xiàn)識別、預(yù)測、評估和預(yù)警四大情報分析任務(wù)。在四大情報分析任務(wù)中,識別主要包括對產(chǎn)業(yè)技術(shù)類型、產(chǎn)業(yè)技術(shù)狀態(tài)、產(chǎn)業(yè)技術(shù)脈絡(luò)以及異常產(chǎn)業(yè)技術(shù)等進(jìn)行一系列識別;預(yù)測主要包括對產(chǎn)業(yè)技術(shù)的發(fā)展趨勢、創(chuàng)新擴(kuò)散、影響力、關(guān)系等預(yù)測;評估主要包括對產(chǎn)業(yè)技術(shù)狀態(tài)、影響、結(jié)構(gòu)組成以及未來進(jìn)行評估;預(yù)警主要包括對產(chǎn)業(yè)技術(shù)的異常狀態(tài)、異常產(chǎn)業(yè)技術(shù)、技術(shù)差異、異常趨勢等預(yù)警。
圖2 ?數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析核心方法體系框架Fig. 2 The Core Method Framework of Data-driven Information Analysis of Industrial Technology
六大產(chǎn)業(yè)技術(shù)情報分析目標(biāo),可分別圍繞四大情報分析任務(wù)展開,任何一類產(chǎn)業(yè)技術(shù)可能都需要涉及識別、預(yù)測、評估、預(yù)警等任務(wù),每一種情報分析任務(wù)對六大產(chǎn)業(yè)技術(shù)同樣也都適用。四大情報分析任務(wù)與三大方法體系之間是可以直接完全對接融合在一起的,不存在任何割裂關(guān)系,任何一種情報分析任務(wù)的開展可能都需要三大方法體系的支持。三大方法體系同時也可以用于任何一種情報分析任務(wù)和任何一類產(chǎn)業(yè)技術(shù)的情報分析。六大產(chǎn)業(yè)技術(shù)在應(yīng)用三大方法體系時,主要體現(xiàn)在形形色色的數(shù)據(jù)中,一類數(shù)據(jù)對應(yīng)一類方法,多源異構(gòu)數(shù)據(jù)則對應(yīng)多種方法??偠灾瑪?shù)據(jù)驅(qū)動范式下的產(chǎn)業(yè)技術(shù)情報分析中,文本數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、圖像數(shù)據(jù)三類核心數(shù)據(jù)是力量之源,文本挖掘、圖挖掘、圖像挖掘三大核心方法體系是方法之劍,識別、預(yù)測、評估、預(yù)警是情報分析的四大任務(wù),而實現(xiàn)對六大產(chǎn)業(yè)技術(shù)的情報分析是終極目標(biāo)。
文本數(shù)據(jù)(text data)是產(chǎn)業(yè)技術(shù)最廣泛的載體,如科學(xué)文獻(xiàn)、專利文本、政策文本、新聞報道以及專家與學(xué)者對技術(shù)的評價與觀點信息等,如何從文本大數(shù)據(jù)中識別出相關(guān)產(chǎn)業(yè)技術(shù),并根據(jù)文本特征對產(chǎn)業(yè)技術(shù)進(jìn)行分類和預(yù)測,是文本數(shù)據(jù)驅(qū)動產(chǎn)業(yè)技術(shù)情報分析模式研究的關(guān)鍵[55]。如圖3所示,將產(chǎn)業(yè)技術(shù)文本數(shù)據(jù)轉(zhuǎn)化為情報,其核心在于文本挖掘(text mining)等情報分析方法的融合。
文本挖掘是一種從文本數(shù)據(jù)中抽取隱含的、未知的、潛在有用的模式、關(guān)聯(lián)、規(guī)律和知識發(fā)現(xiàn)的過程[56],需要依據(jù)自然語言處理(Natural Language Processing,NLP)等模式進(jìn)行文本預(yù)處理,進(jìn)而進(jìn)行文本解碼(text encoding)、文本相似度計算(text similarity)、文本分類(text categorization)、文本聚類(text clustering)、文本自動摘要(text summarization)、文本自動管理(automatic text management)等處理。面向產(chǎn)業(yè)技術(shù)的文本挖掘情報分析方法,強(qiáng)調(diào)在廣泛收集產(chǎn)業(yè)技術(shù)文本數(shù)據(jù)的基礎(chǔ)上,有效清洗、處理文本數(shù)據(jù),結(jié)合具體的產(chǎn)業(yè)技術(shù)識別、預(yù)測任務(wù),從海量文本數(shù)據(jù)中識別、提取文本特征,即在文本表示學(xué)習(xí)的基礎(chǔ)上輔以機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等方法,以實現(xiàn)產(chǎn)業(yè)技術(shù)情報分析目標(biāo)。其關(guān)鍵在于,針對海量的文本數(shù)據(jù),如何提取文本中相關(guān)產(chǎn)業(yè)技術(shù)的特征,相比Bert動則上億個參數(shù),如何借鑒Sentence-BERT、SBERT-WK等輕量級算法[57],改進(jìn)并融合到產(chǎn)業(yè)技術(shù)文本挖掘方法體系中,是文本數(shù)據(jù)驅(qū)動情報分析研究的重點。
網(wǎng)絡(luò)數(shù)據(jù)是產(chǎn)業(yè)技術(shù)實體和關(guān)系最有力的表達(dá)方式之一,其以節(jié)點(node)代表相關(guān)產(chǎn)業(yè)技術(shù)及屬性,以邊(relation)代表產(chǎn)業(yè)技術(shù)之間的復(fù)雜關(guān)系,如產(chǎn)業(yè)技術(shù)相關(guān)知識網(wǎng)絡(luò)、合作網(wǎng)絡(luò)、引證網(wǎng)絡(luò)、價值鏈、集群網(wǎng)絡(luò)以及相關(guān)產(chǎn)業(yè)技術(shù)知識圖譜等,網(wǎng)絡(luò)數(shù)據(jù)又統(tǒng)稱為圖數(shù)據(jù)(graph data),因此如圖4所示,將產(chǎn)業(yè)技術(shù)網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化為情報的核心在于圖挖掘(graph mining)等情報分析方法的融合。
圖3 ?文本數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法Fig.3 Industrial Technology Information Analysis Driven by Text Data
圖挖掘是一種對圖(graph)或網(wǎng)絡(luò)數(shù)據(jù)中潛在的、未知的結(jié)構(gòu)、模式、規(guī)律等識別和預(yù)測的過程,其復(fù)雜程度超遠(yuǎn)單一的圖計算(graph computation)[58]。面向產(chǎn)業(yè)技術(shù)的圖挖掘情報分析方法,強(qiáng)調(diào)在合理識別和抽取節(jié)點與關(guān)系的基礎(chǔ)上,完成同構(gòu)、異構(gòu)等不同類型圖構(gòu)建,運用圖聚類、路徑計算、子圖識別、影響力計算等方法對圖中的節(jié)點和關(guān)系進(jìn)行計算[59],根據(jù)節(jié)點影響力識別不同類型的產(chǎn)業(yè)技術(shù),計算和揭示產(chǎn)業(yè)技術(shù)之間的直接與間接關(guān)系,根據(jù)子圖特征對產(chǎn)業(yè)技術(shù)集群進(jìn)行識別,并對相關(guān)產(chǎn)業(yè)技術(shù)之間未來的關(guān)系進(jìn)行預(yù)測。例如Common Neighbors、Admic Adar、Jaccard Coefficient等節(jié)點相似度計算模型,Shortest Path、Katz、FriendLink、Random Walk等關(guān)系相似度計算模型,Deepwalk、Node2vec、Edge2vec、SDNE等同構(gòu)網(wǎng)絡(luò)無監(jiān)督特征自學(xué)習(xí)模型,以及Metapath2vec、W-Metapath2vec[60]、TransPath[61]等異構(gòu)網(wǎng)絡(luò)特征自學(xué)習(xí)模型。
目前在圖挖掘方面比較受關(guān)注的當(dāng)屬廣度學(xué)習(xí)(broading learning)和 圖 神 經(jīng) 網(wǎng) 絡(luò)(Graph Neural Network,GNN)等算法模型。其中,廣度學(xué)習(xí)主要針對異構(gòu)網(wǎng)絡(luò),強(qiáng)調(diào)如何在異構(gòu)網(wǎng)絡(luò)中進(jìn)行圖挖掘,比較適用于產(chǎn)業(yè)技術(shù)多源異構(gòu)網(wǎng)絡(luò)數(shù)據(jù),可進(jìn)行識別、預(yù)測、預(yù)警等多種情報分析任務(wù),例如CCMF(Crossnetwork Collaborative Matrix Factorization)、HUMOR (HeterogeneoUs Multi-sOurce ClusteRing)、ILSTM(Improved Long Short-Term Memory)等算法模型[62]。圖神經(jīng)網(wǎng)絡(luò)則適用于任何一種網(wǎng)絡(luò)數(shù)據(jù),例如LGNN(Layered Graph Neural Network)、GGS-NN(Gated Graph Sequence Neural Network)、GPNN(Graph Parsing Neural Network)等算法模型[63]。隨著GNN的創(chuàng)新應(yīng)用和企業(yè)級應(yīng)用開放,上千億級關(guān)系的大型圖可在14小時內(nèi)完成訓(xùn)練,在1.2個小時內(nèi)完成后續(xù)推理預(yù)測工作[64]。隨著圖機(jī)器學(xué)習(xí)(Graph Machine Learning,GML)的發(fā)展和逐漸成熟,基于圖挖掘的產(chǎn)業(yè)技術(shù)情報分析,將成為科技尖兵開展情報工作必不可少的利器。
圖4 ?網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法Fig.4 Industrial Technology Information Analysis Driven by Network Data
圖像數(shù)據(jù)也是產(chǎn)業(yè)技術(shù)重要的載體,如產(chǎn)業(yè)技術(shù)相關(guān)專利圖紙、設(shè)計圖紙、實驗圖像以及競爭產(chǎn)品圖像等,無論是動態(tài)的視頻,亦或?qū)崟r監(jiān)控的錄像與拍照,都是情報分析重要的圖像數(shù)據(jù)。如圖5所示,將產(chǎn)業(yè)技術(shù)圖像數(shù)據(jù)轉(zhuǎn)化為產(chǎn)業(yè)技術(shù)情報,需要根據(jù)情報分析需求,對相關(guān)圖像進(jìn)行切割、模式識別、特征提取等,根據(jù)圖像所包含的內(nèi)容進(jìn)行產(chǎn)業(yè)技術(shù)識別和預(yù)測,圖像挖掘(image mining)等情報分析方法是實施的關(guān)鍵。
圖像挖掘是一種利用計算機(jī)視覺(computer version)技術(shù)從圖像、視頻等數(shù)據(jù)中抽取信息和進(jìn)行知識發(fā)現(xiàn)的過程[65-66]。面向產(chǎn)業(yè)技術(shù)的圖像挖掘情報分析方法,強(qiáng)調(diào)融合計算機(jī)視覺、圖像處理、圖像檢索、統(tǒng)計學(xué)等多種技術(shù)為一體,在對圖像處理的基礎(chǔ)上,根據(jù)情報任務(wù)對圖像進(jìn)行分類、聚類以及匹配等,并結(jié)合專家主觀數(shù)據(jù)對從圖像中識別和預(yù)見的產(chǎn)業(yè)技術(shù)進(jìn)行修正,完成情報任務(wù)。例如,在進(jìn)行產(chǎn)業(yè)技術(shù)情報分析時,往往會遇到大量PDF格式的數(shù)據(jù)無法直接被機(jī)器閱讀,此時解析PDF就勢必需要借助圖像挖掘技術(shù)[67]。
面向產(chǎn)業(yè)技術(shù)情報分析的圖像挖掘,其關(guān)鍵在于提高機(jī)器對產(chǎn)業(yè)技術(shù)相關(guān)圖像的理解以及提高圖像數(shù)據(jù)中產(chǎn)業(yè)技術(shù)類別識別的準(zhǔn)確率,例如移植和改進(jìn)R-CNN(Regions with CNN features)、Fast R-CNN、Faster RCNN、YOLOv1(You Only Look Once)、SSD、RetinaNet等圖像挖掘算法,從人臉支付、自動駕駛、廣告檢測等領(lǐng)域,遷移到產(chǎn)業(yè)技術(shù)圖像情報分析中來。相對于其他領(lǐng)域比較廣泛和容易獲取的圖像數(shù)據(jù)而言,產(chǎn)業(yè)技術(shù)相關(guān)圖像數(shù)據(jù)卻常常難以獲取,獲取的完整度也大打折扣,而具有成熟標(biāo)注的產(chǎn)業(yè)技術(shù)圖像數(shù)據(jù)庫則更為稀少。產(chǎn)業(yè)技術(shù)情報分析作為科技尖兵,不應(yīng)對海量而豐富的圖像數(shù)據(jù)“熟視無睹”,不能成為“睜眼瞎”,科技情報領(lǐng)域的學(xué)者應(yīng)當(dāng)積極推進(jìn)圖像挖掘算法在產(chǎn)業(yè)技術(shù)情報分析方面的創(chuàng)新應(yīng)用,進(jìn)而形成面向科技情報分析的圖像挖掘方法研究體系。
新時期我國產(chǎn)業(yè)技術(shù)的發(fā)展面臨著更多的挑戰(zhàn)和阻礙,為了更好地服務(wù)產(chǎn)業(yè)技術(shù)發(fā)展、賦能產(chǎn)業(yè)技術(shù)決策,我國更應(yīng)該創(chuàng)新情報分析理念,摒除落后的情報分析手段以及固有的情報文化障礙,積極融合新興技術(shù),創(chuàng)新我國產(chǎn)業(yè)技術(shù)情報分析方法體系,重塑數(shù)據(jù)戰(zhàn)略浪潮下的科技“尖兵”,服務(wù)國家創(chuàng)新發(fā)展戰(zhàn)略。
本文梳理了目前產(chǎn)業(yè)技術(shù)情報分析中采用的方法,簡述了各種分析方法的研究機(jī)理和特點,論證了大數(shù)據(jù)環(huán)境下的情報分析模式及對應(yīng)的情報分析目標(biāo),整合并構(gòu)建數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系框架,著力塑造與文本數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、圖像數(shù)據(jù)等相對應(yīng)的文本挖掘、圖挖掘、圖像挖掘方法體系,針對產(chǎn)業(yè)技術(shù)不同的情報分析目標(biāo),打造與之相匹配的情報分析模式。
圖5 圖像數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法Fig. 5 Industrial Technology Information Analysis Driven by Image Data
數(shù)據(jù)驅(qū)動的產(chǎn)業(yè)技術(shù)情報分析方法體系,絕不僅僅是單一維度方面的數(shù)據(jù),文本挖掘、圖挖掘、圖像挖掘等產(chǎn)業(yè)技術(shù)分析模式,雖然自成一體,各有其適用的場景和獨特要求,但也互補(bǔ)互成,無論是方法層面的核心思想,還是應(yīng)用層面的靈活改進(jìn),均可相互借鑒,例如借鑒文本表示學(xué)習(xí)思想形成的網(wǎng)絡(luò)表示學(xué)習(xí),借鑒文本預(yù)訓(xùn)練模型Bert形成的圖網(wǎng)絡(luò)的預(yù)訓(xùn)練Graph-Bert[68],以及將圖像數(shù)據(jù)當(dāng)作一種特殊的圖數(shù)據(jù),利用圖神經(jīng)網(wǎng)絡(luò)(GNN)進(jìn)行圖像挖掘創(chuàng)新應(yīng)用等。數(shù)據(jù)驅(qū)動強(qiáng)調(diào)多維數(shù)據(jù)整合、多源異構(gòu)數(shù)據(jù)融合,從特征層面、模型層面、決策層面形成一體的融合機(jī)制,面向產(chǎn)業(yè)技術(shù)情報分析中的識別、預(yù)測、決策、預(yù)警等任務(wù),全面搜集數(shù)據(jù)、充分利用數(shù)據(jù),凝練形成新的產(chǎn)業(yè)技術(shù)情報分析方法體系。
作者貢獻(xiàn)說明
霍朝光:研究設(shè)計,論文撰寫;
盧小賓:研究設(shè)計,論文撰寫;
楊冠燦:論文修改;
霍帆帆:資料收集,參與修訂;