国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于專(zhuān)利文本挖掘的細(xì)粒度技術(shù)機(jī)會(huì)分析

2023-11-21 09:48:50吳柯燁孫建軍謝紫悅
情報(bào)學(xué)報(bào) 2023年10期
關(guān)鍵詞:細(xì)粒度鏈路機(jī)會(huì)

吳柯燁,孫建軍,謝紫悅

(1. 南京大學(xué)信息管理學(xué)院,南京 210023;2. 南京大學(xué)數(shù)據(jù)智能與交叉創(chuàng)新實(shí)驗(yàn)室,南京 210023)

0 引 言

隨著新一輪的科技革命與產(chǎn)業(yè)變革席卷全球,科技已逐漸成為評(píng)估國(guó)家綜合實(shí)力、促進(jìn)社會(huì)經(jīng)濟(jì)轉(zhuǎn)型、提升企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵變量。及時(shí)洞悉技術(shù)發(fā)展變化并快速識(shí)別潛在機(jī)會(huì),不僅是各級(jí)科研單位實(shí)現(xiàn)自主創(chuàng)新,攻克核心技術(shù)壁壘,國(guó)家提升科技競(jìng)爭(zhēng)力的必經(jīng)之路;更是技術(shù)密集型企業(yè)高效管理生產(chǎn)活動(dòng),合理調(diào)配研發(fā)資源,提高科技成果轉(zhuǎn)化率的先決條件。因此,技術(shù)機(jī)會(huì)分析對(duì)于技術(shù)創(chuàng)新活動(dòng)的開(kāi)展,具有重大的戰(zhàn)略指導(dǎo)意義。

為清晰識(shí)別不同場(chǎng)景下的技術(shù)機(jī)會(huì),滿(mǎn)足企業(yè)的異質(zhì)性需求,技術(shù)機(jī)會(huì)分析需要對(duì)于復(fù)雜技術(shù)創(chuàng)新系統(tǒng)進(jìn)行細(xì)粒度拆解。鑒于此,現(xiàn)有研究通常以關(guān)鍵詞形式細(xì)粒度地表征領(lǐng)域知識(shí),并采用技術(shù)主題或SAO (subject-action-object) 語(yǔ)義結(jié)構(gòu)表示技術(shù)機(jī)會(huì)[1]。然而,此類(lèi)方法主要依賴(lài)于專(zhuān)家預(yù)先定義的領(lǐng)域?qū)I(yè)詞表來(lái)確定領(lǐng)域關(guān)鍵詞[2],知識(shí)體系較為固化,難以匹配技術(shù)的動(dòng)態(tài)發(fā)展;而技術(shù)機(jī)會(huì)又具備較強(qiáng)的時(shí)效性,應(yīng)精準(zhǔn)適配當(dāng)下的環(huán)境變遷與技術(shù)發(fā)展。因此,技術(shù)機(jī)會(huì)分析的前提工作是實(shí)現(xiàn)自動(dòng)化構(gòu)建細(xì)粒度領(lǐng)域知識(shí)網(wǎng)絡(luò)并探究其演化路徑。只有在清晰掌握領(lǐng)域知識(shí)全貌、明確技術(shù)生命周期的基礎(chǔ)上,才能精準(zhǔn)且高效地開(kāi)展技術(shù)機(jī)會(huì)識(shí)別和分析。

另外,在學(xué)科交叉與技術(shù)融合的大背景下,知識(shí)重組儼然成為了技術(shù)機(jī)會(huì)的核心特征[3]。通過(guò)整合來(lái)自不同領(lǐng)域的知識(shí),可以有效解決復(fù)雜技術(shù)難題,推動(dòng)技術(shù)發(fā)展。組合性和遞歸性作為技術(shù)的本質(zhì)特征,使得技術(shù)需依賴(lài)于自身結(jié)構(gòu)完成自循環(huán)式的進(jìn)化[4],因此,現(xiàn)有研究通常從知識(shí)挖掘與組合的角度開(kāi)展定量化技術(shù)機(jī)會(huì)分析[5]。鏈路預(yù)測(cè)法通過(guò)測(cè)算網(wǎng)絡(luò)中每一對(duì)節(jié)點(diǎn)產(chǎn)生鏈接可能性的鏈路預(yù)測(cè)法,不僅能夠最細(xì)粒度地直觀體現(xiàn)知識(shí)元素間關(guān)聯(lián)性,還可以靈活地應(yīng)用于大規(guī)模的圖結(jié)構(gòu)數(shù)據(jù),是技術(shù)機(jī)會(huì)分析的主流方法之一。然而,該類(lèi)研究中所采用的鏈路預(yù)測(cè)指標(biāo)較為傳統(tǒng),一方面對(duì)圖結(jié)構(gòu)信息的捕獲能力有限,另一方面又依賴(lài)于固定的前提假設(shè),只抽取片面的節(jié)點(diǎn)或圖結(jié)構(gòu)特征,難以整合技術(shù)機(jī)會(huì)分析所需要的多方面信息,預(yù)測(cè)精度已達(dá)瓶頸。

鑒于此,本文以專(zhuān)利文本為數(shù)據(jù)源,利用文本挖掘、網(wǎng)絡(luò)分析、鏈路預(yù)測(cè)、深度學(xué)習(xí)等多種方法構(gòu)建了一套細(xì)粒度技術(shù)機(jī)會(huì)分析框架。該分析框架的優(yōu)勢(shì)主要包括:①基于關(guān)鍵詞的多維度文本特征構(gòu)建了特定領(lǐng)域下的技術(shù)知識(shí)網(wǎng)絡(luò),克服領(lǐng)域知識(shí)表征不準(zhǔn)確、不全面等問(wèn)題。在此基礎(chǔ)上開(kāi)展的技術(shù)演化分析有助于把握技術(shù)發(fā)展脈絡(luò),為技術(shù)機(jī)會(huì)識(shí)別提供方向指引。②將BERT (bidirectional encoder representations from transformers) 預(yù)訓(xùn)練向量模型與圖自編碼器模型有機(jī)結(jié)合,充分捕獲并融合了詞語(yǔ)間共現(xiàn)關(guān)系特征及自身語(yǔ)義特征,顯著提升知識(shí)網(wǎng)絡(luò)鏈路預(yù)測(cè)精度,為技術(shù)機(jī)會(huì)分析產(chǎn)出高質(zhì)量候選集。③基于產(chǎn)業(yè)鏈結(jié)構(gòu)和鏈路預(yù)測(cè)結(jié)果,佐以多源技術(shù)發(fā)展報(bào)告,模塊化產(chǎn)出并驗(yàn)證細(xì)粒度的技術(shù)機(jī)會(huì)。

1 研究綜述

根據(jù)Lee[6]總結(jié)的技術(shù)預(yù)測(cè)研究框架,現(xiàn)有技術(shù)機(jī)會(huì)分析可大致劃分為4 個(gè)步驟:數(shù)據(jù)收集、技術(shù)知識(shí)測(cè)度、技術(shù)機(jī)會(huì)挖掘以及技術(shù)機(jī)會(huì)評(píng)估。其中,專(zhuān)利作為技術(shù)研發(fā)的成果文件,最直接地反映了技術(shù)本身的發(fā)展現(xiàn)狀和演化過(guò)程,是技術(shù)機(jī)會(huì)分析最主要的數(shù)據(jù)來(lái)源[7-8]。由于研究對(duì)象和研究場(chǎng)景的差異,各研究在技術(shù)知識(shí)測(cè)度、技術(shù)機(jī)會(huì)挖掘等環(huán)節(jié)存在異同,但也呈現(xiàn)一定的研究特點(diǎn)和趨勢(shì)。

1.1 技術(shù)知識(shí)測(cè)度單元日趨細(xì)化

技術(shù)機(jī)會(huì)被認(rèn)為是“技術(shù)進(jìn)步可能性的集合”,而這種可能性往往蘊(yùn)藏于細(xì)微的技術(shù)變化之中[9]。傳統(tǒng)的技術(shù)機(jī)會(huì)分析方法通常采用粗粒度的IPC(international patent classification) 分類(lèi)號(hào)或單篇專(zhuān)利表征技術(shù)知識(shí),無(wú)法從微觀層面對(duì)技術(shù)細(xì)節(jié)變化實(shí)施監(jiān)測(cè)。譬如,Kim 等[10]基于異常值檢測(cè)方法在專(zhuān)利引文網(wǎng)絡(luò)中識(shí)別出離群專(zhuān)利,并從中析出未來(lái)技術(shù)創(chuàng)新方向。然而,離群專(zhuān)利所涵蓋的技術(shù)知識(shí)十分廣泛,難以表征確切的技術(shù)機(jī)會(huì)方向,可解釋性較弱。

隨著自然語(yǔ)言處理的進(jìn)步和發(fā)展,基于專(zhuān)利文本內(nèi)容的細(xì)粒度技術(shù)知識(shí)挖掘與技術(shù)測(cè)度受到大多數(shù)學(xué)者的青睞。以主題[11]、關(guān)鍵詞[1]和關(guān)鍵詞組[12]等作為技術(shù)知識(shí)的最基本表示單元,為技術(shù)機(jī)會(huì)分析提供語(yǔ)義特征,更精準(zhǔn)地揭示技術(shù)內(nèi)容和細(xì)節(jié)。Tshitoyan 等[12]基于領(lǐng)域關(guān)鍵詞表利用word2vec 模型訓(xùn)練出材料科學(xué)領(lǐng)域的關(guān)鍵詞向量,以達(dá)到超前預(yù)測(cè)材料功能性應(yīng)用的目的;Feng 等[2]利用TF-IDF(term frequency-inverse document frequency) 指標(biāo)并佐以專(zhuān)家知識(shí)識(shí)別特定領(lǐng)域下的技術(shù)創(chuàng)新元素。

然而,此類(lèi)測(cè)度方式通常初始化于固化的領(lǐng)域知識(shí),無(wú)法匹配技術(shù)的多維度、跨領(lǐng)域發(fā)展與應(yīng)用,難以動(dòng)態(tài)揭示領(lǐng)域全貌,且僅依據(jù)單一的詞語(yǔ)特征,如詞頻或TF-IDF 指標(biāo),抽取的領(lǐng)域關(guān)鍵詞較為片面,無(wú)法精準(zhǔn)捕獲新興知識(shí)元素。鑒于此,本文集成了TF-IDF、RAKE (rapid automatic keyword extraction) 和BERT 這3 種關(guān)鍵詞抽取算法,綜合考量詞語(yǔ)的詞頻、語(yǔ)法結(jié)構(gòu)以及語(yǔ)義特征,從細(xì)粒度與自動(dòng)化兩個(gè)方面入手,實(shí)現(xiàn)對(duì)技術(shù)領(lǐng)域知識(shí)的抽取與知識(shí)網(wǎng)絡(luò)的組織,有效避免了固有領(lǐng)域知識(shí)的參與。

1.2 技術(shù)機(jī)會(huì)挖掘注重知識(shí)關(guān)聯(lián)性

現(xiàn)有研究中機(jī)會(huì)挖掘方法未形成統(tǒng)一范式,呈現(xiàn)百花齊放的態(tài)勢(shì),主要包含技術(shù)空白法、形態(tài)分析法、異常值檢測(cè)法、科學(xué)與技術(shù)關(guān)聯(lián)性法、鏈路預(yù)測(cè)法等主流機(jī)會(huì)挖掘方法[13-14]。根據(jù)分析方法的不同,各研究涉及的技術(shù)機(jī)會(huì)分析環(huán)節(jié)上存在較為明顯的差異,如表1 所示。

表1 不同機(jī)會(huì)挖掘方法所涉及的知識(shí)測(cè)度與機(jī)會(huì)表示差異

雖然技術(shù)機(jī)會(huì)表征形式不一,但是其本質(zhì)均是揭示技術(shù)知識(shí)之間的關(guān)聯(lián)性。在針對(duì)技術(shù)空白的相關(guān)研究中,龔惠群等[16]、Lee 等[17]以領(lǐng)域關(guān)鍵詞作為技術(shù)信息載體,采用主成分分析法降維并生成專(zhuān)利地圖,將地圖中的空白區(qū)域定義為所研究領(lǐng)域的技術(shù)機(jī)會(huì)。在探索科學(xué)與技術(shù)關(guān)聯(lián)性的相關(guān)研究中,黃魯成等[22]通過(guò)主題聚類(lèi)和SAO 結(jié)構(gòu)相似度從語(yǔ)義層面細(xì)粒度地揭示科學(xué)與技術(shù)間主題差異性,將此種差異性解釋為可能出現(xiàn)的技術(shù)機(jī)會(huì)。由此可見(jiàn),大多數(shù)學(xué)者是以知識(shí)元素間的組合關(guān)聯(lián)或差異歸納來(lái)表達(dá)技術(shù)機(jī)會(huì)的主要特征[14],從知識(shí)挖掘和組合的角度開(kāi)展技術(shù)機(jī)會(huì)分析[5]。

鏈接預(yù)測(cè)作為上述方法中最能直接體現(xiàn)知識(shí)之間關(guān)聯(lián)性的技術(shù)機(jī)會(huì)挖掘方法,主要從特定領(lǐng)域的技術(shù)知識(shí)網(wǎng)絡(luò)出發(fā),通過(guò)鏈路預(yù)測(cè)指標(biāo)計(jì)算網(wǎng)絡(luò)中未來(lái)最有可能產(chǎn)生鏈接的“IPC 對(duì)”[25]或“關(guān)鍵詞對(duì)”[12]。但是,此類(lèi)研究中所采取的鏈路預(yù)測(cè)指標(biāo)均需要具備較強(qiáng)的前提假設(shè)和應(yīng)用場(chǎng)景。譬如,AA(Adamic-Adar)[26]指標(biāo)在社交網(wǎng)絡(luò)中具有很強(qiáng)的解釋性,認(rèn)為兩個(gè)節(jié)點(diǎn)的共同領(lǐng)域中度小的節(jié)點(diǎn)貢獻(xiàn)大于度大的節(jié)點(diǎn),即若兩位用戶(hù)同時(shí)處在某一位小博主的朋友圈內(nèi),則可能產(chǎn)生較高的鏈接概率;反之,若兩位用戶(hù)同時(shí)是一位名人的粉絲,則其相互認(rèn)識(shí)的概率較小。但知識(shí)元素間的共現(xiàn)關(guān)系可能并不會(huì)受到“明星”節(jié)點(diǎn)的影響,一切與研究熱點(diǎn)相關(guān)的知識(shí)元素都可能在未來(lái)產(chǎn)生聯(lián)動(dòng),促成相關(guān)技術(shù)的創(chuàng)新與發(fā)展,因此,該指標(biāo)并不適用于技術(shù)知識(shí)網(wǎng)絡(luò)。

圖神經(jīng)網(wǎng)絡(luò)方法的興起為解決上述問(wèn)題提供了契機(jī),該方法有效避免了預(yù)定義節(jié)點(diǎn)間相似度的計(jì)算方式,通過(guò)卷積操作學(xué)習(xí)圖結(jié)構(gòu)信息,并利用節(jié)點(diǎn)向量表征有效地融合了節(jié)點(diǎn)自身特征與圖結(jié)構(gòu)特征,為鏈路預(yù)測(cè)任務(wù)提供豐富信息。其中,圖自編碼器[27]作為該類(lèi)方法的開(kāi)篇之作,在各領(lǐng)域中有著廣泛的應(yīng)用。譬如,自編碼器模型在生物領(lǐng)域中常被用于預(yù)測(cè)人類(lèi)基因與疾病之間關(guān)聯(lián)性,經(jīng)驗(yàn)證其具備較高的準(zhǔn)確性和魯棒性[28-29]。在社交網(wǎng)絡(luò)中,圖自編碼器也已經(jīng)成為商品推薦、消息推送等任務(wù)的主流推薦算法[30]。另外,在交通領(lǐng)域,學(xué)者們基于圖自編碼器對(duì)交通流量[31]、交通事故[32]和交通需求等實(shí)現(xiàn)了智能化的時(shí)空預(yù)測(cè)[33]。類(lèi)似地,本文將圖自編碼器模型應(yīng)用于技術(shù)機(jī)會(huì)挖掘,在大規(guī)模的技術(shù)知識(shí)網(wǎng)絡(luò)中識(shí)別出未來(lái)可能產(chǎn)生鏈接的知識(shí)元素對(duì),為后續(xù)技術(shù)機(jī)會(huì)分析提供高質(zhì)量的候選集。

2 研究框架及方法

結(jié)合現(xiàn)有研究特點(diǎn)和存在問(wèn)題,本文設(shè)計(jì)了如圖1 所示的基于專(zhuān)利文本挖掘的細(xì)粒度技術(shù)機(jī)會(huì)分析框架,以關(guān)鍵詞或詞組的形式細(xì)粒度表征技術(shù)知識(shí),并采用關(guān)鍵詞或詞組的組合關(guān)系表征技術(shù)機(jī)會(huì),凸顯技術(shù)機(jī)會(huì)的知識(shí)關(guān)聯(lián)特性。該分析框架主要包含知識(shí)網(wǎng)絡(luò)構(gòu)建及演化分析、知識(shí)元素鏈路預(yù)測(cè)以及技術(shù)機(jī)會(huì)評(píng)估與篩選3 個(gè)模塊。下文將著重介紹技術(shù)知識(shí)網(wǎng)絡(luò)構(gòu)建方法和知識(shí)元素鏈路預(yù)測(cè)方法。

圖1 基于專(zhuān)利文本挖掘的細(xì)粒度技術(shù)機(jī)會(huì)分析框架

2.1 技術(shù)知識(shí)網(wǎng)絡(luò)構(gòu)建及演化分析方法

在知識(shí)網(wǎng)絡(luò)構(gòu)建方面,本文秉持知識(shí)表征的細(xì)粒度原則,基于“關(guān)鍵詞與詞組是知識(shí)最基本的載體單位”這一假設(shè)[34],融合關(guān)鍵詞的多維度特征,自動(dòng)化抽取具有技術(shù)表征能力的知識(shí)元素并構(gòu)建網(wǎng)絡(luò)。如圖2 所示,知識(shí)元素的具體抽取流程依賴(lài)于3 種不同的關(guān)鍵詞抽取算法,分別捕獲專(zhuān)利文本中詞語(yǔ)的詞頻、語(yǔ)法和語(yǔ)義特征。

圖2 知識(shí)元素抽取方法

首先,采用TF-IDF 算法抽取專(zhuān)利文本中的高頻關(guān)鍵字,將其作為知識(shí)元素的必要組成部分。其次,通過(guò)RAKE 模型捕獲詞語(yǔ)之間的共現(xiàn)關(guān)系,識(shí)別出占據(jù)核心語(yǔ)法位置的n-gram 關(guān)鍵詞組[35]。再其次,利用BERT 預(yù)訓(xùn)練模型和向量相似度,計(jì)算得出與文本內(nèi)容最契合的關(guān)鍵短語(yǔ)[36]。需要注意的是,上述兩組關(guān)鍵詞中都必須包含TF-IDF 候選字,以保證領(lǐng)域?qū)V感?。最后,合并RAKE 與BERT 模型的抽取結(jié)果,即可得到同時(shí)具備高詞頻、動(dòng)名詞性以及核心語(yǔ)義等多個(gè)關(guān)鍵特征的技術(shù)知識(shí)元素。在構(gòu)建網(wǎng)絡(luò)連邊方面,為避免知識(shí)元素間的語(yǔ)義重復(fù)性,將網(wǎng)絡(luò)中連邊由簡(jiǎn)單的共現(xiàn)關(guān)系改為僅關(guān)聯(lián)非語(yǔ)義重復(fù)的知識(shí)元素對(duì),即兩個(gè)知識(shí)元素沒(méi)有相同的TF-IDF 關(guān)鍵字才可以建立鏈接。例如,“training sample”和“training set”中都出現(xiàn)training,存在語(yǔ)義重復(fù),即使兩者出現(xiàn)在同一篇專(zhuān)利文獻(xiàn)中彼此也不會(huì)建立鏈接。

另外,為確保技術(shù)機(jī)會(huì)分析的時(shí)效價(jià)值,本文利用復(fù)雜網(wǎng)絡(luò)分析法對(duì)知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行深層次剖析,結(jié)合時(shí)間序列窺探技術(shù)的演化歷程,以此指引技術(shù)機(jī)會(huì)的分析方向。具體來(lái)說(shuō),先利用知識(shí)網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)和連邊數(shù)揭示目標(biāo)技術(shù)的橫縱向發(fā)展趨勢(shì),再利用網(wǎng)絡(luò)密度、平均路徑長(zhǎng)度、聚類(lèi)系數(shù)等網(wǎng)絡(luò)結(jié)構(gòu)指標(biāo),深度挖掘知識(shí)元素間的交融模式,探析領(lǐng)域內(nèi)部知識(shí)討論熱度與成熟度,以此確定各歷史時(shí)期目標(biāo)技術(shù)的發(fā)展形態(tài)及其所處的生命周期。

2.2 技術(shù)機(jī)會(huì)挖掘與評(píng)估方法

在技術(shù)演化的指引下,本文采用圖神經(jīng)網(wǎng)絡(luò)鏈路預(yù)測(cè)方法挖掘各生命周期下所蘊(yùn)藏的細(xì)粒度技術(shù)機(jī)會(huì),利用變分圖自編碼器[27](variational graph auto-encoder,VGAE)及其變體圖自編碼器(graph auto-encoder,GAE)模型開(kāi)展知識(shí)網(wǎng)絡(luò)的鏈路預(yù)測(cè)任務(wù),將知識(shí)元素之間未來(lái)可能產(chǎn)生的鏈接關(guān)系作為技術(shù)機(jī)會(huì)。圖3 描述了基于變分圖自編碼器的技術(shù)機(jī)會(huì)挖掘流程。

圖3 基于變分圖自編碼器的知識(shí)元素鏈路預(yù)測(cè)流程

如圖3 所示,VGAE 由兩層圖卷積神經(jīng)網(wǎng)絡(luò)編碼器與解碼器組成。編碼器的工作思路是通過(guò)學(xué)習(xí)T時(shí)間下可觀測(cè)到的知識(shí)網(wǎng)絡(luò)結(jié)構(gòu),獲取各節(jié)點(diǎn)向量分布的均值μ和方差σ,并據(jù)此從標(biāo)準(zhǔn)高斯分布中采樣,生成新的節(jié)點(diǎn)向量Z。解碼器則是利用節(jié)點(diǎn)向量Z內(nèi)積得到節(jié)點(diǎn)間鏈路預(yù)測(cè)存在的可能性,通過(guò)sigmod 激活函數(shù)將鏈接可能性歸一至0 和1 之間,以實(shí)現(xiàn)知識(shí)網(wǎng)絡(luò)的重構(gòu)和還原,生成預(yù)測(cè)的T+1 時(shí)間下知識(shí)網(wǎng)絡(luò)。在此過(guò)程中,模型通過(guò)反向傳播不斷更新模型參數(shù)(均值μ和方差σ),將真實(shí)網(wǎng)絡(luò)與預(yù)測(cè)網(wǎng)絡(luò)之間的交叉熵和KL (Kullback-Leibler)散度損失值最小化。最終,預(yù)測(cè)所得的T+1 知識(shí)網(wǎng)絡(luò)中鏈路增加的部分被認(rèn)為是可能出現(xiàn)的技術(shù)機(jī)會(huì)。另外,GAE 相較于VGAE 簡(jiǎn)化了編碼步驟,只用了一層圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就得到節(jié)點(diǎn)的向量分布Z,提高了鏈路預(yù)測(cè)的計(jì)算效率。

為驗(yàn)證細(xì)粒度技術(shù)機(jī)會(huì)挖掘的可靠性,首先,本文基于歷史真實(shí)數(shù)據(jù)采用AUC(area under curve)和平均準(zhǔn)確率(average precision,AP)指標(biāo)對(duì)鏈路預(yù)測(cè)結(jié)果進(jìn)行直接的定量評(píng)估,與其他算法進(jìn)行對(duì)比,驗(yàn)證圖自編碼器方法的穩(wěn)定性與魯棒性。其次,綜合多源技術(shù)發(fā)展報(bào)告對(duì)所挖掘出來(lái)的技術(shù)機(jī)會(huì)進(jìn)行二次識(shí)別和評(píng)估。在此過(guò)程中,本文將特定領(lǐng)域的技術(shù)機(jī)會(huì)按照產(chǎn)業(yè)鏈結(jié)構(gòu)進(jìn)行劃分,針對(duì)鏈路預(yù)測(cè)值(連邊可能性)排序靠前的多對(duì)知識(shí)元素及其組合關(guān)系在技術(shù)發(fā)展報(bào)告中進(jìn)行循證,以確定特定領(lǐng)域在各產(chǎn)業(yè)鏈環(huán)節(jié)上的技術(shù)機(jī)會(huì)。

3 計(jì)算機(jī)視覺(jué)領(lǐng)域?qū)嵶C研究

為探究本文所提出分析框架的實(shí)際效用,選取典型交叉技術(shù)領(lǐng)域——計(jì)算機(jī)視覺(jué)作為研究對(duì)象,開(kāi)展實(shí)證研究。其主要原因有兩點(diǎn):一是在融合發(fā)展范式的驅(qū)動(dòng)下,交叉領(lǐng)域存在大量潛在的技術(shù)發(fā)展機(jī)遇,如人工智能、生物信息學(xué)等,是各國(guó)各企業(yè)技術(shù)競(jìng)爭(zhēng)的焦點(diǎn),對(duì)該類(lèi)領(lǐng)域的技術(shù)機(jī)會(huì)分析具有實(shí)際意義;二是交叉領(lǐng)域的技術(shù)覆蓋面廣泛,本身存在多學(xué)科參與、多場(chǎng)景應(yīng)用的特征,其技術(shù)機(jī)會(huì)出現(xiàn)的方向和維度具有不確定性,能夠有效檢驗(yàn)本文所提出的分析框架的魯棒性。

3.1 知識(shí)網(wǎng)絡(luò)構(gòu)建及技術(shù)演化分析

3.1.1 知識(shí)網(wǎng)絡(luò)構(gòu)建

在數(shù)據(jù)收集方面,本文基于中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(Artificial Intelligence Industry Alliance,AIIA)所制定的計(jì)算機(jī)視覺(jué)專(zhuān)利檢索式[37],從德文特?cái)?shù)據(jù)庫(kù)中共抽取82535 條相關(guān)專(zhuān)利。鑒于專(zhuān)利的公開(kāi)具有滯后期,與2020 年(10632 件) 相比,2021 年的專(zhuān)利數(shù)據(jù)量(1420 件)有斷崖式下降,故下文只采用截至2020 年的專(zhuān)利數(shù)據(jù)開(kāi)展技術(shù)機(jī)會(huì)挖掘。

根據(jù)2.1 節(jié)網(wǎng)絡(luò)構(gòu)建方法,知識(shí)元素抽取結(jié)果按照重要性排序,如表2 所示。可以看出,TF-IDF能夠識(shí)別具有領(lǐng)域特征的單個(gè)關(guān)鍵字,如“image”“iris”“pixel”等大部分詞語(yǔ)屬于計(jì)算機(jī)視覺(jué)領(lǐng)域常用的專(zhuān)業(yè)詞匯。RAKE 在抽取長(zhǎng)短語(yǔ)上效果較為突出,但是普遍存在長(zhǎng)度過(guò)長(zhǎng)的情況,例如,長(zhǎng)度為3 的關(guān)鍵詞短語(yǔ)“fingerprint identification device”的重要性得分比“fingerprint identification”高,但其涵蓋語(yǔ)義卻是后者的子集。結(jié)合文獻(xiàn)[38-39]與上述驗(yàn)證結(jié)果,本文將KeyBERT 模型中的n設(shè)置為2抽取關(guān)鍵詞,將所得結(jié)果與前兩種算法取交集,得到1457 個(gè)知識(shí)元素。最后,根據(jù)其間的229573 條鏈路關(guān)系構(gòu)建知識(shí)網(wǎng)絡(luò)。

表2 知識(shí)元素抽取結(jié)果

3.1.2 知識(shí)網(wǎng)絡(luò)演化分析

為確保微觀層面技術(shù)機(jī)會(huì)分析遵循宏觀技術(shù)演化歷程,本節(jié)基于全局網(wǎng)絡(luò)指標(biāo)詳細(xì)探究計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展脈絡(luò)。從網(wǎng)絡(luò)節(jié)點(diǎn)增量來(lái)看,技術(shù)知識(shí)網(wǎng)絡(luò)規(guī)模逐年增大,增長(zhǎng)速率呈現(xiàn)由緩到急再逐步進(jìn)入平緩的態(tài)勢(shì),如圖4 所示。其中,1990 年以前,計(jì)算機(jī)視覺(jué)技術(shù)知識(shí)網(wǎng)絡(luò)擴(kuò)張速率處于較低的水平,證明該階段技術(shù)處于萌芽期,受到的關(guān)注較少;自1990 年以來(lái),計(jì)算機(jī)視覺(jué)領(lǐng)域的知識(shí)元素?cái)?shù)量激增,且10 年內(nèi)均保持較高的增長(zhǎng)水平,這意味著自20 世紀(jì)90 年代起計(jì)算機(jī)視覺(jué)技術(shù)開(kāi)始進(jìn)入技術(shù)生長(zhǎng)期。

圖4 知識(shí)網(wǎng)絡(luò)逐年新增節(jié)點(diǎn)數(shù)量

如圖5 所示,從網(wǎng)絡(luò)中連邊增量來(lái)看,對(duì)于步入生長(zhǎng)期的計(jì)算機(jī)視覺(jué)技術(shù)而言,雖然其知識(shí)網(wǎng)絡(luò)中新鏈接與舊鏈接均呈現(xiàn)冪指數(shù)增長(zhǎng)態(tài)勢(shì),但是新鏈接(灰色柱狀)占所有新增鏈接(黑色柱狀)的比例(圖5 中曲線(xiàn))逐漸變小,尤其從2016 年開(kāi)始,該比例大幅減小。這表明計(jì)算機(jī)視覺(jué)領(lǐng)域在經(jīng)歷了1990—2015 年這數(shù)十載的飛速發(fā)展后,領(lǐng)域內(nèi)創(chuàng)新水平逐步變緩,新興技術(shù)知識(shí)受到較少關(guān)注,開(kāi)發(fā)者主要聚焦于已形成的技術(shù)方向,計(jì)算機(jī)視覺(jué)技術(shù)開(kāi)始進(jìn)入成熟期。

圖5 知識(shí)網(wǎng)絡(luò)逐年新增連邊數(shù)量

結(jié)合其他全局網(wǎng)絡(luò)指標(biāo)可以進(jìn)一步明確計(jì)算機(jī)視覺(jué)所處的技術(shù)生命周期,如圖6 所示。其中,1990—2000 年,網(wǎng)絡(luò)聚類(lèi)系數(shù)和平均最短距離指標(biāo)浮動(dòng)明顯,圖密度卻保持在5%以下,這表明雖然該階段知識(shí)網(wǎng)絡(luò)規(guī)模急劇擴(kuò)張,但節(jié)點(diǎn)間的共現(xiàn)關(guān)系沒(méi)有被完全挖掘,領(lǐng)域內(nèi)知識(shí)交融程度并不充分,仍存在諸多值得學(xué)者探索的可能性,可以將其視作技術(shù)生長(zhǎng)初期。2000—2010 年,圖密度指標(biāo)開(kāi)始呈現(xiàn)上升趨勢(shì),而聚類(lèi)系數(shù)與平均最短距離的上升和下降態(tài)勢(shì)逐步趨于穩(wěn)定,這表明技術(shù)的縱向挖掘正逐步追趕上技術(shù)橫向擴(kuò)張的步伐,計(jì)算機(jī)視覺(jué)正處在橫縱向齊頭并進(jìn)的關(guān)鍵階段,可以將其視作技術(shù)生長(zhǎng)中期。2010 年以后,隨著深度學(xué)習(xí)助力計(jì)算機(jī)技術(shù)的二次騰飛,圖密度指標(biāo)呈現(xiàn)激增態(tài)勢(shì),尤其在2015 年以后更為明顯,這表明計(jì)算機(jī)視覺(jué)技術(shù)的研發(fā)方向更集中于現(xiàn)有技術(shù)方向的縱向研究與細(xì)化,計(jì)算機(jī)視覺(jué)技術(shù)正由技術(shù)生長(zhǎng)期逐步過(guò)渡到技術(shù)成熟期,可以將其視作技術(shù)生長(zhǎng)后期。

圖6 全局網(wǎng)絡(luò)指標(biāo)變化趨勢(shì)

3.2 知識(shí)元素鏈路預(yù)測(cè)

3.2.1 數(shù)據(jù)集劃分

為驗(yàn)證變分圖自編碼器(VGAE) 及其變體(GAE)對(duì)于不同歷史形態(tài)下技術(shù)機(jī)會(huì)挖掘的魯棒性,本文根據(jù)知識(shí)網(wǎng)絡(luò)演化結(jié)論,將計(jì)算機(jī)視覺(jué)網(wǎng)絡(luò)按照時(shí)間拆分為4 個(gè)動(dòng)態(tài)子網(wǎng)絡(luò),并按照時(shí)間順序切分各子網(wǎng)絡(luò)的訓(xùn)練集、驗(yàn)證集和測(cè)試集,以此監(jiān)督模型學(xué)習(xí)并驗(yàn)證預(yù)測(cè)結(jié)果,劃分結(jié)果如表3 所示。具體來(lái)看,為體現(xiàn)技術(shù)機(jī)會(huì)所具備時(shí)間特性,將某個(gè)動(dòng)態(tài)子網(wǎng)絡(luò)中特定時(shí)間節(jié)點(diǎn)t年的網(wǎng)絡(luò)快照作為模型訓(xùn)練集,將t+1 年網(wǎng)絡(luò)快照中的新增鏈路作為測(cè)試集和驗(yàn)證集監(jiān)督模型學(xué)習(xí)。例如,對(duì)于1980—1990 年的動(dòng)態(tài)子網(wǎng)絡(luò)而言,訓(xùn)練集由子網(wǎng)絡(luò)中所有311 個(gè)元素在1980—1989 年產(chǎn)生的1206 條鏈接構(gòu)成,驗(yàn)證集和測(cè)試集則是由1990 年網(wǎng)絡(luò)中相較于1989 年網(wǎng)絡(luò)中新建立的513 條鏈接隨機(jī)平均分配得到。

表3 動(dòng)態(tài)子網(wǎng)絡(luò)的數(shù)據(jù)集劃分

此種數(shù)據(jù)集劃分方式,一方面,可以消除動(dòng)態(tài)技術(shù)知識(shí)網(wǎng)絡(luò)中頻繁建立的舊鏈接所導(dǎo)致前后知識(shí)網(wǎng)絡(luò)中鏈路的天然重復(fù)性,保證了模型的泛化能力;另一方面,技術(shù)知識(shí)網(wǎng)絡(luò)中舊鏈接的反復(fù)出現(xiàn)只能表示現(xiàn)有方向的深入研發(fā),而新鏈接的初次建立則意味著技術(shù)機(jī)會(huì)的產(chǎn)生。因此,此種劃分方式更關(guān)注新鏈接產(chǎn)生,具有實(shí)際技術(shù)意義,有助于提升模型預(yù)測(cè)結(jié)果效用。

3.2.2 參數(shù)設(shè)置

圖自編碼器的鏈路預(yù)測(cè)性能在很大程度上取決于模型超參數(shù)的設(shè)置,需要通過(guò)反復(fù)實(shí)驗(yàn)加以確定。為節(jié)省計(jì)算資源,本文將學(xué)習(xí)率和隨機(jī)丟棄率參照文獻(xiàn)[40]分別固定為0.01 和0.05,只優(yōu)化數(shù)據(jù)迭代輪次(Epoch,模型學(xué)習(xí)整個(gè)數(shù)據(jù)集的輪次),以使鏈路預(yù)測(cè)性能達(dá)到最佳。另外,鑒于本文所構(gòu)建的訓(xùn)練集和驗(yàn)證集存在時(shí)間先后性,在訓(xùn)練集上具備較高的預(yù)測(cè)性能并不意味著在驗(yàn)證集上同樣具有良好的泛化效果。因此選取訓(xùn)練集的Epoch-Loss曲線(xiàn)和驗(yàn)證集的Epoch-AUC 曲線(xiàn)共同確定數(shù)據(jù)迭代輪次Epoch,以1980—1990 年動(dòng)態(tài)子網(wǎng)絡(luò)為例,繪制上述兩種曲線(xiàn),如圖7 和圖8 所示。

圖7 1980—1990年動(dòng)態(tài)子網(wǎng)絡(luò)訓(xùn)練集Epoch-Loss曲線(xiàn)

圖8 1980—1990年動(dòng)態(tài)子網(wǎng)絡(luò)驗(yàn)證集Epoch-AUC曲線(xiàn)

由圖7 和圖8 可知,訓(xùn)練集的損失值在前10 個(gè)Epoch 內(nèi)驟減后趨于緩慢減小,意味著模型已經(jīng)學(xué)習(xí)到大部分訓(xùn)練集數(shù)據(jù)的特征;驗(yàn)證集則在近50個(gè)Epoch 左右趨于相對(duì)穩(wěn)定狀態(tài),在250 個(gè)Epoch 后出現(xiàn)波動(dòng)下降趨勢(shì),表明此時(shí)模型出現(xiàn)過(guò)擬合情況。此外,GAE 和VGAE 在擬合數(shù)據(jù)過(guò)程中Loss 曲線(xiàn)和AUC 曲線(xiàn)趨勢(shì)幾乎保持一致,因此,將1980—1990年中的GAE 和VGAE 的Epoch 均設(shè)置為50。同樣地,對(duì)各動(dòng)態(tài)子網(wǎng)絡(luò)的GAE 和VGAE 模型均進(jìn)行Epoch優(yōu)化后,重新訓(xùn)練模型并進(jìn)行后續(xù)的結(jié)果評(píng)估。

此外,為探究知識(shí)元素的語(yǔ)義屬性是否會(huì)對(duì)技術(shù)機(jī)會(huì)挖掘能力產(chǎn)生影響。本文基于預(yù)訓(xùn)練向量模型BERT-Base①https://github.com/google-research/bert抽取各節(jié)點(diǎn)的語(yǔ)義特征,將節(jié)點(diǎn)特征矩陣作為模型輸入?yún)?shù)X。

3.2.3 模型評(píng)估

確定模型超參數(shù)后,將圖自編碼器與其他鏈路預(yù)測(cè)算法進(jìn)行對(duì)比分析,以驗(yàn)證不同歷史時(shí)期圖自編碼器鏈路預(yù)測(cè)算法的優(yōu)越性與魯棒性。在評(píng)價(jià)指標(biāo)方面,本文采用鏈路預(yù)測(cè)任務(wù)中兩種最常見(jiàn)的AUC 和AP 指標(biāo),定量評(píng)估各模型預(yù)測(cè)性能的優(yōu)略。其中,AUC 是模型的綜合評(píng)價(jià)指標(biāo),其主要計(jì)算測(cè)試集鏈路得分值高于不存在鏈路得分值的概率,概率越高表示模型魯棒性越好。準(zhǔn)確率考量預(yù)測(cè)得分最高的L條邊是否準(zhǔn)確,計(jì)算前L條邊存在于測(cè)試集中的占比,平均準(zhǔn)確率(AP)則是將不同L取值下的精確率取均值而得。在基線(xiàn)方法方面,除了傳統(tǒng)的鏈路預(yù)測(cè)指標(biāo),如CN(common neighborhood)、AA 和PA(preferential attachment)等,本文還選取了同屬于圖表示學(xué)習(xí)的node2vec 算法。最終預(yù)測(cè)結(jié)果如表4 所示。

表4 不同時(shí)期技術(shù)知識(shí)網(wǎng)絡(luò)下各模型鏈接預(yù)測(cè)結(jié)果對(duì)比

結(jié)果顯示,VGAE 及其變體GAE 在各歷史時(shí)期的技術(shù)知識(shí)網(wǎng)絡(luò)鏈路預(yù)測(cè)任務(wù)中都表現(xiàn)出卓越的性能,尤其是針對(duì)近20 年來(lái)的知識(shí)網(wǎng)絡(luò),圖自編碼器比最優(yōu)的傳統(tǒng)鏈路預(yù)測(cè)指標(biāo)在AUC 和AP 兩個(gè)指標(biāo)上均有近10 個(gè)百分點(diǎn)的提升,可達(dá)到90%左右。這表明圖自編碼器能夠高效捕獲大規(guī)模、高密度網(wǎng)絡(luò)下的鏈路信息。另外,GAE 模型和VGAE 模型比node2vec 具有明顯優(yōu)勢(shì),但變分操作并沒(méi)有顯著提升圖自編碼器的預(yù)測(cè)性能,這證明只采用簡(jiǎn)單的兩層圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就可以達(dá)到精準(zhǔn)預(yù)測(cè)鏈路的目的。在1980—2000 年,計(jì)算機(jī)視覺(jué)知識(shí)網(wǎng)絡(luò)密度較低,可捕獲的網(wǎng)絡(luò)結(jié)構(gòu)特征較少,此時(shí)節(jié)點(diǎn)語(yǔ)義特征的輸入顯著提高了GAE 模型和VGAE 模型的預(yù)測(cè)準(zhǔn)確率,表明知識(shí)元素的語(yǔ)義特征同樣也是識(shí)別技術(shù)機(jī)會(huì)的關(guān)鍵特征。

綜上所述,本文所構(gòu)建的圖自編碼器模型能夠適應(yīng)于不同歷史形態(tài)下知識(shí)元素的關(guān)聯(lián)預(yù)測(cè),預(yù)測(cè)結(jié)果可以作為潛在的技術(shù)機(jī)會(huì)以備進(jìn)一步篩選和分析。

3.3 技術(shù)機(jī)會(huì)評(píng)估與篩選

為進(jìn)一步明確并細(xì)化未來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域潛在的技術(shù)機(jī)會(huì),本節(jié)針對(duì)2010—2020 年的技術(shù)知識(shí)子網(wǎng)絡(luò)中的鏈路預(yù)測(cè)結(jié)果進(jìn)行二次驗(yàn)證,結(jié)合多源技術(shù)報(bào)告解讀并篩選未來(lái)有發(fā)展前景的技術(shù)機(jī)會(huì)。根據(jù)中國(guó)移動(dòng)研究院于2020 年發(fā)布的《計(jì)算機(jī)視覺(jué)研究報(bào)告》[41](以下簡(jiǎn)稱(chēng)《報(bào)告》),計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)鏈可分為上游感知層、中游計(jì)算層和下游應(yīng)用算法層?;诖?,本節(jié)采用人工方式對(duì)細(xì)粒度的技術(shù)組合關(guān)系做進(jìn)一步篩選,并映射至各產(chǎn)業(yè)鏈環(huán)節(jié)中。

3.3.1 上游感知層技術(shù)機(jī)會(huì)

上游感知層的主要任務(wù)是圖像數(shù)據(jù)的采集,主要涉及硬件設(shè)備,如工業(yè)視覺(jué)中的工業(yè)攝像頭、視覺(jué)傳感器等。鏈路預(yù)測(cè)結(jié)果中與硬件設(shè)備相關(guān)的知識(shí)元素及其組合關(guān)系如圖9 所示??梢钥闯?,上游硬件設(shè)備主要圍繞移動(dòng)終端和智能設(shè)備進(jìn)行技術(shù)研發(fā),集成了多種傳感器設(shè)備,具體包含紅外傳感器、光學(xué)傳感器、觸摸屏幕、數(shù)碼相機(jī)和深度相機(jī)等。其中,“multiple cameras”一詞較好地概括了上游設(shè)備的未來(lái)發(fā)展趨勢(shì),即能夠捕獲的信息日益增多,包含除圖片特征外的指紋、虹膜等多種特征。房建武[42]認(rèn)為,環(huán)境感知是計(jì)算機(jī)視覺(jué)發(fā)展的基礎(chǔ),他預(yù)測(cè)多傳感信息魯棒融合方向是環(huán)境感知未來(lái)的主要手段。由此可得出,計(jì)算機(jī)視覺(jué)的上游感知層技術(shù)機(jī)會(huì)主要聚焦于“多傳感信息融合”方向。

3.3.2 中游計(jì)算層技術(shù)機(jī)會(huì)

位于計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)鏈中游的計(jì)算層包含了芯片、深度學(xué)習(xí)框架和計(jì)算平臺(tái)等相關(guān)技術(shù),主要涉及圖片傳輸、處理和識(shí)別等任務(wù)。基于此,抽取相關(guān)知識(shí)元素及其鏈路預(yù)測(cè)結(jié)果,如圖10 所示??梢钥闯?,中游計(jì)算層是以人工智能算法為核心,主要負(fù)責(zé)圖像處理以及上下游數(shù)據(jù)的存儲(chǔ)與傳輸任務(wù)。具體的技術(shù)機(jī)會(huì)可以總結(jié)為以下3 個(gè)方面。

圖10 產(chǎn)業(yè)鏈中游知識(shí)元素及鏈路關(guān)系

(1)算法模型優(yōu)化。神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)等方法被廣泛認(rèn)為是計(jì)算機(jī)視覺(jué)技術(shù)突破的重要推動(dòng)力。由圖10 可知,“deep learning”“machine learning”和“neural network”等詞語(yǔ)占據(jù)較為核心的位置,這預(yù)示著人工智能類(lèi)算法在計(jì)算機(jī)視覺(jué)上的應(yīng)用性能還可能進(jìn)一步突破。盧湖川在RACV (Recent Advances on Computer Vision) 2019會(huì)議上也提到這一點(diǎn),其認(rèn)為雖然深度學(xué)習(xí)模型實(shí)現(xiàn)了特征抽取的自動(dòng)化,但是壓縮、裁剪和優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以更好地抽取特征、準(zhǔn)確識(shí)別是未來(lái)技術(shù)發(fā)展的重點(diǎn)之一[43]。

(2)高質(zhì)量傳輸。位于圖10 邊緣位置的知識(shí)元素多涉及圖片傳輸任務(wù),如“wireless transmission”“network communication” 和“wireless communication”等。這些知識(shí)元素與“mobile communication”“recognition module”的組合關(guān)系表明圖片傳輸與處理技術(shù)正逐漸集成于移動(dòng)硬件設(shè)備。由此可知,隨著5G 技術(shù)的崛起,圖片等音視頻信息在智能設(shè)備端的高質(zhì)量傳輸可以作為未來(lái)發(fā)展重點(diǎn)之一。

(3)云平臺(tái)架構(gòu)。圖10 中還有部分知識(shí)元素與大數(shù)據(jù)計(jì)算能力相關(guān)。“big data”“cloud computing”和“cloud server”與“power supply”的組合關(guān)系預(yù)示著計(jì)算機(jī)視覺(jué)技術(shù)走向產(chǎn)業(yè)化需要強(qiáng)大的算力支撐,未來(lái)借助云端服務(wù)進(jìn)行高效能的推理和計(jì)算是各計(jì)算機(jī)視覺(jué)企業(yè)的必爭(zhēng)之地。這也與《報(bào)告》不謀而合,其中指出計(jì)算機(jī)視覺(jué)核心技術(shù)中包含計(jì)算平臺(tái)技術(shù),即用于企業(yè)生產(chǎn)的智能云平臺(tái)架構(gòu)技術(shù)。

3.3.3 下游應(yīng)用層技術(shù)機(jī)會(huì)

下游應(yīng)用層是計(jì)算機(jī)視覺(jué)技術(shù)產(chǎn)生實(shí)際價(jià)值的關(guān)鍵一環(huán)。根據(jù)3.1 節(jié)技術(shù)演化相關(guān)結(jié)論,計(jì)算機(jī)視覺(jué)技術(shù)正步入技術(shù)成熟期的前期,該層應(yīng)是未來(lái)該領(lǐng)域技術(shù)的發(fā)展重點(diǎn)之一。具體如圖11 所示,基于鏈路預(yù)測(cè)排序抽取相關(guān)知識(shí)元素及其鏈路關(guān)系,發(fā)現(xiàn)該網(wǎng)絡(luò)中包含的應(yīng)用場(chǎng)景較為多元化,表明計(jì)算機(jī)視覺(jué)技術(shù)已經(jīng)成功落地于多種下游任務(wù),初步印證了技術(shù)演化結(jié)論。主要的5 個(gè)技術(shù)方向闡述如下。

圖11 產(chǎn)業(yè)鏈下游知識(shí)元素及鏈路關(guān)系

(1)生物特征識(shí)別。由圖11 中的多個(gè)核心節(jié)點(diǎn)可知,計(jì)算機(jī)視覺(jué)由最初的人臉識(shí)別進(jìn)一步擴(kuò)展到了“motion recognition”“gesture recognition” 和“expression recognition”等多個(gè)細(xì)粒度的人體特征識(shí)別任務(wù)上,并且與先進(jìn)的算法模型相組合形成該應(yīng)用場(chǎng)景未來(lái)可能的技術(shù)突破點(diǎn)?!秷?bào)告》中印證了這一點(diǎn),人臉識(shí)別、姿態(tài)估計(jì)、行為識(shí)別、目標(biāo)追蹤等是熱門(mén)的視覺(jué)算法技術(shù)。

(2)多模態(tài)視頻理解。圖11 中部分節(jié)點(diǎn)聚焦“video”一詞,表明基于視頻和音頻的識(shí)別任務(wù)可能是未來(lái)計(jì)算機(jī)視覺(jué)技術(shù)的主要應(yīng)用任務(wù),其中還涉及“image understanding”“sign language”等具體的視頻理解任務(wù)。中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)專(zhuān)委會(huì)專(zhuān)家在RACV 2019 會(huì)議上的討論證實(shí)了這一點(diǎn),他們認(rèn)為視頻中的多模態(tài)識(shí)別和理解任務(wù)是計(jì)算機(jī)視覺(jué)未來(lái)主要攻克的難關(guān)[43]。

(3) 3D 交互感知。“virtual reality”和“augment reality”在下游網(wǎng)絡(luò)中也占據(jù)較核心的位置,與算法模型“neural network”和硬件設(shè)備“electronical device”等多個(gè)知識(shí)元素產(chǎn)生聯(lián)動(dòng)。這表明增強(qiáng)現(xiàn)實(shí)與神經(jīng)網(wǎng)絡(luò)的有機(jī)結(jié)合以及虛擬現(xiàn)實(shí)與電子設(shè)備的集成開(kāi)發(fā)程度隨著AIGC(artificial intelligence generated content)技術(shù)突破將會(huì)出現(xiàn)進(jìn)一步加深。中國(guó)信息通信研究院等發(fā)布的《虛擬(增強(qiáng))現(xiàn)實(shí)白皮書(shū)》中同樣提及感知交互是計(jì)算機(jī)視覺(jué)技術(shù)的未來(lái)主要方向之一[44]。

(4) 智慧安防。圖11 中還有部分節(jié)點(diǎn)涉及“alarm”一詞,表明計(jì)算機(jī)視覺(jué)技術(shù)繼續(xù)下沉可應(yīng)用于安保層面,如“fingerprint identification”應(yīng)用于“alarm device”等?!秷?bào)告》中指出,“智慧城市”是計(jì)算機(jī)視覺(jué)技術(shù)面向的主要行業(yè)需求,其中就包含“智慧安防”方向。

(5) 自動(dòng)駕駛。“vehicle information”“vehicle control”與“face recognition”的組合關(guān)系是典型的計(jì)算機(jī)視覺(jué)與智慧駕駛交叉產(chǎn)物,預(yù)示著汽車(chē)控制技術(shù)與人臉識(shí)別、動(dòng)作識(shí)別技術(shù)是自動(dòng)駕駛技術(shù)的未來(lái)研發(fā)重點(diǎn)。中國(guó)信息通信研究院發(fā)布的《全球自動(dòng)駕駛戰(zhàn)略與政策觀察——自動(dòng)駕駛開(kāi)啟商業(yè)化元年》中同樣指出,2021 是自動(dòng)駕駛的元年,未來(lái)計(jì)算機(jī)視覺(jué)技術(shù)在自動(dòng)駕駛領(lǐng)域?qū)⒊掷m(xù)輸出動(dòng)能[45]。

4 結(jié) 語(yǔ)

4.1 結(jié)論與討論

本文以專(zhuān)利文本作為研究數(shù)據(jù),提出了基于專(zhuān)利文本挖掘的細(xì)粒度技術(shù)機(jī)會(huì)分析框架,主要完成了知識(shí)網(wǎng)絡(luò)構(gòu)建及演化分析、知識(shí)元素鏈路預(yù)測(cè)以及技術(shù)機(jī)會(huì)評(píng)估與篩選3 個(gè)研究子任務(wù)。具體研究結(jié)論如下。

第一,集成多種關(guān)鍵抽取算法的知識(shí)網(wǎng)絡(luò)構(gòu)建方法,實(shí)現(xiàn)了自動(dòng)化捕獲詞語(yǔ)的多維度特征,有效減少了專(zhuān)家知識(shí)介入,能夠細(xì)粒度展示領(lǐng)域知識(shí)全貌,為機(jī)會(huì)挖掘提供數(shù)據(jù)基礎(chǔ)。第二,基于全局網(wǎng)絡(luò)指標(biāo)的知識(shí)網(wǎng)絡(luò)演化分析,能夠從宏觀層面把握技術(shù)發(fā)展態(tài)勢(shì),明確技術(shù)生命周期,指導(dǎo)技術(shù)機(jī)會(huì)分析。第三,將圖自編碼器模型與BERT 模型成功應(yīng)用于技術(shù)機(jī)會(huì)挖掘中,顯著提升了知識(shí)元素鏈路預(yù)測(cè)的準(zhǔn)確性和可解釋性。不僅論證了圖神經(jīng)網(wǎng)絡(luò)方法的圖結(jié)構(gòu)特征抽取能力和特征融合能力能夠有效突破傳統(tǒng)鏈路預(yù)測(cè)指標(biāo)的精度瓶頸,還驗(yàn)證了技術(shù)機(jī)會(huì)的產(chǎn)生不僅依托技術(shù)知識(shí)網(wǎng)絡(luò)結(jié)構(gòu),還受到知識(shí)元素語(yǔ)義信息的影響。第四,結(jié)合鏈路預(yù)測(cè)結(jié)果與多源技術(shù)發(fā)展報(bào)告,根據(jù)產(chǎn)業(yè)鏈結(jié)構(gòu)將計(jì)算機(jī)視覺(jué)技術(shù)機(jī)會(huì)進(jìn)一步識(shí)別歸納為9 個(gè)主要的技術(shù)方向,如圖12 所示。其中,下游技術(shù)應(yīng)用機(jī)會(huì)是未來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域技術(shù)研發(fā)的重心,與演化分析中計(jì)算機(jī)視覺(jué)技術(shù)步入成熟初期的結(jié)論相互呼應(yīng)。

圖12 計(jì)算機(jī)視覺(jué)各產(chǎn)生鏈技術(shù)機(jī)會(huì)分布

4.2 貢獻(xiàn)與展望

從理論層面來(lái)看,本文提出的分析框架基于微觀視角拓寬了技術(shù)機(jī)會(huì)分析的研究思路。一方面,從核心詞匯出發(fā)自動(dòng)化挖掘領(lǐng)域知識(shí)并識(shí)別技術(shù)演化路徑,強(qiáng)調(diào)技術(shù)機(jī)會(huì)分析應(yīng)遵循技術(shù)發(fā)展趨勢(shì),并向精細(xì)化、語(yǔ)義化方向發(fā)展;另一方面,文本挖掘與圖神經(jīng)網(wǎng)絡(luò)方法的有機(jī)結(jié)合,有效解決了過(guò)往研究對(duì)專(zhuān)家知識(shí)的過(guò)度依賴(lài)以及技術(shù)機(jī)會(huì)挖掘準(zhǔn)確率低下等問(wèn)題。從實(shí)踐層面來(lái)看,技術(shù)管理部門(mén)有必要在深入理解技術(shù)內(nèi)容并結(jié)合技術(shù)趨勢(shì)前提下,及時(shí)發(fā)現(xiàn)潛在的細(xì)粒度技術(shù)機(jī)會(huì),組織力量精準(zhǔn)研發(fā),實(shí)現(xiàn)技術(shù)自主創(chuàng)新。另外,本文還為計(jì)算機(jī)視覺(jué)技術(shù)相關(guān)的科研機(jī)構(gòu)、企業(yè)及個(gè)人提供可靠的技術(shù)機(jī)會(huì)情報(bào),有助于利益相關(guān)主體實(shí)現(xiàn)合理的資源布局和管理決策。

本文尚存在些許不足之處,需要進(jìn)一步完善與細(xì)化。首先,在組織技術(shù)知識(shí)網(wǎng)絡(luò)方面,本文只考慮了單一的共現(xiàn)關(guān)系作為網(wǎng)絡(luò)鏈路,在一定程度上忽略了知識(shí)元素之間的語(yǔ)法與語(yǔ)用關(guān)系。未來(lái)需要挖掘多層級(jí)的知識(shí)網(wǎng)絡(luò)鏈路關(guān)系,將技術(shù)機(jī)會(huì)分析維度進(jìn)一步拆分細(xì)化。其次,在知識(shí)元素鏈路預(yù)測(cè)方面,節(jié)點(diǎn)語(yǔ)義特征是直接依賴(lài)于BERT 預(yù)訓(xùn)練向量模型自動(dòng)生成,不具備領(lǐng)域?qū)V感浴N磥?lái)可以利用語(yǔ)言模型基于領(lǐng)域文本自行訓(xùn)練知識(shí)元素詞向量,以表征其在特定語(yǔ)境下的深層次內(nèi)涵,這有可能進(jìn)一步提升鏈路預(yù)測(cè)性能和技術(shù)機(jī)會(huì)分析準(zhǔn)確性。

猜你喜歡
細(xì)粒度鏈路機(jī)會(huì)
家紡“全鏈路”升級(jí)
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
天空地一體化網(wǎng)絡(luò)多中繼鏈路自適應(yīng)調(diào)度技術(shù)
細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
給進(jìn)步一個(gè)機(jī)會(huì)
海峽姐妹(2020年3期)2020-04-21 09:27:40
最后的機(jī)會(huì)
NBA特刊(2018年17期)2018-11-24 02:45:44
給彼此多一次相愛(ài)的機(jī)會(huì)
海峽姐妹(2018年6期)2018-06-26 07:27:20
沒(méi)機(jī)會(huì)下手
基于雙線(xiàn)性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
营口市| 察哈| 上高县| 南充市| 兴化市| 崇礼县| 忻城县| 共和县| 石首市| 邯郸市| 海盐县| 云浮市| 和硕县| 灌云县| 安福县| 从江县| 璧山县| 冕宁县| 长宁县| 越西县| 虞城县| 巨野县| 汾西县| 广南县| 南召县| 徐州市| 陕西省| 确山县| 天津市| 织金县| 团风县| 山阴县| 越西县| 西吉县| 铜陵市| 元朗区| 绍兴县| 定远县| 上杭县| 德化县| 平阳县|