国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

主要國家重點(diǎn)科技投入知識(shí)圖譜的構(gòu)建與應(yīng)用研究*

2021-09-26 11:26陳挺冷伏海惠仲陽葉京葛春雷李宏黃龍光陳曉怡
科技促進(jìn)發(fā)展 2021年6期
關(guān)鍵詞:圖譜情報(bào)實(shí)體

■ 陳挺 冷伏海 惠仲陽 葉京 葛春雷 李宏 黃龍光 陳曉怡

中國科學(xué)院科技戰(zhàn)略咨詢研究院 北京 100190

0 引言

在海量信息匯聚與學(xué)科交叉融合的時(shí)代,智庫提供決策咨詢時(shí)需要科學(xué)詢證并預(yù)測(cè)研判未來發(fā)展趨勢(shì),需要基于更加全面的數(shù)據(jù)和客觀事實(shí)作為判斷依據(jù)。情報(bào)監(jiān)測(cè)借助專業(yè)的方法、工具和團(tuán)隊(duì),在數(shù)據(jù)檢索與收集、信息提煉與揭示、結(jié)合專家意見進(jìn)行綜合研判時(shí)都具有充分的優(yōu)勢(shì)與長期的經(jīng)驗(yàn),基于情報(bào)監(jiān)測(cè)產(chǎn)出的產(chǎn)品包括數(shù)據(jù)集、監(jiān)測(cè)報(bào)告、調(diào)研報(bào)告、專題研究報(bào)告乃至決策建議報(bào)告,貫穿智庫DIIS 全過程,為智庫決策提供了有力支撐。

以國家高端智庫中國科學(xué)院科技戰(zhàn)略咨詢研究院為例,其科技戰(zhàn)略情報(bào)研究所建立了一支多國別、多學(xué)科、多領(lǐng)域研究背景的建制化情報(bào)團(tuán)隊(duì),通過矩陣式分工對(duì)重點(diǎn)國家、重點(diǎn)前沿科技領(lǐng)域、科技政策專門領(lǐng)域進(jìn)行長期的情報(bào)監(jiān)測(cè),以主要國家、主要機(jī)構(gòu)發(fā)布的公文、法律、報(bào)告、數(shù)據(jù)為來源,從科技體制、科技投入、科技人才、科技評(píng)估、科技合作、產(chǎn)業(yè)創(chuàng)新以及科技領(lǐng)域等維度進(jìn)行跟蹤監(jiān)測(cè)與趨勢(shì)研判,產(chǎn)出《科技政策與咨詢快報(bào)》、《科技前沿快報(bào)》、《全球基礎(chǔ)研究重點(diǎn)領(lǐng)域動(dòng)態(tài)》等動(dòng)態(tài)監(jiān)測(cè)報(bào)告,疫情期間產(chǎn)出了世界主要國家抗擊新冠疫情系列報(bào)告等針對(duì)突發(fā)事件的應(yīng)急調(diào)研報(bào)告等。在國家急需解決的問題上提供了中立、客觀的依據(jù)與可信服的判斷,得到了決策者的高度認(rèn)可,充分說明情報(bào)監(jiān)測(cè)是智庫服務(wù)決策值得依賴且行之有效的方法。

正如中科院戰(zhàn)略咨詢?cè)号私谭逶洪L在光明日?qǐng)?bào)文章中提到,智庫研究往往是綜合復(fù)雜的問題,需要建立持續(xù)積累的數(shù)據(jù)資源庫、方法工具庫、專家人才庫,需要大力發(fā)展基于新一代信息技術(shù)的深度數(shù)據(jù)分析工具[1]。隨著時(shí)間累計(jì),情報(bào)監(jiān)測(cè)團(tuán)隊(duì)日常監(jiān)測(cè)內(nèi)容越來越多,各種多源異構(gòu)、結(jié)構(gòu)化、非結(jié)構(gòu)化的情報(bào)數(shù)據(jù)不斷累積,傳統(tǒng)的情報(bào)監(jiān)測(cè)與分析方法難以應(yīng)對(duì)海量數(shù)據(jù)、不易挖掘深層信息。情報(bào)研究人員很難快速地針對(duì)海量信息展開分析,無法從中更加深入挖掘隱含的規(guī)律與不易被察覺的事實(shí)。下至情報(bào)研究人員、上至科技決策者面對(duì)海量、復(fù)雜、異構(gòu)的情報(bào)信息以及極高的反饋時(shí)效性要求,都急需工具進(jìn)行信息挖掘與關(guān)聯(lián)分析,從而快速分析出情報(bào)對(duì)象的結(jié)構(gòu)、關(guān)系和來龍去脈。

近些年以來,為了處理海量數(shù)據(jù),挖掘其潛在價(jià)值,全球各大研究機(jī)構(gòu)和科技公司依靠語義網(wǎng)、Linking Open Data 等知識(shí)組織與知識(shí)抽取項(xiàng)目構(gòu)建了各類全景知識(shí)圖譜與領(lǐng)域?qū)S弥R(shí)圖譜。知識(shí)圖譜具有直觀、定量、高效和知識(shí)發(fā)現(xiàn)等諸多優(yōu)點(diǎn),將這一知識(shí)抽取利器引入科技情報(bào)監(jiān)測(cè)與分析中,可以幫助情報(bào)分析更具客觀性、可靠性和有效性,并且優(yōu)化科技情報(bào)服務(wù)效果。然而,知識(shí)圖譜這一新興工具引入國內(nèi)的時(shí)間還不長,在我國科技情報(bào)研究中的應(yīng)用還非常有限。因此,有必要就知識(shí)圖譜在科技情報(bào)研究中的應(yīng)用開展基礎(chǔ)性研究,探索其獨(dú)特模式,從而為知識(shí)圖譜在情報(bào)研究中的實(shí)踐應(yīng)用提供理論基礎(chǔ)和方法依據(jù)。本研究總結(jié)了情報(bào)監(jiān)測(cè)的科技政策文本中支撐情報(bào)分析的關(guān)鍵要素,嘗試提出基于政策要素的知識(shí)圖譜模型并初步構(gòu)建了情報(bào)監(jiān)測(cè)政策圖譜,探索基于智能計(jì)算的政策分析方法。

1 科技情報(bào)監(jiān)測(cè)知識(shí)圖譜模型設(shè)計(jì)

1.1 知識(shí)圖譜

從最初的Google 搜索,到現(xiàn)在的聊天機(jī)器人、大數(shù)據(jù)風(fēng)控、智能醫(yī)療、自適應(yīng)教育、推薦系統(tǒng),無一不跟知識(shí)圖譜相關(guān)。醫(yī)學(xué)領(lǐng)域是知識(shí)圖譜建設(shè)與應(yīng)用最前沿的研究領(lǐng)域之一,一方面醫(yī)療信息化的發(fā)展累積了海量的醫(yī)學(xué)數(shù)據(jù);另一方面醫(yī)學(xué)領(lǐng)域知識(shí)本體數(shù)據(jù)庫的建立相對(duì)規(guī)范,為醫(yī)學(xué)知識(shí)圖譜的構(gòu)建打下了堅(jiān)實(shí)的基礎(chǔ)[2]。比如IBM 研發(fā)的Watson Health 醫(yī)學(xué)知識(shí)圖譜[3],每秒能完成267 篇非結(jié)構(gòu)化醫(yī)學(xué)文獻(xiàn)的知識(shí)自動(dòng)抽取,并已在多個(gè)醫(yī)療領(lǐng)域輔助醫(yī)生診斷與治療;再比如由美國NIH主導(dǎo)的醫(yī)學(xué)知識(shí)圖譜項(xiàng)目SNOMED-CT,存儲(chǔ)了35萬個(gè)醫(yī)學(xué)實(shí)體,每個(gè)實(shí)體都有幾十個(gè)甚至上百個(gè)屬性描述[4]。此外在圖書情報(bào)領(lǐng)域,一些科研院校與科學(xué)成果出版商已開始以科技文獻(xiàn)數(shù)據(jù)作為基礎(chǔ)資料進(jìn)行知識(shí)抽取與知識(shí)圖譜構(gòu)建。如清華大學(xué)AMiner 平臺(tái)利用信息抽取方法從海量文獻(xiàn)及互聯(lián)網(wǎng)信息中自動(dòng)獲取研究者相關(guān)信息,包括教育背景、基本介紹等,截至2019年平臺(tái)上已收錄2.3 億論文、1.3 億研究人員、800 萬概念和7.5 億引文關(guān)系[5];Taylor & Francis 出版集團(tuán)開發(fā)了知識(shí)圖譜工具Wizdom.ai, 涵蓋了9000 萬出版物、1 億專利、5800 萬作者、8萬機(jī)構(gòu)、6億概念映射和42億事實(shí)[6];上海交通大學(xué)Acemap 團(tuán)隊(duì)的AceKG 學(xué)術(shù)知識(shí)圖譜收集了1.1 億學(xué)術(shù)實(shí)體,包括6100 萬論文、5200 萬作者、5 萬研究領(lǐng)域、1.9 萬機(jī)構(gòu)、2.2 萬期刊等,為每個(gè)實(shí)體提供了豐富的屬性信息,并在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上加上語義信息,可以為眾多學(xué)術(shù)大數(shù)據(jù)挖掘項(xiàng)目提供全面支持[7]。

科技情報(bào)與科技政策方面的知識(shí)圖譜研究還相對(duì)處在起步階段,情報(bào)學(xué)與計(jì)量學(xué)中廣泛應(yīng)用的“科學(xué)知識(shí)圖譜”其實(shí)是一個(gè)“簡(jiǎn)版”的知識(shí)圖譜。每個(gè)學(xué)術(shù)對(duì)象比如作者、機(jī)構(gòu)或者論文代表一個(gè)實(shí)體。通常利用科技分析對(duì)象之間的共性關(guān)系如引文共引、關(guān)鍵詞共現(xiàn)等構(gòu)建“文獻(xiàn)計(jì)量圖”(Bibliometric mapping),通過圖譜挖掘、分析和展現(xiàn)知識(shí)之間的相互聯(lián)系,顯示知識(shí)演化進(jìn)程和知識(shí)結(jié)構(gòu)。中科院戰(zhàn)略咨詢?cè)嚎萍紤?zhàn)略情報(bào)研究所在“科學(xué)知識(shí)圖譜”領(lǐng)域有較長時(shí)間的耕耘,深知它與基于真實(shí)世界最直觀的知識(shí)本身的“知識(shí)圖譜”有著本質(zhì)區(qū)別?!翱茖W(xué)知識(shí)圖譜”無法存儲(chǔ)多種類型的分析對(duì)象或者實(shí)體,也無法展示實(shí)體間的真實(shí)關(guān)系,只能體現(xiàn)歸一化后的強(qiáng)度值,因而無法揭示多種分析對(duì)象間深層的關(guān)聯(lián)關(guān)系。

而真正的知識(shí)圖譜不再將科技政策存儲(chǔ)為文本文件,而是運(yùn)用節(jié)點(diǎn)和關(guān)系組成圖譜,構(gòu)建結(jié)構(gòu)化的語義知識(shí)庫,以符號(hào)形式描述物理世界中的概念及其相互關(guān)系,為真實(shí)場(chǎng)景直觀建模。知識(shí)圖譜的基本組成單位是“實(shí)體-屬性-關(guān)系”,構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu),融合碎片化信息,建立領(lǐng)域知識(shí)模型,挖掘復(fù)雜關(guān)聯(lián)關(guān)系并傳遞影響,輔助智能決策。相比傳統(tǒng)數(shù)據(jù)存儲(chǔ)和計(jì)算方式,知識(shí)圖譜擁有以下優(yōu)勢(shì):

1.1.1 對(duì)關(guān)系的表達(dá)能力強(qiáng)

傳統(tǒng)數(shù)據(jù)庫通常只能以表格、字段等方式進(jìn)行讀取,而知識(shí)圖譜中關(guān)系的層級(jí)及表達(dá)方式多種多樣,且可以基于圖論和概率圖模型處理復(fù)雜的關(guān)聯(lián)分析,滿足各種實(shí)體之間關(guān)系分析和管理的需要。

1.1.2 像人類思考一樣去做分析

基于知識(shí)圖譜的交互探索式分析,可以模擬人的思考過程去發(fā)現(xiàn)、求證、推理,業(yè)務(wù)人員可以嘗試自己完成全部過程,減少甚至不需要專業(yè)人員的協(xié)助。

1.1.3 知識(shí)學(xué)習(xí)

利用交互式機(jī)器學(xué)習(xí)技術(shù),支持根據(jù)推理、糾錯(cuò)、標(biāo)注等交互動(dòng)作的學(xué)習(xí)功能,不斷沉淀知識(shí)邏輯和模型,提高系統(tǒng)智能性,將知識(shí)沉淀在業(yè)務(wù)邏輯內(nèi)部,從而降低對(duì)專家經(jīng)驗(yàn)的依賴。

1.1.4 高速反饋

圖式的數(shù)據(jù)存儲(chǔ)方式與傳統(tǒng)方式相比,數(shù)據(jù)調(diào)取速度更快,反饋速度也更快。圖庫可計(jì)算超過百萬潛在實(shí)體的屬性分布,可實(shí)現(xiàn)秒級(jí)返回結(jié)果,真正實(shí)現(xiàn)人機(jī)互動(dòng)的實(shí)時(shí)響應(yīng),讓用戶可以做到即時(shí)決策。

1.2 知識(shí)圖譜本體建模

本研究對(duì)戰(zhàn)略咨詢?cè)呵閳?bào)所監(jiān)測(cè)的情報(bào)內(nèi)容進(jìn)行了一次知識(shí)化組織嘗試,提出一種面向情報(bào)分析的科技情報(bào)知識(shí)實(shí)體模型,將情報(bào)人員定期監(jiān)測(cè)的科技情報(bào)內(nèi)容基于情報(bào)分析的邏輯進(jìn)行實(shí)體抽取與關(guān)系組織,初步形成科技情報(bào)知識(shí)圖譜,在圖譜的基礎(chǔ)上嘗試了情報(bào)監(jiān)測(cè)內(nèi)容的智能檢索與輔助分析。圖1為科技情報(bào)知識(shí)圖譜的構(gòu)建流程示意圖,首先對(duì)情報(bào)人員收集的各國科技政策情報(bào)進(jìn)行知識(shí)標(biāo)注,標(biāo)注內(nèi)容包括其中涉及的技術(shù)、應(yīng)用方向、技術(shù)所屬領(lǐng)域、研究機(jī)構(gòu)等。再根據(jù)科技情報(bào)知識(shí)圖譜本體模型對(duì)抽取的知識(shí)內(nèi)容進(jìn)行關(guān)聯(lián)組織,形成專用的知識(shí)圖譜,支持后續(xù)的智能檢索、演化分析、關(guān)聯(lián)分析等。其中專用知識(shí)圖譜本體模型是一切后續(xù)工作的基礎(chǔ),本文以科技政策知識(shí)圖譜為例,基于對(duì)情報(bào)分析涉及要素的抽象與歸納,設(shè)計(jì)了本體模型。

圖1 科技情報(bào)知識(shí)圖譜構(gòu)建流程示意圖

知識(shí)圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),將客觀經(jīng)驗(yàn)沉淀在巨大的網(wǎng)絡(luò)中,其中結(jié)點(diǎn)代表實(shí)體(Entity)或概念(Concept),邊(Edge)代表實(shí)體/概念之間的語義關(guān)系。所謂知識(shí)建模就是對(duì)數(shù)據(jù)中所含的知識(shí)進(jìn)行抽象和歸納。一個(gè)知識(shí)圖譜本體模型就相當(dāng)于一個(gè)特定領(lǐng)域的數(shù)據(jù)模型,包含了領(lǐng)域內(nèi)有意義的概念、實(shí)體類型及其屬性,通過知識(shí)圖譜本體模型(Schema)定義概念、實(shí)體和關(guān)系是知識(shí)圖譜的重中之重,是能否支持后續(xù)深度分析的關(guān)鍵。知識(shí)建模通常有以下幾個(gè)步驟:(1)整合數(shù)據(jù)源,對(duì)不同來源的數(shù)據(jù)進(jìn)行映射與合并;(2)抽象知識(shí)實(shí)體,確定數(shù)據(jù)源中最重要的實(shí)體并進(jìn)行抽象歸納,確保能夠支持未來的檢索與分析;(3)完善實(shí)體屬性,利用屬性來提供實(shí)體的輔助信息,對(duì)實(shí)體進(jìn)行全方位描述;(4)定義實(shí)體間關(guān)系,利用關(guān)系來描述各類抽象實(shí)體間的關(guān)聯(lián)關(guān)系,從而支持基于圖的關(guān)聯(lián)分析。

本文針對(duì)戰(zhàn)略咨詢?cè)呵閳?bào)所監(jiān)測(cè)的世界主要國家科技投入政策情報(bào),提出一個(gè)科技投入政策知識(shí)圖譜本體模型,將分析要素進(jìn)行抽象與歸納,并圍繞情報(bào)分析需求來設(shè)計(jì)模型中的實(shí)體與關(guān)系,從而滿足業(yè)務(wù)需求與應(yīng)用場(chǎng)景。如圖2 所示,科技投入政策知識(shí)圖譜本體模型中包含實(shí)體、屬性與關(guān)系。實(shí)體為圖中的7個(gè)圓球,包括:國家、投入項(xiàng)目、投入資金強(qiáng)度、關(guān)鍵核心技術(shù)、技術(shù)所屬領(lǐng)域、技術(shù)應(yīng)用方向、參與研究機(jī)構(gòu)。這些均為情報(bào)人員最關(guān)心的科技情報(bào)分析要素。每個(gè)實(shí)體都有必要的屬性描述,如項(xiàng)目的立項(xiàng)時(shí)間、所屬國家等。模型還定義了實(shí)體與實(shí)體之間的7種關(guān)聯(lián)關(guān)系,包括“發(fā)布”、“包含”、“屬于”、“投資”、“應(yīng)用于”、“研發(fā)”等,并為部分關(guān)系標(biāo)記了屬性,比如“國家-發(fā)展-領(lǐng)域”這組實(shí)體與關(guān)系中,“發(fā)展”這個(gè)關(guān)系上就標(biāo)記了年份與國家屬性,便于未來篩選分析。由于時(shí)間關(guān)系,本文撰寫時(shí)“應(yīng)用方向”與“參與機(jī)構(gòu)”兩個(gè)實(shí)體尚未完成數(shù)據(jù)抽取,本研究將會(huì)在未來繼續(xù)完善。上述這些實(shí)體與關(guān)系是科技投入政策領(lǐng)域中情報(bào)監(jiān)測(cè)最核心的內(nèi)容,也是情報(bào)分析人員與科技決策者在做相關(guān)研究或決策時(shí)最關(guān)心的內(nèi)容。通過對(duì)以上情報(bào)監(jiān)測(cè)內(nèi)容的知識(shí)抽取與組織,希望能夠支持后續(xù)的深度檢索與分析。

圖2 科技投入政策知識(shí)圖譜本體模型示意圖

2 實(shí)例演示與示范應(yīng)用

與傳統(tǒng)數(shù)據(jù)庫不同,知識(shí)圖譜不再將科技政策存儲(chǔ)為文本文件后以字符串匹配的方式進(jìn)行檢索,而是提取分析要素,把節(jié)點(diǎn)和關(guān)系以圖的形式存儲(chǔ)在圖數(shù)據(jù)庫(Graph Database)中。圖數(shù)據(jù)庫以圖論為理論基礎(chǔ),以節(jié)點(diǎn)和關(guān)系為基本元素,以網(wǎng)絡(luò)圖的形式為真實(shí)世界直觀地建模,支持百億量級(jí)甚至千億量級(jí)規(guī)模巨型圖的高效關(guān)系運(yùn)算和復(fù)雜關(guān)系分析。因?yàn)閳D譜中的實(shí)體與真實(shí)的分析需求內(nèi)容一致,形成網(wǎng)絡(luò)圖后能將原本沒有聯(lián)接的離散數(shù)據(jù)整合到一起,能夠幫助情報(bào)人員發(fā)現(xiàn)關(guān)聯(lián)信息,甚至得到一些不易挖掘的深層次知識(shí),提供更有價(jià)值的決策支持。

本文構(gòu)建的知識(shí)圖譜采用圖數(shù)據(jù)庫中應(yīng)用最廣的Neo4j 數(shù)據(jù)庫[8]進(jìn)行儲(chǔ)存,以保障數(shù)據(jù)的快速檢索與分析。截至2020年10月,本文對(duì)美國、英國、法國、德國、日本和韓國近年的24 篇科技投入政策進(jìn)行知識(shí)抽取與組織,根據(jù)知識(shí)圖譜本體模型提取情報(bào)人員最關(guān)心的分析要素,用“實(shí)體-關(guān)系-實(shí)體”三元組的形式儲(chǔ)存。通過對(duì)優(yōu)先發(fā)展技術(shù)、技術(shù)涉及領(lǐng)域、資助項(xiàng)目、資助金額等實(shí)體的抽象與關(guān)聯(lián),初步形成了基于國別的科技投入政策知識(shí)圖譜,共有實(shí)體122個(gè),實(shí)體關(guān)系243條。

本研究尚處在起步階段,下面就部分完成的科技投入政策知識(shí)圖譜設(shè)計(jì)兩個(gè)實(shí)際分析案例,演示知識(shí)圖譜在情報(bào)分析或政策分析中的應(yīng)用場(chǎng)景。

實(shí)例分析1:近年來美國科技政策中計(jì)劃資助哪些領(lǐng)域,領(lǐng)域中重點(diǎn)發(fā)展何種技術(shù)?

知識(shí)圖譜最常見的功能就是快速檢索并通過結(jié)構(gòu)化可視化的形式呈現(xiàn),讓用戶直觀快速地獲得想要的答案。比如回答近年來美國科技政策中計(jì)劃資助哪些領(lǐng)域,領(lǐng)域中重點(diǎn)發(fā)展何種技術(shù)?由于知識(shí)圖譜本體模型中已經(jīng)包含了國家、領(lǐng)域、技術(shù)以及這些實(shí)體之間的關(guān)聯(lián)關(guān)系,因此可以通過簡(jiǎn)單檢索式將國家、領(lǐng)域、技術(shù)、時(shí)間(年)這4 個(gè)分析要素查詢出來,以結(jié)構(gòu)性可視化形式展示它們之間的關(guān)系。檢索式與可視化展示結(jié)果如圖3所示。

圖3 中每個(gè)圓球?yàn)榭萍纪度胝咧R(shí)圖譜中的實(shí)體,共3種。其中紅色圓球代表國家,綠色圓球代表科技投入政策中提到的技術(shù)方向,粉紅色圓球代表技術(shù)方向所屬的領(lǐng)域。圓球之間的連線代表了實(shí)體之間的關(guān)系,國家到領(lǐng)域之間的關(guān)系為發(fā)展關(guān)系,領(lǐng)域到技術(shù)之間的關(guān)系為包含關(guān)系??萍纪度胝咧邪l(fā)展技術(shù)的時(shí)間信息放在了領(lǐng)域到技術(shù)之間的關(guān)系屬性上,為了提升可視化效果,圖3 把時(shí)間數(shù)據(jù)標(biāo)記在關(guān)系鏈接上。將部分?jǐn)?shù)值型數(shù)據(jù)記錄在關(guān)系鏈接的屬性上是知識(shí)圖譜獨(dú)有的特性,這樣既可按照時(shí)間篩選對(duì)應(yīng)數(shù)據(jù),又可以在添加新實(shí)體的情況下直觀展示更多信息。

通過知識(shí)圖譜返回的查詢結(jié)果,可快速直觀地了解美國近年來科技投入政策主要涉及5 大研究領(lǐng)域,包括能源、醫(yī)療健康、空間、工業(yè)和國家安全,每個(gè)領(lǐng)域下重點(diǎn)發(fā)展若干種技術(shù)。此外還有哪些深層次的、不容易被人注意的信息可以從查詢結(jié)果中得出?以下為2條關(guān)聯(lián)分析結(jié)果:

(1)人工智能實(shí)體處在圖譜的中心位置,因?yàn)樗?個(gè)領(lǐng)域同時(shí)列為重點(diǎn)發(fā)展技術(shù),是所有美國技術(shù)實(shí)體中最多的,并且該實(shí)體有5 個(gè)年份的鏈接接入(Degree),也是所有技術(shù)實(shí)體中最多的。說明對(duì)美國來說該技術(shù)的重要度高于其他技術(shù)。

圖3.科技投入政策知識(shí)圖譜中美國、領(lǐng)域、技術(shù)等要素檢索結(jié)果的可視化展示(左下方為檢索式)

(2)美國在國家安全、工業(yè)與空間三個(gè)領(lǐng)域中重點(diǎn)發(fā)展的技術(shù)較多,國家安全與工業(yè)領(lǐng)域共同發(fā)展的技術(shù)最多,共有自主系統(tǒng)、微電子、量子信息等5 項(xiàng)。說明美國這兩個(gè)領(lǐng)域發(fā)展路徑或者發(fā)展目標(biāo)比較相近。相關(guān)情報(bào)研究人員或者科技決策者在分析時(shí)可能需要將這兩個(gè)領(lǐng)域統(tǒng)籌考慮。

實(shí)例分析2:近年來法國科技投入政策中計(jì)劃發(fā)展哪些技術(shù)群?

實(shí)例1分析了美國科技投入政策中科技領(lǐng)域和技術(shù)的情況,實(shí)例2以法國為例,在檢索式的國家、領(lǐng)域、技術(shù)3 個(gè)實(shí)體之外,增加了科技項(xiàng)目和資助金額2 個(gè)實(shí)體,共涉及5個(gè)實(shí)體,展示了更多的實(shí)體及其關(guān)聯(lián)關(guān)系,具體檢索式見圖4。新增的黃色圓球代表技術(shù)實(shí)體所屬的科研項(xiàng)目,藍(lán)色小圓球代表該項(xiàng)目獲得的資助金額,在圖中以億歐元為單位儲(chǔ)存。實(shí)體種類增加后,檢索結(jié)果中同時(shí)增加了所屬項(xiàng)目和資助關(guān)系兩個(gè)關(guān)聯(lián)關(guān)系。檢索實(shí)體與關(guān)系的增加,使圖譜看起來更復(fù)雜,但卻可能從中發(fā)現(xiàn)更多的隱含信息。

圖4 科技投入政策知識(shí)圖譜中法國、領(lǐng)域、技術(shù)、項(xiàng)目檢索結(jié)果(左上方為檢索式)

相比美國,法國科技投入政策提及的發(fā)展領(lǐng)域有4個(gè),包括工業(yè)、醫(yī)療健康、能源和農(nóng)業(yè),前三個(gè)領(lǐng)域也是美國關(guān)注的重點(diǎn)領(lǐng)域。但與美國不同的是,法國圖譜中工業(yè)與醫(yī)療健康兩個(gè)領(lǐng)域非常接近,因?yàn)樗鼈冎g有大量的技術(shù)與科研項(xiàng)目重合。所有技術(shù)實(shí)體內(nèi)人工智能技術(shù)依然處在圖譜中最重要的位置,與醫(yī)療健康、工業(yè)兩個(gè)領(lǐng)域產(chǎn)生了5 個(gè)關(guān)系,同時(shí)與5 個(gè)資助項(xiàng)目相連。這五個(gè)項(xiàng)目包含了綜合性項(xiàng)目、人工智能項(xiàng)目、信息與納米項(xiàng)目和醫(yī)療項(xiàng)目等各類型項(xiàng)目,總資助金額高達(dá)245 億歐元,可見人工智能在法國科技投入中的重要程度遠(yuǎn)遠(yuǎn)超過其他類型技術(shù),這一結(jié)果也符合法國近年來的國家優(yōu)先發(fā)展戰(zhàn)略。除人工智能技術(shù)外,大數(shù)據(jù)技術(shù)是關(guān)聯(lián)連接第二多的節(jié)點(diǎn),被3 個(gè)項(xiàng)目列為重點(diǎn)發(fā)展技術(shù)。

除了重要節(jié)點(diǎn)分析外,我們還可以運(yùn)用圖結(jié)構(gòu)的社團(tuán)劃分對(duì)圖譜進(jìn)行深入分析,尋找哪些技術(shù)可能有更高的相關(guān)性,這些技術(shù)常常需要同時(shí)發(fā)展才能使這個(gè)領(lǐng)域有顛覆性發(fā)展。分析目標(biāo)國家的技術(shù)群落可以為科技政策分析提供一個(gè)參考角度。在圖結(jié)構(gòu)中,因?yàn)槊總€(gè)節(jié)點(diǎn)都被其相關(guān)節(jié)點(diǎn)相互牽扯,相同關(guān)系越多的節(jié)點(diǎn)往往會(huì)聚集在一起。通過對(duì)法國科技投入政策知識(shí)圖譜的觀察,我們發(fā)現(xiàn)有3個(gè)明顯的技術(shù)群,分別是醫(yī)療健康技術(shù)群、工業(yè)制造技術(shù)群和能源技術(shù)群。醫(yī)療健康技術(shù)群包括新一代網(wǎng)絡(luò)、生物數(shù)字化、人工智能、大數(shù)據(jù)、納米、癌癥治療等6 項(xiàng)技術(shù)。工業(yè)制造技術(shù)群包括先進(jìn)材料、超級(jí)電容器、新型器件、新型計(jì)算等4項(xiàng)技術(shù)。能源技術(shù)群包括智慧城市、新能源、能源儲(chǔ)存等3 項(xiàng)技術(shù)。這3 個(gè)技術(shù)群是只考慮法國一個(gè)國家的情況,未來我們還可以將全部目標(biāo)國家統(tǒng)一考慮,得出更完整的分析結(jié)果。

3 結(jié)論與下一步工作

針對(duì)情報(bào)監(jiān)測(cè)數(shù)據(jù)缺乏智能化處理技術(shù)的現(xiàn)狀,本文嘗試使用知識(shí)圖譜的方式解構(gòu)科技政策情報(bào),提出了針對(duì)特定情報(bào)監(jiān)測(cè)內(nèi)容的知識(shí)圖譜本體模型,根據(jù)已收集的數(shù)據(jù)源構(gòu)建了國際科技投入政策知識(shí)圖譜,包含了國家、研究領(lǐng)域、優(yōu)先發(fā)展技術(shù)、資助項(xiàng)目、資助強(qiáng)度等實(shí)體,并利用兩個(gè)實(shí)例演示了基于知識(shí)圖譜的情報(bào)檢索與分析效果。

然而情報(bào)監(jiān)測(cè)數(shù)據(jù)的知識(shí)化研究尚處在起步階段,還有許多不足,有待未來進(jìn)一步改進(jìn):(1)完善情報(bào)知識(shí)庫的建設(shè)?,F(xiàn)階段仍缺少對(duì)應(yīng)的知識(shí)庫,無法進(jìn)行自動(dòng)大規(guī)模的實(shí)體標(biāo)注;(2)完善知識(shí)圖譜本體模型設(shè)計(jì),現(xiàn)有的模型還是相對(duì)簡(jiǎn)單,無法支持更細(xì)致的情報(bào)分析需求,未來將與情報(bào)分析流程更緊密地結(jié)合,并與專家智慧進(jìn)一步結(jié)合;(3)增加數(shù)據(jù)源,擴(kuò)張知識(shí)圖譜;(4)多圖聯(lián)動(dòng)的知識(shí)圖譜可視化展示;(5)引用圖挖掘與圖計(jì)算算法,進(jìn)一步完善基于知識(shí)圖譜的智能情報(bào)分析算法。比如在構(gòu)建完成政策要素知識(shí)圖譜后,考慮如何基于知識(shí)計(jì)算來輔助科技決策。我們已經(jīng)可以通過圖譜的圖查詢快速獲取政策要素概覽,因此這部分的研究重點(diǎn)在于政策要素隱含關(guān)系的發(fā)現(xiàn)。未來除了運(yùn)用經(jīng)典的圖挖掘算法比如最短路徑、權(quán)威節(jié)點(diǎn)挖掘、網(wǎng)絡(luò)社團(tuán)劃分等方法外,我們還計(jì)劃利用深度學(xué)習(xí)數(shù)據(jù)將知識(shí)圖譜的異質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)作為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)樣本,在高維空間重塑網(wǎng)絡(luò)結(jié)構(gòu),生成基于政策要素圖結(jié)構(gòu)的空間特征,在高維空間中進(jìn)行關(guān)聯(lián)預(yù)測(cè)、政策要素聚類,從中發(fā)現(xiàn)潛在的政策要素關(guān)聯(lián)。

猜你喜歡
圖譜情報(bào)實(shí)體
情報(bào)
基于圖對(duì)比注意力網(wǎng)絡(luò)的知識(shí)圖譜補(bǔ)全
情報(bào)
情報(bào)
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體書店步入復(fù)興期?
圖表
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
钟山县| 兴隆县| 辽阳市| 南京市| 基隆市| 汉川市| 襄垣县| 丹寨县| 盐池县| 南京市| 灵宝市| 钦州市| 兴文县| 承德县| 望奎县| 六安市| 灵宝市| 美姑县| 和田县| 屏东县| 中西区| 苍溪县| 兰西县| 阿克苏市| 南华县| 万盛区| 新乡市| 扶余县| 大埔区| 高要市| 交口县| 垫江县| 垣曲县| 五华县| 阳泉市| 临清市| 湟源县| 常熟市| 井陉县| 玉溪市| 芦山县|