張倩
(北京市科學技術研究院,北京 100089)
科學技術的發(fā)展日新月異,是推動當今社會生產力發(fā)展的主要因素,因此有效識別重要領域的研究前沿和新興技術顯得尤為重要,應該做到及時性、準確性和全面性,從而為國家科技戰(zhàn)略決策提供有力支撐。
本文結合情報研究方法和其他學科研究方法,將多個數據源進行融合處理,即通過不同渠道、多種采集方式獲取的具有不同數據結構的信息匯聚到一起,形成具有統一格式、面向多種應用的數據集合[1]。采用多源數據融合分析識別研究前沿是當前情報學領域的研究重點,做到準確有效地把握研究前沿,能夠為政府及企業(yè)相關部門制定科技政策和戰(zhàn)略部提供更加全面的決策依據和參考[2-3]。
廣義的研究前沿包括了引起世界科學家高度關注的對未解的科學問題所做的種種探索并取得的重大突破和進步;面對未解決的問題、難點問題,目前正在進行的科技前沿的探索;當前或有限時間范圍內的前沿方向[4-6]??梢钥闯鰪V義的研究前沿識別不單單關注于某一具備高被引特征的單一實體或靜態(tài)關系,而更加強調了不同實體間的動態(tài)關系,通過建立數據模型系統,深入挖掘不同實體間的深層含義和關聯,從而快速準確地識別出當前該領域最具發(fā)展?jié)摿Φ闹黝}。
早期對于研究前沿的研究主要采用定性分析,匯集研究領域專家學者的意見,逐步總結出該領域的研究前沿與技術發(fā)展趨勢。隨著互聯網技術的發(fā)展和科技文獻的指數倍增長,便產生了基于文本挖掘的定量分析方法。根據原理和數據模型不同,可以分為基于引文、詞匯、主題和基于融合的四類研究前沿識別方法。
馮佳[4]等通過建立載體-特征-關系融合模型,提出關注度、新穎度和中心度3 個識別指標,豐富了基于多源數據融合的研究前沿識別方法。邢穎等[7]以 SWOT分析方法為框架,利用專利文獻、論文文獻、行業(yè)標準反映研究主題的優(yōu)勢和劣勢,提高了研究框架的科學性。張英杰[8]認為科學前沿探測方法是一系列特征探測方法的綜合,他提出了兩種針對科學前沿探測中出現的低頻現象的探測思路,一種是構建主題詞網絡,結合社會網絡分析法的結構指標來揭示主題的前沿演變過程;另一種則是基于相關離群點的理論。中國工程科技2035發(fā)展戰(zhàn)略研究項目組[9]編著的《中國工程科技2035 發(fā)展戰(zhàn)略研究》中應用了當前技術態(tài)勢掃描、技術清單制定、德爾福調查、技術路線圖繪制等技術預見手段,提高了研究結果的前瞻性、科學性和規(guī)范性。Blei D M等[10]提出,采用基于詞匯的研究前沿識別方法包括共詞分析、詞頻分析和爆發(fā)詞探測。其中共詞分析能夠有效反映出研究領域各關鍵詞匯間的共現強度,與其他定量分析法結合使用,有助于準確識別研究前沿[10]。大數據分析與情報分析具有很強的共性,化柏林等[11-13]通過構建智能情報分析系統實現了情報需求智能感知,海量信息智能獲取,多源信息動態(tài)融合、多維關聯綜合分析、分析結果智能解讀、報告自動生成等功能。
研究證明,采用多源數據融合分析方法能夠實現數據間的相互補充和交叉證明,以確保分析結果的準確性和客觀性。構建多源數據分析模型,對行業(yè)數據去冗分類,去粗取精,采用大數據分析與情報分析相結合的方法,實現對指數級增長的專利、文獻、科技資訊、產業(yè)政策、研究報告等多源異構文本進行深入融合處理,不同形式的信息相互補充,全面多角度地挖掘研究前沿。
多源數據融合的多領域數據綜合分析平臺基于Spring Boot 框架進行開發(fā),將采集到的數據經過數據格式適配、抽取、分析,存入Neo4j 數據庫。同時,基于eCharts 和jQuery 等前端框架開發(fā)數據分析與檢索可視化系統,對從Neo4j 中檢索到的數據進行可視化展示。
在多源數據融合分析平臺中,Spring Boot 主要用作項目骨架,銜接各應用模塊和Neo4j 數據庫,實現離線數據處理流程。同時對外提供Rest 風格的訪問接口,提供數據給前端可視化呈現模塊。
多源數據分析系統架構從下到上可以分為:數據層、抽取層、圖譜層、算法層及展示層[14]。其中數據層負責對采集到的多源數據進行格式適配、類型轉換、數據清洗;抽取層負責在預處理后的數據基礎上,抽取并封裝知識圖譜實體、屬性和關系;圖譜層負責對封裝后的數據進行持久化;算法層負責在Neo4j 圖數據庫提供的算子基礎上,根據綜合分析平臺的數據分析需要,實現特定的分析算法,如共詞統計算法、關鍵詞詞頻統計算法、數據報表統計算法等。最終由展示層對分析結果和圖譜數據進行可視化。數據處理流程如圖1 所示,可分為離線的數據分析處理流程及在線的數據可視化呈現兩部分。
圖1 數據處理流程
其中,離線的數據分析處理流程負責對采集到的數據進行適配、格式轉換、數據清洗,進而借助分詞算法對文本進行分詞和詞頻、逆文檔頻率統計,從而提取出候選關鍵詞;依據候選關鍵詞,對數據的文本內容進行進一步的關鍵詞匹配,從而將不同來源的數據分別封裝為不同類型的實體,并與國家、機構、個人、關鍵詞等實體建立管理,形成知識圖譜,持久化存儲到Neo4j 中。
在Neo4j 圖數據庫中包含兩種基本的數據類型:Nodes(節(jié)點)和Relationships(關系)。Nodes 和Relationships 還可以包含key/value 形式的屬性。Nodes 通過Relationships 所定義的關系相連起來,形成關系型網絡結構,如圖2 所示。
圖2 Neo4j 圖數據庫結構圖
數據源包括專利、論文、產業(yè)政策、科技資訊、研究報告。專利數據庫主要以Orbit(https://www.orbit.com)數據庫為主,采集的信息包括:標題、摘要、公開(公告)號、公開(公告)日期、發(fā)明人、權利人、國別等。中文文獻數據庫以知網(https://www.cnki.net)為主,外文數據庫選取Web of Science(WOS,http://www.webofknowledge.com/)數據庫為主,采集的信息包括:論文標題、作者、單位、出版年份、期刊/會議、關鍵詞和摘要等。新聞和政策數據以人工篩選的集成電路領域12 個權威行業(yè)網站為主,輔以35 個微信公眾號;研報數據源于萬德和慧博數據庫,提取的內容包括研報標題、研報摘要、研報作者、所在機構等。
對上述5 類數據,采用人工與爬蟲相結合的方法進行采集,具體采集過程描述如下:
(1)在進行數據采集前,人工給出10 個中英文領域關鍵詞,用于在文獻、專利、研報等數據源中進行檢索,以確定數據采集范圍。檢索關鍵詞如表1 所示。
表1 IC 制造領域檢索關鍵詞列表
(2)對檢索得到的數據條目,采用爬蟲(主要針對新聞咨詢)和人工(針對專利及文獻)相結合的方式進行數據采集。檢索時間為2012 年1 月1 日至2022 年12 月31 日。
研究領域前沿技術識別運用到動態(tài)關鍵詞詞頻統計TF-IDF 算法(Term Frequency-Inverse Document Fre-quency,詞頻-逆文檔頻率算法),TF 僅衡量詞的出現頻次,IDF 強調詞的區(qū)分能力。該算法首先篩選指定數據范圍(起止時間、數據集、TOPN、語言、領域等)內的文檔,然后逐個文檔提取關鍵詞,計算關鍵詞的對數詞頻和逆文檔頻率數據,計算TF-IDF,將TF-IDF 排名前N(N≤100)個關鍵詞輸出。算法模型如公式(1)所示:
其中,詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現的頻率。分子是該詞nij在某一條文本數據中的出現次數,而分母則是在某一條文本數據中所有字詞的出現次數之和。
其中,逆向文件頻率(IDF)是一個詞語普遍重要性的度量,|D|是數據集中的文本數據總數,|j:{ti∈di}|表示包含詞語ti的數據數目。如果該詞語不在數據集中,就會導致分母為零,因此一般情況下使用式(3)來計算IDF。
最后,將TF 與IDF 相乘,即可得到TF-IDF 權重,如式(4)所示。
由此可以得到數據中的某個詞在整個數據集中作為關鍵詞的權重。將所有關鍵詞的權重由高到低排列,最終識別研究領域前沿技術。
本研究選取高精尖產業(yè)中的集成電路制造領域作為分析對象,利用多源數據融合分析模型對結構化和非結構化的數據分析處理,集成電路制造領域數據采集規(guī)模如圖3 所示。
圖3 數據采集規(guī)模
采集得到的數據,經過數據清洗、去重、實體關系抽取,形成圖譜中的實體。本實驗提取了包含專利、文獻等五類數據源實體以及關鍵詞、機構、個人等在內的關聯實體。圖譜的實體規(guī)模如表2 所示。從圖譜規(guī)模上,總的實體數量超過260 萬。
表2 圖譜實體規(guī)模
從前沿識別結果中抽取排名靠前的的關鍵技術和研究領域如表3 所示。結果表明:近十年來集成電路領域前沿關鍵技術包括雙擴散金屬氧化物半導體場效應晶體管、橫向絕緣柵雙極晶體管、電流源型逆變器、射流電沉積、GAA FET、鐵電場效應晶體管、新型存儲器、4H-碳化硅雙極晶體管、FD-SOI 等。
表3 關鍵技術TF-IDF值
利用多源數據融合模型中的專利分析部分,可以得到全球集成電路技術領先企業(yè)的專利分布情況,前10大主要申請人中,第一名是三星電子,第二名是ASML,第三名是Intel,其他依次是高通、臺積電、瑞薩電子、SEIKO、SK 海力士等。
在主要申請人國家中,有3 名美國企業(yè),2 名韓國企業(yè),3 名日本企業(yè),而中國集成電路制造龍頭企業(yè)中芯國際沒有入圍,說明美韓等國家在集成電路領域已經形成“領頭羊”效應,技術集中且優(yōu)勢明顯。而我國專利的競爭力及創(chuàng)新性有待提高。集成電路高端產品的國產化率仍然較低,亟需加快技術創(chuàng)新,投入資金繼續(xù)開展創(chuàng)新研發(fā)。
美國“芯片法案”與“四方聯盟”背景下,中國半導體國產化迫在眉睫。研究發(fā)現當前全球在該領域的研究熱點和重點發(fā)展方向集中在半導體制造設備、高制程制造技術上,重點產品集中在高端芯片、功率器件、傳感器、存儲器以及第三代半導體的相關產品上,與當前我國半導體技術和產業(yè)的發(fā)展方向相符。在未來一段時期,中國集成電路產業(yè)應注重加強關鍵技術研發(fā)及重點產品的突破,有針對性地制定各項政策措施,推動產業(yè)從以前的“以加工為主”轉向“以產品為中心”的產業(yè)發(fā)展模式[15]。
本文借助多源數據融合方法針對集成電路領域進行研究前沿識別分析,實驗數據源除了以往研究中常見的期刊文獻和專利文獻外,還增加了研究領域的研報、政策和行業(yè)新聞數據,從而使分析結果更加全面。不足之處在于因受到國外行業(yè)網站的訪問限制,數據源中未加入國外行業(yè)新聞數據。希望本文的前沿識別結果為政府與企業(yè)提供有價值的決策支持和參考。