唐 恒 邱悅文
(1.江蘇大學(xué)知識產(chǎn)權(quán)學(xué)院 鎮(zhèn)江 212013;2. 江蘇大學(xué)科技信息研究所 鎮(zhèn)江 212013)
Emerging Technology Topic Identification Based on Multi-Source Information:Intelligent Connected Vehicle as an Example
Tang Heng1Qiu Yuewen2
(1.School of Intellectual Property Jiangsu University, Zhenjiang 212013;2.Institute of Science and Technology Information, Jiangsu University, Zhenjiang 212013)
Abstract:[Purpose/Significance]In order to improve the comprehensiveness and accuracy of the identification of emerging technology topics, it is necessary to enrich data source information. This research proposes a composite emerging technology topic identification method on the basis of patent, paper and public opinion information. It is expected to provide a reference for the research on the topic identification methods of emerging technologies at the micro level.[Method/Process]Firstly, using the LDA model to extract candidate emerging technology topics. Then, choosing the final emerging technology topics by theme screening indicators. Finally, the emerging technology topic is predicted by using CRITIC method.[Result/Conclusion]In the experiment, intelligent connected vehicle is taken as an example. The experiment successfully identifies one emerging technology: multi-sensor fusion information technology. The experimental results are consistent with the industry analysis, indicating that the multi-indicator emerging technology topic identification method from the multi-source information perspective can effectively target multiple sources.
Keywords:topic identification; emerging technology; LDA model; intelligent connected vehicle; EM;CRITIC
新興技術(shù) (Emerging Technology ) 是以交叉學(xué)科為特征,擁有足夠大的發(fā)展?jié)摿蛢?yōu)勢,且存在對傳統(tǒng)技術(shù)的改造趨勢或者對國家經(jīng)濟結(jié)構(gòu)產(chǎn)生深遠(yuǎn)影響的技術(shù)[1]。當(dāng)今世界,技術(shù)飛速發(fā)展,技術(shù)發(fā)展的新領(lǐng)域與方向一定程度上影響著國家制定科技戰(zhàn)略布局。論文記錄絕大部分基礎(chǔ)(理論)創(chuàng)新研究成果,專利則主要記錄技術(shù)創(chuàng)新信息,二者皆可反映新理論、新技術(shù)的創(chuàng)新性,這與新興技術(shù)最重要的特征(根本創(chuàng)新性)吻合,因此可以作為測度新興技術(shù)的重要數(shù)據(jù)源。輿情數(shù)據(jù)(公眾觀點或意見)則是對技術(shù)專家觀點(主要體現(xiàn)在科技論文和專利文獻中)的有益補充[4]。因此,采用情報學(xué)的理論與方法,充分挖掘論文、專利、輿情信息背后的隱含信息,不僅能夠為國家制定科技戰(zhàn)略布局提供有力的情報支持,對指導(dǎo)企業(yè)研發(fā)新技術(shù)也同樣意義非凡。
論文、專利、輿情背后的技術(shù)信息各有側(cè)重。論文數(shù)據(jù)主要表現(xiàn)新興技術(shù)的研究基礎(chǔ)[2],專利數(shù)據(jù)主要反映新興技術(shù)的創(chuàng)新性[3,5],而輿情數(shù)據(jù)主要反映大眾對技術(shù)發(fā)展最直接的認(rèn)知反饋[6]。對于已有的新興技術(shù)的識別工作,有大量學(xué)者對其做過詳細(xì)的綜述[7-9]。表明現(xiàn)有研究對新興技術(shù)主題識別的推進,仍存在以下局限:第一,不同數(shù)據(jù)類型反映的科技信息側(cè)重點不同,如科技論文側(cè)重基礎(chǔ)科學(xué)研究產(chǎn)出,專利側(cè)重技術(shù)創(chuàng)新。只有全面考慮多源信息,科學(xué)計量分析才能得到更客觀的分析結(jié)果。第二,當(dāng)前現(xiàn)有的新興技術(shù)識別體系較少考慮測度未來前景的相應(yīng)指標(biāo),而市場接受度對萌芽期的技術(shù)是否能真正成長為一項引領(lǐng)社會發(fā)展的技術(shù)具有重要影響。
基于上述問題,本文以智能網(wǎng)聯(lián)汽車領(lǐng)域為例, 采集專利、論文、輿情數(shù)據(jù),借助情感分析法、熵值法、CRITIC法、LDA模型法去綜合識別新興技術(shù)主題,融入輿情數(shù)據(jù)來反映新興技術(shù)的未來場景,設(shè)計新興技術(shù)的未來前景相應(yīng)識別指標(biāo),實現(xiàn)對新興技術(shù)主題的有效識別。
本研究利用專利、論文、輿情數(shù)據(jù)開展新興技術(shù)識別工作,首先,借助LDA模型提取論文與專利文本的主題詞,并通過相似度計算,篩選出備選的新興技術(shù)主題;然后,圍繞新興技術(shù)的特征構(gòu)建新興技術(shù)識別指標(biāo)體系,對LDA模型識別出來的主題詞是否具備新興技術(shù)特征進行判別;最后,采用CRITIC法確定最終識別出來的新興技術(shù)領(lǐng)域。因此,文獻綜述主要針對新興技術(shù)的識別方法和新興技術(shù)的特征及判別指標(biāo)體系展開。
1.1新興技術(shù)識別方法主要有基于引文關(guān)系的分析方法、基于知識單元的分析方法、基于主題模型的分析方法三類?;谥R單元的分析方法主要分為詞頻分析與共詞分析。有學(xué)者[10]認(rèn)為突現(xiàn)型突變詞和發(fā)展型突變詞能揭示該領(lǐng)域內(nèi)的新興趨勢?;谥黝}模型的分析方法是近年來新興的新興技術(shù)探測方法,其中以主題概率模型法最具代表性。基于概率的主題模型通過對文本進行深入的語義分析,運用概率統(tǒng)計方法,從中抽取更具價值的潛在主題分布,從而實現(xiàn)新興技術(shù)的識別[11]。
1.2新興技術(shù)特征與識別指標(biāo)目前被廣泛接受的新興技術(shù)具備的本質(zhì)性特征如下:根本創(chuàng)新性、相對增長性、未來不確定性、社會影響性[12-13]。根本創(chuàng)新性:不是一般意義的創(chuàng)新性,而是舊技術(shù)在轉(zhuǎn)變?yōu)樾录夹g(shù)的過程中發(fā)生本質(zhì)性變化,該變化是判斷新舊技術(shù)的轉(zhuǎn)折點。相對增長性:與同一領(lǐng)域的其他技術(shù)相比,新興技術(shù)的發(fā)展速度明顯更快。未來不確定性:新興技術(shù)的技術(shù)與市場是未知的,技術(shù)研發(fā)周期和技術(shù)研發(fā)是否成功,新興技術(shù)是否能滿足市場需求,這些都是不確定因素。社會影響性:新興技術(shù)可能會對未來社會生產(chǎn)方式與經(jīng)營方式產(chǎn)生影響,這個性質(zhì)不易被測度。在識別指標(biāo)方面,Lee等[14]通過正向引用、先驗知識、專利家族成員數(shù)、權(quán)利要求項數(shù)等多項識別指標(biāo)來識別新興技術(shù);Kyebambe等[15]則加入技術(shù)成長周期等指標(biāo)來預(yù)測新興技術(shù);黃魯成等[16]利用高關(guān)注度、高成長潛力度以及高關(guān)聯(lián)度指標(biāo)對關(guān)鍵詞進行精密單位定點技術(shù)有效識別和篩選;宋欣娜等[17]利用新穎性、持久性、社區(qū)性、增長性來跟蹤新興技術(shù)。
總體來看, 當(dāng)前有關(guān)新興技術(shù)識別的研究仍有需要完善的地方:
a.在識別方法上,引文關(guān)系的分析方法滯后性、主觀性強;知識單元的分析方法容易切斷文獻之間及主題詞之間的語義關(guān)聯(lián),缺少連貫性;主題模型法的結(jié)果對語料庫依賴較強,需要進一步考慮方法之間組合來揚長避短。b.在指標(biāo)設(shè)計方面,在新興技術(shù)識別研究中, 較少考慮具有重要價值的輿情數(shù)據(jù),通過大眾對技術(shù)的態(tài)度來測度新興技術(shù)未來的市場潛力。
2.1總體框架新興技術(shù)主題識別框架如圖1所示。①選取合適的專利數(shù)據(jù)庫、文獻數(shù)據(jù)庫與輿情平臺,國內(nèi)外專業(yè)的專利數(shù)據(jù)庫有智慧芽、合享、德溫特數(shù)據(jù)庫等,文獻數(shù)據(jù)庫一般選擇Web of science、中國知網(wǎng),輿情平臺則需要根據(jù)具體領(lǐng)域選擇,例如微信指數(shù)、微博指數(shù)等,獲取實證數(shù)據(jù);②數(shù)據(jù)預(yù)處理,預(yù)處理主要包括去除停用詞,詞形歸并,形成語料庫;③利用主題模型法與相似度計算,提取候選新興技術(shù)主題;④通過新興技術(shù)識別指標(biāo)體系,最終確定新興技術(shù)主題,并進行解讀。關(guān)鍵環(huán)節(jié)為③,其研究重點是LDA模型主題數(shù)的確定和對數(shù)據(jù)進行處理。新興技術(shù)主題識別主要過程如下:第一步,使用Python對采集來的專利、論文、輿情數(shù)據(jù)進行預(yù)處理,去除“的”“本文”等無實際意義的詞,將意義相似的詞語進行歸并,生成語料庫備用。第二步,安裝并加載Python的Lda工具包,使用困惑度函數(shù)確定最佳主題數(shù),將預(yù)處理文本導(dǎo)入,生成主題-詞-概率分布,分別得到專利與論文的研究主題詞,論文研究主題詞對應(yīng)基礎(chǔ)研究,專利研究主題詞對應(yīng)應(yīng)用研究。再進一步得到車聯(lián)網(wǎng)研究歷年在基礎(chǔ)研究與應(yīng)用層面突現(xiàn)的主題詞,利用相似度計算論文與專利突現(xiàn)的主題詞的相似程度,相似度較高的主題詞歸并成為一個備選新興技術(shù)主題詞,相似度較低的則分別為兩個備選新興技術(shù)主題詞。在其基礎(chǔ)上,篩選出現(xiàn)時間較晚,且無論在基礎(chǔ)研究還是應(yīng)用研究層面,都保持持續(xù)性研究的主題詞作為備選的新興技術(shù)主題詞。第三步,運用情感分析法,計算各主題下的積極情感博客數(shù)占總博客數(shù)的比值作為用戶支持率,將用戶支持率與專利轉(zhuǎn)化率作為發(fā)展?jié)摿@一指標(biāo),二者的權(quán)重采用客觀性較強的熵值法確定。發(fā)展?jié)摿Πㄒ延械氖袌鰞r值以及未來可能產(chǎn)生的市場價值,如果大眾對其技術(shù)持有樂觀態(tài)度,那么他們很可能會為這項技術(shù)的實際產(chǎn)品買單。再結(jié)合前人的分析,構(gòu)建新興技術(shù)主題識別指標(biāo)體系。第四步,對候選新興技術(shù)主題各項指標(biāo)進行排序,運用CRITIC法進行綜合評價,確定最終的新興技術(shù)主題。本文設(shè)計的新興技術(shù)主題識別方法的優(yōu)勢在于將輿情數(shù)據(jù)處理之后作為衡量新興技術(shù)的社會影響性的指標(biāo)之一,同時,數(shù)據(jù)源的多樣性能夠克服單一數(shù)據(jù)源造成識別結(jié)果不夠全面的弊端,借助LDA主題模型、情感分析等多種方法,充分利用方法的優(yōu)勢,全面提升識別效果。
圖1 新興技術(shù)主題識別框架
2.2主要研究方法
2.2.1 LDA主題模型 LDA常被用于大規(guī)模文檔集合的建模。運用LDA模型開展文本挖掘提取文本主題詞是一種較為慣常和科學(xué)的做法[18]。該方法有兩大關(guān)鍵步驟,一是停用詞表與用戶自定義詞典的確定,本研究的停用詞表從Python的開源網(wǎng)站上獲取,用戶自定義詞典則是在筆者閱讀大量關(guān)于智能網(wǎng)聯(lián)汽車領(lǐng)域的產(chǎn)業(yè)報告的基礎(chǔ)上自行提煉補充形成。二是LDA主題模型的參數(shù)設(shè)置。主題數(shù)實際上是模型選擇的問題。如果主題數(shù)目太小,會導(dǎo)致主題識別范圍不夠全面;如果主題數(shù)設(shè)置超過閾值,不僅無意義且浪費時間。
目前被廣泛使用確定主題數(shù)的方法是困惑度[19],困惑度計算LDA最佳主題數(shù)。困惑度度量一個概率分布或概率模型預(yù)測樣本的好壞程度,值越小,說明模型預(yù)估能力越強,反之越弱。困惑度曲線開始趨于平穩(wěn),函數(shù)值逐漸收斂到一個穩(wěn)定的值,此時模型的效果最優(yōu)。
本研究采用困惑度確定數(shù)據(jù)集的最佳主題數(shù)。
2.2.2 情感分析法 運用情感分析法,對CSDN博客進行情感極性計算,將文本情感進行分類,分為消極、積極、中立三類。再計算積極情感的博客占據(jù)某一新興技術(shù)主題博客總數(shù)的比作為構(gòu)建發(fā)展?jié)摿@一新興技術(shù)主題識別指標(biāo)的一部分,幫助識別出新興技術(shù)主題。步驟如下:爬取CSDN相關(guān)博客;數(shù)據(jù)清洗存入excel;安裝python并安裝snownlp、xlrd等庫;調(diào)用snownlp已經(jīng)訓(xùn)練好的情感分類模型進行文本情感分析得分;得到的分?jǐn)?shù)在區(qū)間0-1間,趨近于1的為積極,趨近于0的為消極。
本研究選擇BosonNLP情感詞典。該詞典是利用從微博、新聞、論壇等平臺上獲取的上百萬篇情感標(biāo)注數(shù)據(jù)自動構(gòu)建的情感極性詞典[20]。本研究需要處理的輿情數(shù)據(jù)為博客,情感表達用詞習(xí)慣、風(fēng)格與該情感詞典中的情感詞大多類似,因此選擇其作為基礎(chǔ)詞典。
2.2.3 CRITIC法 考慮到本研究指標(biāo)體系下各項指標(biāo)權(quán)重較為模糊,因此參考黨耀國[21]的做法利用改進的CRITIC法對備選新興技術(shù)主題的各項指標(biāo)進行綜合評價。改進的CRITIC法在本文新興技術(shù)主題識別中的具體操作是對本文指標(biāo)體系下的6個指標(biāo)進行客觀賦權(quán),為綜合指數(shù)的計算奠定基礎(chǔ)。根據(jù)綜合指數(shù)排名,選出排名最高的備選新興技術(shù)主題,其內(nèi)容即為最終識別的新興技術(shù)主題。
2.3新興技術(shù)判別指標(biāo)體系文獻綜述已根據(jù)新興技術(shù)特征將已有指標(biāo)進行了歸納整理。根據(jù)新興技術(shù)本質(zhì)特征及其概念,進行指標(biāo)體系設(shè)計。首先是新興技術(shù)主題的新穎性,新興技術(shù)主題的新穎性指的是這項技術(shù)在發(fā)展初期的這個時間點,相關(guān)文獻出現(xiàn)的時間越晚越新穎[22]。本研究采用論文平均發(fā)表年、專利平均授權(quán)年的早晚來表征新興技術(shù)主題的新穎性,以平均出現(xiàn)時間更早的文獻年份作為依據(jù)。這么做的原因是一項新興技術(shù)的起點可能是從理論研究開始也可能是從應(yīng)用研究出發(fā),而論文是主要的理論研究成果,專利是主要的應(yīng)用研究成果,因此需要考慮論文與專利的出現(xiàn)時間早晚,并進行比較。而采用平均出現(xiàn)時間的原因在于不同年份的論文數(shù)量或者專利數(shù)量不盡相同,不能單純考慮時間變化而忽略數(shù)量。因此可以計算平均一件專利或者論文的產(chǎn)出時間來作為新興技術(shù)主題的新穎性指標(biāo)的測度。
新興技術(shù)主題的根本創(chuàng)新性由其主題下的專利的權(quán)利要求平均數(shù)來表征[14]。一項新興技術(shù)是否能夠真正的發(fā)展取決于其根本創(chuàng)新性,即與已有技術(shù)相比是否具有突出的實質(zhì)特點或顯著進步。一般來說,權(quán)利要求數(shù)量越多,說明保護的內(nèi)容越多,專利質(zhì)量也就更高。如果一項新興技術(shù)主題下的專利平均權(quán)利要求數(shù)量越多,專利質(zhì)量普遍較高,那么主題代表的新興技術(shù)的創(chuàng)新性也就越高。
新興技術(shù)主題的相對增長性可以通過其主題下的專利年增長率來表征[1]。本研究認(rèn)為新興技術(shù)主題的相對增長性不應(yīng)僅僅停留在專利層面,還應(yīng)該考慮論文層面。原因是新興技術(shù)的發(fā)展速度不僅僅體現(xiàn)在專利研發(fā)速度加快,其理論水平也在不斷提高。分別計算數(shù)年的專利與論文較前一年的增長個數(shù),若值均為正值,且處于不斷上升的趨勢,那么其新興技術(shù)主題代表的新興技術(shù)的相對增長性越強。
由于技術(shù)發(fā)展可能存在初期技術(shù)保密等原因,新興技術(shù)的社會影響性很難被量化[22]。但可通過技術(shù)在新聞、科技評論、社交網(wǎng)絡(luò)等熱度上有所表征[13]。本研究認(rèn)為一項新興技術(shù)的社會影響性,一方面來自于其是否能夠被轉(zhuǎn)化,對社會產(chǎn)生經(jīng)濟效益,例如以往研究中,運用專利轉(zhuǎn)化比率來測度新興技術(shù)社會影響性[23];另一方面來自于大眾對其的認(rèn)知程度和支持程度,即前文所說的通過新聞、科技評論、社交網(wǎng)絡(luò)等熱度上有所表征。因此,本研究將熱度與專利轉(zhuǎn)化比率結(jié)合來測度新興技術(shù)社會影響性的重要指標(biāo)?;诓┛蛿?shù)據(jù)情感表達習(xí)慣、風(fēng)格與微博輿情情感詞大多類似,借鑒前人構(gòu)建用戶話題情感強度展開微博輿情分析[24]的經(jīng)驗,探測用戶的情感傾向[25],作為對新興技術(shù)社會影響性的一部分考量。綜上,本研究借助情感分析工具計算積極情感博客數(shù)占總數(shù)的比率作為用戶支持率,借助專利數(shù)據(jù)庫下載對應(yīng)的專利轉(zhuǎn)化數(shù)據(jù),利用熵值法確定二者權(quán)重,再將二者乘以權(quán)重并進行相加構(gòu)建發(fā)展?jié)摿@個指標(biāo)來表征新興技術(shù)主題的社會影響性。
此外還應(yīng)考慮新興技術(shù)的規(guī)模與關(guān)注人數(shù)的情況,達到一定規(guī)模的基礎(chǔ)上,關(guān)注人數(shù)越來越多的情況下,該技術(shù)越有可能成長為真正的新興技術(shù)。
綜上,新興技術(shù)判別指標(biāo)體系包括:根本創(chuàng)新性指標(biāo)、相對增長性指標(biāo)、規(guī)模指標(biāo)、關(guān)注度指標(biāo)、新穎性指標(biāo),社會影響性指標(biāo)。指標(biāo)的具體計算見表1。
表1 新興技術(shù)主題識別指標(biāo)
初步篩選出新興技術(shù)主題之后,將根據(jù)主題下的論文專利,按照計算規(guī)則計算出上述6個指標(biāo),再根據(jù)CRITIC法,確定最終的新興技術(shù)主題。
伴隨信息、通信、AI、能源領(lǐng)域的技術(shù)迭代更新,汽車產(chǎn)業(yè)正迎來新的歷史時期,智能網(wǎng)聯(lián)汽車領(lǐng)域是我國重點發(fā)展的戰(zhàn)略性新興產(chǎn)業(yè)之一。因此,本文以該領(lǐng)域為例,驗證新興技術(shù)主題識別方法的有效性。
3.1數(shù)據(jù)獲取與數(shù)據(jù)清洗專利數(shù)據(jù)來源于Incopat數(shù)據(jù)庫,專利申請時間為2008年1月1日-2019年12月31日,檢索方式為標(biāo)題摘要檢索,檢索詞為:智能網(wǎng)聯(lián)汽車、車聯(lián)網(wǎng)、智能汽車。為保證數(shù)據(jù)質(zhì)量,選擇發(fā)明申請與發(fā)明授權(quán)專利,申請人國別選擇中國,簡單同族合并之后,獲得4 034條有效專利。
論文數(shù)據(jù)來源于CNKI文獻數(shù)據(jù)庫,論文發(fā)表時間為2008年1月1日-2019年12月31日,檢索方式為主題檢索,檢索詞為:智能網(wǎng)聯(lián)汽車、智能汽車、車聯(lián)網(wǎng),經(jīng)過數(shù)據(jù)清洗,共獲得387篇核心期刊論文、1 412篇碩博論文、146篇會議論文。
輿情數(shù)據(jù)來源于CSDN博客,檢索詞為智能網(wǎng)聯(lián)汽車、車聯(lián)網(wǎng)、車載自組網(wǎng)絡(luò),搜索類型選擇博客,通過Python爬取博文標(biāo)題、博文正文、博文下方的評論。博客發(fā)表時間為2019年10月10日-2020年10月10日,共獲得678條有效數(shù)據(jù)。
3.2實驗結(jié)果及分析
3.2.1 新興技術(shù)結(jié)果判別 本文設(shè)定LDA模型的參數(shù)設(shè)置為默認(rèn)值,α=0.5/K,β=0.1,K為潛在主題數(shù)量。歷年最佳主題數(shù)目的數(shù)值根據(jù)困惑度確定,當(dāng)曲線趨于平緩時,我們即認(rèn)為對應(yīng)的為該年文檔最佳主題數(shù)。智能網(wǎng)聯(lián)汽車領(lǐng)域的歷年主題得以顯示。我們利用智能網(wǎng)聯(lián)汽車領(lǐng)域2008-2019年的全文本數(shù)據(jù)集為例,生成圖2,可以看出當(dāng)主題數(shù)趨于16時,曲線開始趨于平緩,我們即認(rèn)為16為智能網(wǎng)聯(lián)汽車總文本集的最佳主題數(shù)。
圖2 困惑度(智能網(wǎng)聯(lián)汽車全文本數(shù)據(jù)集為例)
利用LDA對專利與論文的摘要分別進行文本挖掘,生成應(yīng)用層面和理論層面的主題詞。將數(shù)據(jù)導(dǎo)入Python,生成歷年文本的詞項 - 主題概率分布文件。根據(jù)詞項 - 主題概率分布得到每個主題下分布的詞匯,以及每個詞屬于它所對應(yīng)的每個主題的概率,選取每個主題下概率排名前3位的詞作為主題的命名詞,以此得到每年的各主題的命名詞,分布情況如表2、表3所示。
表2 專利主題挖掘結(jié)果
根據(jù)表2專利主題歷年挖掘結(jié)果,可以發(fā)現(xiàn)在應(yīng)用層,突現(xiàn)主題詞整理如下:2008年應(yīng)用研究與數(shù)據(jù)傳輸相關(guān);2009年圍繞手持終端、車聯(lián)網(wǎng)終端展開;2010年圍繞控制器、信息系統(tǒng)展開;2011年新出現(xiàn)的主題詞為身份認(rèn)證、電子鎖;2012年新出現(xiàn)的詞是輔助導(dǎo)航系統(tǒng)、通信監(jiān)測、節(jié)點激勵;2013年新出現(xiàn)主題詞為智能終端、區(qū)塊鏈、自動駕駛、霧計算;2014年新出現(xiàn)的主題詞有無人駕駛、雷達、安全防護;2015年新出現(xiàn)的主題詞為中繼節(jié)點算法、隱私保護、云平臺;2016年新出現(xiàn)的主題詞有傳感器、云通信;2017年新出現(xiàn)的主題詞為多傳感器融合;2018新出現(xiàn)主題詞為北斗車聯(lián)網(wǎng)、疲勞駕駛、邊緣計算;2019年新出現(xiàn)的主題詞為5G-V2X、智能車聯(lián)網(wǎng)。
根據(jù)表3論文主題歷年挖掘結(jié)果,可以發(fā)現(xiàn)研究在基礎(chǔ)研究層,突現(xiàn)主題詞整理如下:2008-2009年智能汽車研究剛起步,主要圍繞圖像處理、控制算法展開;2010年新出現(xiàn)主題詞為智能汽車競賽、車聯(lián)網(wǎng);2011年新出現(xiàn)的主題詞為協(xié)助算法、雷達、智能汽車空間;2012新出現(xiàn)的主題詞為:導(dǎo)航、保險、身份識別、路由、預(yù)警;2013年新出現(xiàn)主題詞為仿真、廣播、蠕蟲、傳感器;2014年新出現(xiàn)的自動駕駛、云安全;2015年新出現(xiàn)的主題詞為4G車聯(lián)網(wǎng)、語音通信技術(shù);2016年新出現(xiàn)的主題詞為異構(gòu)車聯(lián)網(wǎng)、車聯(lián)網(wǎng)產(chǎn)業(yè);2017年新出現(xiàn)的主題詞為多傳感器融合、群智感知、5G車聯(lián)網(wǎng);2018新出現(xiàn)的主題詞為安全網(wǎng)關(guān);2019年新出現(xiàn)的主題詞為安全管理、云計算車聯(lián)網(wǎng)。
表3 論文主題挖掘結(jié)果
如此便得到智能網(wǎng)聯(lián)汽車領(lǐng)域歷年在基礎(chǔ)研究與應(yīng)用層面突現(xiàn)的主題詞。用 TF /IDF 余弦相似度算法計算論文主題與專利主題之間的相似度[26],部分見表4。
表4 論文-專利相似度測算部分結(jié)果
論文與專利突現(xiàn)主題詞相似度比較大的,可以歸為同主題,根據(jù)論文與專利突現(xiàn)主題詞之間的相似度,將論文與專利突現(xiàn)主題詞進行合并。且選擇無論在基礎(chǔ)研究還是應(yīng)用研究層面,均保持持續(xù)性研究的突現(xiàn)主題詞。得到以下主題詞:多傳感器融合技術(shù)、5G車聯(lián)網(wǎng)、無人駕駛。
根據(jù)新興技術(shù)判別指標(biāo)體系,對新興技術(shù)主題的新穎性、根本創(chuàng)新性、相對增長性、規(guī)模、關(guān)注度、發(fā)展?jié)摿α矫嬲归_綜合評價,篩選出真正的新興技術(shù)主題。
首先,分別用Excel統(tǒng)計出主題為多傳感器融合技術(shù)相關(guān)的、5G車聯(lián)網(wǎng)相關(guān)的、無人駕駛的專利、論文文獻;然后,統(tǒng)計三項主題詞下專利權(quán)利要求總數(shù)、論文關(guān)注總?cè)藬?shù)、專利發(fā)明人總?cè)藬?shù)、論文總數(shù)、專利總數(shù)、專利轉(zhuǎn)化數(shù)、專利授權(quán)年總和、論文發(fā)表年總和、該主題下對應(yīng)的博客總數(shù)、積極情感博客總數(shù)、消極情感博客總數(shù),并匯總為表5;最后,利用表1計算規(guī)則分別計算出多傳感器融合技術(shù)、5G車聯(lián)網(wǎng)、無人駕駛主題對應(yīng)的各項指標(biāo)值,見表7。
表5 備選新興技術(shù)主題數(shù)據(jù)情況
其中,根本創(chuàng)新性對應(yīng)的是主題下所有專利的平均權(quán)利要求數(shù)量;相對增長性對應(yīng)的是平均年增加的文獻與專利數(shù)量之和;規(guī)模對應(yīng)的是論文與專利之和;關(guān)注度是平均一篇專利/文獻的作者人數(shù);發(fā)展?jié)摿?yīng)的是主題下專利轉(zhuǎn)化率和與之相關(guān)的積極情感博客總數(shù)占該主題總博客的比值,二者賦權(quán)相加所得,熵值法權(quán)重賦權(quán)見表6;新穎性是指與該主題相關(guān)文獻,即論文平均發(fā)表年A 與專利平均授權(quán)年B,取更早的年份。
表6 熵值法權(quán)重計算結(jié)果
表7 新興技術(shù)主題識別結(jié)果
根據(jù)表7所得的評估結(jié)果先采用CRITIC法對各項指標(biāo)賦權(quán),詳見表8。賦權(quán)完成后,我們將多傳感器融合技術(shù)、5G車聯(lián)網(wǎng)、無人駕駛?cè)椫黝}的指標(biāo)分別乘以對應(yīng)權(quán)重,生成綜合指數(shù),再進行排序,結(jié)果見表9。
表8 CRITIC法權(quán)重計算情況
表9 備選新興主題綜合指數(shù)排名
3.2.2 車聯(lián)網(wǎng)新興技術(shù)主題確定與解讀 確定多傳感器融合信息技術(shù)為智能網(wǎng)聯(lián)汽車當(dāng)前的新興技術(shù)后,還需進一步分析。當(dāng)前,高級輔助駕駛系統(tǒng)ADAS是智能網(wǎng)聯(lián)汽車發(fā)展的重要方向,其重要手段就是通過多源傳感器信息融合,為用戶打造穩(wěn)定、舒適、可靠、可依賴的輔助駕駛功能,如車道保持系統(tǒng)、前碰預(yù)警等。多源信息的融合,目的在于數(shù)據(jù)信息的冗余為數(shù)據(jù)信息的可靠分析提供依據(jù),從而提高準(zhǔn)確率,降低虛警率、漏檢率,實現(xiàn)輔助駕駛系統(tǒng)的自檢和自學(xué)習(xí),最終實現(xiàn)智能駕駛的最終目標(biāo)。
北京航空航天大學(xué)教授余貴珍博士指出智能駕駛關(guān)鍵是感知與融合。隨著5G時代到來,世界將邁進萬物互聯(lián)時代,國內(nèi)外的汽車產(chǎn)業(yè)都將開發(fā)ADAS作為智能網(wǎng)聯(lián)汽車的重要任務(wù)。2019年12月中國信息通信研究院發(fā)布的《車聯(lián)網(wǎng)白皮書》(C-V2X分冊)指出汽車未來演進方向是高級自動駕駛服務(wù),而高級自動駕駛服務(wù)關(guān)鍵就在于車內(nèi)與車外數(shù)據(jù)信息的融合,這必將大力發(fā)展多傳感器融合信息技術(shù)。2020年8月中國車聯(lián)網(wǎng)大會暨第十五屆中國衛(wèi)星導(dǎo)航運營商大會成功召開,一些運營商、專家以及光通信廠商也指出多傳感器融合信息技術(shù)在無人駕駛領(lǐng)域的的未來前景可期。5G 時代汽車的發(fā)展,關(guān)注內(nèi)外部汽車信息的融合,來實現(xiàn)安全駕駛、智能駕駛等。業(yè)界的分析與本研究識別的新興技術(shù)保持一致,說明多源信息視角下多指標(biāo)新興技術(shù)識別方法的有效性。
本文借助LDA模型、情感分析法、熵值法、CRITIC法,利用專利、論文、輿情數(shù)據(jù)開展新興技術(shù)主題識別研究, 充分利用當(dāng)前數(shù)據(jù)科學(xué)研究新趨勢,圍繞新興技術(shù)概念及其本質(zhì)特征,設(shè)計發(fā)展?jié)摿@一指標(biāo)有效測度新興技術(shù)的社會影響性,利用方法組合,充分發(fā)揮各個方法的優(yōu)勢,也使得所提出的多源信息視角下多指標(biāo)的新興技術(shù)主題識別方法更加適應(yīng)當(dāng)前大數(shù)據(jù)時代下數(shù)據(jù)的繁雜豐富。
利用專利、論文、輿情信息開展的新興技術(shù)主題識別方法可以有效識別出新興技術(shù)主題,彌補單獨利用論文數(shù)據(jù)或者專利數(shù)據(jù)導(dǎo)致識別不全面的短板。未來將考慮如何在指標(biāo)融合前就對專利、論文、輿情數(shù)據(jù)進行內(nèi)容上的統(tǒng)一,同時,由于專利與論文都存在一定的滯后性,對于二者之間的差異造成的指標(biāo)權(quán)重差異需要更深層次的探討,提升新興技術(shù)主題的識別效果。