国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于word2vec與LDA主題模型的技術(shù)相似性可視化研究

2021-10-11 10:14席笑文宋欣娜
情報(bào)學(xué)報(bào) 2021年9期
關(guān)鍵詞:專利權(quán)人測(cè)度相似性

席笑文,郭 穎,宋欣娜,王 瑾

(1.中國(guó)科學(xué)院檔案館,北京 100190;2.中國(guó)政法大學(xué)商學(xué)院,北京 100088;3.北京理工大學(xué)管理與經(jīng)濟(jì)學(xué)院,北京 100081)

1 引 言

社會(huì)經(jīng)濟(jì)的快速發(fā)展和需求的快速更迭,迫使研發(fā)主體需要不斷提高技術(shù)創(chuàng)新性與復(fù)雜性,以適應(yīng)瞬息萬(wàn)變的現(xiàn)代經(jīng)濟(jì)。這就要求研發(fā)主體不斷地進(jìn)行創(chuàng)新活動(dòng),來(lái)保持自身的先進(jìn)性,以在激烈的市場(chǎng)競(jìng)爭(zhēng)中把握先機(jī)、搶占技術(shù)制高點(diǎn)。而技術(shù)相似性是研發(fā)主體進(jìn)行識(shí)別潛在競(jìng)爭(zhēng)與合作伙伴、技術(shù)轉(zhuǎn)移、協(xié)同創(chuàng)新、并購(gòu)等創(chuàng)新活動(dòng)的重要依據(jù)[1],同時(shí),也是企業(yè)、組織或國(guó)家進(jìn)行技術(shù)情報(bào)分析的重要內(nèi)容。由此可見,如何科學(xué)、準(zhǔn)確地測(cè)度技術(shù)相似性成為值得考慮的問題。

傳統(tǒng)的技術(shù)相似性測(cè)度方法主要依賴于專利分類體系,然而,分類體系存在著兩個(gè)明顯的問題:一是無(wú)法直觀地反映專利的技術(shù)特征;二是不同類和子類可能出現(xiàn)重要的重疊,從而出現(xiàn)技術(shù)相似程度高的專利卻屬于不同分類的情況。隨后,學(xué)者們開始嘗試從專利引用關(guān)系角度進(jìn)行分析,主要包括專利耦合、專利互引分析等,由于該方法存在專利引文施引動(dòng)機(jī)的不明確性以及專利引用的滯后性等問題,使得技術(shù)相似性測(cè)度結(jié)果的準(zhǔn)確性受到質(zhì)疑。為了解決上述問題,基于文本挖掘的技術(shù)相似性測(cè)度方法開始受到研究者的廣泛關(guān)注。該類方法通常采用one-hot向量或者詞袋模型表示專利權(quán)人的技術(shù)主題,一方面,僅考慮詞的共現(xiàn)關(guān)系,未考慮詞間的語(yǔ)義關(guān)聯(lián)性,無(wú)法細(xì)粒度地表示專利權(quán)人的技術(shù)主題;另一方面,高維稀疏向量的運(yùn)算煩瑣且復(fù)雜,這使得測(cè)度結(jié)果在準(zhǔn)確性上具有較大的局限性。近年來(lái),較為流行的深度學(xué)習(xí)方法,能夠?qū)⑽谋緝?nèi)容包含的上下文語(yǔ)義信息表示為低維稠密向量,能夠有效地解決上述問題。

因此,本文引入深度學(xué)習(xí)方法,構(gòu)建基于word2vec和LDA(latent Dirichlet allocation)主題模型的技術(shù)相似性測(cè)度框架,并選取NEDD(nano en‐abled drug delivery)領(lǐng)域?yàn)槔?,論證本文的合理性與科學(xué)性,以期為進(jìn)一步測(cè)度技術(shù)相似性的研究工作提供借鑒與參考。

2 文獻(xiàn)綜述

1986年,Jaffe[3]首次運(yùn)用美國(guó)專利局的原始分類體系,將專利劃分為400個(gè)左右的子類,并基于此計(jì)算各發(fā)達(dá)國(guó)家間的技術(shù)相似程度,開創(chuàng)了基于專利分類法計(jì)算技術(shù)相似性的先河。隨后,Jaffe等[4]在進(jìn)行企業(yè)間知識(shí)流動(dòng)的研究時(shí),利用專利分類法查看各個(gè)企業(yè)間專利重疊程度,來(lái)衡量企業(yè)間的技術(shù)相似性。蔡虹等[5]也借鑒此類方法對(duì)比了中國(guó)與一些創(chuàng)新型地區(qū)或國(guó)家的技術(shù)相似性。Kogler等[6]提出,基于專利分類法計(jì)算技術(shù)相似性時(shí),應(yīng)該將專利所屬技術(shù)類別的權(quán)重考慮在內(nèi)。此類方法主要依賴于專利局的分類體系衡量專利間的技術(shù)相似性以及企業(yè)專利組合間的相似性,顯然存在以下問題:①傳統(tǒng)的IPC(international patent classifica‐tion)分類體系堅(jiān)持以應(yīng)用為主、功能為輔的分類原則,無(wú)法直接體現(xiàn)專利的技術(shù)主題特征;②不同的類和子類可能包含重要的重疊,可能出現(xiàn)技術(shù)上相似的專利但卻屬于不同分類的情況。

之后很多學(xué)者開始借鑒文獻(xiàn)計(jì)量學(xué)的方法測(cè)度技術(shù)相似性。Lai等[7]依據(jù)專利間的引用關(guān)系,構(gòu)建專利分類體系,從而計(jì)算專利間的技術(shù)相似性。張曦等[8]利用專利共被引分析法,以選取的28家世界500強(qiáng)企業(yè)為研究對(duì)象,探討了企業(yè)和產(chǎn)業(yè)間的技術(shù)關(guān)聯(lián)以及技術(shù)的相似性。同時(shí),也有部分學(xué)者使用專利耦合分析法測(cè)度專利相似性。例如,Huang等[9]選取臺(tái)灣地區(qū)的58家高科技電子企業(yè)為分析對(duì)象,運(yùn)用專利文獻(xiàn)耦合方法計(jì)算企業(yè)間的技術(shù)聯(lián)系。Lo[10]在專利耦合方法的基礎(chǔ)上,創(chuàng)新性的結(jié)合相關(guān)性分析和多維尺度分析,來(lái)探究基因工程領(lǐng)域內(nèi)重點(diǎn)研發(fā)機(jī)構(gòu)間的技術(shù)關(guān)聯(lián)。洪勇等[11]在專利耦合分析原理的基礎(chǔ)上,改進(jìn)了耦合強(qiáng)度的計(jì)算方法,并構(gòu)建了企業(yè)間技術(shù)相似性可視化分析與應(yīng)用流程框架,且選取平板顯示技術(shù)領(lǐng)域?yàn)閷?shí)例進(jìn)行論證。然而,該類方法由于專利引文施引動(dòng)機(jī)的不明確以及專利引用存在的滯后性等問題,顯然較難真實(shí)地反應(yīng)專利權(quán)人間的技術(shù)相似程度。

為了解決上述問題,學(xué)者們開始從文本挖掘的角度展開研究。例如,Arts等[2]學(xué)者通過關(guān)鍵詞間的語(yǔ)義相似性,來(lái)度量專利間技術(shù)相似性,且由來(lái)自不同領(lǐng)域的美國(guó)專家進(jìn)行驗(yàn)證,證明了該方法的測(cè)度效果優(yōu)于基于專利分類體系的測(cè)度效果。Yoon等[12]以專利文獻(xiàn)為研究對(duì)象,采用文本挖掘技術(shù)構(gòu)建關(guān)鍵詞的詞向量,進(jìn)而運(yùn)用歐幾里得距離來(lái)計(jì)算專利的相似度。彭繼東等[13]基于文本挖掘技術(shù),以專利標(biāo)題、摘要、權(quán)利要求和說明書4個(gè)文本元素的加權(quán)相似度作為專利相似度的測(cè)量。張端陽(yáng)等[14]運(yùn)用LDA主題模型獲取專利文檔的技術(shù)主題向量,并采用余弦相似度來(lái)測(cè)度專利間的技術(shù)相似度。該類方法往往僅考慮詞間的共現(xiàn)關(guān)系,忽略了詞與詞間的上下文語(yǔ)義關(guān)系,使得技術(shù)主題特征的表示缺乏語(yǔ)義,同時(shí),存在計(jì)算復(fù)雜性高的問題。word2vec模型能夠有效解決語(yǔ)義關(guān)系抽取問題,且能夠?qū)⒓夹g(shù)主題特征表示為低維稠密向量,使得從詞粒度層面對(duì)專利權(quán)人進(jìn)行精細(xì)語(yǔ)義建模成為可能[15]。

基于此,本文構(gòu)建了基于word2vec和LDA主題模型的技術(shù)相似性測(cè)度方法,嘗試從“詞粒度”層面實(shí)現(xiàn)專利權(quán)人的精細(xì)語(yǔ)義建模;同時(shí),由于缺乏將技術(shù)相似性測(cè)度結(jié)果直觀展示并加以應(yīng)用的流程框架,本文進(jìn)一步構(gòu)建了能夠綜合反應(yīng)專利權(quán)人與技術(shù)主題關(guān)系的二模網(wǎng)絡(luò)[16],以全面揭示研究領(lǐng)域?qū)@麢?quán)人技術(shù)布局情況及技術(shù)相似性關(guān)系,為企業(yè)、組織或國(guó)家識(shí)別潛在競(jìng)爭(zhēng)關(guān)系和合作伙伴提供參考。

3 研究方法

本節(jié)內(nèi)容主要介紹了基于word2vec和LDA主題模型的技術(shù)相似性可視化研究框架的構(gòu)建過程,選取專利文本為研究對(duì)象。首先,利用word2vec模型學(xué)習(xí)特征詞在文檔集合中的上下文語(yǔ)境信息;其次,結(jié)合LDA主題模型,構(gòu)建的專利權(quán)人-專利-技術(shù)主題三層概率分布合成“詞粒度”層面的主題向量、專利文本向量及專利權(quán)人向量;再次,基于向量相似度計(jì)算指標(biāo)計(jì)算專利權(quán)人間的語(yǔ)義相似度;最后,構(gòu)建能綜合揭示專利權(quán)人-技術(shù)主題關(guān)聯(lián)的二模網(wǎng)絡(luò)。本文的研究方法框架如圖1所示。

圖1 研究框架流程圖

3.1 數(shù)據(jù)預(yù)處理

本文以分析領(lǐng)域內(nèi)的專利權(quán)人作為研究對(duì)象,通過從專利文本內(nèi)容(摘要與標(biāo)題)中提取技術(shù)特征詞表征專利權(quán)人的技術(shù)主題集合。因此,需要對(duì)專利權(quán)人及專利文本內(nèi)容進(jìn)行預(yù)處理,從而方便研究對(duì)象的選取與技術(shù)主題的提取。

1)專利權(quán)人的清洗

因不同表達(dá)形式、中途改名等會(huì)使得專利權(quán)人名稱存在重復(fù)的情況,也會(huì)因公司并購(gòu)或解體出現(xiàn)專利權(quán)人名稱不存在的情況,故本文需要對(duì)專利權(quán)人的名稱進(jìn)行統(tǒng)一。DII數(shù)據(jù)庫(kù)為每個(gè)專利權(quán)人均提供了唯一且標(biāo)準(zhǔn)化的專利權(quán)人代碼。因此,本文采用專利權(quán)人代碼實(shí)現(xiàn)專利權(quán)人名稱的清洗。

2)文本結(jié)構(gòu)化處理

本文使用VantagePoint中自然語(yǔ)言處理相關(guān)模塊,對(duì)專利文本內(nèi)容(標(biāo)題和摘要)進(jìn)行預(yù)處理,主要包括分詞、去停用詞、模糊語(yǔ)義匹配、去除低頻詞等步驟,以減少文本噪音,提高信息質(zhì)量。

3.2 構(gòu)建基于word2vec和LDA主題模型的技術(shù)相似性測(cè)度方法

1)利用word2vec模型學(xué)習(xí)特征詞向量

word2vec通過訓(xùn)練特征詞在專利文檔中的上下文語(yǔ)義信息,將包含文本語(yǔ)義的特征詞表示為低維稠密向量。其主要包含CBOW(continuous bag-ofwords model)模型和skip-gram模型,前者是利用詞的前后n個(gè)詞來(lái)預(yù)測(cè)當(dāng)前詞,后者則利用當(dāng)前詞所在的語(yǔ)境預(yù)測(cè)前后n個(gè)詞[17]。

為了解決LDA主題模型的語(yǔ)義提取及高維稀疏向量的問題,本文嘗試引入word2vec學(xué)習(xí)專利文本的上下文語(yǔ)義信息,更為細(xì)粒度地表示專利權(quán)人的研究主題特征。具體來(lái)說,將分詞后的專利文本集合作為模型的輸入,通過不斷調(diào)參,得到包含語(yǔ)義信息的特征詞向量,從而為后續(xù)生成專利權(quán)人的技術(shù)主題向量奠定基礎(chǔ)。

2)利用LDA主題模型構(gòu)建專利權(quán)人-專利-技術(shù)主題概率分布

LDA主題模型的基本思想是將文檔看作多個(gè)隱含主題的集合,然后不斷模擬文檔生成過程,從而識(shí)別語(yǔ)料或者文檔中的潛在主題信息,利用獲得的文檔-主題概率關(guān)系來(lái)反映每個(gè)文檔的潛在主題,通過獲得的主題-主題詞項(xiàng)概率分布來(lái)反映每個(gè)主題的主要內(nèi)容。通過對(duì)大規(guī)模的語(yǔ)料庫(kù)或者文檔的建模,能夠挖掘出文檔中隱含的主題信息。

本節(jié)首先通過專利文檔集合訓(xùn)練LDA主題模型,得到專利-主題、主題-主題詞項(xiàng)間的概率分布關(guān)系;然后,依據(jù)專利文本與專利權(quán)人所屬的對(duì)應(yīng)關(guān)系,構(gòu)建專利權(quán)人-專利-技術(shù)主題三層概率分布。三層概率分布的具體構(gòu)建方法如圖2所示。

圖2 專利權(quán)人-專利-技術(shù)主題三層概率分布

3)基于詞向量的主題向量及專利權(quán)人向量表示

假設(shè)專利文檔集合D={d1,d2,…,dn},共包含V個(gè)詞{w1,w2,…,wv}。首先,利用word2vec訓(xùn)練出文檔集合所包含詞的詞向量{v(w1),v(w2),…,v(wv)};然后,基于LDA主題模型得到主題-主題詞項(xiàng)概率分布,假設(shè)專利文本共包含N個(gè)主題{t1,t2,…,tn},其中,將第i個(gè)主題ti生成的第j個(gè)詞記為tij,將生成第j個(gè)詞的概率記為θij。本文認(rèn)為,一個(gè)主題詞項(xiàng)所屬主題概率越高,該主題詞項(xiàng)就越能夠表征該主題的主題信息,也就應(yīng)賦予該主題詞項(xiàng)更高的權(quán)重。因此,為計(jì)算出基于詞向量的主題向量,將選取每個(gè)主題中主題詞分布概率位于前h的詞,進(jìn)一步對(duì)每個(gè)主題在選中的h個(gè)詞上的分布概率進(jìn)行歸一化處理,即

并將歸一化結(jié)果作為每個(gè)主題詞項(xiàng)的權(quán)重。

綜上,基于詞向量的主題向量表示為某主題中前h個(gè)詞的詞向量分別乘以其權(quán)重并加和,即

基于專利權(quán)人-專利-技術(shù)主題三層概率分布關(guān)系,由于專利文檔中一個(gè)技術(shù)主題所屬概率越高,該技術(shù)主題越能夠表征該專利文檔的主題信息,就應(yīng)賦予此技術(shù)主題更高的權(quán)重。其中,將第i個(gè)專利文檔di生成的第j個(gè)技術(shù)主題dij的概率記為Xij,故首先選取專利文檔中技術(shù)主題分布概率位于前m的技術(shù)主題,并將每篇專利文檔在選中的m個(gè)技術(shù)主題上的分布概率進(jìn)行歸一化,即

且將歸一化結(jié)果作為每個(gè)技術(shù)主題的權(quán)重。因此,基于詞向量的專利文檔向量表示為某專利文檔中前m個(gè)技術(shù)主題向量分別乘以其權(quán)重后加和,計(jì)算公式為

專利權(quán)人Ci的向量表示為專利權(quán)人所包含文檔向量總和與文檔總數(shù)之比,即

4)利用詞向量計(jì)算專利權(quán)人的語(yǔ)義相似度

將分析領(lǐng)域里的每一個(gè)專利權(quán)人表示為一個(gè)固定維度的空間向量后,專利權(quán)人間的技術(shù)相似性測(cè)度就轉(zhuǎn)變?yōu)閷@麢?quán)人向量間的空間相似度問題。若計(jì)算結(jié)果相似度值越高,則說明未來(lái)變成競(jìng)爭(zhēng)對(duì)象或者合作伙伴的概率也就越大[18]。代表性的向量間相似度計(jì)算方法包括歐幾里得度量相似度、余弦相似度及Jaccard系數(shù)等。本文選取余弦距離來(lái)計(jì)算相似 性,Ci=(c1,c2,c3,…,cn)和Cj=(c1,c2,c3,…,cn)分 別 表示為兩個(gè)專利權(quán)人的向量,具體計(jì)算公式為

3.3 構(gòu)建專利權(quán)人-技術(shù)主題二模網(wǎng)絡(luò)

為了更加直觀地將技術(shù)相似度測(cè)度分析結(jié)果應(yīng)用于技術(shù)情報(bào)分析中,本文繪制出專利權(quán)人技術(shù)主題二模網(wǎng)絡(luò),如圖3所示。其中,專利權(quán)人網(wǎng)絡(luò)表示專利權(quán)人間技術(shù)相似性關(guān)系。節(jié)點(diǎn)大小表示專利權(quán)人持有專利數(shù)量的多少,節(jié)點(diǎn)間連邊的粗細(xì)程度表示專利權(quán)人間所持技術(shù)的相似程度。在技術(shù)主題網(wǎng)絡(luò)中,節(jié)點(diǎn)表示所分析技術(shù)領(lǐng)域的熱點(diǎn)技術(shù)主題,節(jié)點(diǎn)大小表示該技術(shù)主題受關(guān)注程度。兩層網(wǎng)絡(luò)間的聯(lián)系表示為專利權(quán)人所包含的技術(shù)主題。該圖譜可直接作為企業(yè)技術(shù)情報(bào)人員分析特定技術(shù)領(lǐng)域的技術(shù)布局情況、潛在競(jìng)爭(zhēng)對(duì)手與備選合作伙伴等分析的主要依據(jù)。

圖3 專利權(quán)人-技術(shù)主題雙層復(fù)雜網(wǎng)絡(luò)圖

4 實(shí)證分析

以納米導(dǎo)藥系統(tǒng)領(lǐng)域特定時(shí)間段內(nèi)的專利權(quán)人為研究對(duì)象:首先,基于word2vec和LDA主題模型生成包含文本語(yǔ)義關(guān)系的專利權(quán)人向量;其次,利用余弦相似性計(jì)算專利權(quán)人間的語(yǔ)義相似性;再次,構(gòu)建專利權(quán)人相似性網(wǎng)絡(luò)及專利權(quán)人與技術(shù)主題關(guān)系網(wǎng)絡(luò);最后,基于實(shí)例與LDA主題模型測(cè)度結(jié)果進(jìn)行對(duì)比,從而驗(yàn)證該模型在技術(shù)相似性測(cè)度分析中具有更好的效果。

4.1 數(shù)據(jù)獲取及預(yù)處理

本文選取納米導(dǎo)藥系統(tǒng)為案例進(jìn)行研究,采用Zhou等[19]的檢索策略在德溫特?cái)?shù)據(jù)庫(kù)上進(jìn)行檢索,時(shí)間跨度定為1999—2019年(時(shí)間截止到2019年2月16日),共檢索得到16293條記錄。

1)專利權(quán)人清洗

由于專利持有量較少的專利權(quán)人在技術(shù)領(lǐng)域內(nèi)的影響力相對(duì)較弱,本文選擇持有專利數(shù)量前30位的專利權(quán)人作為研究對(duì)象,共持有專利2287條,如表1所示。其中,加利福尼亞大學(xué)(簡(jiǎn)稱“加州大學(xué)”)獲得的授權(quán)專利數(shù)量最多,為234件;其次是麻省理工學(xué)院(141件)和法國(guó)國(guó)家科學(xué)研究中心(136件)。

表1 Top30的專利權(quán)人及擁有專利數(shù)量

2)專利文本清洗

本文運(yùn)用VantagePoint軟件實(shí)現(xiàn)文本內(nèi)容的結(jié)構(gòu)化處理。①合并專利文本的標(biāo)題和摘要并進(jìn)行分詞處理,選取長(zhǎng)度為1~3、詞頻不低于4的特征詞;②經(jīng)過去停用詞、去常用詞、模糊語(yǔ)義匹配及人工篩選等步驟,得到8000個(gè)特征詞;③以單個(gè)專利為維度,根據(jù)獲得的主題詞表分別提取16293條專利的特征詞,形成16293個(gè)詞表文件。

4.2 構(gòu)建基于word2vec和LDA主題模型的技術(shù)相似性測(cè)度方法

首先,選取word2vec模型中的skip-gram模型進(jìn)行專利文檔的訓(xùn)練,得到包含上下文語(yǔ)義信息的特征詞向量,通過多次實(shí)驗(yàn)結(jié)果對(duì)比,設(shè)置向量維度參數(shù)值為200,滑動(dòng)窗口參數(shù)值為2。然后,基于吉布斯采樣法訓(xùn)練LDA主題模型,得到專利權(quán)人-專利-技術(shù)主題三層概率分布,通過多次實(shí)驗(yàn)結(jié)果對(duì)比,發(fā)現(xiàn)當(dāng)主題數(shù)設(shè)置為20時(shí),技術(shù)主題內(nèi)容間的交叉性最小,故主題數(shù)確定為20。接著,合成“詞粒度”層面的主題向量、專利向量、專利權(quán)人向量。最后,基于余弦相似性計(jì)算專利權(quán)人間的語(yǔ)義相似度,部分研發(fā)主體技術(shù)相似性測(cè)度如表2所示。

由表2可知,該矩陣為對(duì)稱矩陣,對(duì)角線上的數(shù)值均為1,說明專利權(quán)人與自身的技術(shù)相似度為100%,這與實(shí)際情況相符。從矩陣中的其他數(shù)值能夠看出不同專利權(quán)人間的技術(shù)相似性。例如,矩陣中第9行第1列,數(shù)值為0.831196,則表示加州大學(xué)與西北大學(xué)(美國(guó))所授權(quán)專利中有超過83%的研究?jī)?nèi)容相似。通過對(duì)比兩者所關(guān)注研究?jī)?nèi)容發(fā)現(xiàn),加州大學(xué)與西北大學(xué)(美國(guó))在納米藥物載體、藥物遞送、腫瘤治療納米藥物、抗菌治療納米藥物、納米檢測(cè)等內(nèi)容均有交集,存在技術(shù)上的相似性,且兩者曾圍繞納米材料的合成、特性及癌癥治療等方面有過論文合作。

表2 部分專利權(quán)人技術(shù)相似性測(cè)度結(jié)果

4.3 構(gòu)建專利權(quán)人-技術(shù)主題二模網(wǎng)絡(luò)

為了更加直觀地將技術(shù)相似性測(cè)度結(jié)果應(yīng)用于企業(yè)、組織或國(guó)家間技術(shù)相似性分析,有效指導(dǎo)企業(yè)、組織或國(guó)家技術(shù)情報(bào)分析實(shí)踐,本文構(gòu)建了專利權(quán)人技術(shù)相似性網(wǎng)絡(luò)以及專利權(quán)人-技術(shù)主題關(guān)系網(wǎng)絡(luò)圖。

1)專利權(quán)人技術(shù)相似性網(wǎng)絡(luò)有效分析

為了更加直觀地展現(xiàn)專利權(quán)人間的技術(shù)相似性情況,將上述技術(shù)相似性矩陣導(dǎo)入Gephi中,構(gòu)建網(wǎng)絡(luò)圖如圖4所示。

由圖4可知,節(jié)點(diǎn)表示專利權(quán)人,節(jié)點(diǎn)標(biāo)簽大小表示專利權(quán)人擁有專利數(shù)量的多少,節(jié)點(diǎn)間的連線表示專利權(quán)人間的技術(shù)相似程度,連線越粗、顏色越深則表示技術(shù)相似程度越高。以麻省理工學(xué)院為例,與其技術(shù)相似程度排名前3位的專利權(quán)人情況如表3所示。通過對(duì)比專利權(quán)人所關(guān)注領(lǐng)域發(fā)現(xiàn),表3中3位專利權(quán)人與麻省理工學(xué)院分別在納米遞藥系統(tǒng)、藥物載體、納米顆粒及癌癥治療等方面具有一定的重疊性,存在技術(shù)上的相似性。初步推斷,麻省理工學(xué)院可能與這3位專利權(quán)人存在合作關(guān)系。據(jù)調(diào)查發(fā)現(xiàn),麻省理工學(xué)院曾與哈佛大學(xué)合作研發(fā)名為BIND014的納米藥物遞送系統(tǒng),曾與約翰斯·霍普金斯大學(xué)在Science上共同發(fā)表有關(guān)碳熱震蕩合成納米粒子方法的研究成果,曾將勒梅爾森獎(jiǎng)授予西北大學(xué)(美國(guó))國(guó)際納米技術(shù)研究所所長(zhǎng)Chad Mirkin,以表彰其對(duì)納米領(lǐng)域作出的杰出貢獻(xiàn)。

表3 與麻省理工學(xué)院技術(shù)相似性排名前3位的專利權(quán)人情況

圖4 專利權(quán)人技術(shù)相似性網(wǎng)絡(luò)圖

2)專利權(quán)人-技術(shù)主題關(guān)系網(wǎng)絡(luò)有效分析

為了直觀展示專利權(quán)人的技術(shù)布局情況,將專利權(quán)人與技術(shù)主題關(guān)系矩陣導(dǎo)入U(xiǎn)CINET中,構(gòu)建專利權(quán)人-技術(shù)主題關(guān)系網(wǎng)絡(luò)圖如圖5所示。

圖5 專利權(quán)人-技術(shù)主題二模網(wǎng)絡(luò)圖譜

首先,由技術(shù)主題層能夠明晰研究領(lǐng)域當(dāng)前的技術(shù)熱點(diǎn)。如納米導(dǎo)藥領(lǐng)域的研究熱點(diǎn)主要為納米藥物載體、藥物遞送、腫瘤治療納米藥物、納米粒子緩控釋藥物、免疫學(xué)疾病治療納米藥物、納米檢測(cè)、納米催化物的制備等。

其次,由專利權(quán)人-技術(shù)主題關(guān)系層能夠明確專利權(quán)人的技術(shù)布局情況。如UTIJ-C主要從事納米顆粒、納米粒子緩控釋藥物等的研究,UMAC-C主要研究腫瘤治療納米藥物、抗菌治療納米藥物等,TEXA-C主要關(guān)注納米遞藥系統(tǒng)、納米顆粒制備、癌癥治療等。據(jù)報(bào)道,2019年,TEXA-C在PNAS(《美國(guó)科學(xué)院院刊》)發(fā)表了利用X射線和銅-半胱胺納米粒子治療深部腫瘤的研究成果[20]。

最后,結(jié)合專利權(quán)人相似性網(wǎng)絡(luò)與專利權(quán)人-技術(shù)主題關(guān)系網(wǎng)絡(luò)能夠識(shí)別潛在競(jìng)爭(zhēng)對(duì)手及合作伙伴。關(guān)于潛在競(jìng)爭(zhēng)對(duì)手的識(shí)別,在專利權(quán)人相似性網(wǎng)絡(luò)連線越粗、顏色越深的專利權(quán)人之間越具備技術(shù)上的相似性,越有可能成為技術(shù)競(jìng)爭(zhēng)對(duì)手。專利權(quán)人可根據(jù)專利權(quán)人-技術(shù)主題關(guān)系圖,判斷競(jìng)爭(zhēng)者的技術(shù)布局情況,并采取相對(duì)應(yīng)的競(jìng)爭(zhēng)策略以占領(lǐng)技術(shù)高地。

關(guān)于合作對(duì)象的選取,則需要考慮兩種不同情況:①集聚力量攻克研究領(lǐng)域內(nèi)共同面臨的“卡脖子”問題。該類合作需要彼此間在共同關(guān)注領(lǐng)域上具備較高的技術(shù)相似程度與較強(qiáng)的技術(shù)實(shí)力,因此,需尋求在專利權(quán)人相似性網(wǎng)絡(luò)中彼此連線較粗、顏色較深,且在專利權(quán)人-技術(shù)主題網(wǎng)絡(luò)中關(guān)注同一研究領(lǐng)域的專利權(quán)人展開合作。例如,加州大學(xué)、復(fù)旦大學(xué)兩者具有較高的技術(shù)相似性和技術(shù)實(shí)力,且兩者共同關(guān)注腫瘤治療納米藥物的研究,基于此,推斷兩者可能存在相關(guān)的合作。通過已有合作調(diào)查發(fā)現(xiàn),兩者共同開發(fā)了一種紅細(xì)胞膜包覆藥物納米晶的主動(dòng)靶向仿生納米藥物,并進(jìn)行了抗腦膠質(zhì)瘤治療的相關(guān)研究。②解決不同技術(shù)環(huán)節(jié)的融合問題,該類合作需要彼此間在不同關(guān)注領(lǐng)域具備較高的技術(shù)研發(fā)實(shí)力,因此,需尋求在專利權(quán)人-技術(shù)主題網(wǎng)絡(luò)中關(guān)注不同研究領(lǐng)域,且在專利技術(shù)相似性網(wǎng)絡(luò)中節(jié)點(diǎn)較大的專利權(quán)人進(jìn)行合作。例如,浙江大學(xué)在改良納米顆粒、納米材料制備的研究中具有較強(qiáng)的技術(shù)實(shí)力,加州大學(xué)在納米藥物緩釋控、藥物遞送方面具有較強(qiáng)的技術(shù)實(shí)力,基于此,推斷兩者可能存在跨研究領(lǐng)域的合作。據(jù)報(bào)道,在2005年中國(guó)浙江省人民政府、中國(guó)浙江大學(xué)和美國(guó)加州納米技術(shù)研究院三方共建浙江加州國(guó)際納米技術(shù)研究院,且之后與加州大學(xué)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室共同研發(fā)納米生物醫(yī)藥、納米遞送系統(tǒng)。

4.4 技術(shù)相似性測(cè)度效果評(píng)價(jià)

為了證明本文提出的方法相對(duì)于目前應(yīng)用較多的LDA主題模型測(cè)度結(jié)果的精確性,進(jìn)一步運(yùn)用NEDD領(lǐng)域的數(shù)據(jù),將兩種方法測(cè)量結(jié)果進(jìn)行對(duì)比。

利用LDA主題模型測(cè)度技術(shù)相似性的部分結(jié)果如表4所示。由表4可知,相似性最大的為REGC-C與MASI-C,其值為0.990251,這表明兩個(gè)專利權(quán)人持有的NEDD領(lǐng)域技術(shù)幾乎完全相同。相似性最小的為UTIJ-C與INRM-C,其值為0.728429752,這表示相似程度最小的兩個(gè)專利權(quán)人仍共同持有70%以上的NEDD領(lǐng)域技術(shù)。

表4 基于LDA主題模型的部分研發(fā)主體技術(shù)相似性測(cè)度結(jié)果

為比較兩種方法在測(cè)度結(jié)果上的準(zhǔn)確性,本文選取LDA主題模型測(cè)度結(jié)果排名前10位和后10位的專利權(quán)人組合作為驗(yàn)證對(duì)象,通過對(duì)專利權(quán)人組合間主要關(guān)注領(lǐng)域進(jìn)行對(duì)比,并參考專家意見對(duì)兩種方法的測(cè)度結(jié)果進(jìn)行評(píng)價(jià)。

1)排名前10位的專利權(quán)人組合技術(shù)相似性測(cè)度結(jié)果對(duì)比

兩種方法的測(cè)度結(jié)果如表5所示。觀察表5可發(fā)現(xiàn),以上專利權(quán)人組合中,REGC-C出現(xiàn)次數(shù)較多,因此,選取含有REGC-C的專利權(quán)人組合MA‐SI-C®C-C(序號(hào)1)、UYZH-C®C-C(序號(hào)3)以及USSH-C®C-C(序號(hào)5)3組進(jìn)行對(duì)比研究,并在專家的指導(dǎo)下枚舉各個(gè)專利權(quán)人主要涉及的研究?jī)?nèi)容。

表5 排名前10位的專利權(quán)人組合兩種測(cè)度方法結(jié)果對(duì)比

REGC-C持有專利數(shù)量234件,內(nèi)容涉及廣泛,如納米藥物載體、疾病治療納米藥物、納米探針、納米材料、納米遞送系統(tǒng)、納米測(cè)量等;MASI-C持有專利數(shù)量141,主要涉及納米藥物載體、納米藥物治療、納米粒子及納米粒子緩控釋藥物等的研究。由此可見,REGC-C與MASI-C的研究?jī)?nèi)容在納米藥物載體、納米藥物治療、納米粒子方面存在交叉性,但并非完全相同,因此,兩者間的技術(shù)相似性不應(yīng)高達(dá)99%。REGC-C與UYZH-C均在納米粒子制備、納米遞送系統(tǒng)方面有所涉及,但REGCC明顯研究?jī)?nèi)容范圍更廣,由此判斷,兩者間的技術(shù)相似性也不應(yīng)高達(dá)97%。USSH-C研究?jī)?nèi)容主要為納米藥物載體、癌癥治療納米藥物與納米粒子緩控釋藥物等,發(fā)現(xiàn)其與REGC-C的研究?jī)?nèi)容具有一定的重疊性,但仍存在各自獨(dú)具的研究?jī)?nèi)容,如納米粒子緩控釋藥物的相關(guān)研究,顯然兩者間的技術(shù)相似度達(dá)不到96%。

2)排名后10位的專利權(quán)人組合技術(shù)相似性對(duì)比

兩種方法的測(cè)度結(jié)果如表6所示。本節(jié)選取測(cè)度結(jié)果差異較大的UTIJ-C&INRM-C(序號(hào)1)、AL‐NY-C&UTIJ-C(序號(hào)8)以及KOAD-C&UTIJ-C(序號(hào)10)三組進(jìn)行對(duì)比分析。

表6 排名后10位的專利權(quán)人組合兩種測(cè)度方法結(jié)果對(duì)比

INRM-C中存在部分內(nèi)容(如納米粒子制備)在UTIJ-C所研究的范圍內(nèi),但I(xiàn)NRM-C有很大一部分內(nèi)容是UTIJ-C沒有涉及的,如納米藥物載體、納米粒對(duì)艾滋病、老年癡呆癥等疾病的治療等。UTIJ-C與ALNY-C、KOAD-C亦是如此,如ALNYC、KOAD-C與UTIJ-C均在納米粒子制備方面存在一定的重疊性,但各自卻擁有大部分UTIJ-C未涉及的研究方向。由此可見,LDA主題模型的測(cè)度結(jié)果值均偏高。

究其原因,發(fā)現(xiàn)LDA主題模型是基于詞的共現(xiàn)頻率來(lái)提取文本中潛在的主題信息,未考慮到專利文本上下文間的語(yǔ)義關(guān)聯(lián)性,導(dǎo)致其無(wú)法細(xì)粒度的表示專利權(quán)人的技術(shù)主題特征,使得測(cè)度結(jié)果值偏高。而word2vec模型能夠?qū)@谋緝?nèi)容中的語(yǔ)義信息表示為稠密低維的向量,使得從詞粒度層面表征專利權(quán)人的技術(shù)特征成為可能。因此,基于word2vec和LDA主題模型的技術(shù)相似性測(cè)度結(jié)果更為準(zhǔn)確,與實(shí)際判斷情況相符。

5 結(jié)論

技術(shù)相似性是專利權(quán)人識(shí)別潛在競(jìng)爭(zhēng)和備選合作伙伴的重要依據(jù),是作為企業(yè)、組織或國(guó)家技術(shù)情報(bào)分析的主要內(nèi)容。因此,技術(shù)相似性測(cè)度結(jié)果在精確性上有較高的要求。針對(duì)傳統(tǒng)LDA主題模型測(cè)度方法未考慮專利文本上下文間語(yǔ)義關(guān)系的問題,本文提出基于word2vec和LDA主題模型的技術(shù)相似性的可視化研究方法。首先,基于word2vec模型學(xué)習(xí)特征詞在文檔集中的上下文語(yǔ)境信息,并結(jié)合LDA主題模型,構(gòu)建專利權(quán)人-專利-技術(shù)主題三層概率分布生成“詞粒度”層面的主題向量與專利權(quán)人向量;其次,通過向量相似度指標(biāo)計(jì)算專利權(quán)人間的語(yǔ)義相似度,并在此基礎(chǔ)上構(gòu)建能綜合反映專利權(quán)人-技術(shù)主題關(guān)系的雙層復(fù)雜網(wǎng)絡(luò)圖譜;最后,以NEDD領(lǐng)域?yàn)槔?yàn)證了該方法在技術(shù)相似性測(cè)度結(jié)果準(zhǔn)確性上的優(yōu)越性。

從方法上講,深度學(xué)習(xí)、機(jī)器學(xué)習(xí)與技術(shù)相似性測(cè)度的成功融合和應(yīng)用,表明深度學(xué)習(xí)與機(jī)器學(xué)習(xí)方法的結(jié)合也可拓展應(yīng)用于與此相關(guān)的技術(shù)情報(bào)分析的其他方面,如基于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)結(jié)合的主題聚類及其演化分析、文本分類等。

從內(nèi)容上來(lái)講,專利權(quán)人-技術(shù)主題二模網(wǎng)絡(luò)圖譜的展示對(duì)于企業(yè)、組織及國(guó)家技術(shù)情報(bào)分析與技術(shù)創(chuàng)新實(shí)踐具有重要意義。首先,通過技術(shù)主題層可以明晰研究領(lǐng)域的熱點(diǎn)技術(shù)主題;其次,通過專利權(quán)人技術(shù)相似性網(wǎng)絡(luò)層能夠識(shí)別企業(yè)、組織或國(guó)家主要潛在競(jìng)爭(zhēng)對(duì)手與合作伙伴;最后,通過專利權(quán)人-技術(shù)主題層能夠直觀展示企業(yè)、組織或國(guó)家的技術(shù)布局情況。

本文僅選取了NEDD領(lǐng)域30家主要研究機(jī)構(gòu)作為分析對(duì)象,在該領(lǐng)域技術(shù)情況反映的全面性上還存在局限,未來(lái)將擴(kuò)大分析對(duì)象的范圍,拓展專利數(shù)據(jù)的來(lái)源。

猜你喜歡
專利權(quán)人測(cè)度相似性
Rn上的測(cè)度雙K-框架
平面上兩個(gè)數(shù)字集生成的一類Moran測(cè)度的譜性
我國(guó)要素價(jià)格扭曲程度的測(cè)度
淺析當(dāng)代中西方繪畫的相似性
新能源電動(dòng)汽車專利信息分析研究
12個(gè)毫無(wú)違和感的奇妙動(dòng)物組合
幾何概型中的測(cè)度
基于隱喻相似性研究[血]的慣用句
淺談專利授權(quán)使用中的法律風(fēng)險(xiǎn)及防范措施
V4國(guó)家經(jīng)濟(jì)的相似性與差異性