和志強(qiáng),王夢(mèng)雪,馬 寧,劉院英
(河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院,河北 石家莊 050061)
在復(fù)雜的國(guó)際環(huán)境大背景及全球疫情挑戰(zhàn)下,我國(guó)產(chǎn)業(yè)升級(jí)蹄疾步穩(wěn),制造業(yè)向中高端邁進(jìn),裝備制造業(yè)增加值比上年增長(zhǎng)12.9%,占規(guī)模以上工業(yè)比重達(dá)32.4%[1]。在取得矚目成績(jī)的同時(shí),我國(guó)區(qū)域發(fā)展的不平衡依然是一個(gè)長(zhǎng)期性問(wèn)題。為進(jìn)一步提高區(qū)域經(jīng)濟(jì)發(fā)展水平,更好地把握區(qū)域產(chǎn)業(yè)技術(shù)發(fā)展態(tài)勢(shì),明確產(chǎn)業(yè)技術(shù)創(chuàng)新發(fā)展方向,促進(jìn)區(qū)域經(jīng)濟(jì)良性發(fā)展,識(shí)別分析產(chǎn)業(yè)技術(shù)演化路徑就顯得尤為重要。
目前,技術(shù)演化路徑識(shí)別方法主要分為基于進(jìn)化原理的TRIZ法[2]、基于專家經(jīng)驗(yàn)歸納的德?tīng)柗品╗3]和基于引證關(guān)系的專利引文分析法[4],它們大都過(guò)于依賴人工,缺乏對(duì)專利文獻(xiàn)信息的深度挖掘。因此本文在運(yùn)用主題模型對(duì)專利文獻(xiàn)內(nèi)容進(jìn)行分析的基礎(chǔ)上,提出了一種產(chǎn)業(yè)技術(shù)演化路徑識(shí)別方法。該方法通過(guò)結(jié)合TextRank算法[5]的主題模型提取技術(shù)主題與技術(shù)關(guān)鍵詞,根據(jù)主題概率抽取出技術(shù)的代表性專利,并利用相似度矩陣發(fā)現(xiàn)技術(shù)間關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)技術(shù)演化路徑識(shí)別。
本方法流程如圖1所示。首先構(gòu)建專利數(shù)據(jù)集,包括數(shù)據(jù)清洗、分詞、去停用詞、向量化表示等預(yù)處理操作;之后利用結(jié)合Text Rank算法的主題模型獲取同一國(guó)際專利分類(IPC)內(nèi)專利文獻(xiàn)的技術(shù)主題與主題關(guān)鍵詞,并根據(jù)主題概率分布矩陣得到該技術(shù)主題的代表性專利;最后依據(jù)專利間相似度識(shí)別其關(guān)聯(lián)關(guān)系,得到技術(shù)的演化路徑。
圖1 方法流程圖
本文以塑料包裝產(chǎn)業(yè)技術(shù)領(lǐng)域?yàn)檠芯繉?duì)象,用塑料薄膜生產(chǎn)相關(guān)IPC分類號(hào)檢索1985年至2021年約13000條發(fā)明專利組成原始數(shù)據(jù)集。提取專利文獻(xiàn)中的專利文獻(xiàn)號(hào)、專利名稱、專利說(shuō)明書(shū)摘要和專利所屬IPC分類,按IPC分類號(hào)對(duì)專利數(shù)據(jù)進(jìn)行劃分,并采用jieba分詞模型對(duì)所有專利說(shuō)明書(shū)摘要進(jìn)行分詞與去停用詞處理,對(duì)處理完成的數(shù)據(jù)利用Word2Vec模型[6]將其向量化表示。數(shù)據(jù)樣例如表1所示。
表1 專利數(shù)據(jù)樣例表
大量文本數(shù)據(jù)通常存在一些共性主題,將具有相似內(nèi)容的文本聚合后抽取其中的共性主題是主題抽取的主要任務(wù)。結(jié)合TextRank算法的主題模型是在運(yùn)用隱含狄利克雷分布(LDA)模型[7-8]抽取得到文本隱含主題與代表性數(shù)據(jù)的基礎(chǔ)上,利用TextRank算法獲取隱含主題對(duì)應(yīng)的關(guān)鍵詞,來(lái)有效表示文本主題內(nèi)容。
LDA模型將一篇文檔的產(chǎn)生過(guò)程視為通過(guò)概率分布來(lái)選取詞匯的過(guò)程。同類專利數(shù)據(jù)中通常包含多個(gè)隱含的技術(shù)主題,利用LDA主題模型對(duì)這些隱含主題進(jìn)行識(shí)別,首先需要確定隱含的主題數(shù)量。在實(shí)際操作中一般依據(jù)先驗(yàn)知識(shí)來(lái)確定主題個(gè)數(shù)[9],針對(duì)本文面臨的眾多塑料包裝專利文本中隱含主題個(gè)數(shù)未知的情況,這里采用計(jì)算模型困惑度的方式來(lái)確定模型主題個(gè)數(shù)。困惑度是判定一個(gè)模型生成能力的評(píng)價(jià)指標(biāo),其公式如式(1)所示,其中Nd為文檔內(nèi)詞的個(gè)數(shù),p(w)為每個(gè)詞出現(xiàn)的概率,計(jì)算如式(2)所示,p(z|d)表示每個(gè)主題z在文檔d中出現(xiàn)的概率,p(w|z)為每個(gè)詞w在某個(gè)主題z中出現(xiàn)的概率,由此可得,當(dāng)困惑度越小時(shí),模型對(duì)文檔所屬主題判定越準(zhǔn)確。主題數(shù)的判定如式(3)所示。
(1)
p(w)=p(z|d)·p(w|z)
(2)
(3)
在通過(guò)困惑度判定最優(yōu)主題數(shù)k后,再利用LDA模型的Gibbs采樣[10]生成文檔——主題的概率分布矩陣,Gibbs采樣工作流程是首先從Dirichlet分布中采樣,再隨機(jī)為每個(gè)文檔中的每個(gè)詞分配一個(gè)主題,并計(jì)算每個(gè)詞的主題概率分布,再?gòu)闹黝}概率分布中采樣得到該詞的新主題,重復(fù)采樣計(jì)算直至所有詞收斂,得到了文檔——主題的概率分布矩陣。
依據(jù)文檔——主題概率分布矩陣PD×T來(lái)生成與隱含主題最為相關(guān)的m個(gè)數(shù)據(jù)如式(4)所示,取得與k個(gè)隱含主題最相關(guān)的k×m個(gè)數(shù)據(jù),其中f(·)表示取概率排序的最高k個(gè)值的數(shù)據(jù),得到該專利聚簇k個(gè)隱藏主題下的代表性數(shù)據(jù),概率排序最高的即為代表性技術(shù)。
(4)
對(duì)得到的代表性數(shù)據(jù)利用TextRank算法抽取隱含主題對(duì)應(yīng)的關(guān)鍵詞,TextRank算法是依據(jù)詞與詞之間的共現(xiàn)信息排序來(lái)抽取關(guān)鍵詞,它認(rèn)為當(dāng)一個(gè)詞出現(xiàn)在很多詞之后,說(shuō)明這個(gè)詞較為重要。TextRank算法以句子為單位將句子中各詞看作是一個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由其關(guān)聯(lián)節(jié)點(diǎn)表示。以一個(gè)詞為中心,設(shè)定共現(xiàn)窗口大小為K,則將其用前后各K個(gè)詞權(quán)重進(jìn)行表示,通過(guò)滑動(dòng)窗口不斷迭代計(jì)算句子中每個(gè)詞的權(quán)重表示。在迭代結(jié)束后,依據(jù)詞的權(quán)重進(jìn)行排序,并取最高權(quán)重詞作為關(guān)鍵詞。
由此可見(jiàn),TextRank算法在抽取關(guān)鍵詞的過(guò)程中存在傾向于將高頻詞作為關(guān)鍵詞而忽略了低頻詞的問(wèn)題。專利說(shuō)明書(shū)摘要的簡(jiǎn)單概括性導(dǎo)致其內(nèi)部專業(yè)性詞匯頻率較低,采用原始的關(guān)鍵詞抽取方法容易忽略重要信息,因此本文提出了一種關(guān)鍵詞抽取策略來(lái)對(duì)這一問(wèn)題進(jìn)行優(yōu)化,首先分別對(duì)多個(gè)專利單獨(dú)抽取關(guān)鍵詞生成關(guān)鍵詞文檔,再多次將其中n個(gè)專利進(jìn)行隨機(jī)組合鏈接為長(zhǎng)文本來(lái)抽取關(guān)鍵詞生成關(guān)鍵詞文檔,由此得到了多個(gè)候選關(guān)鍵詞文檔WTR。
考慮到TextRank算法原理,抽取得到的候選關(guān)鍵詞文檔中大多數(shù)為高頻詞,通過(guò)組合數(shù)據(jù)來(lái)提高低頻詞權(quán)重的策略雖然在一定程度上改善了這一情況。但高頻詞權(quán)重并未改變,為了判斷高頻詞對(duì)文檔的重要性,文本采用計(jì)算詞的IDF值對(duì)其權(quán)重進(jìn)行更新,計(jì)算公式如式(5)所示,其中|D|表示所有文檔數(shù)量,|j:wi∈dj|表示包含詞wi的文檔數(shù)量。
(5)
對(duì)更新權(quán)重后的詞進(jìn)行重新排序,再依據(jù)新的排序抽取關(guān)鍵詞,剔除對(duì)文檔重要性低的詞,從而得到能夠描述隱含主題的關(guān)鍵詞。
文本中詞關(guān)聯(lián)關(guān)系的構(gòu)建主要基于文本語(yǔ)義信息,文本的語(yǔ)義特征依賴于語(yǔ)義編碼表示。在技術(shù)演化路徑識(shí)別中通過(guò)抽取多個(gè)文本的主題來(lái)表示該技術(shù),是技術(shù)路徑識(shí)別中路徑構(gòu)建的基本依據(jù)。因此技術(shù)間關(guān)聯(lián)關(guān)系識(shí)別是在抽取技術(shù)主題的基礎(chǔ)上,通過(guò)計(jì)算各技術(shù)主題間相似度來(lái)識(shí)別技術(shù)間關(guān)聯(lián)關(guān)系[11-12]。
技術(shù)主題間相似度通過(guò)計(jì)算各技術(shù)主題的代表性專利的摘要向量表示間余弦相似性獲得,技術(shù)演化路徑的識(shí)別則是結(jié)合周期性與時(shí)序信息來(lái)描繪技術(shù)的演化方向,識(shí)別流程如下:
(1)數(shù)據(jù)準(zhǔn)備。抽取同分類專利的主題與關(guān)鍵詞,識(shí)別各技術(shù)主題的代表性專利。
(2)文本表示。將代表性專利的摘要進(jìn)行向量化表示。
(3)相似度計(jì)算。分別計(jì)算技術(shù)分支下各節(jié)點(diǎn)間相似度,構(gòu)建相似度矩陣S,并以各節(jié)點(diǎn)與其他相關(guān)節(jié)點(diǎn)的相似度均值為閾值來(lái)構(gòu)建兩節(jié)點(diǎn)之間的邊,各節(jié)點(diǎn)之間的余弦相似度如式(6),其中ni和nj分別為節(jié)點(diǎn)i與節(jié)點(diǎn)j的向量化表示,相似度矩陣S如式(7)所示,m為該技術(shù)分支內(nèi)的節(jié)點(diǎn)數(shù)。
sij=fcos(ni,nj)
(6)
(7)
(4)節(jié)點(diǎn)連接。依據(jù)得到的相似度矩陣對(duì)相鄰時(shí)間的節(jié)點(diǎn)進(jìn)行連接,得到技術(shù)節(jié)點(diǎn)的演化路徑。
實(shí)驗(yàn)通過(guò)對(duì)專利文獻(xiàn)進(jìn)行分析處理來(lái)識(shí)別各技術(shù)分支下的技術(shù)節(jié)點(diǎn)與技術(shù)間關(guān)聯(lián)關(guān)系,從而形成技術(shù)演化路徑。為驗(yàn)證本文方法的有效性與可行性,將以我國(guó)塑料包裝產(chǎn)業(yè)內(nèi)IPC分類為塑料的加工(B29)類的相關(guān)專利數(shù)據(jù)為對(duì)象進(jìn)行實(shí)例分析,構(gòu)建技術(shù)演化網(wǎng)絡(luò)。構(gòu)建流程如下:
(1)將相關(guān)專利數(shù)據(jù)按IPC分類號(hào)進(jìn)行切分。
(2)利用本文提出的方法抽取各類專利數(shù)據(jù)的技術(shù)主題與技術(shù)關(guān)鍵詞。
(3)根據(jù)主題概率分布矩陣抽取代表性專利。
(4)依據(jù)代表性專利建立技術(shù)節(jié)點(diǎn),并計(jì)算專利間相似度來(lái)識(shí)別關(guān)聯(lián)關(guān)系,再依據(jù)關(guān)聯(lián)關(guān)系與時(shí)序信息來(lái)生成該節(jié)點(diǎn)的技術(shù)演化路徑。
(5)將各類別技術(shù)演化路徑進(jìn)行整合,最終得到產(chǎn)業(yè)技術(shù)演化網(wǎng)絡(luò)。
本文選定塑料加工領(lǐng)域?yàn)檠芯繉?duì)象,識(shí)別其技術(shù)演化路徑。根據(jù)專利分類號(hào)得到21個(gè)專利類別,以B29C70分類為例抽取其技術(shù)主題。首先確定主題個(gè)數(shù),根據(jù)技術(shù)分支內(nèi)部數(shù)據(jù)量設(shè)置初始主題數(shù)取值范圍為[2,18],在主題數(shù)范圍內(nèi)取值分別訓(xùn)練主題模型并計(jì)算困惑度,困惑度隨主題數(shù)變化如圖2所示。
圖2 困惑度隨主題數(shù)變化趨勢(shì)圖
由圖2可以看出,當(dāng)主題數(shù)大于10時(shí),困惑度趨于平穩(wěn)。因此,取10為主題數(shù),抽取得到的部分主題詞與各主題詞對(duì)應(yīng)代表性技術(shù)見(jiàn)表2。
依據(jù)抽取出的代表性技術(shù)節(jié)點(diǎn)識(shí)別技術(shù)分支下其他節(jié)點(diǎn)關(guān)聯(lián)關(guān)系,并按時(shí)序信息進(jìn)行連接,形成各技術(shù)節(jié)點(diǎn)之間的演化網(wǎng)絡(luò)如圖3所示。
表2 代表性技術(shù)節(jié)點(diǎn)表
圖3 技術(shù)節(jié)點(diǎn)演化網(wǎng)絡(luò)圖
以其中的技術(shù)節(jié)點(diǎn)1為例,所表示的復(fù)合膜技術(shù)分支下的制藥工藝用膜材的技術(shù)演化路徑如圖4所示。
由技術(shù)節(jié)點(diǎn)的專利信息可得,制藥工藝用膜材的技術(shù)演化主要分為5個(gè)節(jié)點(diǎn),從一般塑料制品至高透光率的熒光透明薄膜、高透明度的高強(qiáng)度PE膜、多層復(fù)合薄膜、高透明度的高強(qiáng)度BOPP薄膜,最終演化為高強(qiáng)度耐穿刺的復(fù)合七層共擠薄膜。由此可見(jiàn),制藥工藝用膜材的技術(shù)演化方向?yàn)楦咄该鞫认蚋邚?qiáng)度轉(zhuǎn)變。
圖4 技術(shù)節(jié)點(diǎn)1的技術(shù)演化路徑圖
提出了一種基于專利文獻(xiàn)數(shù)據(jù)挖掘的產(chǎn)業(yè)技術(shù)演化路徑識(shí)別方法,能夠有效抽取產(chǎn)業(yè)內(nèi)部技術(shù)主題與技術(shù)關(guān)鍵詞,識(shí)別技術(shù)間關(guān)聯(lián)關(guān)系與演化路徑。該方法采用LDA模型抽取技術(shù)主題與技術(shù)關(guān)鍵詞,并根據(jù)概率分布得到技術(shù)對(duì)應(yīng)代表性專利,通過(guò)計(jì)算專利間相似度識(shí)別技術(shù)節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系,結(jié)合時(shí)序信息得到產(chǎn)業(yè)技術(shù)演化路徑。通過(guò)對(duì)塑料包裝產(chǎn)業(yè)相關(guān)專利進(jìn)行實(shí)證研究,證明了方法的有效性。