基于數(shù)據(jù)挖掘的產(chǎn)業(yè)技術(shù)演化路徑識(shí)別方法研究

2022-09-02 10:14和志強(qiáng)王夢(mèng)雪劉院英

河北省科學(xué)院學(xué)報(bào) 2022年4期

和志強(qiáng)，王夢(mèng)雪，馬寧，劉院英

(河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院，河北石家莊 050061)

0 引言

在復(fù)雜的國(guó)際環(huán)境大背景及全球疫情挑戰(zhàn)下，我國(guó)產(chǎn)業(yè)升級(jí)蹄疾步穩(wěn)，制造業(yè)向中高端邁進(jìn)，裝備制造業(yè)增加值比上年增長(zhǎng)12.9%，占規(guī)模以上工業(yè)比重達(dá)32.4%[1]。在取得矚目成績(jī)的同時(shí)，我國(guó)區(qū)域發(fā)展的不平衡依然是一個(gè)長(zhǎng)期性問(wèn)題。為進(jìn)一步提高區(qū)域經(jīng)濟(jì)發(fā)展水平，更好地把握區(qū)域產(chǎn)業(yè)技術(shù)發(fā)展態(tài)勢(shì)，明確產(chǎn)業(yè)技術(shù)創(chuàng)新發(fā)展方向，促進(jìn)區(qū)域經(jīng)濟(jì)良性發(fā)展，識(shí)別分析產(chǎn)業(yè)技術(shù)演化路徑就顯得尤為重要。

目前，技術(shù)演化路徑識(shí)別方法主要分為基于進(jìn)化原理的TRIZ法[2]、基于專家經(jīng)驗(yàn)歸納的德?tīng)柗品╗3]和基于引證關(guān)系的專利引文分析法[4]，它們大都過(guò)于依賴人工，缺乏對(duì)專利文獻(xiàn)信息的深度挖掘。因此本文在運(yùn)用主題模型對(duì)專利文獻(xiàn)內(nèi)容進(jìn)行分析的基礎(chǔ)上，提出了一種產(chǎn)業(yè)技術(shù)演化路徑識(shí)別方法。該方法通過(guò)結(jié)合TextRank算法[5]的主題模型提取技術(shù)主題與技術(shù)關(guān)鍵詞，根據(jù)主題概率抽取出技術(shù)的代表性專利，并利用相似度矩陣發(fā)現(xiàn)技術(shù)間關(guān)聯(lián)關(guān)系，實(shí)現(xiàn)技術(shù)演化路徑識(shí)別。

1 方法總體概述

本方法流程如圖1所示。首先構(gòu)建專利數(shù)據(jù)集，包括數(shù)據(jù)清洗、分詞、去停用詞、向量化表示等預(yù)處理操作；之后利用結(jié)合Text Rank算法的主題模型獲取同一國(guó)際專利分類(IPC)內(nèi)專利文獻(xiàn)的技術(shù)主題與主題關(guān)鍵詞，并根據(jù)主題概率分布矩陣得到該技術(shù)主題的代表性專利；最后依據(jù)專利間相似度識(shí)別其關(guān)聯(lián)關(guān)系，得到技術(shù)的演化路徑。

圖1 方法流程圖

2 方法具體流程

2.1 預(yù)處理

本文以塑料包裝產(chǎn)業(yè)技術(shù)領(lǐng)域?yàn)檠芯繉?duì)象，用塑料薄膜生產(chǎn)相關(guān)IPC分類號(hào)檢索1985年至2021年約13000條發(fā)明專利組成原始數(shù)據(jù)集。提取專利文獻(xiàn)中的專利文獻(xiàn)號(hào)、專利名稱、專利說(shuō)明書(shū)摘要和專利所屬IPC分類，按IPC分類號(hào)對(duì)專利數(shù)據(jù)進(jìn)行劃分，并采用jieba分詞模型對(duì)所有專利說(shuō)明書(shū)摘要進(jìn)行分詞與去停用詞處理，對(duì)處理完成的數(shù)據(jù)利用Word2Vec模型[6]將其向量化表示。數(shù)據(jù)樣例如表1所示。

表1 專利數(shù)據(jù)樣例表

2.2 主題抽取

大量文本數(shù)據(jù)通常存在一些共性主題，將具有相似內(nèi)容的文本聚合后抽取其中的共性主題是主題抽取的主要任務(wù)。結(jié)合TextRank算法的主題模型是在運(yùn)用隱含狄利克雷分布(LDA)模型[7-8]抽取得到文本隱含主題與代表性數(shù)據(jù)的基礎(chǔ)上，利用TextRank算法獲取隱含主題對(duì)應(yīng)的關(guān)鍵詞，來(lái)有效表示文本主題內(nèi)容。

LDA模型將一篇文檔的產(chǎn)生過(guò)程視為通過(guò)概率分布來(lái)選取詞匯的過(guò)程。同類專利數(shù)據(jù)中通常包含多個(gè)隱含的技術(shù)主題，利用LDA主題模型對(duì)這些隱含主題進(jìn)行識(shí)別，首先需要確定隱含的主題數(shù)量。在實(shí)際操作中一般依據(jù)先驗(yàn)知識(shí)來(lái)確定主題個(gè)數(shù)[9]，針對(duì)本文面臨的眾多塑料包裝專利文本中隱含主題個(gè)數(shù)未知的情況，這里采用計(jì)算模型困惑度的方式來(lái)確定模型主題個(gè)數(shù)。困惑度是判定一個(gè)模型生成能力的評(píng)價(jià)指標(biāo)，其公式如式(1)所示，其中Nd為文檔內(nèi)詞的個(gè)數(shù)，p(w)為每個(gè)詞出現(xiàn)的概率，計(jì)算如式(2)所示，p(z|d)表示每個(gè)主題z在文檔d中出現(xiàn)的概率，p(w|z)為每個(gè)詞w在某個(gè)主題z中出現(xiàn)的概率，由此可得，當(dāng)困惑度越小時(shí)，模型對(duì)文檔所屬主題判定越準(zhǔn)確。主題數(shù)的判定如式(3)所示。

(1)

p(w)=p(z|d)·p(w|z)

(2)

(3)

在通過(guò)困惑度判定最優(yōu)主題數(shù)k后，再利用LDA模型的Gibbs采樣[10]生成文檔——主題的概率分布矩陣，Gibbs采樣工作流程是首先從Dirichlet分布中采樣，再隨機(jī)為每個(gè)文檔中的每個(gè)詞分配一個(gè)主題，并計(jì)算每個(gè)詞的主題概率分布，再?gòu)闹黝}概率分布中采樣得到該詞的新主題，重復(fù)采樣計(jì)算直至所有詞收斂，得到了文檔——主題的概率分布矩陣。

依據(jù)文檔——主題概率分布矩陣PD×T來(lái)生成與隱含主題最為相關(guān)的m個(gè)數(shù)據(jù)如式(4)所示，取得與k個(gè)隱含主題最相關(guān)的k×m個(gè)數(shù)據(jù)，其中f(·)表示取概率排序的最高k個(gè)值的數(shù)據(jù)，得到該專利聚簇k個(gè)隱藏主題下的代表性數(shù)據(jù)，概率排序最高的即為代表性技術(shù)。

(4)

對(duì)得到的代表性數(shù)據(jù)利用TextRank算法抽取隱含主題對(duì)應(yīng)的關(guān)鍵詞，TextRank算法是依據(jù)詞與詞之間的共現(xiàn)信息排序來(lái)抽取關(guān)鍵詞，它認(rèn)為當(dāng)一個(gè)詞出現(xiàn)在很多詞之后，說(shuō)明這個(gè)詞較為重要。TextRank算法以句子為單位將句子中各詞看作是一個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)由其關(guān)聯(lián)節(jié)點(diǎn)表示。以一個(gè)詞為中心，設(shè)定共現(xiàn)窗口大小為K，則將其用前后各K個(gè)詞權(quán)重進(jìn)行表示，通過(guò)滑動(dòng)窗口不斷迭代計(jì)算句子中每個(gè)詞的權(quán)重表示。在迭代結(jié)束后，依據(jù)詞的權(quán)重進(jìn)行排序，并取最高權(quán)重詞作為關(guān)鍵詞。

由此可見(jiàn)，TextRank算法在抽取關(guān)鍵詞的過(guò)程中存在傾向于將高頻詞作為關(guān)鍵詞而忽略了低頻詞的問(wèn)題。專利說(shuō)明書(shū)摘要的簡(jiǎn)單概括性導(dǎo)致其內(nèi)部專業(yè)性詞匯頻率較低，采用原始的關(guān)鍵詞抽取方法容易忽略重要信息，因此本文提出了一種關(guān)鍵詞抽取策略來(lái)對(duì)這一問(wèn)題進(jìn)行優(yōu)化，首先分別對(duì)多個(gè)專利單獨(dú)抽取關(guān)鍵詞生成關(guān)鍵詞文檔，再多次將其中n個(gè)專利進(jìn)行隨機(jī)組合鏈接為長(zhǎng)文本來(lái)抽取關(guān)鍵詞生成關(guān)鍵詞文檔，由此得到了多個(gè)候選關(guān)鍵詞文檔WTR。

考慮到TextRank算法原理，抽取得到的候選關(guān)鍵詞文檔中大多數(shù)為高頻詞，通過(guò)組合數(shù)據(jù)來(lái)提高低頻詞權(quán)重的策略雖然在一定程度上改善了這一情況。但高頻詞權(quán)重并未改變，為了判斷高頻詞對(duì)文檔的重要性，文本采用計(jì)算詞的IDF值對(duì)其權(quán)重進(jìn)行更新，計(jì)算公式如式(5)所示，其中|D|表示所有文檔數(shù)量，|j:wi∈dj|表示包含詞wi的文檔數(shù)量。

(5)

對(duì)更新權(quán)重后的詞進(jìn)行重新排序，再依據(jù)新的排序抽取關(guān)鍵詞，剔除對(duì)文檔重要性低的詞，從而得到能夠描述隱含主題的關(guān)鍵詞。

2.3 關(guān)聯(lián)關(guān)系識(shí)別

文本中詞關(guān)聯(lián)關(guān)系的構(gòu)建主要基于文本語(yǔ)義信息，文本的語(yǔ)義特征依賴于語(yǔ)義編碼表示。在技術(shù)演化路徑識(shí)別中通過(guò)抽取多個(gè)文本的主題來(lái)表示該技術(shù)，是技術(shù)路徑識(shí)別中路徑構(gòu)建的基本依據(jù)。因此技術(shù)間關(guān)聯(lián)關(guān)系識(shí)別是在抽取技術(shù)主題的基礎(chǔ)上，通過(guò)計(jì)算各技術(shù)主題間相似度來(lái)識(shí)別技術(shù)間關(guān)聯(lián)關(guān)系[11-12]。

技術(shù)主題間相似度通過(guò)計(jì)算各技術(shù)主題的代表性專利的摘要向量表示間余弦相似性獲得，技術(shù)演化路徑的識(shí)別則是結(jié)合周期性與時(shí)序信息來(lái)描繪技術(shù)的演化方向，識(shí)別流程如下：

(1)數(shù)據(jù)準(zhǔn)備。抽取同分類專利的主題與關(guān)鍵詞，識(shí)別各技術(shù)主題的代表性專利。

(2)文本表示。將代表性專利的摘要進(jìn)行向量化表示。

(3)相似度計(jì)算。分別計(jì)算技術(shù)分支下各節(jié)點(diǎn)間相似度，構(gòu)建相似度矩陣S，并以各節(jié)點(diǎn)與其他相關(guān)節(jié)點(diǎn)的相似度均值為閾值來(lái)構(gòu)建兩節(jié)點(diǎn)之間的邊，各節(jié)點(diǎn)之間的余弦相似度如式(6)，其中ni和nj分別為節(jié)點(diǎn)i與節(jié)點(diǎn)j的向量化表示，相似度矩陣S如式(7)所示，m為該技術(shù)分支內(nèi)的節(jié)點(diǎn)數(shù)。

sij=fcos(ni,nj)

(6)

(7)

(4)節(jié)點(diǎn)連接。依據(jù)得到的相似度矩陣對(duì)相鄰時(shí)間的節(jié)點(diǎn)進(jìn)行連接，得到技術(shù)節(jié)點(diǎn)的演化路徑。

3 實(shí)證研究

3.1 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)通過(guò)對(duì)專利文獻(xiàn)進(jìn)行分析處理來(lái)識(shí)別各技術(shù)分支下的技術(shù)節(jié)點(diǎn)與技術(shù)間關(guān)聯(lián)關(guān)系，從而形成技術(shù)演化路徑。為驗(yàn)證本文方法的有效性與可行性，將以我國(guó)塑料包裝產(chǎn)業(yè)內(nèi)IPC分類為塑料的加工(B29)類的相關(guān)專利數(shù)據(jù)為對(duì)象進(jìn)行實(shí)例分析，構(gòu)建技術(shù)演化網(wǎng)絡(luò)。構(gòu)建流程如下：

(1)將相關(guān)專利數(shù)據(jù)按IPC分類號(hào)進(jìn)行切分。

(2)利用本文提出的方法抽取各類專利數(shù)據(jù)的技術(shù)主題與技術(shù)關(guān)鍵詞。

(3)根據(jù)主題概率分布矩陣抽取代表性專利。

(4)依據(jù)代表性專利建立技術(shù)節(jié)點(diǎn)，并計(jì)算專利間相似度來(lái)識(shí)別關(guān)聯(lián)關(guān)系，再依據(jù)關(guān)聯(lián)關(guān)系與時(shí)序信息來(lái)生成該節(jié)點(diǎn)的技術(shù)演化路徑。

(5)將各類別技術(shù)演化路徑進(jìn)行整合，最終得到產(chǎn)業(yè)技術(shù)演化網(wǎng)絡(luò)。

3.2 結(jié)果分析

本文選定塑料加工領(lǐng)域?yàn)檠芯繉?duì)象，識(shí)別其技術(shù)演化路徑。根據(jù)專利分類號(hào)得到21個(gè)專利類別，以B29C70分類為例抽取其技術(shù)主題。首先確定主題個(gè)數(shù)，根據(jù)技術(shù)分支內(nèi)部數(shù)據(jù)量設(shè)置初始主題數(shù)取值范圍為[2,18]，在主題數(shù)范圍內(nèi)取值分別訓(xùn)練主題模型并計(jì)算困惑度，困惑度隨主題數(shù)變化如圖2所示。

圖2 困惑度隨主題數(shù)變化趨勢(shì)圖

由圖2可以看出，當(dāng)主題數(shù)大于10時(shí)，困惑度趨于平穩(wěn)。因此，取10為主題數(shù)，抽取得到的部分主題詞與各主題詞對(duì)應(yīng)代表性技術(shù)見(jiàn)表2。

依據(jù)抽取出的代表性技術(shù)節(jié)點(diǎn)識(shí)別技術(shù)分支下其他節(jié)點(diǎn)關(guān)聯(lián)關(guān)系，并按時(shí)序信息進(jìn)行連接，形成各技術(shù)節(jié)點(diǎn)之間的演化網(wǎng)絡(luò)如圖3所示。

表2 代表性技術(shù)節(jié)點(diǎn)表

圖3 技術(shù)節(jié)點(diǎn)演化網(wǎng)絡(luò)圖

以其中的技術(shù)節(jié)點(diǎn)1為例，所表示的復(fù)合膜技術(shù)分支下的制藥工藝用膜材的技術(shù)演化路徑如圖4所示。

由技術(shù)節(jié)點(diǎn)的專利信息可得，制藥工藝用膜材的技術(shù)演化主要分為5個(gè)節(jié)點(diǎn)，從一般塑料制品至高透光率的熒光透明薄膜、高透明度的高強(qiáng)度PE膜、多層復(fù)合薄膜、高透明度的高強(qiáng)度BOPP薄膜，最終演化為高強(qiáng)度耐穿刺的復(fù)合七層共擠薄膜。由此可見(jiàn)，制藥工藝用膜材的技術(shù)演化方向?yàn)楦咄该鞫认蚋邚?qiáng)度轉(zhuǎn)變。

圖4 技術(shù)節(jié)點(diǎn)1的技術(shù)演化路徑圖

4 結(jié)論

提出了一種基于專利文獻(xiàn)數(shù)據(jù)挖掘的產(chǎn)業(yè)技術(shù)演化路徑識(shí)別方法，能夠有效抽取產(chǎn)業(yè)內(nèi)部技術(shù)主題與技術(shù)關(guān)鍵詞，識(shí)別技術(shù)間關(guān)聯(lián)關(guān)系與演化路徑。該方法采用LDA模型抽取技術(shù)主題與技術(shù)關(guān)鍵詞，并根據(jù)概率分布得到技術(shù)對(duì)應(yīng)代表性專利，通過(guò)計(jì)算專利間相似度識(shí)別技術(shù)節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系，結(jié)合時(shí)序信息得到產(chǎn)業(yè)技術(shù)演化路徑。通過(guò)對(duì)塑料包裝產(chǎn)業(yè)相關(guān)專利進(jìn)行實(shí)證研究，證明了方法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡