王 江 郭鑫彬
(北京化工大學(xué) 經(jīng)濟管理學(xué)院 北京 100029)
近年來,隨著科學(xué)技術(shù)的不斷更新和發(fā)展,知識爆炸式增長已經(jīng)成為不可逆轉(zhuǎn)的趨勢。大數(shù)據(jù)時代下,種類繁多且數(shù)量龐大的數(shù)據(jù)庫數(shù)不勝數(shù),企業(yè)也越來越難以管理由各種系統(tǒng)、過程和事務(wù)所生成的海量數(shù)據(jù)[1],對企業(yè)最困難也最重要的問題是:如何充分利用擁有的知識數(shù)據(jù)庫,并對其進行管理和分析,挖掘出對企業(yè)有價值、有意義的模式和洞見。
企業(yè)戰(zhàn)略分析中,專利數(shù)據(jù)分析是最重要的分析手段之一。世界上最大的技術(shù)知識源就是專利信息,據(jù)WIPO的報告,專利信息包含了R&D產(chǎn)出的90%以上,剩下的5%~10%表現(xiàn)在科學(xué)文獻中,所以企業(yè)申請專利的目的不僅僅是為了保護核心技術(shù),同時也設(shè)置了技術(shù)進入的門檻[2]。事實上,專利信息是相關(guān)技術(shù)競爭者之間不得不向公眾透露的,而在其他情況下都不會透露的技術(shù)領(lǐng)域關(guān)鍵信息的唯一方式,同時這也意味著企業(yè)的專利保護實際上是以核心技術(shù)的公開為代價的,因此專利文獻就成為獲取最新技術(shù)的主要來源。
根據(jù)以往研究經(jīng)驗,分析專利最好的方法是專利分類[3],其能量化分析嵌入企業(yè)中的知識資源。但現(xiàn)有的基于信息檢索的分類系統(tǒng)(如IPC分類)在此方面的價值和專業(yè)性有限,并且傳統(tǒng)分類過程的高勞動強度和主觀性因素也限制了專利數(shù)據(jù)價值利用過程,再考慮到傳統(tǒng)知識數(shù)據(jù)庫管理方法的頻繁更新所帶來的高收集和高維護成本,同時新興技術(shù)的復(fù)雜性要求企業(yè)改進對創(chuàng)新過程中跨學(xué)科活動的性質(zhì)和影響的理解,因此,其必須拓寬涵蓋不同技術(shù)領(lǐng)域的知識基礎(chǔ),而這增加了技術(shù)和創(chuàng)新管理的難度[4]。
事實上,企業(yè)可以通過使用超越傳統(tǒng)人工專利分類的方法(機器學(xué)習(xí)算法)創(chuàng)造出對于企業(yè)戰(zhàn)略性知識輪廓更加動態(tài)的視圖,來完成企業(yè)資源的良好配置。機器學(xué)習(xí)方法所固有的優(yōu)勢是分析的靈活性、多功能性和穩(wěn)定性,這為企業(yè)的戰(zhàn)略預(yù)見和技術(shù)管理提供了更具價值的方法。本文認為企業(yè)可以通過使用大數(shù)據(jù)方法來管理技術(shù)智能,在創(chuàng)新和戰(zhàn)略方面培育更具交互式和可適應(yīng)性的學(xué)習(xí)形式,并開發(fā)了大數(shù)據(jù)預(yù)測方法支持戰(zhàn)略規(guī)劃的前景。
本研究涉及到知識管理領(lǐng)域的兩個方面,一是有關(guān)于企業(yè)知識分類、知識戰(zhàn)略和知識輪廓的基礎(chǔ)理論研究。知識分類是企業(yè)進行知識管理所必須的基礎(chǔ)研究[5],不同的學(xué)者從不同的角度提出了相應(yīng)的知識分類方法。對企業(yè)而言, 最具影響力和實踐意義的是Polanyi[6]從可轉(zhuǎn)移性角度提出的將知識劃分為言傳知識(articulated knowledge)和意會知識(tacit knowledge),前者是指可用書面文字、圖表或數(shù)學(xué)公式表達出來的知識,后者是指不能用語言文字所闡述的知識,并且其認為人類的大部分知識是以意會的方式存在的;經(jīng)濟合作與發(fā)展組織 (OECD) 在1996年發(fā)表的《以知識為基礎(chǔ)的經(jīng)濟》報告中, 以Polanyi的知識分類理論為基礎(chǔ), 進而把人類的知識分為四大類: 關(guān)于事實和現(xiàn)實的知識、關(guān)于自然規(guī)律和原理方面的知識、關(guān)于技能和訣竅方面的知識和關(guān)于人力資源方面的知識,其中前兩類為可編碼的顯性知識, 后兩類為不能明言的隱性知識[7]。所以說,對隱性知識的研究是企業(yè)知識管理的重點,并且專利也是企業(yè)隱性知識顯性化過程中最具法律效力的產(chǎn)出研究對象。知識戰(zhàn)略是應(yīng)知識時代的要求,所提出的將傳統(tǒng)的戰(zhàn)略管理與新興的知識管理思想結(jié)合起來的新概念,越來越多的企業(yè)意識到知識在企業(yè)經(jīng)營中的重要性, 以產(chǎn)品為焦點的競爭正被以知識為基礎(chǔ)的競爭所取代。Zack[8]、Drew[9]和Teece[10]分別從知識的視角提出:知識戰(zhàn)略是基于知識作為最重要的資源和首要生產(chǎn)要素基礎(chǔ)上的發(fā)展戰(zhàn)略,是面對知識經(jīng)濟興起的基本發(fā)展戰(zhàn)略,提高獲取知識、運用知識和創(chuàng)造新知識的能力是知識戰(zhàn)略的核心。知識戰(zhàn)略過程的最終產(chǎn)出即為戰(zhàn)略性知識,其能為如何利用知識獲得和保持競爭優(yōu)勢,如何分析和評價企業(yè)的現(xiàn)有知識并發(fā)展具有戰(zhàn)略價值的知識和如何有效配置企業(yè)知識,使之形成獨特的資產(chǎn)和能力, 從而保證企業(yè)在市場上的競爭地位等相關(guān)問題提供了戰(zhàn)略指導(dǎo),并且戰(zhàn)略性知識也是屬于企業(yè)隱性知識中重要的一種。知識輪廓源于企業(yè)知識基礎(chǔ)理論,其理論將知識視為企業(yè)最大的資源,強調(diào)了企業(yè)間擁有的不同的知識庫是其相互區(qū)別的根本原因,也是企業(yè)競爭優(yōu)勢的來源。Jaffe[11]指出,知識基礎(chǔ)是企業(yè)內(nèi)各類知識元素(包括信息、科技、關(guān)鍵技術(shù)和技巧)或者是企業(yè)內(nèi)個體所擁有知識的集合,是企業(yè)技術(shù)創(chuàng)新活動的起點。以往的研究主要在廣度、深度、一致性和分解性等維度對企業(yè)知識基礎(chǔ)的結(jié)構(gòu)特征進行分析和論證[12],而知識輪廓是以知識深度和廣度維度為主,對企業(yè)知識基礎(chǔ)開展的相關(guān)研究。其中知識廣度定義為一個企業(yè)擁有的所有知識元素,反映了企業(yè)可以利用的知識領(lǐng)域的數(shù)量,而知識深度則定義為企業(yè)某一特定技術(shù)領(lǐng)域內(nèi)的專業(yè)知識水平[13]。企業(yè)技術(shù)知識基礎(chǔ)越寬,企業(yè)知識多樣化程度就越高,反之,就越單一;而企業(yè)知識基礎(chǔ)越深,說明企業(yè)對某一技術(shù)領(lǐng)域的知識越熟悉,其知識就越復(fù)雜,反之,對知識越不熟悉,企業(yè)知識就越簡單。進一步講,知識的廣度和深度實際上是解釋企業(yè)績效的更重要的變量,而不是知識的存量[14]。企業(yè)被要求在特定領(lǐng)域擁有一定的知識深度和廣度,這使得企業(yè)才能夠快速應(yīng)對技術(shù)變革,并且在企業(yè)層面對這兩個變量的評估能使我們清晰地掌握企業(yè)戰(zhàn)略的發(fā)展焦點。
結(jié)合上述基礎(chǔ)理論研究,提煉出企業(yè)戰(zhàn)略性知識輪廓的概念:企業(yè)所擁有的核心技術(shù)知識元素在深度和廣度維度上的動態(tài)戰(zhàn)略特征。其中專利分析是分析企業(yè)戰(zhàn)略性知識輪廓的可行方法,專利數(shù)據(jù)提供了洞察企業(yè)知識組成的能力,通過專利數(shù)據(jù)的定量分析和識別企業(yè)戰(zhàn)略性知識輪廓,能揭示出隱藏在企業(yè)信息庫中有規(guī)律性的知識,為企業(yè)實施多元化戰(zhàn)略提供參考,并促進企業(yè)挖掘交叉領(lǐng)域的商機,有利于成為新產(chǎn)業(yè)的開發(fā)者和領(lǐng)導(dǎo)者。
二是在專利數(shù)據(jù)基礎(chǔ)上的無監(jiān)督學(xué)習(xí)和主題建模的方法研究。大數(shù)據(jù)時代下,機器學(xué)習(xí)是專利數(shù)據(jù)定量分析方法的重要選擇,無監(jiān)督學(xué)習(xí)作為機器學(xué)習(xí)中的一種,其產(chǎn)生一種基于輸入的結(jié)果,且不受任何來自環(huán)境的反饋的影響。作為一種自動分類學(xué)習(xí)方法,無監(jiān)督學(xué)習(xí)不同于有監(jiān)督學(xué)習(xí)之處在于,其依賴于一個正式的框架使算法能夠發(fā)現(xiàn)相應(yīng)的模式,并且大多數(shù)無監(jiān)督方法為依賴于輸入數(shù)據(jù)的概率模型。主題模型就是一種重要的無監(jiān)督學(xué)習(xí)方法,其中隱含狄利克雷分布(Latent Dirichlet Allocation)是一種從文本中提取潛在模式的主題模型,基本邏輯為語料庫中的每個文檔都是潛在主題的隨機混合物,每個潛在主題以單詞分布為特征[15]。LDA允許我們根據(jù)文檔中使用的語義文本揭示這些潛在的概率分布,從而根據(jù)文檔中潛在的模式對文檔進行分類。早在2007年,Blei等[16]研究展示了主題模型在建模語義文本結(jié)構(gòu)方面的可用性,并且發(fā)現(xiàn)主題模型能在不需要對語言有明確理解的情況下,提取出具有令人驚訝的可解釋性和有用的結(jié)構(gòu)。近年來主題建模被應(yīng)用于專利數(shù)據(jù)的實踐研究,如Venugopalan等[3]以基于主題的方法分析專利數(shù)據(jù)的結(jié)構(gòu),使用專利摘要和權(quán)利要求作為基礎(chǔ),對太陽能光伏專利的數(shù)據(jù)集進行準確性和實用性測試;王博等[17]將LDA主題模型引入專利內(nèi)容分析領(lǐng)域,實現(xiàn)專利主題的劃分,解決以往專利主題分類不精確的相關(guān)問題;Huang等[18]進一步將專利挖掘擴展到生物醫(yī)學(xué)領(lǐng)域,研究專利文件中的疾病覆蓋范圍和潛在主題,對專利疾病管理技術(shù)創(chuàng)新的重點和趨勢有了更深入的了解。
本文提出基于LDA主題模型的企業(yè)專利知識庫戰(zhàn)略挖掘系統(tǒng)的整體框架,實現(xiàn)對專利數(shù)據(jù)的提取、處理、分析和可視化的主題挖掘全過程,如圖1所示。
圖1 知識挖掘過程
2.1專利數(shù)據(jù)收集及預(yù)處理樣本企業(yè)專利數(shù)據(jù)來源于德溫特專利索引數(shù)據(jù)庫。以8個國際著名化工企業(yè)的專利權(quán)人的代碼為檢索條件,檢索專利公開時間為1963-2018年,提取出總量為187 446的專利數(shù)據(jù)庫。經(jīng)過對初始數(shù)據(jù)庫進行專利缺失、重復(fù)和無效短文本的剔除操作后,可用于文本挖掘的專利數(shù)據(jù)為183 306條,如表1所示。
表1 企業(yè)專利擁有數(shù)量情況
進而對專利數(shù)據(jù)集的專利摘要進行文本預(yù)處理,經(jīng)過文本清洗、切分、去特殊字符、去停用詞、拼寫檢查、詞形還原和特征提取等[19]預(yù)處理步驟后,將高度非結(jié)構(gòu)化的初始專利文本數(shù)據(jù)轉(zhuǎn)化為可被計算機識別和處理的詞向量數(shù)據(jù)。
2.2企業(yè)知識主題模型的構(gòu)建LDA模型是一種文檔主題概率生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu),每層均有相應(yīng)的隨機變量或參數(shù)控制[20],其中假定每個文檔具有類似于概率隱含語義索引模型的主題組合,且隱含主題包含相應(yīng)的Dirichlet先驗分布,滿足文檔到主題服從多項式分布,主題到詞服從多項式分布。LDA模型可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息,且其算法核心思想為降維。
LDA概率主題模型生成文檔過程[21]如下:
a.從狄利克雷分布α中取樣生成文檔m的主題分布θm;
b.從主題的多項式分布θm中取樣生成文檔m第n個詞的主題Zm,n;
c.從狄利克雷分布β中取樣生成主題Zm,n對應(yīng)的詞語分布φk;
d.從詞語的多項式分布φk中采樣最終生成詞語Wm,n。
在算法流程圖2中,陰影圓為可觀測變量,空心圓為潛在變量,箭頭的方向指明了前后變量間的條件依賴,方框及其右下角數(shù)字分別代表了重復(fù)抽樣及其迭代次數(shù),其中參數(shù)α和β對LDA主題模型的文檔集層進行了定義,α是每篇文檔下主題的多項分布的Dirichlet先驗參數(shù),β是每個主題下特征詞的多項分布的Dirichlet先驗參數(shù),經(jīng)過學(xué)習(xí)訓(xùn)練得到參數(shù)θ和φ,從而確定LDA主題模型。其中K為樣本中隱含的待挖掘的主題數(shù)量,M為樣本文檔總數(shù),Nm是第m篇文檔的單詞總數(shù),Zm,n是第m篇文檔中第n個詞的主題,Wm,n是m篇文檔中的第n個詞。剩下來的兩個隱含變量θm和φk分別表示第m篇文檔下的主題分布和第k個主題下特征詞的分布,前者是K維向量,后者是V維向量(V為詞典中詞總數(shù))。
圖2 LDA模型盤子表示法
其中LDA主題模型的生成概率公式為:
(1)
2.3最優(yōu)主題數(shù)目K值的確定在概率語言模型中, 困惑度是用來評估語言模型優(yōu)劣的指標, 其基本思想是給測試集賦予較高概率值的語言模型,較好且較小的困惑度意味著模型對文本集有較好的預(yù)測作用, 且困惑度一般隨著潛在主題數(shù)量的增加呈現(xiàn)遞減的規(guī)律。LDA算法依賴于用戶輸入專利文檔分類的主題數(shù)量,不同參數(shù)K值的輸入使得模型有著不同的困惑度,所以最優(yōu)主題數(shù)目的確定是構(gòu)建LDA模型的重難點。本文借鑒Blei等[15]提出的一種以樣本集中每篇文本的角度來計算困惑度的方法:
(2)
p(wd)=∑p(z|d)*p(wd|z)
(3)
公式中D表示為樣本語料庫,共有M篇文檔,Nd表示每片樣本文檔總單詞數(shù),而p(wd)代表樣本文檔d中的詞wd產(chǎn)生的概率,p(z|d)表示為一篇樣本中每個潛在主題出現(xiàn)的概率,p(wd|z)表示經(jīng)預(yù)處理形成的詞典中每一個單詞在相應(yīng)每個潛在主題下出現(xiàn)的概率。
由于模型的穩(wěn)定性與困惑度呈現(xiàn)反比的規(guī)律,本文采用試錯法對預(yù)處理的數(shù)據(jù)庫進行不同主題數(shù)(K值)的測試以及困惑度值的計算,在考慮LDA存在的隨機性不良因素影響后,加入隨機時間種子,得出的不同主題對應(yīng)的困惑度關(guān)系折線圖及模擬曲線如圖3所示,當主題數(shù)為53時,困惑值達到了最低點,此時對于樣本數(shù)據(jù)的有效信息度擬合值達到最佳。
圖3 困惑度折線圖和模擬曲線曲線圖
2.4企業(yè)專利數(shù)據(jù)挖掘及結(jié)果展示本研究通過Python語言實現(xiàn)LDA主題算法整個過程,完成了對化工專利數(shù)據(jù)的主題挖掘,算法參數(shù)的最優(yōu)輸入采用K值為53,超參數(shù)α和β采用Python中算法經(jīng)驗的默認值,同時為保證模型的收斂,在LDA算法參數(shù)中的Gibbs抽樣[21]的迭代次數(shù)設(shè)置為1 000以上,經(jīng)過重復(fù)迭代,最終結(jié)果形成了188 306×53規(guī)模的文檔—主題矩陣(θm)和具有53行的主題—關(guān)鍵詞矩陣(φk),其中θm和φk分別給出了第m篇樣本文檔中的主題z的分布和主題z下關(guān)鍵詞的概率分布。
主題分布θm和關(guān)鍵詞分布φk是本研究接下來分析和研究的重點,文檔—主題概率分布見表2,表中每行對應(yīng)一篇樣本文檔,每列對應(yīng)相應(yīng)的隱含主題,表中的值對應(yīng)著樣本文檔在特定主題下的概率值;主題—關(guān)鍵詞分布見表3,其每行代表對應(yīng)主題,表中展示排名靠前的關(guān)鍵詞及其在相應(yīng)主題下的概率分布值。
表2 文檔—主題分布表(部分)
表3 主題—關(guān)鍵詞分布表(部分)
3.1企業(yè)戰(zhàn)略性知識輪廓分析第四次工業(yè)革命以來,技術(shù)的復(fù)雜性不斷影響著創(chuàng)新的動力,行業(yè)內(nèi)對跨學(xué)科活動的需求有了明顯增加。研究表明,技術(shù)多樣化的知識體系是企業(yè)的一個重要特征[23],因為在創(chuàng)新過程中,多個領(lǐng)域的知識被交叉、結(jié)合在一起。為了更好分析知識資源的變化,我們必須了解一個行業(yè)的多維知識庫,以企業(yè)知識深度和知識廣度作為基本維度,挖掘樣本企業(yè)間技術(shù)創(chuàng)新和多樣化的異同點。所以從知識深度和廣度上操作一個企業(yè)的知識庫,以更好接近未來企業(yè)戰(zhàn)略發(fā)展的知識輪廓尤為重要。
通常來說,廣度與專利分類的多樣性有關(guān),深度與企業(yè)專利組合中專利分類的集中程度有關(guān)[24],而對于分析企業(yè)知識庫的重大挑戰(zhàn)是:如何以量化的手段分析企業(yè)知識的廣度與深度。顯然我們需要一種更具適應(yīng)性的方法來分析專利數(shù)據(jù),為此本研究進一步利用LDA算法得出的文檔—主題概率分布矩陣,通過技術(shù)多元化指數(shù)(TD)和主題聚類相結(jié)合的分析方法以更好的顯示知識庫的實際廣度和深度。
3.1.1 企業(yè)知識廣度分析 為了更好地定量研究企業(yè)知識廣度,將赫芬達爾指數(shù)(HHI)與專利多元化相結(jié)合,對赫爾芬達指數(shù)進行形式轉(zhuǎn)換,形成可以定量分析企業(yè)擁有的知識元素和領(lǐng)域的技術(shù)多元化指數(shù)(TD)[25]。其中赫芬達爾指數(shù)最常應(yīng)用于經(jīng)濟領(lǐng)域,是一種測量產(chǎn)業(yè)集中度的綜合指數(shù),指一個行業(yè)中各市場競爭主體所占行業(yè)總收入或總資產(chǎn)百分比的平方和,用于計量市場份額的變化,即市場中廠商規(guī)模的離散度,而技術(shù)多元化指數(shù)應(yīng)用于專利組合衡量多樣化。進一步利用文檔—主題概率計算樣本企業(yè)的技術(shù)多元化指數(shù),其計算公式為:
(4)
定義中,Ni表示i樣本企業(yè)專利在所有潛在主題上的概率之和,Nij為i企業(yè)專利在相應(yīng)潛在主題j上的概率之和,K為主題數(shù)量。同時可以看出,TD值越高,說明企業(yè)的投資組合越廣,而TD值越小,說明企業(yè)的技術(shù)重點相對較窄。通過對文檔—主題概率矩陣數(shù)據(jù)處理,得出的相應(yīng)樣本企業(yè)專利組合規(guī)模與技術(shù)多元化指數(shù)的散點圖如圖4所示。
從圖4中可以清晰觀察到:大多數(shù)企業(yè)(旭日成、巴斯夫、三菱化學(xué)和陶氏)都擁有高度多元化的投資組合,但從數(shù)量上看,這些企業(yè)明顯落后于相對最大的知識產(chǎn)權(quán)持有者(中石化和住友化學(xué)),而LG和拜耳的技術(shù)投資組合相對集中,說明其更注重技術(shù)深度,從而降低了TD的數(shù)值。與LG、拜耳以及擁有更廣泛技術(shù)組合的其他四家企業(yè)相比之下,中石化和住友擁有著大量專利??傊?,該圖突出顯示出了樣本企業(yè)間的知識特性的差異,說明LG和拜耳現(xiàn)有知識庫集中某些技術(shù)領(lǐng)域,這可以從相對較低的多樣性指數(shù)以及接下來的深度研究結(jié)果中明顯看出;而對于住友和中石化具有的高技術(shù)組合,這很大程度上是由于業(yè)務(wù)范圍遠遠延伸出了化工行業(yè),使得其比競爭對手擁有更大的知識廣度。圖4突出了樣本企業(yè)在專利數(shù)量和密度之間的位置差異,展現(xiàn)了樣本企業(yè)各自知識空間焦點的異同。進而仔細觀察還發(fā)現(xiàn)每個企業(yè)的TD值都高于0.92,從整個化工行業(yè)的角度來看,這些優(yōu)秀標桿企業(yè)都有著復(fù)雜的專利組合和較高的知識廣度,這意味著知識廣度對企業(yè)技術(shù)創(chuàng)新和核心競爭力發(fā)展有顯著正向影響。
圖4 樣本企業(yè)專利組合規(guī)模與技術(shù)多元化指數(shù)的散點圖
由此可以明確根據(jù)TD值和專利數(shù)目的組合將具體行業(yè)內(nèi)的企業(yè)分成四類:第一類企業(yè)同時具有較多的專利數(shù)量和技術(shù)組合,如中石化和住友化學(xué);第二類則是具有較多專利數(shù)量但技術(shù)相對較集中的企業(yè),如LG化學(xué)和拜耳;第三類則為具有較多技術(shù)組合但相對較少的專利數(shù)量的企業(yè),如旭日成、巴斯夫、三菱化學(xué)和陶氏;而第四類有著較少的專利數(shù)量和技術(shù)組合的企業(yè),由于其不具較強代表性和分析價值,且本研究選取樣本企業(yè)為全球化工行業(yè)內(nèi)標桿企業(yè),第四類企業(yè)未出現(xiàn)于樣本集和圖4中。同時,圖4中無第四類樣本企業(yè)的細節(jié)也從側(cè)面角度證明我們正確選取了具有目標期望的樣本企業(yè),這說明對于任何企業(yè)來說,專利技術(shù)集中且數(shù)量少的知識特征不利于企業(yè)創(chuàng)新,不符合企業(yè)發(fā)展的規(guī)律,其直接影響著企業(yè)核心競爭力。
3.1.2 企業(yè)知識深度分析 主題聚類為量化分析企業(yè)知識深度提供了很好的啟發(fā),研究充分利用LDA算法得出的文檔—主題和主題—關(guān)鍵詞概率分布矩陣,對樣本企業(yè)i在潛在主題j中獲得專利的概率進行聚類,將樣本企業(yè)的主題概率的和重新調(diào)整為0到1之間的數(shù)值,通過python語言進行數(shù)據(jù)預(yù)處理,使用基于行和列的層次聚類對數(shù)據(jù)處理的矩陣進行聚類,為了更好地展示結(jié)果和進一步分析,將聚類結(jié)果以熱圖的形式進行可視化處理,如圖5所示。
圖5 基于行和列的層次聚類熱圖(黑色框架顯示了聚集主題)
圖5采用層次聚類方法分別對潛在主題和樣本企業(yè)兩個維度進行了聚類,從中可以清晰觀察到LDA算法挖掘出的53個隱含主題由行樹狀圖按相似性進一步聚類成9個集群類別,經(jīng)整理得到的集群結(jié)果如表4所示。
表4 主題聚類表
對表4的聚類結(jié)果進一步分析,并基于對主題中出現(xiàn)概率高的單詞的定性評估,以及對9個集群進行人工評價和標記,結(jié)果如表5所示。
圖5中熱圖顏色的深淺清晰顯示了單個企業(yè)的知識焦點,結(jié)合表5生動展示出了樣本企業(yè)各自知識庫的知識組成和結(jié)構(gòu)特征。橫向來看,中石化、拜耳和LG化學(xué)分別在石油化工、農(nóng)業(yè)化學(xué)、化學(xué)電池技術(shù)領(lǐng)域中處于完全領(lǐng)先地位,知識基礎(chǔ)之深使得其他競爭對手望塵莫及,而在其他技術(shù)領(lǐng)域中,每個樣本企業(yè)的核心競爭力都各有千秋,但是具體知識領(lǐng)域內(nèi)企業(yè)間知識深度的差異還是在熱圖中被清晰展示出來。
表5 聚類定性評估
更重要的是從縱向角度看,企業(yè)間的聚類結(jié)果又進一步以知識深度解釋了企業(yè)知識焦點存在著明顯的質(zhì)的差異,并在投資組合的相似性和多樣性基礎(chǔ)上進一步區(qū)分了樣本企業(yè)。從企業(yè)聚類結(jié)果中可以觀察到,中石化是明顯區(qū)別于其他7個樣本企業(yè)的,中石化有著較多的技術(shù)領(lǐng)域和投資組合以及更深的知識深度,這也是其區(qū)別于住友化學(xué)的內(nèi)在因素。整體而言,中石化、拜耳和住友企業(yè)有著更深的知識深度,相反,LG、旭日成、三菱化學(xué)、巴斯夫和陶氏5個樣本企業(yè)具有相對較低的知識深度。
表5的集群結(jié)果基本代表了整個化工行業(yè)技術(shù)領(lǐng)域的核心,集群把互相關(guān)聯(lián)或相似主題聚集在一起,使得集群間的關(guān)聯(lián)性大大降低,所以說其聚類結(jié)果能更好體現(xiàn)出企業(yè)戰(zhàn)略核心,有利于進一步挖掘和推斷出整個化工行業(yè)發(fā)展知識輪廓。同時展示出與傳統(tǒng)IPC分類的統(tǒng)一化、標準化特點不同的是,LDA產(chǎn)生的主題分布更加有利于專利信息管理、分析和挖掘,從而能應(yīng)對不同背景的問題,給予相應(yīng)的知識分析方案。
3.2行業(yè)內(nèi)企業(yè)戰(zhàn)略性知識輪廓趨勢預(yù)測為了進一步分析化工行業(yè)知識庫并對其發(fā)展進行展望,將文檔—主題矩陣中專利概率數(shù)據(jù)與年份聯(lián)系起來,結(jié)合主題聚類的結(jié)果,推斷出化工行業(yè)的戰(zhàn)略性知識輪廓的動態(tài),創(chuàng)建一個按年份對潛在主題的專利文件進行分配的矩陣,其顯示樣本企業(yè)每年每個主題的文檔概率的總和,用此矩陣來評估化工行業(yè)中不斷增長的知識領(lǐng)域和可視化分析,引用Hyndman[26-27]提出的分層時間序列模型進行趨勢預(yù)測,將基于軟分類的聚合主題的時間序列擴展到未來,創(chuàng)建一個面向未來的技術(shù)管理中心。
分組預(yù)測方法可以利用數(shù)據(jù)中的結(jié)構(gòu),對于分組數(shù)據(jù)來說,每組數(shù)據(jù)的預(yù)測必須等同于組成該組的各個序列的預(yù)測,即預(yù)測時從系統(tǒng)角度出發(fā),考慮各個分組之間的關(guān)聯(lián)性,這種預(yù)測方法保證了分析結(jié)果在各個聚合級別如單個主題、主題集群或整個企業(yè)樣本之間保持一致性,這使我們能夠預(yù)測個別企業(yè)的知識軌跡,并與樣本中的其他企業(yè)進行比較,創(chuàng)建不同主題領(lǐng)域動態(tài)發(fā)展的管理視圖。
由于專利數(shù)據(jù)樣本來自于1963—2018年間,時間跨度較長,為了更好分析化工行業(yè)知識庫的時間動態(tài),本研究以2000年為時間節(jié)點,將專利數(shù)據(jù)庫一分為二進行相應(yīng)的預(yù)測分析。還需注意的是,本研究對于專利時間的定義為專利權(quán)人在各個國家最早申請時間,考慮到專利從申請到授權(quán)的整個周期有著較長的等待時間,產(chǎn)生了知識信息的時滯性,對于專利的最早申請時間的分析能更好的體現(xiàn)出企業(yè)的戰(zhàn)略性知識輪廓的動態(tài);觀察和試驗發(fā)現(xiàn)2018年的數(shù)據(jù)也存在著較大的時滯性,不能作為基礎(chǔ)數(shù)據(jù)進行時間序列的預(yù)測,但這并不影響之前的企業(yè)知識分析。
3.2.1 二十世紀行業(yè)內(nèi)企業(yè)戰(zhàn)略性知識輪廓概況 本研究對LDA算法得出的文檔—主題概率矩陣進行時間標記,提取出2000年以前的專利數(shù)據(jù)概率矩陣并對其數(shù)據(jù)處理,從企業(yè)和技術(shù)集群兩個角度對數(shù)據(jù)進行統(tǒng)計分析,得到的二十世紀化工行業(yè)企業(yè)知識戰(zhàn)略分布如圖6、圖7所示。
圖6 企業(yè)知識占比圖
圖7 技術(shù)集群占比圖
通過圖6可以清晰觀察到,旭日成、拜耳、陶氏和住友是此時期內(nèi)行業(yè)中專利數(shù)據(jù)知識占比最多的四個企業(yè),且這些企業(yè)知識庫的數(shù)量占比總和超過了90%,進而我們推斷這4個企業(yè)是老牌化工企業(yè)的典型代表,結(jié)合圖4得到的這些企業(yè)都具有較大的技術(shù)多元化指數(shù)的結(jié)論,不難推斷出這些老牌化工企業(yè)在二十世紀必然有著巨大的企業(yè)核心競爭力和技術(shù)創(chuàng)新能力,同時也有著強有力的技術(shù)壟斷能力。
進一步結(jié)合圖7和表5挖掘化工行業(yè)技術(shù)集群戰(zhàn)略,清晰觀察到集群5(有機材料技術(shù))是當時化工行業(yè)的最熱門成熟的技術(shù)焦點;同時集群2(石油化工)、集群4(化學(xué)藥劑)、集群7(塑料制品)和集群8(農(nóng)業(yè)化學(xué))相關(guān)技術(shù)也是行業(yè)內(nèi)的重心和支撐技術(shù),處于技術(shù)生命周期的成熟期;而像集群3(電子化工)和集群9(纖維、染色劑)等技術(shù)則處于蓬勃發(fā)展的階段,屬于技術(shù)生命周期的發(fā)展期;相反,像集群1(化學(xué)電池技術(shù))和集群6(光敏技術(shù))則處于萌芽期,在行業(yè)內(nèi)剛剛有一片立足之地。
3.2.2 行業(yè)內(nèi)企業(yè)戰(zhàn)略性知識輪廓與技術(shù)集群預(yù)測 通過逐年聚合2000—2017年期間的專利文檔主題概率,分析行業(yè)內(nèi)戰(zhàn)略性知識輪廓和技術(shù)集群的時間動態(tài),結(jié)果如圖8所示。
圖8 行業(yè)內(nèi)各技術(shù)集群相對重要性的時間動態(tài)圖
圖8顯示了圖5中各集群的相關(guān)性,可以看出:集群2(石油化工)和集群7(塑料制品)的相對重要性處于不斷波動的狀態(tài),但重要性總體一直處于較高的數(shù)值,說明以石油原料為基礎(chǔ)或衍生的化工技術(shù)一直都是化工行業(yè)技術(shù)發(fā)展的核心,是化工行業(yè)的支撐產(chǎn)業(yè);而集群4(化學(xué)藥劑)、集群5(有機材料技術(shù))和集群9(纖維、染色劑)等技術(shù)則一直處于相對重要性總體降低的趨勢,考慮到這些技術(shù)大多具有高污染和高危害特點,與世界各國所提倡的綠色可再生理念相悖,這些化工技術(shù)的重要性降低也理所當然,進而我們可得出綠色化工是實現(xiàn)化工行業(yè)可持續(xù)發(fā)展的必然趨勢。與此同時,作為知識領(lǐng)域新興技術(shù)群組集群3(電子化工)和集群1(化學(xué)電池技術(shù))的相對重要性處于逐年升高的趨勢;而集群9(纖維、染色劑)的相對重要性則一直處于較低狀態(tài)水平,猜測原因可能為領(lǐng)域內(nèi)存在著技術(shù)困難等,其有著較大的開發(fā)空間;最后集群6所代表的新興光化學(xué)技術(shù),雖然整體重要性偏低,但在08年之前一直處于上升趨勢,熱度很高,之后時間里發(fā)生了下降轉(zhuǎn)折,但整體處于上升狀態(tài),也說明了此項技術(shù)潛力巨大。
近年來行業(yè)知識領(lǐng)域這種明顯的時間變化大致可以歸因于,化工行業(yè)所受內(nèi)部技術(shù)創(chuàng)新和外部政策環(huán)境影響,產(chǎn)生了從高污染技術(shù)到綠色安全技術(shù)日益增長的重要性的明確轉(zhuǎn)變,而且專利文本挖掘的結(jié)果顯示了此種化工行業(yè)戰(zhàn)略性知識輪廓的轉(zhuǎn)變,企業(yè)也逐步將技術(shù)重點轉(zhuǎn)向更具價值的化工技術(shù)新領(lǐng)域。
從潛在主題時間動態(tài)變化來看,圖9顯示了兩個專利增長率增長最快的潛在主題(圖9(a)和圖9(b))和減少最多的兩個主題(圖9(c)和圖9(d))的詞云,其中專利增長率是根據(jù)2015-2016年和2016-2017年的平均增長率計算的,以此來獲得近期穩(wěn)定的增長模式。其中增長最快的主題是化學(xué)電解質(zhì),平均增長率為24.9%;增長第二高的領(lǐng)域是水溶劑技術(shù),平均增長率為20.2%;而兩個下降的主題分別是生物遺傳化學(xué)和聚乙烯纖維材料領(lǐng)域,每年下降超過10%。
圖9 最近三年中專利申請增長最快和減少最快的部分主題詞云
為了更好地獲得并驗證企業(yè)知識水平的未來發(fā)展動態(tài),添加一個可以描述企業(yè)當前是否正在某個領(lǐng)域建立一個不斷增長的,或者在某些領(lǐng)域正在減少存在投資組合的預(yù)測維度,將分層時間序列預(yù)測模型和差分整合移動平均自回歸模型(ARIMA)相結(jié)合,對行業(yè)知識庫中的專利數(shù)量的總體趨勢和聚類集群趨勢進行了7年的動態(tài)預(yù)測,結(jié)果如圖10和圖11所示:
圖10 專利數(shù)量預(yù)測圖
圖10和圖11分別預(yù)測和顯示了層次結(jié)構(gòu)頂端和中間的集群層次的時間序列行為,其中圖10預(yù)測到未來專利數(shù)量總量必然呈直線上升趨勢;而圖11預(yù)測低污染新興技術(shù)集群1和6的專利數(shù)量和重要性有著明顯的增加,高污染傳統(tǒng)技術(shù)集群4和5的專利數(shù)量和相對重要性明顯下降,而其他支柱性行業(yè)技術(shù)集群的專利數(shù)量則接近于零或零增長。結(jié)合圖8的分析結(jié)論,證明了此預(yù)測結(jié)果與預(yù)期效果和現(xiàn)實環(huán)境政策發(fā)展基本一致。同時也說明:從企業(yè)和行業(yè)層面上,研究挖掘的成果可以將當前和預(yù)測的知識概況與競爭對手進行比較,產(chǎn)生用于未來知識投資的管理決策的見解。
圖11 技術(shù)集群趨勢預(yù)測圖
本文提出了大數(shù)據(jù)機器學(xué)習(xí)繪制企業(yè)戰(zhàn)略性知識輪廓的知識學(xué)習(xí)方法,以化工行業(yè)為實例,研究了行業(yè)內(nèi)企業(yè)和技術(shù)的發(fā)展現(xiàn)狀及趨勢預(yù)測,證明了其對企業(yè)戰(zhàn)略和知識管理的重要性,得出以下主要結(jié)論:
a.優(yōu)秀企業(yè)的知識庫都具有良好的知識深度和知識廣度,這對于企業(yè)技術(shù)創(chuàng)新和核心競爭力發(fā)展有顯著正向作用,無論是老牌企業(yè)還是新興企業(yè),都注重技術(shù)領(lǐng)域的多元化和組合的多樣性。
b.LDA算法訓(xùn)練出的主題能很好的提煉出包含整個化工行業(yè)的技術(shù)焦點,結(jié)合主題聚類和時間動態(tài),能充分將行業(yè)技術(shù)集群聚合在一起,清晰的展現(xiàn)出企業(yè)“有意識”隱藏的戰(zhàn)略性知識,為決策者提供良好可靠的指導(dǎo)見解。
c.二十世紀化工行業(yè)的技術(shù)焦點和戰(zhàn)略核心基本都是以石油原料為基礎(chǔ)或衍生的相關(guān)化工技術(shù),并結(jié)合十九世紀化工技術(shù)革命在化肥合成、人工合成燃料和制藥工業(yè)產(chǎn)生的巨大突破的歷史事實,說明了此階段化工技術(shù)普遍具有高污染、高破壞和環(huán)境不友好性等特點。
d.二十一世紀以來,世界各國都意識到化工行業(yè)技術(shù)發(fā)展在提供給人們生活便利的同時,也帶來相應(yīng)的潛在污染威脅;化工行業(yè)順應(yīng)綠色安全可持續(xù)理念的趨勢符合技術(shù)創(chuàng)新和時代發(fā)展的浪潮。同時研究結(jié)果也清晰展示:未來企業(yè)必然秉承綠色工業(yè)理念為核心的技術(shù)發(fā)展戰(zhàn)略,微電子化學(xué)、電池化學(xué)和化工新材料技術(shù)領(lǐng)域?qū)⑹俏磥砘ば袠I(yè)發(fā)展的熱門。
同時這種方法也有利于管理者洞悉企業(yè)戰(zhàn)略性知識輪廓和核心技術(shù)發(fā)展趨勢,給予管理者如何利用和挖掘?qū)@R的方法啟示:第一,專利數(shù)據(jù)包含著許多重要的隱性知識和信息,今后應(yīng)加強對專利數(shù)據(jù)的深度挖掘技術(shù)的重視;第二,在大數(shù)據(jù)時代,要充分利用各種數(shù)據(jù)和應(yīng)用機器學(xué)習(xí)方法,來更好的節(jié)省企業(yè)的資源,幫助決策者更好的制定決策;第三,專利知識是企業(yè)核心競爭力和技術(shù)創(chuàng)新的體現(xiàn),企業(yè)管理者應(yīng)能將專利信息與產(chǎn)業(yè)聯(lián)系起來,著眼于行業(yè)戰(zhàn)略遠見和企業(yè)動態(tài)發(fā)展能力。