薛淑暉 王麗 吳海濤
摘? 要:專利信息作為目前國際知識(shí)產(chǎn)權(quán)中科技含量最高的存在,是國家和企業(yè)獲取競爭優(yōu)勢(shì)最全面的技術(shù)情報(bào)來源。使用專利數(shù)據(jù)網(wǎng)的數(shù)據(jù)信息作為測試數(shù)據(jù),采用K-means算法,針對(duì)專利文本數(shù)據(jù)進(jìn)行聚類分析,旨在找出隱含在專利數(shù)據(jù)信息中不容易被直觀發(fā)現(xiàn)或直接統(tǒng)計(jì)得出的數(shù)據(jù)情報(bào)信息。通過深入挖掘?qū)@畔?,提高專利信息利用率,使之轉(zhuǎn)換為具有實(shí)際價(jià)值的情報(bào)信息,有效解決了對(duì)專利信息利用不足的問題。
關(guān)鍵詞:聚類分析;K-means;專利數(shù)據(jù);數(shù)據(jù)挖掘
中圖分類號(hào):TP391.1;TP312? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)05-0085-03
Patent Data Analysis Based on K-means Algorithm
XUE Shuhui,WANG Li,WU Haitao
(Nanjing Institute of Technology,Nanjing? 211167,China)
Abstract:Patent information is the most comprehensive source of technical information for countries and enterprises to obtain competitive advantages. In this paper,the data information of the patent data network is used as the test data,and K-means algorithm is adopted to conduct clustering analysis on the patent text data. The aim is to find out the data intelligence information which is hidden in the patent data information and not easy to be found directly. Through deep mining of patent information,improving the utilization rate of patent information,transforming it into information with practical value,the problem of insufficient utilization of patent information is effectively solved.
Keywords:cluster analysis;K-means;patent data;date mining
0? 引? 言
數(shù)字信息網(wǎng)絡(luò)的飛速發(fā)展正逐步改變著信息服務(wù)的傳統(tǒng)模式,科研、教育、文獻(xiàn)等數(shù)字情報(bào)服務(wù)正處于高速發(fā)展的變革階段,這預(yù)示著數(shù)據(jù)科學(xué)和計(jì)算科學(xué)的情報(bào)分析和知識(shí)服務(wù)時(shí)代已經(jīng)來臨。尤其近年來,隨著大量科研實(shí)驗(yàn)內(nèi)容及其成果數(shù)字化的實(shí)現(xiàn),以專利信息和科研論文為主題的文獻(xiàn)情報(bào)發(fā)展迅速。知識(shí)產(chǎn)權(quán)的重要性愈發(fā)顯著,已成為一個(gè)國家或企業(yè)在同行業(yè)競爭中獲取優(yōu)先優(yōu)勢(shì)占據(jù)有利地位的主要手段。專利信息,作為目前國際眾所周知的知識(shí)產(chǎn)權(quán)中科技含量最高的存在,是國家和企業(yè)獲取競爭優(yōu)勢(shì)的最全面的技術(shù)情報(bào)來源。但是面對(duì)浩如煙海的專利信息,如何從中充分發(fā)現(xiàn)并利用其價(jià)值是目前進(jìn)行專利數(shù)據(jù)分析挖掘的重中之重。
當(dāng)今我國目前的數(shù)據(jù)研究和數(shù)據(jù)分析都處于快速發(fā)展階段,針對(duì)專利數(shù)據(jù)的統(tǒng)計(jì)分析和引文分析較為成熟,但對(duì)專利信息的深入研究分析尚有明顯不足之處,而聚類分析和關(guān)聯(lián)分析的存在,恰恰可以彌補(bǔ)這部分的缺陷。聚類分析可以幫助我們分析隱含在海量專利數(shù)據(jù)中的、不容易被直接統(tǒng)計(jì)得出的信息,適合通過比對(duì)專利數(shù)據(jù)的共同之處研究專利研究的趨勢(shì)和重點(diǎn),從而抓住發(fā)展的趨勢(shì)[1]。為了對(duì)專利信息進(jìn)行更深層次的挖掘利用,本文基于江蘇省大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目“基于Python的專利數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)”中文本聚類分析的K-means算法,從專利的名稱入手,基于Python語言對(duì)醫(yī)藥專利數(shù)據(jù)進(jìn)行專利文本聚類分析。
1? 文本聚類分析
聚類就是根據(jù)不同的類型特征,將數(shù)據(jù)劃分為相應(yīng)的數(shù)據(jù)類。目的是減小同類型數(shù)據(jù)之間的距離,增加不同類型數(shù)據(jù)間的距離[2]。聚類算法又稱為群分析,是數(shù)據(jù)挖掘領(lǐng)域的重要算法之一。
在選擇以何種聚類算法來實(shí)現(xiàn)聚類分析時(shí),需要從數(shù)據(jù)類型、聚類目的以及實(shí)際應(yīng)用三個(gè)方面來考慮。對(duì)專利數(shù)據(jù)信息進(jìn)行聚類分析,主要是對(duì)專利信息中的標(biāo)題名稱和摘要中的文本內(nèi)容進(jìn)行分析。在所有文本聚類算法中,K-means聚類算法是比較傳統(tǒng)和基礎(chǔ)的聚類算法。我們可以根據(jù)自己的需求決定聚成幾類,其中每個(gè)類別都用該類中所有數(shù)據(jù)的平均值來表示,這個(gè)平均值被稱為聚類中心。這種算法雖然不能用于類別屬性的數(shù)據(jù),但對(duì)數(shù)值屬性的數(shù)據(jù)來講,能夠較好地發(fā)揮聚類方法在幾何學(xué)和數(shù)學(xué)統(tǒng)計(jì)學(xué)上的研究價(jià)值[3]。
整體來說,文本聚類分析一般按照以下幾個(gè)步驟進(jìn)行:
(1)數(shù)據(jù)預(yù)處理。對(duì)專利數(shù)據(jù)進(jìn)行文本聚類分析之前要先進(jìn)行專利字段提取、分詞、去停用詞、提取關(guān)鍵字、預(yù)處理等計(jì)算。
(2)停用詞處理。對(duì)抓取到的專利數(shù)據(jù)文檔利用jieba分詞庫進(jìn)行去停用詞處理。
(3)數(shù)字建模與文本聚類。將經(jīng)過初步數(shù)據(jù)處理得到的專利文本關(guān)鍵詞進(jìn)行數(shù)字建模處理,數(shù)據(jù)分析結(jié)果采用矩陣表示。數(shù)字建模處理所建立的VSM模型中的VSM的維度由專利數(shù)據(jù)進(jìn)行預(yù)處理后得到的關(guān)鍵詞數(shù)目表示,向量的大小用來表示關(guān)鍵詞的權(quán)重。文本聚類算法采用TF-IDF權(quán)值計(jì)算法,所得詞頻TF表示特征關(guān)鍵詞在VSM數(shù)據(jù)模型中出現(xiàn)的頻率。
(4)分析處理。最后采用K-means算法對(duì)創(chuàng)建成功的VSM模型中的向量進(jìn)行聚類分析處理[2]。
1.1? 數(shù)據(jù)采集及預(yù)處理
使用Python數(shù)據(jù)抓取技術(shù)編寫數(shù)據(jù)爬蟲腳本,對(duì)專利網(wǎng)的數(shù)據(jù)進(jìn)行抓取。抓取成功后對(duì)采集到的專利數(shù)據(jù)進(jìn)行初步篩選、清洗[3]。由于專利文本信息過于龐大,在這里我們采取醫(yī)藥數(shù)據(jù)的動(dòng)物醫(yī)藥分支進(jìn)行處理研究,摘取關(guān)于動(dòng)物醫(yī)藥的專利標(biāo)題及摘要進(jìn)行文本聚類驗(yàn)證。由于Python語言的簡便性,以及其在科學(xué)計(jì)算、數(shù)據(jù)可視化領(lǐng)域擁有豐富的工具包,我們采用Python語言對(duì)專利數(shù)據(jù)進(jìn)行分析處理。
1.2? 停用詞處理
在聚類分析開始之前對(duì)提取出的專利文本數(shù)據(jù)進(jìn)行預(yù)處理可以提高聚類分析的效率,使分析出的結(jié)果更有意義。預(yù)處理的質(zhì)量會(huì)嚴(yán)重影響聚類分析的結(jié)果。經(jīng)過預(yù)處理,文本最終會(huì)以一種結(jié)構(gòu)化的形式展現(xiàn)出來。文本預(yù)處理主要包括以下幾個(gè)方面:
1.2.1? 分詞
分詞,就是把一個(gè)句子按照詞語表達(dá)的含義進(jìn)行分割。對(duì)于英語文本來說,由于每一個(gè)英文單詞之間都使用空格分開,所以分詞很容易實(shí)現(xiàn)。但對(duì)于中文文本來說,漢字的組詞非常靈活,詞語和詞語之間的分割標(biāo)志并不鮮明,這就增加了中文分詞的困難性。
1.2.2? 詞性標(biāo)注
清華大學(xué)和山西大學(xué)是主要研究漢語詞性標(biāo)注的機(jī)構(gòu)。他們處理的基本思路是人工標(biāo)注數(shù)萬字的語言材料,通過統(tǒng)計(jì)帶詞性標(biāo)記的詞語出現(xiàn)的頻率,做成統(tǒng)計(jì)表并提取詞類共現(xiàn)頻度矩陣,建立詞類自動(dòng)標(biāo)注的概率計(jì)算模型[4]。對(duì)文本分詞后進(jìn)行詞性標(biāo)注可以從語法上檢驗(yàn)分詞是否正確,從而進(jìn)一步優(yōu)化分詞的結(jié)果。
1.2.3? 停用詞過濾
停用詞是指一些在文本中出現(xiàn)的頻率很高但是對(duì)文本內(nèi)容所要表達(dá)的含義沒有任何貢獻(xiàn)的詞,并且在計(jì)算相似度的過程中會(huì)引入不必要的誤差。所以,把這些停用詞從文本中過濾出去非常有必要。這一過程就稱之為停用詞過濾。
停用詞過濾首先要建立出一個(gè)包含文本中所有停用詞的列表。通過查詢每一個(gè)詞條,判斷該詞條是否包含在停用詞列表中,如果包含就將其從詞條中刪除。這一過程可以提高文本聚類的效率和聚類分析的精確度。
文本挖掘和文本聚類的基礎(chǔ)就是文本預(yù)處理,只有做好預(yù)處理工作,才能保證文本挖掘的可靠性和實(shí)用性。
1.3? 利用TF-IDF算法計(jì)算其權(quán)值
使用TF-IDF算法計(jì)算權(quán)值過程中,主要對(duì)預(yù)處理過后的文本數(shù)據(jù)進(jìn)行權(quán)重的分配,這一過程主要利用逆向文檔頻率和詞頻來分配權(quán)重。文本數(shù)據(jù)的關(guān)鍵詞的權(quán)重值和文本中的頻率成正比,和文集中包括這一關(guān)鍵詞的文檔總和成反比[5]。TF-IDF的應(yīng)用綜合考慮了關(guān)鍵詞在單個(gè)文本中和多個(gè)文本中出現(xiàn)的次數(shù)的情況,使分析結(jié)果更具有可靠性。詞頻算法如下:
式(1)中,tfij表示特征詞ti在數(shù)據(jù)集dj的詞頻,N是專利文獻(xiàn)總數(shù),Ni表示其中出現(xiàn)特征詞的數(shù)量。專利文獻(xiàn)標(biāo)題經(jīng)TF-IDF權(quán)值處理后如圖1所示,其各項(xiàng)詞頻權(quán)重如圖2所示。權(quán)值和權(quán)重為一一對(duì)應(yīng)關(guān)系。
1.3? 使用K-means算法聚類分析
K-means算法,又稱K均值算法,是于1955年提出的一種新型劃分式聚類算法。聚類算法發(fā)展多年過程中,K-means算法一直未被淘汰,是聚類算法的經(jīng)典算法之一。顧名思義,其是通過多次反復(fù)迭代求數(shù)據(jù)間的均值來實(shí)現(xiàn)大量數(shù)據(jù)的文本聚類分析。其算法的核心是:通過隨機(jī)選擇的方式選擇多個(gè)數(shù)據(jù)點(diǎn),再把這些選中的數(shù)據(jù)點(diǎn)用作K-means算法分析過程中的初始類簇中心,再將其他未選中的數(shù)據(jù)點(diǎn)依次分配給最近的類簇中心,這就形成了一個(gè)個(gè)的初始類簇。接著,計(jì)算每個(gè)隨機(jī)組成的初始類簇內(nèi)所有點(diǎn)的均值,并把計(jì)算所得的簇內(nèi)均值當(dāng)作一個(gè)個(gè)新的類簇中心點(diǎn),重新分配其余數(shù)據(jù)點(diǎn)到離自身最近的類簇中心點(diǎn);然后,重復(fù)迭代這一分配求均值過程,直到每個(gè)類簇的中心都不再產(chǎn)生變化[6]。聚類分析結(jié)果如圖3所示,對(duì)應(yīng)圖1、圖2的詞頻和詞重,可以根據(jù)數(shù)字的大小明確地觀察出各關(guān)鍵詞之間的聚類關(guān)系,數(shù)字越小,代表對(duì)應(yīng)的關(guān)鍵詞與其他詞的相關(guān)性越小。反之,則證明與之對(duì)應(yīng)的關(guān)鍵詞在整個(gè)數(shù)據(jù)集中相對(duì)較為重要。關(guān)鍵詞和其分析結(jié)果能幫助我們從宏觀上大致確定專利研究的主題和各主題的重要性。
1.4? 數(shù)據(jù)分析及方法的總結(jié)
本文進(jìn)行專利數(shù)據(jù)文本聚類所采用的K-means算法,其無監(jiān)督式的自主搜尋方法,在聚類過程中,打破了我們固有的思維模式,避免了僅憑專利知識(shí)對(duì)專利數(shù)據(jù)進(jìn)行分類從而導(dǎo)致的思想局限和誤區(qū),能更好地?cái)[脫個(gè)人思想帶來的主觀局限性[7]。但對(duì)文本特征值進(jìn)行權(quán)值計(jì)算的方法卻有很大的局限性:其只適用于維度低的文本,否則會(huì)影響聚類的準(zhǔn)確性。
2? 結(jié)? 論
本文基于Python語言,采用網(wǎng)絡(luò)爬蟲技術(shù)獲取到專利數(shù)據(jù),然后通過K-means算法對(duì)數(shù)據(jù)進(jìn)行了聚類分析。通過對(duì)專利數(shù)據(jù)的聚類分析可以清楚直觀地發(fā)現(xiàn)當(dāng)前專利網(wǎng)上現(xiàn)有專利的研究方向及偏重點(diǎn),在很大程度上提高了用戶對(duì)專利數(shù)據(jù)把控的準(zhǔn)確度,在研究中具有重大意義。
參考文獻(xiàn):
[1] 齊麗花,張妮妮,秦曉梅.基于K-means的專利文本聚類分析 [J].電腦知識(shí)與技術(shù),2018,14(22):206-207+214.
[2] 吳啟明,易云飛.文本聚類綜述 [J].河池學(xué)院學(xué)報(bào),2008(2):86-91.
[3] 徐丹丹. 專利文本聚類分析及可視化研究 [D].南京:南京理工大學(xué),2009.
[4] 王彬宇,劉文芬,胡學(xué)先,等.基于余弦距離選取初始簇中心的文本聚類研究 [J].計(jì)算機(jī)工程與應(yīng)用,2018,54(10):11-18.
[5] 霍緯綱,程震,程文莉.面向不等長多維時(shí)間序列的聚類改進(jìn)算法 [J].計(jì)算機(jī)應(yīng)用,2017,37(12):3477-3481.
[6] 葉夢(mèng)竹.基于專利和論文互引的科學(xué)—技術(shù)關(guān)聯(lián)研究 [D].武漢:華中師范大學(xué),2017.
[7] SALTON G,BUCKLEY C. Term-weighting approaches in automatic text retrieval [J].Information Processing & Management,1988,24(5):513-523.
作者簡介:薛淑暉(1997-),女,漢族,山東德州人,本科在讀,研究方向:數(shù)據(jù)分析。