国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA模型和分類號的專利技術(shù)演化研究

2017-06-03 09:20廖列法勒孚剛
現(xiàn)代情報(bào) 2017年5期

廖列法++勒孚剛

〔摘要〕[目的/意義] 運(yùn)用概率主題模型全面研究專利文獻(xiàn)主題演化,分析專利技術(shù)發(fā)展過程及趨勢。[方法/過程]LDA模型按時(shí)間窗口對專利文本建模,困惑度確定最優(yōu)主題數(shù),按專利文本結(jié)構(gòu)特性提取主題向量,采用JS散度度量主題之間的關(guān)聯(lián),引入IPC分類號度量技術(shù)主題強(qiáng)度,最后實(shí)現(xiàn)主題強(qiáng)度、主題內(nèi)容和技術(shù)主題強(qiáng)度3方面的演化研究。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果表明:該方法能夠深入挖掘?qū)@墨I(xiàn)的主題,可以較好地分析專利技術(shù)隨時(shí)間的演化規(guī)律,幫助相關(guān)從業(yè)人員了解專利技術(shù)的演化過程及趨勢。

〔關(guān)鍵詞〕專利文獻(xiàn);LDA;JS散度;IPC分類號;技術(shù)主題強(qiáng)度;專利技術(shù)演化

DOI:10.3969/j.issn.1008-0821.2017.05.003

〔中圖分類號〕G25553〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2017)05-0013-06

Research on Patent Technology Evolution Based on

LDA Model and Classification NumberLiao LiefaLe Fugang

(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,China)

〔Abstract〕[Purpose/significance]This paper used the probability topic model to study the evolution of patent literature,and analyzed the development process and trend of patent technology.[Methods/process]The LDA model modeled the patent text by time window,confusion degree method was used to determined the optimal number of topics,extracting topic vectors according to the structural characteristics of patent text,used the JS divergence to measure the association between topics,introduced IPC classification number to measure technical topic strength,finally,the evolution of topic strength,topic content and technical topic strength were studied.[Results/conclusion]The experimental results showed that this method could deeply excavate the topic of the patent literature,and could analyze the evolution of patent technology over time and help the practitioners to understand the evolution process and trend of patent technology.

〔Key words〕patent literature;LDA;JS divergence;IPC classification number;technical topic strength;patent technology evolution

專利文獻(xiàn)是技術(shù)情報(bào)的載體,它的文本中隱藏了大量的技術(shù)情報(bào)信息,是技術(shù)情報(bào)的最佳情報(bào)來源。從2011-2016年我國專利申請數(shù)量已經(jīng)連續(xù)5年蟬聯(lián)全球?qū)@暾埩恐?,因此,從海量的專利文獻(xiàn)中挖掘?qū)@l(fā)展趨勢具有重要的研究意義。專利技術(shù)演化分析是專利文本分析的重要研究方法。技術(shù)演化分析是指技術(shù)變化過程的發(fā)現(xiàn)和描述,進(jìn)而進(jìn)行技術(shù)發(fā)展趨勢預(yù)測等內(nèi)容。全面、深入和準(zhǔn)確地分析技術(shù)發(fā)展情況,可以幫助國家制定科學(xué)技術(shù)發(fā)展規(guī)劃,幫助企業(yè)了解市場發(fā)展動態(tài)和制定正確的市場技術(shù)路線,還可以幫助科研人員從技術(shù)的發(fā)展趨勢中獲得啟發(fā)與借鑒。

本文針對專利文本結(jié)構(gòu)特點(diǎn)[1],提出基于LDA和分類號的專利技術(shù)演化模型。首先該方法在文本建模時(shí),考慮專利文本內(nèi)容的權(quán)重差異;其次結(jié)合專利文本權(quán)重提取專利文檔的主題概率分布,然后在文本演化分析中,分析主題的主題強(qiáng)度和主題內(nèi)容演化,及結(jié)合專利的IPC分類號分析技術(shù)主題強(qiáng)度。最后實(shí)驗(yàn)表明,該模型能夠較好地分析出專利文本的主題強(qiáng)度、主題內(nèi)容演化和技術(shù)主題強(qiáng)度演化過程及趨勢。

1相關(guān)研究

因?qū)@夹g(shù)演化分析能夠探索和挖掘?qū)@谋局械囊恍摬匦畔2-4],故已成為該領(lǐng)域?qū)μ囟夹g(shù)發(fā)展研究的重要手段,國內(nèi)外研究者對專利技術(shù)演化做了大量的研究工作[5-9]。根據(jù)技術(shù)演化分析方法中利用專利文獻(xiàn)中的不同信息,可以將專利技術(shù)演化分析方法分為3類。

11基于專利分類號的技術(shù)演化

專利分類號(IPC分類號、德溫特手工代碼等)是對專利技術(shù)內(nèi)容的反映?;趯@诸愄柕募夹g(shù)演化分析方法[10]是通過時(shí)間窗口切分專利文獻(xiàn),依據(jù)專利對應(yīng)的專利分類號,在各時(shí)間塊內(nèi)對專利進(jìn)行統(tǒng)計(jì)分析,常見的專利分類號統(tǒng)計(jì)方法有:根據(jù)專利分類號對同類專利統(tǒng)計(jì)數(shù)量,分類號的頻次統(tǒng)計(jì)分析、共現(xiàn)統(tǒng)計(jì)分析等。通過統(tǒng)計(jì)分析專利分類號隨時(shí)間的演變,來揭示某技術(shù)領(lǐng)域的技術(shù)演化過程及發(fā)展趨勢。這類技術(shù)演化分析方法雖然能夠在一定程度上分析技術(shù)的演化過程,但是并沒有深入到專利文本的內(nèi)容,只停留在宏觀表面上,不能夠全面深入地分析技術(shù)發(fā)展演化過程及趨勢。

2017年5月第37卷第5期現(xiàn)?代?情?報(bào)Journal of Modern InformationMay,2017Vol37No52017年5月第37卷第5期基于LDA模型和分類號的專利技術(shù)演化研究May,2017〖〗Vol37No512基于專利引用關(guān)系的技術(shù)演化

專利之間的引用關(guān)系使專利之間產(chǎn)生了關(guān)聯(lián),構(gòu)造成專利引用網(wǎng)絡(luò),通過對專利關(guān)聯(lián)和網(wǎng)絡(luò)的研究,分析專利技術(shù)之間的聯(lián)系和演進(jìn)關(guān)系。侯彼蓉、司有和和吳海燕[11]提出基于引文路徑分析的專利技術(shù)演進(jìn)圖的描繪,利用醫(yī)學(xué)內(nèi)窺鏡專利技術(shù)進(jìn)行實(shí)案論證。Changwoo Choi和Yongtae Park[12]提出一種利用專利引用網(wǎng)絡(luò)對技術(shù)發(fā)展過程進(jìn)行分析的方法,分析技術(shù)變化、明確技術(shù)發(fā)展路徑及預(yù)測技術(shù)發(fā)展趨勢。分析專利引用關(guān)系能夠發(fā)現(xiàn)不同專利之間的相互關(guān)系及演化過程和趨勢,但是此類算法存在兩個明顯的缺陷:①專利引用體系不完整,不易發(fā)現(xiàn)所有專利之間的引用關(guān)系;②引用關(guān)系同樣停留在宏觀表面,沒深入到專利文本內(nèi)容,不能發(fā)現(xiàn)專利內(nèi)在聯(lián)系。

13基于專利文本的技術(shù)演化

早期基于專利文本的技術(shù)演化分析方法是通過人工閱讀來完成的,但隨著專利文本數(shù)量的陡增,人工閱讀的成本也在迅速增加,因此采用機(jī)器學(xué)習(xí)文本挖掘算法是一種必然的趨勢。該類方法利用文本挖掘算法提取專利文本中的文本信息,然后根據(jù)文本信息進(jìn)行技術(shù)演化分析,其中專利的文本包括名稱、摘要、主權(quán)項(xiàng)等。Young Gil Kim等[13]提出一種關(guān)鍵詞語義網(wǎng)絡(luò)的構(gòu)建方法,對專利文本進(jìn)行聚類,根據(jù)不同簇關(guān)鍵詞的共現(xiàn)及首現(xiàn)時(shí)間,構(gòu)建關(guān)鍵詞語義網(wǎng)絡(luò),分析技術(shù)主題變化過程。方曙等[14]在分析現(xiàn)有方法不足的基礎(chǔ)上,提出一種更完善的基于專利文本的技術(shù)演化分析方法。該方法結(jié)合專利文本信息,能更直觀深入地表達(dá)專利的內(nèi)在信息與聯(lián)系,最終更好的發(fā)現(xiàn)專利技術(shù)演化過程和趨勢?;趯@谋镜募夹g(shù)演化研究常用方法有:專利詞頻統(tǒng)計(jì)方法,空間向量模型等,其中對概率模型方法涉及很少,故本文利用概率主題模型結(jié)合專利分類號來分析專利文本的技術(shù)演化過程及趨勢。

4實(shí)驗(yàn)及結(jié)果分析

41實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

實(shí)驗(yàn)是在CPU為Inter(R)E5-2620 v2@210GHz、內(nèi)存為16G、操作系統(tǒng)為64位的Window8的PC機(jī)上運(yùn)行。

本文利用從專利局獲取的稀土專利數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集包含2007-2015年共31 000篇稀土專利文獻(xiàn)[21],時(shí)間窗口的長度劃為1年,根據(jù)專利的申請時(shí)間將專利文獻(xiàn)分到對應(yīng)的時(shí)間窗口。利用困惑度函數(shù)確定各個時(shí)間窗口的最優(yōu)主題數(shù),具體的數(shù)據(jù)情況如表2所示。

42實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)分詞采用R軟件的Rwordseg包中的segmengCN方法[22],由于專利文本具有專業(yè)性強(qiáng)、領(lǐng)域詞匯多的特點(diǎn),若直接采用R軟件進(jìn)行分詞效果不是很好,需要擴(kuò)充分詞表的詞庫,故在搜狗詞庫中下載相關(guān)的專利詞語詞庫,使像“金屬氧化物”、“二氧化鈦”等日常少見的詞匯能正確被表2數(shù)據(jù)集各時(shí)間窗口具體數(shù)據(jù)情況

年限文檔數(shù)詞匯數(shù)最優(yōu)主題數(shù)20076814 1945620081 7346 3066120091 9406 4515920102 2097 0856520112 4076 9627020123 7818 2907820134 5068 5747220145 4409 4068520156 1799 78582

切分,提高分詞正確率,并為后續(xù)分析提供好的實(shí)驗(yàn)數(shù)據(jù)。

在LDA建模過程中,參數(shù)估計(jì)采用MCMC方法中的Gibbs抽樣算法,根據(jù)經(jīng)驗(yàn)設(shè)置α=50/K、β=001,Gibbs抽樣的迭代次數(shù)參數(shù)iteration為1 000,保存迭代參數(shù)save step為800。其中各時(shí)間片的具體最優(yōu)主題數(shù)如表2所示。

43實(shí)驗(yàn)結(jié)果及分析

LDA模型根據(jù)表2各時(shí)間片的最優(yōu)主題數(shù)分別建模,選取各個主題中分布概率前10的關(guān)鍵詞表示主題內(nèi)容。2015年熱點(diǎn)主題的分布情況如表3所示:表32015年熱點(diǎn)主題

Topic 0Topic 8Topic 9Topic 11Topic 13Topic 39合金催化劑磁體熒光發(fā)光玻璃熔煉煙氣粉末熒光粉轉(zhuǎn)換摻雜鋁合金活性燒結(jié)發(fā)射吸收陶瓷鑄造催化汝鐵硼發(fā)光紅外線透明融化凈化磁性激化可見光制備鐵合金浸漬粘結(jié)化學(xué)余輝石英精煉助劑磁場紅色紫外線摩爾鎂合金廢氣鐵氧體綠色磷光燒結(jié)澆鑄尾氣溫度波長彩色折射率鑄錠催化活性擴(kuò)散二極管顏色抗熱

根據(jù)表3可知,2015年專利文本的主題集中在合金材料、催化劑材料、磁體、發(fā)光、熒光和玻璃等。通過對這些熱點(diǎn)主題的具體內(nèi)容含義分析,可以了解2015年專利大概的申請情況。主題0主要是合金方面的內(nèi)容,包括鋁合金、鐵合金、鎂合金等的合成等;主題8主要是催化材料方面的內(nèi)容,側(cè)重對各種工業(yè)廢氣、發(fā)動機(jī)尾氣和煙氣的處理及凈化;主題9主要是磁性材料方面的內(nèi)容,磁性材料的主要對象還是汝鐵硼永磁材料的研究;主題11主要是熒光領(lǐng)域的內(nèi)容,重點(diǎn)在各種顏色光波長研究;主題13主要是發(fā)光領(lǐng)域的內(nèi)容,發(fā)光領(lǐng)域包括發(fā)光、熒光材料等方面;主題39主要是玻璃材料方面的內(nèi)容,包括玻璃的摻雜、燒結(jié)、抗熱和折射率等,側(cè)重在玻璃材料創(chuàng)新方面。

431專利的主題強(qiáng)度演化結(jié)果

依據(jù)LDA模型提取的文檔-主題和主題-詞匯概率分布,計(jì)算主題在各個時(shí)間片上的主題強(qiáng)度,分析主題強(qiáng)度隨時(shí)間的演化趨勢。下面以稀土行業(yè)中的幾個熱門主題進(jìn)行分析,具體的演化情況如圖3所示:

圖3為主題的主題強(qiáng)度隨時(shí)間的演變情況圖,依據(jù)圖可以清晰地看出各主題的主題強(qiáng)度隨時(shí)間變化的情況。從圖中分析各主題強(qiáng)度演變得出:主題0的主題強(qiáng)度一直很高,在2012年和2015年熱度達(dá)到最大值,主題0的整體主題強(qiáng)度有一個上升的趨勢,說明合金方面的內(nèi)容一直是稀土技術(shù)研究的熱點(diǎn);主題8是有關(guān)催化材料方面的主題,整體主題的主題強(qiáng)度是一個上升過程,這跟時(shí)代需求有關(guān),隨著各種廢氣、尾氣處理凈化的要求,引發(fā)了該類技術(shù)的研究熱潮;主題9的主題強(qiáng)度整體是個下降趨勢,說明在磁性材料方面的研究達(dá)到了一定技術(shù)瓶頸,研究熱度慢慢下降;主題11和13事關(guān)于發(fā)光領(lǐng)域的內(nèi)容,隨著時(shí)間主題的強(qiáng)度值跨度較大,呈現(xiàn)一個大的上升趨勢,隨著近些年國家飛速發(fā)展,這方面技術(shù)是一個較新的研究領(lǐng)域;主題39是關(guān)于玻璃材料領(lǐng)域的內(nèi)容,主題的強(qiáng)度波動不大,說明該領(lǐng)域研究穩(wěn)定。

432專利的主題內(nèi)容演化結(jié)果

對各個時(shí)間窗口建模,獲取主題-詞匯概率分布,在不同的時(shí)間窗口中同一主題的內(nèi)容是不一樣的,根據(jù)JS距離公式,得到主題相似性度量結(jié)果。下面列舉了合金主題的內(nèi)容變化情況。具體情況如表4所示:

表4合金主題的內(nèi)容變化

20072008〖〗2009201020112012201320142015合金鋁合金合金合金合金合金合金合金合金原料合金熔煉熔煉鎂合金雜質(zhì)熔煉熔煉熔煉制備保溫鎂合金性能熔煉鎂合金鑄造鋁合金鋁合金真空溫度性能鑄造雜質(zhì)熱處理熔化鑄造鑄造熔煉熔化高溫試樣退火強(qiáng)度退火融化融化氫氣工藝熱處理提高余量熔煉精煉澆注鐵合金保護(hù)熔煉提高變質(zhì)精煉含量澆注精煉精煉破碎冷卻鑄造鐵合金變形鎂合金鎂合金鎂合金鎂合金氬氣升溫元素磨損熱處理高強(qiáng)澆鑄退火澆鑄融化精煉精煉工藝擠壓微量鑄錠鈦合金鑄錠

實(shí)驗(yàn)提取主題概率分布前10的關(guān)鍵詞作為該主題的表示形式,從主題強(qiáng)度圖中可以分析出,合金領(lǐng)域的主題強(qiáng)度一直很高,是近些年的研究熱點(diǎn),而主題的內(nèi)容是變化的,從表4中可以看出合金技術(shù)在內(nèi)容上,從各種熔煉慢慢集中在各類金屬的合成上,這正和近些年合金技術(shù)發(fā)展相吻合,說明這主題內(nèi)容演化很好的論證技術(shù)方向的發(fā)展。

433專利技術(shù)組主題強(qiáng)度演化結(jié)果

依據(jù)IPC分類的特性,對小組分類的同類技術(shù)進(jìn)行技術(shù)主題強(qiáng)度演化分析。下面列舉了近些年一些熱門技術(shù)的主題強(qiáng)度演化情況,具體情況如圖4所示:

圖42007-2015年技術(shù)主題主題強(qiáng)度演化趨勢

圖4宏觀上描述技術(shù)主題強(qiáng)度隨時(shí)間演化趨勢圖,隨著近些年環(huán)境污染的日益嚴(yán)重,使得有關(guān)環(huán)保節(jié)能方面技術(shù)成為研究熱點(diǎn),圖中純稀土合金節(jié)能環(huán)保制備技術(shù)和廢汽車尾氣凈化劑制備技術(shù)的主題強(qiáng)度隨著時(shí)間呈現(xiàn)一個強(qiáng)勢上升趨勢,這和實(shí)際情況相吻合;近些年稀土提取技術(shù)主題強(qiáng)度曲線波動較大,因?yàn)樗鄬ζ渌麑@纳暾埩吭跍p少,但它的量是在穩(wěn)步上升的;各種光照技術(shù)在飛速提升,因?yàn)檫@是當(dāng)前各企業(yè)研究的熱點(diǎn),也是商業(yè)競爭的關(guān)鍵技術(shù),圖中光電器件制備技術(shù)和照明光源制備技術(shù)由2011年后是一個穩(wěn)步上升的趨勢,符合當(dāng)前專利技術(shù)發(fā)展實(shí)情。

5結(jié)論與展望

本文利用LDA模型對不同時(shí)間窗口的專利文獻(xiàn)建模,提取各專利文檔的主題,利用困惑度確實(shí)最優(yōu)主題數(shù),從主題強(qiáng)度、主題內(nèi)容、技術(shù)主題強(qiáng)度等方面,全面研究了專利文獻(xiàn)主題的演化情況。結(jié)論表明該方法可以較好地分析專利文獻(xiàn)主題隨時(shí)間的強(qiáng)度演化規(guī)律、主題內(nèi)容演化趨勢和技術(shù)主題強(qiáng)度演化情況。本文只考慮專利文本結(jié)合IPC分類號的專利技術(shù)演化分析,對于技術(shù)之間的相互引用、相互聯(lián)系和相互作用等考慮不足,因此這是下一步的研究方向,以能夠更全面深入地研究專利技術(shù)演化,使主題演化效果更真實(shí)反映專利文獻(xiàn)的發(fā)展概況。

參考文獻(xiàn)

[1]胡冰,張建立.基于統(tǒng)計(jì)分布的中文專利自動分類方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,29(7):101-106.

[2]祖坤琳,趙銘偉,林鴻飛.基于有序聚類的專利知識演化研究[J].計(jì)算機(jī)工程與科學(xué),2016,38(4):785-791.

[3]魏景璇,魯燃,張艷輝,等.基于動態(tài)閾值和命名實(shí)體的雙重過濾話題追蹤[J].計(jì)算機(jī)應(yīng)用研究,2015,32(4):982-985.

[4]賀亮,李芳.科技文獻(xiàn)話題演化研究[J].現(xiàn)代圖書情報(bào)技術(shù),2012,(4):61-67.

[5]胡阿沛,張靜,張曉宇,等.基于專利文獻(xiàn)的技術(shù)演化分析方法評述[J].現(xiàn)代情報(bào),2013,33(10):172-176.

[6]秦曉慧,樂小虬.基于LDA主題關(guān)聯(lián)過濾的領(lǐng)域主題演化研究[J].現(xiàn)代圖書情報(bào)技術(shù),2015,(3):4.

[7]李勇,安新穎.基于LDA的主題演化研究[J].醫(yī)學(xué)信息學(xué)雜志,2013,(2):57-61.

[8]Sugimoto C R,Li D,Russell T G,et al.The shifting sands of disciplinary development:Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation[J].Journal of the American Society for Information Science and Technology,2011,62(1):185-204.

[9]王金龍,徐從富,耿雪玉.基于概率圖模型的科研文獻(xiàn)主題演化研究[J].情報(bào)學(xué)報(bào),2009,(3):347-355.

[10]欒春娟.基于專利共現(xiàn)的全球太陽能技術(shù)網(wǎng)絡(luò)及關(guān)鍵技術(shù)演進(jìn)分析[J].情報(bào)學(xué)報(bào),2013,32(1):68-79.

[11]侯筱蓉,司有和,吳海燕,等.基于引文路徑分析的專利技術(shù)演進(jìn)圖制作的實(shí)證研究——以醫(yī)學(xué)內(nèi)窺鏡專利分析為例[J].情報(bào)學(xué)報(bào),2008,27(5):788-792.

[12]Choi C,Park Y.Monitoring the organic structure of technology based on the patent development paths[J].Technological Forecasting & Social Change,2009,76(6):754-768.

[13]Kim Y G,Suh J H,Sang C P.Visualization of patent analysis for emerging technology[J].Expert Systems with Applications An International Journal,2008,34(3):1804-1812.

[14]方曙,胡正銀,龐弘遷,等.基于專利文獻(xiàn)的技術(shù)演化分析方法研究[J].圖書情報(bào)工作,2011,55(22):42-46.

[15]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of machine Learning research,2003,3(1):993-1022.

[16]王曰芬,傅柱,陳必坤.采用LDA主題模型的國內(nèi)知識流研究結(jié)構(gòu)探討:以學(xué)科分類主題抽取為視角[J].現(xiàn)代圖書情報(bào)技術(shù),2016,32(4):8-19.

[17]Heinrich G.Parameter Estimation for Text Analysis[J].Technical Report,2005.

[18]李保利,楊星.基于LDA模型和話題過濾的研究主題演化分析[J].小型微型計(jì)算機(jī)系統(tǒng),2012,33(12):2738-2743.

[19]李湘東,張嬌,袁滿.基于LDA模型的科技期刊主題演化研究[J].情報(bào)雜志,2014,(7):115-121.

[20]韓紅旗,付媛,朱禮軍.基于專利IPC分類號的技術(shù)競爭對象的群組分析方法[J].情報(bào)工程,2015,(4).

[21]于佳欣.2006-2010年稀土專利申請現(xiàn)狀分析[J].稀土信息,2012,(4):38-40.

[22]Roberts M E,Stewart B M,Tingley D.stm:R package for structural topic models[J].R package,2014,(1):12.

(本文責(zé)任編輯:孫國雷)

临清市| 马山县| 景泰县| 龙江县| 嵩明县| 凤冈县| 公安县| 泸水县| 永吉县| 安岳县| 澄城县| 洛隆县| 沙湾县| 元谋县| 军事| 通化县| 龙泉市| 保康县| 英山县| 镇平县| 汉中市| 名山县| 富顺县| 文昌市| 莱阳市| 浦江县| 广河县| 孟州市| 永昌县| 延津县| 湟中县| 中方县| 繁峙县| 永城市| 华蓥市| 介休市| 恩施市| 凌云县| 丹江口市| 宣恩县| 徐闻县|