杜玉鋒,季 鐸,姜利雪,張桂平
(沈陽航空航天大學(xué) 知識工程研究中心,遼寧 沈陽 110136)
基于SAO的專利結(jié)構(gòu)化相似度計算方法
杜玉鋒,季 鐸,姜利雪,張桂平
(沈陽航空航天大學(xué) 知識工程研究中心,遼寧 沈陽 110136)
該文提出了一種基于subject-action-object(SAO)的專利結(jié)構(gòu)化相似度計算方法。傳統(tǒng)的基于關(guān)鍵詞的定量分析方法沒有考慮專利自身的結(jié)構(gòu)特點,忽略了對專利間內(nèi)在關(guān)系的計算,該文彌補了傳統(tǒng)的基于關(guān)鍵詞的定量方法的不足。在SAO結(jié)構(gòu)抽取過程中,將最新的實體抽取工具OLLIE引入到專利領(lǐng)域,得到了比傳統(tǒng)SAO抽取工具更好的抽取結(jié)果。和傳統(tǒng)的SAO方法相比,對Action元組進行了大量分析,通過重復(fù)大量實驗,確定了Action元組的結(jié)構(gòu)特征。最后,通過實驗驗證,將vector space module(VSM)模型和SAO結(jié)構(gòu)進行融合,得到了比僅僅通過VSM模型進行相似度計算更好的結(jié)果。
數(shù)據(jù)挖掘;專利相似度;Subject-Action-Object(SAO)技術(shù);實體抽取工具;OLLIE
在當(dāng)今的科技和工業(yè)領(lǐng)域,專利是一種重要的知識獲取資源,據(jù)世界知識產(chǎn)權(quán)組織研究表明 ,全世界最新的發(fā)明創(chuàng)造信息 90%以上首先通過專利文獻反映出來。然而,專利的有效性獲取存在著如下三方面的問題: (1)全世界的專利數(shù)量每年大幅度增加[1];(2)分析專利是一項很耗時的任務(wù),這需要大量的人力投入[2];(3)專利評定機構(gòu)對專利的初始評定結(jié)果不盡如人意[3]。
因此,對專利的分析就顯得尤為重要。專利分析的一個重要方面就是衡量專利的相似度,即通過對專利的聚類,進行專利的各方面研究。例如,(1)專利的現(xiàn)有技術(shù)分析,給定一篇專利,然后返回與其技術(shù)相關(guān)的其他專利;(2)專利的侵權(quán)分析,給定一篇被侵權(quán)的專利,然后找出和其內(nèi)容重疊的其他專利;(3)專利地圖的生成,通過專利的相似度矩陣,得到專利之間的直觀表示圖[4]。
傳統(tǒng)的定量分析方法,對關(guān)鍵詞的相似度計算是最常見的專利相似度計算方法[4-6]。將專利用關(guān)鍵詞構(gòu)成的詞袋集合表示,然后構(gòu)造關(guān)鍵詞的空間特征向量,通過cosine等計算公式,得到專利之間的相似度[7]。Xu Feng,Leng Fuhai[8]在通過構(gòu)造關(guān)鍵詞的空間特征向量基礎(chǔ)上,通過加入主成分分析法和層次聚類算法,將形態(tài)學(xué)分析引入進來。
然而,定量的分析方法沒有考慮到專利自身所具有的結(jié)構(gòu)特征,專利最重要的結(jié)構(gòu)特征體現(xiàn)在產(chǎn)品、技術(shù)和兩者的關(guān)系上。為了彌補定量分析方法的不足,專利分析中引入了“關(guān)系”概念。“關(guān)系”[9],用來表示“改變主體特征的行為”,為了表示這種關(guān)系,Subject-Action-Object(SAO)模型被廣泛使用。
本文提出了基于SAO的專利結(jié)構(gòu)化相似度計算方法。和傳統(tǒng)的基于SAO方法相比,(1)通過實體抽取工具OLLIE抽取SAO三元組;(2)對抽取出來的元組A進行結(jié)構(gòu)分析,提取出來的結(jié)構(gòu)特征包括核心詞,動詞的ing形式,動詞的被動形式,not形式,以及介詞情況。
本文接下來的內(nèi)容由四部分組成。第二節(jié)介紹了SAO技術(shù)和實體抽取工具OLLIE;第三節(jié)詳細描述了本文提出的研究思路并給出了具體的研究步驟;第四節(jié)通過一個實驗來驗證研究思路,并給出了實驗結(jié)果及分析;最后是“結(jié)論及展望”部分。
2.1 SAO技術(shù)介紹
SAO結(jié)構(gòu)的概念來源于theory of inventive problem sloving(TRIZ)理論,TRIZ理論是描述技術(shù)問題并解決技術(shù)問題的一套理論。這套理論是由Genrich Altshuller從20萬篇專利中抽取技術(shù)信息,總結(jié)了描述專利中創(chuàng)新設(shè)計功能的關(guān)系,然后通過這些關(guān)系形成一種專利創(chuàng)新的思考模式[10]。SAO結(jié)構(gòu)就是基于TRIZ理論中的關(guān)系函數(shù)形成的。SAO結(jié)構(gòu)的基本單位是“key-concept”,而不是“key-words”[4];在一個SAO結(jié)構(gòu)中,如果AO(Action-Object)代表對問題的描述,S代表解決問題的方法,那么SAO結(jié)構(gòu)就可以認(rèn)為是能表示問題解決的一種組織形式。例如,“battery energizes bulb”,“battery”是Subject,“energizes”是Action,“bulb”是Object,那么“battery”這個技術(shù)的目的是給“bulb”提供能量,即“battery”的功能是給“bulb”提供能量。
2.2 實體抽取工具OLLIE
OLLIE[11-15]是由華盛頓大學(xué)Oren Etzioni教授等人在2012年完成的信息抽取軟件。抽取出的例子見表1。和傳統(tǒng)的SAO抽取工具Knowlegist[16],PAT-analysis tool[17]相比,OLLIE的特色是加入了對語句的淺層句法分析,從而讓抽取出來的實體更準(zhǔn)確,同時,OLLIE學(xué)習(xí)了一些開放模板,從而可以更廣泛地抽取SAO結(jié)構(gòu)模型。
表1 OLLIE抽取出的SAO信息
本文將SAO結(jié)構(gòu)引入到專利的相似度研究中,在相似度計算時,融合了基于關(guān)鍵詞的定量分析方法和基于SAO結(jié)構(gòu)的定性分析方法。本文的研究分為以下四個步驟。(1)SAO結(jié)構(gòu)的抽??;(2)元組A的結(jié)構(gòu)分析;(3)基于SAO結(jié)構(gòu)的相似度計算;(4)專利的相似度計算,由基于VSM模型的定量分析方法和基于SAO結(jié)構(gòu)的定性分析方法組成。流程見圖1。
3.1 SAO結(jié)構(gòu)的抽取
在專利中,概要被認(rèn)為是平均信息量最大的專利部分,因此,本文選取專利的概要進行SAO結(jié)構(gòu)抽取。本文采用的抽取工具是由華盛頓大學(xué)圖靈實驗室開發(fā)的OLLIE軟件,OLLIE軟件抽取出來的專利信息包括(S,A,O)三元組以及專利句子對應(yīng)的詞法和句法信息。
3.2 元組A的結(jié)構(gòu)分析
在Subject-Action-Object(SAO)結(jié)構(gòu)中,Subject和Object表示專利中產(chǎn)品或技術(shù)的主題詞,作為專利中的實體,這類詞一般不容易提取。Action表示Subject和Object之間的關(guān)系。由于專利自身的特點,專利中的動詞一般很固定,而且容易獲得。因此,本課題將SAO的研究主要集中Action元組中。
本文通過大量實驗表明,A結(jié)構(gòu)可以用core-verb,s1,s2,s3,s4五部分表示(見圖2),其中core-verb表示核心動詞,s1表示是否含有動詞的ing形式,s2表示是否含有動詞的被動形式,s3表示是否含有not形式,s4表示是否含有介詞。
圖1 研究步驟的主流程圖
圖2 A元組的結(jié)構(gòu)圖
從3.1中,本文可以得到A元組中每個詞對應(yīng)的詞性和所屬的語塊信息,然后本文構(gòu)造了一個基于詞性和語塊的A短語結(jié)構(gòu)模板(例子見表2),包含4 000余條規(guī)則。其中,若si為0,則表示在對應(yīng)的語塊和詞性條件下, 元組A不包含si部分;若si為1,則表示在對應(yīng)的語塊和詞性條件下,元組A包含si部分。
表2 語塊詞性規(guī)則模板
通過A短語結(jié)構(gòu)模板,本文將元組A用特征向量表示。例如,“be subjected to”表示為(subjected,0,1,0,1),“is working on”表示為(working,1,0,0,1),“do not carry”表示為(carry,0,0,1,0)。
3.3 基于SAO結(jié)構(gòu)的相似度計算
第i個SAO結(jié)構(gòu)和第j個SAO結(jié)構(gòu)的相似度等于對應(yīng)A結(jié)構(gòu)的相似度SimA(i,j)和對應(yīng)S-O結(jié)構(gòu)的相似度SimS-O(i,j)的乘積,表示為公式(1)。
(1)
(2)
SimS-O(i,j)表示第i個SAO中的S-O元組和第j個SAO中的S-O元組的相似度結(jié)果。首先,將S-O元組中的詞進行停用詞過濾,然后構(gòu)造S-O元組詞的VSM矩陣,最后通過夾角余弦得到SimS-O(i,j)。
3.4 專利的相似度計算
本文的專利相似度計算方法是由基于關(guān)鍵詞的定量分析方法和基于專利結(jié)構(gòu)的定性分析方法兩者融合得到的,見公式(3)。
(3)
本實驗通過KNN算法對測試語料的每篇文檔進行三次分類,分類的依據(jù)依次為IPC的主部(第一位數(shù))、大類(前三位數(shù))、小類(前四位數(shù))。實驗考查了在不同分類依據(jù)下SAO結(jié)構(gòu)在專利相似度計算中所起的作用。
4.1 實驗語料
本實驗所用語料來自美國國家專利及商標(biāo)局(USPTO)2004~2006年的專利語料,共56 000篇,語料內(nèi)容有專利號,國際分類號(IPC)和概要組成。按照國際分類號的主部進行平均分配,A~H部各7 000篇。其中,訓(xùn)練語料為54 400篇,A~H部各6 800篇,測試語料為1 600篇,A~H部各200篇。語料分類情況見表3。
表3 語料分類明細
通過OLLIE軟件,從54 400篇訓(xùn)練語料里面抽取出801 730個SAO結(jié)構(gòu),從1 600篇測試語料里面抽取出23 580個SAO結(jié)構(gòu),平均從每篇專利概要里面抽取出14.7個SAO結(jié)構(gòu)。
4.2 評測方法
本實驗通過KNN算法對測試語料的每篇文檔進行分類。對每次分類的結(jié)果,設(shè)初始分值為0,當(dāng)分類結(jié)果與測試文檔本身的類別相符時,視為分類正確,分值加1;否則,視為分類錯誤,不加分。對于整個測試語料,準(zhǔn)確率為總分除以文檔的總數(shù)。見公式(4)。
(4)
4.3 實驗結(jié)果與分析
表4 公式(3),VSM結(jié)果分析表
表5 公式(3),SAO結(jié)果分析表
表6 公式(3),VSM+SAO結(jié)果分析表
表7 VSM,SAO,VSM+SAO最優(yōu)結(jié)果比較
從表4中可以看到,通過VSM模型進行專利的相似度計算,隨著K值的增加,分類結(jié)果的準(zhǔn)確率依次降低;從表5中可以看到,通過SAO結(jié)構(gòu)計算專利的相似度,隨著k值的增加,分類結(jié)果的準(zhǔn)確率先升高,后降低,在k=30處達到最高值。這是因為,在SAO實驗中,本課題是以Action為核心的,而表示Action的詞代表著一種subject和object之間的關(guān)系,在這種關(guān)系下,對應(yīng)的subject和object不需要一致,例如,“A includes B,C”,“D includes E,F(xiàn)”,subject和object之間的關(guān)系是“includes”,而第一個subject是“A”,第二個subject卻是“D”。當(dāng)k特別小的時候(k≤30),隨著k值的增大,這種不一致現(xiàn)象越來越弱,導(dǎo)致準(zhǔn)確率越來越高,當(dāng)k增大的一定程度(k≥30),這種不一致現(xiàn)象可以忽略。通過表4和表5可以看到,僅僅通過SAO結(jié)構(gòu),并不能提高專利分類的準(zhǔn)確率。因為SAO結(jié)構(gòu)表示專利的內(nèi)在關(guān)系,忽略了對專利中非結(jié)構(gòu)化部分的考慮。
通過表7可以看到,VSM模型加SAO結(jié)構(gòu),在依據(jù)IPC的大類(前三位數(shù))、小類(前四位數(shù))進行分類時,效果最好。VSM模型是從整體上對專利進行分析;SAO結(jié)構(gòu)僅對專利中結(jié)構(gòu)化的部分進行考慮,側(cè)重于對專利內(nèi)容的深度挖掘。如果僅僅通過VSM模型進行專利的相似度計算,將會忽略專利中結(jié)構(gòu)化的內(nèi)容,如果僅僅通過SAO結(jié)構(gòu)進行專利的相似度計算,將沒有從整體進行考慮。兩者結(jié)合才能起到更好的作用。在融合VSM模型和SAO結(jié)構(gòu)時,公式(3)中參數(shù)α的確定是一個研究的難點,如果對專利進行簡單分類的話,那么α取大值,說明更加偏向從整體上對專利進行分析,而忽略了專利的結(jié)構(gòu);如果對專利進行細致分類的話,那么α取小值,說明更加偏向從結(jié)構(gòu)上對專利進行分析。對于本實驗,將α的值從0,0.1,0.2,……,直至1,當(dāng)α等于0.8時效果最好。
本文將SAO結(jié)構(gòu)引入到專利的相似度計算方法中。通過對專利結(jié)構(gòu)的分析,揭示了專利間的內(nèi)在聯(lián)系。在SAO結(jié)構(gòu)中,本文分析了元組A的結(jié)構(gòu),將元組A用一個五元組來表示,使得SAO結(jié)構(gòu)能更好地反應(yīng)專利的內(nèi)部結(jié)構(gòu)。實驗結(jié)果表明,在傳統(tǒng)的基于關(guān)鍵詞的定量分析方法中加入SAO結(jié)構(gòu),在依據(jù)IPC的大類(前三位數(shù))、小類(前四位數(shù))進行分類時,可以取得更好的效果。隨著人們對專利分析的要求越來越高,專利分析已經(jīng)從簡單的基于關(guān)鍵詞的分析,轉(zhuǎn)變成基于“概念”的分析,針對這種轉(zhuǎn)變,SAO結(jié)構(gòu)將會在未來專利研究的過程中起到更加巨大的作用。
通過SAO結(jié)構(gòu)計算專利相似度的過程中,本文是以A元組為主,弱化了S,O元組對最終計算結(jié)果的影響。接下來的工作,本研究打算先從大量專利中構(gòu)建一個關(guān)于S,O元組的知識庫,然后在計算專利相似度的過程中,將S,O元組也考慮進去。
[1] Bergmann I, Butzke D, Walter L, et al. Evaluating the risk of patent infringement by means of semantic patent analysis: the case of DNA chips[J]. R&D Management, 2008,38(5): 550-562.
[2] Yanhong L, Runhua T T. A text-mining-bases patent analysis in product innovative process[J]. Trends in computer aided innovation 2007: 89-96.
[3] Burke P F, Reitzig M. Measuring patent assessment quality-analyzing the degree and kind of (in)consistency in patent offices’ decision making[J]. Research Policy, 2007,36(9): 1404-1430.
[4] Lee B, Jeong Y-I. Mapping Korea’s national R&D domain of robot technology by using the co-word analysis[J]. Scientometrics,2008, 77(1): 3-19.
[5] Lee S, Lee S, Seol H, et al. Using patent information for designing new product and technology: Keyword based technology roadmapping[J]. R&D Management, 2008,38(2): 169-188.
[6] Yoon B, Park Y. A text-mining-based patent network: Analytical tool for high-technology trend[J]. The Journal of High Technology Management Research, 2004,15(1): 37-50.
[7] Moehrle M. Measures for textual patent similarities: a guided way to select appropriate approaches[J]. Scientometrics, 2010,85(1): 95-109.
[8] Xu Feng,Leng Fuhai. Patent text mining and informetricbased patent technology morphological analysis: an empirical study[J]. Technology Analysis & Strategic Management, 2012: 467-479.
[9] Savransky S D. Engineering of creativity: Introduction to TRIZ methodology of inventive problem solving[M]. London: CRC Press.2000:1-383.
[10] Altshuller G S. Creativity as an exact science: the theory of the solution of inventive problems[M]. New York: Gordon and Breach Science Publishers,1984.
[11] Michele Banko. Open information extraction for the web[D]. PHD thesis, University of Washington,2009.
[12] Thomas Lin. Leveraging Knowledge Bases in Web Text Processing[D]. PHD thesis, University of Washington,2012.
[13] Anthony Fader, Stephen Soderland, Oren Etzioni. Identifying relations for open information extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.2011.
[14] Oren Etzioni, Anthony Fader, Janara Christensen, et al. Open information extraction: the second generation[C]//Proceedings of International Joint Conference on Artificial Intelligence.2011.
[15] Mausam, Michael Schmitz, Robert Bart, et al. Open Language Learning for Information Extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CONLL).2012.
[16] Goldfire Inventor, www.invention-machine.com.
[17] Cascini G. System and Method for performing functional analyses making use of a plurality of inputs[P]. European Patent Office, International Publication Number WO 03/077154 A2,2002.
[18] Tseng Y-H, Lin C-J, Lin Y-I. Text mining techniques for patent analysis[J]. Information Processing & Management, 2007,43(5): 1216-1247.
Patent Similarity Measure Based on SAO Structure
DU Yufeng, JI Duo, JIANG Lixue, ZHANG Guiping
(Knowledge Engineering Research Center, Shenyang Aerospace University, Shenyang, Liaoning 110136,China)
This paper proposes a metric for patents’ similarity based on Subject-Action-Object(SAO) structure. In contrast to the traditional approach based on key-words, this method captures the patent structure and consider the relationship among patents. To extract the SAO triple, this paper applies OLLIE, the latest entity information extraction tool, into the patent field. In addition, this paper investigates into the action element, outlining the structure of action element. Finally, this paper combines the SAO structure with the VSM module to calculate the patent similarity, achieving an improvement on the pure VSM based approach.
data mining; patent similarity; technology Subject-Action-Object(SAO); entity information extraction tool; Ollie
杜玉鋒(1988—),碩士研究生,主要研究領(lǐng)域為信息檢索。E?mail:DUYF1988@163.com季鐸(1981—),博士研究生,副教授,主要研究領(lǐng)域為自然語言處理,信息檢索。E?mail:jiduo_1@163.com姜利雪(1988—),碩士研究生,主要研究領(lǐng)域為信息檢索。E?mail:jlxsnow@163.com
1003-0077(2016)01-0030-06
2013-07-10 定稿日期: 2014-00-00
國家自然科學(xué)基金(61073123);遼寧省教育廳項目(L2011031)
TP391
A