唐國(guó)利 黃奕 李春波
摘 要 針對(duì)中學(xué)生創(chuàng)新活動(dòng)的不斷開(kāi)展以及科技研發(fā)人員從事創(chuàng)新活動(dòng)而需要頻繁檢索專利的需求,要為自己的發(fā)明和設(shè)計(jì)申請(qǐng)專利,要從已經(jīng)有的發(fā)明和創(chuàng)造中吸取有益的營(yíng)養(yǎng),我們都需要對(duì)現(xiàn)有專利進(jìn)行查詢,然而目前專利檢索智能程度不高,本文提出一種專利智能推薦算法。算法的輸入是用戶輸入的檢索內(nèi)容,輸出結(jié)果中不僅包括檢索系統(tǒng)輸出的專利還包括一批推薦的專利。本算法首先實(shí)現(xiàn)專利間的關(guān)聯(lián),進(jìn)而計(jì)算專利關(guān)聯(lián)度,并根據(jù)關(guān)聯(lián)度對(duì)推薦專利進(jìn)行排序,構(gòu)成一個(gè)有序的推薦專利集合。本設(shè)計(jì)要解決的技術(shù)問(wèn)題是要在已有專利檢索平臺(tái)的基礎(chǔ)上根據(jù)專利檢索者提供的檢索內(nèi)容,實(shí)現(xiàn)對(duì)與專利檢索平臺(tái)返回結(jié)果相關(guān)的其他專利的自動(dòng)推薦。
關(guān)鍵詞 專利推薦 關(guān)聯(lián)度 推薦算法
中圖分類號(hào):G064 文獻(xiàn)標(biāo)識(shí)碼:A
在我國(guó),較有權(quán)威和影響力的專利檢索網(wǎng)絡(luò)平臺(tái)包括:中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局網(wǎng)站(www.sipo.gov.com)、中國(guó)知識(shí)產(chǎn)權(quán)網(wǎng)(www.cnipr.com)、中國(guó)專利網(wǎng)(www.cnpatent. Com等七大檢索平臺(tái)以及中國(guó)期刊網(wǎng)(www.cnki.net)。這七大專利檢索平臺(tái)采用的檢索形式與傳統(tǒng)信息檢索類似,采用字段檢索,輸入檢索詞或按照“*” (與)、“+”(或)、“一”(非)等組成字段內(nèi)或字段間邏輯關(guān)系式。這些字段包括:專利號(hào)、專利名稱、摘要、國(guó)際分類號(hào)等。
目前主流的推薦算法主要包含以下幾大類:基于內(nèi)容的推薦,協(xié)同過(guò)濾的推薦,基于知識(shí)的推薦和組合推薦。仲偉煒通過(guò)跟蹤和記錄用戶的訪問(wèn)操作行為,分析專利查詢者經(jīng)常一起查閱的專利文獻(xiàn),利用關(guān)聯(lián)規(guī)則來(lái)分析專利文獻(xiàn)的相關(guān)性,以實(shí)現(xiàn)專利文獻(xiàn)的個(gè)性化推薦。該算法本質(zhì)上屬于協(xié)同過(guò)濾推薦,需要跟蹤大量用戶的專利檢索行為,所推薦專利是一群專利用戶的共同興趣。而對(duì)于科技研發(fā)人員來(lái)說(shuō),經(jīng)常需要檢索與本身研究目的相關(guān)的專利。通過(guò)專利檢索,了解當(dāng)前研究現(xiàn)狀,同時(shí)拓展研究思路。在這種情況下以上文獻(xiàn)提出算法將變得不再適應(yīng)。
在我國(guó),較有權(quán)威和影響力的專利檢索網(wǎng)絡(luò)平臺(tái)包括:中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局網(wǎng)站(www.sipo.gov.com)、中國(guó)知識(shí)產(chǎn)權(quán)網(wǎng)(www.cnipr.com)、中國(guó)專利網(wǎng)(www.cnpatent. Com)、中國(guó)專利信息網(wǎng)(www.patent.com.cn)等七個(gè)檢索平臺(tái)。這七個(gè)專利檢索平臺(tái)采用的檢索形式與傳統(tǒng)信息檢索類似,采用字段檢索,輸入檢索詞或按照“*” (與)、“+”(或)、“一”(非)等組成字段內(nèi)或字段間邏輯關(guān)系式。這些字段包括:專利號(hào)、專利名稱、摘要、國(guó)際分類號(hào)、發(fā)明人、申請(qǐng)人、公開(kāi)日等。根據(jù)以上檢索網(wǎng)絡(luò)平臺(tái)這些字段特點(diǎn),本文提出的算法向用戶推薦專利標(biāo)題以及摘要中不包含檢索詞,但其在內(nèi)容上又和檢索詞存在一定語(yǔ)義關(guān)聯(lián)的專利。本文提出的算法將依據(jù)類容上的關(guān)聯(lián)度推薦,在已有專利檢索平臺(tái)的基礎(chǔ)上根據(jù)專利檢索者提供的檢索內(nèi)容,實(shí)現(xiàn)對(duì)與專利檢索平臺(tái)返回結(jié)果相關(guān)的其他專利的自動(dòng)推薦。
一、專利自動(dòng)推薦方法相關(guān)概念及設(shè)計(jì)思想
(一)目標(biāo)專利特征向量生成。
首先根據(jù)用戶輸入的檢索式通過(guò)某個(gè)專利檢索平臺(tái)獲得一個(gè)專利集合,稱為C,提取C中各篇專利的專利名、專利分類號(hào)、專利摘要等信息,然后采用下面的方法提取C中專利的目標(biāo)專利特征向量:
1、提取C中全部專利的專利分類號(hào)所覆蓋的專利分類號(hào)的最長(zhǎng)的公共部分,設(shè)此字符串為Si,此類字符串的數(shù)量為m,并根據(jù)Si將C中專利進(jìn)行分組,也就是有C=Ci;
2、根據(jù)C中專利的分組,分別提取各組Ci(1≤i≤m)中各個(gè)專利的摘要;然后對(duì)各摘要實(shí)施分詞;過(guò)濾掉量詞和副詞等詞語(yǔ)后,留下名詞和動(dòng)詞兩類詞語(yǔ);然后統(tǒng)計(jì)各個(gè)詞語(yǔ)出現(xiàn)的總頻率;按詞頻從高到低排序,取前K個(gè)詞語(yǔ)對(duì)應(yīng)的詞頻,構(gòu)成各組對(duì)應(yīng)的目標(biāo)專利特征向量TFi(1≤i≤m),將這K個(gè)詞語(yǔ)構(gòu)成的集合分別定義為詞表Vi(1≤i≤m)。
(二)推薦專利集生成。
1、根據(jù)專利分類的等級(jí)結(jié)構(gòu)——部、大類、小類、大組和小組, 確定每個(gè)最長(zhǎng)的公共部分Si(1≤i≤m)所覆蓋的專利分類等級(jí);
2、對(duì)各個(gè)專利分組Ci中的各專利的標(biāo)題進(jìn)行中文分詞,過(guò)濾掉量詞、副詞等語(yǔ)義表達(dá)能力不強(qiáng)的詞語(yǔ),留下的詞性為動(dòng)詞和名詞的詞構(gòu)成各組專利對(duì)應(yīng)的檢索詞集合Wi(1≤i≤m);
3、利用檢索詞集合Wi(1≤i≤m)中的各個(gè)詞,通過(guò)專利在線檢索平臺(tái)在專利分類號(hào)=Si+* (1≤i≤m)條件下再進(jìn)行檢索,得到專利集合(1≤i≤m)。從而得到推薦專利集合Ci=-Ci(1≤i≤m)。
4、在1中,其特征在于:第一個(gè)關(guān)鍵步驟中,提取C中全部專利的專利分類號(hào)所覆蓋的專利分類號(hào)的最長(zhǎng)的公共部分,以實(shí)現(xiàn)對(duì)C中專利的分組。第二個(gè)關(guān)鍵步驟中,利用檢索詞集合Wi(1≤i≤m)中的各個(gè)詞,通過(guò)專利在線檢索平臺(tái)在專利分類號(hào)=Si+* (1≤i≤m)條件下再進(jìn)行檢索,得到專利集合(1≤i≤m),從而得到推薦專利集合Ci=-Ci(1≤i≤m)。
二、具體實(shí)施算法描述(如圖1)
(一)專利數(shù)據(jù)獲取。
根據(jù)用戶輸入的檢索式通過(guò)某個(gè)專利在線檢索平臺(tái)檢索得到專利集合C,并獲取C中專利的專利名、專利分類號(hào)、專利摘要等信息。專利數(shù)據(jù)獲取流程如圖2所示。在此圖中,選取的專利在線檢索平臺(tái)可為前面提及的七大專利檢索平臺(tái)中的任何一個(gè)。
(二)目標(biāo)專利特征向量生成。
目標(biāo)專利特征向量的計(jì)算方法如圖3所示,主要步驟如下:
1、取C中各專利的專利分類號(hào)最長(zhǎng)的公共部分,設(shè)此字符串為Si,設(shè)此類字符串的數(shù)量為m,并根據(jù)Si將C中專利進(jìn)行分組,也就是有C=Ci;
2、根據(jù)C中專利的分組,分別提取各組中各個(gè)專利的摘要;然后對(duì)各摘要實(shí)施分詞;過(guò)濾掉量詞和副詞等詞語(yǔ)后,留下名詞和動(dòng)詞兩類詞語(yǔ);然后統(tǒng)計(jì)各個(gè)詞語(yǔ)出現(xiàn)的總頻率;按詞頻從高到低排序,取前K個(gè)詞語(yǔ)對(duì)應(yīng)的詞頻,構(gòu)成各組對(duì)應(yīng)的目標(biāo)專利特征向量。構(gòu)成TFi,這K個(gè)詞語(yǔ)構(gòu)成的集合分別定義為詞表Vi。比如可取K=10。
(三)推薦專利集生成。
推薦專利集生成如圖4所示,主要步驟如下:
1、根據(jù)專利分類的等級(jí)結(jié)構(gòu)——部、大類、小類、大組和小組, 確定每個(gè)最長(zhǎng)的公共部分Si(1≤i≤m)所覆蓋的專利分類等級(jí);
2、對(duì)各個(gè)專利分組Ci(1≤i≤m)中的各專利的標(biāo)題進(jìn)行中文分詞,過(guò)濾掉量詞、副詞等語(yǔ)義表達(dá)能力不強(qiáng)的詞語(yǔ),留下的詞性為動(dòng)詞和名詞的詞構(gòu)成各組專利對(duì)應(yīng)的檢索詞集合Wi(1≤i≤m);
3、利用檢索詞集合Wi中的各個(gè)詞通過(guò)專利在線檢索引擎平臺(tái)在專利分類號(hào)=Si+* (1≤i≤m)條件下再進(jìn)行檢索,得到專利集合(1≤i≤m)。從而得到推薦專利集合Ci=-Ci(1≤i≤m)。
(四)推薦專利排序
推薦專利排序的方法如圖5所示。
用于描述推薦專利的內(nèi)容特征的K維向量被稱為專利特征向量。專利特征向量的構(gòu)造方法是:在推薦專利集合Ci(1≤i≤m)中提取第j篇專利的摘要;對(duì)其進(jìn)行中文分詞,過(guò)濾掉量詞和副詞等詞語(yǔ),留下名詞和動(dòng)詞兩類詞語(yǔ);然后統(tǒng)計(jì)各個(gè)詞語(yǔ)的詞頻,根據(jù)詞表Vi中詞語(yǔ)的順序,定義一個(gè)K維向量。若詞表Vi中的某詞不在分詞結(jié)果中,則填入0,否則填入該詞的詞頻。用F表示專利集合Ci(1≤i≤m)中第j篇專利的專利特征向量,則該推薦專利與目標(biāo)專利特征向量之間的關(guān)聯(lián)度計(jì)算如式(1)所示:
(1)
依次計(jì)算每個(gè)推薦專利集合Ci(1≤i≤m)中各個(gè)推薦專利與該組的專利目標(biāo)特征向量之間的關(guān)聯(lián)度,最后將Ci中所有專利的關(guān)聯(lián)度按照從高到低的順序排序輸出。
3。附圖(圖1、2、3、4、5)
三、總結(jié)
本設(shè)計(jì)提出了一種基于已有專利檢索平臺(tái),為查詢專利者提供自動(dòng)推薦內(nèi)容項(xiàng)相關(guān)而檢索標(biāo)題中沒(méi)有的專利的算法,算法解決了在已有專利檢索平臺(tái)的基礎(chǔ)上根據(jù)專利檢索者提供的檢索內(nèi)容,實(shí)現(xiàn)對(duì)與專利檢索平臺(tái)返回結(jié)果含有內(nèi)在聯(lián)系的其他專利的自動(dòng)推薦,這些自動(dòng)推薦的專利標(biāo)題或摘要中或許不含有檢索詞,但是在內(nèi)容上卻高度相關(guān)。
(作者:唐國(guó)利,桂林電子科技大學(xué)工程碩士在讀,軟件工程專業(yè);本科學(xué)士學(xué)位:信息與計(jì)算科學(xué)專業(yè);黃奕,李春波,桂林中學(xué))
參考文獻(xiàn):
[1]許海玲, 吳瀟, 李曉東等. 互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報(bào),2009, 20(2): 350-362
[2]仲偉煒. 專利文獻(xiàn)分類及關(guān)聯(lián)推薦技術(shù)應(yīng)用研究[D]. 南京, 南京航空航天大學(xué),2009
[3]胡曉,魏雪梅等. 我國(guó)網(wǎng)絡(luò)專利檢索平臺(tái)分析和評(píng)價(jià)[J]. 科技管理研究, 2010, 14:75-81
[4]李容. 基于K均值聚類算法的圖書商品推薦仿真系統(tǒng)[J]. 計(jì)算機(jī)仿真, 2010,27(6): 346-349
[5]張晗,潘正運(yùn)等 旅游服務(wù)智能推薦系統(tǒng)的研究與設(shè)計(jì) 計(jì)算機(jī)信息 ,2006.05-3(22)
[6]Bing Liu 著 俞勇韓定一等譯 Web數(shù)據(jù)挖掘 清華大學(xué)出版社 2009.4