国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種專利自動(dòng)推薦方法的算法設(shè)計(jì)

2013-04-29 18:19:26唐國(guó)利黃奕李春波
決策與信息·下旬刊 2013年9期
關(guān)鍵詞:推薦算法關(guān)聯(lián)度

唐國(guó)利 黃奕 李春波

摘 要 針對(duì)中學(xué)生創(chuàng)新活動(dòng)的不斷開(kāi)展以及科技研發(fā)人員從事創(chuàng)新活動(dòng)而需要頻繁檢索專利的需求,要為自己的發(fā)明和設(shè)計(jì)申請(qǐng)專利,要從已經(jīng)有的發(fā)明和創(chuàng)造中吸取有益的營(yíng)養(yǎng),我們都需要對(duì)現(xiàn)有專利進(jìn)行查詢,然而目前專利檢索智能程度不高,本文提出一種專利智能推薦算法。算法的輸入是用戶輸入的檢索內(nèi)容,輸出結(jié)果中不僅包括檢索系統(tǒng)輸出的專利還包括一批推薦的專利。本算法首先實(shí)現(xiàn)專利間的關(guān)聯(lián),進(jìn)而計(jì)算專利關(guān)聯(lián)度,并根據(jù)關(guān)聯(lián)度對(duì)推薦專利進(jìn)行排序,構(gòu)成一個(gè)有序的推薦專利集合。本設(shè)計(jì)要解決的技術(shù)問(wèn)題是要在已有專利檢索平臺(tái)的基礎(chǔ)上根據(jù)專利檢索者提供的檢索內(nèi)容,實(shí)現(xiàn)對(duì)與專利檢索平臺(tái)返回結(jié)果相關(guān)的其他專利的自動(dòng)推薦。

關(guān)鍵詞 專利推薦 關(guān)聯(lián)度 推薦算法

中圖分類號(hào):G064 文獻(xiàn)標(biāo)識(shí)碼:A

在我國(guó),較有權(quán)威和影響力的專利檢索網(wǎng)絡(luò)平臺(tái)包括:中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局網(wǎng)站(www.sipo.gov.com)、中國(guó)知識(shí)產(chǎn)權(quán)網(wǎng)(www.cnipr.com)、中國(guó)專利網(wǎng)(www.cnpatent. Com等七大檢索平臺(tái)以及中國(guó)期刊網(wǎng)(www.cnki.net)。這七大專利檢索平臺(tái)采用的檢索形式與傳統(tǒng)信息檢索類似,采用字段檢索,輸入檢索詞或按照“*” (與)、“+”(或)、“一”(非)等組成字段內(nèi)或字段間邏輯關(guān)系式。這些字段包括:專利號(hào)、專利名稱、摘要、國(guó)際分類號(hào)等。

目前主流的推薦算法主要包含以下幾大類:基于內(nèi)容的推薦,協(xié)同過(guò)濾的推薦,基于知識(shí)的推薦和組合推薦。仲偉煒通過(guò)跟蹤和記錄用戶的訪問(wèn)操作行為,分析專利查詢者經(jīng)常一起查閱的專利文獻(xiàn),利用關(guān)聯(lián)規(guī)則來(lái)分析專利文獻(xiàn)的相關(guān)性,以實(shí)現(xiàn)專利文獻(xiàn)的個(gè)性化推薦。該算法本質(zhì)上屬于協(xié)同過(guò)濾推薦,需要跟蹤大量用戶的專利檢索行為,所推薦專利是一群專利用戶的共同興趣。而對(duì)于科技研發(fā)人員來(lái)說(shuō),經(jīng)常需要檢索與本身研究目的相關(guān)的專利。通過(guò)專利檢索,了解當(dāng)前研究現(xiàn)狀,同時(shí)拓展研究思路。在這種情況下以上文獻(xiàn)提出算法將變得不再適應(yīng)。

在我國(guó),較有權(quán)威和影響力的專利檢索網(wǎng)絡(luò)平臺(tái)包括:中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局網(wǎng)站(www.sipo.gov.com)、中國(guó)知識(shí)產(chǎn)權(quán)網(wǎng)(www.cnipr.com)、中國(guó)專利網(wǎng)(www.cnpatent. Com)、中國(guó)專利信息網(wǎng)(www.patent.com.cn)等七個(gè)檢索平臺(tái)。這七個(gè)專利檢索平臺(tái)采用的檢索形式與傳統(tǒng)信息檢索類似,采用字段檢索,輸入檢索詞或按照“*” (與)、“+”(或)、“一”(非)等組成字段內(nèi)或字段間邏輯關(guān)系式。這些字段包括:專利號(hào)、專利名稱、摘要、國(guó)際分類號(hào)、發(fā)明人、申請(qǐng)人、公開(kāi)日等。根據(jù)以上檢索網(wǎng)絡(luò)平臺(tái)這些字段特點(diǎn),本文提出的算法向用戶推薦專利標(biāo)題以及摘要中不包含檢索詞,但其在內(nèi)容上又和檢索詞存在一定語(yǔ)義關(guān)聯(lián)的專利。本文提出的算法將依據(jù)類容上的關(guān)聯(lián)度推薦,在已有專利檢索平臺(tái)的基礎(chǔ)上根據(jù)專利檢索者提供的檢索內(nèi)容,實(shí)現(xiàn)對(duì)與專利檢索平臺(tái)返回結(jié)果相關(guān)的其他專利的自動(dòng)推薦。

一、專利自動(dòng)推薦方法相關(guān)概念及設(shè)計(jì)思想

(一)目標(biāo)專利特征向量生成。

首先根據(jù)用戶輸入的檢索式通過(guò)某個(gè)專利檢索平臺(tái)獲得一個(gè)專利集合,稱為C,提取C中各篇專利的專利名、專利分類號(hào)、專利摘要等信息,然后采用下面的方法提取C中專利的目標(biāo)專利特征向量:

1、提取C中全部專利的專利分類號(hào)所覆蓋的專利分類號(hào)的最長(zhǎng)的公共部分,設(shè)此字符串為Si,此類字符串的數(shù)量為m,并根據(jù)Si將C中專利進(jìn)行分組,也就是有C=Ci;

2、根據(jù)C中專利的分組,分別提取各組Ci(1≤i≤m)中各個(gè)專利的摘要;然后對(duì)各摘要實(shí)施分詞;過(guò)濾掉量詞和副詞等詞語(yǔ)后,留下名詞和動(dòng)詞兩類詞語(yǔ);然后統(tǒng)計(jì)各個(gè)詞語(yǔ)出現(xiàn)的總頻率;按詞頻從高到低排序,取前K個(gè)詞語(yǔ)對(duì)應(yīng)的詞頻,構(gòu)成各組對(duì)應(yīng)的目標(biāo)專利特征向量TFi(1≤i≤m),將這K個(gè)詞語(yǔ)構(gòu)成的集合分別定義為詞表Vi(1≤i≤m)。

(二)推薦專利集生成。

1、根據(jù)專利分類的等級(jí)結(jié)構(gòu)——部、大類、小類、大組和小組, 確定每個(gè)最長(zhǎng)的公共部分Si(1≤i≤m)所覆蓋的專利分類等級(jí);

2、對(duì)各個(gè)專利分組Ci中的各專利的標(biāo)題進(jìn)行中文分詞,過(guò)濾掉量詞、副詞等語(yǔ)義表達(dá)能力不強(qiáng)的詞語(yǔ),留下的詞性為動(dòng)詞和名詞的詞構(gòu)成各組專利對(duì)應(yīng)的檢索詞集合Wi(1≤i≤m);

3、利用檢索詞集合Wi(1≤i≤m)中的各個(gè)詞,通過(guò)專利在線檢索平臺(tái)在專利分類號(hào)=Si+* (1≤i≤m)條件下再進(jìn)行檢索,得到專利集合(1≤i≤m)。從而得到推薦專利集合Ci=-Ci(1≤i≤m)。

4、在1中,其特征在于:第一個(gè)關(guān)鍵步驟中,提取C中全部專利的專利分類號(hào)所覆蓋的專利分類號(hào)的最長(zhǎng)的公共部分,以實(shí)現(xiàn)對(duì)C中專利的分組。第二個(gè)關(guān)鍵步驟中,利用檢索詞集合Wi(1≤i≤m)中的各個(gè)詞,通過(guò)專利在線檢索平臺(tái)在專利分類號(hào)=Si+* (1≤i≤m)條件下再進(jìn)行檢索,得到專利集合(1≤i≤m),從而得到推薦專利集合Ci=-Ci(1≤i≤m)。

二、具體實(shí)施算法描述(如圖1)

(一)專利數(shù)據(jù)獲取。

根據(jù)用戶輸入的檢索式通過(guò)某個(gè)專利在線檢索平臺(tái)檢索得到專利集合C,并獲取C中專利的專利名、專利分類號(hào)、專利摘要等信息。專利數(shù)據(jù)獲取流程如圖2所示。在此圖中,選取的專利在線檢索平臺(tái)可為前面提及的七大專利檢索平臺(tái)中的任何一個(gè)。

(二)目標(biāo)專利特征向量生成。

目標(biāo)專利特征向量的計(jì)算方法如圖3所示,主要步驟如下:

1、取C中各專利的專利分類號(hào)最長(zhǎng)的公共部分,設(shè)此字符串為Si,設(shè)此類字符串的數(shù)量為m,并根據(jù)Si將C中專利進(jìn)行分組,也就是有C=Ci;

2、根據(jù)C中專利的分組,分別提取各組中各個(gè)專利的摘要;然后對(duì)各摘要實(shí)施分詞;過(guò)濾掉量詞和副詞等詞語(yǔ)后,留下名詞和動(dòng)詞兩類詞語(yǔ);然后統(tǒng)計(jì)各個(gè)詞語(yǔ)出現(xiàn)的總頻率;按詞頻從高到低排序,取前K個(gè)詞語(yǔ)對(duì)應(yīng)的詞頻,構(gòu)成各組對(duì)應(yīng)的目標(biāo)專利特征向量。構(gòu)成TFi,這K個(gè)詞語(yǔ)構(gòu)成的集合分別定義為詞表Vi。比如可取K=10。

(三)推薦專利集生成。

推薦專利集生成如圖4所示,主要步驟如下:

1、根據(jù)專利分類的等級(jí)結(jié)構(gòu)——部、大類、小類、大組和小組, 確定每個(gè)最長(zhǎng)的公共部分Si(1≤i≤m)所覆蓋的專利分類等級(jí);

2、對(duì)各個(gè)專利分組Ci(1≤i≤m)中的各專利的標(biāo)題進(jìn)行中文分詞,過(guò)濾掉量詞、副詞等語(yǔ)義表達(dá)能力不強(qiáng)的詞語(yǔ),留下的詞性為動(dòng)詞和名詞的詞構(gòu)成各組專利對(duì)應(yīng)的檢索詞集合Wi(1≤i≤m);

3、利用檢索詞集合Wi中的各個(gè)詞通過(guò)專利在線檢索引擎平臺(tái)在專利分類號(hào)=Si+* (1≤i≤m)條件下再進(jìn)行檢索,得到專利集合(1≤i≤m)。從而得到推薦專利集合Ci=-Ci(1≤i≤m)。

(四)推薦專利排序

推薦專利排序的方法如圖5所示。

用于描述推薦專利的內(nèi)容特征的K維向量被稱為專利特征向量。專利特征向量的構(gòu)造方法是:在推薦專利集合Ci(1≤i≤m)中提取第j篇專利的摘要;對(duì)其進(jìn)行中文分詞,過(guò)濾掉量詞和副詞等詞語(yǔ),留下名詞和動(dòng)詞兩類詞語(yǔ);然后統(tǒng)計(jì)各個(gè)詞語(yǔ)的詞頻,根據(jù)詞表Vi中詞語(yǔ)的順序,定義一個(gè)K維向量。若詞表Vi中的某詞不在分詞結(jié)果中,則填入0,否則填入該詞的詞頻。用F表示專利集合Ci(1≤i≤m)中第j篇專利的專利特征向量,則該推薦專利與目標(biāo)專利特征向量之間的關(guān)聯(lián)度計(jì)算如式(1)所示:

(1)

依次計(jì)算每個(gè)推薦專利集合Ci(1≤i≤m)中各個(gè)推薦專利與該組的專利目標(biāo)特征向量之間的關(guān)聯(lián)度,最后將Ci中所有專利的關(guān)聯(lián)度按照從高到低的順序排序輸出。

3。附圖(圖1、2、3、4、5)

三、總結(jié)

本設(shè)計(jì)提出了一種基于已有專利檢索平臺(tái),為查詢專利者提供自動(dòng)推薦內(nèi)容項(xiàng)相關(guān)而檢索標(biāo)題中沒(méi)有的專利的算法,算法解決了在已有專利檢索平臺(tái)的基礎(chǔ)上根據(jù)專利檢索者提供的檢索內(nèi)容,實(shí)現(xiàn)對(duì)與專利檢索平臺(tái)返回結(jié)果含有內(nèi)在聯(lián)系的其他專利的自動(dòng)推薦,這些自動(dòng)推薦的專利標(biāo)題或摘要中或許不含有檢索詞,但是在內(nèi)容上卻高度相關(guān)。

(作者:唐國(guó)利,桂林電子科技大學(xué)工程碩士在讀,軟件工程專業(yè);本科學(xué)士學(xué)位:信息與計(jì)算科學(xué)專業(yè);黃奕,李春波,桂林中學(xué))

參考文獻(xiàn):

[1]許海玲, 吳瀟, 李曉東等. 互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報(bào),2009, 20(2): 350-362

[2]仲偉煒. 專利文獻(xiàn)分類及關(guān)聯(lián)推薦技術(shù)應(yīng)用研究[D]. 南京, 南京航空航天大學(xué),2009

[3]胡曉,魏雪梅等. 我國(guó)網(wǎng)絡(luò)專利檢索平臺(tái)分析和評(píng)價(jià)[J]. 科技管理研究, 2010, 14:75-81

[4]李容. 基于K均值聚類算法的圖書商品推薦仿真系統(tǒng)[J]. 計(jì)算機(jī)仿真, 2010,27(6): 346-349

[5]張晗,潘正運(yùn)等 旅游服務(wù)智能推薦系統(tǒng)的研究與設(shè)計(jì) 計(jì)算機(jī)信息 ,2006.05-3(22)

[6]Bing Liu 著 俞勇韓定一等譯 Web數(shù)據(jù)挖掘 清華大學(xué)出版社 2009.4

猜你喜歡
推薦算法關(guān)聯(lián)度
中國(guó)制造業(yè)產(chǎn)業(yè)關(guān)聯(lián)度分析
基于灰色關(guān)聯(lián)度的水質(zhì)評(píng)價(jià)分析
校園社交平臺(tái)中標(biāo)簽系統(tǒng)的研究
基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過(guò)濾推薦算法研究
社交網(wǎng)絡(luò)推薦系統(tǒng)
混合推薦算法在電影推薦中的研究與評(píng)述
一種改進(jìn)的基于位置的推薦算法
基于情景感知的高校移動(dòng)社交網(wǎng)絡(luò)平臺(tái)設(shè)計(jì)與開(kāi)發(fā)
基于灰關(guān)聯(lián)度的鋰電池組SOH評(píng)價(jià)方法研究
基于灰色關(guān)聯(lián)度的公交線網(wǎng)模糊評(píng)價(jià)
河南科技(2014年16期)2014-02-27 14:13:25
淮安市| 泽库县| 丹巴县| 蓬莱市| 麻栗坡县| 阳高县| 方山县| 五大连池市| 郧西县| 定南县| 莱阳市| 共和县| 黄浦区| 苍梧县| 华池县| 奈曼旗| 厦门市| 兴仁县| 永泰县| 颍上县| 许昌市| 菏泽市| 梅州市| 开平市| 安福县| 中西区| 青铜峡市| 武乡县| 阿克苏市| 杂多县| 武鸣县| 望奎县| 华池县| 福安市| 广灵县| 景德镇市| 繁峙县| 修武县| 田林县| 乐业县| 南雄市|