国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生物醫(yī)藥領(lǐng)域?qū)@暾垱Q策模型構(gòu)建方法研討

2014-12-16 08:22:12葛云鵬李嵐鄒龍王斌王軍文
生物技術(shù)世界 2014年7期
關(guān)鍵詞:專利申請檢索專利

葛云鵬 李嵐 鄒龍 王斌 王軍文

(湖南中醫(yī)藥大學(xué) 湖南長沙 410208)

《中華人民共和國專利法》第九條規(guī)定:兩個以上的申請人分別就同樣的發(fā)明創(chuàng)造申請專利的,專利權(quán)授予最先申請的人。它確立了我國專利授權(quán)中的“先申請原則”。

圖1 專利申請授權(quán)可能性分析系統(tǒng)工作流程圖

表1 ICP分類中生物醫(yī)藥領(lǐng)域?qū)@植记闆r

由于我國發(fā)明專利的審查必須經(jīng)過實質(zhì)審查,因此,相同或相似主題專利申請時,在后申請專利經(jīng)常因為缺乏實質(zhì)性要件而駁回,這是由于在后申請不具備專利三性之“新穎性”和“創(chuàng)造性”。由此可見,我國專利申請過程中,申請前檢索工作非常重要,現(xiàn)今的專利申請前檢索目標一般集中于國家知識產(chǎn)權(quán)局專利檢索系統(tǒng),中國知識產(chǎn)權(quán)出版社(CNIPR)中外數(shù)據(jù)庫服務(wù)平臺,和US,DE,EP,GB,JP,F R,WIPO等主要專利授權(quán)機構(gòu)[1],以及中國知網(wǎng)(CNKI),百度或谷歌等網(wǎng)絡(luò)搜索引擎。檢索途徑一般為專利發(fā)明人或申請人自行檢索、發(fā)明人或申請人所在單位專利管理人員檢索和專利代理機構(gòu)檢索三種,由于檢索目標較廣,專利和文獻量巨大,普遍存在檢索工作量大,人工處理數(shù)據(jù)工作繁重、檢索成本高、費時耗力等問題,而且在信息檢索過程中,檢索人員往往習(xí)慣于從某一特定的概念入手,在檢索專利信息時也不例外。由于專利文獻中往往存在一些繁復(fù)晦澀、意義含混的專用術(shù)語或法律術(shù)語,其與一般科技文獻中的通用技術(shù)用詞不同,因此使用主題詞進行檢索時,由于主題詞標引的不規(guī)范以及對主題詞的不同理解,很可能造成漏檢[2]。且由于缺乏明確的檢索后各指標量化評價體系,檢索者出具的報告?zhèn)€人主觀性較強,普遍存在缺檢漏檢等現(xiàn)象,令申請者因授權(quán)可能性不確定,而無所適從等一系列問題。

本文旨在通過擬申報專利主題的關(guān)鍵詞、ICP分類號等方式結(jié)合,從原始專利數(shù)據(jù)庫提取專利數(shù)據(jù),將提取出的專利數(shù)據(jù)進行清洗后,對入選專利文本化處理,進行格式化二次加工,用選定的數(shù)學(xué)統(tǒng)計模型對單篇專利主題、文摘、主權(quán)項分別評分,計算全部入選專利平均評分后,給予申請人或發(fā)明人明確的授權(quán)可能性評估結(jié)果。

表2 USPC分類中生物醫(yī)藥領(lǐng)域?qū)@植记闆r

1 本模型基本工作流程

(圖1)

2 本模型具體工作方法

(1)確定專利檢索目標庫。當今網(wǎng)絡(luò)上免費專利數(shù)據(jù)庫紛繁復(fù)雜,各具特色,本項目初步選定由中國知網(wǎng)開發(fā)并維護的中國專利數(shù)據(jù)庫(知網(wǎng)版)和海外專利數(shù)據(jù)庫(知網(wǎng)版)進行原始數(shù)據(jù)獲取。該專利庫原始數(shù)據(jù)來源為國家知識產(chǎn)權(quán)局知識產(chǎn)權(quán)出版社,中國專利庫雙周更新,海外庫每月更新,相對更新頻率較快,能準確反映擬申請主體國內(nèi)外申請現(xiàn)狀和趨勢,而且檢索結(jié)果創(chuàng)造性的融入該專利相關(guān)的文獻、成果等信息等,數(shù)據(jù)來源于CNKI各大數(shù)據(jù)庫,信息量大而全面,非常適合專利申請授權(quán)可能性評價。

(2)設(shè)計檢索器。為解決專利文獻書寫中上下位詞匯及常見俚語、術(shù)語混合等現(xiàn)象,本項目于檢索入口構(gòu)建基于北大天網(wǎng)推出的“中文Web測試集CWT200g”模塊,設(shè)立關(guān)鍵詞分散聚合標識索引庫,解決檢索用戶選用關(guān)鍵詞不能全面描述檢索意圖的問題,最大限度保障專利主體檢索意圖實現(xiàn)。

(3)設(shè)計檢索數(shù)據(jù)暫存庫。將檢索器獲得的原始專利數(shù)據(jù)按:名稱、申請日、公開日、申請人、發(fā)明人、摘要、主權(quán)項、專利分類號、相關(guān)科技成果、相關(guān)中外標準、發(fā)明人發(fā)表文獻、所涉核心技術(shù)研究動態(tài)12個字段分別存儲,并于名稱、專利分類號、相關(guān)科技成果、相關(guān)中外標準、發(fā)明人發(fā)表文獻、所涉核心技術(shù)研究動態(tài)6個字段設(shè)置相應(yīng)的CNKI數(shù)據(jù)讀取URL鏈接關(guān)聯(lián)字段。處理完成后對照檢索器詞匯數(shù)據(jù)庫,集合中國科學(xué)院計算技術(shù)研究所的漢語詞法分析系統(tǒng)ICTCLAS模塊,對名稱、摘要、主權(quán)項3個字段進行切詞處理,去掉虛詞、助詞、停用詞、標點后分別合并存貯。

(4)設(shè)計檢索數(shù)據(jù)清洗模塊。由于專利申請名稱確定的重復(fù)性,模糊性及不確定性定因素,通常導(dǎo)致檢索使用關(guān)鍵詞的關(guān)聯(lián)詞、同義詞、俗語、俚語、專業(yè)區(qū)別性詞語所得出的檢索結(jié)果存在很大程序的重復(fù)性和不相關(guān)性。如中醫(yī)常用語中的“發(fā)熱”,被檢索器分類聚合關(guān)鍵詞后,通常被分解為醫(yī)藥領(lǐng)域的“熱證”“熱癥”“體溫高”也可以分解為機械領(lǐng)域的“熱閾高”“溫度高”“熱值高”等,所以檢索結(jié)果既可以檢索到醫(yī)藥領(lǐng)域中關(guān)于“發(fā)熱退燒藥”也可以檢索到機械領(lǐng)域的“導(dǎo)電性發(fā)熱材料”。這就是數(shù)據(jù)挖掘中“啤酒與尿布”的經(jīng)典案例重現(xiàn),為了解決關(guān)鍵詞聚合產(chǎn)生的此類問題,結(jié)合本項目采用的中醫(yī)藥行業(yè)專利授權(quán)可能性預(yù)測,故本模塊擬采用定向分析方法進行數(shù)據(jù)清洗,定量分析的數(shù)據(jù)清洗方式多具有明顯的專題性,具體講定向?qū)@治龅膶n}可能是針對某一專業(yè)領(lǐng)域的宏觀分析。[3]基于本理論,本模塊設(shè)計采用國際專利分類表(IPC分類)對初檢專利數(shù)據(jù)源進行專業(yè)領(lǐng)域分類,由于美國專利分類法采用ICP分類整理并不全面,所以附加美國專利分類法USPC輔助確定行業(yè)領(lǐng)域。如表1、表2可見ICP和USPC分類中生物醫(yī)藥領(lǐng)域?qū)@植记闆r。根據(jù)暫存庫中專利分類號字段與表1、表2所列專利號進行對比,標記非對應(yīng)字段的專利數(shù)據(jù),并用檢索器中文本詞庫對照,剔除即不在選定字段下,其名稱、摘要、主權(quán)項不包含檢索器中文本詞庫某一單一詞匯的專利數(shù)據(jù)。

(5)設(shè)計分析模型。眾所周知,我國專利法對發(fā)明實用新型專利的授權(quán)條件“新穎性”做了區(qū)別于“現(xiàn)有技術(shù)”的規(guī)定,而大多數(shù)國家的專利法則是通過區(qū)別“現(xiàn)有技術(shù)”界定“新穎性”的概念。所以本分析模型的設(shè)計目標就是:通過對經(jīng)過清洗的專利文本化數(shù)據(jù)進行分析,從中抽取與本專利相關(guān)的“現(xiàn)有技術(shù)”,采用Meta分析常用的RCT分布評分法,進行專利文獻評分,Meta分析是對具有相同研究目的的多個獨立研究結(jié)果進行系統(tǒng)的、定量的統(tǒng)計學(xué)綜合分析與綜合評價的一種研究方法[4-6]。

具體評分標準共有2種評分方式,分別為關(guān)鍵詞與干擾詞對照比較評分法和文本相似度計算評分法,本文詳細介紹文本相似度計算評分法。目前,文本相似度檢測算法常用的方法有agglomerative算法[7]、增量聚類算法[8]、增量K-means算法[9]、基于主題模型算法[10]等。相似度計算的方法常采用余弦夾角、 雅各比公式、OKA_PI公式、Clarity、Tanimoto、Hellin ger公式等[11-12]。隨著自然語言處理技術(shù)的發(fā)展,基于語義相似度的相似度模型也開始流行。這些相似度計算方法各有利弊。通過初步的對比分析,結(jié)合專利文獻嚴謹、細致、格式化強的特點,項目組擬采用基于知網(wǎng)HowNet常識知識庫的文本相似度分析系統(tǒng),其基本理念是,一段文字中,概念是由若干義原按照一定知識表述形式描述的。義原是用于描述一個概念的最小意義單位,不可再分,是知網(wǎng)層次結(jié)構(gòu)上的一個節(jié)點。知網(wǎng)系統(tǒng)一共采用了1500基本義原,這些義原相互組合來表示成千上萬的詞語。

3 具體實施方式如下

(1)調(diào)用擬申請專利文獻的標題、摘要、主權(quán)項,采用數(shù)據(jù)清洗器進行切詞處理;

(2)切詞后,調(diào)用檢索器中文本數(shù)據(jù)庫進行詞意特征擴展,擴展特征的權(quán)重與原特征的權(quán)重相同。

(3)依次讀取清洗后專利暫存庫中專利文獻向量,采用以下公式計算文本相似度:

其中:|posi∩posj|表示擬申報專利i文本和對比專利j公共特征數(shù)量,|posiUposj|表示擬申報專利i文本的不同特征數(shù)量。借鑒信息融合中的順序加權(quán)思想,語義相似度的定義如下:

設(shè)擬申報專利i文本含有m個關(guān)鍵詞,對應(yīng)的權(quán)重為vi1,vi2…,則Posi~[wordi1/vi1,wordi2/vi2,…,wordim/vim]設(shè)擬對比專利j文本含有n個關(guān)鍵詞,對應(yīng)的權(quán)重為vj1,vj2…,則Posj~[wordj1/vj1,wordj2/vj2,…,wordjn/vjn]

則設(shè)擬申報專利i文本與擬對比專利j文本的語義相似度歸一化表示如下:

(由于對稱性,不妨假設(shè)m≥n,反之亦然):

式中,l=1,2,…,n;r=1,2,…,m;simsen2(wordi,wordj)表示詞i和詞j的相似度;simsenl(wordi,posj)表示詞i和擬對比專利j文本的相似度。

4 結(jié)語

模型設(shè)計過程中發(fā)現(xiàn),評分方式的實現(xiàn)直觀而精準,能直接反應(yīng)新穎性中創(chuàng)新點所在,但計算方式較為粗放,對于專業(yè)性質(zhì)較強,精細度要求較高的專利文獻分析對比實踐中略有偏差,模型通過中國知網(wǎng)國內(nèi)外專利數(shù)據(jù)庫進行檢索評分,對照國家知識產(chǎn)權(quán)局專利法律狀態(tài)數(shù)據(jù)庫進行對比,得出算法精準度為70%,具體數(shù)據(jù)獲得過程暫不能公布,進行初步預(yù)估后,能基本得出“授權(quán)可能性大、較大、一般、不建議申報”5級評分結(jié)論指標,通過指標評定,對專利申請可能性進行客觀指標評分,可以解決檢索報告?zhèn)€人主觀性較強,缺檢漏檢等現(xiàn)象得發(fā)生。

[1]高立華.湯森路透Aureka的智能檢索分析.科技情報開發(fā)與經(jīng)濟[J],2012(16):107-108.

[2]馬磊等.IPC分類法在科技查新工作中的應(yīng)用.圖書館學(xué)刊[J],2012(3):32-33.

[3]王永紅.定量分析的樣本選取與數(shù)據(jù)清洗.情報理論與實踐[J],2007(13):93-97.

[4]李良壽.臨床醫(yī)學(xué)研究原理與方法.西安:陜西科學(xué)技術(shù)出版社[M],2000(13):57-72.

[5]徐勇勇.Meta分析:一類綜合研究信息的統(tǒng)計方法.上海預(yù)防醫(yī)學(xué)[J]1993(5):102-111.

[6]徐勇勇.Meta分析常見資料類型及統(tǒng)計分析方法.中華預(yù)防醫(yī)學(xué)雜志[J],1994(28):33-37.

[7]張曉艷等.話題檢測與追蹤技術(shù)研究.計算機研究與探索[J]2009(4):347—357.

[8]席耀一等.基于語義相似度的論壇話題追蹤方法.計算機應(yīng)用[J].2011(31):93—96.

[9]徐建民等.基于查詢術(shù)語同義詞的擴展信念網(wǎng)絡(luò)檢索模型.計算機工程[J],2007(10):28—30.

[10]孫勝平.中文微博客熱點話題檢測與追蹤技術(shù)研究.北京:北京交通大學(xué),2011.

[11]劉群等.基于《知網(wǎng)》的詞匯語義相似度計算[c]第三屆漢語詞匯語義學(xué)研討會.臺北:2002:59—76.

[12]RangrejA,eta1.Mparative Study of Clustering Techniques for Short Text Documents EC ] WWW2011.Hyderabad,India,2011.

猜你喜歡
專利申請檢索專利
專利
水運工程(2022年7期)2022-07-29 08:37:38
2019年第4-6期便捷檢索目錄
發(fā)明與專利
傳感器世界(2019年4期)2019-06-26 09:58:44
專利申請審批流程圖
河南科技(2016年8期)2016-09-03 08:08:22
專利申請三步曲
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
專利
國外專利申請如何盡快被授權(quán)
國際標準檢索
國際標準檢索
衡水市| 土默特右旗| 甘泉县| 永宁县| 南澳县| 天长市| 赤峰市| 嘉鱼县| 阜城县| 永定县| 郑州市| 凤凰县| 靖远县| 桑植县| 双峰县| 南召县| 南澳县| 营山县| 屯昌县| 东源县| 鸡西市| 舟曲县| 上饶县| 武义县| 东兰县| 双江| 丁青县| 松原市| 兰州市| 兴安县| 宁城县| 东山县| 彭山县| 收藏| 莱阳市| 镇平县| 胶州市| 海安县| 西丰县| 玛沁县| 綦江县|