李三
由于專利具有地域性,在專利檢索當(dāng)中一般都需要在各個(gè)國家、組織和地區(qū)進(jìn)行檢索,以保證其數(shù)據(jù)覆蓋的全面性,但是由于同族專利等的存在,會(huì)導(dǎo)致檢索結(jié)果中出現(xiàn)重復(fù)數(shù)據(jù),所以需要去重。去重須建立在每條數(shù)據(jù)記錄有其唯一標(biāo)識(shí)碼的基礎(chǔ)上,本文首先分析了數(shù)據(jù)重復(fù)的種類,然后提出一種生成標(biāo)識(shí)碼的方法,在此基礎(chǔ)上按需求進(jìn)行去重。
專利檢索中的數(shù)據(jù)重復(fù)問題
在關(guān)于主題的專利檢索中,檢索人員一般需要在各大國家、組織和地區(qū)的檢索系統(tǒng)中進(jìn)行檢索,然后對(duì)數(shù)據(jù)進(jìn)行整合清洗,其工作最基本的就是去重。下文以某條專利數(shù)據(jù)為例,分別在中華人民共和國國家知識(shí)產(chǎn)權(quán)局(以下簡(jiǎn)稱SIPO)、美國專利商標(biāo)局(以下簡(jiǎn)稱USPTO)、歐洲專利局(以下簡(jiǎn)稱EPO)進(jìn)行檢索來具體說明這一問題:
在SIPO的數(shù)據(jù)庫中檢索
由于字段較多,只挑選部分來說明數(shù)據(jù)重復(fù)問題,SIPO數(shù)據(jù)樣例見表1。
從表1中可以看出:此專利是美國戴爾公司在中國申請(qǐng)的專利,而且在中國已經(jīng)取得專利權(quán),其生效日期從優(yōu)先權(quán)日1997.08.29開始計(jì)算。
在USPTO的數(shù)據(jù)庫中檢索
由于專利的地域性,上文提到的專利CN1525325B在USPTO有相關(guān)申請(qǐng),見表2。USPTO在2001前是先發(fā)明制的,公開的專利文獻(xiàn)即表示對(duì)其授予了專利權(quán)。
從表2中可以看出:此專利是美國戴爾公司在美國申請(qǐng)的專利,申請(qǐng)人、發(fā)明人都與CN1525325B上的信息是一樣的。需要說明的是USPTO的記錄中多了一個(gè)同族號(hào)25445431的信息。
在EPO的數(shù)據(jù)庫中檢索
EPO專利信息庫的數(shù)據(jù)收集得較為全面,不僅包含本組織公開的數(shù)據(jù),而且還包括其他國家、組織和地區(qū)公開的數(shù)據(jù),上文提到的CN1525325B數(shù)據(jù)記錄在EPO數(shù)據(jù)庫的表現(xiàn)形式見表3。
數(shù)據(jù)重復(fù)種類
在分析上文提到的數(shù)據(jù)后得知,專利數(shù)據(jù)的重復(fù)一般分為三種情況:
第一種情況:申請(qǐng)?zhí)枴⑸暾?qǐng)日、文獻(xiàn)號(hào)、公開日相同
此種情況一般是不同語言之間的翻譯,需按語言去重。如上文中的SIPO-數(shù)據(jù)1與EPO-數(shù)據(jù)1。
第二種情況:申請(qǐng)?zhí)?、申?qǐng)日相同
此種情況一般是專利申請(qǐng)的不同階段,如CN1525325A屬于發(fā)明專利申請(qǐng)公開階段、CN1525325B專利授權(quán)階段,需按國家去重。如上文中的SIPO-數(shù)據(jù)1與SIPO-數(shù)據(jù)2。
第三種情況:技術(shù)內(nèi)容相同
此種情況一般是申請(qǐng)人就同一技術(shù)主題在不同國家、地區(qū)提交專利申請(qǐng)產(chǎn)生的,也就是通常所說的簡(jiǎn)單同族,需按同族去重。如上文中的EPO-數(shù)據(jù)1與USPTO-數(shù)據(jù)1。
實(shí)際操作中分析專利分布情況的時(shí)候一般要求按照第二種情況進(jìn)行去重,分析技術(shù)要點(diǎn)的時(shí)候一般要求按照第三種情況去重。第一種隋況主要應(yīng)用在多語言系統(tǒng)。
文獻(xiàn)標(biāo)識(shí)規(guī)則及去重方案
根據(jù)WIPO標(biāo)準(zhǔn)ST.1——關(guān)于唯一化標(biāo)識(shí)專利文獻(xiàn)所需最低限度數(shù)據(jù)元素的建議中提到的內(nèi)容,只需要文獻(xiàn)號(hào)、公開日信息就可以唯一確定一篇文獻(xiàn)。但是如果需要按國家去重就必須加入申請(qǐng)?zhí)?、申?qǐng)日信息。
針對(duì)上文提到的數(shù)據(jù)重復(fù)種類提出以下模型,根據(jù)專利數(shù)據(jù)的基本信息,如申請(qǐng)?zhí)枴⑸暾?qǐng)日、文獻(xiàn)號(hào)、公開日、公布語言等來生成標(biāo)識(shí)碼,在此基礎(chǔ)上進(jìn)行去重。
以表1中的SIPO-數(shù)據(jù)1為例,對(duì)標(biāo)識(shí)碼的結(jié)構(gòu)進(jìn)行說明見表5。
按表5的標(biāo)識(shí)結(jié)構(gòu)規(guī)則對(duì)上文提到的數(shù)據(jù)生成標(biāo)識(shí)碼見表6。
按語言去重
通過分析數(shù)據(jù),我們得知,EPO-數(shù)據(jù)1、EPO-數(shù)據(jù)2其實(shí)只是SIPO-數(shù)據(jù)1、SIPO-數(shù)據(jù)2的翻譯,所以SIPO-數(shù)據(jù)1與EPO-數(shù)據(jù)1的標(biāo)識(shí)碼只有46-47位的語言種類不同、根據(jù)標(biāo)識(shí)碼的唯一性原則,如果需要中文數(shù)據(jù)則留SIPO-數(shù)據(jù)1,需要英文數(shù)據(jù)則留EPO-數(shù)據(jù)1。
對(duì)于USPTO-數(shù)據(jù)1與EPO-數(shù)據(jù)3,其標(biāo)識(shí)碼完全相同,根據(jù)標(biāo)識(shí)碼的唯一性原則,只保留其中一條。按國家去重
SIPO-數(shù)據(jù)1與SIPO數(shù)據(jù)2分別是專利申請(qǐng)的公開信息與授權(quán)信息,其標(biāo)識(shí)碼只有18-42的文獻(xiàn)號(hào)、公開日信息不同,如果按國家去重只能保留其中一條,或選公開文獻(xiàn)或選授權(quán)文獻(xiàn)。
按同族去重
表6中所有的數(shù)據(jù)如果按同族去重的話只能保留一條,其標(biāo)識(shí)碼的48-60位都是相同的,如果我們需要中國數(shù)據(jù)則保留SIPO-數(shù)據(jù)1或SIPO-數(shù)據(jù)2,如果需要最早公開的話則保留USPTO-數(shù)據(jù)1或者EPO-數(shù)據(jù)3,用戶可以自己制定相關(guān)規(guī)則來確認(rèn)保留哪條記錄。
結(jié)語
本文提到的去重方法其核心是生成唯一標(biāo)識(shí)碼。此標(biāo)識(shí)碼的生成必須建立在對(duì)各個(gè)國家、組織和地區(qū)不同時(shí)期的申請(qǐng)?zhí)枴⑽墨I(xiàn)號(hào)編碼規(guī)則清楚了解的基礎(chǔ)上,因此,此種方法的具體實(shí)施步驟需要長(zhǎng)期的分析整理。
此方法可以應(yīng)用在專利的數(shù)據(jù)收集、數(shù)據(jù)交換、數(shù)據(jù)補(bǔ)充等方面,提高數(shù)據(jù)質(zhì)量,從而為向用戶提供高質(zhì)量的專利信息檢索報(bào)告提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。