李玖蔚,蘇秋月
(井岡山大學(xué),江西 吉安 343009)
近年來(lái),隨著中國(guó)對(duì)專利重視程度的不斷加深,一些專利檢索及分析系統(tǒng)紛紛涌現(xiàn)。具有代表性的專利文獻(xiàn)平臺(tái)有專利檢索及分析系統(tǒng)、SooPat、壹專利、Patentics,Innography等[1],中國(guó)知名的四大中文數(shù)據(jù)庫(kù)平臺(tái)(中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)、維普數(shù)據(jù)庫(kù)、萬(wàn)方數(shù)據(jù)庫(kù)、超星數(shù)據(jù)庫(kù),以下分別簡(jiǎn)稱為“知網(wǎng)”“維普”“萬(wàn)方”“超星”),為滿足用戶對(duì)專利信息的需求,也建立了專利數(shù)據(jù)庫(kù),并提供檢索與分析功能。
高校是國(guó)家創(chuàng)新體系的三大主體之一,是國(guó)家實(shí)施知識(shí)產(chǎn)權(quán)戰(zhàn)略的主要陣地之一[2]。高校專利發(fā)明的數(shù)量與質(zhì)量已成為衡量高??萍紕?chuàng)新實(shí)力和國(guó)際競(jìng)爭(zhēng)力的重要標(biāo)志[3],高校及高校所在地區(qū)的專利分析重任,必將落在高校圖書館員身上。對(duì)全國(guó)985、211高校及江西省30所本科院校的圖書館網(wǎng)站進(jìn)行調(diào)查后發(fā)現(xiàn),大部分高校都訂購(gòu)了知網(wǎng)、萬(wàn)方、維普、超星這四大中文數(shù)據(jù)平臺(tái)。調(diào)查結(jié)果顯示,除了維普在江西省內(nèi)的訂購(gòu)率相對(duì)較低外,其余平臺(tái)在高校的訂購(gòu)率基本都在72%以上,這些平臺(tái)在高??蒲腥藛T中的影響力很大,是高??蒲腥藛T必不可少的輔助工具。在四大中文數(shù)據(jù)平臺(tái)中獲取的專利數(shù)據(jù)與國(guó)家知識(shí)產(chǎn)權(quán)局中專利數(shù)據(jù)無(wú)誤差的前提下,即檢索專利數(shù)據(jù)質(zhì)量等同情況下,用戶更傾向于選擇熟悉的平臺(tái)。運(yùn)用四大中文數(shù)據(jù)平臺(tái)進(jìn)行專利檢索或統(tǒng)計(jì)分析,將成為一種必然趨勢(shì),那么其專利數(shù)據(jù)質(zhì)量情況如何?是一個(gè)非常值得密切關(guān)注的問(wèn)題。文章對(duì)此進(jìn)行了統(tǒng)計(jì)分析,以探究平臺(tái)專利數(shù)據(jù)加工質(zhì)量及檢索效果,為用戶選擇使用平臺(tái)提供參考。
國(guó)家知識(shí)產(chǎn)權(quán)局公共服務(wù)欄目下的專利檢索及分析系統(tǒng)(以下簡(jiǎn)稱“專利檢索及分析系統(tǒng)”)依托豐富的數(shù)據(jù)資源,免費(fèi)向公眾提供了簡(jiǎn)單、方便、快捷的專利檢索與分析功能[4],收錄數(shù)據(jù)范圍最全[5]且權(quán)威可靠,因此,文章以專利檢索及分析系統(tǒng)中獲取的專利數(shù)據(jù)為樣本。
在專利檢索及分析系統(tǒng)中,通過(guò)“申請(qǐng)(專利權(quán))人”入口,輸入檢索詞“井岡山大學(xué)”進(jìn)行檢索,并通過(guò)“公開(kāi)(公告)日”將時(shí)間限定在2011—2020年內(nèi),進(jìn)行專利數(shù)據(jù)檢索,檢索時(shí)間2021年7月2日,最終獲得332件專利數(shù)據(jù),其中發(fā)明專利179件,實(shí)用新型146件,外觀設(shè)計(jì)7件。
專利類型、數(shù)量及年度分布是專利分析的常規(guī)指標(biāo),故文章對(duì)各平臺(tái)獲取到的井岡山大學(xué)產(chǎn)出專利數(shù)據(jù)的類型、數(shù)量及其年度分布情況作了統(tǒng)計(jì)對(duì)比分析。
2.1.1 專利文獻(xiàn)類型及數(shù)量分布
專利類型分析是專利分析常用的指標(biāo)之一。下面就四大中文數(shù)據(jù)平臺(tái)獲取的專利數(shù)據(jù)與專利檢索及分析系統(tǒng)中獲取的專利數(shù)據(jù)從專利類型角度進(jìn)行對(duì)比分析,結(jié)果見(jiàn)表1。
表1 各平臺(tái)獲取專利類型及數(shù)量 單位:件
從總體數(shù)量來(lái)看,超星多于樣本數(shù)量,知網(wǎng)與樣本數(shù)量誤差最小,誤差最大的是維普;從專利各類型數(shù)量來(lái)看,知網(wǎng)與樣本中發(fā)明專利數(shù)量誤差最小,誤差最大的是維普,外觀設(shè)計(jì)誤差最大的是萬(wàn)方,實(shí)用新型誤差最大的是維普。
2.1.2 專利公開(kāi)年度及數(shù)量分布
表2數(shù)據(jù)顯示,與樣本數(shù)據(jù)相比,2011—2017年維普共有77件專利未獲取到,其中2015年、2017年、2018年、2019年、2020年各比樣本數(shù)據(jù)少2件、1件、1件、25件和48件,2019年和2020年未獲取到的專利數(shù)據(jù)最多;知網(wǎng)2018年有1件專利未獲取到;萬(wàn)方共有17件專利未獲取到,其中2017年、2018年、2019年、2020年各比樣本數(shù)據(jù)少3件、2件、4件、8件;超星共有13件專利未獲取到,其中2012年、2015年、2016年、2018年、2019年、2020年各比樣本數(shù)據(jù)少1件、2件、1件、5件、2件、2件,另外,該平臺(tái)檢索到2021年的16件,詳見(jiàn)表2。
2.2.1 檢索效果
通過(guò)對(duì)各平臺(tái)獲取到的專利數(shù)據(jù)與“專利檢索及分析系統(tǒng)”中的數(shù)據(jù)進(jìn)行了逐一比對(duì),發(fā)現(xiàn)超星采集到335條數(shù)據(jù),有16條數(shù)據(jù)其他平臺(tái)沒(méi)有,為了考證其原因,在“專利檢索及分析系統(tǒng)”中對(duì)這16條數(shù)據(jù)進(jìn)行檢索發(fā)現(xiàn),這部分專利是2020年申請(qǐng)的,但是公開(kāi)(公告)日是2021年,在本研究范圍外,故超星實(shí)際只采集到相關(guān)專利319件。表3數(shù)據(jù)顯示,四大中文數(shù)據(jù)平臺(tái)中檢索到相關(guān)專利數(shù)量比率最高的是知網(wǎng),高達(dá)99.70%,最低的是維普76.81%。
表3 各平臺(tái)專利檢索結(jié)果
2.2.2 原因分析
從前面的調(diào)查可知,各平臺(tái)所獲專利量與樣本專利量相比,都存在漏檢現(xiàn)象。為了探究其原因,文章對(duì)各平臺(tái)漏檢的專利目錄,在相應(yīng)平臺(tái)中選擇其他檢索入口、輸入相應(yīng)內(nèi)容進(jìn)行檢索,對(duì)各平臺(tái)漏檢原因進(jìn)行了統(tǒng)計(jì)分析,從而揭示各平臺(tái)的數(shù)據(jù)質(zhì)量,見(jiàn)表4。
表4 四大中文數(shù)據(jù)平臺(tái)未獲取到的專利 單位:件
表4數(shù)據(jù)顯示,與樣本專利332件相比,(1)知網(wǎng)檢索到相關(guān)專利331件,有1件專利因其“申請(qǐng)(專利權(quán))人”字段下的合作專利權(quán)人信息未標(biāo)引,導(dǎo)致漏檢。(2)超星檢索到相關(guān)專利319件,有13件專利未檢索到,其中8件因“申請(qǐng)(專利權(quán))人”字段標(biāo)引有誤造成,具體為:1件標(biāo)引為發(fā)明人,5件缺少該字段內(nèi)容,2件是將申請(qǐng)人標(biāo)引為別的機(jī)構(gòu)名。(3)萬(wàn)方檢索到相關(guān)專利315件,有17件專利未檢索到,3件數(shù)據(jù)有誤的情況是:2件合作專利權(quán)人未標(biāo)引,1件專利權(quán)人標(biāo)引為發(fā)明人。另外,有1件正確的專利檢索不到。(4)維普檢索到相關(guān)專利255件,有77件專利未檢索到,4件數(shù)據(jù)有誤的情況是:3件申請(qǐng)人標(biāo)引成別的機(jī)構(gòu),1件申請(qǐng)人標(biāo)引為發(fā)明人。另外,有27件正確的專利檢索不到。
眾所周知,各平臺(tái)數(shù)據(jù)相對(duì)原始數(shù)據(jù)而言,存在一定的滯后性。為此,對(duì)表4中“無(wú)數(shù)據(jù)”這部分專利數(shù)據(jù)的年度分布進(jìn)行了調(diào)查統(tǒng)計(jì),以利于進(jìn)一步分析各平臺(tái)專利數(shù)據(jù)的更新速度及檢索效果,見(jiàn)表5。
表5 各平臺(tái)無(wú)數(shù)據(jù)專利的年度分布 單位:件
如果把表5中2020年的專利量歸入到數(shù)據(jù)更新滯后而造成無(wú)數(shù)據(jù)的話,則各平臺(tái)專利數(shù)據(jù)更新最及時(shí)的是知網(wǎng),其次是超星和萬(wàn)方,更新最慢的是維普;這樣超星、萬(wàn)方、維普分別有4件、7件、20件專利因在其平臺(tái)中無(wú)數(shù)據(jù)導(dǎo)致漏檢,各占332的1.20%、2.11%、6.02%,數(shù)據(jù)標(biāo)引有待加強(qiáng)。
獲取精準(zhǔn)且全面的專利數(shù)據(jù)是專利分析的基本前提。各專利檢索平臺(tái)對(duì)專利標(biāo)引項(xiàng)目的多寡,標(biāo)引內(nèi)容的正確與否,直接影響著獲取數(shù)據(jù)的質(zhì)量。文章將各平臺(tái)的專利數(shù)據(jù)與“專利檢索及分析系統(tǒng)”中的數(shù)據(jù)進(jìn)行了對(duì)比,從數(shù)據(jù)著錄項(xiàng)目、著錄內(nèi)容、數(shù)據(jù)獲取項(xiàng)目、獲取效果等方面對(duì)各平臺(tái)專利數(shù)據(jù)加工進(jìn)行了統(tǒng)計(jì)分析。
2.3.1 字段著錄情況
暴海龍和朱東華[6]認(rèn)為常用的專利情報(bào)分析方法都是基于專利文獻(xiàn)的著錄項(xiàng)而進(jìn)行的統(tǒng)計(jì)分析,因此專利著錄項(xiàng)目的多少、著錄內(nèi)容的質(zhì)量等情況對(duì)專利分析質(zhì)量及深度至關(guān)重要。每條專利著錄的字段越多,可供統(tǒng)計(jì)分析的指標(biāo)、對(duì)象也越多,分析出的內(nèi)容才能豐富。故通過(guò)對(duì)各平臺(tái)中同條專利字段的著錄情況進(jìn)行了調(diào)查,以考察各平臺(tái)能分析的維度。
分析結(jié)果,各平臺(tái)專利數(shù)據(jù)庫(kù)有10個(gè)相同字段:申請(qǐng)?zhí)?、申?qǐng)日、公開(kāi)(公告)號(hào)、公開(kāi)(公告)日、專利名稱、申請(qǐng)(專利權(quán))人、發(fā)明(設(shè)計(jì))人、分類號(hào)、摘要、申請(qǐng)人地址。專利檢索及分析系統(tǒng)共有21個(gè)字段,含同族、引證、被引證、CPC分類和CPC附加、申請(qǐng)人所在國(guó)家/地區(qū)/組織等6個(gè)獨(dú)有字段,這些字段有的是專利統(tǒng)計(jì)分析的關(guān)鍵指標(biāo)[7];知網(wǎng)有20個(gè)字段,含專輯、專題和頁(yè)數(shù)等3個(gè)獨(dú)有字段;萬(wàn)方有17個(gè)字段,含1個(gè)獨(dú)有的權(quán)利要求字段、維普有15個(gè)字段,含1個(gè)獨(dú)有的關(guān)鍵詞字段;超星有12個(gè)字段,見(jiàn)表6。
表6 各平臺(tái)專利著錄字段
2.3.2 導(dǎo)出數(shù)據(jù)便捷性及字段量分析
各平臺(tái)對(duì)于專利的特征都進(jìn)行了不同程度的深加工,并提供了多種不同的檢索結(jié)果導(dǎo)出方式,每種方式導(dǎo)出的字段不盡相同,可滿足用戶個(gè)性化的需求。各平臺(tái)導(dǎo)出專利字段數(shù)量及其便捷性如何?文章通過(guò)整合不同檢索結(jié)果導(dǎo)出格式,能獲取到的所有字段情況對(duì)此問(wèn)題進(jìn)行了考察,結(jié)果見(jiàn)表7。
表7 各平臺(tái)導(dǎo)出專利字段情況
專利檢索與分析系統(tǒng)一次性可導(dǎo)出中國(guó)專利的16個(gè)字段數(shù)據(jù),含優(yōu)先權(quán)號(hào)、優(yōu)先權(quán)日、代理人、代理機(jī)構(gòu)等4個(gè)獨(dú)有字段。知網(wǎng)有12種導(dǎo)出數(shù)據(jù)方式,至少得通過(guò)其中3種才能整合出17個(gè)字段數(shù)據(jù),含1個(gè)獨(dú)有字段:申請(qǐng)機(jī)構(gòu);萬(wàn)方有9種導(dǎo)出數(shù)據(jù)方式,至少得通過(guò)其中2種才能整合出13個(gè)字段數(shù)據(jù),含一個(gè)獨(dú)有字段:CN;維普有7種導(dǎo)出數(shù)據(jù)方式,至少得通過(guò)其中2種才能整合出12個(gè)字段數(shù)據(jù);超星有9種導(dǎo)出數(shù)據(jù)方式,至少得通過(guò)其中3種才能整合出14個(gè)字段數(shù)據(jù),含引證、文獻(xiàn)類型、出處3個(gè)獨(dú)有字段,詳見(jiàn)表7。
專利常規(guī)的分析項(xiàng)目有:專利申請(qǐng)趨勢(shì)、地域分布、申請(qǐng)人、發(fā)明人、技術(shù)類別、法律狀態(tài)、重點(diǎn)專利等類別[8],各平臺(tái)著錄的字段基本能完成常規(guī)的專利分析指標(biāo)。但調(diào)查結(jié)果顯示,各平臺(tái)能導(dǎo)出的字段少于已著錄的字段,四大中文數(shù)據(jù)平臺(tái)能導(dǎo)出的相同字段只有4個(gè),也比各平臺(tái)都有著錄的字段少6個(gè),通過(guò)多個(gè)平臺(tái)組合方式導(dǎo)出數(shù)據(jù),能提供相對(duì)多的專利分析維度,但無(wú)法直接導(dǎo)出法律狀態(tài)及重點(diǎn)專利等對(duì)應(yīng)的內(nèi)容字段。故四大中文數(shù)據(jù)庫(kù)導(dǎo)出檢索結(jié)果的便捷性及導(dǎo)出的專利字段量均有待加強(qiáng),否則分析的維度及深度都將受到影響。
通過(guò)對(duì)比四大中文數(shù)據(jù)平臺(tái)專利檢索數(shù)量、檢索質(zhì)量、數(shù)據(jù)加工和管理等方面進(jìn)行對(duì)比分析,得出以下結(jié)論:(1)各平臺(tái)目前不能導(dǎo)出所有已著錄的字段內(nèi)容,直接導(dǎo)出的數(shù)據(jù)無(wú)法對(duì)專利的被引證、同族、法律狀態(tài)等進(jìn)行深層次分析;(2)各平臺(tái)都存在因“申請(qǐng)(專利權(quán))人”字段標(biāo)引有誤而造成的漏檢問(wèn)題,漏檢率最低的是知網(wǎng),最高的是超星;(3)專利數(shù)據(jù)更新速度最快的是知網(wǎng),維普最慢;(4)專利查全率及查準(zhǔn)率最高的是知網(wǎng),萬(wàn)方檢索不到外觀設(shè)計(jì)專利;(5)萬(wàn)方和維普存在數(shù)據(jù)正確但檢索不到的情況。
文章從“申請(qǐng)(專利權(quán))人”一個(gè)檢索入口進(jìn)行了檢索效果的對(duì)比分析,存在一定的局限性,未來(lái)將從更多的檢索入口進(jìn)行對(duì)比分析,以期提供更全面、更有價(jià)值的參考結(jié)論。