徐倩 李曉曼,2 郝心寧 孫巍
(1. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 中國(guó)農(nóng)業(yè)科學(xué)院研究生院,北京 100081)
農(nóng)業(yè)生物技術(shù)是指運(yùn)用基因工程、細(xì)胞工程、發(fā)酵工程、酶工程及分子育種等生物技術(shù),改善動(dòng)植物及微生物品種生產(chǎn)性狀、培育動(dòng)植物及微生物新品種,以及生產(chǎn)生物農(nóng)藥、獸藥與疫苗的新技術(shù)[1]。農(nóng)業(yè)生物技術(shù)的開(kāi)發(fā)應(yīng)用已經(jīng)成為現(xiàn)代農(nóng)業(yè)的特征之一。
專(zhuān)利文獻(xiàn)是技術(shù)創(chuàng)新和法律制度相結(jié)合的產(chǎn)物,以高度信息化和國(guó)際化的特點(diǎn),快速反映著當(dāng)今世界技術(shù)發(fā)展的最新前沿水平,是指導(dǎo)技術(shù)創(chuàng)新的重要信息來(lái)源之一。對(duì)農(nóng)業(yè)生物技術(shù)領(lǐng)域?qū)@墨I(xiàn)進(jìn)行系統(tǒng)分析,宏觀層面,其研究結(jié)論對(duì)于政府規(guī)劃、決策,對(duì)于優(yōu)化農(nóng)業(yè)產(chǎn)業(yè)布局、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)、引導(dǎo)產(chǎn)業(yè)創(chuàng)新有決策支持作用;微觀層面,其分析結(jié)果對(duì)于挖掘技術(shù)空白點(diǎn)、跟蹤競(jìng)爭(zhēng)對(duì)手、預(yù)測(cè)技術(shù)發(fā)展趨勢(shì),進(jìn)而確定技術(shù)發(fā)展方向、掌握具有自主知識(shí)產(chǎn)權(quán)的核心技術(shù)具有重要的參考價(jià)值。數(shù)據(jù)質(zhì)量直接影響到分析結(jié)果的準(zhǔn)確性。如何通過(guò)檢索策略?xún)?yōu)化獲得一個(gè)相對(duì)準(zhǔn)確而全面的數(shù)據(jù)集,是本文要探討的問(wèn)題。
目前,世界范圍內(nèi)所采用的專(zhuān)利分類(lèi)體系主要包括世界知識(shí)產(chǎn)權(quán)組織(WIPO)所編制國(guó)際專(zhuān)利分類(lèi)體系(IPC)、美國(guó)專(zhuān)利商標(biāo)局(USPTO)編制的美國(guó)專(zhuān)利分類(lèi)體系(USPC)、歐洲專(zhuān)利局(EPO)編制的基于IPC細(xì)分的歐洲專(zhuān)利分類(lèi)體系(ECLA),以及日本專(zhuān)利局(JPO)基于IPC的編制的日本專(zhuān)利分類(lèi)體系(FI/F-Term)。韓國(guó)知識(shí)產(chǎn)權(quán)局(KIPO)和中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局(SIPO)均使用IPC。2013年,EPO和USPTO共同啟用聯(lián)合專(zhuān)利分類(lèi)系統(tǒng)(CPC),這也是一種專(zhuān)利文獻(xiàn)的細(xì)分類(lèi)體系[2]。截至2016年7月,世界上已有45個(gè)專(zhuān)利局開(kāi)始使用該分類(lèi)體系[3],CPC目前仍在不斷完善和修訂之中。
USPC雖然類(lèi)目詳細(xì),但卻十分復(fù)雜,掌握和使用上都具有難度。ECLA和FI/F-Term是基于IPC的擴(kuò)展和細(xì)分。ECLA雖然具有分類(lèi)準(zhǔn)確、更新快的優(yōu)點(diǎn),但是全球?qū)@麛?shù)據(jù)中僅有部分專(zhuān)利申請(qǐng)具有ECLA分類(lèi)號(hào)。FI/F-Term采用日文,對(duì)于全球?qū)@麢z索應(yīng)用具有局限性。
IPC作為一種語(yǔ)言獨(dú)立的專(zhuān)利文獻(xiàn)檢索、管理工具,對(duì)全球?qū)@墨I(xiàn)進(jìn)行了統(tǒng)一分類(lèi),是目前世界范圍內(nèi)應(yīng)用最廣泛的專(zhuān)利分類(lèi)體系。所實(shí)行的主要分類(lèi)標(biāo)準(zhǔn)是采用功能(發(fā)明的內(nèi)在特征與性質(zhì))和應(yīng)用(發(fā)明的用途)相結(jié)合,且以功能為主的分類(lèi)原則。IPC的內(nèi)容設(shè)置包括了與發(fā)明創(chuàng)造有關(guān)的全部技術(shù)領(lǐng)域。但I(xiàn)PC版本更新速度慢于熱門(mén)技術(shù)的發(fā)展速度,缺少新興領(lǐng)域技術(shù)分類(lèi)。同時(shí)IPC分類(lèi)體系中存在一個(gè)技術(shù)主題可能存在多重分類(lèi)位置的情況,例如“植物生長(zhǎng)調(diào)節(jié)劑”這一技術(shù)主題,該主題下,化合物本身入C01、C07、C08大類(lèi);作為肥料入C05大類(lèi);土壤改良劑或穩(wěn)定劑入C09K17/00大組。因此,基于IPC分類(lèi)號(hào)進(jìn)行技術(shù)主題檢索,就必須對(duì)IPC分類(lèi)位置之間的內(nèi)在橫向聯(lián)系進(jìn)行全面檢索。如果僅對(duì)某一具體技術(shù)點(diǎn),查找其全部橫向關(guān)聯(lián)IPC號(hào)尚且可行,但是對(duì)于農(nóng)業(yè)生物技術(shù)這一宏觀技術(shù)領(lǐng)域,將是一個(gè)巨大的工程。
農(nóng)業(yè)生物技術(shù)屬于跨學(xué)科、跨領(lǐng)域的技術(shù),目前在各個(gè)專(zhuān)利分類(lèi)系統(tǒng)中都尚無(wú)該技術(shù)的專(zhuān)門(mén)分類(lèi)體系。準(zhǔn)確識(shí)別農(nóng)業(yè)生物技術(shù)在IPC分類(lèi)中的位置,是提高查全率和查準(zhǔn)率的一項(xiàng)關(guān)鍵工作。
首先,自然語(yǔ)言常常有一詞多義的現(xiàn)象,可能造成輸入一個(gè)關(guān)鍵詞,會(huì)查到眾多的專(zhuān)利記錄,而其中混雜了大量不相關(guān)條目。如“PCR”這一縮寫(xiě),既可以表示“Polymerase Chain Reaction”(聚合酶鏈?zhǔn)椒磻?yīng)),也可以用來(lái)表示“Photo-conductive Relay”(光電導(dǎo)繼電器)。如何實(shí)現(xiàn)關(guān)鍵詞的“忠實(shí)表達(dá)”是檢索過(guò)程中的一大難題。
同時(shí),農(nóng)業(yè)生物技術(shù)領(lǐng)域?qū)@麜?huì)涉及相當(dāng)一部分通過(guò)化學(xué)結(jié)構(gòu)或生物序列等方式描述的化合物,不能通過(guò)常規(guī)關(guān)鍵詞進(jìn)行有效檢索,而這部分專(zhuān)利往往涉及技術(shù)含量很高的原始創(chuàng)新化合物,在檢索時(shí)必須借助化學(xué)結(jié)構(gòu)、基因序列等專(zhuān)業(yè)化檢索手段。這項(xiàng)工作對(duì)于情報(bào)分析人員是存在一定難度的。
第三,同一個(gè)關(guān)鍵詞,在形式和意義上都很難做到表達(dá)完整和準(zhǔn)確。形式上的準(zhǔn)確和完整,包括英文檢索名詞的單復(fù)數(shù)形式、不同詞性、英美不同拼寫(xiě)形式,以及生物的拉丁文名稱(chēng);意義上的完整和準(zhǔn)確,要考慮關(guān)鍵詞的各種同義詞、上位概念、下位概念、等同特征等。例如,表1中所列出的“基因型”這一關(guān)鍵詞,其同義詞、上下位概念和相關(guān)詞就多達(dá)十幾種;用截詞符“*”進(jìn)行檢索詞的單復(fù)數(shù)形式和不同詞性的擴(kuò)展,則將產(chǎn)生更多的檢索詞。一味追求高查全率會(huì)導(dǎo)致檢索結(jié)果數(shù)量過(guò)于龐大,里面過(guò)多低相關(guān)性信息的存在對(duì)數(shù)據(jù)清理和數(shù)據(jù)分析都會(huì)造成很大困難。
可見(jiàn),利用常規(guī)關(guān)鍵詞檢索方法實(shí)現(xiàn)農(nóng)業(yè)生物技術(shù)領(lǐng)域?qū)@麥?zhǔn)確而全面的檢索,面臨諸多難題。
針對(duì)傳統(tǒng)的專(zhuān)利分類(lèi)號(hào)檢索和關(guān)鍵詞檢索在農(nóng)業(yè)生物技術(shù)專(zhuān)利檢索應(yīng)用中存在的問(wèn)題,本研究根據(jù)國(guó)際專(zhuān)利分類(lèi)標(biāo)準(zhǔn)的特點(diǎn),在IPC位置識(shí)別方法和檢索式規(guī)則設(shè)計(jì)兩方面進(jìn)行研究,構(gòu)建了農(nóng)業(yè)生物技術(shù)專(zhuān)利檢索策略。
表1 “基因型”關(guān)鍵詞表達(dá)
專(zhuān)利分析在對(duì)數(shù)據(jù)庫(kù)進(jìn)行選擇時(shí),應(yīng)考慮到以下幾個(gè)方面:首先是數(shù)據(jù)的全面性和權(quán)威性;其次是數(shù)據(jù)項(xiàng)描述的完整、全面和準(zhǔn)確性,以便進(jìn)行多角度、多層次的深入分析和評(píng)估。
本研究中我們選用智慧芽專(zhuān)利檢索與分析系統(tǒng)(Patsnap)[4]。Patsnap涵蓋歐專(zhuān)局、世界知識(shí)產(chǎn)權(quán)組織、美國(guó)、中國(guó)、德國(guó)、日本、中國(guó)臺(tái)灣等7個(gè)地區(qū)或組織的專(zhuān)利全文以及100多個(gè)國(guó)家地區(qū)的摘要數(shù)據(jù),總數(shù)超過(guò)1億余條;支持中、英、日、法、德等多語(yǔ)言全文搜索。對(duì)專(zhuān)利的法律狀態(tài)、同族信息進(jìn)行了深度加工,豐富了字段信息,更加便于查全和檢準(zhǔn)。
Web of Science(WOS)學(xué)科分類(lèi)是目前最為細(xì)分的學(xué)科分類(lèi)體系,由來(lái)自自然科學(xué)、社會(huì)科學(xué)和藝術(shù)人文領(lǐng)域的252個(gè)學(xué)科構(gòu)成。該分類(lèi)模式通過(guò)將每一本期刊劃分至一個(gè)或多個(gè)學(xué)科而構(gòu)建。它將一個(gè)大學(xué)科,例如農(nóng)業(yè),細(xì)分為“園藝”、“農(nóng)業(yè)經(jīng)濟(jì)政策”、“農(nóng)業(yè)工程”等若干分支學(xué)科[5]。細(xì)化的學(xué)科定義成為WOS學(xué)科分類(lèi)模式的最重要特征之一。但由于農(nóng)業(yè)與其他學(xué)科領(lǐng)域的交叉融合,完全依靠人工對(duì)其中的農(nóng)業(yè)領(lǐng)域?qū)W科分支進(jìn)行判讀缺乏客觀性。
基本科學(xué)指標(biāo)數(shù)據(jù)庫(kù)(Essential Science Indicators,ESI)是基于WOS所收錄的全球12 000多種學(xué)術(shù)期刊的1 000多萬(wàn)條文獻(xiàn)記錄而建立,設(shè)置了包括農(nóng)業(yè)科學(xué)(Agriculture)、植物與動(dòng)物科學(xué)(Plant & Animal)在內(nèi)的22個(gè)學(xué)科分類(lèi),每一條文獻(xiàn)記錄都被唯一劃分到22個(gè)ESI 分類(lèi)中的一個(gè)[6]。也就是說(shuō),被劃分到ESI Agriculture學(xué)科下的文章與農(nóng)業(yè)科學(xué)技術(shù)領(lǐng)域相關(guān)度最高,沒(méi)有重疊的學(xué)科設(shè)置能夠使學(xué)科和技術(shù)界定和細(xì)分達(dá)到較理想的效果。同時(shí)Plant & Animal 與農(nóng)業(yè)領(lǐng)域也有較強(qiáng)的關(guān)聯(lián)性,因此,也將Plant & Animal分類(lèi)下的文獻(xiàn)作為領(lǐng)域細(xì)分的基礎(chǔ)數(shù)據(jù),但需要在后期進(jìn)行人工閱讀和去噪。
但ESI沒(méi)有對(duì)這22個(gè)學(xué)科分類(lèi)進(jìn)行進(jìn)一步細(xì)化,Agriculture 學(xué)科分類(lèi)只能對(duì)應(yīng)到國(guó)際專(zhuān)利分類(lèi)中A01大類(lèi)中(農(nóng)業(yè);林業(yè);畜牧業(yè);狩獵;誘捕;捕魚(yú)),顆粒度過(guò)大帶來(lái)極多的噪聲,不利于農(nóng)業(yè)生物技術(shù)IPC位置的準(zhǔn)確識(shí)別。因此,我們采集ESI學(xué)科體系中Agriculture和Plant & Animal分類(lèi)下的全部論文,形成農(nóng)業(yè)領(lǐng)域科技文獻(xiàn)數(shù)據(jù)集,進(jìn)一步生成這些論文歸屬期刊數(shù)據(jù)集,通過(guò)識(shí)別每本期刊所在的WOS學(xué)科分類(lèi)中的位置,完成了ESI Agriculture和Plant& Animal兩個(gè)領(lǐng)域的寬泛學(xué)科分類(lèi)向WOS細(xì)化學(xué)科分類(lèi)的轉(zhuǎn)換,專(zhuān)家判讀后,最終得到WOS分類(lèi)下的15個(gè)農(nóng)業(yè)細(xì)分技術(shù)領(lǐng)域(表2),完成了農(nóng)業(yè)生物技術(shù)領(lǐng)域的界定,及生物技術(shù)在農(nóng)業(yè)領(lǐng)域中可能的應(yīng)用方向。
以此為依據(jù),經(jīng)過(guò)文獻(xiàn)調(diào)研和多方專(zhuān)家論證,從IPC中篩選出與之對(duì)應(yīng)的不同層級(jí)的專(zhuān)利分類(lèi)號(hào),構(gòu)建了農(nóng)業(yè)領(lǐng)域WOS-IPC映射關(guān)系初稿。通過(guò)分類(lèi)號(hào)輔助檢索驗(yàn)證、并進(jìn)行檢索結(jié)果的數(shù)據(jù)抽樣核查,不斷對(duì)WOS學(xué)科分類(lèi)和IPC的對(duì)應(yīng)關(guān)系表進(jìn)行調(diào)整,最終得到較為優(yōu)化的農(nóng)業(yè)領(lǐng)域WOS-IPC映射關(guān)系表,作為今后農(nóng)業(yè)領(lǐng)域?qū)@麢z索的參考依據(jù),具有參考價(jià)值和意義。
表2 基于WOS學(xué)科分類(lèi)的農(nóng)業(yè)領(lǐng)域細(xì)分
經(jīng)濟(jì)合作與發(fā)展組織(OECD)基于第八版IPC對(duì)生物技術(shù)領(lǐng)域IPC分類(lèi)號(hào)進(jìn)行了識(shí)別,選擇的IPC類(lèi)別包括轉(zhuǎn)基因動(dòng)物動(dòng)物和植物;生物技術(shù)方法、過(guò)程和測(cè)試;生物信息學(xué)和生物材料等。具體包括 A01H1/00、A01H4/00、A61K38/00、A61K39/00、A61K48/00、C02F3/34、C07G(11/00、13/00、15/00)、C07K(4/00、14/00、16/00、17/00、19/00)、C12M、C12N、C12P、C12Q、C12S、G01N27/327、G01N33/(53*、54*、55*、57*、68、74、76、78、88、92)[7]。中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局結(jié)合專(zhuān)利審查工作需要,也對(duì)生物技術(shù)領(lǐng)域在IPC中主要分類(lèi)位置進(jìn)行了梳理,相比較OECD版本,國(guó)家知識(shí)產(chǎn)權(quán)局在C12M、C12P和C12S幾個(gè)小類(lèi)中提取了相關(guān)性更高的大組分類(lèi)號(hào)[8]。
生物技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用方向尤為廣泛。根據(jù)2009年版OECD、2012年版國(guó)家知識(shí)產(chǎn)權(quán)局對(duì)生物技術(shù)的定義和提取的IPC號(hào),結(jié)合農(nóng)業(yè)領(lǐng)域WOSIPC映射表進(jìn)行具體應(yīng)用方向限定,最終確定了以下與農(nóng)業(yè)生物技術(shù)領(lǐng)域密切相關(guān)的IPC分類(lèi)(表3)。
一件專(zhuān)利通常被賦予一個(gè)主IPC號(hào)和若干副IPC號(hào),每個(gè)IPC 號(hào)對(duì)應(yīng)一個(gè)特定的技術(shù)領(lǐng)域。盡管專(zhuān)利的各IPC號(hào)通常被等同對(duì)待,但主IPC號(hào)與專(zhuān)利技術(shù)創(chuàng)新的相關(guān)性最高[9],通常用來(lái)代表該發(fā)明的專(zhuān)有知識(shí)領(lǐng)域或技術(shù)主題,即發(fā)明的內(nèi)在特征與性質(zhì);而該發(fā)明涉及的其他相關(guān)知識(shí)或技術(shù)主題則被分配給多個(gè)副IPC號(hào)[10],可以視為主IPC號(hào)所代表知識(shí)或技術(shù)的具體應(yīng)用方向。例如,A01H4/00出現(xiàn)在某件專(zhuān)利的主IPC號(hào)位置,則代表該專(zhuān)利的核心技術(shù)主題是植物的組織培養(yǎng)技術(shù);如果它出現(xiàn)在副IPC號(hào)位置,則代表這些專(zhuān)利涉及運(yùn)輸、化工、冶金、機(jī)械、物理、電力相關(guān)方法和理論在植物組織培養(yǎng)技術(shù)中的具體運(yùn)用。因此,用主IPC號(hào)進(jìn)行某技術(shù)主題檢索噪聲率相對(duì)要低,副IPC號(hào)的噪聲率偏高。但為了避免遺漏,對(duì)副IPC號(hào)可以其進(jìn)行必要的上位組擴(kuò)展,雖然會(huì)帶來(lái)大量噪聲,但其必然符合查全的需要。
本研究根據(jù)各IPC號(hào)與農(nóng)業(yè)生物技術(shù)的相關(guān)程度,并結(jié)合專(zhuān)家論證,通過(guò)主、副IPC號(hào)進(jìn)行限制,基于智慧芽數(shù)據(jù)庫(kù)構(gòu)建檢索策略如下:
(1) 主 副 分 類(lèi) 包 含 A01H1/00、A01H4/00、C05F11/08、C05F15/00、C07K14/415的專(zhuān)利;
(2)主分類(lèi)為C12N、C07K14/195、C07K14/37并同時(shí)包含A01H、A23K和A01N分類(lèi)的專(zhuān)利;
(3) 主 分 類(lèi) 為 A61K38/00、A61K39/00、A61K48/00的專(zhuān)利,最終檢索式確定為:
MIPC :(C12N OR C07K14/195 OR C07K14/37)AND IPC :(A01H OR A01N OR A23K))or MIPC :(A61K38/00 OR A61K39/00 OR A61K48/00)or IPC:(C05F11/08 OR C05F15/00 OR C07K14/415 OR A01H1/00 OR A01H4/00。
在結(jié)果中選定發(fā)明專(zhuān)利,總計(jì)得到249 832件發(fā)明專(zhuān)利(檢索時(shí)間2017年12月14日)。
表3 農(nóng)業(yè)生物技術(shù)領(lǐng)域在IPC中涉及的主要分類(lèi)位置
檢索策略效果一般通過(guò)查全率和查準(zhǔn)率兩個(gè)指標(biāo)進(jìn)行評(píng)價(jià)。如圖1所示原理,查全率和查準(zhǔn)率的計(jì)算公式如下:
生物技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用方向尤為廣泛,檢索結(jié)果數(shù)量龐大。本研究通過(guò)專(zhuān)利權(quán)人抽樣,選取孟山都公司(MONSANTO TECHNOLOGY LLC)2010年申請(qǐng)專(zhuān)利和史坦恩種子公司(STINE SEED FARM INC)2011年申請(qǐng)專(zhuān)利進(jìn)行查全率和查準(zhǔn)率計(jì)算。具體過(guò)程如下:
(1)本研究構(gòu)建檢索策略檢索得到249 832件發(fā)明專(zhuān)利,對(duì)專(zhuān)利權(quán)人和申請(qǐng)年字段進(jìn)行過(guò)濾,得到孟山都公司2010年發(fā)明專(zhuān)利申請(qǐng)量507件、史坦恩種子公司2011年發(fā)明專(zhuān)利申請(qǐng)量30件。
(2)對(duì)上步篩選出的專(zhuān)利進(jìn)行人工閱讀、去噪,最終得到檢索到的符合要求的文獻(xiàn)分別473件和29件。
圖1 查全率與查準(zhǔn)率
(3)在智慧芽數(shù)據(jù)庫(kù)中分別檢索專(zhuān)利權(quán)人為孟山都和史坦恩種子公司的專(zhuān)利,即檢索式分別為為 AN_FACET_CN:”MONSANTO TECHNOLOGY LLC” 和 AN_FACET_CN:” STINE SEED FARM INC”,對(duì)結(jié)果進(jìn)行IPC篩選和人工閱讀、去噪,最終得到農(nóng)業(yè)生物技術(shù)領(lǐng)域孟山都公司2010年發(fā)明申請(qǐng)590件、史坦恩種子公司2011年發(fā)明申請(qǐng)35件。檢索結(jié)果驗(yàn)證情況如表4所示。
結(jié)果表明,本研究所構(gòu)建的全球農(nóng)業(yè)生物技術(shù)專(zhuān)利檢索策略覆蓋面是比較全面的,檢索結(jié)果的可靠性較高。
表4 查全率和查準(zhǔn)率抽樣驗(yàn)證結(jié)果
本論文構(gòu)建了全球農(nóng)業(yè)生物技術(shù)專(zhuān)利檢索策略,并利用此檢索策略完成了全球農(nóng)業(yè)生物技術(shù)專(zhuān)利文獻(xiàn)的初步采集工作,經(jīng)驗(yàn)證該數(shù)據(jù)集較為理想,可以作為全球農(nóng)業(yè)生物技術(shù)態(tài)勢(shì)分析的數(shù)據(jù)基礎(chǔ)。
但本項(xiàng)研究也存在一定局限性:IPC分類(lèi)最初是為滿(mǎn)足專(zhuān)利分類(lèi)和檢索需求而編制,可以從一定程度上反映農(nóng)業(yè)生物技術(shù)領(lǐng)域的技術(shù)主題分布,但難以準(zhǔn)確揭示學(xué)科交叉性和主題創(chuàng)新性的專(zhuān)利內(nèi)容,例如,現(xiàn)階段研究較熱的農(nóng)業(yè)合成生物技術(shù)、基因編輯技術(shù)、纖維素生物裂解等生物技術(shù)等,并未有與之對(duì)應(yīng)的準(zhǔn)確的類(lèi)目,在進(jìn)一步的研究中應(yīng)盡量彌補(bǔ)這個(gè)缺陷。ivepatentclassification. org//index. html, 2017-12-10.