隗玲,許海云,劉春江,李婧,方曙
(1.山西財(cái)經(jīng)大學(xué)信息管理學(xué)院,太原 030006;2.中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041)
技術(shù)領(lǐng)域主題發(fā)現(xiàn)研究
——以基因工程疫苗領(lǐng)域?yàn)槔?
隗玲1,2,許海云2,劉春江2,李婧2,方曙2
(1.山西財(cái)經(jīng)大學(xué)信息管理學(xué)院,太原 030006;2.中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041)
本文梳理基于專利文獻(xiàn)進(jìn)行技術(shù)領(lǐng)域主題發(fā)現(xiàn)的研究方法發(fā)展進(jìn)程,提出一套高效獲取專利技術(shù)主題詞、生成戰(zhàn)略坐標(biāo)圖的研究流程,并以基因工程疫苗技術(shù)為例,對(duì)我國(guó)基因工程疫苗技術(shù)主題分布及發(fā)展趨勢(shì)進(jìn)行實(shí)證分析。研究結(jié)果顯示,采用本文構(gòu)建的共詞分析流程和方法,利用專利共詞聚類和戰(zhàn)略坐標(biāo)圖能較好地識(shí)別技術(shù)主題及其發(fā)展現(xiàn)狀。
技術(shù)主題發(fā)現(xiàn);共詞分析;戰(zhàn)略坐標(biāo)圖;基因工程疫苗
專利技術(shù)研發(fā)是一項(xiàng)不斷創(chuàng)新和更新?lián)Q代的科學(xué)技術(shù)活動(dòng),是科學(xué)技術(shù)發(fā)展過(guò)程中的重要環(huán)節(jié)。專利技術(shù)主題是專利文獻(xiàn)揭露技術(shù)內(nèi)容的主題和核心,技術(shù)領(lǐng)域主題發(fā)現(xiàn)指從專利文獻(xiàn)中識(shí)別該技術(shù)領(lǐng)域技術(shù)主題的分布或演化,其中技術(shù)主題演化又包括技術(shù)主題演變過(guò)程、技術(shù)發(fā)展趨勢(shì)預(yù)測(cè)和新興技術(shù)主題發(fā)現(xiàn)等內(nèi)容[1]。掌握某領(lǐng)域技術(shù)主題分布及演化情況,有助于相關(guān)人員了解該技術(shù)領(lǐng)域的研究?jī)?nèi)容以及研究的熱點(diǎn)和發(fā)展趨勢(shì)等,為科研機(jī)構(gòu)和企業(yè)提供前沿預(yù)警和參照,也為國(guó)家相關(guān)政策制定提供決策支撐。
利用專利文獻(xiàn)進(jìn)行技術(shù)領(lǐng)域主題發(fā)現(xiàn)的研究方法有多種,文本挖掘方法因其能深入專利文獻(xiàn)的具體內(nèi)容,已成為當(dāng)前技術(shù)主題發(fā)現(xiàn)研究的重要方法。不同的文本挖掘方法各有其優(yōu)勢(shì)和不足,其中共詞分析方法(尤其是戰(zhàn)略坐標(biāo)圖)既能反映詞與詞間的個(gè)體關(guān)系,又能反映詞群與詞群間的整體關(guān)系,原理簡(jiǎn)單、操作易行,是一種可用于技術(shù)領(lǐng)域主題發(fā)現(xiàn)的較成熟科學(xué)的方法。國(guó)內(nèi)外學(xué)者利用戰(zhàn)略坐標(biāo)圖對(duì)機(jī)器人技術(shù)[2]、燃料電池[3]、能源材料[4]、移動(dòng)通信技術(shù)[5]、RFID技術(shù)[6]等多個(gè)技術(shù)領(lǐng)域進(jìn)行技術(shù)主題發(fā)現(xiàn)研究,但仍存在不足。如需要自主開(kāi)發(fā)術(shù)語(yǔ)抽取工具,研究成本高,方法重用性差[3];需要對(duì)技術(shù)關(guān)鍵詞進(jìn)行人工清洗,用于主題發(fā)現(xiàn)的關(guān)鍵詞數(shù)量少[4,6];需要對(duì)專利文獻(xiàn)的技術(shù)術(shù)語(yǔ)進(jìn)行人工預(yù)處理,耗時(shí)長(zhǎng)、準(zhǔn)確性差等[5]。這些不足之處制約了共詞分析方法在情報(bào)分析中的有效運(yùn)用,鑒于此,本文結(jié)合普適的文本信息處理工具和可視化工具,提出一套高效獲取大量專利技術(shù)主題詞、生成戰(zhàn)略坐標(biāo)圖的研究流程,并對(duì)我國(guó)基因工程疫苗領(lǐng)域的技術(shù)主題分布及發(fā)展趨勢(shì)進(jìn)行實(shí)證分析。
隨著技術(shù)發(fā)展演化的進(jìn)程,根據(jù)不同研究方法的特點(diǎn)和作用,基于專利文獻(xiàn)進(jìn)行技術(shù)領(lǐng)域主題發(fā)現(xiàn)的研究方法可分為傳統(tǒng)的專利分類分析法、基于文本挖掘的技術(shù)領(lǐng)域主題發(fā)現(xiàn)方法和其他方法(主要指引文分析法和社會(huì)網(wǎng)絡(luò)分析法)三大類。本文重點(diǎn)對(duì)前兩類方法進(jìn)行梳理,對(duì)引文分析方法和社會(huì)網(wǎng)絡(luò)分析方法不多贅述。
2.1 傳統(tǒng)的專利分類分析法
傳統(tǒng)的專利分類分析法主要有統(tǒng)計(jì)分析法和共類分析法。統(tǒng)計(jì)分析法主要用于統(tǒng)計(jì)某技術(shù)領(lǐng)域?qū)@恼w產(chǎn)出情況、排名靠前的分類號(hào)等以揭示該技術(shù)領(lǐng)域在地域、研發(fā)機(jī)構(gòu)和核心技術(shù)主題的發(fā)展變化[7-8]。共類分析法最早于20世紀(jì)80年代提出,是基于文獻(xiàn)計(jì)量的跨學(xué)科的基本研究方法,其原理是首先將論文所在期刊按主題進(jìn)行歸類,然后將主題類別按學(xué)科類別或領(lǐng)域進(jìn)行歸類[9]。在專利分析中,專利共類被定義為“2個(gè)或2個(gè)以上的分類號(hào)在多篇專利文獻(xiàn)中共同出現(xiàn)的次數(shù)反映了分類號(hào)所代表的領(lǐng)域間研究關(guān)聯(lián)程度”[10]。一般認(rèn)為,同一論文、期刊和專利可能歸屬于多個(gè)不同的主題類別和技術(shù)領(lǐng)域,反映出科技成果的學(xué)科交叉性,揭示某一科技領(lǐng)域研究?jī)?nèi)容的內(nèi)在相關(guān)性和學(xué)科領(lǐng)域的微觀結(jié)構(gòu)。Spasser[11]、Kumaresan[12]、Schummer[13]、Meyer[14]和林瑞明等[15]先后使用共類分析法對(duì)制藥學(xué)領(lǐng)域、日本機(jī)器人技術(shù)領(lǐng)域、納米科技領(lǐng)域、LED技術(shù)領(lǐng)域的技術(shù)主題發(fā)展進(jìn)行研究。共類分析法常和聚類法[16-17]或社會(huì)網(wǎng)絡(luò)分析法[18-19]結(jié)合使用。
傳統(tǒng)的專利分類分析法操作簡(jiǎn)單易行,可從整體上直觀呈現(xiàn)某技術(shù)領(lǐng)域主題的構(gòu)成與變化,但對(duì)技術(shù)主題的劃分過(guò)分依賴專利分類號(hào),分析不能深入到專利文本內(nèi)容,在技術(shù)領(lǐng)域主題發(fā)現(xiàn)方面的應(yīng)用具有較大局限性。
2.2 三類基于文本挖掘的技術(shù)領(lǐng)域主題發(fā)現(xiàn)方法
隨著技術(shù)領(lǐng)域不斷交叉與滲透融合,新技術(shù)跨領(lǐng)域性特征越來(lái)越突出,技術(shù)領(lǐng)域主題發(fā)現(xiàn)面臨的挑戰(zhàn)也越來(lái)越大。專利文本除題名、作者等專利元數(shù)據(jù)字段外,摘要、技術(shù)背景、權(quán)利要求甚至全文包含豐富的語(yǔ)義內(nèi)容可供挖掘。
Porter等將專利文本技術(shù)挖掘流程總結(jié)為確定待挖掘?qū)@麛?shù)據(jù)集、專利文本知識(shí)表示、專利技術(shù)挖掘場(chǎng)景分析、技術(shù)挖掘結(jié)果評(píng)估與修訂四個(gè)主要步驟[20]。在技術(shù)挖掘場(chǎng)景設(shè)定為技術(shù)領(lǐng)域主題發(fā)現(xiàn)的前提下,利用專利文本進(jìn)行技術(shù)挖掘的關(guān)鍵工作為專利文本知識(shí)表示及基于知識(shí)表示單元的主題挖掘。專利文本知識(shí)表示首先需要將非結(jié)構(gòu)化的專利文本信息轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的結(jié)構(gòu)化信息,然后根據(jù)需要進(jìn)行語(yǔ)義化建模。這些結(jié)構(gòu)化信息稱為知識(shí)表示單元,簡(jiǎn)稱知識(shí)單元。知識(shí)單元可以是詞語(yǔ)、詞組、句子及段落,當(dāng)前常選用詞語(yǔ)作為知識(shí)單元。知識(shí)單元獲取是自動(dòng)識(shí)別文本主題的前提,知識(shí)單元的有效提取及關(guān)聯(lián)關(guān)系的正確計(jì)算共同決定文本主題的識(shí)別效果[21]。本文根據(jù)知識(shí)單元的形式不同和語(yǔ)義建模的方法不同,將基于文本挖掘的技術(shù)領(lǐng)域主題發(fā)現(xiàn)方法歸納為三類。
2.2.1 基于知識(shí)單元詞頻統(tǒng)計(jì)的發(fā)現(xiàn)方法
該類方法以知識(shí)單元自身為處理對(duì)象,基于知識(shí)單元獲取技術(shù)主題,包括術(shù)語(yǔ)詞頻統(tǒng)計(jì)。術(shù)語(yǔ)詞頻統(tǒng)計(jì)常見(jiàn)的應(yīng)用是通過(guò)提取專利項(xiàng)、摘要或標(biāo)題等中的技術(shù)術(shù)語(yǔ),以技術(shù)術(shù)語(yǔ)反映技術(shù)主題,統(tǒng)計(jì)高頻術(shù)語(yǔ)的分布情況以分析某技術(shù)領(lǐng)域的熱點(diǎn)分布[22],也可在分析中加入時(shí)間軸統(tǒng)計(jì)主題術(shù)語(yǔ)詞頻的時(shí)間變化或不同時(shí)間段的詞頻分布以分析技術(shù)主題的發(fā)展或變化趨勢(shì)[23-24]。術(shù)語(yǔ)詞頻統(tǒng)計(jì)也常用于共詞分析的前期步驟,用來(lái)對(duì)技術(shù)關(guān)鍵詞進(jìn)行篩選和分類[25-26]。
術(shù)語(yǔ)詞頻統(tǒng)計(jì)方法原理簡(jiǎn)單,操作便利,但是無(wú)法體現(xiàn)詞與詞間的關(guān)聯(lián),不能揭示技術(shù)領(lǐng)域主題間的關(guān)聯(lián)。
2.2.2 基于知識(shí)單元共現(xiàn)的發(fā)現(xiàn)方法
共現(xiàn)分析術(shù)語(yǔ)稱為共詞分析,是一種較成熟的文獻(xiàn)計(jì)量方法。共詞分析是一種獨(dú)具特色的內(nèi)容分析,通過(guò)分析在同一文本主體中的單詞或名詞對(duì)共同出現(xiàn)的形式,確認(rèn)文本所代表的學(xué)科領(lǐng)域中主題間的關(guān)系,進(jìn)而探索科學(xué)的發(fā)展[27]。共詞分析方法具有靈活的優(yōu)點(diǎn),它可用圖形來(lái)表示當(dāng)前或一段時(shí)間內(nèi)的研究狀況和結(jié)構(gòu),是一種用來(lái)發(fā)現(xiàn)科學(xué)研究各領(lǐng)域間關(guān)系大有潛力的方法[28]。在生成圖形過(guò)程中,一是可根據(jù)研究需求靈活地設(shè)定共現(xiàn)頻次或詞頻來(lái)確定高頻主題詞,以其為基礎(chǔ)生成共詞矩陣;二是可構(gòu)建靈活的分析指標(biāo)來(lái)測(cè)量共現(xiàn)詞對(duì)間關(guān)系的強(qiáng)度[29-33],最終以這些指標(biāo)為基礎(chǔ)將關(guān)鍵詞聚類成組并以網(wǎng)絡(luò)地圖的方式展示。
共詞分析主要分為共詞網(wǎng)絡(luò)分析、共詞聚類分析和戰(zhàn)略圖分析三種[2]。共詞網(wǎng)絡(luò)分析根據(jù)詞與詞間的共現(xiàn)關(guān)系,采用不同的指數(shù)算法計(jì)算共現(xiàn)強(qiáng)度并繪制共現(xiàn)網(wǎng)絡(luò)圖。共詞網(wǎng)絡(luò)分析法通常與社會(huì)網(wǎng)絡(luò)分析法結(jié)合使用以揭示某領(lǐng)域技術(shù)主題的分布、關(guān)聯(lián)及演化[34-35]。共詞聚類分析利用詞與詞間的關(guān)聯(lián)程度進(jìn)行聚類,將詞聚成多個(gè)技術(shù)主題。戰(zhàn)略坐標(biāo)圖是Law等在共詞分析法基礎(chǔ)上引入的,首先通過(guò)共詞聚類獲得代表某領(lǐng)域技術(shù)主題的多個(gè)子簇,然后計(jì)算各技術(shù)主題的中心度和密度來(lái)表示不同技術(shù)主題內(nèi)部和相互間的關(guān)系[29]。利用戰(zhàn)略圖可分析技術(shù)主題分布情況及各技術(shù)主題的發(fā)展趨勢(shì)[2-6]。
共詞分析法成熟有效,但是采用此方法依賴一項(xiàng)重要前提,即主題詞的確定。目前,確定主題詞的通用流程是通過(guò)自然語(yǔ)言處理和文本分析技術(shù)從專利文本中獲取高頻詞,并對(duì)之進(jìn)行清洗和篩選。其中的問(wèn)題是清洗和篩選的標(biāo)準(zhǔn)難以確定,后期檢驗(yàn)不易實(shí)施,難以發(fā)現(xiàn)和利用相對(duì)低頻卻具有典型技術(shù)特征的主題詞。
2.2.3 基于知識(shí)單元語(yǔ)義相似度的發(fā)現(xiàn)方法
隨著文本挖掘技術(shù)的發(fā)展,利用專利文獻(xiàn)進(jìn)行技術(shù)領(lǐng)域主題發(fā)現(xiàn)也逐漸從知識(shí)單元表面語(yǔ)義分析深入到知識(shí)單元間的語(yǔ)義關(guān)系識(shí)別層面以及知識(shí)單元隱含的語(yǔ)義內(nèi)容識(shí)別層面。識(shí)別知識(shí)單元間的語(yǔ)義關(guān)系或隱含的語(yǔ)義內(nèi)容,其本質(zhì)為計(jì)算知識(shí)單元間的語(yǔ)義相似度,計(jì)算過(guò)程一般需要借助領(lǐng)域本體或語(yǔ)義詞典,最后在語(yǔ)義相似度的基礎(chǔ)上對(duì)知識(shí)單元進(jìn)行聚類獲取技術(shù)領(lǐng)域主題。本文將此類研究方法統(tǒng)稱為專利文本聚類法,根據(jù)語(yǔ)義建模方法不同,將其分為基于向量空間模型的專利文本聚類和基于SAO三元組的專利文本聚類。
向量空間模型(Vector Space Model,VSM)核心思想是將文檔、術(shù)語(yǔ)、概念等信息對(duì)象作為向量空間元素進(jìn)行建模,將其表示成向量空間的向量。最簡(jiǎn)單的VSM是將專利文獻(xiàn)直接表示成關(guān)鍵詞權(quán)重向量,通過(guò)計(jì)算特征向量間的距離表示專利文獻(xiàn)間的相似度。Kim等基于關(guān)鍵詞向量對(duì)專利進(jìn)行聚類和可視化,對(duì)泛在計(jì)算技術(shù)領(lǐng)域的新興技術(shù)進(jìn)行預(yù)測(cè)[36]。VSM原理簡(jiǎn)單易懂、算法成熟,被廣泛應(yīng)用于知識(shí)表示。但關(guān)鍵詞間缺乏語(yǔ)義關(guān)系,不能從微觀層面揭示專利技術(shù)主題信息。針對(duì)該問(wèn)題,有學(xué)者基于領(lǐng)域本體概念間語(yǔ)義關(guān)系和語(yǔ)義增量對(duì)VSM進(jìn)行改進(jìn)[37-38]。
鑒于關(guān)鍵詞語(yǔ)義表示能力不足,研究人員借鑒語(yǔ)義網(wǎng)中利用SAO三元組來(lái)表示知識(shí)元的思路,利用SAO結(jié)構(gòu)作為基礎(chǔ)知識(shí)單元來(lái)表示專利。Park等將SAO結(jié)構(gòu)與TRIZ進(jìn)化法則相結(jié)合,分析技術(shù)演化進(jìn)程,識(shí)別重要技術(shù)主題[39-40];Yoon等研究利用SAO結(jié)構(gòu)與離散點(diǎn)探測(cè)分析技術(shù)演化趨勢(shì),識(shí)別新興技術(shù)[41-42];Hu等以SAO作為基礎(chǔ)語(yǔ)義單元,通過(guò)SAO降維生成問(wèn)題、方案、功能與效果四類技術(shù)主題,按照技術(shù)相關(guān)性對(duì)專利文檔進(jìn)行聚類分析專利技術(shù)演化情況[43];李欣等基于SAO結(jié)構(gòu)語(yǔ)義分析識(shí)別新興技術(shù)[44];黃魯成等使用CiteSpace確定突現(xiàn)文獻(xiàn),從文獻(xiàn)摘要中提取SAO結(jié)構(gòu),計(jì)算其語(yǔ)義相似度得到文獻(xiàn)的相似度矩陣,然后對(duì)文獻(xiàn)聚類識(shí)別新興主題[45]。該方法也可用于技術(shù)主題的識(shí)別。
基于SAO三元組的專利文本聚類方法可挖掘豐富的技術(shù)主題及主題間的相互關(guān)系,但需要使用特定的工具進(jìn)行SAO抽取與清洗,SAO語(yǔ)義相似度計(jì)算也需要借助專業(yè)領(lǐng)域的語(yǔ)義詞典,不同技術(shù)領(lǐng)域的語(yǔ)義關(guān)系不易界定,因而使用難度較大。
綜上所述,基于文本挖掘的技術(shù)領(lǐng)域主題發(fā)現(xiàn)方法各有優(yōu)勢(shì)和不足,研究者根據(jù)其研究目的需求和技術(shù)工具條件采用不同的方法在多個(gè)領(lǐng)域開(kāi)展技術(shù)主題識(shí)別研究。這些研究一方面發(fā)揮作為典型應(yīng)用學(xué)科的情報(bào)學(xué)對(duì)技術(shù)創(chuàng)新與發(fā)展的支持作用,另一方面提高了不同領(lǐng)域?qū)<覍?duì)情報(bào)學(xué)方法的重視程度與研究興趣,情報(bào)學(xué)方法應(yīng)用拓展與技術(shù)創(chuàng)新發(fā)展互相促進(jìn)、互為補(bǔ)益。
近年來(lái),我國(guó)明確大力發(fā)展生物醫(yī)藥行業(yè)[46-47],疫苗行業(yè)作為生物醫(yī)藥領(lǐng)域的重要子產(chǎn)業(yè),也是大力發(fā)展的對(duì)象。經(jīng)調(diào)研發(fā)現(xiàn),國(guó)內(nèi)尚未有學(xué)者對(duì)我國(guó)基因工程疫苗領(lǐng)域的技術(shù)主題進(jìn)行識(shí)別與研究。本文研究的目的是利用情報(bào)學(xué)中技術(shù)領(lǐng)域主題發(fā)現(xiàn)研究方法對(duì)基因工程疫苗領(lǐng)域技術(shù)主題的構(gòu)成及未來(lái)發(fā)展趨勢(shì)進(jìn)行識(shí)別與預(yù)測(cè),以期促進(jìn)該領(lǐng)域發(fā)展。研究中所用到的研究方法、計(jì)量指標(biāo)和技術(shù)路線如下。
3.1 研究方法
3.1.1 共詞網(wǎng)絡(luò)和共詞聚類分析
本研究采用Gephi自帶的Blondel社區(qū)探測(cè)算法對(duì)技術(shù)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行聚類[48-49]。Blondel社區(qū)探測(cè)是基于模塊性指標(biāo)的快速壓縮社區(qū)探測(cè)算法,其本質(zhì)是將同屬性節(jié)點(diǎn)歸并到合適社群。該算法分為兩個(gè)階段:第一階段是社群的探測(cè)壓縮,第二階段是社群的合并重組。首先,將網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)視作一個(gè)獨(dú)立社區(qū),逐步合并鄰近節(jié)點(diǎn),如果合并后整個(gè)網(wǎng)絡(luò)的模塊度提高,則進(jìn)行合并,否則撤銷;經(jīng)過(guò)循環(huán)迭代,直到網(wǎng)絡(luò)模塊度無(wú)法提高為止。然后,將每個(gè)社區(qū)視為一個(gè)節(jié)點(diǎn),對(duì)每個(gè)社區(qū)采用此合并算法,直到整個(gè)網(wǎng)絡(luò)的模塊度無(wú)法提高為止[50]。該算法通過(guò)對(duì)模塊性指標(biāo)的判斷,不斷壓縮探測(cè)網(wǎng)絡(luò)的規(guī)模大小,以實(shí)現(xiàn)群結(jié)構(gòu)的快速探測(cè),設(shè)計(jì)簡(jiǎn)單有效,因而被廣大研究者重視和使用[51]。
3.1.2 戰(zhàn)略坐標(biāo)圖分析
戰(zhàn)略坐標(biāo)圖使用向心度(Centrality)和密度(Density)指標(biāo)測(cè)量每個(gè)技術(shù)主題的特性。以向心度指標(biāo)為X軸,表示技術(shù)主題間相互影響的強(qiáng)度;以密度指標(biāo)為Y軸,表示技術(shù)主題內(nèi)相互連接的程度,以所有技術(shù)類別的向心度和密度值作為源點(diǎn)繪制成的二維平面圖即為戰(zhàn)略坐標(biāo)圖[27,29]。戰(zhàn)略坐標(biāo)圖可清晰地展現(xiàn)各類技術(shù)主題在領(lǐng)域發(fā)展中的核心或邊緣位置以及當(dāng)前發(fā)展程度。
在第一象限,技術(shù)主題位于整個(gè)研究網(wǎng)絡(luò)的中心,各主題的向心度、與其他聚類子網(wǎng)連接強(qiáng)度、內(nèi)部連接密度、研究成熟度均較高。因此,該象限的技術(shù)主題是研究領(lǐng)域的核心,具有戰(zhàn)略重要性,也表明有研究人員對(duì)其進(jìn)行長(zhǎng)期、系統(tǒng)、正規(guī)地研究。
在第二象限,技術(shù)主題同樣位于整個(gè)研究網(wǎng)絡(luò)的中心,向心度較高,但內(nèi)部連接密度相對(duì)較低,有進(jìn)一步發(fā)展的空間。該象限部分主題隨著研究推進(jìn)會(huì)日益成熟,成為未來(lái)的核心主題,是重點(diǎn)監(jiān)測(cè)、培育的目標(biāo)。
在第三象限,技術(shù)主題處于整個(gè)研究網(wǎng)絡(luò)的外圍,向心度較低,內(nèi)部連接密度較高,研究問(wèn)題成熟。這些研究問(wèn)題在早期階段處于研究網(wǎng)絡(luò)的中心,現(xiàn)在也是重要投資對(duì)象,但逐漸被邊緣化。
在第四象限,技術(shù)主題處于整個(gè)研究網(wǎng)絡(luò)的外圍,外部向心度和內(nèi)部密度都較低,研究問(wèn)題不成熟。
3.2 主要指標(biāo)
(1)余弦指數(shù)。余弦指數(shù)是共詞網(wǎng)絡(luò)中測(cè)度關(guān)鍵詞間共現(xiàn)關(guān)系和強(qiáng)度的重要指標(biāo),其計(jì)算方法見(jiàn)公式(1)[52]。
cosθ的取值在0—1,cosθ值越趨近1表明兩組向量的相似度越高。X和Y分別為兩組空間向量,其中xi和yi分別為X和Y向量中第i個(gè)變量的值,n為空間向量的維度。
本研究中,xi表示技術(shù)主題詞x在給定專利文檔中出現(xiàn)的次數(shù),yi表示技術(shù)主題詞y在給定專利文檔中出現(xiàn)的次數(shù),xiyi表示技術(shù)主題詞x、y在同一篇專利文檔中出現(xiàn)的次數(shù)。余弦指數(shù)能在一定程度上降低采用共現(xiàn)頻次評(píng)價(jià)技術(shù)術(shù)語(yǔ)間鏈接強(qiáng)度的局限性,比較客觀地揭示技術(shù)術(shù)語(yǔ)間的鏈接強(qiáng)度[1]。
(2)特征向量中心度。本文選取特征向量中心度衡量共詞網(wǎng)絡(luò)聚類子網(wǎng)中節(jié)點(diǎn)的重要性。節(jié)點(diǎn)特征向量中心度值的計(jì)算基于一個(gè)原則,即一個(gè)節(jié)點(diǎn)的重要性既取決于其鄰居節(jié)點(diǎn)的數(shù)量(即該節(jié)點(diǎn)的度),又取決于其鄰居節(jié)點(diǎn)的重要性[53]。
(3)技術(shù)主題外部向心度和內(nèi)部密度。向心度指標(biāo)測(cè)度一個(gè)技術(shù)主題與其他技術(shù)主題相互作用的強(qiáng)度,該指標(biāo)強(qiáng)度越大,這個(gè)技術(shù)主題在整個(gè)技術(shù)領(lǐng)域中越趨于核心地位。對(duì)于每個(gè)特定技術(shù)類別而言,向心度的計(jì)算可通過(guò)該類別所有關(guān)鍵詞與其他類別的關(guān)鍵詞間的連接強(qiáng)度進(jìn)行。外部連接的總和、平均值、平方和的開(kāi)平方等都可以作為該類別的向心度[54]。密度指標(biāo)測(cè)度技術(shù)主題內(nèi)部關(guān)鍵詞間的連接強(qiáng)度,密度越大,該技術(shù)主題內(nèi)部聯(lián)系越緊密。某一技術(shù)類別密度的計(jì)算可通過(guò)計(jì)算該類內(nèi)部鏈接的平均值、中位數(shù)或者平方和得出[54]。
本研究采用郝文寧等研究的方法[37],以每個(gè)類別與其他類別鏈接的平均值作為該類別的向心度,取每個(gè)類別內(nèi)部鏈接的平均值作為該類別的密度,密度與向心度的計(jì)算方法見(jiàn)公式(2)與公式(3)。
其中,Eij是共詞網(wǎng)絡(luò)中節(jié)點(diǎn)(技術(shù)主題詞)的相關(guān)系數(shù),n為聚類子網(wǎng)中節(jié)點(diǎn)的個(gè)數(shù),N是共詞網(wǎng)絡(luò)中節(jié)點(diǎn)總數(shù),?s為聚類子網(wǎng),?為共詞整體網(wǎng)絡(luò)。
3.3 技術(shù)路線
Thomson Data Anzlyzer(TDA)是一款強(qiáng)大的文本信息分析工具[55],其可從各種豐富的信息來(lái)源(包括湯森路透的Derwent專利數(shù)據(jù)庫(kù)和其他科技文獻(xiàn)數(shù)據(jù)庫(kù))獲取大量數(shù)據(jù)進(jìn)行分析。Derwent的技術(shù)領(lǐng)域?qū)<以趯?duì)專利權(quán)利要求和公開(kāi)事項(xiàng)進(jìn)行審查后重新撰寫(xiě)結(jié)構(gòu)性摘要,主要包括新穎性、優(yōu)勢(shì)、技術(shù)要點(diǎn)和應(yīng)用領(lǐng)域,各項(xiàng)含義如下所示[56]。
Novelty(Abstract-DWPI Novelty/NOV):描述發(fā)明的獨(dú)特性;
Advantage(Abstract-DWPI Advantage/ADV):描述發(fā)明人所陳述的發(fā)明優(yōu)勢(shì);
Focus(Abstract-DWPI Tech Focus/FOC):描述該發(fā)明包含的核心技術(shù)要點(diǎn);
Use(Abstract-DWPI Use/USE):包括該發(fā)明的主要應(yīng)用領(lǐng)域。
本文主要分析基因工程疫苗的技術(shù)主題,因此選擇技術(shù)要點(diǎn)字段(tech focus)作進(jìn)一步分析。首先,使用TDA提取專利文獻(xiàn)中的技術(shù)要點(diǎn)字段,對(duì)其進(jìn)行清洗并選擇詞頻在前300的主題詞作為分析對(duì)象;其次,基于主題詞間共現(xiàn)關(guān)系,計(jì)算任意兩個(gè)主題詞間的相關(guān)系數(shù)值,繪制共詞網(wǎng)絡(luò)圖;再次,綜合考慮每個(gè)聚類子網(wǎng)中各主題詞的含義,識(shí)別目標(biāo)領(lǐng)域的技術(shù)主題;最后,結(jié)合聚類結(jié)果和子網(wǎng)內(nèi)主題詞兩兩間的相關(guān)系數(shù)值進(jìn)行指標(biāo)計(jì)算,生成戰(zhàn)略坐標(biāo)圖,對(duì)識(shí)別的技術(shù)主題進(jìn)行可視化表達(dá)并分析各技術(shù)主題的發(fā)展現(xiàn)狀和發(fā)展趨勢(shì)。本文采用的技術(shù)路線如圖1所示。
圖1 技術(shù)路線圖
4.1 數(shù)據(jù)來(lái)源
本文數(shù)據(jù)來(lái)源于ISI Web of Knowledge知識(shí)平臺(tái)中的德溫特創(chuàng)新專利索引數(shù)據(jù)庫(kù)[56]。通過(guò)背景技術(shù)調(diào)研對(duì)基因工程疫苗領(lǐng)域進(jìn)行技術(shù)主題要素分解,構(gòu)建詳細(xì)的檢索式,檢索時(shí)間截至2015年6月。通過(guò)檢索共獲取999項(xiàng)中國(guó)專利申請(qǐng)作為本研究的數(shù)據(jù)基礎(chǔ)。用TDA提取tech focus字段,得出按詞頻排序的關(guān)鍵詞列表,對(duì)關(guān)鍵詞進(jìn)行清洗;借助TDA詞表清洗工具和基于詞形的相似度合并命令進(jìn)行初步合并,通過(guò)該步驟可除去停用詞以及大量與分析主題無(wú)關(guān)的詞,此后在領(lǐng)域?qū)<业闹笇?dǎo)下進(jìn)行主題詞語(yǔ)義合并,最終得到本文用于共現(xiàn)分析的主題詞;將主題詞出現(xiàn)累積頻次達(dá)到52.2%的TOP 300高頻詞作為分析對(duì)象,經(jīng)過(guò)進(jìn)一步分析,去掉如“is”等無(wú)用詞,最終確定關(guān)鍵詞數(shù)量為282個(gè)。
使用Gephi自帶的Blondel社區(qū)探測(cè)算法對(duì)技術(shù)主題關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行聚類,模塊分割參數(shù)(resolution)使用默認(rèn)值1,聚類結(jié)果為5(antisense RNA、adjuvant component和culturing V 3個(gè)孤立點(diǎn)除外),5個(gè)聚類子網(wǎng)的節(jié)點(diǎn)數(shù)分別為140、28、40、49和12。經(jīng)專家判讀聚類結(jié)果發(fā)現(xiàn),該聚類結(jié)果分布不均,最大子網(wǎng)中的技術(shù)主題與其他子網(wǎng)絡(luò)有交叉和重復(fù)。結(jié)合專家意見(jiàn),經(jīng)多次實(shí)驗(yàn),將模塊分割參數(shù)(resolution)設(shè)定為0.95,技術(shù)主題數(shù)量定為6個(gè),并請(qǐng)專家輔助解讀每個(gè)子網(wǎng)代表的技術(shù)主題內(nèi)容。
4.2 技術(shù)主題識(shí)別
結(jié)合關(guān)鍵詞間共現(xiàn)情況和聚類結(jié)果,綜合考慮聚類子網(wǎng)中各關(guān)鍵詞的含義,對(duì)每個(gè)類進(jìn)行命名,這些類別代表基因工程疫苗領(lǐng)域的技術(shù)主題。技術(shù)主題、關(guān)鍵詞數(shù)量和特征向量中心度值TOP 10的關(guān)鍵詞見(jiàn)表1。
表1 基因工程疫苗領(lǐng)域技術(shù)主題
主題1:核酸疫苗相關(guān)技術(shù),關(guān)鍵詞包括核酸、抗原結(jié)合片段、病毒載體、不完全輔劑、免疫佐劑、表達(dá)組件、DNA疫苗(Deoxyribonucleic Acid Vaccine)等。該主題中核酸疫苗佐劑、核酸疫苗表達(dá)載體及調(diào)控元件的構(gòu)建、核酸疫苗真核表達(dá)及免疫效果評(píng)價(jià)是研究重點(diǎn)。
主題2:基因工程載體疫苗技術(shù)手段,關(guān)鍵詞包括表達(dá)載體、融合蛋白、大腸桿菌、PCR(Polymerase Chain Reaction)產(chǎn)物、重組質(zhì)粒、引物設(shè)計(jì)、重組表達(dá)載體等?;蚬こ梯d體疫苗技術(shù)手段一般包括DNA重組技術(shù)、蛋白融合和重組表達(dá)技術(shù)。
主題3:樹(shù)突狀細(xì)胞疫苗相關(guān)技術(shù),關(guān)鍵詞包括宿主細(xì)胞、腫瘤抗原、保護(hù)性抗原、重組病毒、樹(shù)狀細(xì)胞以及多類細(xì)胞和多種病毒等。該主題包含的內(nèi)容有樹(shù)突狀細(xì)胞疫苗在腫瘤免疫治療領(lǐng)域的應(yīng)用和腫瘤抗原及病原微生物保護(hù)性抗原的篩選、鑒定、克隆、表達(dá)及免疫研究。
主題4:免疫佐劑相關(guān)技術(shù),關(guān)鍵詞包括有機(jī)化學(xué)、治療制劑、雙硫鍵、熒光標(biāo)記、陽(yáng)離子脂質(zhì)體等。安全且能有效激活體液與細(xì)胞雙重免疫的佐劑是目前研發(fā)熱點(diǎn),佐劑疫苗的體外評(píng)價(jià)(熒光標(biāo)記、放射性標(biāo)記等)是免疫佐劑相關(guān)技術(shù)的重點(diǎn)。
主題5:病毒類疫苗相關(guān)技術(shù),包括關(guān)鍵詞病毒樣顆粒、抗原決定簇、CpG基元、人乳頭狀瘤病毒、免疫刺激酸化、辛德畢斯病毒、熱休克蛋白等。該主題的熱點(diǎn)有佐劑改良型病毒疫苗研究、基于病毒樣顆粒的亞單位疫苗研究、以辛德畢斯病毒作為疫苗載體的研究、無(wú)免疫佐劑的重組蛋白疫苗研究。
主題6:人源化基因工程改造技術(shù),關(guān)鍵詞包括嵌合抗體/單克隆抗體/單鏈抗體、染色體雜交、氨基酸殘疾、體液、雜交瘤細(xì)胞、抗原結(jié)合、體液免疫反映等。該主題包含內(nèi)容有單克隆抗體的人源化基因工程改造技術(shù)及免疫應(yīng)答反應(yīng)機(jī)理研究。其中,實(shí)現(xiàn)單抗的人源化、解決免疫原性、實(shí)現(xiàn)多種抗體重組等問(wèn)題是該領(lǐng)域的熱點(diǎn)和難點(diǎn)。
4.3 技術(shù)主題分析
本文利用TDA使用余弦指數(shù)計(jì)算主題詞的相關(guān)系數(shù),結(jié)合共詞網(wǎng)絡(luò)聚類結(jié)果計(jì)算每個(gè)類別的向心度和密度值(見(jiàn)表2),以向心度為橫坐標(biāo)、密度為縱坐標(biāo)繪制基因工程疫苗技術(shù)戰(zhàn)略坐標(biāo)圖(見(jiàn)圖2)。
圖2中第一象限暫無(wú)技術(shù)主題出現(xiàn),說(shuō)明我國(guó)基因工程疫苗技術(shù)領(lǐng)域研究成熟的核心技術(shù)暫時(shí)還沒(méi)有。位于第二象限的技術(shù)主題是核算疫苗相關(guān)技術(shù)和基因工程載體疫苗技術(shù)手段,這兩個(gè)技術(shù)主題具有較高向心度指標(biāo),但是密度指標(biāo)較低,與其他技術(shù)主題領(lǐng)域的研究聯(lián)系較多,內(nèi)部鏈接相對(duì)較低。位于第三象限的技術(shù)主題是人源化基因工程改造技術(shù)和樹(shù)突狀細(xì)胞疫苗相關(guān)技術(shù),二者具有較高的密度指標(biāo),但是向心度指標(biāo)較低,內(nèi)部鏈接相對(duì)較高,與其他技術(shù)主題領(lǐng)域的研究聯(lián)系較少。第四象限的技術(shù)主題的向心度指標(biāo)和密度指標(biāo)都較低,相關(guān)研究尚不成熟,還有很大的發(fā)展空間。與國(guó)外疫苗研制相比較,我國(guó)免疫佐劑的研究相對(duì)滯后,能刺激細(xì)胞免疫的佐劑缺乏。安全且能有效激活體液與細(xì)胞雙重免疫、具備免疫性和毒性的最佳平衡的宿主內(nèi)源性免疫佐劑是我國(guó)免疫技術(shù)需要關(guān)注的方向。病毒類疫苗側(cè)重于以病毒作為疫苗載體,用于治療或預(yù)防危害人類生命與健康的疾病,我國(guó)在新型病毒疫苗研究方面有待突破。
表2 基因工程疫苗技術(shù)主題的向心度和密度
圖2 基因工程疫苗技術(shù)主題的戰(zhàn)略坐標(biāo)圖
本文對(duì)基于專利文獻(xiàn)進(jìn)行技術(shù)領(lǐng)域主題發(fā)現(xiàn)的研究方法進(jìn)行梳理,針對(duì)共詞分析存在的問(wèn)題,構(gòu)造出一套高效獲取大量專利技術(shù)主題詞、生成戰(zhàn)略坐標(biāo)圖的研究流程并選用共詞分析方法對(duì)我國(guó)基因工程疫苗領(lǐng)域的技術(shù)主題構(gòu)成和發(fā)展現(xiàn)狀進(jìn)行分析。研究發(fā)現(xiàn),我國(guó)基因工程疫苗技術(shù)可劃分為6個(gè)技術(shù)主題,總體而言,我國(guó)在該領(lǐng)域完全成熟的研究還沒(méi)有,尚不成熟的研究較突出,我國(guó)在該領(lǐng)域還有很多技術(shù)空間需進(jìn)一步探索和突破。研發(fā)人員或決策制定者可根據(jù)各技術(shù)主題的發(fā)展情況,預(yù)測(cè)其發(fā)展趨勢(shì)制定技術(shù)布局,使研發(fā)活動(dòng)的開(kāi)展更有效率。本文改進(jìn)共詞分析中主題詞獲取流程的規(guī)范性,也體現(xiàn)了作為典型應(yīng)用學(xué)科的情報(bào)學(xué)對(duì)技術(shù)創(chuàng)新與發(fā)展的支持作用。
本研究還限于對(duì)關(guān)鍵詞的靜態(tài)分析,雖然可以從整體上反映技術(shù)主題的內(nèi)容,但無(wú)法反映技術(shù)主題變化或技術(shù)進(jìn)步。未來(lái)計(jì)劃在本研究的基礎(chǔ)上,進(jìn)一步抽取技術(shù)新穎性字段(technology novelty)的SAO三元組數(shù)據(jù)結(jié)合語(yǔ)義分析技術(shù),追蹤技術(shù)的變化或改進(jìn),進(jìn)一步完善技術(shù)領(lǐng)域主題發(fā)現(xiàn)技術(shù)。
[1] 胡阿沛,張靜,雷孝平,等.基于文本挖掘的專利技術(shù)主題分析研究綜述[J].情報(bào)雜志,2013,32(12):88-92,61.
[2] LEE B,JEONG Y I.Mapping Korea' s national R&D domain of robot technology by using the co-word analysis[J].Scientometrics,2008, 77(1):3-19.
[3] 韓紅旗,安小米,朱東華,等.專利技術(shù)術(shù)語(yǔ)共現(xiàn)的戰(zhàn)略圖分析方法[J].計(jì)算機(jī)應(yīng)用研究,2011,28(2):576-579.
[4] 郝韋霞,滕立,陳悅,等.基于共詞分析的中國(guó)能源材料領(lǐng)域主題研究[J].情報(bào)雜志,2011,30(6):70-75.
[5] 沈君,王續(xù)琨,陳悅,等.戰(zhàn)略坐標(biāo)視角下的專利技術(shù)主題分析——以第三代移動(dòng)通信技術(shù)為例[J].情報(bào)雜志,2012,31(11):88-94.
[6] 張杰,劉美佳,翟東升.基于專利共詞分析的RFID領(lǐng)域技術(shù)主題研究[J].科技管理研究,2013,33(10):129-132,140.
[7] 劉立,王博.基于專利情報(bào)分析的數(shù)控機(jī)床產(chǎn)業(yè)研究[J].科技管理研究,2010,30(15):149-152.
[8] 黃曉莉,鄭佳,王瑩,等.基于專利情報(bào)分析的中國(guó)數(shù)控機(jī)床產(chǎn)業(yè)研究[J].情報(bào)雜志,2012(9):25-29.
[9] 楊良斌,金碧輝.跨學(xué)科研究中學(xué)科交叉度的定量分析探討[J].情報(bào)雜志,2009,28(4):39-43,92.
[10] 高利丹,肖國(guó)華,張嫻,等.共現(xiàn)分析在專利地圖中的應(yīng)用研究[J].現(xiàn)代情報(bào),2009,29(7):36-39,43.
[11] SPASSERM A.Mapping the terrain of pharmacy:co-classification analysis of the International Pharmaceutical Abstracts database[J].Scientometrics,1997,39(1):77-97.
[12] KUMARESAN N,MIYAZAKI K.An integrated network approach to systems of innovation:the case of robotics in Japan[J].Research Policy, 1999,28(6):563-585.
[13] SCHUMMER J.Multidisciplinarity,interdisciplinarity,and patterns of research collaboration in nanoscience and nanotechnology[J].Scientometrics,2004,59(3):425-465.
[14] MEYER M.What do we know about innovation in nanotechnology? Some propositions about an emerging field between hype and pathdependency[J].Scientometrics,2007,70(3):779-810.
[15] 林瑞明,李萬(wàn)輝,于海洋.臺(tái)灣LED技術(shù)專利數(shù)據(jù)挖掘分析[J].情報(bào)探索, 2011(3):59-63.
[16] 張憲義.基于專利共類分析的技術(shù)領(lǐng)域關(guān)聯(lián)研究[D].大連:大連理工大學(xué),2013.
[17] 王賢文,徐申萌,彭戀,等.基于專利共類分析的技術(shù)網(wǎng)絡(luò)結(jié)構(gòu)研究: 1971~2010[J].情報(bào)學(xué)報(bào),2013,32(2):198-205.
[18] YOON J,PARK Y,KIM M,et al.Tracing evolving trends in printed electronics using patent information[J].Journal of Nanoparticle Research, 2014,16(7):1-15.
[19] 祁延莉.核心專利識(shí)別方法研究[J].情報(bào)理論與實(shí)踐,2016,39(11):5-9.
[20] PORTER A L,CUNNINGHAM S W.Tech mining:exploiting new technologies for competitive advantage[J].Technology Analysis & Strategic Management,2005,17(2):247.
[21] 許海云,王振蒙,胡正銀,等.利用專利文本分析識(shí)別技術(shù)主題的關(guān)鍵技術(shù)研究綜述[J].情報(bào)理論與實(shí)踐,2016,39(11):131-137.
[22] 梁立明,謝彩霞.詞頻分析法用于我國(guó)納米科技研究動(dòng)向分析[J].科學(xué)學(xué)研究,2003,21(2):138-142.
[23] CHENY H,CHEN C Y,LEE S C.Technology forecasting of new clean energy:the example of hydrogen energy and fuel cell[J].African Journal of Business Management,2010,4(7):1372-1380.
[24] 貢金濤,楊帥,魏曉峰.基于專利詞頻和信息可視化的特定競(jìng)爭(zhēng)對(duì)手分析——以通用風(fēng)力發(fā)電技術(shù)為例[J].現(xiàn)代情報(bào),2013,33(3):109-114.
[25] 李陽(yáng),許培揚(yáng).基于專利文獻(xiàn)的納米生物材料領(lǐng)域技術(shù)機(jī)會(huì)識(shí)別初探[J].生物技術(shù)通訊,2013(2):241-247.
[26] 喬方園,楊萌萌,汪雪鋒,等.納米技術(shù)領(lǐng)域的關(guān)鍵詞共現(xiàn)分析研究[J].情報(bào)雜志,2013,32(5):150-154,175.
[27] HE Q. Knowledge discovery through co-word analysis[J].Library Trends, 1999,48(1):133-159.
[28] 崔雷,鄭華川.關(guān)于從MEDLINE數(shù)據(jù)庫(kù)中進(jìn)行知識(shí)抽取和挖掘的研究進(jìn)展[J].情報(bào)學(xué)報(bào),2003,22(4):425-433.
[29] LAW J,BAUIN S,COURTIAL J P,et al.Policy and the mapping of scientifc change:a co-word analysis of research into environmental acidifcation[J]. Scientometrics,1988,14(3):251-264.
[30] KOSTOFF R N,EBERHART H J,TOOTHMAN D R.Database tomography for technical intelligence:a roadmap of the near-earth space science and technology literature[J].Information Processing & Management,1997,34(1):69-85.
[31] CALLON M,COURTIAL J P,LAVILLE F.Co-word analysis as a tool for describing the network of interactions between basic and technological research:the case of polymer chemsitry[J].Scientometrics,1991,22(1):155-205.
[32] CALLON M,LAW J,RIP A.Mapping the dynamics of science and technology:sociology of science in the real world[M].London:The Macmillan Press LTD,1998:103-141.
[33] COULTER N,MONARCH I,KONDA S.Software engineering as seen through its research literature:a study in co-word analysis[J].Journal of the American Society for Information Science,1998,49(13):1206-1223.
[34] 欒春娟.基于專利共現(xiàn)的全球太陽(yáng)能技術(shù)網(wǎng)絡(luò)及關(guān)鍵技術(shù)演進(jìn)分析[J].情報(bào)學(xué)報(bào),2013,32(1):68-79.
[35]葉春蕾,冷伏海.基于社會(huì)網(wǎng)絡(luò)分析的技術(shù)主題演化方法研究[J].情報(bào)理論與實(shí)踐,2014,37(1):126-130,140.
[36] KIM Y G,SUH J H,SANG C P.Visualization of patent analysis for emerging technology[J].Expert Systems with Applications An International Journal, 2008,34(3):1804-1812.
[37] 郝文寧,馮波,陳剛,等.基于領(lǐng)域本體的文檔向量空間模型構(gòu)建[J].計(jì)算機(jī)應(yīng)用研究,2013,30(3):764-767.
[38] 胡吉明,肖璐.向量空間模型文本建模的語(yǔ)義增量化改進(jìn)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014(10):49-55.
[39] PARK H,REE J J,KIM K.An SAO-based approach to patent evaluation using TRIZ evolution trends[C]//IEEE International Conference on Management of Innovation and Technology.Bali Island:[s.n.],2012.
[40] PARK H,REE J J,KIM K.Identification of promising patents for technology transfers using TRIZ evolution trends[J].Expert Systems with Applications,2013,40(2):736-743.
[41] YOON J,KIM K.An automated method for identifying TRIZ evolution trends from patents[J].Expert Systems with Applications,2011,38(12):15540-15548.
[42] YOON J,KIM K.Detecting signals of new technological opportunities using semantic patent analysis and outlier detection[J].Scientometrics, 2012,90(2):445-461.
[43] HU Z Y,FANG S,WEI L,et al.An SAO-based approach to technology evolution analysis using patent information:Case study—graphene sensors[J]. Chinese Journal of Library & Information Science,2015,8(3):62-75.
[44] 李欣,王靜靜,楊梓,等.基于SAO結(jié)構(gòu)語(yǔ)義分析的新興技術(shù)識(shí)別研究[J].情報(bào)雜志,2016,35(3):80-84.
[45] 黃魯成,張璐,吳菲菲,等.基于突現(xiàn)文獻(xiàn)和SAO相似度的新興主題識(shí)別研究[J].科學(xué)學(xué)研究,2016,34(6):814-821.
[46]“十二五”國(guó)家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃(全文)[EB/OL].(2012-07-20) [2016-12-20].http://www.china.com.cn/policy/txt/2012-07/20/ content_25968625.htm.
[47] 國(guó)務(wù)院關(guān)于印發(fā)《中國(guó)制造2025》的通知[EB/OL].(2015-05-19)[2016-12-20].http://www.gov.cn/zhengce/content/2015-05/19/content_9784.htm.
[48] Gephi.0.8.2 beta[EB/OL].[2016-12-24].https://gephi.org.
[49] BLONDELV D,GUILLAUME J L,LAMBIOTTER,et al.Fast unfolding of communities in large networks[J].Journal of Statistical Mechanics Theory & Experiment,2008,30(2):155-168.
[50] 朱夢(mèng)嫻,程齊凱,陸偉.基于社會(huì)網(wǎng)絡(luò)的學(xué)科主題聚類研究[J].情報(bào)雜志, 2012,31(11):40-45.
[51] FORTUNATO S.Community detection in graphs[J].Physics Reports, 2009,486(3/5):75-174.
[52] 余弦相似度[EB/OL].[2016-07-14].http://baike.baidu.com/link?url=9dnuj 2ao1Ce2ywExtL0u61IAbUawEjHVeoBKe_N1Z5yMwal_Mz3eAWEsc IF3kC-xEfFlK2NvJl7jA7ozZx-h2f9ItCTswnjB2zrm5bO833qbfsKJvBK CRqFeHl1ysoS.
[53] 劉軍.社會(huì)網(wǎng)絡(luò)分析導(dǎo)論[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2004.
[54] 張晗,崔雷.生物信息學(xué)的共詞分析研究[J].情報(bào)學(xué)報(bào),2003,22(5):613-617.
[55] Thomson Data Analyzer[EB/OL].[2016-07-14].http://www.thomsonscientific. com.cn/productsservices/TDA/.
[56] Thomson Reuters.Derwent Innovations Index[EB/OL].[2016-12-04].http://ipscience.thomsonreuters.com.cn/productsservices/derwentinnovationsindex/.
劉春江,男,1984年生,館員,研究方向:信息可視化與知識(shí)挖掘。
李婧,女,1987年生,助理研究員,研究方向:產(chǎn)業(yè)技術(shù)與專利情報(bào)分析。
方曙,男,1957年生,研究員,研究方向:科技情報(bào)分析與研究。
Study on the Technological Domain Recognition: A Case Study of Gene Engineered Vaccine Technology
WEI Ling1,2, XU HaiYun2, LIU ChunJiang2, LI Jing2, FANG Shu2
(1.School of Information and Management, Shanxi University of Finance and Economics, Taiyuan 030006, China; 2.Chengdu Document and Information Centre, Chinese Academy of Sciences, Chengdu 610041, China)
The paper systematically summarizes the development process of research methods on technological domain recognition based on patent documents, proposes a research fow to effciently obtain patent technical keywords and generate the strategic diagram, and makes an experimental analysis on the technological domain distribution and development trend taking gene engineered vaccine technology for example. The research result proofs that, under the co-word analysis fow proposed by the paper, patent co-words clustering and strategic diagram can be used effectively to recognize technological domains and their development currents.
Technological Domain; Co-Word Analysis; Strategic Diagram; Gene Engineered Vaccine
G350
10.3772/j.issn.1673-2286.2017.1.006
隗玲,女,1981年生,講師,研究方向:情報(bào)計(jì)量學(xué)理論與實(shí)踐,E-mail:weiling@mail.las.ac.cn。
許海云,女,1982年生,副研究員,研究方向:情報(bào)計(jì)量學(xué)理論與實(shí)踐,E-mail:xuhy@clas.ac.cn。
2016-12-13)
* 本研究得到成都市軟科學(xué)項(xiàng)目“基于技術(shù)主題識(shí)別的產(chǎn)業(yè)協(xié)同創(chuàng)新模型研究”(編號(hào):2015-RK00-00058-ZF)資助。