汪滿容+劉桂鋒+孫華平
〔摘要〕[目的/意義]運(yùn)用專利地圖的方法探索全球大數(shù)據(jù)技術(shù)的競(jìng)爭(zhēng)態(tài)勢(shì),以期為我國(guó)政府、企業(yè)、高校發(fā)展大數(shù)據(jù)產(chǎn)業(yè)和技術(shù)提供競(jìng)爭(zhēng)情報(bào)支撐。[方法/過(guò)程]以Thomson Innovation平臺(tái)的Derwent Innovations Index(德溫特專利數(shù)據(jù)庫(kù))中1 363篇大數(shù)據(jù)技術(shù)專利文獻(xiàn)為數(shù)據(jù)來(lái)源,運(yùn)用專利管理地圖、專利權(quán)利地圖和專利技術(shù)地圖的方法,從申請(qǐng)年份、申請(qǐng)國(guó)家、專利申請(qǐng)人、同族專利、專利引用、技術(shù)領(lǐng)域等角度進(jìn)行態(tài)勢(shì)分析。[結(jié)果/結(jié)論] 研究表明:大數(shù)據(jù)技術(shù)發(fā)展的階段特征明顯;美中兩國(guó)是大數(shù)據(jù)技術(shù)研發(fā)的主要國(guó)家;互聯(lián)網(wǎng)企業(yè)是大數(shù)據(jù)技術(shù)的重要推動(dòng)力量;大數(shù)據(jù)研發(fā)的熱點(diǎn)聚焦在Hadoop、MapReduce等技術(shù)。
〔關(guān)鍵詞〕大數(shù)據(jù);專利地圖;專利分析;專利計(jì)量;競(jìng)爭(zhēng)情報(bào);技術(shù)競(jìng)爭(zhēng)情報(bào);產(chǎn)業(yè)競(jìng)爭(zhēng)情報(bào);競(jìng)爭(zhēng)者分析
DOI:10.3969/j.issn.1008-0821.2017.01.028
〔中圖分類號(hào)〕G250.25〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)01-0148-08
〔Abstract〕[Purposes]The competitive situation of the global big data technology was explored by using patent map,which provided competitive intelligence support for Chinese government,enterprises,colleges and universities to develop big data industry and technology.[Methods]1363 patent documents of big data technology were obtained from Derwent Innovations Index(Derwent patent database)in Thomson Innovation platform.By using method of patent management map,patent claim map and patent technology map,patent documents of big data technology were analyzed from perspectives of application year,priority country,assignee,patent family,patent citation,field of technology.[Conclusions]The result showed that the stage characteristics of big data technology was obvious;China and US were the main countries for big data technology research;Internet enterprise was an important driving force for big data technology;Research hotspots of big data technology were focused on Hadoop and MapReduce.
〔Key words〕big data;patent map;patent analysis;patent bibliometrics;competitive intelligence;technology competitive intelligence;industry competitive intelligence;competitor analysis
專利計(jì)量的英文是Patent Bibliometrics,最早由Narin[1]于1994年在《Scientometrics》上提出,Narin是公認(rèn)的專利計(jì)量創(chuàng)始人。專利計(jì)量[2]是將數(shù)學(xué)和統(tǒng)計(jì)學(xué)的方法運(yùn)用于專利研究,以探索和挖掘其分布結(jié)構(gòu)、數(shù)量關(guān)系、變化規(guī)律等內(nèi)在價(jià)值。專利計(jì)量的本質(zhì)[3]是對(duì)專利文獻(xiàn)信息進(jìn)行定向選擇和科學(xué)抽象的研究活動(dòng),是情報(bào)信息工作與科學(xué)技術(shù)管理工作相結(jié)合的產(chǎn)物,是一種重要的科研活動(dòng)。專利計(jì)量的指標(biāo)很多,不同的指標(biāo)從不同的角度揭示專利信息,因此應(yīng)該根據(jù)不同的評(píng)價(jià)目的選擇不同的評(píng)價(jià)指標(biāo)。比較有影響的是美國(guó)知識(shí)產(chǎn)權(quán)咨詢公司CHI的專利指標(biāo)體系,CHI的指標(biāo)最初主要針對(duì)公司設(shè)計(jì),但同樣適用于國(guó)家、地區(qū)。CHI一些主要指標(biāo)包括:專利數(shù)量、專利相對(duì)產(chǎn)出指數(shù)、同族專利指數(shù)、專利成長(zhǎng)率、引證指數(shù)、即時(shí)影響指數(shù)、技術(shù)強(qiáng)度、相對(duì)專利產(chǎn)出率、技術(shù)重心指數(shù)和科學(xué)關(guān)聯(lián)性。邱均平[4]認(rèn)為應(yīng)該從宏觀(某領(lǐng)域)、中觀(某公司)和微觀(某專利)3個(gè)層次來(lái)設(shè)計(jì)不同的專利計(jì)量指標(biāo)體系。
專利分析方法[5]從研究對(duì)象的維度進(jìn)行分類,通常包括技術(shù)分析、市場(chǎng)主體分析和區(qū)域分析,以及結(jié)合不同的需求做其他行業(yè)特色分析。由于專利文獻(xiàn)含有結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù)[6],因此專利分析方法通常分為文本挖掘方法和可視化方法。
專利地圖[7]是指對(duì)一次、二次、三次等專利文獻(xiàn)的統(tǒng)計(jì)結(jié)果整理成各種圖表,即將專利信息“地圖化”。一般分為專利管理圖、專利技術(shù)圖、專利權(quán)利圖。專利地圖是專利信息的定量、定性和定量定性分析結(jié)果的可視化表達(dá)。英文是Patent Map或Patent Mapping。專利地圖有如下特征:專利地圖基于專利信息、有明確的使用目的、專利信息經(jīng)過(guò)組織加工、以可視化的形式顯示。專利地圖[8]起著承上啟下的作用。承上是指對(duì)專利信息的加工過(guò)程,專利地圖的可視化展示,供專利情報(bào)分析使用;啟下是對(duì)專利地圖的研究,進(jìn)行預(yù)測(cè)和判斷,為技術(shù)創(chuàng)新、專利戰(zhàn)略、經(jīng)營(yíng)戰(zhàn)略服務(wù)。
2011年麥肯錫公司發(fā)布《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》報(bào)告[9],標(biāo)志著大數(shù)據(jù)時(shí)代的到來(lái)。近年來(lái),大數(shù)據(jù)技術(shù)引起了業(yè)界與學(xué)界[10-17]的高度重視與熱切關(guān)注。本文運(yùn)用專利計(jì)量特別是專利地圖的方法對(duì)全球大數(shù)據(jù)技術(shù)的研發(fā)現(xiàn)狀進(jìn)行全方位的剖析。
1數(shù)據(jù)來(lái)源
本文數(shù)據(jù)來(lái)自Thomson Innovation平臺(tái)的Derwent Innovations Index(簡(jiǎn)稱DII)數(shù)據(jù)庫(kù),包括將Derwent World Patents Index(德溫特世界專利索引,簡(jiǎn)稱DWPI)與Derwent Patents Citation Index(專利引文索引,簡(jiǎn)稱DPCI)數(shù)據(jù)庫(kù)。分別在標(biāo)題-DWPI、關(guān)鍵詞-DWPI、摘要-DWPI中檢索Big Data,摘要里含有“MapReduce OR BigTable OR MPP Comput OR Hadoop OR GoogleFileSystem”的專利,公開(kāi)日期從2003年1月1日至2016年8月1日,且專利分類在G06F和H部類下。檢索式:(ALLD=(big ADJ data)OR ABD=(MapReduce OR BigTable OR MPP ADJ Comput)OR ABD=(Hadoop OR GoogleFileSystem))AND DP>=(20030101)AND DP<=(20160801)AND IC=(G06F OR H)。檢索結(jié)果1 363項(xiàng)。
2研究結(jié)果分析
2.1歷年專利動(dòng)向圖
歷年專利動(dòng)向圖常用折線圖表示,縱坐標(biāo)是專利件數(shù),橫坐標(biāo)是專利申請(qǐng)年份或公開(kāi)年份或授權(quán)年份。通過(guò)歷年專利動(dòng)向圖可以了解技術(shù)領(lǐng)域的歷年專利申請(qǐng)、產(chǎn)出以及發(fā)展情況,推測(cè)技術(shù)發(fā)展趨勢(shì)或研發(fā)投入趨勢(shì)。大數(shù)據(jù)技術(shù)研究的專利申請(qǐng)年份和公開(kāi)年份見(jiàn)圖1。從圖1可知,大數(shù)據(jù)技術(shù)發(fā)展分為兩個(gè)階段,一是2003-2010年,屬于技術(shù)萌芽階段,申請(qǐng)的和公開(kāi)的專利數(shù)量比較少,基本上在20件以下。二是2011年至今,屬于技術(shù)的快速發(fā)展階段,專利申請(qǐng)和公開(kāi)的數(shù)量呈現(xiàn)加速增長(zhǎng)的趨勢(shì),2013年和2014年申請(qǐng)和公開(kāi)的專利數(shù)量在350~450件之間,暫時(shí)達(dá)到了頂峰。由于受到檢索時(shí)間和專利公開(kāi)時(shí)間的影響,2016年的數(shù)據(jù)只作為參考,但可以預(yù)計(jì),2016年專利申請(qǐng)和公開(kāi)的數(shù)量會(huì)比2015年穩(wěn)步上升。大數(shù)據(jù)技術(shù)的快速發(fā)展階段還會(huì)繼續(xù)延長(zhǎng)一段時(shí)間。
2.2各國(guó)專利占有比例圖
各國(guó)專利占有比例圖常用餅狀圖表示,圖中每一個(gè)扇面代表一個(gè)國(guó)家,扇面積代表該國(guó)家專利所占的份額。通過(guò)各國(guó)專利占有比例圖可以發(fā)現(xiàn)競(jìng)爭(zhēng)國(guó)家以及競(jìng)爭(zhēng)實(shí)力。專利優(yōu)先權(quán)國(guó)家是指專利申請(qǐng)人就其發(fā)明創(chuàng)造第一次申請(qǐng)所在的國(guó)家或地區(qū)。由圖2可知,1 363件專利的專利優(yōu)先權(quán)國(guó)家或地區(qū)主要分布在中國(guó)(773件)和美國(guó)(343件),約占全部專利總數(shù)的82%,其次是韓國(guó)(108件)、WO(37件)、印度(32) 和日本(26件)等國(guó)家。從專利出版國(guó)家或地區(qū)來(lái)看(圖3),主要分布在中國(guó)(743件)和美國(guó)(379件),其次是WO(97件)、韓國(guó)(79件)和日本(15件)。379件美國(guó)專利,優(yōu)先權(quán)國(guó)家為美國(guó)的有298件、韓國(guó)的有29件、印度的有16件、中國(guó)的有15件、臺(tái)灣的有12件、日本的有6件,歐洲、英國(guó)和俄羅斯各有1件。優(yōu)先權(quán)為中國(guó)的15件美國(guó)專利中,10件為國(guó)外申請(qǐng)人(IBM公司9件、EMC公司3件和INVENTEC CORP公司1件),5件是國(guó)內(nèi)申請(qǐng)人申請(qǐng)的,其中騰訊公司申請(qǐng)1件。
2.3主要競(jìng)爭(zhēng)公司分析圖
主要競(jìng)爭(zhēng)公司分析圖常用條形圖表示,每一個(gè)長(zhǎng)條代表一個(gè)競(jìng)爭(zhēng)公司,長(zhǎng)條的長(zhǎng)度代表該公司的專利數(shù)量。通過(guò)主要競(jìng)爭(zhēng)公司分析圖可以發(fā)現(xiàn)主要的競(jìng)爭(zhēng)公司及其競(jìng)爭(zhēng)實(shí)力。1 363件專利共有100余個(gè)專利權(quán)人/申請(qǐng)人-DWPI,其中申請(qǐng)專利5件以上的專利申請(qǐng)人有49個(gè)。圖4列出了專利申請(qǐng)數(shù)量在前10位的國(guó)外專利申請(qǐng)人。國(guó)外前10位申請(qǐng)人除前五位專利數(shù)量在10件以上,其余在10件以下。美國(guó)申請(qǐng)人為8家,日本(NEC)和韓國(guó)(UNIV KONKUK IND COOP CORP)各1家。
申請(qǐng)數(shù)量最多的是申請(qǐng)63件專利的IBM公司,包括60件美國(guó)專利、2件英國(guó)專利和1件日本專利。專利的主要內(nèi)容為大數(shù)據(jù)收集與存儲(chǔ)方法、聚類管理方法、數(shù)據(jù)處理方法、數(shù)據(jù)定位方法、Map/Reduce搜索優(yōu)化、Hadoop分布式文件系統(tǒng)(HDFS)、并行計(jì)算系統(tǒng)(PCS)、基于Map/Reduce框架的數(shù)據(jù)轉(zhuǎn)移方法、社交媒體應(yīng)用的圖形處理系統(tǒng)和大規(guī)模并行程序(MPP)等。排在第二位的是雅虎公司,共有20件,19件是美國(guó)專利、1件是WO專利。微軟在2009-2014年申請(qǐng)了7件美國(guó)專利,主題為并行計(jì)算的數(shù)據(jù)分區(qū)優(yōu)化、挖掘大數(shù)據(jù)價(jià)值的方法、分布式數(shù)據(jù)并行執(zhí)行系統(tǒng)的分支定界算法、基于MapReduce引擎的圖形處理技術(shù)等。谷歌公司申請(qǐng)了兩件美國(guó)專利和兩件WO專利,涉及網(wǎng)頁(yè)文本分割方法、基于無(wú)線強(qiáng)度的概率模型降低訓(xùn)練的計(jì)算復(fù)雜度、基于MapReduce框架的數(shù)據(jù)處理方法和MapReduce表格關(guān)聯(lián)方法。
國(guó)內(nèi)前10位申請(qǐng)人主要是在我國(guó)申請(qǐng)的專利(圖5),主要由高校、企業(yè)和研究所組成。主要的高校有華中科技大學(xué)(17件)、南京大學(xué)(14件)、南京郵電大學(xué)(12件)、北京大學(xué)(9件)。主要的企業(yè)有浪潮(20件)、國(guó)家電網(wǎng)(18件)、中興(16件)、華為(14件) 和百度(12件)。浪潮在2013年和2015年申請(qǐng)了20件專利,主要集中在HBase表、MapReduce任務(wù)資源配置和任務(wù)調(diào)度算法、基于Hadoop的軟件測(cè)試方法、測(cè)試Hadoop集群穩(wěn)定性的方法、HDFS快照的實(shí)現(xiàn)方法、數(shù)據(jù)讀寫方法、多線程數(shù)據(jù)上傳方法、Hadoop身份認(rèn)證機(jī)制構(gòu)建方法、大數(shù)據(jù)系統(tǒng)等。中興在2005-2015年申請(qǐng)了16件專利,其中6件WO專利、10件中國(guó)專利,主題包括實(shí)現(xiàn)大數(shù)據(jù)沖擊的自動(dòng)化測(cè)試方法、大數(shù)據(jù)量分類檢索網(wǎng)頁(yè)的響應(yīng)方法、應(yīng)用于Hadoop架構(gòu)的任務(wù)調(diào)度方法、電信設(shè)備的任務(wù)管理方法、基于物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)的智能用戶分析生成用戶圖像的方法、基于Hadoop的硬盤損壞處理方法等。華為申請(qǐng)了14件專利,1件美國(guó)專利、9件WO專利和4件中國(guó)專利,主題有基于MapReduce編程架構(gòu)的任務(wù)分配方法、Hadoop集群內(nèi)部節(jié)點(diǎn)通信方法、智能手機(jī)數(shù)據(jù)處理方法、網(wǎng)站主頁(yè)大數(shù)據(jù)處理方法、Hadoop分布式文件系統(tǒng)的數(shù)據(jù)壓縮和存儲(chǔ)方法等。百度申請(qǐng)專利12件,主要分布在2012年和2014年。主題有HDFS、Hadoop程序測(cè)試方法、Hadoop的調(diào)度方法、用于MapReduce的數(shù)據(jù)排序及傳輸方法、Hadoop Streaming腳本測(cè)試方法、MapReduce分布式系統(tǒng)的文件遷移方法、MapReduce分布式系統(tǒng)的測(cè)試方法、用于HADOOP計(jì)算的輸入數(shù)據(jù)的方法等。
2.4專利家族圖
通過(guò)專利家族圖可以發(fā)現(xiàn)技術(shù)保護(hù)內(nèi)容的變遷、確定專利的價(jià)值、了解潛在的市場(chǎng)布局等。1 363件大數(shù)據(jù)技術(shù)專利的同族專利數(shù)量分布見(jiàn)圖6。由圖6可知,只有1個(gè)DWPI同族專利的數(shù)量最多,達(dá)到930件,占到68%;2~5個(gè)DWPI同族專利的數(shù)量為410件;6~9個(gè)DWPI同族專利的數(shù)量只有18個(gè);而超過(guò)10個(gè)以上DWPI 同族專利的數(shù)量則越來(lái)越少,僅僅只有5個(gè)(見(jiàn)圖7)。DE102014103377A1是FISHER-ROSEMOUNT SYSTEMS公司于2014年3月13日申請(qǐng)的有關(guān)“操作過(guò)程計(jì)劃系統(tǒng)”的德國(guó)專利,優(yōu)先權(quán)是US2013792109P和US14028860A。18個(gè)DWPI同族專利主要分布在美國(guó)(4個(gè))、英國(guó)(6個(gè))、中國(guó)(2個(gè))、德國(guó)(4個(gè))和日本(2個(gè))。US20140225757A1是CORTICA公司于2013年4月30日申請(qǐng)的有關(guān)“大數(shù)據(jù)存儲(chǔ)系統(tǒng)中基于符號(hào)空間音頻壓縮模式”的美國(guó)專利,優(yōu)先權(quán)是US2013763554P。11個(gè)DWPI 同族專利主要分布在美國(guó)(2個(gè))、英國(guó)(2個(gè))、中國(guó)(2個(gè))、日本(2個(gè))、德國(guó)(1個(gè))、韓國(guó)(1個(gè))、WO(1個(gè))。CA2843459A1是自然人于2014年2月18日申請(qǐng)的有關(guān)“分布式計(jì)算集群中對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行查詢”的加拿大專利,優(yōu)先權(quán)是US13800280A。11個(gè)DWPI同族專利主要分布在美國(guó)(2個(gè))、韓國(guó)(2個(gè))、加拿大(2個(gè))、澳大利亞(2個(gè))、EP(1個(gè))、英國(guó)(1個(gè))、日本(1個(gè))。US20130117847A1是NETFLOW LOGIC公司于2012年11月5日申請(qǐng)的有關(guān)“本地網(wǎng)絡(luò)系統(tǒng)上生成的網(wǎng)絡(luò)協(xié)議元數(shù)據(jù)的處理方法”的美國(guó)專利,優(yōu)先權(quán)是US2011556817P和US2012699823P。10個(gè)DWPI同族專利主要分布在美國(guó)(2個(gè))、韓國(guó)(1個(gè))、WO(1個(gè))、印度(1個(gè))、加拿大(1個(gè))、EP(1個(gè))、中國(guó)(1個(gè))、日本(1個(gè))、俄羅斯(1個(gè))。WO2012174471A1是ARGYLE DATA公司于2012年6月15日申請(qǐng)的有關(guān)“云計(jì)算環(huán)境中的移動(dòng)設(shè)備應(yīng)用程序分解”的PCT專利,優(yōu)先權(quán)是US2011497860P、US13525036A、US13524959A和US13524881A。10個(gè)DWPI同族專利主要分布在美國(guó)(6個(gè))、澳大利亞(2個(gè))、EP(2個(gè))、中國(guó)(1個(gè))、WO(1個(gè))、西班牙(1個(gè))。
2.5重要專利引用譜圖
重要專利引用譜圖常用表格或者柱狀圖表示,由此表或圖可以發(fā)現(xiàn)重要專利、核心專利或基礎(chǔ)專利,以及技術(shù)發(fā)展脈絡(luò)或技術(shù)演進(jìn)趨勢(shì)。前20件高被引專利(圖8)有16件美國(guó)專利和4件中國(guó)專利。由于大數(shù)據(jù)的專利基本上是在2010年之后的最近幾年申請(qǐng)的,因此總體被引次數(shù)不是很高,基本上在20次以上。
4件中國(guó)專利都是大陸申請(qǐng)人在本土申請(qǐng)的,且施引的專利權(quán)人都是中國(guó)申請(qǐng)人。CN101770402A是中國(guó)移動(dòng)公司于2008年申請(qǐng)的“MapReduce系統(tǒng)中的Map任務(wù)調(diào)度方法、設(shè)備及系統(tǒng)”的專利。共被29項(xiàng)專利引用,26項(xiàng)是中國(guó)專利,3項(xiàng)是WO專利(中興2項(xiàng)和華為1項(xiàng))。CN101996250A是中國(guó)科學(xué)院計(jì)算技術(shù)研究所于2010年申請(qǐng)的“基于Hadoop的海量流數(shù)據(jù)存儲(chǔ)和查詢方法及系統(tǒng)”的專利。共被23項(xiàng)專利引用,全部是中國(guó)專利。CN1536820A是華為公司于2003年申請(qǐng)的“提高網(wǎng)絡(luò)擁塞時(shí)數(shù)據(jù)傳輸性能的方法”的專利。共被22項(xiàng)專利引用,21項(xiàng)是中國(guó)專利,1項(xiàng)是美國(guó)專利(自引)。CN101764835A是華為公司于2008年申請(qǐng)的“基于MapReduce編程架構(gòu)的任務(wù)分配方法”的專利。共被21項(xiàng)專利引用,全部是中國(guó)專利。
16件美國(guó)專利中,US20110302583A1的被引次數(shù)最高,達(dá)到73項(xiàng),其中65項(xiàng)是美國(guó)專利引用、6項(xiàng)是中國(guó)專利(CN103106249B、CN103106249A、CN102799622B、CN102799622A、CN103593401A、CN102663005A)、1項(xiàng)是日本專利(JP05831324B2)、1項(xiàng)是PCT專利(WO2015183344A1)。該專利是耶魯大學(xué)于2011年申請(qǐng)的“帶有存儲(chǔ)裝置能夠處理數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)任務(wù)的數(shù)據(jù)處理系統(tǒng)及框架”專利。該專利共引用4件美國(guó)專利,Teradata公司、Yahoo公司各1件,亞馬遜公司2件。其中US7984043是亞馬遜公司2007年申請(qǐng),2011年公開(kāi)的利用大數(shù)據(jù)預(yù)測(cè)用戶需求,使該公司甚至能在客戶點(diǎn)擊“購(gòu)買”之前就開(kāi)始遞送商品的“預(yù)期遞送”專利。
利用專利引證信息構(gòu)建雙向多級(jí)引證樹(shù),由此確定技術(shù)領(lǐng)域的發(fā)展趨勢(shì)、技術(shù)發(fā)展路線和研究競(jìng)爭(zhēng)對(duì)手的專利布局等。專利引證圖中的節(jié)點(diǎn)可以選擇專利權(quán)人、DWPI專利權(quán)人代碼、申請(qǐng)日期、公開(kāi)日期、IPC、DWPI分類、DWPI手工代碼等。根據(jù)專利申請(qǐng)人的專利相互引證的信息,研究競(jìng)爭(zhēng)對(duì)手間技術(shù)相似性,為企業(yè)技術(shù)合作、并購(gòu)等經(jīng)營(yíng)活動(dòng)提供決策依據(jù)。圖9為該專利73項(xiàng)DWPI施引專利權(quán)人代碼。在圖9中相同顏色的節(jié)點(diǎn)代表是同一個(gè)專利權(quán)人,以被引專利的UYYA為例,綠色代表是UYYA專利權(quán)人自己引用,共有3個(gè)專利,分別是US8886631B2、US8935232B2和US9336263B2。按年份顯示該專利被引用變化,2012年共被引5次,2013年共被引9次,2014年共被引24次,2015年共被引24次,2016年共被引11次。根據(jù)大量的前向和后向引用信息,可以確定核心專利技術(shù)、基礎(chǔ)技術(shù)等,為企業(yè)技術(shù)開(kāi)發(fā)、研發(fā)投入、專利布局等提供重要幫助。73項(xiàng)施引專利共涉及33個(gè)專利權(quán)人,其中JOYENT INC最多,有13件專利,IBM和Google各有6件專利,TERADATA公司有4件專利,耶魯大學(xué)、ORACLE和PARELASTIC公司各有3件專利。其余在2件專利以下,國(guó)內(nèi)專利權(quán)人有華中科技大學(xué)、北京航空航天大學(xué)、杭州海康威視系統(tǒng)技術(shù)有限公司。
2.6專利技術(shù)分布圖
通過(guò)專利技術(shù)分布圖可以發(fā)現(xiàn)或識(shí)別主要的技術(shù)領(lǐng)域、技術(shù)布局、技術(shù)發(fā)展趨勢(shì)、技術(shù)競(jìng)爭(zhēng)對(duì)手、技術(shù)競(jìng)爭(zhēng)策略等。利用Thomson Innovation的專利聚類分析和專利地圖分析功能,對(duì)大數(shù)據(jù)技術(shù)的1363件專利的標(biāo)題和摘要進(jìn)行ThemeScape專利地形圖分析。專利地形圖的制作共分為4個(gè)階段:收集、分析、文本聚類和專利地圖。采用等高線圖作為全圖繪制的基準(zhǔn)。專利地形圖中的點(diǎn)代表一篇專利文獻(xiàn),點(diǎn)與點(diǎn)之間的距離代表專利文獻(xiàn)之間內(nèi)容的相似程度,最終形成山峰。不同山峰區(qū)域內(nèi)的專利文獻(xiàn)代表某一特定技術(shù)主題。圖10實(shí)際顯示了1 350件專利的技術(shù)總體分布,每個(gè)技術(shù)區(qū)域使用從題目或摘要中提取的3個(gè)英文關(guān)鍵詞表述相關(guān)技術(shù),反映大數(shù)據(jù)研發(fā)的技術(shù)概貌和技術(shù)分布??偣卜譃?9個(gè)技術(shù)領(lǐng)域。技術(shù)領(lǐng)域Ⅰ(Embodiment/Customer data/Web scale)、技術(shù)領(lǐng)域Ⅱ(Cloud/Cloud server/Server)、技術(shù)領(lǐng)域Ⅲ(Service/Management/Function)、技術(shù)領(lǐng)域Ⅳ(Train/Algorithm/Step)、技術(shù)領(lǐng)域Ⅴ(Mapreduce/Reduce/Job)、技術(shù)領(lǐng)域Ⅵ(Platform/Cloud/Data platform)、技術(shù)領(lǐng)域Ⅶ(Mine/Algorithm/Parallel)、技術(shù)領(lǐng)域Ⅷ(Network/Traffic/Communication)、技術(shù)領(lǐng)域Ⅸ(Table/Database/Key)、技術(shù)領(lǐng)域Ⅹ(Query/Result/Receive)、技術(shù)領(lǐng)域Ⅺ(Information/Device/Include)、技術(shù)領(lǐng)域Ⅻ(Determine/Include/Target)、技術(shù)領(lǐng)域(Storage/Store/Receive)、技術(shù)領(lǐng)域(Virtual/Machine/Virtual machine)、技術(shù)領(lǐng)域ⅩⅤ(Index/Distributed/File)、技術(shù)領(lǐng)域ⅩⅥ(Resource/Job/Hadoop)、技術(shù)領(lǐng)域ⅩⅦ(Hadoop/Device/Hadoop System)、技術(shù)領(lǐng)域ⅩⅧ(File/Node/block)、技術(shù)領(lǐng)域ⅩⅨ(Field/Combination/Result)。
地圖中不同顏色表示技術(shù)區(qū)域內(nèi)專利的數(shù)量,按照藍(lán)色、綠色、深綠色和棕色依次遞增。白色表示最高峰,即專利文獻(xiàn)最密集部分,說(shuō)明涉及該技術(shù)主題的專利申請(qǐng)量最多,是研發(fā)中的熱點(diǎn)技術(shù),圖11中所示共有5處白色區(qū)域。中間最大的一個(gè)區(qū)域?yàn)闊狳c(diǎn)Ⅰ,由技術(shù)領(lǐng)域 (Field/Combination/Result)和技術(shù)領(lǐng)域(Map/Reduce/Task)兩個(gè)山峰圍成的山谷,熱點(diǎn)主題包括多字段并行查詢方法、MapReduce作業(yè)處理系統(tǒng)等。熱點(diǎn)I等高線有76篇專利,其中中國(guó)專利48篇,美國(guó)專利19篇,PCT專利5篇,韓國(guó)2篇、歐洲、印度各1篇。右上角的熱點(diǎn)Ⅱ,技術(shù)領(lǐng)域?yàn)椋⊿torage/Store/Receive),熱點(diǎn)主題包括數(shù)據(jù)存儲(chǔ)系統(tǒng)、數(shù)據(jù)儲(chǔ)存方法等。熱點(diǎn)Ⅱ等高線有24篇專利,其中中國(guó)專利7篇,美國(guó)專利11篇,PCT專利4篇,英國(guó)、日本各1篇。右下角的熱點(diǎn)Ⅲ,技術(shù)領(lǐng)域?yàn)椋╒irtual/Machine/Virtual machine),熱點(diǎn)主題包括虛擬機(jī)、虛擬化計(jì)算系統(tǒng)等。熱點(diǎn)Ⅲ等高線有12篇專利,其中中國(guó)專利4篇,美國(guó)專利5篇,PCT專利2篇,韓國(guó)1篇。左下角的熱點(diǎn)Ⅳ,技術(shù)領(lǐng)域?yàn)椋ˋnalysis/Data analysis/Big data analysis),熱點(diǎn)主題包括數(shù)據(jù)分析方法、大數(shù)據(jù)分析系統(tǒng)等。熱點(diǎn)Ⅳ等高線有9篇專利,其中中國(guó)專利6篇,美國(guó)、韓國(guó)、印度各1篇。最下面的區(qū)域?yàn)闊狳c(diǎn)Ⅴ,由技術(shù)領(lǐng)域(File/HDFS/Hadoop)和技術(shù)領(lǐng)域(File/Node/Block)兩個(gè)山峰圍成的山谷,熱點(diǎn)主題包括分布式文件系統(tǒng)、文件管理服務(wù)系統(tǒng)等。熱點(diǎn)Ⅴ等高線有49篇專利,其中中國(guó)專利38篇,美國(guó)專利4篇,PCT專利2篇,韓國(guó)5篇。
Hadoop是一個(gè)開(kāi)源的可運(yùn)行于大規(guī)模集群上的分布式文件系統(tǒng)和運(yùn)行處理基礎(chǔ)框架。Hadoop的核心組件包括海量存儲(chǔ)的HDFS(Hadoop分布式文件系統(tǒng),Hadoop Distributed File System)與分布式并行計(jì)算的資源調(diào)度(Yarn)+編程模型(MapReduce)。在圖10顯示的1 350件專利的技術(shù)總體分布中,運(yùn)用主題檢索功能進(jìn)行檢索,含有Hadoop的專利文獻(xiàn)數(shù)量是396篇。對(duì)于核心組件之一分布式文件系統(tǒng)而言,其中含有Hadoop Distributed File System的專利文獻(xiàn)數(shù)量是75篇,含有HDFS的專利文獻(xiàn)數(shù)量是128篇,二者的并集是146篇,如圖12所示,紅色的點(diǎn)代表含有Hadoop Distributed File System的75篇專利文獻(xiàn),綠色的代表含有HDFS的128篇專利文獻(xiàn),白色的點(diǎn)是或者含有前者或者含有后者的146篇專利文獻(xiàn),說(shuō)明兩者之間還有交集,既含有前者又含有后者的有57篇。同樣對(duì)于核心組件之二分布式并行計(jì)算而言,含有MapReduce的專利文獻(xiàn)數(shù)量是233篇,含有Yarn的專利文獻(xiàn)數(shù)量是3篇,兩者的并集是235篇,兩者的交集是1篇。通過(guò)對(duì)上述5個(gè)主題進(jìn)行邏輯合并,得到571篇專利文獻(xiàn),如圖13所示,紅色代表含有Hadoop的專利文獻(xiàn),黃色代表Hadoop Distributed File System、淺綠色代表HDFS、綠色代表MapReduce、藍(lán)色代表Yarn,而白色代表含有其中兩個(gè)以上主題的文獻(xiàn)。
3結(jié)論
本文運(yùn)用專利地圖的方法掃描全球大數(shù)據(jù)技術(shù)競(jìng)爭(zhēng)態(tài)勢(shì),得出如下結(jié)論:
3.1大數(shù)據(jù)技術(shù)發(fā)展的階段特征明顯
大數(shù)據(jù)研究的專利申請(qǐng)年份或公開(kāi)年份表明:大數(shù)據(jù)技術(shù)發(fā)展分為兩個(gè)階段。第一階段為2003-2010年的技術(shù)萌芽階段,專利申請(qǐng)的數(shù)量比較少,均不超過(guò)20件(篇)。這一階段MapReduce、Hadoop、分布式文件系統(tǒng)、非關(guān)系型的數(shù)據(jù)庫(kù)、并行數(shù)據(jù)倉(cāng)庫(kù)、分布式計(jì)算等大數(shù)據(jù)的突破性技術(shù)已經(jīng)閃現(xiàn),為大數(shù)據(jù)的快速發(fā)展打下了基礎(chǔ)。第二階段為2011-2016年的快速發(fā)展階段,專利申請(qǐng)的數(shù)量上升勢(shì)頭強(qiáng)勁。
3.2美中兩國(guó)是大數(shù)據(jù)技術(shù)研發(fā)的主要國(guó)家
無(wú)論是從專利優(yōu)先權(quán)國(guó)家還是專利出版國(guó)家來(lái)看,美國(guó)和我國(guó)均是大數(shù)據(jù)研究的領(lǐng)先國(guó)家。但是從掌握大數(shù)據(jù)研究的核心技術(shù)來(lái)看,美國(guó)處于中心地帶,擁有大批一流的研發(fā)機(jī)構(gòu),如IBM、雅虎、微軟等公司。雖然我國(guó)大數(shù)據(jù)研究的專利數(shù)量較多,但缺乏原始創(chuàng)新,關(guān)于大數(shù)據(jù)研究的重點(diǎn)方向和核心基礎(chǔ)的系統(tǒng)、性能和算法較少。我國(guó)專利申請(qǐng)主要在本國(guó)申請(qǐng),較少在美國(guó)和WO申請(qǐng)。從高被引專利看,前20件專利只有4件為國(guó)內(nèi)申請(qǐng)人申請(qǐng)的中國(guó)專利,并且施引申請(qǐng)人全部是中國(guó)研發(fā)機(jī)構(gòu)。
3.3互聯(lián)網(wǎng)企業(yè)是大數(shù)據(jù)技術(shù)的重要推動(dòng)力量
從專利申請(qǐng)人可知,國(guó)外申請(qǐng)數(shù)量較多的有IBM公司、雅虎公司、惠普公司、微軟公司、谷歌公司和亞馬遜公司等,國(guó)內(nèi)申請(qǐng)人主要有浪潮公司、中興公司、華為公司和百度公司等。綜上,大數(shù)據(jù)的底層架構(gòu)和核心技術(shù)主要由谷歌公司、IBM公司等互聯(lián)網(wǎng)企業(yè)機(jī)構(gòu)掌握。
3.4大數(shù)據(jù)研發(fā)的熱點(diǎn)聚焦在Hadoop、MapReduce等技術(shù)從專利地形圖看,全球大數(shù)據(jù)技術(shù)分為19個(gè)技術(shù)領(lǐng)域,5個(gè)熱點(diǎn)技術(shù)。Hadoop[18]的核心組件包括海量存儲(chǔ)的HDFS(Hadoop分布式文件系統(tǒng))與分布式并行計(jì)算的編程模型(MapReduce)。MapReduce編程模型是谷歌公司于2004年申請(qǐng)2010年獲得授權(quán)的US7650331專利,有關(guān)“高效大規(guī)模數(shù)據(jù)處理的系統(tǒng)與方法”,包括Map模塊和Reduce模塊。
參考文獻(xiàn)
[1]Narin F.Patent bibliometrics[J].Scientometrics,1994,30(1):147-155.
[2]Iversen E J.An excursion into the patent-bibliometrics of Norwegian patenting[J].Scientometrics,2000,49(1):63-80.
[3]欒春娟.專利計(jì)量與專利戰(zhàn)略[M].大連:大連理工大學(xué)出版社,2012:28.
[4]邱均平,馬瑞敏,徐蓓,等.專利計(jì)量的概念,指標(biāo)及實(shí)證[J].情報(bào)學(xué)報(bào),2008,27(4):556-565.
[5]楊鐵軍.專利分析實(shí)務(wù)手冊(cè)[M].北京:知識(shí)產(chǎn)權(quán)出版社,2012:137.
[6]Abbas A,Zhang L,Khan S U.A literature review on the state-of-the-art in patent analysis[J].World Patent Information,2014,37:3-13.
[7]Introduction to patent map analysis[EB/OL].http:∥www.training-jpo.go.jp/en/imagesx/uploads/textvtr/pdf/Introduction%20to%20Patent%20Map%20Analysis2011.pdf,2016-08-05.
[8]肖滬衛(wèi),顧震宇.專利地圖方法與應(yīng)用[M].上海:上海交通大學(xué)出版社,2011:12.
[9]Manyika J,Chui M,Brown B,Bughin J,Dobbs R,Roxburgh C,Byers A H.Big data:The next frontier for innovation,competition,and productivity[R].2011.
[10]Hu H,Wen Y,Chua T,Li X.Towards scalable systems for big data analytics:A technology tutorial[J].IEEE Access,2014,(2):652-687.
[11]McAfee A,Brynjolfsson E.Big data:the management revolution[J].Harvard Business Review,2012,90(10):61-67.
[12]Chen H,Chiang R H L,Storey V C.Business intelligence and analytics:from big data to big impact[J].Management Information Systems Quarterly,2012,36(4):1165-1188.
[13]李鵬飛,盧瑾,辛一.基于專利的大數(shù)據(jù)技術(shù)發(fā)展情報(bào)分析及戰(zhàn)略研究[J].情報(bào)雜志,2014,33(9):45-50.
[14]劉桂鋒,盧章平,宋新平.專利地圖和知識(shí)圖譜視角的大數(shù)據(jù)比較研究[J].圖書(shū)情報(bào)知識(shí),2015,(5):89-98.
[15]何曉萍,黃龍.大數(shù)據(jù)領(lǐng)域演進(jìn)路徑,研究熱點(diǎn)與前沿的可視化分析[J].現(xiàn)代情報(bào),2015,35(4):46-51.
[16]李文娟,劉桂鋒,盧章平.基于專利分析的我國(guó)大數(shù)據(jù)產(chǎn)業(yè)技術(shù)競(jìng)爭(zhēng)態(tài)勢(shì)研究[J].情報(bào)雜志,2015,34(7):65-70.
[17]王忠,安智慧.國(guó)外城市管理大數(shù)據(jù)應(yīng)用典型案例及啟示[J].現(xiàn)代情報(bào),2016,36(9):168-172.
[18]Shvachko K,Kuang H,Radia S,Chansler R.The hadoop distributed file system[C]∥Mass Storage Systems and Technologies(MSST),2010 IEEE 26th Symposium on.IEEE,2010:1-10.
(本文責(zé)任編輯:馬卓)