尚 靜桂 亮
(1..江蘇科技大學(xué)人事處,江蘇鎮(zhèn)江 212100)
(2.江蘇科技大學(xué)經(jīng)管學(xué)院,江蘇鎮(zhèn)江 212003)
中國(guó)專(zhuān)利獎(jiǎng)是專(zhuān)門(mén)對(duì)授予專(zhuān)利權(quán)的發(fā)明創(chuàng)造給予獎(jiǎng)勵(lì)的政府部門(mén)獎(jiǎng),得到了聯(lián)合國(guó)世界知識(shí)產(chǎn)權(quán)組織(WIPO)的認(rèn)可。中國(guó)專(zhuān)利獎(jiǎng)重在強(qiáng)化知識(shí)產(chǎn)權(quán)創(chuàng)造、保護(hù)、運(yùn)用,推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展,鼓勵(lì)和表彰為技術(shù)(設(shè)計(jì))創(chuàng)新及經(jīng)濟(jì)社會(huì)發(fā)展做出突出貢獻(xiàn)的專(zhuān)利權(quán)人和發(fā)明人(設(shè)計(jì)人)。
創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略促進(jìn)了發(fā)明專(zhuān)利申請(qǐng)數(shù)量的激增,但專(zhuān)利“多而不優(yōu)”的現(xiàn)象卻日益嚴(yán)重[1]。我國(guó)產(chǎn)業(yè)結(jié)構(gòu)核心技術(shù)受制于人的情況仍然存在,隨著關(guān)鍵技術(shù)“卡脖子”問(wèn)題的頻繁出現(xiàn),注重產(chǎn)業(yè)技術(shù)自主創(chuàng)新、實(shí)現(xiàn)產(chǎn)業(yè)鏈中上游轉(zhuǎn)型,已成為我國(guó)各界產(chǎn)業(yè)發(fā)展的當(dāng)務(wù)之急。相應(yīng)地,為更好地適應(yīng)產(chǎn)業(yè)發(fā)展需要、促進(jìn)產(chǎn)業(yè)高質(zhì)量發(fā)展,未來(lái)專(zhuān)利發(fā)展戰(zhàn)略須從觸發(fā)專(zhuān)利數(shù)量激增向促進(jìn)專(zhuān)利質(zhì)量提升轉(zhuǎn)變。
在授權(quán)專(zhuān)利中占比極小的金獎(jiǎng)專(zhuān)利對(duì)相關(guān)產(chǎn)業(yè)發(fā)展起到關(guān)鍵促進(jìn)作用,蘊(yùn)含的巨大經(jīng)濟(jì)效益與戰(zhàn)略?xún)r(jià)值對(duì)技術(shù)追蹤、促進(jìn)專(zhuān)利轉(zhuǎn)化、尋求建立最佳專(zhuān)利戰(zhàn)略布局的各種產(chǎn)業(yè)十分重要[2]。挖掘這部分金獎(jiǎng)專(zhuān)利潛在創(chuàng)作規(guī)律,分析其團(tuán)隊(duì)人員結(jié)構(gòu)、組建規(guī)律,可為加快金獎(jiǎng)專(zhuān)利涌現(xiàn)、為專(zhuān)利創(chuàng)作樹(shù)立可借鑒的行業(yè)標(biāo)桿、推動(dòng)專(zhuān)利量質(zhì)并舉起到較好促進(jìn)作用。
分析金獎(jiǎng)專(zhuān)利發(fā)明人團(tuán)隊(duì)組建規(guī)律是促進(jìn)專(zhuān)利質(zhì)量提升工程的重要推動(dòng)力量,但目前關(guān)于發(fā)明者團(tuán)隊(duì)構(gòu)建規(guī)律的研究較少?,F(xiàn)有研究側(cè)重于分析發(fā)明者團(tuán)隊(duì)規(guī)模的變化規(guī)律[3-6],這是由于現(xiàn)有專(zhuān)利數(shù)據(jù)庫(kù)僅提供不具備唯一性的發(fā)明者署名信息,發(fā)明人數(shù)量是可直接獲取的唯一量化分析指標(biāo)。發(fā)明人個(gè)體信息的缺失[7-12]給文獻(xiàn)計(jì)量學(xué)下依據(jù)指標(biāo)信息分析團(tuán)隊(duì)組建規(guī)律研究帶來(lái)較大挑戰(zhàn),導(dǎo)致較難開(kāi)展發(fā)明人團(tuán)隊(duì)組建規(guī)律研究。因此,拓展指標(biāo)信息選取維度,利用現(xiàn)有指標(biāo)信息分析發(fā)明人團(tuán)隊(duì)人員專(zhuān)業(yè)領(lǐng)域交叉情況研究值得探索。
文中基于數(shù)據(jù)挖掘理論,選取表征專(zhuān)利涉及技術(shù)領(lǐng)域的IPC分類(lèi)號(hào)相關(guān)指標(biāo),使用機(jī)器學(xué)習(xí)模型識(shí)別金獎(jiǎng)專(zhuān)利,并分析最優(yōu)識(shí)別性能下各指標(biāo)重要度,以確定金獎(jiǎng)專(zhuān)利形成的關(guān)鍵性因素。具體來(lái)說(shuō),選取IPC分類(lèi)號(hào)、IPC個(gè)數(shù)、IPC部個(gè)數(shù)等表征專(zhuān)利技術(shù)領(lǐng)域交叉程度與交叉范圍的多項(xiàng)指標(biāo),用獲獎(jiǎng)情況標(biāo)注專(zhuān)利,使用隨機(jī)森林對(duì)是否獲獎(jiǎng)進(jìn)行預(yù)測(cè),并在最優(yōu)預(yù)測(cè)性能下分析各指標(biāo)對(duì)預(yù)測(cè)貢獻(xiàn)度,以確定專(zhuān)利技術(shù)領(lǐng)域交叉程度與交叉范圍是否對(duì)金獎(jiǎng)專(zhuān)利的創(chuàng)作產(chǎn)生重要影響,進(jìn)而為專(zhuān)利發(fā)明人團(tuán)隊(duì)組建提供指導(dǎo)性建議。
盡管文中所提方案很容易擴(kuò)展到其他指標(biāo),但基于專(zhuān)利數(shù)據(jù)庫(kù)中發(fā)明人信息較少且不易獲取等現(xiàn)實(shí),本研究中使用的具體指標(biāo)包含常用指標(biāo)以及專(zhuān)利所屬技術(shù)領(lǐng)域相關(guān)指標(biāo),并在表1中進(jìn)行了概述。具體而言,這些指標(biāo)分為3個(gè)主要類(lèi)別:團(tuán)隊(duì)規(guī)模級(jí)指標(biāo)、基本信息級(jí)指標(biāo)和技術(shù)領(lǐng)域交叉級(jí)指標(biāo)(所有這些指標(biāo)都將在下面詳細(xì)描述)。對(duì)于每個(gè)類(lèi)別則構(gòu)建了一個(gè)單獨(dú)的指標(biāo)體系,從不同維度選取指標(biāo),盡可能全面綜合地表征該類(lèi)別下專(zhuān)利特征,通過(guò)計(jì)算所選樣本數(shù)據(jù)的全套指標(biāo)得到樣本特征。
表1 專(zhuān)利指標(biāo)
團(tuán)隊(duì)規(guī)模[13-15]。發(fā)明人數(shù)量是可從專(zhuān)利數(shù)據(jù)庫(kù)中獲取的唯一量化指標(biāo),分析團(tuán)隊(duì)規(guī)模是否會(huì)影響專(zhuān)利獲獎(jiǎng)情況具有重大意義。隨著數(shù)據(jù)挖掘技術(shù)進(jìn)步,發(fā)現(xiàn)發(fā)明人實(shí)力、發(fā)明成果價(jià)值等信息可獲得其他團(tuán)隊(duì)規(guī)模級(jí)指標(biāo),為進(jìn)一步提供深層次發(fā)明人團(tuán)隊(duì)組建規(guī)律提供可能。
基本信息[16-18]。國(guó)民經(jīng)濟(jì)分類(lèi)個(gè)數(shù)與IPC個(gè)數(shù)代表專(zhuān)利所屬技術(shù)領(lǐng)域范圍,通過(guò)分析專(zhuān)利所屬技術(shù)領(lǐng)域范圍可知技術(shù)領(lǐng)域范圍與專(zhuān)利獲獎(jiǎng)情況之間是否相關(guān)。IPC主分類(lèi)表征專(zhuān)利所屬技術(shù)范圍的主要技術(shù)領(lǐng)域分布情況,分析該指標(biāo)可知技術(shù)領(lǐng)域的不同是否會(huì)影響到專(zhuān)利獲獎(jiǎng)情況。
技術(shù)領(lǐng)域交叉[19-21]。文中通過(guò)計(jì)算表征不同技術(shù)領(lǐng)域的IPC分類(lèi)號(hào)出現(xiàn)情況進(jìn)而確定專(zhuān)利技術(shù)領(lǐng)域交叉情況。IPC分類(lèi)號(hào)采用分層編碼方法,將專(zhuān)利分類(lèi)為部、大類(lèi)、小類(lèi)、大組、小組5級(jí)進(jìn)行編碼。文中計(jì)算不同分類(lèi)號(hào)層級(jí)下技術(shù)領(lǐng)域交叉?zhèn)€數(shù),分析領(lǐng)域交叉程度對(duì)專(zhuān)利獲獎(jiǎng)情況的影響,包括部交叉?zhèn)€數(shù)、大類(lèi)交叉?zhèn)€數(shù)、小類(lèi)交叉?zhèn)€數(shù)等指標(biāo)。有放回地重復(fù)隨機(jī)抽取n個(gè)樣本生成新的訓(xùn)練樣本集合訓(xùn)練決策樹(shù),然后按以上步驟生成m棵決策樹(shù)組成隨機(jī)森林,新數(shù)據(jù)的分類(lèi)結(jié)果按分類(lèi)樹(shù)投票多少形成的分?jǐn)?shù)而定。其實(shí)質(zhì)是對(duì)決策樹(shù)算法的一種改進(jìn),將多個(gè)決策樹(shù)合并在一起,每棵樹(shù)的建立依賴(lài)于獨(dú)立抽取的樣本。單棵樹(shù)的分類(lèi)能力可能很小,但在隨機(jī)產(chǎn)生大量的決策樹(shù)后,一個(gè)測(cè)試樣本可以通過(guò)每一棵樹(shù)的分類(lèi)結(jié)果經(jīng)統(tǒng)計(jì)后選擇最可能的分類(lèi)。
決策樹(shù)是一種利用樹(shù)形結(jié)構(gòu)進(jìn)行決策的算法,對(duì)于樣本數(shù)據(jù)根據(jù)特征進(jìn)行分叉并建立一棵樹(shù),樹(shù)的葉子結(jié)節(jié)標(biāo)識(shí)最終決策。決策樹(shù)選擇基尼指數(shù)增益值最大的特征作為該結(jié)節(jié)分裂條件,基尼指數(shù)增益值通過(guò)(式1—3)計(jì)算而得:
隨機(jī)森林是一種基于樹(shù)的機(jī)器學(xué)習(xí)算法,利用群體決策思維生成多棵決策樹(shù)來(lái)完成分類(lèi)任務(wù)。隨機(jī)森林由bootstrap重采樣從原始訓(xùn)練樣本集N中
由(1)式計(jì)算出樣本數(shù)據(jù)D的信息熵,其中pi表示類(lèi)別i樣本數(shù)量占所有樣本的比例。
由(2)式計(jì)算對(duì)于數(shù)據(jù)集D,選擇特征A作為節(jié)點(diǎn)時(shí),在特征A之后的信息熵。其中,假設(shè)特征A有k個(gè)分裂點(diǎn),即樣本專(zhuān)利D會(huì)被分為k個(gè)部分,Dj表示其中一個(gè)部分。
由(3)式計(jì)算特征A作為分裂節(jié)點(diǎn)前后樣本數(shù)據(jù)的信息增益值。其中信息增益Gain(A)表示數(shù)據(jù)集D在特征A的作用后,其信息熵減少的值。
基于隨機(jī)森林的計(jì)算原理,模型能夠?qū)λ捎玫奶卣髯兞颗c專(zhuān)利是否獲獎(jiǎng)之間的相關(guān)性進(jìn)行具體計(jì)算并排序。選取相關(guān)性排名前3的特征變量,分析其對(duì)專(zhuān)利獲獎(jiǎng)的影響,通過(guò)特征變量解讀為發(fā)明人團(tuán)隊(duì)組建規(guī)律提供建議。
登錄中國(guó)知識(shí)產(chǎn)權(quán)局網(wǎng)站(http://www.sipo.gov.cn/ztzl/zgzlj/index.htm)獲取1—23屆中國(guó)金獎(jiǎng)發(fā)明專(zhuān)利名單,共計(jì)372條,其中發(fā)明人2人以上的共300項(xiàng)。在Incopat全球?qū)@麛?shù)據(jù)庫(kù)中檢索這300項(xiàng)金獎(jiǎng)專(zhuān)利,從數(shù)據(jù)庫(kù)中隨機(jī)檢索等量非獲獎(jiǎng)專(zhuān)利數(shù)據(jù),共獲得專(zhuān)利數(shù)據(jù)集600項(xiàng)作為樣本數(shù)據(jù)。選取檢索表1中的專(zhuān)利指標(biāo)作為樣本特征,將指標(biāo)數(shù)據(jù)從數(shù)據(jù)庫(kù)導(dǎo)入excel,除技術(shù)領(lǐng)域交叉指標(biāo)需通過(guò)人工統(tǒng)計(jì)獲取外,其他指標(biāo)均可直接獲得數(shù)值。
以發(fā)明人數(shù)量、IPC個(gè)數(shù)、部交叉?zhèn)€數(shù)等7項(xiàng)專(zhuān)利指標(biāo)為專(zhuān)利特征,選取數(shù)據(jù)庫(kù)中專(zhuān)利數(shù)據(jù)后進(jìn)行預(yù)處理操作,得到專(zhuān)利特征矩陣,部分專(zhuān)利特征矩陣如表2所示。
表2 專(zhuān)利特征矩陣(部分)
表3為所選樣本專(zhuān)利的特征變量的統(tǒng)計(jì)描述,包括專(zhuān)利總樣本、金獎(jiǎng)專(zhuān)利子樣本和非金獎(jiǎng)專(zhuān)利子樣本的均值、方差及T檢驗(yàn)結(jié)果。
從表3可以看出,大部分專(zhuān)利特征變量都顯示出顯著的差異,充分說(shuō)明了所選專(zhuān)利特征變量與專(zhuān)利是否獲獎(jiǎng)的高度相關(guān)性。值得注意的是,雖然金獎(jiǎng)專(zhuān)利子樣本顯示出較高的平均值,但對(duì)應(yīng)的方差波動(dòng)也較大,顯示出金獎(jiǎng)專(zhuān)利樣本中存在較大的質(zhì)量差異。從T檢驗(yàn)結(jié)果來(lái)看,兩組專(zhuān)利樣本的均值基本都呈現(xiàn)出顯著的差異性。
表3 專(zhuān)利特征統(tǒng)計(jì)描述
專(zhuān)利特征矩陣構(gòu)建完成后,以專(zhuān)利是否獲得金獎(jiǎng)為標(biāo)簽,進(jìn)行專(zhuān)利分類(lèi)。將構(gòu)建的專(zhuān)利特征矩陣輸入隨機(jī)森林模型,隱藏所有專(zhuān)利標(biāo)簽。選取70%樣本數(shù)據(jù)作為訓(xùn)練集,為訓(xùn)練集分配標(biāo)簽,訓(xùn)練隨機(jī)森林模型,得到所有專(zhuān)利樣本的標(biāo)簽類(lèi)別。將專(zhuān)利節(jié)點(diǎn)的預(yù)測(cè)標(biāo)簽類(lèi)別與其真實(shí)標(biāo)簽類(lèi)別做對(duì)比,得出模型的分類(lèi)性能。
用精確率P(Precision)、召回率R(Recall)、F1衡量各模型的識(shí)別性能。精確率指識(shí)別為金獎(jiǎng)專(zhuān)利的樣本數(shù)據(jù)中實(shí)際的金獎(jiǎng)專(zhuān)利數(shù)量占所有識(shí)別為金獎(jiǎng)專(zhuān)利樣本數(shù)的比例,召回率指識(shí)別為金獎(jiǎng)專(zhuān)利的樣本數(shù)據(jù)中實(shí)際的金獎(jiǎng)專(zhuān)利數(shù)量占所有金獎(jiǎng)專(zhuān)利樣本數(shù)的比例,F(xiàn)1值是精確率和召回率的調(diào)和值。式中,tp表示識(shí)別為金獎(jiǎng)專(zhuān)利中真實(shí)標(biāo)簽為金獎(jiǎng)專(zhuān)利的專(zhuān)利數(shù)量,tn表示識(shí)別為金獎(jiǎng)專(zhuān)利中真實(shí)標(biāo)簽為非金獎(jiǎng)專(zhuān)利的專(zhuān)利數(shù)量,fp表示識(shí)別為非金獎(jiǎng)專(zhuān)利中真實(shí)標(biāo)簽為非金獎(jiǎng)專(zhuān)利的專(zhuān)利數(shù)量,fn表示識(shí)別為非金獎(jiǎng)專(zhuān)利中真實(shí)標(biāo)簽為金獎(jiǎng)專(zhuān)利的專(zhuān)利數(shù)量。
隨機(jī)森林分類(lèi)性能如表4所示。文中樣本數(shù)據(jù)訓(xùn)練后隨機(jī)森林的P、R、F1值分別為0.792、0.796、0.794。
表4 模型性能
基于隨機(jī)森林的計(jì)算原理,模型能夠?qū)λ捎玫奶卣髯兞颗c專(zhuān)利質(zhì)量之間的相關(guān)性進(jìn)行具體計(jì)算并排序。如圖1所示,氣泡的位置代表縱坐標(biāo)變量對(duì)于專(zhuān)利獲獎(jiǎng)的重要性程度,氣泡位置越靠右,變量越重要。MeanDecreaseAccura表示變量消除后對(duì)于隨機(jī)森林模型預(yù)測(cè)性能的影響,MeanDecreaseGini表示變量消除后對(duì)樣本信息熵減少程度的影響。
圖1 專(zhuān)利特征變量重要度
首先,文中所構(gòu)建的基于基本信息級(jí)指標(biāo)的特征變量,如國(guó)民經(jīng)濟(jì)分類(lèi)個(gè)數(shù)、IPC個(gè)數(shù)、IPC主分類(lèi)對(duì)于專(zhuān)利是否獲獎(jiǎng)的預(yù)測(cè)顯示出較高的相關(guān)性。國(guó)民經(jīng)濟(jì)分類(lèi)個(gè)數(shù)與IPC個(gè)數(shù)均代表專(zhuān)利所屬技術(shù)領(lǐng)域個(gè)數(shù),這表明成員多技術(shù)領(lǐng)域知識(shí)豐富、交叉領(lǐng)域人才儲(chǔ)備較多的發(fā)明人團(tuán)隊(duì)更具備創(chuàng)作金獎(jiǎng)專(zhuān)利的潛力。其次,發(fā)明人數(shù)量對(duì)專(zhuān)利是否獲獎(jiǎng)的預(yù)測(cè)顯示出較高相關(guān)性,表明發(fā)明人團(tuán)隊(duì)規(guī)模對(duì)高價(jià)值專(zhuān)利的創(chuàng)作具備一定影響。此外,技術(shù)領(lǐng)域交叉特征變量重要度排名中,小類(lèi)交叉?zhèn)€數(shù)在專(zhuān)利是否為金獎(jiǎng)的預(yù)測(cè)任務(wù)中顯示出更高的重要度,這表明相較于大類(lèi)交叉?zhèn)€數(shù)與部交叉?zhèn)€數(shù),小類(lèi)交叉?zhèn)€數(shù)在專(zhuān)利團(tuán)隊(duì)發(fā)明人組建過(guò)程更加重要。因此,尋找細(xì)分技術(shù)領(lǐng)域中交叉領(lǐng)域研發(fā)人員或細(xì)分技術(shù)領(lǐng)域下不同技術(shù)領(lǐng)域研發(fā)人員組建發(fā)明人團(tuán)隊(duì),更具備創(chuàng)造高價(jià)值專(zhuān)利潛力。
通過(guò)分析專(zhuān)利金獎(jiǎng)發(fā)明人團(tuán)隊(duì)組建規(guī)律可以發(fā)現(xiàn),科研團(tuán)隊(duì)建設(shè)應(yīng)特別關(guān)注以下3個(gè)方面:
(1)團(tuán)隊(duì)成員技術(shù)領(lǐng)域應(yīng)差異化。交叉領(lǐng)域研發(fā)人員或不同領(lǐng)域研發(fā)人員是團(tuán)隊(duì)組建的首選人員,由實(shí)證結(jié)果可知,專(zhuān)利涵蓋技術(shù)領(lǐng)域與專(zhuān)利價(jià)值之間存在較強(qiáng)關(guān)聯(lián)關(guān)系,選擇不同領(lǐng)域研發(fā)人員或選擇交叉領(lǐng)域人員研發(fā)專(zhuān)利可提高專(zhuān)利潛在價(jià)值,這也與當(dāng)前技術(shù)間的交叉融合日益緊密背景相符。
(2)團(tuán)隊(duì)規(guī)模應(yīng)適度化。團(tuán)隊(duì)成員數(shù)量指標(biāo)在專(zhuān)利特征變量重要度排名中位列第二,表明團(tuán)隊(duì)規(guī)模對(duì)專(zhuān)利價(jià)值影響較大。利用文獻(xiàn)計(jì)量學(xué)中基本統(tǒng)計(jì)指標(biāo)分析金獎(jiǎng)專(zhuān)利中發(fā)明人團(tuán)隊(duì)規(guī)??砂l(fā)現(xiàn),獲獎(jiǎng)專(zhuān)利發(fā)明人團(tuán)隊(duì)規(guī)模在4~6人之間較為常見(jiàn)。
(3)團(tuán)隊(duì)合作領(lǐng)域應(yīng)精細(xì)化。細(xì)分領(lǐng)域下不同技術(shù)領(lǐng)域人員之間的合作更有創(chuàng)造力,從技術(shù)領(lǐng)域交叉程度級(jí)指標(biāo)的重要度排名中可知,細(xì)分技術(shù)領(lǐng)域交叉?zhèn)€數(shù)重要度優(yōu)于大類(lèi)技術(shù)交叉?zhèn)€數(shù)。這表明在保證技術(shù)領(lǐng)域精細(xì)化的同時(shí),保證細(xì)分領(lǐng)域中的領(lǐng)域交叉合作比區(qū)分度較大領(lǐng)域之間的合作更為重要。