楊冠燦,丁 月,徐 碩,盧小賓
(1. 中國(guó)人民大學(xué)信息資源管理學(xué)院,北京 100872;2. 北京工業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100124)
新興技術(shù)(emerging technologies)一直是技術(shù)創(chuàng)新管理、科技政策制定和技術(shù)競(jìng)爭(zhēng)情報(bào)研究領(lǐng)域關(guān)注的問(wèn)題。就技術(shù)創(chuàng)新管理而言,新興技術(shù)識(shí)別可以作為先導(dǎo)研究以提升科研基金資助的效率,針對(duì)新興技術(shù)演化模式的識(shí)別能夠幫助企業(yè)降低資產(chǎn)與經(jīng)營(yíng)活動(dòng)過(guò)程中的不確定性;就科技政策制定而言,新興技術(shù)早期識(shí)別能夠幫助科技政策制定者根據(jù)當(dāng)前具有新興技術(shù)特征的產(chǎn)業(yè)與技術(shù)的發(fā)展態(tài)勢(shì)隨時(shí)調(diào)整政策工具;就技術(shù)競(jìng)爭(zhēng)情報(bào)而言,新興技術(shù)布局無(wú)疑是動(dòng)態(tài)技術(shù)競(jìng)爭(zhēng)情報(bào)分析方法中判斷企業(yè)、國(guó)家技術(shù)競(jìng)爭(zhēng)力的重要依據(jù)[1]。近年來(lái),隨著大數(shù)據(jù)挖掘技術(shù)的興起,針對(duì)海量專利數(shù)據(jù)的自動(dòng)化新興技術(shù)識(shí)別與預(yù)測(cè),逐漸成為當(dāng)前的研究熱點(diǎn)。
新興技術(shù)總是通過(guò)一定的載體來(lái)實(shí)現(xiàn)的,突出體現(xiàn)在:當(dāng)大量技術(shù)從實(shí)驗(yàn)室走出后,就需要借用一定的政府管理權(quán)力獲得市場(chǎng)技術(shù)的市場(chǎng)壟斷權(quán)利,從而確保研究機(jī)構(gòu)前期所投入的成本能夠合理回收,而專利是保護(hù)這種壟斷權(quán)利的有效手段。正因?yàn)槿绱耍瑥牧硪环矫鎭?lái)看,專利文獻(xiàn)以及圍繞專利實(shí)施各主體的行為包含了識(shí)別新興技術(shù)的關(guān)鍵信號(hào)。因此,基于專利文獻(xiàn)及各專利實(shí)施主體的行為所構(gòu)建的指標(biāo)是新興技術(shù)識(shí)別的重要切入點(diǎn)。然而,新興技術(shù)識(shí)別是一個(gè)復(fù)雜問(wèn)題,即便假定基于專利文獻(xiàn)及各專利實(shí)施主體的行為所構(gòu)建的指標(biāo)已經(jīng)完整地包含了預(yù)測(cè)新興技術(shù)出現(xiàn)的全部信息,但在實(shí)際建模過(guò)程中,仍需要考慮技術(shù)發(fā)展路徑的不確定性、模糊性、顛覆性等因素。
制藥行業(yè)是典型的高新技術(shù)行業(yè),在該行業(yè)中,專利信號(hào)貫穿藥物研發(fā)的始終。一方面,F(xiàn)DA(Food and Drug Administration,美國(guó)食品和藥物管理局)授權(quán)的新藥可以視為是藥物領(lǐng)域的根本性創(chuàng)新;另一方面,在藥物領(lǐng)域獲得FDA 的藥物許可與專利局的專利許可之間具有千絲萬(wàn)縷的聯(lián)系。任何藥物從研發(fā)到產(chǎn)品上市往往需要經(jīng)歷平均十年左右的研發(fā)、多期臨床試驗(yàn)周期[2-3],近年來(lái),一項(xiàng)新藥的平均投入成本則更是高達(dá)十億美元。因此,藥物申請(qǐng)參與人往往都對(duì)專利申請(qǐng)、藥物申請(qǐng)過(guò)程進(jìn)行了細(xì)致的布局與規(guī)劃,而專利指標(biāo)能很好地將這些布局與規(guī)劃行為納入其中,能夠預(yù)判技術(shù)的發(fā)展趨勢(shì)。最后,藥物產(chǎn)品要想上市需要同時(shí)獲得兩個(gè)機(jī)構(gòu)的許可,核心新藥產(chǎn)品對(duì)整個(gè)藥物市場(chǎng)往往會(huì)產(chǎn)生顛覆性的影響,而癌癥藥物專利還具備一個(gè)優(yōu)勢(shì),即該領(lǐng)域數(shù)據(jù)集具有非常好的開(kāi)放共享特征[4-5]。因此,本研究選擇癌癥藥物領(lǐng)域作為切入點(diǎn),選擇利用FDA 授權(quán)作為新興技術(shù)預(yù)測(cè)的代理指標(biāo)是合適的。
本研究的核心目的是識(shí)別未來(lái)哪些癌癥藥物專利最有可能成為新興技術(shù),這里,判斷新興技術(shù)的標(biāo)準(zhǔn)是該專利是否獲得FDA 授權(quán)?;谶@一思路,本研究希望在監(jiān)督學(xué)習(xí)的框架下,識(shí)別哪些專利比其他專利更有可能成為新興技術(shù),以及評(píng)估模型在預(yù)測(cè)癌癥藥物專利授權(quán)后早期階段的模型準(zhǔn)確性。本研究的貢獻(xiàn)主要在于:從前向視角(ex ante)進(jìn)行預(yù)測(cè)而不是采用回溯視角(ex post),這種視角的變化使本研究在構(gòu)建專利指標(biāo)時(shí)更注重時(shí)序因素;對(duì)靜態(tài)指標(biāo)與動(dòng)態(tài)指標(biāo)進(jìn)行區(qū)別處理,如設(shè)定前向?qū)@?、前向?qū)@易逯笜?biāo),從而能夠更好地?cái)M合新興技術(shù)識(shí)別人員的真實(shí)業(yè)務(wù)場(chǎng)景中對(duì)早期新興技術(shù)潛力進(jìn)行預(yù)測(cè)的需求。
雖然,新興技術(shù)在很長(zhǎng)一段時(shí)間內(nèi)被很多研究者當(dāng)做研究的主題,但是一直以來(lái),科研人員對(duì)于什么才算是新興技術(shù)并沒(méi)有達(dá)成共識(shí)[6]。許多研究提出的新興技術(shù)的定義和概念有所重疊,但同時(shí)指出了新興技術(shù)的不同特點(diǎn)。Day 等[7]將新興技術(shù)定義為一種基于科學(xué)的創(chuàng)新,認(rèn)為這種創(chuàng)新需要有創(chuàng)建一個(gè)新的行業(yè)或改造現(xiàn)有行業(yè)的巨大潛力。Mar‐tin[8]則注重新興技術(shù)的經(jīng)濟(jì)影響:認(rèn)為新興技術(shù)不僅應(yīng)該對(duì)特定領(lǐng)域產(chǎn)生影響,還應(yīng)該對(duì)整個(gè)社會(huì)經(jīng)濟(jì)體系產(chǎn)生影響,因此引入了新興通用技術(shù)的概念,并強(qiáng)調(diào)了技術(shù)領(lǐng)域的廣泛性和融合特征??紤]到新興技術(shù)的不確定性和模糊性,Cozzens 等[9]將一項(xiàng)新興技術(shù)概念化為一項(xiàng)表現(xiàn)出巨大潛力但尚未顯示其重要價(jià)值或達(dá)成任何共識(shí)的技術(shù)。直到2015年,Rotolo 等[10]在研究中總結(jié)了新興技術(shù)的五個(gè)關(guān)鍵特征,即新穎性、快速增長(zhǎng)、一致性、顯著影響以及不確定性和模糊性,對(duì)新興技術(shù)定義和特點(diǎn)的爭(zhēng)論才逐漸趨于統(tǒng)一。這項(xiàng)研究所歸納的特征被科研人員廣泛接受,并成為了此后許多研究的前提和基礎(chǔ)。
德?tīng)柗品ā⑶榫胺治龇?、技術(shù)路線圖法、文獻(xiàn)計(jì)量法、測(cè)度模型法等是技術(shù)預(yù)測(cè)領(lǐng)域較常用的方法。這些早期的新興技術(shù)識(shí)別很大程度上依賴于專家智慧,如Delphi,以及大規(guī)模調(diào)查方法[11]。然而,專家判斷會(huì)受到主觀性不一致的影響[12]。隨著技術(shù)的不斷擴(kuò)散和創(chuàng)新周期的縮短,以專家智慧集成方法變得耗時(shí)且需要大量人工勞動(dòng),而且無(wú)法應(yīng)對(duì)技術(shù)融合導(dǎo)致的顛覆性技術(shù)涌現(xiàn)趨勢(shì)[13-14]。因此,當(dāng)前迫切需要基于大數(shù)據(jù)的數(shù)據(jù)挖掘方法來(lái)改進(jìn)傳統(tǒng)的新興技術(shù)識(shí)別流程。
在基于專利進(jìn)行新興技術(shù)識(shí)別方面,從前的科研人員進(jìn)行了多方面的探索。érdi 等[15]提出了利用專利引文網(wǎng)絡(luò)來(lái)識(shí)別快速發(fā)展的技術(shù)的結(jié)構(gòu)性漏洞指標(biāo)。Breitzman 等[16]開(kāi)發(fā)了新興技術(shù)集群模型,利用來(lái)自多個(gè)系統(tǒng)的專利引用信息來(lái)識(shí)別新興技術(shù)。Arora 等[17]提出了一種更新的搜索方法,通過(guò)使用包含和排除術(shù)語(yǔ)來(lái)識(shí)別新興的技術(shù)領(lǐng)域。Lee 等[18]提出將文本挖掘技術(shù)與局部異常因子相結(jié)合來(lái)識(shí)別新的專利。Moehrle 等[19]引入了語(yǔ)義專利分析來(lái)衡量專利之間的距離,以識(shí)別高新穎性發(fā)明。Yoon等[20]提出了一種基于主體-行動(dòng)-對(duì)象(subject-ac‐tion-object,SAO)的語(yǔ)義專利分析方法,以識(shí)別快速發(fā)展的技術(shù)趨勢(shì)。Joung 等[21]提出了一項(xiàng)基于技術(shù)關(guān)鍵詞的專利分析來(lái)監(jiān)測(cè)新興技術(shù)。Ju 等[22]提出了一個(gè)質(zhì)量功能部署(quality function deployment,QFD)框架,以促進(jìn)對(duì)反映客戶未來(lái)需求的新興技術(shù)的研發(fā)規(guī)劃。
考慮到新興技術(shù)識(shí)別本質(zhì)上是一個(gè)動(dòng)態(tài)過(guò)程,一些學(xué)者更加關(guān)注新興技術(shù)的動(dòng)態(tài)。例如,Shin等[23]運(yùn)用曲線擬合技術(shù)計(jì)算專利預(yù)計(jì)被引用次數(shù)及其方差,是分子放大技術(shù)未來(lái)收益和風(fēng)險(xiǎn)的代表。Lee 等[13]和Jang 等[24]提出了一種隨機(jī)專利引文分析方法,利用未來(lái)的引文數(shù)量作為代表,評(píng)估圖像疊加技術(shù)和分子放大技術(shù)在感興趣的時(shí)間段內(nèi)的未來(lái)影響。Lee 等[12,25]開(kāi)發(fā)了一種隨機(jī)技術(shù)生命周期分析方法,利用專利指標(biāo)來(lái)檢驗(yàn)和預(yù)測(cè)一項(xiàng)技術(shù)在其生命周期中的發(fā)展,并分別對(duì)分子放大技術(shù)和光刻技術(shù)進(jìn)行了案例研究。
相比于無(wú)監(jiān)督學(xué)習(xí)方法的結(jié)果可控性較低,基于監(jiān)督學(xué)習(xí)的識(shí)別方法有其特有的優(yōu)勢(shì)[26]?;诒O(jiān)督學(xué)習(xí)的分類算法可以更好地面向識(shí)別場(chǎng)景,通過(guò)將新興技術(shù)識(shí)別問(wèn)題轉(zhuǎn)化為尋找能夠有效代表不同測(cè)量維度的特征并在此基礎(chǔ)上構(gòu)建模型的問(wèn)題,能夠更具前瞻性地識(shí)別新興技術(shù)的涌現(xiàn)[1]?;诳陀^測(cè)量維度的新興技術(shù)識(shí)別方法對(duì)整個(gè)新興技術(shù)識(shí)別方法論體系的完善產(chǎn)生了重要影響,說(shuō)明新興技術(shù)識(shí)別方法開(kāi)始逐漸考慮新興技術(shù)的內(nèi)核,并將識(shí)別流程模式化以更便捷地應(yīng)用于新興技術(shù)識(shí)別。這種思路能夠通過(guò)不斷改進(jìn)指標(biāo)的賦值和計(jì)算辦法,可以促進(jìn)提高新興技術(shù)識(shí)別的準(zhǔn)確性和效率。
前人對(duì)于新興技術(shù)的特征、評(píng)價(jià)指標(biāo)和識(shí)別方法都進(jìn)行了許多有價(jià)值的探索,其中最為研究者廣泛認(rèn)可的是Rotolo 的觀點(diǎn)。Rotolo 等[10]總結(jié)了新興技術(shù)的五個(gè)關(guān)鍵特征,即①新穎性;②快速增長(zhǎng);③一致性;④顯著影響;⑤不確定性和模糊性;該研究所歸納的特征在后續(xù)的研究中被廣泛使用,并成為目前新興技術(shù)識(shí)別相關(guān)研究的重要前提和基礎(chǔ)。但需要注意的是,Rotolo 等[10]提出的特征在落實(shí)到具體的研究和應(yīng)用方面存在一定挑戰(zhàn)性,尤其對(duì)于“不確定性和模糊性”這一特征的內(nèi)涵和量化方式,學(xué)界存在一定爭(zhēng)議;此外,應(yīng)當(dāng)指出,諸如“快速增長(zhǎng)”和“一致性”等特征需要隨時(shí)間推移不斷的監(jiān)測(cè)才能加以界定,因此該框架在應(yīng)用到早期識(shí)別方面也存在一定的困難。更重要的是,Roto‐lo 等[10]提出的框架是普適性的綜合概念,但各個(gè)領(lǐng)域的新興技術(shù)都有其獨(dú)有的特征,因而,在對(duì)具體領(lǐng)域的新興技術(shù)進(jìn)行識(shí)別時(shí),應(yīng)考慮結(jié)合領(lǐng)域特征加以改進(jìn)。
本研究所采用的數(shù)據(jù)主要來(lái)源是“USTPO 癌癥登月專利數(shù)據(jù)”(Moonshot Cancer Drug Patents),該數(shù)據(jù)對(duì)于本研究的重要意義在于:基于嚴(yán)格的專利檢索策略給出了在USPTO(United States Patent and Trademark Office)授權(quán)專利(1980—2017 年)中癌癥藥物專利的邊界,這一點(diǎn)非常關(guān)鍵,實(shí)際上,Wagner 等[27]的研究是基于藥物數(shù)據(jù)(IMS Lifecycle R&D Focus Database)的,雖然也是合理的,但這與專利分析的傳統(tǒng)流程不一致,即不是從大量技術(shù)領(lǐng)域的專利數(shù)據(jù)中直接做預(yù)測(cè),而是從經(jīng)專家檢驗(yàn)過(guò)有可能獲得藥物許可的專利中去做預(yù)測(cè),后者具有領(lǐng)域限制,但真實(shí)情景下,專利分析人員更有可能是在一個(gè)更廣泛的數(shù)據(jù)范圍內(nèi)進(jìn)行檢索,利用預(yù)測(cè)模型在早期階段對(duì)新興技術(shù)進(jìn)行研判。
“USTPO 癌癥登月專利數(shù)據(jù)”包含了已發(fā)表的專利申請(qǐng)和已授予的癌癥研究與開(kāi)發(fā)(research &development,R&D)相關(guān)的專利的詳細(xì)信息。該數(shù)據(jù)集是通過(guò)執(zhí)行復(fù)雜的搜索查詢和驗(yàn)證程序生成的,從而保證了檢索結(jié)果的可重復(fù),更詳細(xì)的搜索查詢可以參考文獻(xiàn)[28]。同時(shí),為了補(bǔ)充該數(shù)據(jù)集中的不完整信息,我們進(jìn)一步借助PatentsView API、
EPO OPS API (European Patent Offices Open Patent Services API)對(duì)著錄數(shù)據(jù)及專利家族信息進(jìn)行了補(bǔ)充。另外,由于“USTPO 癌癥登月專利數(shù)據(jù)”中的FDA 許可藥物關(guān)聯(lián)信息僅截至2016 年,因此,我們通過(guò)FDA 批準(zhǔn)的藥品數(shù)據(jù)(俗稱“橘皮書”數(shù)據(jù))補(bǔ)充了2016 年以后的癌癥藥物關(guān)系信息。
數(shù)據(jù)預(yù)處理方面,選取了27 萬(wàn)“USTPO 癌癥登月專利數(shù)據(jù)”中授權(quán)專利信息,篩選后剩余自1980 年以來(lái)的111345 條記錄;進(jìn)一步地,根據(jù)FDA授權(quán)與否構(gòu)建模型的因變量,其中,包含F(xiàn)DA 授權(quán)的專利授權(quán)數(shù)量為1275 條,未獲得FDA 授權(quán)的專利授權(quán)數(shù)為110070 條??紤]到特別早期的藥物專利在專利申請(qǐng)流程以及藥物申請(qǐng)流程上可能和近期的數(shù)據(jù)存在較大差異,最終,選擇2005 年1 月1 日—2015 年12 月31 日的數(shù)據(jù)。篩選后數(shù)據(jù)包含66241條,其中,F(xiàn)DA 授權(quán)的標(biāo)簽數(shù)據(jù)為838 條,F(xiàn)DA 非授權(quán)的標(biāo)簽數(shù)據(jù)為65403 條。
在特征選擇時(shí),本研究在自變量選擇上主要考慮三個(gè)方面因素。首先,自變量能夠反映技術(shù)的發(fā)展趨勢(shì)或新興技術(shù)某一方面的特征;其次,自變量需要區(qū)分為靜態(tài)變量和動(dòng)態(tài)變量,針對(duì)動(dòng)態(tài)變量,根據(jù)需要前向視角的要求,采取迭代計(jì)算一項(xiàng)專利在其授權(quán)后1 年、2 年、3 年不同階段,對(duì)應(yīng)動(dòng)態(tài)指標(biāo)的動(dòng)態(tài)增加量,同時(shí),由于一項(xiàng)專利在其授權(quán)時(shí)可能已經(jīng)會(huì)存在專利家族成員,而該指標(biāo)也是非常重要的特征,所以單獨(dú)計(jì)算該指標(biāo);最后,為了與之前的相關(guān)研究展開(kāi)比較,本研究盡可能選取了先前研究中被廣泛采用的指標(biāo)[29-31],具體如表1 和表2 所示。
表1 預(yù)測(cè)模型的指標(biāo)及解釋
表2 變量描述性統(tǒng)計(jì)
本研究采用了從時(shí)間采樣(out-of-time sam‐pling)的采樣方法。這種依據(jù)時(shí)間的抽樣方式是“留出法”(hold-out sampling)中的一種形式,該方法是一種定向的、非隨機(jī)的留出采樣,其目標(biāo)是盡可能地使訓(xùn)練集和測(cè)試集的劃分具有代表性,簡(jiǎn)單地說(shuō),就是用來(lái)自一個(gè)時(shí)間段的數(shù)據(jù)來(lái)構(gòu)建訓(xùn)練集,而使用來(lái)自另一個(gè)時(shí)間段的數(shù)據(jù)來(lái)構(gòu)建測(cè)試集[33]。從FDA 審批的特點(diǎn)來(lái)看,正好體現(xiàn)出如下特點(diǎn):FDA 批準(zhǔn)的成功率在過(guò)去幾年中一直在變化,同時(shí),由于癌癥數(shù)據(jù)覆蓋的時(shí)間很長(zhǎng),F(xiàn)DA 批準(zhǔn)的一些專利的特征似乎也在演變。鑒于此,創(chuàng)建模型的目的是通過(guò)量化指標(biāo)去識(shí)別未來(lái)的新FDA 授權(quán)成功的可能性,因而,分割時(shí)間最好接近當(dāng)前日期,才能使測(cè)試集更貼近未來(lái)的情況,得到更加接近真實(shí)的模型效果。
因此,本研究根據(jù)從時(shí)間采樣方法對(duì)訓(xùn)練集和測(cè)試集進(jìn)行劃分,這里有幾點(diǎn)具體考慮。在模型選擇時(shí)刪除太舊的數(shù)據(jù),只選取2005 年以后的樣本數(shù)據(jù)作為數(shù)據(jù)集;根據(jù)指標(biāo)的選擇,選取3 年為度量動(dòng)態(tài)指標(biāo)的時(shí)間窗口,由于目前的專利信息更新到2019 年8 月,無(wú)法獲得2019 年完整的數(shù)據(jù),遂將不足1 年的2019 年的不完全數(shù)據(jù)進(jìn)行排除,將2018 年年底作為截止日期,反向追溯3 年作為指標(biāo)抽取的時(shí)間窗口(2015-12-31 至2018-12-31);最終,根據(jù)從時(shí)間采樣方法,選取最近一年(2015-01-01 至2015-12-31) 的數(shù)據(jù)(7650 條) 作為測(cè)試集,以2015-01-01 為劃分日期,將2015-01-01 之前的數(shù)據(jù)(54338 條)作為訓(xùn)練集。
對(duì)于一般預(yù)測(cè)模型而言,如果通過(guò)采樣能夠獲得代表原始數(shù)據(jù)的數(shù)據(jù)子集,就能夠有效地提升模型的運(yùn)行效率。但本研究中所面對(duì)的數(shù)據(jù)是典型的非均衡數(shù)據(jù),如果不進(jìn)行適當(dāng)?shù)牟蓸?,往往一般的分類算法就無(wú)法有效地開(kāi)展分類,因此,對(duì)于訓(xùn)練集中的非均衡數(shù)據(jù)進(jìn)行采樣具有非常重要的作用。
本研究針對(duì)非均衡數(shù)據(jù)比例IR(imbalanced ra‐tio) =838/65403(訓(xùn)練集中),即少數(shù)樣本(FDA授權(quán)專利)與多數(shù)樣本(非FDA 授權(quán)專利)的情況,采用SMOTE (synthetic minority over-sampling technique)[34]采樣方法,對(duì)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中,達(dá)到消除少數(shù)類與多數(shù)類之間的數(shù)據(jù)分布不平衡的問(wèn)題的目的。SMOTE 采樣的具體思路[34]如下:
(1)對(duì)于少數(shù)樣本,依次計(jì)算其中每一個(gè)樣本到本類中其他樣本的歐幾里得距離,得到改為樣本的k近鄰;
(2)根據(jù)少數(shù)類與多數(shù)類之間的不平衡比例,設(shè)置一個(gè)過(guò)采樣的倍率N,對(duì)于少數(shù)類中的每個(gè)樣本x,從它的k近鄰中隨機(jī)地選取多個(gè)樣本,假設(shè)選擇的近鄰為xn;
(3)最后,選擇出xn后,進(jìn)行新的樣本集合的創(chuàng)建,其公式為
根據(jù)SMOTE 采樣方法采樣后,訓(xùn)練集中多數(shù)樣本和少數(shù)樣本達(dá)到均衡,最終,訓(xùn)練集中的樣本數(shù)量為108795 項(xiàng)專利。進(jìn)一步根據(jù)分層采樣方法將訓(xùn)練集中的數(shù)據(jù)拆分為訓(xùn)練集和驗(yàn)證集,得到了訓(xùn)練集(76156,70%)和驗(yàn)證集(32639,30%)。對(duì)于測(cè)試集,沒(méi)有采用SMOTE 采樣,保持了原始的數(shù)據(jù)不均衡分布。
本研究采用邏輯回歸(logistic regression)模型對(duì)FDA 是否授權(quán)進(jìn)行識(shí)別。選擇邏輯回歸模型的理由主要是基于兩點(diǎn):一方面,過(guò)去大量評(píng)價(jià)新興技術(shù)形成、專利高價(jià)值評(píng)價(jià)的模型都是基于邏輯回歸模型的[35-36],因此,選擇邏輯回歸模型有利于與過(guò)去的研究開(kāi)展比較;另一方面,邏輯回歸具有一定的模型可解釋性,這一點(diǎn)使我們不僅能夠知道不同模型最終的績(jī)效,也能夠了解模型所包含不同變量對(duì)模型的影響。
邏輯回歸的基本假設(shè)是研究數(shù)據(jù)服從伯努利分布,該模型利用極大似然函數(shù)的方法確定模型參數(shù),最終達(dá)到數(shù)據(jù)二分類的目的;邏輯回歸的目的就是最小化預(yù)測(cè)可能性,其函數(shù)[36]為
假設(shè)函數(shù)P(y=1)≥0.5 時(shí),我們預(yù)測(cè)成正類;反之,預(yù)測(cè)為負(fù)類。在這里,本研究采用極大似然法來(lái)對(duì)參數(shù)進(jìn)行估計(jì)。極大似然法(the method of maximum likelihood)是在知道隨機(jī)樣本滿足某種概率分布,卻又不清楚概率分布的具體參數(shù)的狀況下,進(jìn)行多次試驗(yàn),觀察試驗(yàn)結(jié)果,推出參數(shù)的大概值的一種參數(shù)估計(jì)方式,即在參數(shù)θ的可能取值范圍內(nèi),選取使L(θ)達(dá)到最大的參數(shù)值θ,作為參數(shù)θ的估計(jì)值。
本研究設(shè)計(jì)了4 個(gè)不同的模型。模型1 只包含不隨時(shí)間變化的變量。模型2~模型4 則在模型1 的基礎(chǔ)上增加了一組隨時(shí)間變化的自變量(即“前向?qū)@易濉?~3 年,“前向引文”1~3 年),模型2~模型4 中增加的部分,分別是這組隨時(shí)間變化的變量在專利授權(quán)后第1~3 年的對(duì)應(yīng)值。
本研究所采用的10 類15 個(gè)指標(biāo),所有指標(biāo)的P值均小于0.001,說(shuō)明其對(duì)模型結(jié)果作用顯著。每類指標(biāo)在模型1~模型4 中對(duì)模型結(jié)果的作用方向均保持不變,其中5 類指標(biāo)一直發(fā)揮正向影響,5 類指標(biāo)發(fā)揮負(fù)向影響,如表3 所示。
表3 變量影響系數(shù)表
在對(duì)模型發(fā)揮負(fù)項(xiàng)影響的5 類指標(biāo)中,有4 類指標(biāo)(“原創(chuàng)性”“專利范圍”“PCT 種類”“美國(guó)參考文獻(xiàn)”)對(duì)模型的影響力一直十分穩(wěn)定,沒(méi)有隨動(dòng)態(tài)因素的加入和時(shí)間的推移產(chǎn)生明顯變化,其影響力大小幾乎持平?!皩@f(shuō)明書長(zhǎng)度”在模型1~模型4 中一直發(fā)揮著強(qiáng)的負(fù)向作用,且其負(fù)向影響力的大小隨時(shí)間的推移而不斷增加,其影響力增長(zhǎng)速度基本保持穩(wěn)定。
在對(duì)模型發(fā)揮正向影響的5 類指標(biāo)中,“權(quán)利要求數(shù)量”隨時(shí)間的推移呈現(xiàn)出緩慢下降的趨勢(shì),但總體而言,其在模型1~模型4 中的影響力基本保持穩(wěn)定,變化程度很小?!皣?guó)外參考文獻(xiàn)數(shù)”在模型1~模型4 中一直發(fā)揮著較強(qiáng)的正向影響因素;在模型1~模型3 中,其正向影響力適中,位列第一;在模型2 和模型3 中,隨著“前向?qū)@易濉焙汀扒跋蛞摹庇绊懥Φ脑鰪?qiáng),其影響力在明顯下降后呈現(xiàn)出穩(wěn)定趨勢(shì);綜合來(lái)看,其正向影響始終保持在前兩位。“專利家族次序”(即專利通過(guò)批準(zhǔn)時(shí)的專利家族數(shù)量),這一指標(biāo)在模型1 中發(fā)揮著較強(qiáng)的正向作用;其正向影響力的大小在模型1 和模型2中僅次于“國(guó)外參考文獻(xiàn)”,而在模型3 和模型4中,其正向影響力較模型1 有一定程度的降低,排在第四位;綜合來(lái)看,其影響力的大小基本保持穩(wěn)定,變化幅度不大。
兩個(gè)動(dòng)態(tài)指標(biāo)“前向?qū)@易?~3 年”和“前向?qū)@?~3 年”,在模型2~模型4 中的作用均為正向,且呈現(xiàn)隨時(shí)間推移的增長(zhǎng)趨勢(shì)。這兩個(gè)指標(biāo)在模型1 和模型2 中影響力增長(zhǎng)幅度較大,在模型3和模型4 中影響力增幅相對(duì)較小。比較而言,前向?qū)@牡脑鲩L(zhǎng)幅度強(qiáng)于專利家族,這與前人對(duì)于專利引文在預(yù)示專利價(jià)值方面的作用會(huì)隨時(shí)間推移而增長(zhǎng)的看法是一致的。經(jīng)過(guò)時(shí)間推移,前向?qū)@脑谀P? 中已經(jīng)是正向影響力最高的指標(biāo)了。“發(fā)明人數(shù)量”在模型1~模型4 中的正向影響力基
本保持穩(wěn)定,其正向影響作用體現(xiàn)出發(fā)明人間的優(yōu)勢(shì)互補(bǔ)對(duì)于專利價(jià)值提高所具有的正向幫助。
本研究采用了交叉驗(yàn)證的方式對(duì)數(shù)據(jù)進(jìn)行了10次隨機(jī)劃分并重復(fù)試驗(yàn),評(píng)估后取各項(xiàng)參數(shù)的平均值,從而進(jìn)一步確保模型結(jié)果的科學(xué)性和準(zhǔn)確性。交叉驗(yàn)證后,得到基于驗(yàn)證集的模型結(jié)果和基于測(cè)試集的模型結(jié)果,如表4 和表5 所示。
表4 基于驗(yàn)證集的模型績(jī)效
表5 基于測(cè)試集的模型績(jī)效
在模型1 的基礎(chǔ)上,在模型2~模型4 中分別加入第1~3 年的專利家族年內(nèi)增長(zhǎng)量和第1~3 年的專利被引頻次年內(nèi)增長(zhǎng)量。通過(guò)觀察驗(yàn)證集的模型結(jié)果可以發(fā)現(xiàn),模型的查準(zhǔn)率、F值和召回率,均呈現(xiàn)出隨時(shí)間推移的遞增狀態(tài),其各個(gè)指標(biāo)均在模型2 到模型3 間出現(xiàn)了最大的增幅。綜合各項(xiàng)指標(biāo)的趨勢(shì)來(lái)看,我們可以容易地得出一個(gè)結(jié)論,在驗(yàn)證集中,模型效果隨著時(shí)間的推移而逐漸變得更好,這證明隨著時(shí)間的推移,動(dòng)態(tài)指標(biāo)中新增的信息對(duì)于預(yù)測(cè)模型而言是有益的。
觀察測(cè)試集上的結(jié)果可以看到,模型1~模型4中各項(xiàng)指標(biāo)均呈現(xiàn)了上升趨勢(shì)。但一個(gè)值得注意的問(wèn)題是,在對(duì)于FDA許可專利預(yù)測(cè)最關(guān)鍵的指標(biāo)——召回率(recall)上,模型預(yù)測(cè)結(jié)果保持了與驗(yàn)證集相同的績(jī)效;但在另一個(gè)指標(biāo)——精準(zhǔn)率(precision)上,則有較大的降幅,例如,在模型4 中,精準(zhǔn)率僅有5.73%(66/1152),即模型4 總共預(yù)測(cè)了1152 個(gè)樣本為正樣本(即FDA 許可),但僅有66 個(gè)專利最終獲得FDA 的許可。事實(shí)上,對(duì)于本例中所針對(duì)的癌癥藥物預(yù)測(cè)模型而言,召回率和精準(zhǔn)率的意義并不是完全等同的,實(shí)踐中我們更關(guān)注于能否盡可能將那些具有市場(chǎng)潛力的癌癥藥物專利都提前預(yù)測(cè)出來(lái),這可以幫助企業(yè)在市場(chǎng)競(jìng)爭(zhēng)方面取得極大的優(yōu)勢(shì),從這個(gè)意義而言,召回率無(wú)疑是關(guān)鍵的,且結(jié)果支持了該觀點(diǎn);精準(zhǔn)率低則意味著預(yù)測(cè)可能存在一定程度的錯(cuò)誤,即將一定比例最終未能市場(chǎng)化的專利預(yù)測(cè)了出來(lái)。精準(zhǔn)率低會(huì)最終影響企業(yè)的決策成本,但對(duì)企業(yè)商業(yè)決策的影響要弱于召回率。
另外,該問(wèn)題是典型的數(shù)據(jù)極度不均衡導(dǎo)致的,對(duì)于這種問(wèn)題最終評(píng)判的標(biāo)準(zhǔn)不能僅依賴查準(zhǔn)率(accuracy)或者F值(F-measure),需要綜合來(lái)評(píng)價(jià)。我們進(jìn)一步引入提升法來(lái)衡量模型的有效性,提升(lift)是“運(yùn)用該模型”和“未運(yùn)用該模型”所得結(jié)果的比值。圖1 顯示了模型4 的提升圖和累積提升圖,該圖是衡量模型性能的可視化輔助工具。提升圖的橫坐標(biāo)展示的是模型4 對(duì)測(cè)試集進(jìn)行預(yù)測(cè)的全部結(jié)果,以及按照預(yù)測(cè)概率從高到低排序的結(jié)果;縱坐標(biāo)則展示的是提升值,即“運(yùn)用該模型”和“未運(yùn)用該模型”所得結(jié)果的比值。根據(jù)圖1 顯示,在模型預(yù)測(cè)前10%具有高概率獲得許可專利時(shí),在其預(yù)測(cè)結(jié)果的準(zhǔn)確性上,模型4 較隨機(jī)模型有6 倍以上的優(yōu)勢(shì);而當(dāng)模型預(yù)測(cè)前20%具有高概率獲得許可專利時(shí),模型4 的預(yù)測(cè)優(yōu)勢(shì)仍然明顯(接近2 倍),觀察累積提升曲線,如果我們?cè)O(shè)定判定獲得許可專利的概率閾值為0.5,模型4 仍有2 倍于隨機(jī)模型的優(yōu)勢(shì)。因此,盡管F值和精準(zhǔn)率(precision)不理想,但通過(guò)結(jié)合提升圖,我們有理由確認(rèn)基于動(dòng)態(tài)指標(biāo)所構(gòu)建的模型是有效的。
為了進(jìn)一步驗(yàn)證模型的效果,本研究構(gòu)建了模型的ROC曲線(receiver operating characteristic curve),如圖2 所示。在二分類任務(wù)中,AUC (area under curve)值是一個(gè)概率值,是指根據(jù)當(dāng)前的分類算法,隨機(jī)抽取一對(duì)正/負(fù)樣本,模型將這個(gè)正樣本排在負(fù)樣本之前的概率大小。因此,AUC 被用來(lái)表示模型準(zhǔn)確性,AUC 值越高,也就是曲線下方面積越大,算法越有可能將正樣本排在負(fù)樣本之前,說(shuō)明模型準(zhǔn)確率越高,分類效果越好。從圖2 可以觀察到,模型1~模型4 的有效性呈遞增狀態(tài),其AUC值均大于0.8,說(shuō)明其具有較高的識(shí)別效力,且模型識(shí)別效力隨其動(dòng)態(tài)指標(biāo)取值時(shí)間的推移而增強(qiáng)。整體而言,從模型1 到模型4,模型的績(jī)效是在不斷提升的,這說(shuō)明,模型2 到模型4 過(guò)程中,增添的時(shí)序變量對(duì)模型預(yù)測(cè)績(jī)效起到了正向的作用。
圖2 多模型的ROC曲線
Su 等[2]在2018 年發(fā)表的文章中針對(duì)專利指標(biāo)對(duì)FDA 授權(quán)可能性進(jìn)行了研究,其基于美國(guó)批準(zhǔn)的藥物專利,從知識(shí)、合作、法律3 個(gè)維度選取了13 個(gè)專利指標(biāo),通過(guò)probit 模型和Cox 比例風(fēng)險(xiǎn)模型,分別檢驗(yàn)了不同維度的指標(biāo)在藥物獲得FDA 授權(quán)概率(即商業(yè)化的可能性)以及藥物獲FDA 授權(quán)速度(即商業(yè)化的速度)兩個(gè)方向上的作用效果。上述研究結(jié)果可以作為對(duì)照組,驗(yàn)證本研究的效果。
首先,在指標(biāo)構(gòu)建上,Su 等[2]采用的是較為傳統(tǒng)的指標(biāo)度量方式,利用某一時(shí)間節(jié)點(diǎn)的截面數(shù)據(jù);而本研究充分考慮了自變量指標(biāo)隨時(shí)間的變化情況,參考時(shí)間因素,設(shè)置了兩組動(dòng)態(tài)指標(biāo)。其次,本研究聚焦于研究專利授權(quán)后3 年內(nèi)的新興技術(shù)潛力,而Su 等[2]的模型采用了5 年和10 年引文的觀察視角,這種測(cè)量指標(biāo)更適合回溯式評(píng)估而并不利于構(gòu)建早期預(yù)測(cè)模型。最后,從測(cè)量結(jié)果上而言,Su 等[2]構(gòu)建的模型得到的ROC-AUC 的4 個(gè)值分別為0.733(模型1)、0.748(模型2)、0.732(模型3)和0.747(模型4),其模型準(zhǔn)確率(AUC 值)為74.7%;而本研究中,測(cè)試集的AUC 值分別是0.818(模型1)、0.831(模型2)、0.848(模型3)、0.853(模型4),更高的AUC 值體現(xiàn)出本研究模型的有效性,也說(shuō)明了構(gòu)建動(dòng)態(tài)指標(biāo)的合理性,以及利用專利指標(biāo)開(kāi)展新興技術(shù)預(yù)測(cè)模型的可行性。
本研究通過(guò)更系統(tǒng)的引入動(dòng)態(tài)專利指標(biāo),改進(jìn)了專利指標(biāo)在預(yù)測(cè)新興技術(shù)方面的時(shí)滯特征,實(shí)現(xiàn)了癌癥藥物領(lǐng)域新興技術(shù)的早期識(shí)別,彌補(bǔ)了前人研究往往是事后識(shí)別的時(shí)滯性缺陷,在新興技術(shù)的事前識(shí)別這一方向上做出了有效探索。
本研究創(chuàng)新性地在專利指標(biāo)設(shè)計(jì)中加入了時(shí)間因素的考量,相對(duì)于傳統(tǒng)專利指標(biāo)往往采用某一時(shí)間點(diǎn)上的截面數(shù)據(jù),加入了時(shí)間因素動(dòng)態(tài)指標(biāo)的設(shè)計(jì)使指標(biāo)能更好地體現(xiàn)隨時(shí)間變化的變量在不同階段所具有的不同信息價(jià)值,使其更符合指標(biāo)內(nèi)涵隨時(shí)間變化的實(shí)際特點(diǎn)。經(jīng)對(duì)比驗(yàn)證發(fā)現(xiàn),加入了時(shí)間因素的動(dòng)態(tài)指標(biāo)相比于截面指標(biāo),在新興技術(shù)識(shí)別方面發(fā)揮了更好的識(shí)別作用。
相較于前人研究,本研究采用了更權(quán)威而完整的數(shù)據(jù)集,并且依據(jù)癌癥藥物領(lǐng)域的實(shí)際情況補(bǔ)充了相應(yīng)的記錄,建立了更加大規(guī)模且貼近實(shí)際情況的試驗(yàn)基礎(chǔ),使本研究的結(jié)論更具真實(shí)性。將本研究的模型結(jié)果與前人的研究對(duì)比,發(fā)現(xiàn)較前人的研究取得了更好的模型效果,說(shuō)明模型在提高時(shí)效性的同時(shí)并沒(méi)有犧牲有效性,對(duì)未來(lái)的研究者進(jìn)行模型構(gòu)建具有一定參考價(jià)值。本研究發(fā)現(xiàn),靜態(tài)指標(biāo)中,“國(guó)外參考文獻(xiàn)”指標(biāo)對(duì)于新興技術(shù)有很好的識(shí)別效果,“專利說(shuō)明書長(zhǎng)度”與新興技術(shù)間有顯著的負(fù)相關(guān)關(guān)系;動(dòng)態(tài)指標(biāo)中,“前向?qū)@易濉焙汀扒跋蛞摹钡淖R(shí)別能力在專利獲批前3 年內(nèi)會(huì)隨著時(shí)間推移而增強(qiáng)。
本研究存在一些局限性,需要在未來(lái)加以改進(jìn)和優(yōu)化。本研究的核心目的是初步探索基于專利的指標(biāo)是否可以幫助識(shí)別專利成為新興技術(shù)的可能性。結(jié)合癌癥藥物領(lǐng)域的特點(diǎn),本研究選擇FDA 是否授權(quán)作為新興技術(shù)的代理指標(biāo),F(xiàn)DA 是目前看來(lái)能夠代理新興技術(shù)的優(yōu)選指標(biāo),但也許存在其他更科學(xué)的代理指標(biāo)未曾被發(fā)現(xiàn)和使用,在未來(lái)的研究中有待進(jìn)一步探索。
本研究更注重建立一個(gè)可解釋的模型,為后續(xù)的研究提供一些有啟發(fā)性的見(jiàn)解,而不僅僅是關(guān)注模型的準(zhǔn)確性問(wèn)題。雖然目前的模型已經(jīng)達(dá)到了可以判斷其有效的基線,但在一些方面還有較大的提升空間。當(dāng)前,神經(jīng)網(wǎng)絡(luò)和文本挖掘等技術(shù)已被證明能有效應(yīng)對(duì)此類分類問(wèn)題,所以下一步應(yīng)該考慮使用更多數(shù)據(jù)驅(qū)動(dòng)的復(fù)雜融合性方法,構(gòu)建新框架來(lái)提高模型的效率。
本研究將時(shí)間窗口期限定在了1~3 年,這既是出于想要在早期對(duì)新興技術(shù)進(jìn)行識(shí)別,盡量提前判斷時(shí)間的考量;也是出于希望能夠使用更近期的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,使其更符合當(dāng)下的實(shí)際情況。但是,3 年的窗口期可能不足以觀測(cè)動(dòng)態(tài)指標(biāo)隨時(shí)間變化的準(zhǔn)確趨勢(shì),未來(lái)可進(jìn)一步擴(kuò)大時(shí)間范圍,以期得到更深入的見(jiàn)解。