張靜 張志強 趙亞娟
摘要:[目的/意義]技術(shù)研發(fā)的核心是人才。研發(fā)團隊是各領(lǐng)域技術(shù)發(fā)展的重點關(guān)注對象,也是機構(gòu)研發(fā)實力的重要體現(xiàn)。[方法/過程]以德溫特創(chuàng)新索引(DII)專利文獻為分析對象,明確發(fā)明人人名消歧規(guī)則,利用發(fā)明人共現(xiàn)聚類確定主要研發(fā)團隊,然后以3D打印的數(shù)字光處理相關(guān)專利來進行人名消歧后研發(fā)團隊識別的實證分析。[結(jié)果/結(jié)論]證明專利發(fā)明人人名消歧有利于發(fā)明人專利數(shù)量的準確分析。
關(guān)鍵詞:專利 發(fā)明人 研發(fā)團隊識別 人名消歧
分類號:G353.1 G306
技術(shù)研發(fā)的核心是人才,信息環(huán)境下信息量的爆炸式增長使得技術(shù)研發(fā)更加離不開研究團隊的通力協(xié)作,在人才引進等具體政策制定上除了關(guān)注首席專家,更應(yīng)關(guān)注在研發(fā)團隊中起到核心作用的關(guān)鍵人才。研發(fā)團隊識別作為專利分析的重要內(nèi)容之一,有利于甄別核心團隊成員,發(fā)現(xiàn)非首席的關(guān)鍵人才,能為政策制定和關(guān)鍵研發(fā)人員識別提供更好的支持。但是研發(fā)人員姓名具有很強的歧義性,存在同名多指及同人不同寫法的歧義問題,因此研發(fā)團隊識別研究最首要的問題就是進行人名消歧,此時人名消歧的核心目標為保障準確率。
1 人名消歧研究進展
人名消歧主要是對姓名表述相同或相近的兩個姓名是否指向同一人作出判斷。A. Bagga等[1]于1998年就開始把跨文本人名消歧作為一種人名共指問題進行探索。2007年、2009年和2010年WePS評測研討會進行了針對網(wǎng)絡(luò)人名消歧的評測。在國內(nèi),CIPS-SIGHAN-2012會議[2]對中文人名識別與消歧的研究也越來越多。
基于網(wǎng)頁等資源進行人名相關(guān)的實體特征抽取、聚類,以進行人名消歧的相關(guān)研究較多,同時社會網(wǎng)絡(luò)、閾值或概率確定原則等也都是人名消歧研究中探索使用的方法。如G. Mann等[3]在2003年通過定制模板來提取網(wǎng)頁個人傳記特征來構(gòu)造特征向量的方法對人名進行“消歧”。M. B. Fleischman等[4]在2004年抽取名字特征、網(wǎng)頁特征、重疊特征、語義特征等,使用最大熵模型來計算兩個名字指向同一實體的概率。B. Malin[5]于2005年提出基于社會網(wǎng)絡(luò)來進行人名消歧。K. Balog等[6]于2007年通過訓(xùn)練好的語言模型計算網(wǎng)頁中人名指向某個實體的概率,再確定閾值以實現(xiàn)人名消歧。Y. Chen等[7]在2007年通過抽取基于名詞短語的特征和命名實體的特征,再使用層次凝聚聚類方法進行聚類。S. Ono等[8]在2008年基于命名實體共指、關(guān)鍵詞以及主題信息的混合特征來對文檔進行聚類。L. Romano等[9]于2009年提出XMedia系統(tǒng)采用質(zhì)量閾值聚類算法。章順瑞等[10]于2010年采用層次聚類算法對中文人名進行消歧。陳晨等[11]在2011年利用不同社會網(wǎng)絡(luò)邊權(quán)值和不同圖劃分準則對人名消歧效果的影響進行了中文人名消歧的研究。
隨著人名消歧研究的不斷深入,為提高準確性,針對特定數(shù)據(jù)源的人名消歧、多種方法結(jié)合的分步式研究開始增多。2012年,楊欣欣等[12]利用網(wǎng)絡(luò)資源用搜索引擎四類查詢規(guī)則擴展特征文檔,利用二層聚類算法[13]來進行人名消歧。2013年李廣一等[14]根據(jù)特征類型來設(shè)置權(quán)值,進行多次聚類。2014年S. Christian等[15]利用數(shù)據(jù)庫文獻間的引用構(gòu)建社會網(wǎng)絡(luò)圖來實現(xiàn)特定數(shù)據(jù)源的人名消歧。2015年,陽怡林等[16]通過上下文特征、實體特征、社會關(guān)系特征,利用3種不同的聚類算法得到不同的聚類劃分,再最終集成來提高人名消歧的準確性。D. H. Han等[17]采用極限學(xué)習(xí)機提出了針對每一個姓名及姓名集合的兩種聚類算法來進行人名消歧。M. Song等[18]針對PubMed數(shù)據(jù)庫構(gòu)建了專門的訓(xùn)練集,并提出新的出版特征集合以提高準確性。
整體來看,當前研究的主要對象以網(wǎng)絡(luò)資源或論文著者為主,具體方法上以通過改進算法獲取更多人名相關(guān)特征,或采用多次/多層聚類的方法來進行比對判斷為主。這些方法均存在一定程度的人名消歧誤差,且這部分誤差為算法直接判定得出的結(jié)果,分析人員并不確定誤差可能涉及的人名范圍,因此存在一定的“黑箱”問題。
當前針對專利文獻的具體特征進行發(fā)明人人名消歧的相關(guān)研究較少。而專利發(fā)明人的著錄方式在不同數(shù)據(jù)庫中有所不同,基本都同時涉及中國人名及外國人名的消歧問題。另外,作為政策支撐的專利發(fā)明人人名消歧工作需要在確保準確的核心目標下提高效率。因此基于專利文獻的人名消歧需要在明確專利數(shù)據(jù)庫發(fā)明人姓名結(jié)構(gòu)特征的基礎(chǔ)上進行具體探索,以提升準確性,并減少“黑箱子”問題帶來的誤差不確定性。
2 專利發(fā)明人人名消歧
德溫特創(chuàng)新索引(DII)是經(jīng)過人工智力加工后的專利數(shù)據(jù),具有可以批量獲取、自然語言檢索及不同來源專利數(shù)據(jù)統(tǒng)一再分類的優(yōu)勢,是專利分析的常用數(shù)據(jù)之一。本文將針對該數(shù)據(jù)庫,結(jié)合湯森創(chuàng)新(TI)專利數(shù)據(jù)庫中發(fā)明人機構(gòu)、國家等特征信息來進行專利發(fā)明人人名消歧規(guī)則研究。
2.1 人名消歧流程
本文主要通過發(fā)明人姓名結(jié)構(gòu)特征來進行姓名相似度比較,然后利用專利文獻中可獲取的發(fā)明人特征信息進行判斷,以實現(xiàn)人名消歧,見圖1。
2.2 專利發(fā)明人姓名結(jié)構(gòu)特征及影響
不同國家來源發(fā)明人姓名的結(jié)構(gòu)特征對人名歧義的影響有所不同。通過實際數(shù)據(jù)查看,可以發(fā)現(xiàn)發(fā)明人姓名結(jié)構(gòu)特征主要分為兩類:其一是類西方姓名結(jié)構(gòu);其二是類中國姓名結(jié)構(gòu)。這兩種姓名結(jié)構(gòu)特征見表1。兩種姓名的結(jié)構(gòu)特征決定了類西方姓名中出現(xiàn)不同姓名表述同指概率更高,而類中國姓名中出現(xiàn)同樣姓名表述卻不同指的概率更高。
2.3 專利發(fā)明人特征信息
在DII與TI數(shù)據(jù)庫中涉及到的專利發(fā)明人特征信息包括姓名縮寫、姓名全稱、地址(其中包括發(fā)明人國家信息)、所屬專利入藏號、所屬機構(gòu)、合作人員等信息(見表2)。這些信息在數(shù)據(jù)庫中的完備程度有所不同,整體來說:①TI中的姓名信息完備程度要高于DII數(shù)據(jù)庫;②TI姓名全稱字段的取值卻有部分專利與姓名縮寫取值相同,屬于不完備狀態(tài); ③地址信息中的國家信息完備程度高于城市等信息;④專利入藏號及合作人員信息均較為完備。
2.4 人名消歧規(guī)則
人名消歧首先要找出那些可能存在疑問的姓名表述方式,這就需要根據(jù)專利發(fā)明人姓名相似程度來進行判斷,具體的判斷標準見表3。需要指出的是,此處的判斷不考慮姓名表述中出現(xiàn)的圓點、連詞符等符號信息。
基于以上專利發(fā)明人姓名結(jié)構(gòu)特征(見表1)及可獲取的專利發(fā)明人特征信息(見表2),通過實際數(shù)據(jù)驗證,可以按優(yōu)先級構(gòu)建出如下類西方姓名及類中國姓名的人名消歧規(guī)則。
2.4.1 類西方姓名消歧規(guī)則
根據(jù)類西方姓名的結(jié)構(gòu)特征,可以明確對此類姓名消歧的重點在于將同一人的多種姓名表述歸一為一種表述。因此對類西方姓名的消歧以專利發(fā)明人姓名縮寫為入口開始,一方面可以盡可能排除非同一人的姓名表述,另一方面也可以將盡可能多的姓名表述納入進一步判斷范疇。具體規(guī)則描述如表4所示:
2.4.2 類中國姓名消歧規(guī)則
根據(jù)類中國姓名的結(jié)構(gòu)特征,可以明確對此類姓名消歧的重點在于將不同人同樣表述的姓名區(qū)分開來。同樣選擇從姓名縮寫為入口開始,以盡可能區(qū)分出非同一人的情況。具體規(guī)則描述如表5所示:
值得注意的是,在對于以上人名進行消歧過程中,結(jié)論僅為概率性判定,而非確定性結(jié)果的規(guī)則,需要給出相關(guān)具體條目,進行擴展查詢,輔以人工判斷來給出最終結(jié)論。在完成人名消歧的基礎(chǔ)上,可以根據(jù)數(shù)據(jù)情況,按共同擁有專利數(shù)量或比例情況來確定不同數(shù)據(jù)集的主要研發(fā)團隊判定標準,從而通過專利發(fā)明人共現(xiàn)聚類來實現(xiàn)研發(fā)團隊識別。
3 基于人名消歧的數(shù)字光處理研發(fā)團隊識別實證研究
本文以3D打印的數(shù)字光處理(Digital Light Process,DLP)技術(shù)相關(guān)專利為例來進行人名消歧后研發(fā)團隊識別的具體實證。
3.1 人名消歧數(shù)量統(tǒng)計結(jié)果對比
經(jīng)過檢索及專家判讀后,從DII數(shù)據(jù)庫中共獲取DLP技術(shù)相關(guān)專利274項、810件。同一批專利經(jīng)過的溫特入藏號及發(fā)明人姓名表述去重后,DII原始數(shù)據(jù)中共涉及640個專利發(fā)明人姓名表述,TI原始數(shù)據(jù)中共涉及652個專利發(fā)明人姓名表述,按照2.4小節(jié)所述規(guī)則進行人名消歧,按照TI數(shù)據(jù)中的姓名簡稱進行統(tǒng)計,發(fā)現(xiàn)DLP技術(shù)的120名發(fā)明人存在同一人多種姓名表述,共有90種姓名表述為多人重名情況,最終確定共有602名發(fā)明人參與研發(fā)。
人名消歧前后主要發(fā)明人(參與研發(fā)專利數(shù)量大于3項)及其專利數(shù)量分布見表6??梢钥闯觯ㄟ^人名消歧,主要發(fā)明人HULL CHARLES W的專利數(shù)量從5項變?yōu)?項,KRITCHMAN Eliahu M.的專利數(shù)量從4項變?yōu)?項(以上見表6中陰影部分),使得主要發(fā)明人數(shù)量排序及數(shù)量統(tǒng)計更為準確。
3.2 人名消歧后研發(fā)團隊識別研究
在人名消歧的基礎(chǔ)上,首先利用Bibexcel生成發(fā)明人共現(xiàn)矩陣,生成可供可視化的節(jié)點數(shù)據(jù),然后利用Pajek工具得到圖2所示的發(fā)明人聚類網(wǎng)絡(luò)。DLP技術(shù)領(lǐng)域中的602名發(fā)明人中共有63名發(fā)明人參與聚類。根據(jù)數(shù)據(jù)情況,本文定義研發(fā)團隊中至少需要包括3名發(fā)明人。
從圖2中可以清楚看到DLP技術(shù)領(lǐng)域共有來自6個機構(gòu)的7個研發(fā)團隊。表7展現(xiàn)了這些研發(fā)團隊的情況??梢园l(fā)現(xiàn),來自HUNTSMAN公司的兩個研發(fā)團隊在DLP技術(shù)領(lǐng)域并無聯(lián)系人員,因此被明顯區(qū)分為兩個團隊;來自3D SYSTEMS INC的研發(fā)團隊共由11人組成,這11人又可以大致區(qū)分為兩個團隊(在表7中用A、B表示),兩個團隊以HULL CHARLES W和PARTANEN JOUNI P為紐帶,在圖2中呈現(xiàn)為一個大的團簇。
3.3 實證研究小結(jié)
由于本文人名消歧規(guī)則是結(jié)合特定數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)所提出來的,不具有普適性,因此并未進行人名消歧規(guī)則性能測評。
但通過3.1部分人名消歧前后主要發(fā)明人擁有專利數(shù)量對比可以發(fā)現(xiàn),主要發(fā)明人的排序有所變化。即通過本文提出的人名消歧,使得主要發(fā)明人數(shù)量排序及數(shù)量統(tǒng)計更為準確,有利于發(fā)明人專利數(shù)量的準確分析,能夠減少由于發(fā)明人人名是否同指的不確定性而帶來的研發(fā)團隊識別誤差,亦有助于更準確地進行專利研發(fā)團隊識別。
4 結(jié)論
人名消歧結(jié)果的準確性將影響到專利分析結(jié)果的準確性,從而影響依此為參考而進行的競爭對手識別及相關(guān)人才政策決策,因此人名消歧是專利分析不斷深入過程中需要解決的重要問題之一。
本文認為,專利研發(fā)團隊識別過程中的人名消歧應(yīng)以確保準確性為前提。因此,本文提出的人名消歧規(guī)則借鑒了特征向量相似度判定的思路,但在實際操作過程中,具有與其他方法不同的兩方面特征:一是基于特定專利數(shù)據(jù)庫數(shù)據(jù)結(jié)構(gòu)特征來提煉規(guī)則,更具有針對性;二是對于無法在邏輯上直接給出確定性結(jié)論的規(guī)則所涉及條目輔以人工判斷來盡量確保準確性,從而避免其他方法直接判定而帶來部分不確定性的“黑箱”問題。
本文的人名消歧規(guī)則通過實證研究證明是有利于發(fā)明人專利數(shù)量的準確分析的,但需要指出的是,本文所提出的規(guī)則是基于特定專利文獻數(shù)據(jù)的,得出的規(guī)則本身在實際應(yīng)用范圍上具有局限性,但針對特定數(shù)據(jù)而言更具準確性。在今后的研究中,需要進一步探索完善人名消歧方法,擴展人名消歧規(guī)則,貨站其適用的數(shù)據(jù)范圍,從而更好地進行研發(fā)團隊識別。
參考文獻:
[1] BAGGA A, BALDWIN B. Entity-based cross-document conferencing using the vector space model[C]//COLING98: Proceedings of the 17th international conference on computational linguistics. New York: ACM Press, 1998: 79-85.
[2] 中國學(xué)術(shù)會議在線. 第二屆CIPS-SIGHAN中文處理國際會議[EB/OL]. [2014-04-10]. http://www.meeting.edu.cn/meeting/meetingAction-29689!detail.action.
[3] MANN G, YAROWSKY D. Unsupervised personal name disambiguation[C]//CONLL 03: Proceedings of the 7th conference on natural language learning at HLT-NAACL 2003. Edmonton: Association for Computational Linguistics, 2003: 33-40.
[4] FLEISCHMAN M B, HOVY E. Multi-document person name resolution[EB/OL]. [2014-03-14]. http://acl.ldc.upenn.edu/W/W04/W04-0701.pdf.
[5] MALIN B. Unsupervised name disambiguation via social network similarity[C]//Proceedings of 2005 SIAM international conference on data mining. Newport Beach: Siam Workshop on Link Analysis, 2005: 93-102.
[6] BALOG K, AZZOPARDI L, RIJKE M D. UVA: Language modeling techniques for web people search[C]// Proceedings of the 4th international workshop on semantic evaluations. Prague: International Workshop on Semantic Evaluations, 2007: 468-471.
[7] CHEN Y, MARTIN J. Towards robust unsupervised personal name disambiguation[EB/OL]. [2014-03-14]. http://acl.ldc.upenn.edu/D/D07/D07-1020.pdf?origin=publication_detail.
[8] ONO S, SATO I, YOSHIDA M, et al. Person name disambiguation in web pages using social network, compound words and latent topics[C]//Proceedings of the 12th pacific-asiaconference on advances in knowledge discovery and data mining. Berlin:Pacific-asiaconference on advances in knowledge discovery and data mining, 2008: 260-271.
[9] ROMANO L, BUZA K, GIULIANO C. XMedia: Web people search by clustering with machinelylearned similaritymeasures[EB/OL]. [2014-03-14]. https://www.researchgate.net/publication/228569058_XMedia_Web_People_Search_by_Clustering_with_Machinely_Learned_Similarity_Measures.
[10] 章順瑞, 游宏梁. 基于層次聚類算法的中文人名消歧[J]. 現(xiàn)代圖書情報技術(shù), 2010(11): 64-68.
[11] 陳晨, 王厚峰. 基于社會網(wǎng)絡(luò)的跨文本同名消歧[J]. 中文信息學(xué)報, 2011(5): 76-82.
[12] 楊欣欣, 李培峰, 朱巧明. 基于查詢擴展的人名消歧[J]. 計算機應(yīng)用, 2012, 32(9): 2488-2490,2507.
[13] 楊欣欣, 李培峰, 朱巧明. 基于網(wǎng)頁文本依存特征的人名消歧[J]. 計算機工程, 2012(19): 133-136.
[14] 李廣一, 王厚峰. 基于多步聚類的漢語命名實體識別和歧義消解[J]. 中文信息學(xué)報, 2013, 27(5): 29-34.
[15] CHRISTIAN S, AMIN M, ALEXANDER M P, et al. Exploiting citation networks for large-scale author name disambiguation [J]. EPJ data science, 2014, 3(11): 1-12.
[16] 陽怡林, 周杰, 李弼程. 基于聚類集成的人名消歧算法[J/OL]. 計算機應(yīng)用研究, 2015: 33. [2016-05-30]. http://www.cnki.net/kcms/detail/51.1196.TP.20151028.1121.120.html.
[17] HAN D H, LIU S Q, HU Y C, et al. ELM-based name disambiguation in bibliography [EB/OL].[2016-04-13].http://link.springer.com/article/10.1007%2Fs11280-013-0226-4.
[18] SONG M, KIM E H, KIM H J. Exploring author name disambiguationon PubMed-scale[J]. Journal of informetrics, 2015(4): 924-941.