中國科學(xué)技術(shù)信息研究所在“發(fā)明人名稱消歧競賽”中取得優(yōu)異成績
【本刊訊】 2015年9月24日,美國專利與商標(biāo)局(USPTO)首席經(jīng)濟(jì)學(xué)家辦公室在美國弗吉利亞州USPTO總部舉辦了旨在提高現(xiàn)有專利發(fā)明人名稱數(shù)據(jù)精度的“PatentsView專利發(fā)明人名稱消歧技術(shù)研討會”。會議期間,舉行了“專利發(fā)明人名稱消歧競賽”。此次競賽的目的是通過設(shè)計專利發(fā)明人名稱消歧算法,對USPTO收錄的近40年(1976—2014年)的美國專利發(fā)明人數(shù)據(jù)(約1239萬條記錄)進(jìn)行唯一標(biāo)識,以改進(jìn)現(xiàn)有的專利發(fā)明人標(biāo)識算法。中國科學(xué)技術(shù)信息研究所派出代表隊參加了這次競賽,并憑著在預(yù)賽和復(fù)賽階段的突出表現(xiàn),取得了第二名的優(yōu)異成績。
參加本次“專利發(fā)明人名稱消歧競賽”的代表隊分別來自美國、比利時、澳大利亞、德國、中國等國家的高等學(xué)校和科研機構(gòu)。他們是賓夕法尼亞州立大學(xué)(美國)、馬薩諸塞大學(xué)(美國)、加州大學(xué)圣巴巴拉分校(美國)、魯汶大學(xué)(比利時)、斯文本科技大學(xué)(澳大利亞)、歐洲經(jīng)濟(jì)研究中心(德國)、中國科學(xué)技術(shù)信息研究所(中國)等。在競賽中,中國科學(xué)技術(shù)信息研究所代表隊提出了一套全新的發(fā)明人消歧混合算法(Mixed Method)。該算法融合了機器學(xué)習(xí)方法、概率記錄鏈接方法、規(guī)則分類方法以及圖聚類方法。其核心思想是:通過機器學(xué)習(xí)以及概率鏈接方法首先劃定整個發(fā)明人名稱匹配對的核心區(qū)域,然而通過加入分類規(guī)則逐步擴張發(fā)明人名稱匹配對的外部邊界,從而在保證計算結(jié)果的高準(zhǔn)確性同時,兼顧了整體算法的穩(wěn)健性。該算法在AWS平臺C3.8xlarge實例上的運行時間為7小時。經(jīng)過3輪共計20萬數(shù)據(jù)集的測試,該算法的平均精準(zhǔn)率(Precision)達(dá)到99.52%,平均召回率(Recall)為88.96%左右,平均F1值為93.94%。中國科學(xué)技術(shù)信息研究所代表隊算法的最終測評結(jié)果也優(yōu)于PatentsView平臺目前正在運行的算法。
PatentsView(http://www.patentsview.org/web/)是由USPTO首席經(jīng)濟(jì)學(xué)家辦公室主持開發(fā)的一個面向未來的專利檢索與分析平臺。該平臺是以提高美國專利數(shù)據(jù)價值功能及實用功能為目的的可視化分析平臺,是USPTO為實現(xiàn)其數(shù)據(jù)透明化,便利創(chuàng)新者、知識產(chǎn)權(quán)從業(yè)者、企業(yè)及個人利用專利數(shù)據(jù)而開發(fā)的搜索工具。專利發(fā)明人消歧問題是目前學(xué)術(shù)界關(guān)注的熱點問題,通過對發(fā)明人名稱進(jìn)行消岐能夠提升現(xiàn)有科研績效評價、社會網(wǎng)絡(luò)分析的準(zhǔn)確度,也可以為國際人才流動、知識溢出等問題提供更為準(zhǔn)確的數(shù)據(jù)支持。中國科學(xué)技術(shù)信息研究所代表團(tuán)隊取得的研究成果將為相關(guān)方面的研究工作提供更為精確的數(shù)據(jù)支持。
USPTO全程直播“PatentsView發(fā)明人名稱消歧技術(shù)研討會”。研討會的視頻已上傳網(wǎng)站,敬請收看。視頻地址為:http://www.uspto.gov/about-us/organizationaloffices/office-policy-and-international-affairs/patentsview-inventor。(楊冠燦)