国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

子圖增強(qiáng)的實(shí)時同名消歧

2024-03-26 02:39:16韓天翼程欣宇張帆進(jìn)
中文信息學(xué)報 2024年1期
關(guān)鍵詞:消歧同名子圖

韓天翼,程欣宇,張帆進(jìn),陳 波

(1.貴州大學(xué) 公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550025;2.貴州大學(xué) 文本計算與認(rèn)知智能教育部工程研究中心,貴州 貴陽 550025;3.清華大學(xué) 計算機(jī)科學(xué)與技術(shù)系,北京 100084)

0 引言

同名消歧旨在確定文獻(xiàn)中具有歧義的作者姓名的具體指代對象。隨著科技與信息產(chǎn)業(yè)的高速發(fā)展,各個領(lǐng)域的研究論文與專利發(fā)表數(shù)量急劇增加,導(dǎo)致了大量作者同名問題以及指代不明的情況。因此,針對同名作者的消歧成為確保谷歌學(xué)術(shù)(1)https://scholar.google.com/、中國知網(wǎng)(2)https://www.cnki.net/、AMiner(3)https://www.aminer.cn/等在線學(xué)術(shù)平臺正常運(yùn)行的關(guān)鍵環(huán)節(jié),消歧的準(zhǔn)確性對專家發(fā)現(xiàn)、學(xué)術(shù)評估等相關(guān)下游任務(wù)具有重要意義。同名消歧屬于命名實(shí)體消歧的范疇[1],其消歧對象為具有歧義的作者姓名。盡管同名消歧問題已經(jīng)研究了數(shù)十年[2-5],但目前還遠(yuǎn)沒有徹底解決。這導(dǎo)致部分學(xué)者需要時常地向谷歌學(xué)術(shù)反饋消歧有誤的論文(4)https://harzing.com/blog/2017/02/web-of-science-to-be-robbed-of-10-years-of-citations-in-one-week,否則論文的統(tǒng)計指標(biāo)(如被引用數(shù)等)會受到噪聲影響。

以往的同名消歧相關(guān)研究主要聚焦在冷啟動問題,即如何將一批具有相同作者姓名的論文劃分為多個歸屬于不同作者的論文簇[3-4,6]。該問題通常用于從零構(gòu)建同名學(xué)者檔案。當(dāng)前學(xué)術(shù)平臺經(jīng)過長期運(yùn)營已經(jīng)建立起大量學(xué)者檔案。截止2023年3月,在線學(xué)術(shù)平臺AMiner從多個數(shù)據(jù)源累計整合了超過1億名專家學(xué)者的檔案和3.3億篇文獻(xiàn),而且平均每個月約有75萬篇新論文入庫。學(xué)術(shù)平臺不僅需要收錄新增的論文,還需要將論文與現(xiàn)有平臺作者進(jìn)行匹配關(guān)聯(lián)。然而,相同的姓名并不能代表唯一的作者,一篇新增文獻(xiàn)中的作者姓名可能對應(yīng)到平臺中多位同名作者。如圖1所示,對于新論文中作者名“Yang Yang”,平臺已存在多位同名的作者檔案,實(shí)時同名消歧需要將新論文準(zhǔn)確地分配給眾多同名候選作者中的正確作者。圖中候選作者1的中文姓名為“楊洋”,候選作者2的中文姓名為“楊陽”,兩位候選作者的已發(fā)表論文均含關(guān)鍵詞“graph neural network”,其中候選作者1的論文機(jī)構(gòu)使用過“Zhejiang University”并與新論文的標(biāo)題具有共現(xiàn)詞匯“Robust”,候選作者2的論文曾出現(xiàn)新論文的共同作者名“Lei Chen”,可以看到兩位候選作者與新論文均有較多的匹配信息,即使通過人工也很難有把握消歧準(zhǔn)確。故如何充分利用論文與候選作者的信息以獲取更有判別力的消歧特征是一個難點(diǎn)。

圖1 實(shí)時同名消歧

隨著科研人數(shù)不斷增長,同名消歧問題變得越來越具有挑戰(zhàn)性。首先,像圖1中具有相同姓名且研究相同領(lǐng)域的作者逐漸增多,這將導(dǎo)致實(shí)時消歧任務(wù)變得愈發(fā)復(fù)雜。例如,AMiner中有超過6 000個名叫“Yang Yang”的學(xué)者,在清華大學(xué)就讀或就職過的名叫“楊洋”的學(xué)者已經(jīng)超過40個。這使得不同候選作者之間易混淆的相似屬性增多。其次,僅使用語義作為特征的實(shí)時消歧方法很容易將論文誤分。例如,待消歧論文可能與多名候選作者在文章內(nèi)容上語義相似度較高。在以往的實(shí)時同名消歧方法中普遍缺乏待消歧論文與候選作者間結(jié)構(gòu)信息的挖掘與利用。然而,論文和作者的結(jié)構(gòu)信息中可能蘊(yùn)含著更豐富的匹配信息。例如,同一作者的不同論文的引文網(wǎng)絡(luò)結(jié)構(gòu)可能類似。因此,本文嘗試通過引入子圖結(jié)構(gòu)信息來進(jìn)一步提升實(shí)時同名消歧任務(wù)的準(zhǔn)確度。

傳統(tǒng)的同名消歧方法根據(jù)待消歧人名的屬性信息和文章內(nèi)容設(shè)定具體規(guī)則來區(qū)分不同作者實(shí)體;冷啟動同名消歧方法主要利用文章本身內(nèi)容與文章之間的共同作者、共同機(jī)構(gòu)等結(jié)構(gòu)信息將任務(wù)處理為聚類問題;而對于實(shí)時同名消歧,相關(guān)研究分為基于語義信息與基于結(jié)構(gòu)信息兩類方法。在基于語義信息的方法中,一類方法通過特征工程提取出待消歧論文與候選作者檔案在標(biāo)題、關(guān)鍵詞、機(jī)構(gòu)等多方面的共同信息來進(jìn)行消歧,另一類方法基于度量學(xué)習(xí)等有監(jiān)督方法來學(xué)習(xí)論文與作者的嵌入向量以用于消歧;在基于結(jié)構(gòu)信息的方法中,通常將所有候選作者及相關(guān)鄰居節(jié)點(diǎn)(如論文等)構(gòu)建一張大圖,對于每篇新增的論文節(jié)點(diǎn),均需要重構(gòu)大圖并重新訓(xùn)練嵌入向量。已有的實(shí)時同名消歧方法獲取結(jié)構(gòu)信息的效率較低,所需要的計算開銷隨著大圖規(guī)模的擴(kuò)大而逐步增長。

因此,本文旨在解決實(shí)時同名消歧任務(wù)中的兩個問題,一是如何設(shè)計一種高效的歸納式學(xué)習(xí)(Inductive Learning)的模型,能夠在每新增一篇待消歧論文時,直接獲得該文與各位同名候選學(xué)者之間的結(jié)構(gòu)特征,同時考慮到學(xué)者在不同階段所研究的領(lǐng)域以及所處的機(jī)構(gòu)可能存在的差異,要求模型能實(shí)現(xiàn)待消歧論文與候選學(xué)者之間的細(xì)粒度匹配;二是如何將語義與結(jié)構(gòu)兩方面信息進(jìn)行有效的融合,以實(shí)現(xiàn)對更復(fù)雜場景的實(shí)時消歧,并獲得更優(yōu)秀的消歧效果。本文提出了子圖結(jié)構(gòu)增強(qiáng)的實(shí)時同名消歧模型RND-all(Real-time Name Disambiguation Integrating All The Information),首先分別對待消歧論文和候選作者構(gòu)建自我中心網(wǎng)絡(luò)(Ego Network),利用圖注意力網(wǎng)絡(luò)對中心節(jié)點(diǎn)與鄰居節(jié)點(diǎn)特征進(jìn)行加權(quán)聚合來捕獲局部圖的結(jié)構(gòu)信息,然后對論文子圖與作者子圖進(jìn)行細(xì)粒度交互,并采用徑向基核函數(shù)(Radio Basis Function Kernel,RBF)計算待分配論文與候選作者的圖相關(guān)性特征,最后,通過集成學(xué)習(xí)的方法將結(jié)構(gòu)信息與語義信息進(jìn)行融合。本文所提模型在WhoIsWho實(shí)時同名消歧數(shù)據(jù)集中取得最好結(jié)果,相比最優(yōu)的基線方法CONNA[7]在HR@1、HR@3和MRR上分別提高3.99%、1.24%和2.5%。RND-all在同名消歧基準(zhǔn)WhoIsWho實(shí)時消歧任務(wù)測試集上效果目前排名第一(5)截至2023年3月25日,RND-all在WhoIsWho實(shí)時同名消歧子任務(wù)排行榜上排名第一已持續(xù)1個月。詳見http://whoiswho.biendata.xyz/#/。

本文組織結(jié)構(gòu)安排如下: 第1節(jié)介紹同名消歧以及圖神經(jīng)網(wǎng)絡(luò)的相關(guān)工作;第2節(jié)提出實(shí)時同名消歧的相關(guān)定義;第3節(jié)和第4節(jié)介紹端到端提取結(jié)構(gòu)信息的框架和使用子圖增強(qiáng)的實(shí)時同名消歧模型;第5節(jié)為實(shí)驗(yàn)結(jié)果分析;第6節(jié)總結(jié)全文。

1 相關(guān)工作

1.1 同名消歧研究

同名消歧問題主要分為兩個子問題進(jìn)行研究,即冷啟動同名消歧與實(shí)時同名消歧。

冷啟動同名消歧對應(yīng)于學(xué)術(shù)平臺創(chuàng)建初期,此時需要將收集的大量論文進(jìn)行劃分,使得劃分后同一組內(nèi)的論文屬于同一個現(xiàn)實(shí)作者,不同組的論文屬于不同的現(xiàn)實(shí)作者,故冷啟動消歧常定義為聚類問題。Huang等人[3]采用Blocking方法將具有同名作者的待消歧論文聚合為簇,之后使用支持向量機(jī)學(xué)習(xí)簇內(nèi)各論文間的距離關(guān)系,最終利用DBSCAN對簇內(nèi)論文進(jìn)行聚類。Louppe等人[4]基于論文之間的相似度采用半監(jiān)督的層次聚類進(jìn)行消歧。Tang等人[8]通過待消歧論文間引用關(guān)系、共同作者名、共同會議名等信息構(gòu)建五維消歧特征后利用隱馬爾可夫隨機(jī)域?qū)崿F(xiàn)對不同作者的區(qū)分。Zhang等人[9]構(gòu)建作者-作者、論文-作者、論文-論文三種圖,利用學(xué)習(xí)的圖嵌入向量進(jìn)行聚類。陳晨等人[10]使用譜聚類對社會網(wǎng)絡(luò)中的人名聚類,并引入模塊度閾值作為網(wǎng)絡(luò)停止劃分的條件。Subramanian等人[11]將8個主流同名消歧數(shù)據(jù)集整理為S2AND數(shù)據(jù)集,并發(fā)現(xiàn)在此數(shù)據(jù)集下訓(xùn)練的冷啟動同名消歧算法具有更好的泛化能力。

當(dāng)前谷歌學(xué)術(shù)、AMiner等在線學(xué)術(shù)平臺已經(jīng)建立起大量學(xué)者檔案,所面臨的最大挑戰(zhàn)是如何將姓名上具有歧義的新論文準(zhǔn)確而又高效地分配給對應(yīng)作者,即實(shí)時同名消歧。此任務(wù)需要依據(jù)新入庫的待消歧論文與已有的各個同名候選作者的相關(guān)特征做出分配判斷。Zhang等人[6]通過度量學(xué)習(xí)的方式得到論文與作者的嵌入向量,通過論文與各作者向量在表征空間的距離來確定所要分配的作者。Dong等人[12]利用作者與待分配論文之間共同機(jī)構(gòu)、共同會議、共同作者等關(guān)系構(gòu)建異質(zhì)圖,并使用隨機(jī)游走將待消歧論文與候選作者表示為嵌入向量,Zhang等人[13]則預(yù)先使用門控循環(huán)單元(Gate Recurrent Unit,GRU)得到論文的語義嵌入向量,之后在論文與作者的關(guān)系網(wǎng)絡(luò)上使用隨機(jī)游走以捕獲結(jié)構(gòu)特征,最后將論文與作者表示為低維稠密的向量用于實(shí)時消歧任務(wù)。Zhao[14]在KDD Cup提出使用特征工程構(gòu)建文本特征搭配梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)的方法對論文做出分類預(yù)測。Chen等人[7]使用預(yù)訓(xùn)練模型BERT[15]對待消歧論文以及候選作者每篇論文在各屬性下進(jìn)行細(xì)粒度的相似度計算,將豐富的語義特征用于消歧。Li等人[16]則提出了統(tǒng)一冷啟動與實(shí)時消歧的方法,首先將共同作者名出現(xiàn)次數(shù)多的論文構(gòu)建出高精確率的論文簇,再根據(jù)新增論文與各論文簇的語義相關(guān)性,按照合并作者節(jié)點(diǎn)的方式進(jìn)行實(shí)時消歧。

可見,解決同名消歧的方法主要分為基于文獻(xiàn)語義特征的同名消歧和基于文獻(xiàn)結(jié)構(gòu)特征的同名消歧。融合語義特征和結(jié)構(gòu)特征的同名消歧方法具有較優(yōu)的研究意義。

1.2 圖神經(jīng)網(wǎng)絡(luò)

圖神經(jīng)網(wǎng)絡(luò)(Graph Nerual Network,GNN)已被廣泛應(yīng)用于社交網(wǎng)絡(luò)、化學(xué)分子結(jié)構(gòu)、知識圖譜等拓?fù)浣Y(jié)構(gòu)的研究中,其核心思想是利用邊的信息對節(jié)點(diǎn)信息進(jìn)行聚合從而生成新的節(jié)點(diǎn)表示。Niepert等人[17]通過將圖中的節(jié)點(diǎn)組織為序列并使用卷積網(wǎng)絡(luò)以獲得具有結(jié)構(gòu)信息的節(jié)點(diǎn)表示,Kipf等人[18]基于空域與頻域的轉(zhuǎn)換關(guān)系提出圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks,GCN),使用一階切比雪夫多項(xiàng)式實(shí)現(xiàn)空域卷積的效果。Velickovic等人[19]提出圖注意力網(wǎng)絡(luò)(Graph Attention Networks,GAT),采用注意力掩碼將注意力機(jī)制引入圖神經(jīng)網(wǎng)絡(luò)模型,使得模型能夠準(zhǔn)確靈活地計算鄰居節(jié)點(diǎn)之間的權(quán)重,并通過多頭的方式進(jìn)一步提升模型的泛化能力。

本文針對實(shí)時同名消歧的特點(diǎn),對待消歧論文與候選作者分別構(gòu)建自我中心網(wǎng)絡(luò),采用圖注意力網(wǎng)絡(luò)來聚合節(jié)點(diǎn)特征以獲取結(jié)構(gòu)層面的信息。

2 相關(guān)概念與定義

定義1 論文一篇論文p由多個屬性構(gòu)成,例如標(biāo)題、摘要、作者姓名等,即p={x1,…,xF},xf∈p代表論文中第f種屬性。F指論文中屬性的個數(shù)。

定義2 作者一名作者a由該作者所發(fā)表的n篇論文組成,即a={p1,…,pn},其中所有論文均由多個屬性構(gòu)成。

定義5 實(shí)時同名消歧給定一篇要對作者名na進(jìn)行消歧的論文pna以及姓名na對應(yīng)的候選作者集合Ana,假設(shè)pna中的作者名na所對應(yīng)的正確作者a+∈Ana,其余作者a-∈Ana。則該問題需要學(xué)習(xí)一個評分函數(shù)Ψ,滿足,如式(1)、式(2)所示。

其中,函數(shù)Ψ的輸入為待消歧論文和任意候選作者,輸出一個實(shí)數(shù)的相似度得分,Ψ需滿足待消歧論文pna與正確作者的相似度得分大于pna與其他作者的相似度得分。最終會將待消歧論文分配給Ψ打分最高的作者。

3 子圖結(jié)構(gòu)特征提取框架

本文提出一種端到端的子圖結(jié)構(gòu)特征提取框架,用于計算待消歧論文與各候選作者的圖相關(guān)性特征??蚣苡砂幋a層、聚合層、交互層的子圖信息交互模塊和包含歸一化層和排序?qū)拥奶卣髟鰪?qiáng)模塊組成??蚣苋鐖D2所示,黑色實(shí)心箭頭為特征生成過程,空心箭頭為訓(xùn)練階段損失的傳播過程。

圖2 子圖結(jié)構(gòu)特征提取框架

3.1 子圖信息交互模塊

子圖信息交互模塊用于獲取待消歧論文子圖與候選作者子圖之間的細(xì)粒度交互信息。此模塊首先通過編碼層對圖中各節(jié)點(diǎn)的特征進(jìn)行初始化,然后在聚合層對各節(jié)點(diǎn)特征進(jìn)行加權(quán)聚合與更新,最后在交互層獲取論文子圖與各作者子圖的相似度信息。

如圖3所示,P、A、O分別指論文節(jié)點(diǎn)、作者節(jié)點(diǎn)以及機(jī)構(gòu)節(jié)點(diǎn),圖中為待消歧論文p與一名候選作者a所構(gòu)建的論文子圖Gp與作者子圖Ga。對論文子圖Gp,p的一階鄰居為論文中待消歧作者的機(jī)構(gòu)名稱以及待消歧論文所引用的論文,考慮到無法假定p中其余作者姓名確定對應(yīng)的真實(shí)作者,故p的一階鄰居中不含其余共同作者信息。p的高階鄰居為引用論文的作者的論文以及其機(jī)構(gòu)名稱??紤]到距離待消歧論文越遠(yuǎn),數(shù)據(jù)噪聲越多,故最大擴(kuò)展到三階鄰居。對作者子圖Ga,使用候選作者a的已發(fā)表論文作為a的一階鄰居,若已發(fā)表論文存在其余已經(jīng)消歧完的共同作者,則該共同作者的論文和機(jī)構(gòu)信息作為作者a的高階鄰居,同理,最大擴(kuò)展到三階鄰居。子圖信息交互模塊通過對比待消歧論文子圖Gp與各個候選作者子圖集合GA={Ga1,Ga2,…,Gam}來捕捉待消歧論文與候選作者的結(jié)構(gòu)信息。

圖3 待消歧論文子圖與候選作者子圖

編碼層首先對包含待消歧論文子圖以及各個候選作者子圖的圖G內(nèi)各類節(jié)點(diǎn)特征進(jìn)行初始化。對于圖中的論文和機(jī)構(gòu)節(jié)點(diǎn),模型提取各篇論文的標(biāo)題、摘要、關(guān)鍵詞拼接為字符串s,以及提取單獨(dú)的機(jī)構(gòu)名作為字符串o,兩類文本記作S=(s1,s2,…,sln)和O=(o1,o2,…,olm),隨后模塊利用學(xué)術(shù)論文預(yù)訓(xùn)練模型OAG-BERT[20]對兩類文本進(jìn)行編碼,得到嵌入向量矩陣XS=(xs1,xs2,…,xsln)和XO=(xo1,xo2,…,xolm),其中,ln、lm指圖G中論文與機(jī)構(gòu)的數(shù)量,x∈Rd,d為編碼后特征維度。對于作者a={p1,p2,…,pn},則直接使用該作者已發(fā)表論文的嵌入向量的平均作為作者節(jié)點(diǎn)初始特征。

聚合層使用圖注意力網(wǎng)絡(luò)對待消歧論文子圖以及各個候選作者子圖進(jìn)行相鄰節(jié)點(diǎn)間注意力互相關(guān)系數(shù)的計算以及子圖節(jié)點(diǎn)特征的更新。節(jié)點(diǎn)特征先由可訓(xùn)練的共享權(quán)重矩陣W∈Rd×d進(jìn)行線性變換,然后經(jīng)θT∈R2d對自身與相鄰節(jié)點(diǎn)特征進(jìn)行自注意力操作,最后經(jīng)LeakyReLU計算出兩節(jié)點(diǎn)間的注意力相關(guān)性權(quán)重。為了便于不同節(jié)點(diǎn)間權(quán)重的比較與計算,使用softmax進(jìn)行權(quán)重歸一化,節(jié)點(diǎn)i與相鄰節(jié)點(diǎn)j的注意力互相關(guān)系數(shù)αij,計算如式(3)所示,其中,||表示拼接操作。

(3)

節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)特征同樣使用共享權(quán)重W進(jìn)行變換,然后各節(jié)點(diǎn)根據(jù)對應(yīng)的注意力互相關(guān)系數(shù)進(jìn)行加權(quán)求和,通過非線性變換φ計算節(jié)點(diǎn)i的聚合特征,計算如式(4)所示。

(4)

GAT采用多頭注意力機(jī)制,通過集成多組參數(shù)下的聚合特征來增強(qiáng)模型表達(dá)的魯棒性。式(5)中Wk為第k組線性變換權(quán)重,αk代表第k組注意力互相關(guān)系數(shù)。

(5)

交互層對圖G中特征聚合后的論文子圖與各作者子圖進(jìn)行細(xì)粒度交互??紤]到一位學(xué)者在不同時期的研究領(lǐng)域以及所處機(jī)構(gòu)可能不同,則待消歧論文可能與正確作者僅有幾篇論文內(nèi)容相似,所以交互層應(yīng)該關(guān)注更細(xì)致的相似度匹配信息而不能將子圖粗化為一個向量。

交互層的輸入為待消歧論文子圖Gp與候選作者子圖集合GA={Ga1,Ga2,…,Gam},輸出為Gp與各候選作者子圖的相似度矩陣。在交互層中論文子圖與各作者子圖在設(shè)定的交互范圍內(nèi)(如一階鄰域、全量節(jié)點(diǎn))逐節(jié)點(diǎn)計算特征相似度。M表示Gp與其中一個作者子圖Ga的相似度矩陣,Mij為Gp第i個節(jié)點(diǎn)特征與Ga第j個節(jié)點(diǎn)特征的余弦相似度,若兩個節(jié)點(diǎn)特征信息相似,則相似度應(yīng)接近1,若特征信息無關(guān),相似度應(yīng)接近0,若特征信息相關(guān)且相反,相似度應(yīng)接近-1。圖4為待消歧論文子圖與正確作者及其他作者子圖的相似度矩陣,圖中取相似度矩陣的前15行和前15列的數(shù)據(jù)展示。發(fā)現(xiàn)在交互層中很少存在節(jié)點(diǎn)之間特征信息相關(guān)且相反的情況,圖4中最低的相似度為-0.02。白色代表相似度接近1,黑色代表相似度接近0,由圖可見,本文提出的子圖信息交互模塊能夠較準(zhǔn)確地區(qū)分正確與其他作者。

圖4 待消歧論文子圖與正確作者子圖、其他作者子圖相似度矩陣

3.2 特征增強(qiáng)模塊

特征增強(qiáng)模塊的設(shè)計動機(jī)在于,各個候選作者子圖的交互節(jié)點(diǎn)數(shù)各不相同,故子圖信息交互模塊所返回的相似度矩陣的尺寸不同,模型難以直接利用待消歧論文與不同作者的交互信息。此模塊使用k組徑向基核函數(shù)將特征矩陣轉(zhuǎn)換為相同維度特征向量,同時還能夠?qū)μ卣骶仃囂N(yùn)含的信息進(jìn)行增強(qiáng)。最后,排序?qū)訉⒔?jīng)歸一化后的特征向量進(jìn)行打分排序,以實(shí)現(xiàn)將待消歧論文所對應(yīng)的正確作者與其他作者進(jìn)行有效區(qū)分。

歸一化層的操作類似于信息檢索的核函數(shù)池化[21],Mi為相似度矩陣M第i行,表示Gp第i個節(jié)點(diǎn)與Ga中各個節(jié)點(diǎn)的特征相似度。在式(6)中,K(Mi)第k個元素Kk(Mi)表示對Mi使用式(7)中第k組核函數(shù)(均值μk,標(biāo)準(zhǔn)差σk)處理并進(jìn)行池化求和。

歸一化層最終通過對Gp每個節(jié)點(diǎn)所對應(yīng)的K(Mi)進(jìn)行對數(shù)求和得到Gp與Ga的圖相關(guān)性特征φ(M),見式(8)。歸一化層所使用的徑向基核函數(shù)能夠配置多組超參數(shù)來捕捉到M中不同層次的匹配信息。例如,當(dāng)μ→1,σ→0函數(shù)關(guān)注M所包含的節(jié)點(diǎn)特征間完全匹配的信息,當(dāng)μ→0.5,σ→0函數(shù)則關(guān)注M中相似度近似為0.5的信息。該方式使歸一化層進(jìn)一步豐富了交互層所傳遞的信息。

(8)

排序?qū)踊谂判驅(qū)W習(xí)[21](Learn To Rank,LTR)的思想,使用待消歧論文與各候選作者的圖相關(guān)性特征來對整體框架進(jìn)行有監(jiān)督的訓(xùn)練。排序?qū)邮紫仁褂萌B接層將各個圖相關(guān)性特征轉(zhuǎn)換為匹配得分,然后以在表征空間中縮小論文與正確作者a+的距離、拉大與其余候選作者的距離作為目標(biāo)進(jìn)行訓(xùn)練。訓(xùn)練使用多負(fù)例排序損失作為損失函數(shù),相比三元組損失,該損失函數(shù)具有更大范圍的感受野,能對正確作者與其余作者實(shí)現(xiàn)更有效的區(qū)分。式(9)中Ai代表待消歧論文pi所對應(yīng)的候選作者集合。

(9)

4 融合語義特征與結(jié)構(gòu)特征的消歧模型

4.1 特征介紹

在語義信息方面,前人的工作已經(jīng)證明,基于抽取待消歧論文與候選作者共現(xiàn)信息的特征工程方法在同名消歧任務(wù)中取得了很好的效果[7,16]。此外,使用論文與作者的語義向量進(jìn)行相似度計算所求得的特征對消歧也有一定程度的幫助[7]。因此本文也集成了特征工程的方法,在作者名、題目、關(guān)鍵詞、機(jī)構(gòu)和會議5類屬性上進(jìn)行手工匹配特征的構(gòu)建,以作者為例,待消歧論文中除消歧姓名A以外有共同作者名B、C,候選作者的某些論文的作者名出現(xiàn)B則視B為共現(xiàn)作者,根據(jù)TF-IDF得到共現(xiàn)作者名字的分?jǐn)?shù)以及此分?jǐn)?shù)在所有名字TF-IDF總分?jǐn)?shù)下的比例;除作者名外的論文屬性還使用Jaro Winkler距離和Jaccard相似度等算法來提取論文與論文之間多維度的共現(xiàn)信息,最終構(gòu)建出36維手工匹配特征。隨后使用學(xué)術(shù)預(yù)訓(xùn)練模型OAG-BERT推理得到待消歧論文與候選作者各篇論文的嵌入向量,并基于文章間的相似度矩陣使用多組核函數(shù)池化得到41維嵌入匹配特征。

在結(jié)構(gòu)信息方面,通過本文的結(jié)構(gòu)特征提取框架來獲取圖相關(guān)性特征,框架中的子圖信息交互模塊通過預(yù)訓(xùn)練模型初始化節(jié)點(diǎn)特征,采用訓(xùn)練過的圖注意力網(wǎng)絡(luò)分別對論文子圖與作者子圖中的節(jié)點(diǎn)特征進(jìn)行加權(quán)聚合,再以細(xì)粒度的交互方式得到論文與各候選作者的相似度矩陣,框架中的特征增強(qiáng)模塊使用徑向基核函數(shù)將多組相似度矩陣分別轉(zhuǎn)換為41維圖相關(guān)性特征。

總的來說,在實(shí)時同名消歧任務(wù)中,以手工匹配特征與嵌入匹配特征來代表語義信息,以子圖結(jié)構(gòu)特征提取框架所推理的圖相關(guān)性特征代表結(jié)構(gòu)信息。

4.2 集成學(xué)習(xí)框架

本文首先通過子圖結(jié)構(gòu)特征提取框架、特征工程與文本嵌入的方式獲取待消歧論文與候選作者間的語義和結(jié)構(gòu)信息,然后使用集成學(xué)習(xí)來構(gòu)建子圖結(jié)構(gòu)增強(qiáng)的實(shí)時同名消歧模型RND-all,以實(shí)現(xiàn)對各類消歧信息的全面融合。RND-all對圖相關(guān)性特征、手工匹配特征、嵌入匹配特征均應(yīng)用三類GBDT模型作為基分類器,具體分別為XGBoost、CatBoost和LightGBM。模型框架如圖5所示。

圖5 RND-all模型框架

訓(xùn)練過程中將訓(xùn)練集分為5等份,其中4份作為訓(xùn)練集,1份作為驗(yàn)證集?;贐agging的思想,每一類基分類器均通過5折交叉驗(yàn)證的方式訓(xùn)練5個同分類器類別的子模型,并將子模型的平均預(yù)測概率作為基分類器的輸出以提高整體模型的泛化能力。在預(yù)測過程中各類特征下的候選作者預(yù)測分?jǐn)?shù)通過投票進(jìn)行集成,使語義與結(jié)構(gòu)特征一起參與作者的判定。

5 方法評測與實(shí)驗(yàn)結(jié)果

5.1 數(shù)據(jù)集及實(shí)驗(yàn)設(shè)

數(shù)據(jù)集:本文基于百萬級人工標(biāo)注的同名消歧數(shù)據(jù)集WhoIsWho(6)https://www.aminer.cn/whoiswho進(jìn)行評測[7,22]。WhoIsWho數(shù)據(jù)集最新版本(v3.1)包括人工標(biāo)注的 2 459個姓名所關(guān)聯(lián)的 72 609個作者和 1 102 249篇論文,以及作者和論文之間的匹配關(guān)系。據(jù)統(tǒng)計,WhoIsWho中87%的姓名為消歧難度更大的中文姓名,數(shù)據(jù)集中的論文與作者涉及計算機(jī)、材料以及生物等十多種領(lǐng)域。WhoIsWho包括冷啟動消歧與實(shí)時消歧兩個子數(shù)據(jù)集,本文采用實(shí)時消歧數(shù)據(jù)集開展實(shí)驗(yàn)并基于作者檔案以及論文的屬性信息進(jìn)行構(gòu)圖。由于部分作者或論文沒有子圖結(jié)構(gòu)信息,數(shù)據(jù)集預(yù)處理時采用WhoIsWho訓(xùn)練集作者檔案中的論文與候選同名作者列表構(gòu)建出30 000組樣本,并按照7∶3劃分訓(xùn)練集與驗(yàn)證集,其中每組樣本由待消歧論文、正確作者以及9位同名不正確作者構(gòu)成;測試集為5 968篇待消歧論文,實(shí)驗(yàn)中將每篇待消歧論文與消歧姓名對應(yīng)的所有同名作者構(gòu)成待預(yù)測樣本。

參數(shù)設(shè)置與實(shí)驗(yàn)環(huán)境:本文使用的具體參數(shù)設(shè)置如下: 節(jié)點(diǎn)特征維度d=768,圖注意力網(wǎng)絡(luò)層數(shù)l=2,每層注意力頭數(shù)量分別為4和1,訓(xùn)練使用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化,初始學(xué)習(xí)率0.001,使用指數(shù)下降學(xué)習(xí)率調(diào)節(jié)器ExponentialLR,每一輪將學(xué)習(xí)率乘以0.9,一共訓(xùn)練30輪;集成學(xué)習(xí)中GBDT基分類器設(shè)置樹深度為10層,學(xué)習(xí)率0.05,迭代1 000輪;徑向基核函數(shù)配置41組超參數(shù),41組核函數(shù)的均值μ為從1到-1步長為0.05的遞減數(shù)列,方差σ除首位為0.001外其余均取0.1。實(shí)驗(yàn)平臺環(huán)境為NVIDIA GeForce GTX2080Ti 顯卡(11 GB顯存),Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40 GHz,256 GB內(nèi)存的處理器。

評估指標(biāo):實(shí)驗(yàn)采用命中率HR@k和平均倒數(shù)排名MRR來評估實(shí)時同名消歧任務(wù)下不同模型的效果。HR@k計算正確作者排名在前k位的樣本占所有樣本的比例,MRR對所有樣本計算正確作者所在排名的倒數(shù)的平均值,這兩種指標(biāo)分別強(qiáng)調(diào)實(shí)時消歧模型預(yù)測的召回率與正確答案的排序位置,兩種指標(biāo)值越大代表模型效果越好。

5.2 基線模型

本文與多個實(shí)時同名消歧相關(guān)的基線模型進(jìn)行比較,主要包括:

(1) CAMEL模型[13]首先將待消歧論文經(jīng)GRU編碼為論文的初始嵌入,之后基于作者與論文之間的結(jié)構(gòu)關(guān)系通過隨機(jī)游走的方式更新論文與作者的表示,最后直接將嵌入向量用于實(shí)時消歧。

(2) GML模型[6]提出一種基于度量學(xué)習(xí)的消歧方法。首先使用預(yù)訓(xùn)練的Word2Vec獲取論文嵌入向量,然后通過作者已發(fā)表論文的平均嵌入來作為作者表示,在訓(xùn)練過程使用度量學(xué)習(xí)來拉近論文與正確作者的距離并推遠(yuǎn)與其余作者的距離,進(jìn)而優(yōu)化作者與論文嵌入中的語義信息。

(3) IUAD模型[16]按照共同作者、研究領(lǐng)域與期刊會議三方面統(tǒng)計出待分配論文與候選作者的相關(guān)性特征,使用EM算法學(xué)習(xí)多組匹配分布的參數(shù)用于消歧。

(4) CONNA模型[7]對待消歧論文與候選作者不同論文以及論文中的不同屬性利用預(yù)訓(xùn)練模型來計算細(xì)粒度的語義匹配特征,同時還使用了特征工程進(jìn)一步增強(qiáng)消歧特征的表達(dá)能力。

5.3 實(shí)驗(yàn)與分析

5.3.1 基線模型對比結(jié)果

表1為RND-all與各基線模型的對比結(jié)果。CAMEL通過隨機(jī)游走來學(xué)習(xí)作者嵌入向量,當(dāng)出現(xiàn)某些作者所發(fā)表論文非常少的情況時,這類作者的嵌入向量無法得到較有效的訓(xùn)練,該方法結(jié)果并不理想;GML通過所發(fā)表論文的平均嵌入向量來表示作者,在很大程度上緩解了CAMEL中特征稀疏的問題,但因?yàn)槿狈ξ谋緦用娴闹苯悠ヅ涮卣鞅憩F(xiàn)較為一般。除此之外,GML所使用平均嵌入向量的方式無法捕獲細(xì)粒度信息,忽視了待消歧論文僅與正確作者少量論文相關(guān)的情況;IUAD和CONNA均在通過文本嵌入向量進(jìn)行細(xì)粒度匹配的基礎(chǔ)上,進(jìn)一步使用特征工程在文本上獲取更細(xì)致豐富的直接匹配特征,兩種消歧方法在特征工程設(shè)計上有一定差異,但是實(shí)際結(jié)果差距較小。

表1 不同消歧方法在實(shí)時消歧任務(wù)上的效果

本文注意到IUAD和CONNA沒有利用消歧論文與候選作者之間固有的結(jié)構(gòu)信息,因此,所提出的RND-all模型,首先采用子圖結(jié)構(gòu)特征提取框架來獲取論文與候選作者之間的圖相關(guān)性特征;然后,通過特征工程和文本嵌入技術(shù)得到不同維度的語義特征;最終,通過集成學(xué)習(xí)方法實(shí)現(xiàn)了語義和結(jié)構(gòu)信息的有效融合。RND-all的HR@1、HR@3和MRR指標(biāo)均達(dá)到最高,分別為95.09%、99.69%和97.36%,相比CONNA分別提升3.99個百分點(diǎn)、1.24個百分點(diǎn)和2.5個百分點(diǎn)。

5.3.2 RND-all應(yīng)用于WhoisWho同名消歧競賽

WhoisWho是全球范圍內(nèi)首個考慮NIL(Not In List,NIL)問題的同名消歧競賽,WhoIsWho競賽已經(jīng)舉辦三屆,累計吸引了3 000余名研究者參賽。目前WhoIsWho競賽長期維護(hù)兩個同名消歧子任務(wù)的排行榜。本文在RND-all的基礎(chǔ)上適配此競賽,最終在實(shí)時同名消歧賽道取得第一名的成績。

NIL問題指待消歧論文不應(yīng)該屬于數(shù)據(jù)集已有的任何作者,例如,平臺收錄了一名大學(xué)生發(fā)表的第一篇論文,但這篇論文不屬于平臺中任何與他同名的作者,因此實(shí)時消歧模型不僅需要根據(jù)待消歧論文的內(nèi)容在候選作者中發(fā)現(xiàn)正確作者,還要對論文是否為NIL做出判斷。該競賽使用weighted-F1來綜合衡量各參賽者的實(shí)時同名消歧算法的預(yù)測精度以及NIL的識別能力。為應(yīng)對NIL場景,本文構(gòu)造由論文與同名非正確作者組成的訓(xùn)練樣本來仿真NIL數(shù)據(jù),并在原RND-all的各基分類器的上面再疊加一層GBDT模型用于NIL數(shù)據(jù)的判定。上層所疊加的模型首先將基分類器下各作者的預(yù)測分?jǐn)?shù)進(jìn)行降序排列,然后取第一名作者得分、所有候選者平均得分、前兩名作者分?jǐn)?shù)差與第一名及最后一名分?jǐn)?shù)差的比值來構(gòu)造代表候選作者總體分布信息的特征向量,用于NIL的判定訓(xùn)練。最終,如圖6所示,本文所提的子圖結(jié)構(gòu)增強(qiáng)的RND-all獲得競賽冠軍,相比亞軍與季軍的方法,RND-all最大的區(qū)別就在于消歧特征中額外引入了待消歧論文與候選作者的結(jié)構(gòu)信息。

圖6 WhoIsWho同名消歧競賽實(shí)時同名消歧子任務(wù)排行榜

5.3.3 語義信息與結(jié)構(gòu)信息對性能的影響

為探究語義信息與結(jié)構(gòu)信息對實(shí)時消歧任務(wù)的貢獻(xiàn),本文對兩類信息下的各個特征進(jìn)行消融實(shí)驗(yàn)。語義信息上采用了手工匹配特征(簡記為Hand)以及基于OAG-BERT的嵌入匹配特征(簡記為Embedding),結(jié)構(gòu)信息上使用第三節(jié)框架所提取的圖相關(guān)性特征(簡記為Graph)。下面以一篇待消歧論文與一位同名候選作者來分析計算三類特征的時間復(fù)雜度,候選作者檔案中的論文數(shù)為N,論文或者機(jī)構(gòu)名所構(gòu)成字符序列的長度為S,預(yù)訓(xùn)練模型詞表大小為V,詞向量維度為H,預(yù)訓(xùn)練模型層數(shù)為L,圖中的邊數(shù)為E。計算手工匹配特征的時間復(fù)雜度為O(NS),計算嵌入匹配特征的時間復(fù)雜度為O(N((V+S)H+LH2)),計算圖相關(guān)性特征的時間復(fù)雜度為O(N((V+S)H+LH2)+EH)。

使用不同特征的消歧效果如表2所示,模型1和3僅使用語義特征,模型3在模型1基礎(chǔ)上引入嵌入匹配特征后HR@1有所提高,說明使用更豐富的語義信息有一定作用。模型5相比模型1多融入了結(jié)構(gòu)信息,HR@1提升0.28個百分點(diǎn),說明結(jié)構(gòu)特征能夠進(jìn)一步增強(qiáng)模型性能。其中,融合結(jié)構(gòu)信息與語義信息的模型6達(dá)到最佳效果,相比使用兩種語義特征的模型3,在HR@1提升0.3個百分點(diǎn),再次證明結(jié)構(gòu)信息的有效性。

表2 不同特征的消融實(shí)驗(yàn)

通過觀察引入結(jié)構(gòu)特征的模型相較于僅使用語義特征的模型所多分配正確的論文,本文發(fā)現(xiàn)這類待消歧論文存在兩個特點(diǎn),一是論文與多位同名候選作者檔案均存在較多的共現(xiàn)信息,二是論文普遍為生物、化學(xué)相關(guān)領(lǐng)域,文中含有大量復(fù)雜的專業(yè)術(shù)語。在此類復(fù)雜實(shí)時消歧場景下僅使用語義特征較難發(fā)揮作用,而引入結(jié)構(gòu)特征能帶來的性能提升是因?yàn)閳D模型能在較大的數(shù)據(jù)范圍上關(guān)注到相對突出的信息,更利于復(fù)雜場景下的實(shí)時消歧。

另外,本文統(tǒng)計了各組模型在各個消歧姓名下待消歧論文的排序指標(biāo)。通過模型6的結(jié)果與其余模型結(jié)果使用Paired T-test進(jìn)行顯著性分析,模型6與其余模型的p-value均小于0.05,說明此模型與消融實(shí)驗(yàn)中其余模型存在顯著差異。

5.3.4 實(shí)例分析

為直觀分析結(jié)構(gòu)信息對實(shí)時消歧算法性能帶來的提升,本文對僅用語義信息分配有誤而在引入結(jié)構(gòu)信息后分配正確的文章加以分析。

以圖7中WhoIsWho中標(biāo)號為“bN3NQ9Tz”的待消歧論文為例,該文待消歧作者名為“Qing Chen”、機(jī)構(gòu)為“Southern Medical University”、論文關(guān)鍵詞為“Methylenetetrahydrofolate”和“Meta-analysis”中文分別譯為“亞甲基四氫葉酸”和“元分析”。兩名同名候選作者均在已發(fā)表論文的機(jī)構(gòu)出現(xiàn)過“Southern Medical University”,ID為“6D1dm9qQ”的學(xué)者主要開展基因相關(guān)研究,ID為“F204Rizj”的學(xué)者關(guān)注呼吸系統(tǒng)疾病的研究。通過查閱兩名作者的檔案,發(fā)現(xiàn)相關(guān)論文中均存在大量醫(yī)學(xué)相關(guān)的名詞以及許多復(fù)雜的化學(xué)物質(zhì)名稱。其中,ID為“F204Rizj”的作者較多論文出現(xiàn)含義更為寬泛的“Meta-analysis”關(guān)鍵詞,因此僅使用語義信息的模型更傾向分配給此作者。而RND-all通過圖注意力網(wǎng)絡(luò)對多跳信息進(jìn)行聚合,能夠捕捉結(jié)構(gòu)中更突出的信息,因此待消歧論文節(jié)點(diǎn)雖然與兩個候選作者子圖中的節(jié)點(diǎn)均具有共現(xiàn)詞,但是在節(jié)點(diǎn)之間的相似度上已有較大差異,如圖中相似度分別為0.77與0.51。

圖7 實(shí)例分析

通過本例可以觀察到,僅使用語義信息所導(dǎo)致的消歧錯誤往往是因?yàn)槎辔缓蜻x作者之間存在語義上易混淆的相似關(guān)鍵詞,并且待消歧的論文普遍為生物醫(yī)藥以及化工材料領(lǐng)域。因此,本文認(rèn)為結(jié)構(gòu)信息所帶來的效果提升源于以下兩點(diǎn):

(1) 部分待消歧論文所對應(yīng)的多位同名作者在機(jī)構(gòu)、研究領(lǐng)域上內(nèi)容相近,導(dǎo)致兩名學(xué)者在文章內(nèi)容上具有較多的共現(xiàn)詞匯,此時僅依賴語義信息很難進(jìn)行準(zhǔn)確地消歧,要進(jìn)一步通過構(gòu)建圖來從全局結(jié)構(gòu)上提取更突出的信息。

(2) 在生物、化學(xué)等領(lǐng)域,文章標(biāo)題與關(guān)鍵詞中經(jīng)常出現(xiàn)復(fù)雜的專業(yè)名詞,手工匹配與嵌入匹配特征在這類信息上表達(dá)能力比較有限,進(jìn)而使用論文、作者、機(jī)構(gòu)在關(guān)聯(lián)結(jié)構(gòu)中表達(dá)出的信息對實(shí)時同名消歧任務(wù)更有幫助。

5.3.5 不同范圍下子圖交互效果

為觀察子圖結(jié)構(gòu)特征提取框架中交互層在不同范圍的交互效果,實(shí)驗(yàn)對待消歧論文子圖Gp與候選作者子圖Ga采用一對一、一對多和多對多的方式進(jìn)行特征交互。一對一交互指僅對自我中心網(wǎng)絡(luò)Gp與Ga的中心節(jié)點(diǎn)進(jìn)行相似度計算;多對多交互分為兩種交互范圍,Gp與Ga全量節(jié)點(diǎn)之間的交互和Gp與Ga在中心節(jié)點(diǎn)一階鄰域的交互;類似的,一對多交互分為Gp中心節(jié)點(diǎn)與Ga全量節(jié)點(diǎn)的交互、Gp中心節(jié)點(diǎn)與Ga一階鄰域的交互。

通過表3觀察到,僅使用Gp與Ga中心節(jié)點(diǎn)一對一交互的效果不佳,雖然中心節(jié)點(diǎn)通過鄰居進(jìn)行了特征聚合,但一對一的交互方式直接損失了子圖中大量的信息;使用多對多方式在Gp與Ga全量節(jié)點(diǎn)的交互相較前者在HR@1、HR@3、MRR上均有提高,反映出利用圖中豐富信息能有效提高模型消歧的能力,但在本身圖的構(gòu)建過程中高階鄰居節(jié)點(diǎn)不可避免地會引入噪聲,全量節(jié)點(diǎn)的交互過程中可能摻雜一定的錯誤信息,所以HR@1表現(xiàn)一般;多對多方式在一階鄰域交互后的模型在HR@1和MRR下取得最好效果,本文認(rèn)為論文與作者子圖的一階鄰域代表待消歧論文與候選作者最直接相關(guān)的內(nèi)容,其已經(jīng)蘊(yùn)含絕大部分有助于消歧的信息,同時此范圍交互能夠避免高階噪聲節(jié)點(diǎn)產(chǎn)生的誤導(dǎo)信息,該方法相較于前面的一對一和全量交互在HR@1上分別提高9.36個百分點(diǎn)和5.46個百分點(diǎn)。另外,從一對多交互的兩組實(shí)驗(yàn)觀察到,Gp中心節(jié)點(diǎn)與Ga一階鄰域交互的HR@1、MRR要高于與Ga全量節(jié)點(diǎn)交互,而后者使用全量節(jié)點(diǎn)的方式在HR@3上優(yōu)于一階鄰域的交互,我們發(fā)現(xiàn),此現(xiàn)象同樣出現(xiàn)在兩組多對多實(shí)驗(yàn)上,因此本文認(rèn)為全量匹配雖然損失一定的精度導(dǎo)致HR@1與MRR下降,但是引入更大范圍的信息有助于部分正確作者提升在整體排序中的名次,使得正確匹配作者更有機(jī)會進(jìn)入預(yù)測分?jǐn)?shù)最高的前三名,從而HR@3有所提升。

表3 不同范圍下子圖交互效果

6 總結(jié)

本文提出子圖結(jié)構(gòu)增強(qiáng)的實(shí)時同名消歧模型RND-all,首先通過子圖結(jié)構(gòu)特征提取框架高效計算出論文與候選作者之間的結(jié)構(gòu)特征,然后采用特征工程與文本嵌入方法提取用于消歧的語義特征,最終使用集成學(xué)習(xí)實(shí)現(xiàn)語義信息與結(jié)構(gòu)信息融合。RND-all在WhoIsWho實(shí)時同名消歧數(shù)據(jù)集上各類指標(biāo)均達(dá)到最優(yōu),并且在WhoIsWho競賽實(shí)時消歧排行榜上排名第一,表現(xiàn)出語義特征與結(jié)構(gòu)特征融合的優(yōu)越性。在本文的消融實(shí)驗(yàn)與實(shí)例分析中進(jìn)一步闡明了引入結(jié)構(gòu)特征的有效性。

RND-all在結(jié)構(gòu)信息的提取上仍有幾個可能的改進(jìn)點(diǎn),在初始化節(jié)點(diǎn)特征上未來可選用更強(qiáng)大的預(yù)訓(xùn)練模型進(jìn)行特征表示以提高節(jié)點(diǎn)的表達(dá)能力,圖神經(jīng)網(wǎng)絡(luò)模型方面可采用Graph Transformer[23]等新型模型增強(qiáng)特征聚合能力。此外,如何將結(jié)構(gòu)特征更有效地引入實(shí)時同名消歧任務(wù)也是今后值得關(guān)注的研究方向。

猜你喜歡
消歧同名子圖
基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
同名
西江月(2021年3期)2021-12-21 06:34:14
基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
臨界完全圖Ramsey數(shù)
臨界完全圖Ramsey數(shù)
藏文歷史文獻(xiàn)識別過程中藏文自由虛詞的自動識別及消歧算法的研究
三 人 行
基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
集成成像同名像點(diǎn)三維形貌獲取方法
與星星同名
阿荣旗| 仁化县| 商都县| 万荣县| 望谟县| 宝山区| 桂林市| 佛坪县| 莱阳市| 普兰县| 林西县| 沂南县| 墨玉县| 东丰县| 泰宁县| 漯河市| 望谟县| 田阳县| 郓城县| 高唐县| 衢州市| 乐东| 祁阳县| 辽阳市| 墨玉县| 渑池县| 唐海县| 渝北区| 阳原县| 邛崃市| 调兵山市| 鲜城| 分宜县| 甘谷县| 沁水县| 永吉县| 宣城市| 临朐县| 桐乡市| 江源县| 河北区|