蘇佳林,王元卓,靳小龍,李曼玲,程學(xué)旗
(1.中國科學(xué)院計算技術(shù)研究所,中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室,北京 100190;2.中國科學(xué)院大學(xué) 計算機與控制學(xué)院,北京 101408)
知識圖譜實體對齊的目標(biāo)是預(yù)測不同知識圖譜實體間的對齊關(guān)系,即多個數(shù)據(jù)源之間相同實體的對應(yīng)關(guān)系。實體對齊能夠?qū)χ貜?fù)、冗余的實體進(jìn)行清理合并,解決知識庫中實體的復(fù)用問題,知識圖譜實體對齊(entity alignment)是實現(xiàn)知識網(wǎng)絡(luò)融合的有效途徑[1],進(jìn)而能夠支持語義搜索、問答系統(tǒng)等上層應(yīng)用。
實體對齊方法主要分為兩大類,一類是傳統(tǒng)的實體對齊方法,一類是基于知識表示學(xué)習(xí)對實體對齊關(guān)系進(jìn)行推斷。
傳統(tǒng)的實體對齊方法主要通過屬性相似度匹配的方式實現(xiàn),利用有監(jiān)督學(xué)習(xí)的機器學(xué)習(xí)模型,如:決策樹[2]、支持向量機[3]、集成學(xué)習(xí)[4]等。Cohen等人[5]提出了基于實體姓名聚類的實體對齊,是最早的工作之一。Sarawagi等人[6]提出了使用主動學(xué)習(xí)(Active Learning)的方法,該方法需要人工不斷去標(biāo)注一些很難識別的實體對,之后能夠利用人工的反饋,提升系統(tǒng)的效果。之后Arasu等人[7]在主動學(xué)習(xí)的基礎(chǔ)上,增加了過濾(Blocking)操作,去尋找最有信息量的實體對進(jìn)行訓(xùn)練,能夠減少人力需要標(biāo)注的數(shù)據(jù)量。
PARIS (Probabilistic Alignment of Relations, Instances,and Schema)[8]是一種基于實體的概率化的方法,該方法根據(jù)啟發(fā)式規(guī)則,通過概率統(tǒng)計的方法,用一對一關(guān)系特性找到對齊的實體和關(guān)系。Song等人[9]在此基礎(chǔ)上針對異構(gòu)數(shù)據(jù)提出了兩種選擇算法HistSim和DisNGram,HistSim算法通過利用實體的對齊歷史計算相似度修剪不匹配的實體,而DisNGram算法通過計算字符級別相似性度量來選擇候選對齊的實體。Lacoste等人[10]針對大規(guī)模數(shù)據(jù)提出了一種基于貪心的實體間對齊關(guān)系的推斷方法SiGMa (Simple Greedy Matching),該方法組合字符串、屬性和結(jié)構(gòu)信息以貪婪的局部搜索方式發(fā)現(xiàn)對齊的實體。
上述傳統(tǒng)的實體對齊方法依賴實體的屬性信息,通過屬性相似度,進(jìn)行跨網(wǎng)絡(luò)實體對齊關(guān)系的推斷。由于屬性的類別不同,需要設(shè)計不同的屬性相似度計算函數(shù),且不同的領(lǐng)域需要設(shè)計不同的屬性相似度函數(shù),不僅耗費人力,而且難以在多領(lǐng)域間遷移。同時,由于屬性的表達(dá)是離散的,這種計算方式忽略了屬性的語義相似度,限制了實體對齊的效果。
近年來,知識表示學(xué)習(xí)受到了廣泛關(guān)注,該方法能夠建模知識圖譜中的語義相似度。具體地,通過將知識圖譜中的實體和關(guān)系都映射低維空間向量,直接用數(shù)學(xué)表達(dá)式來計算各個實體之間相似度。這類方法不依賴任何的文本信息,獲取到的都是數(shù)據(jù)的深度特征,在建模知識圖譜語義方面取得了很好的效果,例如TransE[11]方法等。
知識表示學(xué)習(xí)是使用建模的方法,將知識圖譜中的實體和關(guān)系表示成為低維的向量,然后對其進(jìn)行計算和推理。TransE是最早的知識表示學(xué)習(xí)模型。它將每個三元組關(guān)系(h,r,t)表示成從頭實體h到尾實體t的向量。TransE希望三元組尾實體t應(yīng)該盡量接近于頭實體h與關(guān)系r的和,即h+r=t.TransE定義損失函數(shù):‖h+r-t‖L1/L2,并在模型中使用隨機梯度下降的方法對參數(shù)進(jìn)行更新。傳統(tǒng)訓(xùn)練知識庫中三元組建模的方法參數(shù)過多,導(dǎo)致模型太復(fù)雜難以解釋,并且需要很大的計算代價,很容易出現(xiàn)過擬合或欠擬合問題[11]。而TransE作為一種將實體與關(guān)系嵌入到低維向量空間中的簡單模型,彌補了傳統(tǒng)方法訓(xùn)練復(fù)雜、參數(shù)過多的缺點。雖然TransE模型在大規(guī)模數(shù)據(jù)集上取得了很好的效果,但其只能針對一對一關(guān)系進(jìn)行計算,而無法對一對多、多對一、多對多的復(fù)雜關(guān)系進(jìn)行計算。因此,出現(xiàn)了很多對TransE進(jìn)行改進(jìn)的模型,如TransH[12]、TransR[13]、TranSparse[14]、TransA[15]、HTransA[16]、PTransE[17]等。
與TransE模型相比,這些新的Trans系列模型能夠計算知識庫中更加復(fù)雜的實體關(guān)系建模,如一對多、多對一、多對多的關(guān)系。如TransH、TransR和TranSparse模型都是將頭實體h和尾實體t投射到另一個超平面上;TransA和HTransA則使用局部特征自適應(yīng)的方式得到最優(yōu)損失函數(shù),無須事先指定參數(shù)的封閉候選值集合;PTransE是一種基于路徑分布表示的方法,將實體、關(guān)系以及路徑都在低維的向量空間中表示[18]。
上述實體對齊關(guān)系推斷方法均為單網(wǎng)絡(luò)關(guān)系推斷算法,近年來開始有基于知識表示學(xué)習(xí)的跨網(wǎng)絡(luò)關(guān)系推斷算法。但是,如果將知識表示學(xué)習(xí)算法直接應(yīng)用到實體對齊任務(wù)中,采用多網(wǎng)絡(luò)聯(lián)合表示學(xué)習(xí),并不能取得令人滿意的效果。因為實體對齊是一種特殊的跨網(wǎng)絡(luò)關(guān)系,需要分析并依據(jù)實體對齊關(guān)系的特點,設(shè)計面向?qū)嶓w對齊的聯(lián)合表示學(xué)習(xí)模型。因此,目前已經(jīng)有方法采用知識表示學(xué)習(xí)的方法進(jìn)行實體對齊工作,并取得了較好的效果,如Cross-KG[19]和SEEA[20]。其中Cross-KG首次提出對兩個知識圖譜進(jìn)行聯(lián)合學(xué)習(xí),這樣能夠利用兩個數(shù)據(jù)源的互補信息進(jìn)行關(guān)系推斷。
但是這類算法都存在兩個問題:(1)僅僅通過知識表示學(xué)習(xí)建模語義信息,忽略了知識圖譜的結(jié)構(gòu)化屬性信息。事實上,知識圖譜的結(jié)構(gòu)化屬性信息具有準(zhǔn)確度更高的特點,能夠幫助提升實體對齊效果。(2)需要大量的標(biāo)注好的實體對齊數(shù)據(jù),而在實際中,標(biāo)注對齊實體對需要耗費大量人力。
針對上述問題,本文融合知識圖譜語義信息和結(jié)構(gòu)信息,提出使用協(xié)同訓(xùn)練框架的融合語義和結(jié)構(gòu)信息的實體對齊方法,將數(shù)據(jù)特征分成獨立且充分的語義和結(jié)構(gòu)兩個視角,通過兩個視角相互補充,使用無標(biāo)記數(shù)據(jù)輔助模型訓(xùn)練,提升對齊效果。同時,在通過知識表示學(xué)習(xí)建模語義信息的基礎(chǔ)上,通過根據(jù)離散的結(jié)構(gòu)化的屬性信息,建立屬性強約束抑制協(xié)同訓(xùn)練過程中的語義漂移。本文所提出的方法在科研學(xué)術(shù)領(lǐng)域和視頻領(lǐng)域數(shù)據(jù)集上進(jìn)行測試,與其他基于知識表示學(xué)習(xí)的實體對齊方法相比,準(zhǔn)確率和F1值都有提升。
與傳統(tǒng)方法相對比,本文的方法具有以下優(yōu)勢:
(1) 基于知識表示學(xué)習(xí),能夠自動學(xué)習(xí)得到深層的語義特征,無須針對不同領(lǐng)域設(shè)計不同的屬性相似度函數(shù)。
(2) 使用Cotraining框架,對語義和結(jié)構(gòu)信息進(jìn)行融合,得到更準(zhǔn)確的實體對齊結(jié)果。
(3) 使用結(jié)構(gòu)化屬性約束抑制Cotraining框架的語義漂移,提升實體對齊效果。
本文將一個訓(xùn)練集T從兩個角度進(jìn)行分類,一個是語義角度Tse,一個是結(jié)構(gòu)角度Tst。語義角度就是通過自然語言對實體進(jìn)行形容的特征,結(jié)構(gòu)角度就是結(jié)構(gòu)化的屬性特征。例如對于電影領(lǐng)域知識圖譜,語義角度的特征有電影名稱、電影摘要、電影評論、電影標(biāo)簽等;結(jié)構(gòu)角度的特征有導(dǎo)演、演員、編劇、上映時間等。然后,對兩個角度分別執(zhí)行訓(xùn)練模塊,并對未標(biāo)記的實體進(jìn)行實體對齊推斷,選出可信的實體對齊推斷結(jié)果,分別加入另一個角度的訓(xùn)練數(shù)據(jù)中,并使用新的訓(xùn)練數(shù)據(jù)再次訓(xùn)練實體對齊模塊。
首先將知識圖譜中的實體劃分為兩個相互獨立的視角:語義特征視角和結(jié)構(gòu)特征視角,并基于這兩個視角得到兩個不同的分類模型:基于語義的實體對齊模型和基于結(jié)構(gòu)的實體對齊模型。首先,根據(jù)少量已標(biāo)注數(shù)據(jù),訓(xùn)練兩個視角的實體對齊模型,并使用模型對無標(biāo)記的實體進(jìn)行對齊結(jié)果預(yù)測。在訓(xùn)練過程中,將每一次模型分類得到的最優(yōu)結(jié)果放入已標(biāo)記數(shù)據(jù)中,并不斷迭代訓(xùn)練兩個視角的模型,使兩個視角的模型相互補充,直至收斂。
算法 1 Cotraining訓(xùn)練框架輸入: 知識圖譜1三元組T1={(h,r,t)} , 已對齊數(shù)據(jù)源1實體集合L1, 待對齊數(shù)據(jù)源1實體集合U1, 知識圖譜2三元組T2={(h,r,t) }, 已對齊數(shù)據(jù)源2實體集合L2, 待對齊數(shù)據(jù)源2實體集合U2, 標(biāo)注好的對齊實體對L={(e1,SameAs,e2)},e1∈L1,e2∈L2 迭代次數(shù)k輸出:訓(xùn)練后的實體和關(guān)系的Embedding向量1 組成聯(lián)合知識圖譜T=T1∪T2∪L2 將訓(xùn)練三元組分成兩個角度X1= Tse∪L,X2= Tst∪L3 Loop for k iterations:4 根據(jù)X1訓(xùn)練第一視角實體對齊模型m15 根據(jù)X2訓(xùn)練第二視角實體對齊模型m26 用m1推斷對齊實體對,并選出可信的實體對齊結(jié)果L'17 用m2推斷對齊實體對,并選出可信的實體對齊結(jié)果L'28 X1←X1∪L'29 X2←X2∪L'110 End Loop
在單個視角下,本文采用聯(lián)合表示學(xué)習(xí)的方式,將兩個知識圖譜統(tǒng)一在同一個向量空間中,同時學(xué)習(xí)兩個知識圖譜之間的實體對齊關(guān)系和兩個網(wǎng)絡(luò)內(nèi)部的實體屬性約束,從而能夠?qū)崿F(xiàn)實體對齊關(guān)系的推斷。具體地,將兩個知識圖譜中實體間對齊關(guān)系認(rèn)成一種特殊的關(guān)系r*=SameAs,實體對齊關(guān)系可以組成三元組(e1,SameAs,e2),與兩個知識圖譜的其他三元組共同學(xué)習(xí)。在開始訓(xùn)練之前,兩個網(wǎng)絡(luò)的實體和關(guān)系利用均勻分布初始化其向量表示,同時,基于假設(shè)實體關(guān)系對在向量空間中滿足h+r≈t,損失函數(shù)使得正例實體關(guān)系對盡量滿足此假設(shè),負(fù)例實體關(guān)系對盡量不滿足此假設(shè),如下:
(1)
其中,L為向量空間表示方法的損失函數(shù),(h,r,t)∈Δ為正例三元組構(gòu)成的集合,具體地,根據(jù)輸入的三元組形式的知識圖譜,將知識庫里的實體和實體間的關(guān)系、實體的屬性都變成三元組的形式,這些知識圖譜中實際存在的三元組即是正例三元組。例如,“紅高粱”的“導(dǎo)演”是“張藝謀”,因此(“紅高粱”,“導(dǎo)演”,“張藝謀”)是正例三元組。(h′,r′,t′)∈Δ′為負(fù)例三元組構(gòu)成的集合,對每個正例三元組,隨機替換頭實體、尾實體或關(guān)系,生成知識圖譜內(nèi)不存在的三元組,即是負(fù)例三元組。特別地,對于實體對齊關(guān)系SameAs的三元組,構(gòu)造負(fù)例三元組時,為使生成的負(fù)例更有針對性,替換實體仍應(yīng)該是另一個數(shù)據(jù)源的同類型實體,即隨機替換頭實體為第一個數(shù)據(jù)源的同類型實體,或替換尾實體為第二個數(shù)據(jù)源的同類型實體。
fr(h,t)是三元組(h,r,t)的打分函數(shù),衡量該三元組的損失。特別地,
(2)
在具體優(yōu)化過程中,約束SameAs的向量為零向量。
注意,在兩個網(wǎng)絡(luò)進(jìn)行聯(lián)合表示學(xué)習(xí)的過程中,通過屬性名稱將兩個網(wǎng)絡(luò)的屬性進(jìn)行消歧,這樣會自動對齊一部分屬性。而其他屬性,在學(xué)習(xí)的時候,能夠?qū)⒄Z義相似的實體在語義空間中有較近的分布,例如“杰森”和“詹森”。
然后優(yōu)化損失函數(shù),對實體關(guān)系對的頭實體向量、關(guān)系向量和尾實體向量迭代進(jìn)行更新,當(dāng)損失函數(shù)滿足預(yù)設(shè)條件時,更新得到的頭實體向量、關(guān)系向量和尾實體向量作為訓(xùn)練模型。損失函數(shù)滿足預(yù)設(shè)條件包括:損失函數(shù)計算達(dá)到最大迭代次數(shù),或者,損失函數(shù)的結(jié)果值在各次迭代中保持不變??梢圆捎锰荻认陆捣椒ㄟM(jìn)行更新,采用L2范式時,向量更新方式如下:
?i∈{0,1,2,…,dim}
hi=hi-μ·2·|ti-hi-ri|
ri=ri-μ·2·|ti-hi-ri|
ti=ti+μ·2·|ti-hi-ri|
(3)
其中,dim是向量空間的維度,hi代表h的第i維向量,μ為學(xué)習(xí)率。
算法2 基于聯(lián)合表示學(xué)習(xí)的實體對齊模型訓(xùn)練算法輸入:訓(xùn)練三元組T={(h,r,t)} ,實體集合E和關(guān)系集合R 算法參數(shù):Embedding維度d,間距M,迭代輪數(shù)ep,并行線程數(shù)p輸出: 訓(xùn)練后的實體和關(guān)系的Embedding向量1 初始化:通過均一分布初始化r∈R,e∈E 2 Loop:3 e←e∕‖e‖4 Sbatch← 大小為b的樣本(S, b)5 Tbatch←初始化三元組6 For (h,r,t)∈Sbatchdo7 (h',r,t')←對負(fù)例三元組采樣S(h',r,t')8 Tbatch←Tbatch∪{(h,r,t),(h',r,t')}9 End for10 最小化損失函數(shù),∑?[γ+d(h+r,t)-d(h'+r,t')]更新實體和關(guān)系的表示向量11 End loop
若給定t*,推斷與t*存在跨網(wǎng)絡(luò)實體對齊關(guān)系的h,則根據(jù)打分函數(shù)對所有實體關(guān)系對(h′,SameAs,t*)打分,取打分值最高的h′作為推斷結(jié)果。打分函數(shù)基于向量表示相似度和屬性相似度定義:
fpredict(h,r,t*)=(1+w×Dist(h,t*))‖h-t*‖ ,
(4)
其中,‖h-t*‖衡量基于表示學(xué)習(xí)的語義相似度,Dist(h,t*)表示屬性相似度。目前屬性強約束部分更多依賴人的先驗知識進(jìn)行屬性選擇和相似度計算方式選擇,下一步工作中應(yīng)該對屬性的自動選擇進(jìn)行建模,減少對先驗知識的依賴。具體地,本文中采用名稱屬性和時間屬性,兩個實體的屬性相似度距離為:
(5)
此時依據(jù)相似度由小到大將數(shù)據(jù)源1中的視頻實體排成一列h(1),h(2),…,h(N),將排在最前的實體h(1)選為和t*等價的實體。
為了提高視頻實體對齊的準(zhǔn)確率,要求排名第一的h(1)和t的相似度fpredict(h(1),r,t*)較為顯著地大于排名第二的h(2)和t*的相似度fpredict(h(2),r,t*).為此需要滿足以下條件:
Dist(h(1),t*) (6) fpredict(h(2),r,t*)-fpredict(h(1),r,t*)>T, (7) 其中T為一個人為設(shè)定的閾值。如果h(1)滿足上述要求,則接受h(1)與t等價,否則不接受h(1)與t等價。 實驗的數(shù)據(jù)集采用Guan等人[20]提出的Cora1和Baidu Douban M/TV,如表1所示。第一個數(shù)據(jù)集來自英文Cora[注]https:∥hpi.de/naumann/pro jects/data-quality-and-cleansing/dude-duplicate-detection.html#c115302,記為Cora1,包括關(guān)于科學(xué)論文的書目信息,從論文的引用列表中生成的。兩個數(shù)據(jù)源共有288個論文實體,每個實體都包含作者、標(biāo)題、出版商等16個單網(wǎng)絡(luò)關(guān)系,兩個數(shù)據(jù)源共形成單網(wǎng)絡(luò)關(guān)系2180個。第一個數(shù)據(jù)源有論文實體145個,第二個數(shù)據(jù)源有論文實體143個,跨網(wǎng)絡(luò)實體對齊關(guān)系有116個,其中訓(xùn)練集76個,驗證集20個,測試集20個,屬于科研學(xué)術(shù)領(lǐng)域數(shù)據(jù),語義視角包括論文標(biāo)題、論文關(guān)鍵字、論文摘要等,結(jié)構(gòu)視角包括論文作者、論文機構(gòu)、發(fā)表時間等。第二個數(shù)據(jù)集是百度和豆瓣的電影對齊數(shù)據(jù)集,記作Baidu Douban M/TV,數(shù)據(jù)的標(biāo)注是給定762個百度視頻實體,去豆瓣視頻中搜索,找到對齊的762個豆瓣視頻的實體,即共有762個跨網(wǎng)絡(luò)實體對齊關(guān)系,其中462個作為訓(xùn)練集,150個作為驗證集,150個作為測試集。共有7 219個視頻實體,每個視頻實體有名稱、導(dǎo)演、演員等共5個單網(wǎng)絡(luò)關(guān)系,兩個網(wǎng)絡(luò)的單網(wǎng)絡(luò)三元組共27 960個,屬于視頻領(lǐng)域數(shù)據(jù),語義視角包括視頻名稱、演員等,結(jié)構(gòu)視角包括導(dǎo)演、上映時間等。 表1 跨網(wǎng)絡(luò)實體對齊關(guān)系數(shù)據(jù)集 對比方法有兩種:(1)與單網(wǎng)絡(luò)關(guān)系推斷算法對比,采用經(jīng)典的TransE算法和TransE的改進(jìn)模型TranSparse算法。(2)采用基于表示學(xué)習(xí)的實體對齊算法,包括Cross-KG和SEEA。其中SEEA方法為與其他方法保持一致的設(shè)置,采用非自學(xué)習(xí)的版本。由于本文采用數(shù)據(jù)集與SEEA方法[20]數(shù)據(jù)集相同,我們直接使用文獻(xiàn)[20]中的實驗結(jié)果作為對比。本實驗中采用的參數(shù)ep=1 000,d=300,M=2,p=20,Δtmax=7,w=1,T=1.3(1+w). 評價指標(biāo)采用實體對齊常用的準(zhǔn)確率(Precision,P),召回率(Recall,R)和F1值。 準(zhǔn)確率表示抽取結(jié)果的準(zhǔn)確程度,準(zhǔn)確率的定義為: (8) 其中,Ntotai表示推斷的關(guān)系總數(shù);Nsuccess表示算法推斷正確的關(guān)系數(shù)目。 召回率的定義為: (9) 其中,Rsuccess表示推斷正確的關(guān)系數(shù)目,該部分手工標(biāo)注得到。Rtotal表示所有真實存在的關(guān)系數(shù)目。F1值則是綜合準(zhǔn)確率和召回率的評估指標(biāo),用于綜合反映整體效果的指標(biāo),其定義為: F1=2·R·P/(R+P) . (10) 基于表示學(xué)習(xí)的實體對齊方法效果如表2所示。 表2 基于表示學(xué)習(xí)的跨網(wǎng)絡(luò)實體對齊實驗結(jié)果 實驗結(jié)論如下: (1)與其他實體對齊方法相比,本文方法比Cross-KG和SEEA的效果好,這是因為該方法使用了知識圖譜中的結(jié)構(gòu)信息,而Cross-KG和SEEA都僅僅是基于知識表示學(xué)習(xí)的方式對語義信息進(jìn)行建模。 (2)與直接應(yīng)用知識表示學(xué)習(xí)單網(wǎng)絡(luò)關(guān)系推斷方法TransE和TranSparse相比,本文方法比TransE和TranSparse效果更好,證明了該方法對跨網(wǎng)絡(luò)的關(guān)系進(jìn)行特殊處理的合理性和有效性。 (3)本文提出的基于表示學(xué)習(xí)的實體對齊方法在準(zhǔn)確率、F1值方面都有提升,其中,準(zhǔn)確率的提升最大。這是因為我們的方法應(yīng)用了結(jié)構(gòu)化的屬性信息,這類信息相比語義信息更為精準(zhǔn),因此該方法能夠在準(zhǔn)確率上有較大提升。 (4)該方法在Baidu Douban M/TV上的提升比Cora1上的提升大。這是不難理解的,從表1可以看出,Baidu Douban M/TV中的屬性信息更為豐富且更為規(guī)范,整個數(shù)據(jù)集的噪聲少,而Cross-KG和SEEA都沒有利用結(jié)構(gòu)化的屬性信息,證明了該方法能夠利用結(jié)構(gòu)化的屬性信息提升實體對齊效果,并在屬性多的數(shù)據(jù)集上能夠獲得更大的提升。 實驗表明本文方法較原本的基于表示學(xué)習(xí)的實體對齊方法取得了更好的實體對齊效果。該方法利用Cotraining框架融合語義和結(jié)構(gòu)信息,迭代訓(xùn)練語義和結(jié)構(gòu)兩個視角下的基于表示學(xué)習(xí)的實體對齊模型方法構(gòu)建,將兩個知識圖譜的實體和關(guān)系表示成向量空間中的向量,通過在向量空間中實體的位置等信息,預(yù)測實體間的對齊關(guān)系,不需要投入較大的人力用于選擇有效的特征和相似度度量方式。因此,該方法不僅能夠得到較好的關(guān)系推斷效果,且具有很強的通用性,能夠方便地遷移到其他領(lǐng)域的實體對齊任務(wù)(如從視頻領(lǐng)域到音樂領(lǐng)域、旅游領(lǐng)域等),不需要重新進(jìn)行特征選擇和相似度度量方式選擇。盡管屬性強約束部分需要人的先驗知識,但是由于約束更多是校正的作用,只需要選擇1~2個具有很強區(qū)分度,或者能夠排除錯誤結(jié)果的屬性即可,不需要如傳統(tǒng)方法一般花費大量時間對結(jié)構(gòu)化的屬性信息選擇。下一步工作將對屬性強約束進(jìn)一步簡化,探索利用決策樹等模型自動選擇屬性,使得模型更加自動化。2 實驗與結(jié)果分析
2.1 數(shù)據(jù)集和評價指標(biāo)
2.2 對比方法及評價指標(biāo)
2.3 實驗結(jié)果
3 結(jié)論