張 鵬,杜洪霞,代 勁
(重慶郵電大學(xué) 軟件工程學(xué)院 智能信息技術(shù)與服務(wù)創(chuàng)新實驗室,重慶 400065)
中國大學(xué)MOOC(1)https://www.icourse163.org/、coursera(2)https://www.coursera.org/等國內(nèi)外在線教育平臺的蓬勃發(fā)展,為學(xué)習(xí)者積累了海量資源。為每位學(xué)習(xí)者在龐大的學(xué)習(xí)資源中規(guī)劃精準合理、個性有效的學(xué)習(xí)路徑,是自適應(yīng)學(xué)習(xí)的重要研究內(nèi)容之一,概念先決關(guān)系識別在其中扮演了關(guān)鍵角色。概念先決關(guān)系(Concept Prerequisite Learning)是概念之間的前后依賴關(guān)系,在確立后可被廣泛應(yīng)用于課程推薦[1-2]、學(xué)習(xí)路徑規(guī)劃、學(xué)習(xí)資源排序[3]、知識追蹤[4-5]等下游任務(wù)。現(xiàn)有概念先決關(guān)系研究主要基于特征提取和基于二元圖結(jié)構(gòu)兩類,其中基于特征提取的方法[6]依賴于手工制作特征,在文檔結(jié)構(gòu)規(guī)范的教科書[7]文檔資源中表現(xiàn)良好,但缺乏泛化性,計算時間成本高。隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,更多工作針對概念,以及概念隸屬的文檔資源來建模二元圖結(jié)構(gòu)[8-9],但難以表征概念和文檔資源對象間的復(fù)雜關(guān)系。在概念先決關(guān)系識別中,概念與文檔資源具有多對多關(guān)系,概念在文檔中的相關(guān)概念,以及概念與其相似概念呈現(xiàn)聚類現(xiàn)象等復(fù)雜關(guān)系,但二元圖結(jié)構(gòu)對以上的復(fù)雜關(guān)系表達能力有限。
本文提出超圖概念先決關(guān)系學(xué)習(xí)HyperCPRL(Hypergraph Concept Prerequisite Relation Learning),首次利用超圖編碼高階相關(guān)性的能力從三個角度構(gòu)建不同語義的超圖結(jié)構(gòu),以滿足上文提出的概念、文檔資源對象之間的關(guān)聯(lián)關(guān)系,在不使用特征值計算的情況下利用超圖卷積學(xué)習(xí)概念、文檔資源潛在表征進行概念特征融合,通過實驗驗證,取得了較好的效果。
現(xiàn)有的概念先決關(guān)系學(xué)習(xí)可以分為三種類型: 基于特征計算,基于二元圖神經(jīng)網(wǎng)絡(luò)和其他方法。Liang等人[10]以概念引用參考距離計算先決關(guān)系,隨后Pan等人[6]擴展了7組特征值利用二分類模型預(yù)測。此外,概念在文檔資源中首次出現(xiàn)的位置、前后關(guān)系[11],以及概念語義相關(guān)性度量[12]等特征被用于概念先決關(guān)系識別。基于特征計算的方法,廣泛依賴于維基百科提供的特征信息,如鏈接、引用、分類、點擊流等設(shè)計分類器特征[13-15]。維基百科作為外部資源在概念先決關(guān)系特征計算中發(fā)揮了一定作用,但存在計算時間成本高、無法涵蓋所有概念、概念實體表達存在歧義等問題??傮w而言,基于特征計算的方法依賴于手工特征提取或特征規(guī)則計算,但受限于文檔資源結(jié)構(gòu),導(dǎo)致其泛化性能不佳。
基于二元圖神經(jīng)網(wǎng)絡(luò)的方法,Li等人[16-19]利用圖自編碼器(Graph Autoencoder, GAE)、變分圖自編碼器(Variational Graph Autoencoder, VGAE)重構(gòu)概念鄰接矩陣進行鏈路預(yù)測。Zhang等人[20]提出的MHAVGAE模型結(jié)合多頭注意力機制與VGAE預(yù)測概念鏈接關(guān)系。Jia等人[8]提出的CPRL構(gòu)建文檔-概念異構(gòu)圖,利用關(guān)系圖卷積網(wǎng)絡(luò)(Relational Graph Convolutional Networks, RGCN)學(xué)習(xí)節(jié)點表征,并結(jié)合概念特征值聯(lián)合訓(xùn)練。ConLearn[9]利用概念先決關(guān)系和兩跳先決關(guān)系(3)DSA和ML數(shù)據(jù)集明確標(biāo)注了正負概念先決關(guān)系,經(jīng)檢測,兩跳關(guān)系存疑。構(gòu)造有向概念先決關(guān)系圖,使用門控圖神經(jīng)網(wǎng)絡(luò)(Gated Graph Neural Network, GGNN)學(xué)習(xí)節(jié)點表征?;诙獔D關(guān)系結(jié)構(gòu)的模型難以表征問題核心對象,即概念、文檔資源兩者之間的復(fù)雜關(guān)系。
其他方法包括,PREREQ[21]利用Pairwise-Link LDA主題模型訓(xùn)練文檔資源的先后順序關(guān)系,從而得到文檔資源中概念的潛在表征,Liu等人[22]提出的方法利用雙曲空間表征概念嵌入以保留概念的層次關(guān)系。Manrique等[23]則依賴于知識圖譜剪枝提取概念先決關(guān)系。
二元圖結(jié)構(gòu)(Graph)可以有效表征成對關(guān)系結(jié)構(gòu)[24-27],包括基于空域[28-29]和基于頻域[30-32]的圖神經(jīng)網(wǎng)絡(luò)?,F(xiàn)實世界中的對象關(guān)系除了簡單的二元關(guān)系,還存在更復(fù)雜的非成對關(guān)系。超圖的超邊是任意結(jié)點數(shù)量的集合,在數(shù)據(jù)建模上更加靈活,目前已經(jīng)成功應(yīng)用于多個領(lǐng)域[33-36]。超圖神經(jīng)網(wǎng)絡(luò)以學(xué)習(xí)結(jié)點之間的高階依賴關(guān)系,大致可分為以超圖拉普拉斯矩陣為核心的譜分析超圖方法和以神經(jīng)網(wǎng)絡(luò)為模型結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)超圖方法。對超圖結(jié)構(gòu)的學(xué)習(xí),關(guān)注于展開式,如星式展開和團式展開[37-38],以及非展開式學(xué)習(xí)[39-40]。
本節(jié)先給出概念先決關(guān)系問題定義和超圖定義,表1總結(jié)了本文常用符號。
表1 本文所使用的符號
問題定義: 給定文檔資源集合D、概念集合C以及部分已知標(biāo)注概念對P,利用超圖構(gòu)建D與C對象之間的高階拓撲關(guān)系,學(xué)習(xí)函數(shù)f=C2→{0,1},預(yù)測概念對
超圖定義: 超圖(Hypergraph)是一種廣義上的圖結(jié)構(gòu),其邊可以與任意數(shù)量的結(jié)點連接,稱之為超邊(Hyperedge)。超圖g=(V,E,W)。W∈|E|×|E|是對角矩陣,表示超邊權(quán)重。超圖g的拓撲結(jié)構(gòu)使用關(guān)聯(lián)矩陣H∈|V|×|E|表示,如式(1)所示。
(1)
?v∈V,其度表示為d(v)=∑e∈Ew(e)h(v,e),而?e∈E,超邊度表示為δ(e)=∑v∈Vh(v,e),結(jié)點和超邊度矩陣為Dv∈|V|×|V|和De∈|E|×|E|。
HyperCPRL模型由超圖卷積模塊、概念融合模塊、孿生網(wǎng)絡(luò)模塊組成。模型使用基于推理數(shù)據(jù)集預(yù)訓(xùn)練,并采用對比學(xué)習(xí)實現(xiàn)的SimCSE[41]得到概念嵌入X∈|N|×|d|,以減少原始BERT生成詞嵌入具有的各向異性帶來的影響,d為概念詞向量分布維度。超圖卷積模塊以集合D、C構(gòu)造多角度超圖結(jié)構(gòu),包括概念結(jié)構(gòu)超圖gstruct、概念語義距離超圖gsemantic和文檔-概念超圖gdoc,建模文檔資源、概念對象兩兩之間的高階關(guān)系。概念融合模塊融合多角度超圖生成的概念潛在表征,使用自注意力機制在概念全域下進一步挖掘概念先決關(guān)系。孿生網(wǎng)絡(luò)模塊預(yù)測概念先決關(guān)系和文檔資源先決關(guān)系,實現(xiàn)聯(lián)合訓(xùn)練。HyperCPRL模型基本思想如圖1所示。
圖1 HyperCPRL模型架構(gòu)
HyperCPRL不依賴于外部資源提供的基礎(chǔ)信息,而充分利用給定的概念標(biāo)注和包含概念的文檔集合,分析概念和文檔之間的多重關(guān)系,基于多語義角度建模,以挖掘不同語義角度中的共性和特性,實現(xiàn)信息互補,以改進單一角度下學(xué)習(xí)不充分的局限。并且,HyperCPRL利用超圖結(jié)構(gòu)進一步學(xué)習(xí)多語義角度下的高階復(fù)雜關(guān)聯(lián)關(guān)系。算法1展示了三個超圖關(guān)聯(lián)矩陣生成的偽代碼。
3.2.1 概念結(jié)構(gòu)超圖(gstruct)
逐點互信息(PMI)被廣泛應(yīng)用于文本中兩個詞的關(guān)聯(lián)度量[25,42],HyperCPRL基于PMI計算D中概念之間的結(jié)構(gòu)關(guān)聯(lián)度得到概念結(jié)構(gòu)矩陣STM∈R|N|×|N|,STM[i][j]=PMI(i,j),如式(2)~式(4)所示。
(2)
(3)
(4)
其中,#W(i,j)是包含概念ci和cj的滑動窗口數(shù)量,#W(i)是包含ci的滑動窗口數(shù)量,#W是D中滑動窗口的總數(shù)。當(dāng)概念ci對應(yīng)的集合{(STM[i][l],l)|l=0,…,N-1,i≠l,STM[i][l]>0}不為空集時,以ci作為超邊,集合作為其連接的結(jié)點。
算法1: 超圖構(gòu)造輸入: D, C, X輸出: Hstruct, Hsemantic,Hdoc1: Begin2: Hstruct←[], Hsemantic←[], Hdoc ←[] //1.構(gòu)造結(jié)構(gòu)超圖Gstruct3: 由式(2)計算STM矩陣4: for ci∈C do5: Ti={(STM[i][l],l)|l=0,…,N-1,i≠l, STM[i][l]>0}且Ti≠?6: for p1∈Ti do7: HTstruct[i][p1[1]]=p1[0] 8: end for9: end for //2.構(gòu)造語義距離超圖Gsemantic10: 由ISOMAP[42]計算概念測地線距離 DX=dist(X) //詞嵌入歐式距離 DX=sorted(DX) //每行從小到大排序 DFloydX=floyd(DX, η) //Floyd更新最短距離11: SEM=exp-DFloydXμ 12: for ci∈C do13: Ei={(SEM[i][l],l)|l=0,…,N-1,i≠l, SEM[i][l]>0.5}且Ei≠?14: for p2∈Ei do 15: HTsemantic[i][p2[1]]=p2[0] 16: end for17: end for //3.構(gòu)造文檔-概念超圖Gdoc18: DCM=tfidf(D,C)19: for di∈D do20: Di={(DCM[i][l],l)|l=0,…,N-1,i≠l, DCM[i][l]>0}且Di≠?21: for p3∈Di do22: HTdoc[i][p3[1]]= p3[0] 23: end for24: end for25: return Hstruct, Hsemantic,Hdoc26: End
3.2.2 概念語義距離超圖(gsemantic)
以往工作通過計算概念詞嵌入余弦相似度[6]衡量概念之間的語義相似度,本文提出概念語義距離超圖,利用等距特征映射(ISOMAP)[43]計算流形測地線距離衡量概念之間的語義相似度。由概念詞嵌入X計算概念成對歐氏距離DX,選擇概念的η個近鄰點構(gòu)成無向有權(quán)圖,通過Floyd算法更新概念之間的測地距離得到DFloydX,式(5)將概念距離轉(zhuǎn)換為概念語義相似度矩陣SEM∈N×N,η和μ為超參數(shù)。概念ci對應(yīng)的集合{(SEM[i][l],l)|l=0,…,N-1,i≠l, SEM[i][l]>0.5}不為空時,以ci作為超邊,集合作為其連接的結(jié)點。
3.2.3 文檔-概念超圖(gdoc)
gdoc是由概念隸屬于文檔的關(guān)系構(gòu)建得到,以編碼概念與文檔資源之間的隸屬關(guān)系。由D計算概念的術(shù)語頻率逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF),得到文檔-概念矩陣DCM∈M×N,以文檔資源di作為超邊,di包含的概念集合作為其連接的結(jié)點。
3.2.4 超圖卷積
HyperCPRL利用超圖神經(jīng)網(wǎng)絡(luò)(HGNN)[37]學(xué)習(xí)結(jié)點表征。Hstruct、Hsemantic和Hdoc與概念嵌入X分別送入gstruct、gsemantic、gdoc,按照式(6)進行超圖卷積。
X(l)∈N×d(l)是第l層的結(jié)點表征,X(0)=X,σ是非線性激活函數(shù),Φ∈d(l)×d(l+1)是可學(xué)習(xí)的轉(zhuǎn)移矩陣,W是超邊的權(quán)重矩陣,默認為單位矩陣。
基于多語義角度超圖卷積學(xué)習(xí)的概念潛在表征,在概念先決關(guān)系標(biāo)簽的監(jiān)督學(xué)習(xí)下通過融合操作提取各語義角度特征實現(xiàn)特征互補,本文采用三種方式進行特征融合,以提取最有利于下游分類任務(wù)的概念特征,分別是取最大值、平均值、加和,融合操作F∈{Max,Avg,Sum},XF∈N×d′。
基于超圖的表征學(xué)習(xí)具有結(jié)構(gòu)下的局部性特征,本文進一步使用多頭自注意力機制捕獲概念全域下概念與概念之間的依賴關(guān)系,并與XF做殘差連接。
(8)
權(quán)重共享的孿生網(wǎng)絡(luò)(Siamese Network)[44]可以有效學(xué)習(xí)兩個對象的關(guān)聯(lián)關(guān)系。融合后的概念表征Xconcept和Xdoc分別送入兩個孿生網(wǎng)絡(luò),得到的成對概念表征(sci,scj)和文檔表征(sdi,sdj)拼接后計算先決關(guān)系預(yù)測概率。
(9)
(10)
其中,σ是Sigmoid函數(shù),-和?分別是各元素的減法和乘法運算符,[·;·]是向量拼接操作。
+(1-ycij)log(1-Pc(ci,cj))]
(11)
+(1-ydij)log(1-Pd(di,dj))]
(12)
HyperCPRL超圖構(gòu)建過程中的時間復(fù)雜度主要由概念結(jié)構(gòu)超圖的PMI和概念語義距離超圖的流形距離產(chǎn)生。D的滑動窗口總數(shù)#W計算概念集合C的概念頻率的時間復(fù)雜度為O(#WN),其中#W>>M。ISOMAP流形距離計算基于Floyd算法更新最短距離,時間復(fù)雜度為O(N3)。
實驗選取DSA(4)http://keg.cs.tsinghua.edu.cn/jietang/software/acl17-prerequisite-relation.rar、ML(5)http://keg.cs.tsinghua.edu.cn/jietang/software/acl17-prerequisite-relation.rar、University Course(6)https://github.com/harrylclc/eaai17-cpr-recover(以下簡稱UST)、Lecture(7)https://github.com/Yale-LILY/LectureBank數(shù)據(jù)集進行分析。ML和DSA提供了概念的同義詞概念,對UST和Lecture數(shù)據(jù)集提供的概念在課程描述中找出類似的同義詞概念。刪除未出現(xiàn)在D中的概念和未包含概念的文檔。ML、DSA以每個章節(jié)中的視頻先后順序標(biāo)注文檔先決關(guān)系,章節(jié)中前一個視頻文檔是后續(xù)所有視頻文檔的先決文檔,Lecture由文檔的TFIDF特征計算余弦相似度,以相似度值大于0.8作為文檔邊權(quán)值。最終統(tǒng)計情況如表2所示。
表2 數(shù)據(jù)集統(tǒng)計詳情
HyperCPRL與基于特征提取的二分類方法[6],包括樸素貝葉斯(NB)、線性核支持向量機(SVM)、邏輯回歸(LR)和隨機森林(RF),與基于二元圖神經(jīng)網(wǎng)絡(luò)的以下方法進行對比:
(1)GAE和VGAE[16]: 重構(gòu)概念鄰接矩陣進行鏈路預(yù)測。
(2)ConLearn[9]: 基于上下文語義,使用GGNN預(yù)測概念先決關(guān)系。手動實現(xiàn)該方法,使用Hugging face(8)https://huggingface.co/的Masked LM任務(wù)預(yù)訓(xùn)練數(shù)據(jù)集生成概念詞嵌入。
(3)MHAVGAE[20]: 基于多頭注意力機制并融合文檔特征的VGAE鏈路預(yù)測。
(4)gcnCPRL: HyperCPRL的同構(gòu)圖變體,以二元圖替換超圖,即實現(xiàn)Gstruct、Gsemantic和Gdoc,鄰接矩陣Astruct(i,j)=PMI(i,j),Asemantic(i,j)=SEM[i][j],Adoc(i,j)=tfidf(i,j),使用GCN[32]編碼圖結(jié)構(gòu),文檔資源嵌入采用Doc2Vec[45]生成。
(5)rgcnCPRL: HyperCPRL的異構(gòu)圖變體,以異構(gòu)圖替換超圖,包含概念-概念邊關(guān)系R(ci,cj)=PMI(i,j)以及R(ci,cj)=SEM[i][j],文檔-概念邊關(guān)系R(di,cj)=tfidf(i,j),文檔-文檔邊關(guān)系R(di,dj)是文檔TFIDF特征余弦相似度大于0.8的值,共4種邊類型。使用RGCN[46](Relational Graph Convolutional Networks)編碼圖結(jié)構(gòu)。
概念先決負樣本是正樣本的2.5倍, DSA和ML從已有負樣本中隨機采樣,UST和Lecture由概念集合隨機生成不相關(guān)的負樣本。隨機生成文檔先決關(guān)系負樣本,數(shù)量與正樣本相等。二分類方法數(shù)據(jù)集劃分為70%、30%的訓(xùn)練集和測試集,其他方法正、負樣本分別劃分60%,10%,30%再合并,訓(xùn)練過程中對概念先決正樣本過采樣,使其與負樣本平衡。其中,ConLearn模型按照原論文要求生成負樣本,即概念先決正樣本的逆關(guān)系和隨機抽取不相關(guān)概念對生成。所有實驗基于Pytorch框架實現(xiàn),使用Adam優(yōu)化器,學(xué)習(xí)率lr為0.001,實驗中其他超參數(shù)設(shè)置如表3所示。
表3 超參數(shù)設(shè)置
本文首先探究HyperCPRL構(gòu)建的不同語義下的超圖結(jié)構(gòu)選擇概念特征融合操作和融合期間,以及概念語義距離超圖構(gòu)建中超參數(shù)η和μ的取值對實驗性能的影響。
4.3.1 融合操作選擇
圖2展示了HyperCPRL選擇最大值、平均值、加和三種特征融合操作的實驗結(jié)果,可以看出,在同一參數(shù)設(shè)置下,所有數(shù)據(jù)集最大值融合操作均優(yōu)于其他選擇,將保留多種語義超圖結(jié)構(gòu)下最突出的概念潛在特征。
4.3.2 融合期間選擇
HyperCPRL的融合操作可以選擇在超圖卷積期間或者卷積后執(zhí)行,實驗結(jié)果如表4所示,卷積后的特征融合操作更能準確抓取不同語義超圖結(jié)構(gòu)的最大特征。
表4 不同融合期間的實驗結(jié)果
4.3.3η和μ對實驗的影響
HyperCPRL構(gòu)建概念語義距離超圖,超參數(shù)η和μ取值的F1值結(jié)果如圖3所示。因此,實驗對DSA、ML、UST和Lecture分別選擇η/μ的值為{10/10,10/10,15/20,15/10}。
圖3 不同超參數(shù)η和μ取值的F1值
所有基準實驗均按照超參數(shù)范圍微調(diào)提供最佳結(jié)果,比較結(jié)果見表5,從實驗結(jié)果可知: ①HyperCPRL優(yōu)于所有二分類方法,F1值分別提高6.78%、13.86%、8.25%以及21.58%。二分類方法中,RF的分類效果普遍優(yōu)于其他分類器。②HyperCPRL與基于二元圖神經(jīng)網(wǎng)絡(luò)方法比較,在DSA、ML和UST三個數(shù)據(jù)集上均表現(xiàn)優(yōu)異,F1值相較于最好的方法分別提高0.76%、0.05%、1.97%。ConLearn在Lecture數(shù)據(jù)集上取得最佳結(jié)果,F1值優(yōu)于HyperCPRL 5.23%。HyperCPRL在四個數(shù)據(jù)集上的ACC均優(yōu)于其他方法,提升范圍為0.56%~8.03%。③GAE和VGAE只考慮概念之間的先決關(guān)系重構(gòu)鄰接矩陣,性能弱于MHAVGAE。然而,基于重構(gòu)圖鄰接矩陣均存在召回率R值高,而精確率P值低的現(xiàn)象。④HyperCPRL在所有數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其同構(gòu)圖變體gcnCPRL和異構(gòu)圖變體rgcnCPRL。ACC和F1值分別平均提高0.98%和1.78%,且異構(gòu)圖變體性能整體優(yōu)于同構(gòu)圖變體,說明基于超圖的多語義角度融合相較于二元圖關(guān)系、異構(gòu)圖結(jié)構(gòu)能提取更多有效特征。⑤ConLearn在ML上與HyperCPRL表現(xiàn)接近,在Lecture數(shù)據(jù)集上優(yōu)于HyperCPRL。但是其丟棄了數(shù)據(jù)集原標(biāo)注概念負樣本,而兩跳概念先決關(guān)系與原標(biāo)注負樣本存在沖突。
表5 模型對比實驗結(jié)果(粗體: 最佳,下劃線: 次之) (單位: %)
ML和UST數(shù)據(jù)集在不同語義視角下的對比實驗結(jié)果,以及相較于HyperCPRL結(jié)果的變化值如表6、表7所示。任意兩個角度的概念特征融合時,結(jié)構(gòu)關(guān)系+語義距離角度的特征融合在各指標(biāo)下降最為明顯,而結(jié)構(gòu)關(guān)系+文檔-概念隸屬關(guān)系與語義距離+文檔-概念隸屬關(guān)系表現(xiàn)較為接近。而單一語義角度下,文檔-概念隸屬關(guān)系角度下降幅度較小。因此,文檔-概念隸屬關(guān)系角度為概念先決關(guān)系識別提供了更多有效信息,因為文檔-概念隸屬關(guān)系語義超圖不僅提供了相關(guān)概念在同一文檔中的關(guān)聯(lián)關(guān)系,還提供了文檔先后關(guān)系中隱含的概念先決關(guān)系。此外,概念在文檔中的結(jié)構(gòu)關(guān)系對概念先決關(guān)系識別相較于概念語義相似度更勝一籌。
表6 ML數(shù)據(jù)集不同語義角度下的對比結(jié)果,(Δ)表示相較于HyperCPRL的變化值 (單位: %)
表7 UST數(shù)據(jù)集不同語義角度下的對比結(jié)果,(Δ)表示相較于HyperCPRL的變化值 (單位: %)
將gsemantic中的概念語義相似度矩陣SEM替換為由概念嵌入的余弦相似度計算得到,以此對比以流形測地線距離作為語義相似度之間的差異。表8展示了與HyperCPRL各指標(biāo)的比較結(jié)果。余弦相似度衡量概念語義相似度在所有數(shù)據(jù)集上的表現(xiàn)均弱于以流形測地距離計算的語義相似度。當(dāng)數(shù)據(jù)具有高維特征時,測地距離更能衡量數(shù)據(jù)之間的差異。
表8 余弦相似度性能表現(xiàn),Δ表示變化比率 (單位: %)
依據(jù)概念先決關(guān)系構(gòu)建概念先決有向圖,當(dāng)概念結(jié)點的出度和入度均小于或等于平均度時,此類低度概念結(jié)點與其他概念結(jié)點交互信息較少。由表9統(tǒng)計結(jié)果可知,低度概念數(shù)量占概念總數(shù)50%左右,且UST概念先決有向圖更加稀疏,由此加劇了概念先決關(guān)系識別的難度。HyperCPRL與基準實驗結(jié)果比較的真陽性樣本(TPP)實例如表10所示,實例中的概念均為低度概念。
表9 數(shù)據(jù)集低度概念數(shù)量及其占比
表10 與基準實驗比較的真陽性樣本
為驗證HyperCPRL對包含低度概念的樣本先決關(guān)系識別能力更強,本文首先統(tǒng)計了gcnCPRL、rgcnCPRL、ConLearn、HyperCPRL四種方法對測試數(shù)據(jù)集執(zhí)行結(jié)果中包含低度概念樣本的錯誤識別數(shù)量相對于錯誤樣本總數(shù)的比例,如圖4所示。其中,ML、UST、Lecture數(shù)據(jù)集中,各個方法識別包含低度概念樣本的錯誤占比均超過50%,DSA則接近50%。說明低度概念是導(dǎo)致概念先決關(guān)系識別錯誤的主要因素之一。
圖4 數(shù)據(jù)集中含低度概念樣本錯誤數(shù)占總錯誤數(shù)比例
圖5進一步展示了上述四種方法中,包含低度概念樣本的錯誤數(shù)/測試樣本總數(shù)的結(jié)果,HyperCPRL在所有數(shù)據(jù)集中具有更低的錯誤率,而ConLearn模型訓(xùn)練方式對先決關(guān)系學(xué)習(xí)存在偏差導(dǎo)致較高的錯誤占比,由此可知,本文提出的方法,對概念先決關(guān)系有向圖中,概念節(jié)點入度和出度均小于或等于平均度的低度概念,相關(guān)的先決關(guān)系識別更加準確,因為HyperCPRL能夠利用多語義角度超圖結(jié)構(gòu)提取更加豐富的特征,由此提高了模型的準確度。
圖5 數(shù)據(jù)集中含低度概念樣本錯誤數(shù)占測試樣本的比例
HyperCPRL利用超圖建模概念、文檔對象的復(fù)雜、高階結(jié)構(gòu)特征,從三個角度構(gòu)造了三個不同表達能力的超圖結(jié)構(gòu),與基準方法相比,取得了較好的效果。本文只應(yīng)用了最基礎(chǔ)的GCN、RGCN、HGNN學(xué)習(xí)圖結(jié)構(gòu)的結(jié)點表征,并且在構(gòu)建超圖時并未利用已標(biāo)注的概念先決條件關(guān)系。本文首次將超圖結(jié)構(gòu)應(yīng)用于概念、文檔資源對象之間的關(guān)系建模,然而,如何挖掘?qū)ο箨P(guān)系,構(gòu)建更強大的超圖結(jié)構(gòu)以學(xué)習(xí)對象的潛在表征,以及采用其他更有效的融合方法融合不同語義角度特征都需要進一步探索。