国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CVGAE的無監(jiān)督跨領域學習先決條件鏈挖掘

2022-03-02 06:15徐國蘭
現(xiàn)代計算機 2022年23期
關鍵詞:概念圖編碼器基準

徐國蘭

(山東理工大學圖書館,淄博 255049)

0 引言

隨著通信技術的飛速發(fā)展,在線教育資源呈指數增長,人們需要一種快速有效的方式來掌握新知識。構建概念圖可以幫助人們滿足這種需要。在大多數學科中,概念是知識的基本單位,而概念與概念之間存在一種先決條件關系。比如,數學領域中的極限和導數,如果沒有極限的知識,學生會難以理解導數的概念,極限就是導數的先決條件概念。所以獲取概念之間的先決條件關系有助于規(guī)劃學習路徑,從而提高學習效率。有些領域的概念先決條件關系已由專家學者手工標注,但是還有更多的領域沒有進行標注。對每個領域的概念先決條件關系進行手工標注費時費力,不切實際,因此需要我們使用深度學習方法,進行跨領域的先序關系挖掘,即將概念先決條件關系從熟悉的領域(源領域)遷移到要學習的領域(目標領域)。概念先決條件鏈挖掘對于智能輔導系統(tǒng)、課程規(guī)劃、學習材料生成與書目推薦等基于人工智能的教育具有很高的應用價值。本文的貢獻有:①自建了一個任務數據集ConceptsData;②構建了一個無監(jiān)督跨領域變分圖自編碼器(CVGAE)。在CVGAE模型中引入了對抗訓練機制,可以較好地實現(xiàn)概念先決條件關系的跨領域遷移。大量實驗證明,本模型在跨領域概念先決條件鏈挖掘上取得了很好的效果,達到了當前最好結果。

1 相關研究綜述

單領域的概念先決條件挖掘有很多研究,目前已經探索了不同類型的學習材料中概念之間的先決關系,包括維基百科、MOOC、教科書和科學語料庫等。通常,從不同的學習資源中提取概念對的特征,然后將這些特征輸入到機器學習模型中進行學習,從而確定概念對是否具有先決條件關系。例如,Pan等[1]定義了7個來自MOOC的概念對特征,并分別使用SVM、樸素貝葉斯、邏輯回歸和隨機森林四種分類器來預測概念對的先決條件關系。先決條件關系預測的質量高度依賴于使用的學習資源和人工標注的特征。

最近,表示學習模型和神經網絡已應用于先決條件學習任務。例如,Roy等[2]提出了一種成對潛在狄利克雷卷積(Pairwise LDA)模型和孿生網絡的方法PREREQ,它從MOOC播放列表中學習概念的潛在表示,然后將其用于先決條件預測。Li等[3]提出了一種用于無監(jiān)督先決條件學習的R-VGAE模型。

相對于單領域,跨領域的先決條件鏈挖掘研究得較少。Li等[4]提出的跨領域變分圖自編碼器(CD-VGAE)應用于跨領域先決條件的遷移和推斷,這項研究在開發(fā)教育資源、智能搜索引擎等方面具有很高的應用價值。但是,CDVGAE是在一個復雜的圖上訓練的,該圖包含來自源領域和目標領域資源節(jié)點和概念節(jié)點,其可擴展性受到了很大的限制。在實踐中,應用圖神經網絡難以將這些模型擴展到大圖的場景。如果設計一個模型在只包含概念節(jié)點的圖上進行訓練,那么這個模型會比CD-VGAE小得多,并且能達到更實用的效果。

對抗學習方法[5]經常應用于涉及多語言或多領域場景的NLP任務。這種方法通常會向神經網絡引入域損失,以便學習到領域無關的特征。但是,在圖上訓練對抗網絡的研究較少,只有一個對抗正則化變分圖自編碼器(ARVGA)模型[6],它通過重構圖結構來學習魯棒的圖嵌入表示。在本文中,我們設計了一個領域對抗變分圖自編碼器進行無監(jiān)督的跨領域概念先決條件挖掘。

2 數據集和任務定義

本研究自建了一個數據集ConceptsData。ConceptsData由講座幻燈片、概念與概念之間的先決條件關系構成。數據集主要包含兩個領域:自然語言處理(NLP)和計算機視覺(CV)。對于每個領域,我們從MOOC和B站中找出高質量的講座幻燈片,選出領域相關的關鍵概念,然后標注概念的先決條件關系,具體統(tǒng)計數據見表1。在NLP領域中共收集了1365張幻燈片和283個概念,手動標注先決條件關系1457個;以相同的數據格式得到193個CV概念,816個先決條件關系。實驗時,我們將NLP作為源領域,CV作為目標領域。

表1 NLP和CV領域的統(tǒng)計數據單位:個

將跨領域概念先決條件挖掘定義為二元分類問題。給定一個源領域和一個目標領域,每個領域中有許多概念對(m,n)。如果概念m是概念n的先決條件,則概念對標簽為1,否則為0。在模型訓練過程中,源領域的標簽是已知的,目標領域的標簽是未知的。

3 構建CVGAE模型

3.1 構建跨領域概念圖

首先構建一個跨領域概念圖G=(X,A),作為模型的輸入。其中,X是節(jié)點特征集,A是鄰接矩陣,表示概念對之間是否存在先決條件關系。如果概念m是概念n的先決條件概念,那么定義Am,n=1。為了獲得X,我們將數據集ConceptsData中每個幻燈片文件按頁拆分成若干文檔,并對每個概念的所有出現(xiàn)位置進行標記。在文檔集合上訓練BERT模型[7],對文本進行編碼。對于每一個概念,找到其所有標記,將這些標記的嵌入表示平均,得到概念的特征表示。

對每個領域分別建立概念圖,即:Gs(源領域圖)和Gt(目標領域圖)。每個圖中只包含屬于該領域的概念。在Gs中,鄰接矩陣包含兩種類型的邊:人工標注的先決條件關系和使用余弦相似度計算概念之間嵌入表示得到的邊。而在Gt中,鄰接矩陣只包含使用余弦相似度計算得到的邊。在無監(jiān)督的先決條件學習中,我們的任務是補全Gt的鄰接矩陣。

3.2 引入并優(yōu)化VGAE模型

用于無監(jiān)督跨領域學習先決條件鏈挖掘的對抗變分圖自編碼器(CVGAE),模型架構如圖1所示。

圖1 CVGAE模型

跨領域編碼器VGAE模型[8]包含一個圖神經網絡(GCN)編碼器[9]和一個內積解碼器。在GCN中,下一層節(jié)點的潛在表示只使用直接鄰居和節(jié)點本身的信息來計算。

VGAE的損失定義為其中第一項表示重構損失,第二項表示VGAE學習出的潛在表示H與正態(tài)分布之間的KL散度。圖神經網絡GCN編碼器可以用圖注意力網絡(GAT)[10]替換。

領域對抗訓練是一種領域適應學習表示的方法,之前很少應用于圖。為了強制VGAE編碼器學習概念節(jié)點的域不變特征,可以添加領域判別器模塊來預測潛在表示H中的每個節(jié)點屬于源領域還是目標領域。使用兩層神經網絡來預測領域標簽:如果節(jié)點來自源領域,則為1,否則為0。因此,領域判別器損失Ld被定義為領域預測的交叉熵損失。模型的總損失為

在圖的層面上訓練模型。每一輪訓練,隨機選取一個領域的圖作為輸入。

3.3 先決條件預測

一般情況下,先決條件是不對稱的,所以不適合使用內積解碼器。我們可以使用圖解碼器DistMult[11]來預測概念對(m,n)之間是否存在鏈接。具體來說,通過學習一個可訓練的權重矩陣W來重構鄰接矩陣?,使得?=HrWH。最后,用Sigmoid函數來確定補全后的鄰接矩陣m,n。

4 實驗

為了有效地評估模型CVGAE,與兩類基準模型進行對比:無監(jiān)督基準模型和具有額外資源節(jié)點的基準模型。在自建的語料庫Concepts-Data上進行評估,NLP為有標注數據的源領域,而CV為沒有標注數據的目標領域。對數據進行拆分,將數據集中人工標注的先決條件關系隨機分為訓練、驗證和測試三個集合,其比例為7∶2∶1。為了解決數據不平衡的問題,隨機抽取不具有先決條件關系的概念對作為負例使得訓練集中的正負關系數量相同。

4.1 無監(jiān)督基準模型

用機器學習分類器(CLS)和圖嵌入(Graph-SAGE)方法建立無監(jiān)督基準模型。首先在我們的語料庫上預訓練BERT,得到每個概念的嵌入表示。然后采用三種方法預測先決條件關系:①機器學習分類器法,把概念對的嵌入表示拼接起來,并輸入到機器學習分類器中進行訓練。在源領域上訓練分類器,在目標域上進行預測。②圖嵌入法,訓練GraphSAGE[12]生成節(jié)點嵌入,并使用DistMult解碼。模型輸入包括源領域和目標領域概念的BERT嵌入,以及由源領域人工標注的先決條件關系和所有領域概念嵌入的余弦相似度值構建的鄰接矩陣。③變分圖自編碼器(VGAE),使用VGAE模型預測概念對關系。所有基準模型都是在NLP領域上進行訓練并直接應用于目標領域,因此稱它們?yōu)闊o監(jiān)督基準模型。

4.2 具有附加資源節(jié)點的基準模型

采用Li等[4]提出的跨領域變分圖自編碼器CD-VGAE模型,通過優(yōu)化的VGAE預測目標領域先決條件關系。因為CD-VGAE模型是在附加了資源節(jié)點的跨領域概念圖上進行訓練的,所以要在構建的概念圖G=(X,A)上附加資源節(jié)點,構建一個跨領域資源-概念圖G'=(X,A)。在節(jié)點特征集X中加入資源節(jié)點,在鄰接矩陣A中增加兩條邊Arc(所有資源節(jié)點和概念節(jié)點之間的邊)和Ar(僅資源節(jié)點之間的邊)。

4.3 跨領域概念圖

分別使用GCN和GAT作為VGAE的編碼器進行實驗。此外,為了驗證對抗學習機制的有效性,還進行了去除對抗學習的實驗。

4.4 評估結果說明

隨機選取五個隨機種子對數據集進行分割,然后將每次實驗的結果平均。實驗結果見表2。實驗結果表明跨領域概念圖模型的F1值高于無監(jiān)督基準模型的最好結果。并且,在跨領域概念圖模型中,使用GCN作為編碼器的CVGAE模型取得了最好的結果。

表2 在目標領域CV上的評估結果

雖然附加了資源節(jié)點的基準模型的F1值稍高一些,但也正因為附加了資源節(jié)點,導致訓練的圖規(guī)模非常大,而且訓練時間比較長,其可擴展性較差。圖規(guī)模和計算時間數據見表3。本實驗中,CVGAE模型是在一個有283個節(jié)點的圖上訓練的,而CD-VGAE構建一個有1421個節(jié)點的大圖。在最好的情況下,CVGAE只需要CD-VGAE 20%的圖規(guī)模和35%的訓練時間。

表3 圖規(guī)模和計算時間的比較

5 分析

本節(jié)在選定的領域對模型進行定量分析和案例分析,驗證模型預測出的先決條件。

5.1 定量分析

將CVGAE的預測結果與另一個基準模型(CLS+BERT)的預測結果及真實數據進行比較。CVGAE預測了893個先決條件,而基準模型預測了475個,真實數據中有719個。一般來說,CVGAE比選定的基準模型具有更高的召回率。雖然高召回率會讓人們多學習一些額外的概念,但至少不會漏掉那些滿足先決條件的概念。

5.2 案例分析

在經過CVGAE補全后的概念圖中,我們觀察到有幾個概念對被多條路徑覆蓋,真實數據圖中也存在這種現(xiàn)象。當圖中存在循環(huán)時,就很難找到所有可能的先決條件路徑,因此,隨機選取幾條路徑進行案例分析。

CV領域中,在真實數據圖中隨機選取的每一條路徑通常都含有5~10個概念。我們的模型預測出了更多的先決條件,因此補全的概念圖往往有更多或更長的路徑。對真實數據概念圖和通過模型補全的圖中的路徑進行比較。例如:概念object recognition→autonomous driving的先決條件鏈,在真實數據中有一條很長的路徑,但CVGAE預測了一條較短的路徑,這說明還可能存在另外一條更簡潔的學習路徑。而在R-CNN→Faster R-CNN的路徑中,真實數據圖中有5條路徑,路徑的平均長度為6,而在CVGAE預測圖中找到了7條路徑,平均長度為9.21,這次CVGAE預測了比真實數據圖更多的概念。

6 結語

本文提出的CVGAE模型可以有效地解決跨領域學習中概念先決條件鏈挖掘問題,相較于在概念圖上訓練的無監(jiān)督基準模型和在概念-資源圖上訓練的基準模型,該模型無論在精度還是時空復雜度上都具有非常明顯的優(yōu)勢。

猜你喜歡
概念圖編碼器基準
融合CNN和Transformer編碼器的變聲語音鑒別與還原
概念圖在小學高年級寫作教學中的應用研究
下期要目
探討概念圖在中學生物概念教學中的應用
應如何確定行政處罰裁量基準
基于雙增量碼道的絕對式編碼器設計
應用旋轉磁場編碼器實現(xiàn)角度測量
概念圖教學功能初探
基于數字信號處理的脈沖編碼器
滑落還是攀爬