陳 欣,孫玉虹,丁長(zhǎng)青,劉利聰
(山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590)
隨著“互聯(lián)網(wǎng)+教育”模式的推廣和人工智能、大數(shù)據(jù)、云計(jì)算等技術(shù)的發(fā)展,在線教育作為教育信息化的重要手段,為學(xué)習(xí)者提供了便捷的學(xué)習(xí)平臺(tái),使學(xué)習(xí)者不受時(shí)間、空間限制,根據(jù)自身學(xué)習(xí)興趣需求,獲取豐富的學(xué)習(xí)資源[1]。為此,全國(guó)高校在MOOC、學(xué)堂在線等主流教育平臺(tái)上推出了大量文本、音頻、視頻等形式的學(xué)習(xí)資源。對(duì)于全日制學(xué)習(xí)者而言,可將課程資源作為學(xué)習(xí)的補(bǔ)充,課后查缺補(bǔ)漏,夯實(shí)基礎(chǔ);而對(duì)于終身或成人教育學(xué)習(xí)者,在線課程學(xué)習(xí)是一種最常用的方式,為他們提供了大量的學(xué)習(xí)資源。但教育平臺(tái)提供的學(xué)習(xí)資源繁多,學(xué)習(xí)方向多元化,存在一定的弊端:①在線教育平臺(tái)沒有與正規(guī)高等教育學(xué)校相同的培養(yǎng)計(jì)劃,無法系統(tǒng)、漸進(jìn)地組織課程,無法為學(xué)習(xí)者提供有效的學(xué)習(xí)指導(dǎo),從而造成信息過載,課程完成率較低;②對(duì)于那些終身或成人教育的學(xué)習(xí)者而言,很難找到與自身水平匹配的課程資源;③課程之間存在重復(fù)內(nèi)容,對(duì)學(xué)習(xí)者會(huì)產(chǎn)生一定困擾。因此,為了實(shí)現(xiàn)在線課程價(jià)值最大化,必須研究課程有效推薦的解決方案。
隨著互聯(lián)網(wǎng)技術(shù)快速發(fā)展,推薦系統(tǒng)已廣泛應(yīng)用于電影、書籍、社交和購物平臺(tái),有效解決了信息過載問題。為了降低學(xué)生查找課程的困難,通過分析學(xué)生在MOOC 平臺(tái)上的相關(guān)歷史數(shù)據(jù),推薦系統(tǒng)可在眾多課程資源中向?qū)W生精確推薦所需課程?,F(xiàn)有課程推薦方法通常為協(xié)同過濾(CF)方法[2],結(jié)合學(xué)生課程交互歷史和共同偏好進(jìn)行推薦。但CF 將推薦任務(wù)視為有監(jiān)督學(xué)習(xí)問題,將學(xué)生每次課程交互假設(shè)為具有附帶信息的獨(dú)立實(shí)例,忽略了實(shí)例與課程間的關(guān)系,未能從學(xué)生集體行為中提取協(xié)作信號(hào),存在數(shù)據(jù)稀疏性和冷啟動(dòng)問題。
為了解決上述問題,研究者考慮將輔助信息融合到協(xié)同過濾中,提升推薦效果。在各類輔助信息中,知識(shí)圖譜由一條條知識(shí)組成,包含了豐富的事實(shí)和聯(lián)系,如圖1 所示。知識(shí)圖譜有利于增強(qiáng)課程推薦性能,例如在學(xué)習(xí)《零基礎(chǔ)學(xué)Java 語言》之前,要先學(xué)習(xí)計(jì)算機(jī)入門課程《C 語言程序設(shè)計(jì)入門》。由于學(xué)生A 的歷史學(xué)習(xí)記錄中有《C 語言程序設(shè)計(jì)入門》,推薦算法會(huì)根據(jù)課程知識(shí)圖譜的聯(lián)系,向?qū)W生A 推薦《零基礎(chǔ)學(xué)Java 語言》。受此啟發(fā),本文考慮將知識(shí)圖譜增強(qiáng)推薦方法應(yīng)用于課程推薦領(lǐng)域來提升推薦效果。
本文首先將推薦問題形式化;然后爬取MOOC 平臺(tái)課程屬性,并根據(jù)本科教學(xué)大綱總結(jié)課程的先修關(guān)系構(gòu)建課程知識(shí)圖譜;最后基于卷積神經(jīng)網(wǎng)絡(luò),提出融合知識(shí)圖譜的深度卷積神經(jīng)網(wǎng)絡(luò)(Course Knowledge Graph Convolutional Networks,KGCN-CR),并與協(xié)同過濾算法進(jìn)行性能對(duì)比。
課程推薦策略主要利用CF 方法考慮學(xué)生課程的歷史交互,基于潛在的相似興趣推薦學(xué)生共同偏好,例如矩陣分解方法SVD++[3]、因子分解方法LibFM[4]。CF 在實(shí)際推薦場(chǎng)景中有效性和通用性較高,但無法建模輔助信息,例如課程屬性、學(xué)生配置文件和上下文。因此,在學(xué)生和課程交互矩陣極為稀疏的情況下,推薦效果極差。為了解決該問題,本文引入神經(jīng)網(wǎng)絡(luò)方法,將學(xué)生id 與課程id 轉(zhuǎn)換為通用特征向量,輸入監(jiān)督學(xué)習(xí)模型中預(yù)測(cè)得分。例如基于神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾推薦NCF[5],基于Inception 結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)協(xié)同過濾方法NCF-i 模型[6],神經(jīng)因子分解機(jī)NFM[7],Wide&Deep 模型[8],這些方法為推薦系統(tǒng)提供了強(qiáng)大的性能,但都將每個(gè)學(xué)生的課程交互建模為獨(dú)立的數(shù)據(jù)實(shí)例,未能考慮它們之間的關(guān)系,無法從學(xué)生集體行為中提取基于課程屬性的協(xié)作信號(hào)。
知識(shí)圖譜作為一種語義網(wǎng)絡(luò),擁有極強(qiáng)的表達(dá)能力和建模靈活性,可對(duì)現(xiàn)實(shí)世界中的實(shí)體、概念、屬性及它們之間的關(guān)系進(jìn)行建模[9]。知識(shí)圖譜的概念于2012 年5 月17日由谷歌公司提出并發(fā)布了知識(shí)圖譜課程,宣布將以此為基礎(chǔ)構(gòu)建下一代智能化搜索引擎,其中關(guān)鍵技術(shù)包括從互聯(lián)網(wǎng)網(wǎng)頁中抽取實(shí)體、實(shí)體屬性信息以及實(shí)體關(guān)系[10]。最近,研究人員提出了NELL、DBpedia、谷歌知識(shí)圖譜和Microsoft Satori,這些知識(shí)圖譜已成功應(yīng)用于軍事[11]、文本分類[12]等諸多領(lǐng)域。
利用知識(shí)圖譜的推薦系統(tǒng)現(xiàn)已應(yīng)用于電影、書籍、音樂、新聞等領(lǐng)域。協(xié)同知識(shí)庫嵌入(CKE)[13]將協(xié)同過濾(CF)模塊與項(xiàng)目的知識(shí)嵌入、文本嵌入和圖像嵌入結(jié)合在統(tǒng)一的貝葉斯框架中。經(jīng)過實(shí)例驗(yàn)證,CKE 更適用于知識(shí)圖補(bǔ)全和鏈接預(yù)測(cè),推薦效果較差。深度知識(shí)感知網(wǎng)絡(luò)(DKN)[14]將實(shí)體和詞嵌入作為不同的通道,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將它們組合進(jìn)行新聞推薦。但在使用DKN 之前需要進(jìn)行實(shí)體嵌入,導(dǎo)致DKN 缺乏端到端的訓(xùn)練方式。此外,DKN 除了文本信息外,它幾乎無法包含其它層面的信息。RippleNet[15]是類似內(nèi)存網(wǎng)絡(luò)模型,通過該模型可傳播用戶在KG 中的潛在偏好,并探索用戶的層次興趣,但RippleNet 的關(guān)系處理能力較差。MKR[16]是多任務(wù)特征學(xué)習(xí)模型,通過知識(shí)圖譜嵌入任務(wù)輔助增強(qiáng)推薦,但在嵌入任務(wù)中,未能體現(xiàn)關(guān)系的重要性,限制了推薦的性能。
Fig.1 Recommended examples of computer courses圖1 計(jì)算機(jī)課程推薦示例
首先制定知識(shí)圖譜用于推薦問題;然后闡述課程知識(shí)圖譜構(gòu)建方法;最后提出融合課程知識(shí)圖譜的卷積神經(jīng)網(wǎng)絡(luò)(KGCN-CR)。
課程推薦問題簡(jiǎn)化而言就是將課程推薦給學(xué)生。在課程推薦場(chǎng)景中,有一組M 個(gè)學(xué)生為U={u1,u2,…,uM},一組N個(gè)課程為V={v1,v2,…,vN}。根據(jù)學(xué)生隱式反饋構(gòu)造交互矩陣Y={yuv|u∈U,v∈V},若學(xué)生u與課程v進(jìn)行了交互,則yuv= 1,否則yuv= 0。具體表達(dá)式如式(1)所示。
G表示課程知識(shí)圖譜,課程知識(shí)圖譜G是由大量的實(shí)體-關(guān)系-實(shí)體三元組(h,r,t)構(gòu)成,其中h∈ε,r∈R,t∈ε分別表示知識(shí)圖譜中的頭實(shí)體、關(guān)系和尾實(shí)體,ε和R分別表示知識(shí)圖譜中的實(shí)體集合和關(guān)系集合。
課程推薦問題目的是給定交互矩陣Y和知識(shí)圖譜G,預(yù)測(cè)學(xué)生u是否對(duì)之前沒有交互過的課程v存在潛在興趣。模型目標(biāo)是學(xué)習(xí)預(yù)測(cè)評(píng)分=F(u,v;Θ)。其中,表示學(xué)生u點(diǎn)擊課程v的可能性,Θ表示函數(shù)F的模型參數(shù)。
本文采用自底向上的構(gòu)建方法,從MOOC 平臺(tái)中爬取計(jì)算機(jī)類、音樂類與舞蹈類的課程屬性。所爬取的數(shù)據(jù)具有一定的數(shù)據(jù)結(jié)構(gòu),并將此類知識(shí)要素進(jìn)行歸納,抽象為概念,構(gòu)建知識(shí)圖譜。構(gòu)建方法如圖2 所示。
Fig.2 Constructing method of curriculum knowledge graph圖2 課程知識(shí)圖譜構(gòu)造方法
首先獲取結(jié)構(gòu)化數(shù)據(jù),得到初始的知識(shí)表示。由于在構(gòu)建知識(shí)圖譜時(shí),相同名稱的實(shí)體可能存在歧義,通常采用實(shí)體消歧技術(shù)在理解上下文后對(duì)實(shí)體進(jìn)行準(zhǔn)確地識(shí)別和描述,得到了一系列三元組。
(1)知識(shí)獲取。從MOOC 平臺(tái)中計(jì)算機(jī)類、音樂類與舞蹈類課程中爬取課程數(shù)據(jù)。如表1 所示,課程數(shù)據(jù)由所有課程數(shù)據(jù)進(jìn)行實(shí)體識(shí)別、實(shí)體分類以及關(guān)系抽取所得到的結(jié)構(gòu)化數(shù)據(jù)。其中,實(shí)體識(shí)別主要識(shí)別課程名稱、教師名、學(xué)校名等;實(shí)體分類將識(shí)別后的實(shí)體按類別分類;關(guān)系抽取主要抽取兩個(gè)或多個(gè)實(shí)體之間的某種聯(lián)系。
Table1 Course data fragment表1 課程數(shù)據(jù)片段
(2)三元組獲取。針對(duì)MOOC 平臺(tái)具體的實(shí)際應(yīng)用場(chǎng)景,本文抽取的課程實(shí)體包括課程名稱、學(xué)校名稱、教師名稱、類別名稱等。關(guān)系包括所屬學(xué)校(屬于同一個(gè)學(xué)校)、授課老師(屬于同一個(gè)老師)和所屬類別(屬于同一個(gè)專業(yè)類別)。根據(jù)知識(shí)抽取以及實(shí)體鏈接技術(shù)構(gòu)建知識(shí)圖譜的三元組形式。此外,在計(jì)算機(jī)類課程中,可利用知識(shí)圖譜對(duì)課程進(jìn)行進(jìn)階描述,根據(jù)計(jì)算機(jī)課程教學(xué)大綱與新增先修課程關(guān)系能更好掌握學(xué)生需求(見圖3)。
本文提出的KGCN-CR 模型可實(shí)現(xiàn)面向?qū)W生的課程推薦,利用該模型捕獲知識(shí)圖譜中實(shí)體之間的高階連接,將課程實(shí)體表示及其鄰域節(jié)點(diǎn)(綠色節(jié)點(diǎn))相聚合,形成下一次迭代(深藍(lán)色節(jié)點(diǎn))。KGCN-CR 模型框架如圖4 所示。
在KGCN-CR 的一階連接中,用N(v)表示學(xué)生u直接連接v的實(shí)體集,rei,ej表示實(shí)體ei和ej之間的關(guān)系。模型用函數(shù)g:?d× ?d→? 計(jì)算用戶對(duì)關(guān)系的興趣度,如式(2)所示。
其中,u∈?d,r∈?d為學(xué)生u與關(guān)系r的向量表示,d是向量維度。
為了表征課程的鄰近結(jié)構(gòu),本文將鄰域的線性組合表示如式(3)所示。
其中,e是實(shí)體e的向量表示,在計(jì)算實(shí)體的鄰域表示時(shí),作為個(gè)性化過濾器捕獲學(xué)生的學(xué)習(xí)興趣[17]。
Fig.3 Examples of knowledge graphs for computer courses圖3 計(jì)算機(jī)課程知識(shí)圖譜示例
Fig.4 KGCN-CR model framework圖4 KGCN-CR 模型框架
最后,將實(shí)體表示及鄰域表示聚合到單個(gè)向量中,將兩個(gè)向量相加,進(jìn)行非線性變換,計(jì)算公式如式(5)所示。
實(shí)體最終表示為自身表示及鄰域表示,為了保持計(jì)算高效,為每個(gè)實(shí)體采用固定大小的鄰域。最后,將一階表示擴(kuò)展到多階,以便更深入地探索用戶偏好。
為了提高計(jì)算效率,在訓(xùn)練期間使用非負(fù)采樣策略,完整的損失函數(shù)如下:
其中,J是交叉熵?fù)p失函數(shù),P是負(fù)采樣分布,Tu是學(xué)生u的負(fù)采樣數(shù),在本文中服從均勻分布,最后一項(xiàng)是防止過度擬合的L2 正則化項(xiàng),λ是平衡參數(shù)。
本文選擇的數(shù)據(jù)集MOOC-Music 是MOOC 平臺(tái)中音樂、舞蹈類別的學(xué)習(xí)數(shù)據(jù)。MOOC-Music 包含109 門課程信息和15 914 位學(xué)生對(duì)109 門課程的評(píng)分。由于多數(shù)學(xué)生只選擇一門課程進(jìn)行學(xué)習(xí),造成音樂課程學(xué)生課程交互數(shù)據(jù)十分稀疏,系統(tǒng)難以進(jìn)行推薦。數(shù)據(jù)集MOOC-Computer是MOOC 平臺(tái)中計(jì)算機(jī)類別的交互數(shù)據(jù)。MOOC-Computer 包含297 門課程信息和113 630 位學(xué)生對(duì)297 門課程的評(píng)分,本文為了減少交互矩陣的稀疏性,在MOOC-Computer中篩選交互次數(shù)大于4 的9 022 位學(xué)生。表2 顯示了數(shù)據(jù)集的基本統(tǒng)計(jì)信息。
Table 2 Basic statistics of the data set表2 數(shù)據(jù)集基本統(tǒng)計(jì)信息
本文提出的課程推薦方法將與以下模型進(jìn)行比較。
(1)SVD[3]將高維學(xué)生課程評(píng)分矩陣分解為低維學(xué)生特征向量矩陣、課程特征矩陣及奇異值的對(duì)角矩陣。生成學(xué)生特征向量矩陣與課程特征向量矩陣后,模型參數(shù)根據(jù)已有打分?jǐn)?shù)據(jù)進(jìn)行更新,然后SVD 將更新的學(xué)生課程評(píng)分矩陣作為模型輸入。
(2)LibFM[4]是基于特征的分解模型,將學(xué)生和課程的原始特征作為L(zhǎng)ibFM 的輸入。其中,維度為{1,1,8},訓(xùn)練次數(shù)為50。
(3)Wide&Deep[8]結(jié)合了線性和非線性通道的深度推薦模型。Wide&Deep 的輸入與LibFM 中的相同,學(xué)生、課程維度為64,使用維度分別為100 和50 的兩層深度渠道以及廣度渠道。
(4)RippleNet[16]是類似于內(nèi)存網(wǎng)絡(luò)的方法,可以在知識(shí)圖上傳播學(xué)生的偏好。超參數(shù)設(shè)置為d= 8,H= 2,λ1=10-6,λ2= 0.01,η= 0.02。
本文選擇ROC 曲線下面積(AUC)、準(zhǔn)確率(ACC)、精確率(Presicion)、召回率(Recall)作為性能評(píng)價(jià)指標(biāo),衡量各算法的性能優(yōu)劣,如式(7)-式(9)所示。在固定訓(xùn)練集的情況下,模型ACC、Presicion、Recall 和F1 計(jì)算越高,表明推薦模型更高效。
其中,TP(True Positive)表示真陽性,即課程樣本被正確推薦給學(xué)習(xí)者的數(shù)量;TN(True Negative)表示真陰性,即不屬于推薦課程的樣本沒有推薦給學(xué)生的課程數(shù)量;FP(False Positive)表示假陽性,即不屬于正確推薦課程的樣本被錯(cuò)誤推薦給學(xué)生的數(shù)量;FN(False Negative)表示假陰性,即屬于推薦課程的樣本沒有推薦給學(xué)生的課程數(shù)量。
在KGCN-CR 模型中設(shè)置K= 1,fRS作為內(nèi)積,λ2=10-6,其他超參數(shù)L= 1,d= 8,t= 3,λ1= 0.5 由驗(yàn)證集通過優(yōu)化AUC 確定,建立學(xué)生課程評(píng)分矩陣。本文矩陣為稀疏矩陣,其中正實(shí)例為學(xué)生對(duì)課程交互(評(píng)分)的實(shí)例,而負(fù)實(shí)例則從學(xué)生沒有交互過的實(shí)例中進(jìn)行采樣。訓(xùn)練集、驗(yàn)證集與測(cè)試集的比例為6∶2∶2,每個(gè)實(shí)驗(yàn)重復(fù)四次,計(jì)算平均性能。評(píng)估方法為點(diǎn)擊率預(yù)測(cè)(CTR),將訓(xùn)練后的模型應(yīng)用于測(cè)試集中的每個(gè)交互實(shí)例,并輸出預(yù)測(cè)的點(diǎn)擊概率。最后,使用AUC 和ACC 評(píng)估預(yù)測(cè)效果。
本文所提方法的CTR 預(yù)測(cè)和top-K 推薦結(jié)果如圖5-圖7 和表3 所示。實(shí)驗(yàn)結(jié)果表明,在課程推薦中加入知識(shí)圖譜模型RippleNet、KGCN-CR 的實(shí)驗(yàn)效果要優(yōu)于SVD、LibFM、Wide&Deep,即使在學(xué)生課程交互及其稀疏的情況下仍能表現(xiàn)出良好的性能。SVD、LibFM 協(xié)同過濾方法由于無法建模輔助信息,在學(xué)生和課程交互矩陣極為稀疏的條件下,推薦效果較差。Wide&Deep 本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)方法,在性能上要優(yōu)于SVD、LibFM,但Wide&Deep 將每個(gè)學(xué)生課程交互建模為獨(dú)立的數(shù)據(jù)實(shí)例,沒有考慮它們之間的關(guān)系,未能從學(xué)生集體行為中提取基于課程屬性的協(xié)作信號(hào),故推薦效果略差于加入知識(shí)圖譜的模型。RippleNet 在所有模型中表現(xiàn)最佳,特別是在MOOC-Computer 數(shù)據(jù)集下推薦準(zhǔn)確率要優(yōu)于KGCN-CR。這表明在學(xué)生課程交互較為密集的情況下,RippleNet 可精確捕獲學(xué)生興趣,同時(shí)證明了知識(shí)圖譜的有效性。但在MOOC-Music 數(shù)據(jù)集中RippleNet 表現(xiàn)比KGCN-CR 差,所以KGCN-CR 更適用于稀疏場(chǎng)景??傮w而言,在MOOC-Computer 數(shù)據(jù)集上的模型方法推薦性能優(yōu)于MOOC-Music,但在MOOC-Music 數(shù)據(jù)集上運(yùn)用知識(shí)圖譜性能優(yōu)于MOOC-Computer,說明運(yùn)用知識(shí)圖譜的推薦算法模型能夠較好解決稀疏場(chǎng)景造成的問題。
Fig.5 Accuracy prediction results recommended by top-K圖5 top-K 推薦的精確率預(yù)測(cè)結(jié)果
Fig.6 Recall prediction results recommended by top-K圖6 top-K 推薦的召回率預(yù)測(cè)結(jié)果
Fig.7 F1 prediction results recommended by top-K圖7 top-K 推薦的F1 預(yù)測(cè)結(jié)果
Table 3 Curriculum click-through rate prediction probability表3 課程點(diǎn)擊率預(yù)測(cè)概率
本文將知識(shí)圖譜應(yīng)用于課程推薦領(lǐng)域,建立課程知識(shí)圖譜捕獲不同類型實(shí)體之間豐富的語義信息,并納入表示學(xué)習(xí)過程中。提出了融合課程知識(shí)圖譜的卷積神經(jīng)網(wǎng)絡(luò)KGCN-LV,通過聚集鄰域信息,獲取學(xué)生個(gè)性化潛在興趣。通過在數(shù)據(jù)集MOOC-Music 及MOOC-Computer 上的實(shí)驗(yàn)可見,KGCN-CR 始終優(yōu)于基準(zhǔn)線,表明融合知識(shí)圖譜的課程推薦方法優(yōu)于傳統(tǒng)課程CF 推薦方法,能夠準(zhǔn)確實(shí)現(xiàn)課程資源推薦。
當(dāng)然,KGCN-CR 也存在一些不足,由于數(shù)據(jù)限制,在推薦過程中只利用評(píng)分表示學(xué)生的興趣。接下來將結(jié)合學(xué)生評(píng)分、學(xué)習(xí)時(shí)間、個(gè)人愛好等多指標(biāo)表示學(xué)生的興趣,建立學(xué)生端知識(shí)圖譜,提供更高效的課程推薦服務(wù)。