趙嫦花 , 米春橋 , 匡進(jìn)鵑 , 李曉梅
(1.懷化學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院;2.懷化學(xué)院武陵山片區(qū)健康大數(shù)據(jù)智能處理和應(yīng)用實(shí)驗(yàn)室;3.懷化學(xué)院武陵山片區(qū)生態(tài)農(nóng)業(yè)智能控制技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南懷化 418008;4.懷化軍分區(qū),湖南懷化 418000)
自動識別學(xué)習(xí)資源所涉及的核心概念是實(shí)現(xiàn)個性化學(xué)習(xí)資源推薦的基礎(chǔ),它有利于教育內(nèi)容的重新組織[1]和個性化推薦系統(tǒng)的實(shí)現(xiàn)[2].通常衡量核心概念的標(biāo)準(zhǔn)是看學(xué)習(xí)資源中概念的重要程度.在學(xué)習(xí)資源中有對概念的解釋和標(biāo)注,對于那些注釋為“核心”的概念通常被認(rèn)為能提供最多的相關(guān)信息.與一組術(shù)語不同,概念是明確的實(shí)體,通常用來描述知識區(qū)域和概念之間的語義層關(guān)系.當(dāng)前基于本體的開發(fā)應(yīng)用已經(jīng)相對成熟,關(guān)于核心概念的自動識別和注釋都是集中在領(lǐng)域本體的構(gòu)建[3].但是,這些領(lǐng)域知識的描述難以擴(kuò)展,因?yàn)樵~匯表在大多數(shù)情況下是針對某一個應(yīng)用領(lǐng)域的[4].因此,本文的設(shè)計(jì)策略是在開放和可訪問的公共詞匯表的語義層上運(yùn)行.這不僅可以使所識別的主要概念得到重用,而且還可以挖掘知識之間的聯(lián)系.
近年來,研究者開始在語義網(wǎng)標(biāo)準(zhǔn)下構(gòu)建特定領(lǐng)域的知識庫,目的是促進(jìn)知識的相互關(guān)聯(lián)、重用和發(fā)現(xiàn).維基百科就應(yīng)用了知識圖譜的RDF數(shù)據(jù)集,它集中了多個領(lǐng)域的知識,指明了概念之間的大量相互關(guān)系[5].這些知識庫除了具有開放性和跨領(lǐng)域性外,通常還會不斷地更新.這使得它們成為各領(lǐng)域理想的知識來源.但是,這些資源的關(guān)聯(lián)性較差,例如在學(xué)習(xí)領(lǐng)域,學(xué)生不能通過已知的相關(guān)學(xué)習(xí)材料,達(dá)到資源整合的目的.這就需要獲得關(guān)于某個概念的額外信息來呈現(xiàn)學(xué)習(xí)內(nèi)容.
本文使用知識圖譜作為概念空間來構(gòu)建語義知識,應(yīng)用自動識別學(xué)習(xí)資源中的核心概念的不同策略.具體過程如下:首先,從學(xué)習(xí)資源文本中提取概念,為了以可靠、自動和明確的方式識別概念,采用最先進(jìn)的概念識別和實(shí)體鏈接工具.然后,通過不同的擴(kuò)展策略來提取語義表征.接下來,利用基于圖形的結(jié)構(gòu)語義表征評估不同的概念加權(quán)函數(shù),選擇具有最高權(quán)重的概念作為資源的核心概念.最后,從語義表征和學(xué)習(xí)資源結(jié)構(gòu)中提取一組特征使用機(jī)器學(xué)習(xí)方法,最終獲得核心概念集.為了測試所提出的核心概念識別策略的有效性,從MOOCs上提取了部分專家標(biāo)注的概念.文中所使用的評估策略與專家核心概念基本一致.
國內(nèi)外有很多的研究涉及到學(xué)習(xí)資源的主要概念自動精確定位的問題.Roy等開發(fā)了一種使用元數(shù)據(jù)(如概念、概念類型、主題)注釋文檔和學(xué)習(xí)資源類型的自動工具[6].為了評估概念的重要性,他們分析了相關(guān)概念的頻率.有些文獻(xiàn)定義了關(guān)鍵動詞、句型和規(guī)則來識別概念的類型.Krieger豐富了學(xué)習(xí)資源元數(shù)據(jù)與來自領(lǐng)域本體的語義概念,并根據(jù)內(nèi)容資源以及表示程度的相關(guān)權(quán)重提取所涵蓋的概念[7].Changuel等提出了一種核心概念識別的半監(jiān)督方法,他們訓(xùn)練機(jī)器學(xué)習(xí)分類器,分配基于一組人工注釋特征的標(biāo)簽[8].這些功能包括所考慮的短語在文本中的依賴性、結(jié)構(gòu)和功能.Changuel通過從Web文檔語料庫中獲取概念以解決確定有效學(xué)習(xí)路徑的問題.他們采用機(jī)器學(xué)習(xí)方法來預(yù)測基于上下文和本地文本特征的概念類別[9].現(xiàn)有研究的重點(diǎn)是識別文本中的概念及其后來與領(lǐng)域本體鏈接的策略.本文專注于評估概念的核心度,選擇具有最高權(quán)重的概念作為資源的核心概念.
語義是數(shù)據(jù)在某個領(lǐng)域上的解釋和邏輯表示,可通過語義表征和監(jiān)督學(xué)習(xí)方法等來體現(xiàn).從廣義上講,我們的語義資源用加權(quán)有向圖表示,其中節(jié)點(diǎn)表示概念,而直線表示在知識圖譜中的語義關(guān)系.
圖1 核心概念識別過程
圖1 顯示了核心概念識別的完整過程.首先,從學(xué)習(xí)資源文本中提取概念,通過輸入文本再返回一組結(jié)構(gòu)化的URI.其次是基于類別和屬性的擴(kuò)展,主要用于豐富和完善概念表示,使得概念在知識圖譜中能找到語義的關(guān)聯(lián).最后,通過不同的加權(quán)函數(shù)評估每個概念的重要性,將具有最高權(quán)重的功能概念作為核心概念.此外,我們還使用了機(jī)器學(xué)習(xí)方法來發(fā)現(xiàn)主要概念,與傳統(tǒng)的機(jī)器學(xué)習(xí)提取概念不同的是,本文中概念特征主要從語義表征中提取.這樣就提高了知識挖掘的廣度與深度.
通過從學(xué)習(xí)資源文檔中獲取重要的概念,為知識圖譜構(gòu)建奠定了基礎(chǔ).知識圖譜由一組概念或?qū)嶓wC和文字L組成,它們通過一組屬性和謂詞P相互關(guān)聯(lián).在RDF模型中,知識圖譜數(shù)據(jù)被描述為S?C×P×(C∪L).每個s∈S都是由主語、謂語和對象組成的三元組.考慮到上述情況,我們的語義表征遵循定義1的規(guī)范.
定義1:學(xué)習(xí)資源ri的語義表征Gi表示為Gi=(Ni,Ei,w(ri,c),w(ri,e)),其中由函數(shù) w(ri,c)定義結(jié)點(diǎn)權(quán)重:N→R+ 和邊緣函數(shù) w(ri,e):E→R+ 定義關(guān)聯(lián)程度.節(jié)點(diǎn)集 Ni={c1,c2,…,ck}是表示實(shí)體 /概念,屬于知識圖譜(cj∈C).節(jié)點(diǎn)權(quán)重 w(ri,c))表示節(jié)點(diǎn) c 與學(xué)習(xí)資源相關(guān)程度.兩個節(jié)點(diǎn)之間的連接邊緣(ca,cb)表示在知識圖譜中存在至少一個語句s連接這兩個概念.邊緣w(ri,e)的權(quán)重表示兩個概念的關(guān)聯(lián)程度.
如前所述,概念注釋模塊(見圖1)是搜尋文本中提及的概念(即注釋),并將它們與知識圖譜中的概念聯(lián)系起來.
此外,我們不會對所選的注釋進(jìn)行其他驗(yàn)證,因?yàn)闊o法保證自動獲得的注釋的正確性,這里需要進(jìn)行手動校正.然而,在現(xiàn)實(shí)應(yīng)用中,手動校正過程是不現(xiàn)實(shí)的.一般來說,主要存在以下問題:(1)不完整的注釋:并非所有內(nèi)容中存在的概念都被發(fā)現(xiàn).例如,無法找到合適的概念時(shí),可能會導(dǎo)致不完整實(shí)體/概念得到認(rèn)證;(2)不正確的注釋:概念被錯誤地聯(lián)系起來.例如,“云”這個詞通常用來表示一種基于互聯(lián)網(wǎng)的計(jì)算,可能與氣象學(xué)上的“云”概念錯誤地聯(lián)系在一起.為了解決上面的問題,我們加入了擴(kuò)展模塊和加權(quán)模塊以降低對概念抽取的影響.
擴(kuò)展模塊用于豐富未在文本中明確提及或者未被注釋服務(wù)識別的概念.我們將注釋集(即文本中的概念)擴(kuò)展為新的概念集,主要使用以下兩種不同的方法:
1.基于類別的擴(kuò)展(Category-based Expansion,CBE):此類擴(kuò)展針對語義表征內(nèi)的每個注釋類別(或知識圖譜中關(guān)于概念的其他分層信息).
2.基于屬性的擴(kuò)展(Property-based Expansion,PBE):此類擴(kuò)展針對語義表征內(nèi)的每個注釋屬性,通過遍歷某些屬性找到的概念來豐富知識圖譜.
例如,在計(jì)算機(jī)程序設(shè)計(jì)領(lǐng)域關(guān)于類的定義為:在面向?qū)ο蟮木幊讨?,類是一個可擴(kuò)展的程序代碼模塊,用于創(chuàng)建對象,提供狀態(tài)(成員變量)的初始值和行為的實(shí)現(xiàn)(成員函數(shù)或方法).在許多語言中,類名用作類的名稱(模塊本身)、類的默認(rèn)構(gòu)造函數(shù)的名稱等.這些截然不同的概念很容易混淆.在概念注釋步驟之后,檢索以下幾個概念:“構(gòu)造函數(shù)(面向?qū)ο缶幊蹋薄俺蓡T變量”“方法(計(jì)算機(jī)編程)”“對象(計(jì)算機(jī)科學(xué))”,即使文本是知識圖譜概念“類(計(jì)算機(jī)編程)”的定義,它也不會被使用的挖掘注釋等工具識別.這些概念是通過基于屬性的擴(kuò)展添加到語義表征中的,因?yàn)樗B接到注釋:“成員變量”“子程序”“對象(計(jì)算機(jī)科學(xué))”和“方法(計(jì)算機(jī)編程)”.以相同的方式,諸如“對象生存期”,“變量(計(jì)算機(jī)科學(xué))”的概念和類別被添加到語義表征中.
如圖2所示,使用在擴(kuò)展過程之后得到的概念集合作為節(jié)點(diǎn)來構(gòu)建最終圖形表征Gi.對于邊緣構(gòu)造,返回知識圖譜中每對節(jié)點(diǎn)之間的屬性路徑,并通過SPARQL(用于查詢RDF數(shù)據(jù))查詢進(jìn)行分析.如果找到兩個概念之間的屬性路徑,則可以根據(jù)知識圖譜中的連接方向創(chuàng)建Gi中的有向邊,探索不同的屬性路徑長度.本文中我們將搜索限制為長度小于或等于2的屬性路徑.
在圖2中,一級節(jié)點(diǎn)是注釋,如Layer,Precipitation,Medium等,二級節(jié)點(diǎn)是通過擴(kuò)展模塊合并的概念.通過w(ri,e)邊緣的厚度表示兩者之間的連接強(qiáng)度,如string.節(jié)點(diǎn)的大小與節(jié)點(diǎn)權(quán)重w(ri,c)成正例,并且在語義表征中起著重要的作用.
該模塊是學(xué)習(xí)資源核心概念識別的關(guān)鍵.具有最高w(ri,c)權(quán)重的概念被認(rèn)為是核心概念.相比之下,具有最低權(quán)重的概念可以被視為表征中的噪聲.與學(xué)習(xí)資源主題無關(guān)的概念往往在文檔中不常見或在表征中顯示為弱連接(即與其它概念很少或沒有聯(lián)系).這種無關(guān)的概念具有低w(ri,c),因此不會被視為核心概念,主要采用以下策略來解決:
1.概念的頻率.最基本的加權(quán)策略是分析表征中概念的頻率:
圖2 語義表征實(shí)例
其中fc,Ri表示c出現(xiàn)在學(xué)習(xí)資源內(nèi)容中的次數(shù)加上概念在擴(kuò)展過程中出現(xiàn)的次數(shù).使用這種策略的好處在于它強(qiáng)化了經(jīng)常出現(xiàn)的一般概念.以程序設(shè)計(jì)課程為例,通常會在第一課中解釋最基本的概念,如“變量”和“數(shù)據(jù)類型”,如果學(xué)習(xí)資源中多次提到“變量”的概念,也不一定表明它就是主要概念.為了解決以上問題,我們提出了一種加權(quán)策略,這種策略主要參照了基于單詞的向量空間模型[10]中眾所周知的TF-IDF(詞頻-逆向文件頻率)加權(quán)方案.因此,所提出的策略Wcf-idf是選取出現(xiàn)在多個表征中的概念.
其中M是學(xué)習(xí)資源的總數(shù),mc是在其表征中具有概念c的學(xué)習(xí)資源的數(shù)量.
2.擴(kuò)展概念的折算.為了防止知識圖譜的層級結(jié)構(gòu)中的頻繁屬性或一般類別轉(zhuǎn)移到表征中,有必要對通過擴(kuò)展模塊合并的新概念應(yīng)用折算,對于基于類別的擴(kuò)展概念應(yīng)用以下折算方法:
其中SP是屬于該類別的概念集,SC是分類層次結(jié)構(gòu)中的子類別集.這種折算策略是對過于寬泛和通用的類別進(jìn)行折算.同樣,對于擴(kuò)展概念,將應(yīng)用以下折算方法:
其中P是從知識圖譜中得到的概念c∈C的屬性出現(xiàn)的次數(shù).
3.中心度量.這是一種利用圖的結(jié)構(gòu)的加權(quán)策略.通過不同的中心度量對每個節(jié)點(diǎn)的重要性進(jìn)行排序,可采用以下中心措施:
(1)度中心性(Degree centrality,DE):節(jié)點(diǎn) c的度中心性是連接到它的節(jié)點(diǎn)數(shù)與總數(shù)之間的關(guān)系節(jié)點(diǎn)數(shù)量.
(2)中介中心性(Betweenness centrality,BET):中介中心性是分?jǐn)?shù)通過的所有最短路徑的節(jié)點(diǎn).
(3)網(wǎng)頁排名(PageRank,PR):網(wǎng)頁排名是一種眾所周知的算法,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計(jì)算的技術(shù).本質(zhì)上,網(wǎng)頁排名是一種在有向圖上對重要節(jié)點(diǎn)進(jìn)行排名的度量.
給定一對概念學(xué)習(xí)資源(c,ri),我們預(yù)測c是否是ri的核心概念,這是一個二元分類問題.對于每個概念學(xué)習(xí)資源對(c,ri),我們計(jì)算兩種類型的特征:基于文本和基于圖的特征.
第一類特征被設(shè)計(jì)為對從學(xué)習(xí)資源中提取的文本內(nèi)容以及知識圖譜中的概念進(jìn)行描述.
(1)標(biāo)題.是否c出現(xiàn)在學(xué)習(xí)資源標(biāo)題中(如果有).
(2)前3個句子.c是否為學(xué)習(xí)資源中的前3個句子.
(3)Wcf(ri,c)和Wcf-idf(ri,c).從權(quán)重模塊中獲得權(quán)重.
(4)TextRank.TextRank算法是一種用于文本的排序算法.
這些特征直接從語義表征中提取.
(1)PR(c).語義表示中概念的網(wǎng)頁排名值.
(2)BET(c).概念在語義表達(dá)中的中介中心性.
(3)In(c)中.c的傳入鏈接數(shù).
(4)Out(c).c的外出鏈接數(shù).
(5)Hub屬性和Authority屬性.將HITS算法應(yīng)用于語義表征之后獲得的值.HITS算法的全稱是Hyperlink-Induced Topic Search.在HITS算法中,每個頁面被賦予兩個屬性:Hub屬性和Authority屬性.同時(shí),網(wǎng)頁被分為兩種:Hub頁面和Authority頁面.Hub頁面指那些包含了很多指向Authority頁面鏈接的網(wǎng)頁,比如國內(nèi)的一些門戶網(wǎng)站;Authority頁面則指那些包含有實(shí)質(zhì)性內(nèi)容的網(wǎng)頁.HITS算法的目的是:當(dāng)用戶查詢時(shí),返回給用戶高質(zhì)量的Authority頁面.
本文提出了基于知識圖譜的學(xué)習(xí)資源核心概念提取策略.語義表征實(shí)質(zhì)上是有向加權(quán)圖,其節(jié)點(diǎn)表示知識圖譜概念,直線表示它們之間存在語義關(guān)系.圖形構(gòu)建過程由擴(kuò)展和加權(quán)模塊負(fù)責(zé)結(jié)合領(lǐng)域概念和分配節(jié)點(diǎn)的重要性評分.我們探索了兩種提取核心概念的方法:第一種方法是通過不同的加權(quán)策略從表征中提取更大權(quán)重的概念;第二種方法是選擇基于集合的監(jiān)督方法主要從表征中提取特征.通過加權(quán)策略并考慮前3個句子,在提取過程中達(dá)到85%的理想精度.盡管監(jiān)督方法具有優(yōu)越性,但加權(quán)策略沒有經(jīng)過訓(xùn)練,還存在一定的偏差,這也是下一步要研究的內(nèi)容.我們希望通過這種核心概念識別策略,為其他領(lǐng)域研究拋磚引玉,由此創(chuàng)建一個更全面的學(xué)習(xí)資源數(shù)據(jù)集.