基于知識圖譜的學(xué)習(xí)資源核心概念提取策略分析

2020-12-05 09:04:52趙嫦花米春橋匡進(jìn)鵑李曉梅

懷化學(xué)院學(xué)報(bào) 2020年5期

趙嫦花，米春橋，匡進(jìn)鵑，李曉梅

（1.懷化學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院；2.懷化學(xué)院武陵山片區(qū)健康大數(shù)據(jù)智能處理和應(yīng)用實(shí)驗(yàn)室；3.懷化學(xué)院武陵山片區(qū)生態(tài)農(nóng)業(yè)智能控制技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室，湖南懷化 418008；4.懷化軍分區(qū)，湖南懷化 418000）

1 引言

自動識別學(xué)習(xí)資源所涉及的核心概念是實(shí)現(xiàn)個性化學(xué)習(xí)資源推薦的基礎(chǔ)，它有利于教育內(nèi)容的重新組織[1]和個性化推薦系統(tǒng)的實(shí)現(xiàn)[2].通常衡量核心概念的標(biāo)準(zhǔn)是看學(xué)習(xí)資源中概念的重要程度.在學(xué)習(xí)資源中有對概念的解釋和標(biāo)注，對于那些注釋為“核心”的概念通常被認(rèn)為能提供最多的相關(guān)信息.與一組術(shù)語不同，概念是明確的實(shí)體，通常用來描述知識區(qū)域和概念之間的語義層關(guān)系.當(dāng)前基于本體的開發(fā)應(yīng)用已經(jīng)相對成熟，關(guān)于核心概念的自動識別和注釋都是集中在領(lǐng)域本體的構(gòu)建[3].但是，這些領(lǐng)域知識的描述難以擴(kuò)展，因?yàn)樵~匯表在大多數(shù)情況下是針對某一個應(yīng)用領(lǐng)域的[4].因此，本文的設(shè)計(jì)策略是在開放和可訪問的公共詞匯表的語義層上運(yùn)行.這不僅可以使所識別的主要概念得到重用，而且還可以挖掘知識之間的聯(lián)系.

近年來，研究者開始在語義網(wǎng)標(biāo)準(zhǔn)下構(gòu)建特定領(lǐng)域的知識庫，目的是促進(jìn)知識的相互關(guān)聯(lián)、重用和發(fā)現(xiàn).維基百科就應(yīng)用了知識圖譜的RDF數(shù)據(jù)集，它集中了多個領(lǐng)域的知識，指明了概念之間的大量相互關(guān)系[5].這些知識庫除了具有開放性和跨領(lǐng)域性外，通常還會不斷地更新.這使得它們成為各領(lǐng)域理想的知識來源.但是，這些資源的關(guān)聯(lián)性較差，例如在學(xué)習(xí)領(lǐng)域，學(xué)生不能通過已知的相關(guān)學(xué)習(xí)材料，達(dá)到資源整合的目的.這就需要獲得關(guān)于某個概念的額外信息來呈現(xiàn)學(xué)習(xí)內(nèi)容.

本文使用知識圖譜作為概念空間來構(gòu)建語義知識，應(yīng)用自動識別學(xué)習(xí)資源中的核心概念的不同策略.具體過程如下：首先，從學(xué)習(xí)資源文本中提取概念，為了以可靠、自動和明確的方式識別概念，采用最先進(jìn)的概念識別和實(shí)體鏈接工具.然后，通過不同的擴(kuò)展策略來提取語義表征.接下來，利用基于圖形的結(jié)構(gòu)語義表征評估不同的概念加權(quán)函數(shù)，選擇具有最高權(quán)重的概念作為資源的核心概念.最后，從語義表征和學(xué)習(xí)資源結(jié)構(gòu)中提取一組特征使用機(jī)器學(xué)習(xí)方法，最終獲得核心概念集.為了測試所提出的核心概念識別策略的有效性，從MOOCs上提取了部分專家標(biāo)注的概念.文中所使用的評估策略與專家核心概念基本一致.

2 相關(guān)研究

國內(nèi)外有很多的研究涉及到學(xué)習(xí)資源的主要概念自動精確定位的問題.Roy等開發(fā)了一種使用元數(shù)據(jù)（如概念、概念類型、主題）注釋文檔和學(xué)習(xí)資源類型的自動工具[6].為了評估概念的重要性，他們分析了相關(guān)概念的頻率.有些文獻(xiàn)定義了關(guān)鍵動詞、句型和規(guī)則來識別概念的類型.Krieger豐富了學(xué)習(xí)資源元數(shù)據(jù)與來自領(lǐng)域本體的語義概念，并根據(jù)內(nèi)容資源以及表示程度的相關(guān)權(quán)重提取所涵蓋的概念[7].Changuel等提出了一種核心概念識別的半監(jiān)督方法，他們訓(xùn)練機(jī)器學(xué)習(xí)分類器，分配基于一組人工注釋特征的標(biāo)簽[8].這些功能包括所考慮的短語在文本中的依賴性、結(jié)構(gòu)和功能.Changuel通過從Web文檔語料庫中獲取概念以解決確定有效學(xué)習(xí)路徑的問題.他們采用機(jī)器學(xué)習(xí)方法來預(yù)測基于上下文和本地文本特征的概念類別[9].現(xiàn)有研究的重點(diǎn)是識別文本中的概念及其后來與領(lǐng)域本體鏈接的策略.本文專注于評估概念的核心度，選擇具有最高權(quán)重的概念作為資源的核心概念.

3 基于知識圖譜的核心概念識別

語義是數(shù)據(jù)在某個領(lǐng)域上的解釋和邏輯表示，可通過語義表征和監(jiān)督學(xué)習(xí)方法等來體現(xiàn).從廣義上講，我們的語義資源用加權(quán)有向圖表示，其中節(jié)點(diǎn)表示概念，而直線表示在知識圖譜中的語義關(guān)系.

圖1 核心概念識別過程

圖1 顯示了核心概念識別的完整過程.首先，從學(xué)習(xí)資源文本中提取概念，通過輸入文本再返回一組結(jié)構(gòu)化的URI.其次是基于類別和屬性的擴(kuò)展，主要用于豐富和完善概念表示，使得概念在知識圖譜中能找到語義的關(guān)聯(lián).最后，通過不同的加權(quán)函數(shù)評估每個概念的重要性，將具有最高權(quán)重的功能概念作為核心概念.此外，我們還使用了機(jī)器學(xué)習(xí)方法來發(fā)現(xiàn)主要概念，與傳統(tǒng)的機(jī)器學(xué)習(xí)提取概念不同的是，本文中概念特征主要從語義表征中提取.這樣就提高了知識挖掘的廣度與深度.

4 基于知識圖譜的語義表征方法

通過從學(xué)習(xí)資源文檔中獲取重要的概念，為知識圖譜構(gòu)建奠定了基礎(chǔ).知識圖譜由一組概念或?qū)嶓wC和文字L組成，它們通過一組屬性和謂詞P相互關(guān)聯(lián).在RDF模型中，知識圖譜數(shù)據(jù)被描述為S?C×P×（C∪L）.每個s∈S都是由主語、謂語和對象組成的三元組.考慮到上述情況，我們的語義表征遵循定義1的規(guī)范.

定義1：學(xué)習(xí)資源ri的語義表征Gi表示為Gi=（Ni，Ei，w（ri，c），w（ri，e）），其中由函數(shù) w（ri，c）定義結(jié)點(diǎn)權(quán)重：N→R+ 和邊緣函數(shù) w（ri，e）：E→R+ 定義關(guān)聯(lián)程度.節(jié)點(diǎn)集 Ni={c1，c2，…，ck}是表示實(shí)體 /概念，屬于知識圖譜（cj∈C）.節(jié)點(diǎn)權(quán)重 w（ri，c））表示節(jié)點(diǎn) c 與學(xué)習(xí)資源相關(guān)程度.兩個節(jié)點(diǎn)之間的連接邊緣（ca，cb）表示在知識圖譜中存在至少一個語句s連接這兩個概念.邊緣w（ri，e）的權(quán)重表示兩個概念的關(guān)聯(lián)程度.

如前所述，概念注釋模塊（見圖1）是搜尋文本中提及的概念（即注釋），并將它們與知識圖譜中的概念聯(lián)系起來.

此外，我們不會對所選的注釋進(jìn)行其他驗(yàn)證，因?yàn)闊o法保證自動獲得的注釋的正確性，這里需要進(jìn)行手動校正.然而，在現(xiàn)實(shí)應(yīng)用中，手動校正過程是不現(xiàn)實(shí)的.一般來說，主要存在以下問題：（1）不完整的注釋：并非所有內(nèi)容中存在的概念都被發(fā)現(xiàn).例如，無法找到合適的概念時(shí)，可能會導(dǎo)致不完整實(shí)體/概念得到認(rèn)證；（2）不正確的注釋：概念被錯誤地聯(lián)系起來.例如，“云”這個詞通常用來表示一種基于互聯(lián)網(wǎng)的計(jì)算，可能與氣象學(xué)上的“云”概念錯誤地聯(lián)系在一起.為了解決上面的問題，我們加入了擴(kuò)展模塊和加權(quán)模塊以降低對概念抽取的影響.

4.1 擴(kuò)展模塊

擴(kuò)展模塊用于豐富未在文本中明確提及或者未被注釋服務(wù)識別的概念.我們將注釋集（即文本中的概念）擴(kuò)展為新的概念集，主要使用以下兩種不同的方法：

1.基于類別的擴(kuò)展（Category-based Expansion，CBE）：此類擴(kuò)展針對語義表征內(nèi)的每個注釋類別（或知識圖譜中關(guān)于概念的其他分層信息）.

2.基于屬性的擴(kuò)展（Property-based Expansion，PBE）：此類擴(kuò)展針對語義表征內(nèi)的每個注釋屬性，通過遍歷某些屬性找到的概念來豐富知識圖譜.

例如，在計(jì)算機(jī)程序設(shè)計(jì)領(lǐng)域關(guān)于類的定義為：在面向?qū)ο蟮木幊讨?，類是一個可擴(kuò)展的程序代碼模塊，用于創(chuàng)建對象，提供狀態(tài)（成員變量）的初始值和行為的實(shí)現(xiàn)（成員函數(shù)或方法）.在許多語言中，類名用作類的名稱（模塊本身）、類的默認(rèn)構(gòu)造函數(shù)的名稱等.這些截然不同的概念很容易混淆.在概念注釋步驟之后，檢索以下幾個概念：“構(gòu)造函數(shù)（面向?qū)ο缶幊蹋薄俺蓡T變量”“方法（計(jì)算機(jī)編程）”“對象（計(jì)算機(jī)科學(xué)）”，即使文本是知識圖譜概念“類（計(jì)算機(jī)編程）”的定義，它也不會被使用的挖掘注釋等工具識別.這些概念是通過基于屬性的擴(kuò)展添加到語義表征中的，因?yàn)樗B接到注釋：“成員變量”“子程序”“對象（計(jì)算機(jī)科學(xué)）”和“方法（計(jì)算機(jī)編程）”.以相同的方式，諸如“對象生存期”，“變量（計(jì)算機(jī)科學(xué)）”的概念和類別被添加到語義表征中.

如圖2所示，使用在擴(kuò)展過程之后得到的概念集合作為節(jié)點(diǎn)來構(gòu)建最終圖形表征Gi.對于邊緣構(gòu)造，返回知識圖譜中每對節(jié)點(diǎn)之間的屬性路徑，并通過SPARQL（用于查詢RDF數(shù)據(jù)）查詢進(jìn)行分析.如果找到兩個概念之間的屬性路徑，則可以根據(jù)知識圖譜中的連接方向創(chuàng)建Gi中的有向邊，探索不同的屬性路徑長度.本文中我們將搜索限制為長度小于或等于2的屬性路徑.

在圖2中，一級節(jié)點(diǎn)是注釋，如Layer，Precipitation，Medium等，二級節(jié)點(diǎn)是通過擴(kuò)展模塊合并的概念.通過w（ri，e）邊緣的厚度表示兩者之間的連接強(qiáng)度，如string.節(jié)點(diǎn)的大小與節(jié)點(diǎn)權(quán)重w（ri，c）成正例，并且在語義表征中起著重要的作用.

4.2 加權(quán)模塊

該模塊是學(xué)習(xí)資源核心概念識別的關(guān)鍵.具有最高w（ri，c）權(quán)重的概念被認(rèn)為是核心概念.相比之下，具有最低權(quán)重的概念可以被視為表征中的噪聲.與學(xué)習(xí)資源主題無關(guān)的概念往往在文檔中不常見或在表征中顯示為弱連接（即與其它概念很少或沒有聯(lián)系）.這種無關(guān)的概念具有低w（ri，c），因此不會被視為核心概念，主要采用以下策略來解決：

1.概念的頻率.最基本的加權(quán)策略是分析表征中概念的頻率：

圖2 語義表征實(shí)例

其中fc，Ri表示c出現(xiàn)在學(xué)習(xí)資源內(nèi)容中的次數(shù)加上概念在擴(kuò)展過程中出現(xiàn)的次數(shù).使用這種策略的好處在于它強(qiáng)化了經(jīng)常出現(xiàn)的一般概念.以程序設(shè)計(jì)課程為例，通常會在第一課中解釋最基本的概念，如“變量”和“數(shù)據(jù)類型”，如果學(xué)習(xí)資源中多次提到“變量”的概念，也不一定表明它就是主要概念.為了解決以上問題，我們提出了一種加權(quán)策略，這種策略主要參照了基于單詞的向量空間模型[10]中眾所周知的TF-IDF（詞頻-逆向文件頻率）加權(quán)方案.因此，所提出的策略Wcf-idf是選取出現(xiàn)在多個表征中的概念.

其中M是學(xué)習(xí)資源的總數(shù)，mc是在其表征中具有概念c的學(xué)習(xí)資源的數(shù)量.

2.擴(kuò)展概念的折算.為了防止知識圖譜的層級結(jié)構(gòu)中的頻繁屬性或一般類別轉(zhuǎn)移到表征中，有必要對通過擴(kuò)展模塊合并的新概念應(yīng)用折算，對于基于類別的擴(kuò)展概念應(yīng)用以下折算方法：

其中SP是屬于該類別的概念集，SC是分類層次結(jié)構(gòu)中的子類別集.這種折算策略是對過于寬泛和通用的類別進(jìn)行折算.同樣，對于擴(kuò)展概念，將應(yīng)用以下折算方法：

其中P是從知識圖譜中得到的概念c∈C的屬性出現(xiàn)的次數(shù).

3.中心度量.這是一種利用圖的結(jié)構(gòu)的加權(quán)策略.通過不同的中心度量對每個節(jié)點(diǎn)的重要性進(jìn)行排序，可采用以下中心措施：

（1）度中心性（Degree centrality，DE）：節(jié)點(diǎn) c的度中心性是連接到它的節(jié)點(diǎn)數(shù)與總數(shù)之間的關(guān)系節(jié)點(diǎn)數(shù)量.

（2）中介中心性（Betweenness centrality，BET）：中介中心性是分?jǐn)?shù)通過的所有最短路徑的節(jié)點(diǎn).

（3）網(wǎng)頁排名（PageRank，PR）：網(wǎng)頁排名是一種眾所周知的算法，是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計(jì)算的技術(shù).本質(zhì)上，網(wǎng)頁排名是一種在有向圖上對重要節(jié)點(diǎn)進(jìn)行排名的度量.

5 基于知識圖譜的監(jiān)督方法

給定一對概念學(xué)習(xí)資源（c，ri），我們預(yù)測c是否是ri的核心概念，這是一個二元分類問題.對于每個概念學(xué)習(xí)資源對（c，ri），我們計(jì)算兩種類型的特征：基于文本和基于圖的特征.

5.1 基于文本的特征

第一類特征被設(shè)計(jì)為對從學(xué)習(xí)資源中提取的文本內(nèi)容以及知識圖譜中的概念進(jìn)行描述.

（1）標(biāo)題.是否c出現(xiàn)在學(xué)習(xí)資源標(biāo)題中（如果有）.

（2）前3個句子.c是否為學(xué)習(xí)資源中的前3個句子.

（3）Wcf（ri，c）和Wcf-idf（ri，c）.從權(quán)重模塊中獲得權(quán)重.

（4）TextRank.TextRank算法是一種用于文本的排序算法.

5.2 基于圖形的特征

這些特征直接從語義表征中提取.

（1）PR（c）.語義表示中概念的網(wǎng)頁排名值.

（2）BET（c）.概念在語義表達(dá)中的中介中心性.

（3）In（c）中.c的傳入鏈接數(shù).

（4）Out（c）.c的外出鏈接數(shù).

（5）Hub屬性和Authority屬性.將HITS算法應(yīng)用于語義表征之后獲得的值.HITS算法的全稱是Hyperlink-Induced Topic Search.在HITS算法中，每個頁面被賦予兩個屬性：Hub屬性和Authority屬性.同時(shí)，網(wǎng)頁被分為兩種：Hub頁面和Authority頁面.Hub頁面指那些包含了很多指向Authority頁面鏈接的網(wǎng)頁，比如國內(nèi)的一些門戶網(wǎng)站；Authority頁面則指那些包含有實(shí)質(zhì)性內(nèi)容的網(wǎng)頁.HITS算法的目的是：當(dāng)用戶查詢時(shí)，返回給用戶高質(zhì)量的Authority頁面.

6 結(jié)論

本文提出了基于知識圖譜的學(xué)習(xí)資源核心概念提取策略.語義表征實(shí)質(zhì)上是有向加權(quán)圖，其節(jié)點(diǎn)表示知識圖譜概念，直線表示它們之間存在語義關(guān)系.圖形構(gòu)建過程由擴(kuò)展和加權(quán)模塊負(fù)責(zé)結(jié)合領(lǐng)域概念和分配節(jié)點(diǎn)的重要性評分.我們探索了兩種提取核心概念的方法：第一種方法是通過不同的加權(quán)策略從表征中提取更大權(quán)重的概念；第二種方法是選擇基于集合的監(jiān)督方法主要從表征中提取特征.通過加權(quán)策略并考慮前3個句子，在提取過程中達(dá)到85%的理想精度.盡管監(jiān)督方法具有優(yōu)越性，但加權(quán)策略沒有經(jīng)過訓(xùn)練，還存在一定的偏差，這也是下一步要研究的內(nèi)容.我們希望通過這種核心概念識別策略，為其他領(lǐng)域研究拋磚引玉，由此創(chuàng)建一個更全面的學(xué)習(xí)資源數(shù)據(jù)集.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡