国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜的學(xué)習(xí)資源核心概念提取策略分析

2020-12-05 09:04:52趙嫦花米春橋匡進(jìn)鵑李曉梅
懷化學(xué)院學(xué)報(bào) 2020年5期
關(guān)鍵詞:圖譜語義概念

趙嫦花 , 米春橋 , 匡進(jìn)鵑 , 李曉梅

(1.懷化學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院;2.懷化學(xué)院武陵山片區(qū)健康大數(shù)據(jù)智能處理和應(yīng)用實(shí)驗(yàn)室;3.懷化學(xué)院武陵山片區(qū)生態(tài)農(nóng)業(yè)智能控制技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南懷化 418008;4.懷化軍分區(qū),湖南懷化 418000)

1 引言

自動識別學(xué)習(xí)資源所涉及的核心概念是實(shí)現(xiàn)個性化學(xué)習(xí)資源推薦的基礎(chǔ),它有利于教育內(nèi)容的重新組織[1]和個性化推薦系統(tǒng)的實(shí)現(xiàn)[2].通常衡量核心概念的標(biāo)準(zhǔn)是看學(xué)習(xí)資源中概念的重要程度.在學(xué)習(xí)資源中有對概念的解釋和標(biāo)注,對于那些注釋為“核心”的概念通常被認(rèn)為能提供最多的相關(guān)信息.與一組術(shù)語不同,概念是明確的實(shí)體,通常用來描述知識區(qū)域和概念之間的語義層關(guān)系.當(dāng)前基于本體的開發(fā)應(yīng)用已經(jīng)相對成熟,關(guān)于核心概念的自動識別和注釋都是集中在領(lǐng)域本體的構(gòu)建[3].但是,這些領(lǐng)域知識的描述難以擴(kuò)展,因?yàn)樵~匯表在大多數(shù)情況下是針對某一個應(yīng)用領(lǐng)域的[4].因此,本文的設(shè)計(jì)策略是在開放和可訪問的公共詞匯表的語義層上運(yùn)行.這不僅可以使所識別的主要概念得到重用,而且還可以挖掘知識之間的聯(lián)系.

近年來,研究者開始在語義網(wǎng)標(biāo)準(zhǔn)下構(gòu)建特定領(lǐng)域的知識庫,目的是促進(jìn)知識的相互關(guān)聯(lián)、重用和發(fā)現(xiàn).維基百科就應(yīng)用了知識圖譜的RDF數(shù)據(jù)集,它集中了多個領(lǐng)域的知識,指明了概念之間的大量相互關(guān)系[5].這些知識庫除了具有開放性和跨領(lǐng)域性外,通常還會不斷地更新.這使得它們成為各領(lǐng)域理想的知識來源.但是,這些資源的關(guān)聯(lián)性較差,例如在學(xué)習(xí)領(lǐng)域,學(xué)生不能通過已知的相關(guān)學(xué)習(xí)材料,達(dá)到資源整合的目的.這就需要獲得關(guān)于某個概念的額外信息來呈現(xiàn)學(xué)習(xí)內(nèi)容.

本文使用知識圖譜作為概念空間來構(gòu)建語義知識,應(yīng)用自動識別學(xué)習(xí)資源中的核心概念的不同策略.具體過程如下:首先,從學(xué)習(xí)資源文本中提取概念,為了以可靠、自動和明確的方式識別概念,采用最先進(jìn)的概念識別和實(shí)體鏈接工具.然后,通過不同的擴(kuò)展策略來提取語義表征.接下來,利用基于圖形的結(jié)構(gòu)語義表征評估不同的概念加權(quán)函數(shù),選擇具有最高權(quán)重的概念作為資源的核心概念.最后,從語義表征和學(xué)習(xí)資源結(jié)構(gòu)中提取一組特征使用機(jī)器學(xué)習(xí)方法,最終獲得核心概念集.為了測試所提出的核心概念識別策略的有效性,從MOOCs上提取了部分專家標(biāo)注的概念.文中所使用的評估策略與專家核心概念基本一致.

2 相關(guān)研究

國內(nèi)外有很多的研究涉及到學(xué)習(xí)資源的主要概念自動精確定位的問題.Roy等開發(fā)了一種使用元數(shù)據(jù)(如概念、概念類型、主題)注釋文檔和學(xué)習(xí)資源類型的自動工具[6].為了評估概念的重要性,他們分析了相關(guān)概念的頻率.有些文獻(xiàn)定義了關(guān)鍵動詞、句型和規(guī)則來識別概念的類型.Krieger豐富了學(xué)習(xí)資源元數(shù)據(jù)與來自領(lǐng)域本體的語義概念,并根據(jù)內(nèi)容資源以及表示程度的相關(guān)權(quán)重提取所涵蓋的概念[7].Changuel等提出了一種核心概念識別的半監(jiān)督方法,他們訓(xùn)練機(jī)器學(xué)習(xí)分類器,分配基于一組人工注釋特征的標(biāo)簽[8].這些功能包括所考慮的短語在文本中的依賴性、結(jié)構(gòu)和功能.Changuel通過從Web文檔語料庫中獲取概念以解決確定有效學(xué)習(xí)路徑的問題.他們采用機(jī)器學(xué)習(xí)方法來預(yù)測基于上下文和本地文本特征的概念類別[9].現(xiàn)有研究的重點(diǎn)是識別文本中的概念及其后來與領(lǐng)域本體鏈接的策略.本文專注于評估概念的核心度,選擇具有最高權(quán)重的概念作為資源的核心概念.

3 基于知識圖譜的核心概念識別

語義是數(shù)據(jù)在某個領(lǐng)域上的解釋和邏輯表示,可通過語義表征和監(jiān)督學(xué)習(xí)方法等來體現(xiàn).從廣義上講,我們的語義資源用加權(quán)有向圖表示,其中節(jié)點(diǎn)表示概念,而直線表示在知識圖譜中的語義關(guān)系.

圖1 核心概念識別過程

圖1 顯示了核心概念識別的完整過程.首先,從學(xué)習(xí)資源文本中提取概念,通過輸入文本再返回一組結(jié)構(gòu)化的URI.其次是基于類別和屬性的擴(kuò)展,主要用于豐富和完善概念表示,使得概念在知識圖譜中能找到語義的關(guān)聯(lián).最后,通過不同的加權(quán)函數(shù)評估每個概念的重要性,將具有最高權(quán)重的功能概念作為核心概念.此外,我們還使用了機(jī)器學(xué)習(xí)方法來發(fā)現(xiàn)主要概念,與傳統(tǒng)的機(jī)器學(xué)習(xí)提取概念不同的是,本文中概念特征主要從語義表征中提取.這樣就提高了知識挖掘的廣度與深度.

4 基于知識圖譜的語義表征方法

通過從學(xué)習(xí)資源文檔中獲取重要的概念,為知識圖譜構(gòu)建奠定了基礎(chǔ).知識圖譜由一組概念或?qū)嶓wC和文字L組成,它們通過一組屬性和謂詞P相互關(guān)聯(lián).在RDF模型中,知識圖譜數(shù)據(jù)被描述為S?C×P×(C∪L).每個s∈S都是由主語、謂語和對象組成的三元組.考慮到上述情況,我們的語義表征遵循定義1的規(guī)范.

定義1:學(xué)習(xí)資源ri的語義表征Gi表示為Gi=(Ni,Ei,w(ri,c),w(ri,e)),其中由函數(shù) w(ri,c)定義結(jié)點(diǎn)權(quán)重:N→R+ 和邊緣函數(shù) w(ri,e):E→R+ 定義關(guān)聯(lián)程度.節(jié)點(diǎn)集 Ni={c1,c2,…,ck}是表示實(shí)體 /概念,屬于知識圖譜(cj∈C).節(jié)點(diǎn)權(quán)重 w(ri,c))表示節(jié)點(diǎn) c 與學(xué)習(xí)資源相關(guān)程度.兩個節(jié)點(diǎn)之間的連接邊緣(ca,cb)表示在知識圖譜中存在至少一個語句s連接這兩個概念.邊緣w(ri,e)的權(quán)重表示兩個概念的關(guān)聯(lián)程度.

如前所述,概念注釋模塊(見圖1)是搜尋文本中提及的概念(即注釋),并將它們與知識圖譜中的概念聯(lián)系起來.

此外,我們不會對所選的注釋進(jìn)行其他驗(yàn)證,因?yàn)闊o法保證自動獲得的注釋的正確性,這里需要進(jìn)行手動校正.然而,在現(xiàn)實(shí)應(yīng)用中,手動校正過程是不現(xiàn)實(shí)的.一般來說,主要存在以下問題:(1)不完整的注釋:并非所有內(nèi)容中存在的概念都被發(fā)現(xiàn).例如,無法找到合適的概念時(shí),可能會導(dǎo)致不完整實(shí)體/概念得到認(rèn)證;(2)不正確的注釋:概念被錯誤地聯(lián)系起來.例如,“云”這個詞通常用來表示一種基于互聯(lián)網(wǎng)的計(jì)算,可能與氣象學(xué)上的“云”概念錯誤地聯(lián)系在一起.為了解決上面的問題,我們加入了擴(kuò)展模塊和加權(quán)模塊以降低對概念抽取的影響.

4.1 擴(kuò)展模塊

擴(kuò)展模塊用于豐富未在文本中明確提及或者未被注釋服務(wù)識別的概念.我們將注釋集(即文本中的概念)擴(kuò)展為新的概念集,主要使用以下兩種不同的方法:

1.基于類別的擴(kuò)展(Category-based Expansion,CBE):此類擴(kuò)展針對語義表征內(nèi)的每個注釋類別(或知識圖譜中關(guān)于概念的其他分層信息).

2.基于屬性的擴(kuò)展(Property-based Expansion,PBE):此類擴(kuò)展針對語義表征內(nèi)的每個注釋屬性,通過遍歷某些屬性找到的概念來豐富知識圖譜.

例如,在計(jì)算機(jī)程序設(shè)計(jì)領(lǐng)域關(guān)于類的定義為:在面向?qū)ο蟮木幊讨?,類是一個可擴(kuò)展的程序代碼模塊,用于創(chuàng)建對象,提供狀態(tài)(成員變量)的初始值和行為的實(shí)現(xiàn)(成員函數(shù)或方法).在許多語言中,類名用作類的名稱(模塊本身)、類的默認(rèn)構(gòu)造函數(shù)的名稱等.這些截然不同的概念很容易混淆.在概念注釋步驟之后,檢索以下幾個概念:“構(gòu)造函數(shù)(面向?qū)ο缶幊蹋薄俺蓡T變量”“方法(計(jì)算機(jī)編程)”“對象(計(jì)算機(jī)科學(xué))”,即使文本是知識圖譜概念“類(計(jì)算機(jī)編程)”的定義,它也不會被使用的挖掘注釋等工具識別.這些概念是通過基于屬性的擴(kuò)展添加到語義表征中的,因?yàn)樗B接到注釋:“成員變量”“子程序”“對象(計(jì)算機(jī)科學(xué))”和“方法(計(jì)算機(jī)編程)”.以相同的方式,諸如“對象生存期”,“變量(計(jì)算機(jī)科學(xué))”的概念和類別被添加到語義表征中.

如圖2所示,使用在擴(kuò)展過程之后得到的概念集合作為節(jié)點(diǎn)來構(gòu)建最終圖形表征Gi.對于邊緣構(gòu)造,返回知識圖譜中每對節(jié)點(diǎn)之間的屬性路徑,并通過SPARQL(用于查詢RDF數(shù)據(jù))查詢進(jìn)行分析.如果找到兩個概念之間的屬性路徑,則可以根據(jù)知識圖譜中的連接方向創(chuàng)建Gi中的有向邊,探索不同的屬性路徑長度.本文中我們將搜索限制為長度小于或等于2的屬性路徑.

在圖2中,一級節(jié)點(diǎn)是注釋,如Layer,Precipitation,Medium等,二級節(jié)點(diǎn)是通過擴(kuò)展模塊合并的概念.通過w(ri,e)邊緣的厚度表示兩者之間的連接強(qiáng)度,如string.節(jié)點(diǎn)的大小與節(jié)點(diǎn)權(quán)重w(ri,c)成正例,并且在語義表征中起著重要的作用.

4.2 加權(quán)模塊

該模塊是學(xué)習(xí)資源核心概念識別的關(guān)鍵.具有最高w(ri,c)權(quán)重的概念被認(rèn)為是核心概念.相比之下,具有最低權(quán)重的概念可以被視為表征中的噪聲.與學(xué)習(xí)資源主題無關(guān)的概念往往在文檔中不常見或在表征中顯示為弱連接(即與其它概念很少或沒有聯(lián)系).這種無關(guān)的概念具有低w(ri,c),因此不會被視為核心概念,主要采用以下策略來解決:

1.概念的頻率.最基本的加權(quán)策略是分析表征中概念的頻率:

圖2 語義表征實(shí)例

其中fc,Ri表示c出現(xiàn)在學(xué)習(xí)資源內(nèi)容中的次數(shù)加上概念在擴(kuò)展過程中出現(xiàn)的次數(shù).使用這種策略的好處在于它強(qiáng)化了經(jīng)常出現(xiàn)的一般概念.以程序設(shè)計(jì)課程為例,通常會在第一課中解釋最基本的概念,如“變量”和“數(shù)據(jù)類型”,如果學(xué)習(xí)資源中多次提到“變量”的概念,也不一定表明它就是主要概念.為了解決以上問題,我們提出了一種加權(quán)策略,這種策略主要參照了基于單詞的向量空間模型[10]中眾所周知的TF-IDF(詞頻-逆向文件頻率)加權(quán)方案.因此,所提出的策略Wcf-idf是選取出現(xiàn)在多個表征中的概念.

其中M是學(xué)習(xí)資源的總數(shù),mc是在其表征中具有概念c的學(xué)習(xí)資源的數(shù)量.

2.擴(kuò)展概念的折算.為了防止知識圖譜的層級結(jié)構(gòu)中的頻繁屬性或一般類別轉(zhuǎn)移到表征中,有必要對通過擴(kuò)展模塊合并的新概念應(yīng)用折算,對于基于類別的擴(kuò)展概念應(yīng)用以下折算方法:

其中SP是屬于該類別的概念集,SC是分類層次結(jié)構(gòu)中的子類別集.這種折算策略是對過于寬泛和通用的類別進(jìn)行折算.同樣,對于擴(kuò)展概念,將應(yīng)用以下折算方法:

其中P是從知識圖譜中得到的概念c∈C的屬性出現(xiàn)的次數(shù).

3.中心度量.這是一種利用圖的結(jié)構(gòu)的加權(quán)策略.通過不同的中心度量對每個節(jié)點(diǎn)的重要性進(jìn)行排序,可采用以下中心措施:

(1)度中心性(Degree centrality,DE):節(jié)點(diǎn) c的度中心性是連接到它的節(jié)點(diǎn)數(shù)與總數(shù)之間的關(guān)系節(jié)點(diǎn)數(shù)量.

(2)中介中心性(Betweenness centrality,BET):中介中心性是分?jǐn)?shù)通過的所有最短路徑的節(jié)點(diǎn).

(3)網(wǎng)頁排名(PageRank,PR):網(wǎng)頁排名是一種眾所周知的算法,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計(jì)算的技術(shù).本質(zhì)上,網(wǎng)頁排名是一種在有向圖上對重要節(jié)點(diǎn)進(jìn)行排名的度量.

5 基于知識圖譜的監(jiān)督方法

給定一對概念學(xué)習(xí)資源(c,ri),我們預(yù)測c是否是ri的核心概念,這是一個二元分類問題.對于每個概念學(xué)習(xí)資源對(c,ri),我們計(jì)算兩種類型的特征:基于文本和基于圖的特征.

5.1 基于文本的特征

第一類特征被設(shè)計(jì)為對從學(xué)習(xí)資源中提取的文本內(nèi)容以及知識圖譜中的概念進(jìn)行描述.

(1)標(biāo)題.是否c出現(xiàn)在學(xué)習(xí)資源標(biāo)題中(如果有).

(2)前3個句子.c是否為學(xué)習(xí)資源中的前3個句子.

(3)Wcf(ri,c)和Wcf-idf(ri,c).從權(quán)重模塊中獲得權(quán)重.

(4)TextRank.TextRank算法是一種用于文本的排序算法.

5.2 基于圖形的特征

這些特征直接從語義表征中提取.

(1)PR(c).語義表示中概念的網(wǎng)頁排名值.

(2)BET(c).概念在語義表達(dá)中的中介中心性.

(3)In(c)中.c的傳入鏈接數(shù).

(4)Out(c).c的外出鏈接數(shù).

(5)Hub屬性和Authority屬性.將HITS算法應(yīng)用于語義表征之后獲得的值.HITS算法的全稱是Hyperlink-Induced Topic Search.在HITS算法中,每個頁面被賦予兩個屬性:Hub屬性和Authority屬性.同時(shí),網(wǎng)頁被分為兩種:Hub頁面和Authority頁面.Hub頁面指那些包含了很多指向Authority頁面鏈接的網(wǎng)頁,比如國內(nèi)的一些門戶網(wǎng)站;Authority頁面則指那些包含有實(shí)質(zhì)性內(nèi)容的網(wǎng)頁.HITS算法的目的是:當(dāng)用戶查詢時(shí),返回給用戶高質(zhì)量的Authority頁面.

6 結(jié)論

本文提出了基于知識圖譜的學(xué)習(xí)資源核心概念提取策略.語義表征實(shí)質(zhì)上是有向加權(quán)圖,其節(jié)點(diǎn)表示知識圖譜概念,直線表示它們之間存在語義關(guān)系.圖形構(gòu)建過程由擴(kuò)展和加權(quán)模塊負(fù)責(zé)結(jié)合領(lǐng)域概念和分配節(jié)點(diǎn)的重要性評分.我們探索了兩種提取核心概念的方法:第一種方法是通過不同的加權(quán)策略從表征中提取更大權(quán)重的概念;第二種方法是選擇基于集合的監(jiān)督方法主要從表征中提取特征.通過加權(quán)策略并考慮前3個句子,在提取過程中達(dá)到85%的理想精度.盡管監(jiān)督方法具有優(yōu)越性,但加權(quán)策略沒有經(jīng)過訓(xùn)練,還存在一定的偏差,這也是下一步要研究的內(nèi)容.我們希望通過這種核心概念識別策略,為其他領(lǐng)域研究拋磚引玉,由此創(chuàng)建一個更全面的學(xué)習(xí)資源數(shù)據(jù)集.

猜你喜歡
圖譜語義概念
Birdie Cup Coffee豐盛里概念店
繪一張成長圖譜
語言與語義
幾樣概念店
學(xué)習(xí)集合概念『四步走』
聚焦集合的概念及應(yīng)用
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動對接你思維的知識圖譜
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
比如县| 桦川县| 兴山县| 靖州| 江达县| 延川县| 道孚县| 攀枝花市| 永顺县| 和龙市| 尼玛县| 忻州市| 平潭县| 客服| 永春县| 萨嘎县| 瑞昌市| 民丰县| 喀喇沁旗| 兴山县| 潮安县| 五华县| 乌兰县| 友谊县| 平泉县| 栾城县| 环江| 合阳县| 剑阁县| 安乡县| 固镇县| 迁安市| 栾川县| 大足县| 侯马市| 东安县| 海伦市| 民权县| 宜宾市| 荆州市| 腾冲县|