劉藝等
摘 要:針對(duì)基于云計(jì)算平臺(tái)的移動(dòng)教學(xué)系統(tǒng)中存在的語(yǔ)義信息表達(dá)不足導(dǎo)致檢索結(jié)果不理想的問(wèn)題,提出一種基于本體的移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索模型,該模型包括檢索信息分詞、語(yǔ)義擴(kuò)展和語(yǔ)義檢索3大模塊?;谠撃P筒捎闷卟椒?,利用Protégé本體構(gòu)建工具構(gòu)建移動(dòng)學(xué)習(xí)資源本體;利用集成開(kāi)發(fā)工具Eclipse和Xcode開(kāi)發(fā)基于本體的移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索系統(tǒng),該系統(tǒng)包括基于iPad的客戶(hù)端程序和后臺(tái)服務(wù);通過(guò)平臺(tái)使用驗(yàn)證模型的可行性。
關(guān)鍵詞:移動(dòng)學(xué)習(xí)資源;云計(jì)算;語(yǔ)義檢索;信息檢索;本體;本體構(gòu)建
DOIDOI:10.11907/rjdk.151511
中圖分類(lèi)號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2015)009002503
作者簡(jiǎn)介作者簡(jiǎn)介:劉藝(1982-),男,山東淄博人,河南省農(nóng)業(yè)科學(xué)院圖書(shū)館助理研究員,研究方向?yàn)橛?jì)算機(jī)應(yīng)用。
0 引言
近年來(lái),隨著無(wú)線(xiàn)通信技術(shù)、移動(dòng)計(jì)算技術(shù)和移動(dòng)終端的發(fā)展,一種新學(xué)習(xí)方式——移動(dòng)學(xué)習(xí)應(yīng)運(yùn)而生。移動(dòng)學(xué)習(xí)是移動(dòng)技術(shù)與數(shù)字化技術(shù)(eLearning)相結(jié)合而產(chǎn)生的一種新興數(shù)字化學(xué)習(xí)形式[ 1 ]。移動(dòng)學(xué)習(xí)能滿(mǎn)足人們隨時(shí)隨地自主學(xué)習(xí)的需求,必將成為未來(lái)學(xué)習(xí)的新模式,移動(dòng)學(xué)習(xí)資源也將成為決定移動(dòng)學(xué)習(xí)能否順利開(kāi)展的關(guān)鍵因素[ 2 ]。隨著互聯(lián)網(wǎng)的快速發(fā)展,移動(dòng)學(xué)習(xí)資源呈現(xiàn)迅猛增長(zhǎng)趨勢(shì),移動(dòng)學(xué)習(xí)資源數(shù)量不僅多,而且結(jié)構(gòu)復(fù)雜,導(dǎo)致學(xué)習(xí)資源檢索困難或檢索結(jié)果冗余信息較多。因此,高效合理組織這些資源是提高移動(dòng)學(xué)習(xí)資源檢索效率的有效途徑。
信息檢索方式有傳統(tǒng)信息檢索、數(shù)據(jù)庫(kù)數(shù)據(jù)檢索和語(yǔ)義Web數(shù)據(jù)檢索。其中,傳統(tǒng)數(shù)據(jù)檢索主要是對(duì)文本和Web中的信息進(jìn)行檢索,但檢索條件一般存在語(yǔ)義模糊性,導(dǎo)致檢索結(jié)果不準(zhǔn)確;數(shù)據(jù)庫(kù)數(shù)據(jù)檢索一般具有明確語(yǔ)義,要求精確獲得滿(mǎn)足條件的數(shù)據(jù),但數(shù)據(jù)庫(kù)查詢(xún)是結(jié)構(gòu)化查詢(xún),對(duì)于網(wǎng)絡(luò)中諸多非結(jié)構(gòu)化數(shù)據(jù),其使用范圍并不廣泛;語(yǔ)義Web數(shù)據(jù)檢索是基于知識(shí)的、語(yǔ)義的匹配,在提高檢索查準(zhǔn)率和查全率方面都有很好的表現(xiàn),通過(guò)對(duì)相關(guān)文檔的解析和推理在語(yǔ)義層面實(shí)現(xiàn)信息檢索,實(shí)現(xiàn)高效率智能化檢索[ 3 ]。語(yǔ)義檢索與傳統(tǒng)檢索的主要區(qū)別體現(xiàn)在前者是對(duì)查詢(xún)條件進(jìn)行語(yǔ)義層面處理,表現(xiàn)為語(yǔ)義擴(kuò)展,提高查準(zhǔn)率和查全率[ 4 ]。目前,基于本體的語(yǔ)義檢索主要有基于現(xiàn)有本體的語(yǔ)義檢索和基于領(lǐng)域本體的語(yǔ)義檢索兩種方式[ 5 ]。
本文以改善移動(dòng)教學(xué)系統(tǒng)中移動(dòng)學(xué)習(xí)資源檢索有效性為目標(biāo),采用基于領(lǐng)域本體語(yǔ)義檢索的數(shù)據(jù)檢索方式,利用語(yǔ)義網(wǎng)中的關(guān)鍵技術(shù),設(shè)計(jì)基于本體的移動(dòng)學(xué)習(xí)資源語(yǔ)義模型,并開(kāi)發(fā)基于本體的移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索系統(tǒng)。
1 模型框架
基于本體的移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索模型如圖1所示,它由3大模塊組成:分詞、語(yǔ)義擴(kuò)展、語(yǔ)義檢索。
圖1 基于本體的移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索模型
1.1 分詞
用戶(hù)輸入查詢(xún)內(nèi)容通常有以下3種情況:?jiǎn)蝹€(gè)單詞、多個(gè)單詞和句子。因此, 基于本體的移動(dòng)學(xué)習(xí)資源模型首先要對(duì)用戶(hù)輸入的查詢(xún)信息進(jìn)行分詞處理。本文采用基于本體的正向最大匹配分詞算法對(duì)用戶(hù)輸入查詢(xún)信息進(jìn)行分詞,該算法核心思想為:首先,從左向右截取用戶(hù)查詢(xún)信息作為待匹配漢字串;然后,將該漢字與本體庫(kù)中的詞條進(jìn)行匹配;最后根據(jù)匹配結(jié)果不同進(jìn)行相應(yīng)處理。算法流程如圖2所示。
圖2 基于本體的正向最大匹配分詞算法流程
利用偽代碼對(duì)基于本體的正向匹配算法的具體描述如下:
Initialization(查詢(xún)信息) //處理用戶(hù)信息,最后只包含漢語(yǔ)字符
S=Left(漢語(yǔ)字符,M) //從左向右選取M個(gè)漢字,作為匹配漢字串S,M
是由本體庫(kù)中含有待匹配的漢字串首字符的最長(zhǎng)詞條
的字符數(shù)確定的
If S=本體中的詞條
then Print “S” //待匹配漢字串S與領(lǐng)域本體庫(kù)中的詞條進(jìn)行匹配,如
匹配成功,則把漢字串S作為一個(gè)詞切分出來(lái),返回結(jié)果
Else S=S-1 //去掉待匹配漢字S串末端的最后一個(gè)漢字
End If
1.2 語(yǔ)義擴(kuò)展
語(yǔ)義擴(kuò)展主要是對(duì)查詢(xún)的擴(kuò)展,將與原查詢(xún)相關(guān)的語(yǔ)詞添加到原查詢(xún),得到比原查詢(xún)更長(zhǎng)的新查詢(xún),以提高信息檢索查全率和查準(zhǔn)率,彌補(bǔ)用戶(hù)查詢(xún)信息不足的缺陷。本文采用一種基本的語(yǔ)義查詢(xún)擴(kuò)展方法[ 6 ]來(lái)實(shí)現(xiàn)基于本體的移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索模型語(yǔ)義擴(kuò)展。該算法具體步驟如下:
①如果有需要擴(kuò)展的查詢(xún)?cè)~Word,則執(zhí)行步驟②,否則執(zhí)行④;②給初始查詢(xún)?cè)O(shè)置權(quán)值;③計(jì)算與查詢(xún)?cè)~Word相關(guān)的所有實(shí)體概念的語(yǔ)義權(quán)值,設(shè)置閾值λ限制Word的擴(kuò)展范圍,執(zhí)行步驟①;④對(duì)λ范圍內(nèi)的語(yǔ)義信息一并提取作為擴(kuò)展向量?jī)?nèi)容。其中設(shè)置閾值λ是為了防止語(yǔ)義漂移。
1.3 語(yǔ)義檢索
語(yǔ)義檢索的核心思想:首先,對(duì)用戶(hù)檢索的信息進(jìn)行語(yǔ)義擴(kuò)展后得到新檢索詞集合w′;其次,將w′送入檢索組中進(jìn)行數(shù)據(jù)語(yǔ)義檢索;最后,對(duì)檢索到的結(jié)果集進(jìn)行排序,并將排序結(jié)果返回給用戶(hù)。本文采用基于標(biāo)簽的LSI算法對(duì)結(jié)果集進(jìn)行排序,具體算法過(guò)程如下所示:
(1) 初始化數(shù)組n=max;weight[ n ]=0;
(2) 利用like簡(jiǎn)單匹配算法求檢索結(jié)果與每個(gè)用戶(hù)關(guān)鍵字的相似度,并更新weight[ i ];
(3) 根據(jù)公式:
simtotal=Lw(k)n[]i=1m[]j=1simm(Wi,Kj)
求出每一個(gè)移動(dòng)學(xué)習(xí)資源與W的總相似度,并記錄;
(4)對(duì)結(jié)果按相似度排序,并返回給用戶(hù)。其中simtotal為語(yǔ)義總相似度,Lw(k)為關(guān)鍵詞K的頻度,simm(Wi,Kj)為Wi和Kj的語(yǔ)義相似度。
2 本體庫(kù)構(gòu)建
2.1 相關(guān)概念
本體最初是哲學(xué)上的概念,哲學(xué)上定義的本體是“對(duì)世界上客觀存在物的系統(tǒng)的描述”,是對(duì)“存在”的系統(tǒng)化的解釋或說(shuō)明。近年來(lái),隨著信息技術(shù)的不斷發(fā)展,本體已成為人工智能、知識(shí)工程、信息檢索與獲取、知識(shí)表示等領(lǐng)域的熱門(mén)研究課題。在人工智能領(lǐng)域,定義本體為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成這些詞匯外延的規(guī)則的定義”。在信息系統(tǒng)和知識(shí)工程領(lǐng)域中,Gruber將本體定義為“是概念模型的明確的規(guī)則說(shuō)明”;本體也被定義為“是一個(gè)為描述某個(gè)領(lǐng)域而按層次關(guān)系組織起來(lái)的一系列術(shù)語(yǔ),這些術(shù)語(yǔ)可以作為一個(gè)知識(shí)庫(kù)的骨架”。本體是用于描述或表達(dá)某一領(lǐng)域知識(shí)的一組概念或術(shù)語(yǔ),其可用來(lái)組織知識(shí)庫(kù)較高層次的知識(shí)抽象,也可用來(lái)描述特定領(lǐng)域的知識(shí)[ 7 ]。目前,計(jì)算機(jī)領(lǐng)域認(rèn)為本體是共享概念模型的明確形式化規(guī)范說(shuō)明[ 8 ]。
元數(shù)據(jù)對(duì)知識(shí)的組織管理與信息檢索具有重要意義,是描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù)[ 9 ]。元數(shù)據(jù)和本體都是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)發(fā)展而出現(xiàn)的新方法,對(duì)信息檢索和知識(shí)組織與管都具有重要意義。
七步法[ 10 ]是斯坦福大學(xué)醫(yī)學(xué)院開(kāi)發(fā),主要用于領(lǐng)域本體構(gòu)建。該方法的具體實(shí)現(xiàn)過(guò)程:第一步,確定知識(shí)本體的專(zhuān)業(yè)領(lǐng)域和范疇;第二步,考查復(fù)用現(xiàn)有知識(shí)本體的可能性;第三步,列出知識(shí)本體中的重要術(shù)語(yǔ);第四步,定義類(lèi)和類(lèi)等級(jí)體系;第五步,定義類(lèi)屬性;第六步,定義屬性約束;第七步,創(chuàng)建實(shí)例。
教育資源建設(shè)規(guī)范(CELTS)是為資源開(kāi)發(fā)者提供一致的標(biāo)準(zhǔn),為實(shí)現(xiàn)資源廣泛共享和保證學(xué)習(xí)者或教育者高效利用資源、統(tǒng)一開(kāi)發(fā)者行為習(xí)慣而提供的支持?!督逃Y源建設(shè)技術(shù)規(guī)范》[ 11 ]的基本結(jié)構(gòu)包括網(wǎng)絡(luò)課程、常見(jiàn)問(wèn)題解答、資源目錄索引、文獻(xiàn)材料、案例、課件、試卷、試題、媒體素材等,并且包含LOM的必需元數(shù)據(jù)。
2.2 移動(dòng)學(xué)習(xí)資源本體庫(kù)構(gòu)建方法
本文采用本體構(gòu)建方法中的七步法并結(jié)合移動(dòng)學(xué)習(xí)資源元數(shù)據(jù),按照CELTS規(guī)范開(kāi)發(fā)移動(dòng)學(xué)習(xí)資源本體庫(kù)。參照CELTS標(biāo)準(zhǔn),采用本體構(gòu)建方法中七步法開(kāi)發(fā)元數(shù)據(jù)與移動(dòng)學(xué)習(xí)資源本體庫(kù)流程如圖3所示。
圖3 參照CELTS及七步法進(jìn)行本體構(gòu)建流程
2.3 移動(dòng)學(xué)習(xí)資源本體構(gòu)建
根據(jù)上節(jié)構(gòu)建移動(dòng)學(xué)習(xí)資源本體步驟:第一步,選取CELTSC規(guī)范的學(xué)習(xí)對(duì)象元數(shù)據(jù)作為構(gòu)建本體的元數(shù)據(jù)方案;第二步,采用基于關(guān)聯(lián)知識(shí)點(diǎn)屬性來(lái)和知識(shí)點(diǎn)本體進(jìn)行映射,以實(shí)現(xiàn)基于本體的移動(dòng)學(xué)習(xí)資源管理和檢索;第三步,從元數(shù)據(jù)中提取術(shù)語(yǔ)列表:軟件類(lèi)、視頻類(lèi)、文本類(lèi)、課件類(lèi)、媒體素材類(lèi)、網(wǎng)絡(luò)課程類(lèi)、標(biāo)題、創(chuàng)建者、語(yǔ)種、標(biāo)識(shí)符、貢獻(xiàn)者、姓名、聯(lián)系方式、關(guān)聯(lián)關(guān)系、資源位置等;第四步,定義類(lèi)和類(lèi)的層次;在第五步和第六步中,根據(jù)學(xué)習(xí)對(duì)象元數(shù)據(jù)中的數(shù)據(jù)元素對(duì)類(lèi)的屬性和屬性約束同時(shí)進(jìn)行定義;第七步,生成實(shí)例。
3 系統(tǒng)實(shí)現(xiàn)
系統(tǒng)服務(wù)器端使用Eclipse作為開(kāi)發(fā)平臺(tái),構(gòu)建基于C/S架構(gòu)和MVC框架移動(dòng)學(xué)習(xí)管理平臺(tái),本系統(tǒng)平臺(tái)目前支持的移動(dòng)終端有iPad、iPhone。系統(tǒng)框架結(jié)構(gòu)如圖4所示?;诒倔w的移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索模型在該系統(tǒng)中作為服務(wù)器端移動(dòng)學(xué)習(xí)資源管理的一部分,也是整個(gè)系統(tǒng)的核心部分,直接影響學(xué)習(xí)者使用該系統(tǒng)的效率及學(xué)習(xí)興趣。在實(shí)際運(yùn)用中,該系統(tǒng)為學(xué)習(xí)者帶來(lái)了便利。
4 結(jié)語(yǔ)
本文通過(guò)分析移動(dòng)教學(xué)平臺(tái)系統(tǒng)中存在的移動(dòng)學(xué)習(xí)資源信息檢索效率低問(wèn)題,結(jié)合現(xiàn)有本體相關(guān)技術(shù)和基于本體語(yǔ)義檢索方面的研究成果,提出了一種基于本體的移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索模型,并將該模型運(yùn)用到移動(dòng)教學(xué)平臺(tái)系統(tǒng)中。通過(guò)大量學(xué)習(xí)者使用該平臺(tái),收集和總結(jié)學(xué)習(xí)者使用后的感想,結(jié)果表明該模型運(yùn)用效果較為理想。該模型是解決移動(dòng)教學(xué)系統(tǒng)中移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索的一種有效方式,能幫助學(xué)習(xí)者準(zhǔn)確搜索到符合需求的學(xué)習(xí)資源。
圖4 基于本體的移動(dòng)學(xué)習(xí)資源語(yǔ)義檢索原型體系結(jié)構(gòu)
參考文獻(xiàn)參考文獻(xiàn):
[ 1 ] 郭紹青,黃建軍,袁慶飛.國(guó)外移動(dòng)學(xué)習(xí)應(yīng)用發(fā)展綜述[ J ].電化教育研究,2011(5):105109.
[ 2 ] 張?zhí)?,李子云,汪睛?基于云計(jì)算的移動(dòng)學(xué)習(xí)資源卡法初探[ J ].現(xiàn)代教育技術(shù),2012(11):5961.
[ 3 ] JIAO YUYING,ZHANG LU.Model structure of ontologybased semantic retrieval[ J ].Information Research,2006(10).5457.
[ 4 ] 焦玉英,溫有奎,陸偉.信息檢索新論[ M ].武漢:武漢大學(xué)出版社,2008.
[ 5 ] 張德政,莊洪波.基于領(lǐng)域本體網(wǎng)絡(luò)模型的知識(shí)獲取技術(shù)[ J ].計(jì)算機(jī)工程,2007,33(7):190191.
[ 6 ] 付苓.基于本體的語(yǔ)義檢索研究[ D ].曲阜:曲阜師范大學(xué),2010.
[ 7 ] 岳靜,張自力.本體表示語(yǔ)言研究綜述[ J ].計(jì)算機(jī)科學(xué),2006,33(2):158162.
[ 8 ] 史一民,李冠宇,劉寧.語(yǔ)義網(wǎng)服務(wù)中的本體綜述[ J ].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(23):59765982.
[ 9 ] Baidu Metadata[ EB/OL ].http://baike.baidu.com/view/107838.htm,20100310.
[ 10 ] 尚新麗.國(guó)外本體構(gòu)建方法比較分析[ J ].圖書(shū)情報(bào)工作,2012(4):116119.
[ 11 ] 張功杰.基于本體的領(lǐng)域資源語(yǔ)義檢索研究[ D ].廣州:暨南大學(xué),2007.
責(zé)任編輯(責(zé)任編輯:孫 娟)