摘 ?要: 教學(xué)資源缺少開(kāi)發(fā)規(guī)范和語(yǔ)義信息,導(dǎo)致其可共享性差、檢索查全率或查準(zhǔn)率不高。探討教學(xué)資源語(yǔ)義系統(tǒng)的設(shè)計(jì),基于本體實(shí)現(xiàn)教學(xué)資源的語(yǔ)義信息,并通過(guò)Jena實(shí)現(xiàn)語(yǔ)義擴(kuò)展,結(jié)合語(yǔ)義相關(guān)度和相似度,有效提高教學(xué)資源檢索的有效性和精確度。
關(guān)鍵詞: 本體;Jena;教學(xué)資源;語(yǔ)義
中圖分類(lèi)號(hào): G633 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.040
本文著錄格式:黃以寶. 基于本體和Jena模塊的教學(xué)資源語(yǔ)義系統(tǒng)設(shè)計(jì)研究[J]. 軟件,2019,40(4):186189
【Abstract】: Lacking development norms and semantic information, teaching resources may have disadvantages of poor sharing and low retrieval accuracy. The paper discusses design of semantic system of teaching resources, improve effectiveness and accuracy of teaching resources retrieval effectively based on noumenon semantic information of teaching resources, and Jena semantic expansion and semantic relevance and similarity.
【Key words】: Noumenon; Jena; Teaching resources; Semantics
0 ?引言
互聯(lián)網(wǎng)技術(shù)的發(fā)展與普及,促使網(wǎng)絡(luò)學(xué)習(xí)成為了一種越來(lái)越多人選擇的新型的學(xué)習(xí)方式,因此網(wǎng)絡(luò)教學(xué)資源展開(kāi)了大規(guī)模的建設(shè)。然而,正是教學(xué)資源量的日益龐大,暴露出了一些亟待解決的問(wèn)題,主要是:基于關(guān)鍵字匹配的傳統(tǒng)檢索技術(shù)導(dǎo)致查全率和查準(zhǔn)率不高、沒(méi)有統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)描述教學(xué)資源導(dǎo)致教學(xué)資源的可共享性差。近年,研究將在語(yǔ)義描述方面有較強(qiáng)能力的本體引入到了教學(xué)資源建設(shè)中,得以提高了教學(xué)資源的統(tǒng)一描述能力和語(yǔ)義檢索能力。本體是實(shí)現(xiàn)語(yǔ)義Web的重要基礎(chǔ)和技術(shù),廣泛應(yīng)用于知識(shí)表示、知識(shí)共享與重用、邏輯推理等領(lǐng)域。本文提出了一個(gè)基于本體和Jena模塊技術(shù)的教學(xué)資源語(yǔ)義系統(tǒng)模型,它結(jié)合課程知識(shí)點(diǎn)本體和教學(xué)資源元數(shù)據(jù)標(biāo)準(zhǔn)以構(gòu)建教學(xué)資源本體作為資源語(yǔ)義描述基礎(chǔ),并通過(guò)Jena模塊技術(shù)進(jìn)行知識(shí)點(diǎn)推理、語(yǔ)義擴(kuò)展等,為教學(xué)資源的語(yǔ)義檢索提供了語(yǔ)義上的支持,還通過(guò)篩選排序返回更合理更有效檢索的教學(xué)資源集[1]。
1 ?系統(tǒng)設(shè)計(jì)目標(biāo)
根據(jù)教學(xué)資源語(yǔ)義系統(tǒng)目前面臨的問(wèn)題,結(jié)合本體技術(shù)和語(yǔ)義檢索技術(shù),在進(jìn)行本系統(tǒng)問(wèn)題分析的基礎(chǔ)上,基于本體和Jena模塊技術(shù)的教學(xué)資源語(yǔ)義系統(tǒng)需要實(shí)現(xiàn)的設(shè)計(jì)目標(biāo)主要包括如下幾個(gè)方面:
(1)語(yǔ)義擴(kuò)展,提高隱性知識(shí)的發(fā)現(xiàn)能力。傳統(tǒng)檢索只是以關(guān)鍵詞機(jī)械的進(jìn)行字符串式的擴(kuò)展,無(wú)法表達(dá)關(guān)鍵詞的語(yǔ)義信息,所以語(yǔ)義的擴(kuò)展能力有限。由于本體能全面的、精確地描述和定義概念及概念之間的關(guān)系,具有較強(qiáng)的語(yǔ)義表達(dá)能力,能較好的理解用戶(hù)的語(yǔ)義意圖。因此,充分利用本體處理相關(guān)技術(shù)對(duì)關(guān)鍵詞進(jìn)行語(yǔ)義擴(kuò)展[2]。
(2)語(yǔ)義推理,增強(qiáng)系統(tǒng)的智能特性。Jena自身包含了一系列針對(duì)本體的特點(diǎn)而定義的默認(rèn)通用推理規(guī)則,用于檢查概念的可滿(mǎn)足性,不同類(lèi)之間的關(guān)系,以及屬性的傳遞、互逆、不相交等[3],能運(yùn)用本體查詢(xún)語(yǔ)言進(jìn)行解析本體庫(kù)中的知識(shí)概念,并且根據(jù)推理規(guī)則推理出新的概念。
(3)元數(shù)據(jù)標(biāo)注,解決異構(gòu)資源共享問(wèn)題。元數(shù)據(jù)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,是描述數(shù)據(jù)屬性的信息,用來(lái)支持如指示存儲(chǔ)位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能[4]。
(4)合理有效的語(yǔ)義檢索,提高檢索的查全率和查準(zhǔn)率。
(5)用戶(hù)查詢(xún)度排序,使檢索結(jié)果符合用戶(hù) ?要求。
(6)常查資源索引庫(kù),提高檢索的效率。
2 ?系統(tǒng)設(shè)計(jì)思路
2.1 ?教學(xué)資源語(yǔ)義化
結(jié)合教學(xué)資源元數(shù)據(jù)的統(tǒng)一規(guī)范標(biāo)準(zhǔn)和本體的語(yǔ)義能力,對(duì)教學(xué)資源實(shí)現(xiàn)語(yǔ)義標(biāo)注及格式化存儲(chǔ),形式化了教學(xué)資源的語(yǔ)義信息,達(dá)成計(jì)算機(jī)理解的目標(biāo),以實(shí)現(xiàn)教學(xué)資源的共享和復(fù)用。
2.2 ?檢索語(yǔ)義化
在本體技術(shù)的基礎(chǔ)上,結(jié)合邏輯推理能力,對(duì)用戶(hù)的檢索請(qǐng)求加以擴(kuò)展,既使用戶(hù)能清晰的表達(dá)檢索需求,又使機(jī)器更好的理解用戶(hù)檢索需求。
2.3 ?檢索流程
①在結(jié)合了教學(xué)資源元數(shù)據(jù)標(biāo)準(zhǔn)和課程知識(shí)點(diǎn)本體的教學(xué)資源本體支持下,對(duì)用戶(hù)檢索要求進(jìn)行語(yǔ)義分析的分詞處理和語(yǔ)義擴(kuò)展的規(guī)則推理得到查詢(xún)概念集,使計(jì)算機(jī)明確用戶(hù)檢索內(nèi)容;②根據(jù)查詢(xún)概念集進(jìn)行檢索;③根據(jù)相關(guān)度排序檢索結(jié)構(gòu),返回有效的結(jié)果。
3 ?系統(tǒng)模型設(shè)計(jì)
根據(jù)結(jié)合本體技術(shù)和語(yǔ)義檢索技術(shù)而提出的系統(tǒng)設(shè)計(jì)目標(biāo)和系統(tǒng)設(shè)計(jì)思路,設(shè)計(jì)基于本體和Jena模塊技術(shù)的教學(xué)資源語(yǔ)義系統(tǒng)模型共分為三層:查詢(xún)應(yīng)用層、檢索處理層、資源本體層,而主要的功能模塊包括有:語(yǔ)義標(biāo)注模塊、語(yǔ)義擴(kuò)展模塊、檢索操作模塊、排序優(yōu)化模塊、常查資源索引庫(kù)模塊,系統(tǒng)模型設(shè)計(jì)如圖1所示。
基于本系統(tǒng)模型,語(yǔ)義檢索的流程是:用戶(hù)輸入查詢(xún)請(qǐng)求的查詢(xún)問(wèn)題,系統(tǒng)判斷查詢(xún)問(wèn)題是否是常查問(wèn)題,如果是直接從常查資源索引庫(kù)中返回檢索結(jié)果;如果不是則需要進(jìn)行查詢(xún)處理。查詢(xún)處理,先是根據(jù)核心概念詞庫(kù)利用IKAnalyzer對(duì)查詢(xún)問(wèn)題進(jìn)行分詞操作以實(shí)現(xiàn)概念的抽取得到查詢(xún)概念集,然后將查詢(xún)概念集根據(jù)Jena定義的推理規(guī)則進(jìn)行語(yǔ)義擴(kuò)展得到擴(kuò)展查詢(xún)概念集,將擴(kuò)展查詢(xún)概念集中每個(gè)概念利用SPARQL語(yǔ)言進(jìn)行教學(xué)資源查詢(xún),將符合要求的元數(shù)據(jù)文檔集排序優(yōu)化返回給用戶(hù),用戶(hù)根據(jù)元數(shù)據(jù)文檔查看教學(xué)資源信息,并提供教學(xué)資源下載。語(yǔ)義檢索流程如圖2所示。
4 ?系統(tǒng)模塊功能
4.1 ?語(yǔ)義標(biāo)注模塊
語(yǔ)義標(biāo)注模塊的功能,一方面是利用教學(xué)資源元數(shù)據(jù)規(guī)范對(duì)教學(xué)資源進(jìn)行相關(guān)屬性的描述,有利于擴(kuò)展到其他標(biāo)準(zhǔn)的學(xué)習(xí)平臺(tái),促進(jìn)資源的共享和重用;另一方面,在內(nèi)容組合中還存在諸如異構(gòu)資源組合等方面的困難,可借助于本體在語(yǔ)義和知識(shí)層次上描述資源[5],將教學(xué)資源與課程本體知識(shí)點(diǎn)概念關(guān)聯(lián),可有效的利用本體概念推理出隱含的信息資源,提高教學(xué)資源檢索的高效性、準(zhǔn)確性。
語(yǔ)義標(biāo)注的流程:上傳教學(xué)資源歸入教學(xué)資源文檔集,然后解析課程知識(shí)本體供用戶(hù)選擇標(biāo)注知識(shí)點(diǎn),再根據(jù)用戶(hù)上傳教學(xué)資源提交的教學(xué)資源描述信息表單來(lái)進(jìn)行教學(xué)資源的元數(shù)據(jù)標(biāo)注,根據(jù)標(biāo)注的內(nèi)容生成相對(duì)應(yīng)的教學(xué)資源元數(shù)據(jù)文檔,并將相關(guān)元數(shù)據(jù)信息填充到教學(xué)資源本體。由于教學(xué)資源一般是多媒體文檔,目前只能采用人工方式對(duì)教學(xué)資源整體標(biāo)注,當(dāng)教學(xué)資源涉及多個(gè)知識(shí)點(diǎn)時(shí),還不能分割知識(shí)點(diǎn)處理,只能使用最大相關(guān)度的知識(shí)點(diǎn)進(jìn)行語(yǔ)義標(biāo)注。語(yǔ)義標(biāo)注流程如圖3所示。
4.2 ?語(yǔ)義擴(kuò)展模塊
眾所周知,在自然語(yǔ)言中,一個(gè)詞語(yǔ)可能表達(dá)幾種意義,同樣幾個(gè)不同的詞語(yǔ)可能表達(dá)相同的意義[6]。使用自然語(yǔ)言作為關(guān)鍵詞進(jìn)行檢索,常常會(huì)遇到兩個(gè)問(wèn)題:①同義詞問(wèn)題,即一個(gè)意思可以有不同的詞語(yǔ)表達(dá);還有多義詞問(wèn)題,即同一個(gè)詞在不同的語(yǔ)境中有不同的含義。②隱含關(guān)系問(wèn)題,關(guān)鍵詞的查詢(xún)無(wú)法找到存在語(yǔ)義上或邏輯上的隱含關(guān)系。語(yǔ)義擴(kuò)展是解決這些問(wèn)題的一個(gè)有效方法,把原查詢(xún)看作一系列的概念(而不是一系列字符串),從建好的概念語(yǔ)義結(jié)構(gòu)中提取查詢(xún)語(yǔ)義及語(yǔ)義關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)語(yǔ)義概念擴(kuò)展[7]。其中作為語(yǔ)義檢索重要部分的語(yǔ)義擴(kuò)展主要是通過(guò)查詢(xún)擴(kuò)展(Query Expansion)來(lái)實(shí)現(xiàn),查詢(xún)擴(kuò)展是指利用統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)等方法,找出與原查詢(xún)?cè)~的相關(guān)擴(kuò)展詞并加入原查詢(xún)組成新的查詢(xún),使其更清楚地表達(dá)用戶(hù)的查詢(xún)意愿,以改善信息檢索性能[8]。
語(yǔ)義擴(kuò)展模塊的功能,主要是通過(guò)對(duì)用戶(hù)的查詢(xún)問(wèn)題的基礎(chǔ)上,通過(guò)推理機(jī)按照同位和下位等邏輯關(guān)系,對(duì)建立好的領(lǐng)域本體庫(kù)進(jìn)行語(yǔ)義推理,進(jìn)而對(duì)查詢(xún)條件進(jìn)行語(yǔ)義擴(kuò)展[9],以此得到更全面、更準(zhǔn)確的查詢(xún)概念集,實(shí)現(xiàn)查詢(xún)既能檢索到字面之間顯式的語(yǔ)義關(guān)系的資源,又能檢索到隱含的語(yǔ)義關(guān)系的資源。
語(yǔ)義擴(kuò)展的流程:根據(jù)用戶(hù)輸入的查詢(xún)問(wèn)題,利用分詞獲得查詢(xún)概念集,先對(duì)查詢(xún)概念集結(jié)合課程本體中概念間的顯性語(yǔ)義聯(lián)系進(jìn)行直接擴(kuò)展,再結(jié)合Jena推理規(guī)則推理隱性語(yǔ)義聯(lián)系進(jìn)行推理擴(kuò)展,從而實(shí)現(xiàn)用戶(hù)查詢(xún)問(wèn)題的語(yǔ)義擴(kuò)展,獲取一組符合用戶(hù)查詢(xún)需求的具有語(yǔ)義聯(lián)系的查詢(xún)概念集。經(jīng)過(guò)語(yǔ)義擴(kuò)展后的查詢(xún)概念集,可能涉及到的查詢(xún)概念很多,要對(duì)查詢(xún)概念集進(jìn)行概念篩選,以防止“概念漂移”,主要工作是將查詢(xún)概念集中的概念與用戶(hù)查詢(xún)進(jìn)行相似度和相關(guān)度的計(jì)算,然后根據(jù)語(yǔ)義相似度計(jì)算以排序,以篩選更符合用戶(hù)意圖的概念集進(jìn)行檢索。
4.3 ?排序優(yōu)化模塊
語(yǔ)義擴(kuò)展在一定程度上解決了用戶(hù)查詢(xún)表達(dá)不明確的問(wèn)題,使機(jī)器更好的理解用戶(hù)的查詢(xún)意圖,但也帶來(lái)了“查詢(xún)漂移”問(wèn)題:語(yǔ)義擴(kuò)展有可能導(dǎo)致查詢(xún)關(guān)鍵詞過(guò)多,使得檢索結(jié)果出現(xiàn)大量與查詢(xún)無(wú)關(guān)的結(jié)果,從而降低了檢索的精度,也就是滿(mǎn)足了查全率而忽略了查準(zhǔn)率。為了有限控制結(jié)果的數(shù)量和質(zhì)量,有必要對(duì)語(yǔ)義擴(kuò)展得到的結(jié)果進(jìn)行二次篩選。
排序優(yōu)化模塊的功能,是對(duì)語(yǔ)義檢索的結(jié)果進(jìn)行排序和優(yōu)化返回,主要工作是進(jìn)行檢索結(jié)果的二次處理,目的過(guò)濾一些與用戶(hù)查詢(xún)要求“漂移”過(guò)大的結(jié)果,并按查詢(xún)相似度由高到低的排序,從而實(shí)現(xiàn)檢索結(jié)果在語(yǔ)義上更接近用戶(hù)的查詢(xún)需求。
排序優(yōu)化主要考慮因素:首先對(duì)教學(xué)資源中的關(guān)聯(lián)知識(shí)點(diǎn)從相關(guān)度和相似度上執(zhí)行進(jìn)一步的語(yǔ)義處理,主要對(duì)知識(shí)點(diǎn)的匹配、包含等關(guān)系推理,如一個(gè)教學(xué)資源包含多個(gè)知識(shí)點(diǎn),查詢(xún)其中一個(gè)知識(shí)時(shí),根據(jù)語(yǔ)義標(biāo)注中其占用的份量考慮;接著考慮教學(xué)資源的選擇率,即用戶(hù)使用相同查詢(xún)問(wèn)題時(shí),選擇檢索結(jié)果中的某教學(xué)資源的次數(shù);國(guó)家《網(wǎng)絡(luò)教育資源建設(shè)技術(shù)規(guī)范》規(guī)定網(wǎng)絡(luò)教育資源主要包含以下9類(lèi):媒體素材、課件、案例、常見(jiàn)問(wèn)題、文獻(xiàn)資料、網(wǎng)絡(luò)課程、試卷、試題、資源目錄索引 ? ? 等[10],根據(jù)這些分類(lèi)以確定其占用權(quán)值,如課件是比較詳細(xì)的內(nèi)容可優(yōu)先考慮,而習(xí)題只是輔助教學(xué)資源可相應(yīng)延遲考慮;最后,對(duì)教學(xué)資源的文件類(lèi)型歸類(lèi),主要考慮用戶(hù)喜好,有些喜歡教學(xué)視頻,也有些喜歡教學(xué)PPT課件等。
4.4 ?常查資源索引庫(kù)模塊
常查資源索引庫(kù)模塊功能,主要是針對(duì)相同查詢(xún)問(wèn)題時(shí)直接獲得檢索結(jié)果,避免同一查詢(xún)問(wèn)題多次進(jìn)行本體解析、語(yǔ)義擴(kuò)展、檢索操作、排序優(yōu)化等操作,從而減少系統(tǒng)的響應(yīng)時(shí)間和提高查詢(xún)的效率。所以,常查資源索引庫(kù)主要存儲(chǔ)了查詢(xún)問(wèn)題、分詞得到的查詢(xún)概念集、語(yǔ)義擴(kuò)展得到的擴(kuò)展查詢(xún)概念集、排序優(yōu)化后的檢索結(jié)果、用戶(hù)選擇次數(shù)。
5 ?結(jié)束語(yǔ)
教學(xué)資源語(yǔ)義系統(tǒng)是利用本體和Jena模塊技術(shù)實(shí)現(xiàn)具有語(yǔ)義的教學(xué)資源管理系統(tǒng),從而解決教學(xué)資源標(biāo)準(zhǔn)不統(tǒng)一的異構(gòu)難以共享或互操作問(wèn)題和基于關(guān)鍵字匹配檢索技術(shù)的誤檢或漏檢問(wèn)題。本系統(tǒng)主要通過(guò)結(jié)合CELTS元數(shù)據(jù)的教學(xué)資源本體的語(yǔ)義表達(dá)、Jena推理機(jī)自定義規(guī)則的語(yǔ)義推理擴(kuò)展、基于課程知識(shí)本體的語(yǔ)義相似度計(jì)算方法、教學(xué)資源實(shí)體信息抽取標(biāo)注的元數(shù)據(jù)文檔,從而提高資源的共享性和檢索的查全率、查準(zhǔn)率。但系統(tǒng)還有問(wèn)題需要進(jìn)一步的研究解決,如本體構(gòu)建對(duì)開(kāi)發(fā)者的領(lǐng)域?qū)I(yè)性要求過(guò)高和語(yǔ)義相似度的主觀性太強(qiáng)等。
參考文獻(xiàn)
[1] 馮瑤, 馮錫煒. 面向教學(xué)資源查詢(xún)的語(yǔ)義相似度和相關(guān)度算法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2016, 33(10): 275-278.
[2] 曾維明. 基于領(lǐng)域本體的語(yǔ)義檢索及個(gè)性化推薦算法研究[D]. 南京理工大學(xué), 2010.
[3] Kim J Y, Jeong D W, Balk D-K. Ontology-based semantic recommendation system in home network environment[J]. IEEE Transactions on Consumer Electronics, 2009, 55 (3) : 1178-1184.
[4] 王小夢(mèng), 郭爽. 數(shù)字教學(xué)資源的語(yǔ)義標(biāo)記系統(tǒng)設(shè)計(jì)研究[J]. 中國(guó)教育信息化, 2017(13): 40-44.
[5] 黃洋, 宋俊德, 宋美娜, 等. 基于本體與SSH架構(gòu)的異構(gòu)數(shù)據(jù)集成框架的研究[J]. 軟件, 2014, 35(11): 36-41.
[6] 劉欣, 席耀一, 王波, 等. WordNet和詞向量相結(jié)合的句子檢索方法[J]. 信息工程大學(xué)學(xué)報(bào), 2017, 18(04): 486-491.
[7] 崔航, 文繼榮, 李敏強(qiáng). 基于用戶(hù)日志的查詢(xún)擴(kuò)展統(tǒng)計(jì)模型[J]. 軟件學(xué)報(bào). 2003(09)
[8] 李衛(wèi)疆, 王勝, 余正濤. 基于深度學(xué)習(xí)的概念語(yǔ)義空間查詢(xún)擴(kuò)展研究[J]. 軟件導(dǎo)刊, 2018, 17(05): 26-30.
[9] 于超, 王璐, 程道文. 基于本體的教育資源語(yǔ)義檢索系統(tǒng)研究[J]. 吉林大學(xué)學(xué)報(bào)(信息科學(xué)版), 2018, 36(02): 207- 212.
[10] 教育部教育信息化技術(shù)標(biāo)準(zhǔn)委員會(huì). CELTS-41. 1. 網(wǎng)絡(luò)教育資源建設(shè)技術(shù)規(guī)范[EB/OL]. [2018-04-15]. http://www. celtsc.edu.cn/.