王秀慧,王麗珍,殷旭彪
(山西大同大學(xué) 教育科學(xué)與技術(shù)學(xué)院,山西 大同037009)
目前,無論是在國家層面還是在各個(gè)院校、教育、培訓(xùn)等部門都意識到了教育資源在全社會范圍內(nèi)共享的重要性。教育資源共建共享的理念正逐步深入人心。實(shí)現(xiàn)教育資源的共建共享,對于推動(dòng)全社會教育公平,促進(jìn)教育平衡發(fā)展,提高國家教育質(zhì)量,推進(jìn)全國教育與社會發(fā)展具有重大現(xiàn)實(shí)意義。[1]基于這樣的背景,本研究開展了晉北地區(qū)教育資源共享服務(wù)平臺的構(gòu)建工程。從2010年初至今,已經(jīng)收集了來自晉北地區(qū)各個(gè)學(xué)?;蚺嘤?xùn)機(jī)構(gòu)的數(shù)千條具有重要教學(xué)價(jià)值的教育資源。為了建構(gòu)合理的教育資源庫,針對教育資源具有跨學(xué)科、多源異構(gòu)、異質(zhì)等特點(diǎn),提出了基于元數(shù)據(jù)技術(shù)進(jìn)行教育資源整合的方案,并在資源整合的基礎(chǔ)上開發(fā)了教育資源元數(shù)據(jù)共享服務(wù)平臺,為實(shí)現(xiàn)教育資源在全社會范圍內(nèi)的共建共享提供途徑。同時(shí)針對教育資源元數(shù)據(jù)庫信息量大、檢索速度慢、無法為用戶提供有效服務(wù)的問題,提出基于FTC實(shí)現(xiàn)教育資源元數(shù)據(jù)的有效聚類。
教育資源往往具有多種表現(xiàn)形式,比如說文檔、網(wǎng)頁、圖片、視頻等。這些教育資源大多以非結(jié)構(gòu)化形式存在,影響了數(shù)據(jù)的存儲,進(jìn)而導(dǎo)致教育資源的共享難以實(shí)現(xiàn),不同的教育部門或機(jī)構(gòu)之間的溝通也無法得到保障。而建設(shè)教育資源數(shù)據(jù)共享工程、構(gòu)建教育資源數(shù)據(jù)共享服務(wù)體系,必須要保證對教育資源數(shù)據(jù)共享技術(shù)體系架構(gòu)有統(tǒng)一的標(biāo)準(zhǔn)。通過元數(shù)據(jù)標(biāo)準(zhǔn)來定義一致的數(shù)據(jù)資源描述框架,是使得教育資源在數(shù)據(jù)共享層面能納入統(tǒng)一框架的一種有效手段。
所謂元數(shù)據(jù)標(biāo)準(zhǔn),指的是描述某類資源的具體對象時(shí)所有規(guī)則的集合。這里所指的資源就是教育教學(xué)資源。實(shí)現(xiàn)教育資源元數(shù)據(jù)的標(biāo)準(zhǔn)化,一方面能夠?yàn)橘Y源提供方提供一個(gè)標(biāo)準(zhǔn)著錄格式,以便于其對所擁有的數(shù)據(jù)資源進(jìn)行恰當(dāng)描述。另一方面,有助于實(shí)現(xiàn)對教育資源的高效組織和管理,并幫助學(xué)習(xí)者快速的定位所需信息。再者,教育資源元數(shù)據(jù)標(biāo)準(zhǔn)的制定為實(shí)現(xiàn)不同教學(xué)系統(tǒng)間元數(shù)據(jù)的互操作提供技術(shù)支持。
目前,國際上常用的教育資源元數(shù)據(jù)標(biāo)準(zhǔn)主要有三類:IEEELOM、DC-Education和ADL/SCORM。其 中,IEEELOM是學(xué)習(xí)對象元數(shù)據(jù)標(biāo)準(zhǔn),目的是完成學(xué)習(xí)對象的描述和管理。DC-Education又稱為都伯林核心教育元數(shù)據(jù),是在DC的基礎(chǔ)上增加了一些新的元素并復(fù)用到DC-Education。ADL/SCORM稱為可共享內(nèi)容對象參考模型,目的是實(shí)現(xiàn)教育資源的可重用性。[2,3]
結(jié)合我國各類教育資源的特點(diǎn),本文以DC-Education作為元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ),并根據(jù)實(shí)際情況對其進(jìn)行了部分調(diào)整。元數(shù)據(jù)是對原始數(shù)據(jù)結(jié)構(gòu)特征的描述,學(xué)習(xí)者瀏覽元數(shù)據(jù)的最終目的是為了訪問原始數(shù)據(jù)資源。原始數(shù)據(jù)資源可能以文件形式提供,也可能以HTTP或FTP方式提供。為了便于學(xué)習(xí)者根據(jù)元數(shù)據(jù)定位到原始數(shù)據(jù)資源,本研究對DC-Education增加了文件服務(wù)、HTTP服務(wù)和FTP服務(wù)三個(gè)字段。這樣用戶在瀏覽元數(shù)據(jù)的時(shí)候,如果想對該教育資源有更進(jìn)一步的了解,可以通過共享平臺提供的文件服務(wù)進(jìn)行相關(guān)文件的下載,或者可以通過HTTP服務(wù)和FTP服務(wù)進(jìn)行在線資源的跳轉(zhuǎn)訪問。
教育資源具有跨學(xué)科、多源異構(gòu)、異質(zhì)的特性,導(dǎo)致無法采用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)進(jìn)行有效存儲,阻礙了教育資源共享平臺的建設(shè)。而以上元數(shù)據(jù)標(biāo)準(zhǔn)的制定使得各種不同的教育資源都能夠用相同的模式去表示,對于建設(shè)教育資源共享平臺、實(shí)現(xiàn)教育資源的互操作都有極大的推動(dòng)作用。
一個(gè)服務(wù)上乘的教育資源共享服務(wù)平臺,不僅能夠通過元數(shù)據(jù)為學(xué)習(xí)者提供數(shù)據(jù)資源的發(fā)現(xiàn)、查詢、數(shù)據(jù)導(dǎo)航等功能,而且還要為資源提供方提供元數(shù)據(jù)的匯交、上傳和注冊等服務(wù)??梢哉f,作為數(shù)據(jù)共享中心的一個(gè)透明的中間層,元數(shù)據(jù)發(fā)揮著“一站式”服務(wù)的核心功能。以元數(shù)據(jù)為中心,結(jié)合教育資源數(shù)據(jù)共享的特點(diǎn),本文把教育資源共享服務(wù)平臺的基本功能劃分為四大模塊,即教育資源的瀏覽和查詢、教育資源的發(fā)布、教育資源的訪問和在線分析服務(wù)。這些基本功能將在元數(shù)據(jù)的統(tǒng)一調(diào)度下完成教育資源的匯交、共享、查詢、瀏覽、下載和分析等數(shù)據(jù)服務(wù)。
(1)教育資源瀏覽和查詢。教育資源共享平臺依托主體元數(shù)據(jù)庫分類體系,為學(xué)習(xí)者提供元數(shù)據(jù)目錄,以此作為數(shù)據(jù)瀏覽的依據(jù)。為了更好服務(wù)用戶,提供了元數(shù)據(jù)查詢接口。查詢方式分簡單查詢和高級查詢。簡單查詢要求用戶鍵入感興趣的關(guān)鍵詞。高級查詢指用戶可以按學(xué)科、資源類型、資源發(fā)布者、時(shí)間等檢索項(xiàng)進(jìn)行查詢。當(dāng)然,在對用戶興趣點(diǎn)進(jìn)行分析以后,平臺還可以根據(jù)用戶偏好為其提供個(gè)性化信息服務(wù)。
(2)教育資源發(fā)布。共享平臺為教育資源的發(fā)布提供兩種方式。其一:直接把元數(shù)據(jù)信息從已經(jīng)收集到的原始數(shù)據(jù)資源中提取出來,并注冊到共享平臺的數(shù)據(jù)目錄服務(wù)中,保證學(xué)習(xí)者能夠?yàn)g覽和查詢該數(shù)據(jù)資源;其二:資源提供者通過共享平臺提供的元數(shù)據(jù)匯交接口把數(shù)據(jù)資源提交到數(shù)據(jù)庫中心。匯交內(nèi)容不但包括描述教育資源的元數(shù)據(jù),同時(shí)也包括教育資源原始數(shù)據(jù),在匯交的同時(shí)完成數(shù)據(jù)的注冊。數(shù)據(jù)提供者一旦把數(shù)據(jù)發(fā)布在教育資源共享服務(wù)平臺中,經(jīng)管理員審核通過后,全球用戶都可以通過網(wǎng)絡(luò)發(fā)現(xiàn)和訪問這些數(shù)據(jù)資源。
(3)教育資源訪問。教育資源訪問通過兩種模式實(shí)現(xiàn),一種是通過元數(shù)據(jù)瀏覽或查詢接口獲取相應(yīng)的數(shù)據(jù)資源,如可以直接鏈接到數(shù)據(jù),可以下載數(shù)據(jù),還可以預(yù)訂數(shù)據(jù)。另一種是對平臺功能進(jìn)行擴(kuò)展,為用戶提供元數(shù)據(jù)接口調(diào)度信息服務(wù)功能,以此達(dá)到元數(shù)據(jù)瀏覽、分析和操作的目的。
(4)教育資源在線分析。為了更好的服務(wù)用戶,平臺提供數(shù)據(jù)分析功能。一方面,對所有用戶訪問信息進(jìn)行統(tǒng)計(jì)分析,找出用戶感興趣的教育資源,對此類數(shù)據(jù)資源要加強(qiáng)更新,以滿足用戶連續(xù)性學(xué)習(xí)的要求。另一方面,對獨(dú)立用戶進(jìn)行知識偏好統(tǒng)計(jì),通過顯示的詢問方式或隱式的跟蹤用戶行為方式,分析其學(xué)習(xí)興趣所在,在此基礎(chǔ)上為其提供個(gè)性化信息服務(wù)。
圍繞上述功能,網(wǎng)絡(luò)平臺的結(jié)構(gòu)框架如圖1所示。從總體結(jié)構(gòu)上可分為五層,自底向上分為網(wǎng)絡(luò)平臺層、資源管理層、核心服務(wù)層、共享業(yè)務(wù)層、平臺門戶層。[4]每個(gè)層次各司其職,分別完成不同的任務(wù)。為了便于平臺實(shí)施開發(fā),依據(jù)平臺的層次結(jié)構(gòu),把功能細(xì)分為13個(gè)相對獨(dú)立但彼此聯(lián)系的子系統(tǒng)。分別為平臺門戶和功能入口子系統(tǒng)、元數(shù)據(jù)匯交子系統(tǒng)、數(shù)據(jù)資源下載子系統(tǒng)、數(shù)據(jù)資源瀏覽查詢子系統(tǒng)、數(shù)據(jù)資源審查發(fā)布子系統(tǒng)、數(shù)據(jù)安全服務(wù)、元數(shù)據(jù)服務(wù)、數(shù)據(jù)分析服務(wù)、日志服務(wù)、備份管理、原始資源管理、元數(shù)據(jù)管理、用戶信息管理,如圖1所示。
圖1 教育資源共享服務(wù)平臺的結(jié)構(gòu)框架
建好一個(gè)教育資源平臺,只有少數(shù)人能用,只有少數(shù)人參與建設(shè),那不叫共建共享。資源建設(shè)中只有做到全員參與,全員使用,所創(chuàng)建的資源庫才能做到動(dòng)態(tài)更新,才能成為活的資源庫,才能充分發(fā)揮所建資源庫或資源平臺的作用。為了實(shí)現(xiàn)真正意義上的共建共享,教育資源共享平臺為廣大用戶提供了元數(shù)據(jù)匯交接口,通過系統(tǒng)提供的元數(shù)據(jù)匯交界面,注冊用戶就可以方便的向共享平臺提交自己的數(shù)據(jù)資源。所以元數(shù)據(jù)匯交是該平臺的一個(gè)核心模塊。
用戶提交的數(shù)據(jù)資源有可能涉及非法言論,在正式發(fā)布之前需進(jìn)行必要的審核。審核任務(wù)由系統(tǒng)管理員經(jīng)平臺所提供的元數(shù)據(jù)管理模塊完成。
元數(shù)據(jù)匯交及審核發(fā)布系統(tǒng)為教育資源的共建共享提供技術(shù)支撐,保障了共建共享機(jī)制的完美實(shí)現(xiàn)。元數(shù)據(jù)匯交由注冊用戶完成,其流程如圖2所示,元數(shù)據(jù)審核發(fā)布由系統(tǒng)管理員完成,其流程圖如圖3所示。
圖2 元數(shù)據(jù)匯交流程
圖3 元數(shù)據(jù)審核發(fā)布流程
教育資源共享平臺的開發(fā)要堅(jiān)持以人為本、以學(xué)習(xí)者為中心,強(qiáng)調(diào)為學(xué)習(xí)者提供高效的資源獲取途徑。[5]隨著教育資源共享服務(wù)平臺的不斷完善以及用戶群的不斷擴(kuò)展,教育資源信息量將會越來越大。當(dāng)信息量超過一定的限度時(shí),將導(dǎo)致檢索周期長、檢索速度慢的問題,學(xué)習(xí)者在檢索到的海量信息面前很難定位真正需要的教育資源。為了提高學(xué)習(xí)者檢索效率并幫助用戶快速定位所需資源,本文把數(shù)據(jù)挖掘中的聚類思想用于教育資源元數(shù)據(jù)的合理組織。把教育資源按某種聚類算法進(jìn)行處理以后,學(xué)習(xí)者就能夠依據(jù)聚類結(jié)果,快速定位自己所需要的教育資源,這樣不僅大大提高了學(xué)習(xí)者信息的查準(zhǔn)率,為學(xué)習(xí)者提供了一個(gè)良好的學(xué)習(xí)環(huán)境,也有利于對教育資源的充分利用,有效提高了教育資源在全社會范圍內(nèi)的共享程度。
聚類是數(shù)據(jù)挖掘中一項(xiàng)重要的技術(shù)。傳統(tǒng)聚類算法像基于層次的CURE或基于劃分的K-MEANS都可以實(shí)現(xiàn)數(shù)據(jù)聚類,但是這些算法大多采用向量空間模型表示數(shù)據(jù),容易產(chǎn)生“高維效應(yīng)”,直接聚類效率及準(zhǔn)確度。針對這樣的問題,Bei和Xu在文獻(xiàn)[6]中提出了一種基于頻繁項(xiàng)集的數(shù)據(jù)聚類方法FTC(FrequentTerm-based Clustering)。FTC算法對高維度數(shù)據(jù)聚類具有較強(qiáng)的處理能力,可伸縮性良好。該算法產(chǎn)生的簇標(biāo)簽可以為用戶瀏覽或檢索數(shù)據(jù)資源提供方便。但是FTC會把一條元數(shù)據(jù)硬性的劃分到唯一結(jié)果簇中,而未考慮教育資源多主題性的自然屬性,因此不能獲取最優(yōu)聚類結(jié)果。針對FTC算法在實(shí)現(xiàn)教育資源元數(shù)據(jù)聚類中存在的不足,本文進(jìn)行了有效改進(jìn),定義了簇間相似度度量公式,以決定簇間是否應(yīng)該存在重疊,合理實(shí)現(xiàn)了對候選簇的軟分離,保證了聚類結(jié)果全局最優(yōu)。
FTC算法的基本思路是:首先從元數(shù)據(jù)集合中把所有滿足最小支持度的頻繁項(xiàng)集全部找出,同時(shí)把包含相同頻繁項(xiàng)集的元數(shù)據(jù)集合作為一個(gè)候選簇,然后通過一種貪心算法,循環(huán)選擇與其他候選簇重疊度最小的作為結(jié)果簇,當(dāng)結(jié)果簇集合覆蓋到所有元數(shù)據(jù),則算法為止。
假定元數(shù)據(jù)集合D由D1,D2…Dm等m條教育資源元數(shù)據(jù)所組成,并用包含在元數(shù)據(jù)中的關(guān)鍵詞集合Ti來表示元數(shù)據(jù)Di,則有關(guān)鍵詞集在T上挖掘出滿足最小支持度的所有頻繁項(xiàng)集,得到頻繁項(xiàng)集集合對于其中任一個(gè)Fi,若其又k個(gè)頻繁詞組成,則把該Fi稱為頻繁k項(xiàng)集,對應(yīng)的簇叫做k階簇。由于這k個(gè)頻繁詞存在于該簇的所有元數(shù)據(jù)內(nèi),能夠表達(dá)該元數(shù)據(jù)集的共同屬性,因此可以把Fi作為該簇的類別標(biāo)簽使用。
考慮到一條元數(shù)據(jù)通常包含多個(gè)頻繁項(xiàng)集,因此它可能分屬于不同的候選簇,即簇間重疊現(xiàn)象比較嚴(yán)重。特定義了熵重疊度(entropyoverlap)EO(Ci),以作為衡量Ci與其它候選簇的重疊情況的標(biāo)準(zhǔn),如公式(1)所示。
所包含的頻繁項(xiàng)集個(gè)數(shù)用j表示
熵重疊度能夠表達(dá)簇Ci所支持的頻繁項(xiàng)集在其它候選簇中的分布情況。從公式(1)可以看出,EO(Ci)值越大,Ci與其它候選簇的重疊越嚴(yán)重。特別的,值等于0時(shí),所支持的元數(shù)據(jù)都不包含其它頻繁項(xiàng)集,表示Ci與其它候選簇之間不存在重疊。
輸出:結(jié)果簇集合C
(1)從元數(shù)據(jù)關(guān)鍵詞集T中把滿足最小支持度的頻繁項(xiàng)集F={F1,F(xiàn)2,…,F(xiàn)m}挖掘出來,令Fi所支持的元數(shù)據(jù)集合組成了候選簇Ci。
(2)置聚類結(jié)果簇集C為空。
(3)計(jì)算所有Ci的熵重疊度。
(4)找出熵重疊度最小的簇Ci,并將之并入結(jié)果簇集C中。
(5)對于任一Dj∈Ci,若Dj同時(shí)也屬于其它簇Cj,則從Cj中直接刪除Dj。
(6)把Ci從候選簇集中刪掉。
(7)判斷結(jié)果簇C是否能夠包含所有元數(shù)據(jù),若不能,則返回(3)重復(fù)執(zhí)行,否則算法結(jié)束。
經(jīng)過聚類處理以后,教育資源元數(shù)據(jù)可劃分為若干簇。每一個(gè)簇中所包含的關(guān)鍵詞可以作為類簇標(biāo)簽使用,給用戶檢索數(shù)據(jù)提供方便??紤]到具有多主題性是教育資源的一個(gè)自然屬性,例如一條關(guān)于用戶聚類實(shí)現(xiàn)學(xué)習(xí)者個(gè)性化學(xué)習(xí)的教育資源,就應(yīng)該歸入數(shù)據(jù)挖掘和教育技術(shù)兩個(gè)學(xué)科中。據(jù)FTC聚類算法的結(jié)果可知,該算法把每條元數(shù)據(jù)唯一的劃分到一個(gè)簇中,即只把該元數(shù)據(jù)劃分到一個(gè)學(xué)科中,是一種硬聚類,體現(xiàn)不出教育資源的多主題性。針對此點(diǎn)不足,本文對FTC進(jìn)行了必要改進(jìn),如下文所示。
為了確定是否應(yīng)該把一條教育資源元數(shù)據(jù)歸屬到不同的簇中,定義衡量簇間相似度的計(jì)算公式:
其中,F(xiàn)i是表達(dá)簇Ci的頻繁項(xiàng)集所包含的關(guān)鍵詞集合,Ci對應(yīng)的元數(shù)據(jù)集用doc(Ci)表示。從該式可以看出,sim(Ci、Cj)的取值范圍為[0,1],且取值越大,兩簇間相似程度會越高,特別的,等于1時(shí),表示兩簇完全相同。
如前所示,在FTC實(shí)現(xiàn)聚類的第(5)步驟中,如果把Ci作為結(jié)果簇,則支持Ci的一條元數(shù)據(jù)Di,若同時(shí)也存在于其它候選簇Cj中,將會直接從Cj中把Di刪掉,而未考慮教育資源元數(shù)據(jù)多主題性的特點(diǎn)。為了避免FTC算法的此點(diǎn)缺陷,首先依據(jù)公式(2)計(jì)算出簇間相似度sim(Ci,Cj),若sim(Ci,Cj)小于實(shí)現(xiàn)確定的閾值ɑ,則表明兩簇的主題差異較大,Cj中的元數(shù)據(jù)Di應(yīng)予以保留;如果sim(Ci,Cj)大于ɑ,表名兩簇主題相似程度很高,此時(shí)應(yīng)把Cj中的元數(shù)據(jù)Di刪掉,采用這種方法合理的實(shí)現(xiàn)了軟聚類。
為了評估聚類結(jié)果的有效性,本文以晉北地區(qū)教育資源共享平臺為依托,分析對比了聚類前和聚類后的檢索效率,如圖4所示。
圖4 聚類前后檢索時(shí)間對比圖
從圖4可以看出,隨著數(shù)據(jù)量的逐漸增大,聚類前和聚類后的平均檢索時(shí)間都逐漸增大,但聚類前的平均檢索時(shí)間增大的更快一些,表明本文提出的基于FTC的教育資源元數(shù)據(jù)聚類策略,能夠在相當(dāng)程度上提高學(xué)習(xí)者的檢索效率,減少了學(xué)習(xí)者不必要的等待時(shí)間。
教育資源跨學(xué)科、多源異構(gòu)、異質(zhì)的特性導(dǎo)致了教育資源共享程度低、互操作性差的問題,阻礙了教育資源在全社會范圍內(nèi)的共建共享。為了有效的利用教育資源,提出了采用元數(shù)據(jù)技術(shù)對其進(jìn)行合理描述的方案,這種結(jié)構(gòu)化的描述方式大大提高了教育資源的共享和集成程度。同時(shí),為了提高學(xué)習(xí)者檢索效率、幫助學(xué)習(xí)者在海量信息面前快速定位到所需的資源,把基于頻繁項(xiàng)集的FTC聚類算法應(yīng)用于教育資源的有效組織。實(shí)踐證明,這種組織方法大大提高其檢索速度,且算法生成的簇標(biāo)簽非常便于學(xué)習(xí)者按類別瀏覽元數(shù)據(jù),為學(xué)習(xí)者提供了良好的學(xué)習(xí)環(huán)境。
[1]張?jiān)俑?教育資源共建共享建設(shè)的幾點(diǎn)思考[J].中國教育信息化,2012(22):81-85.
[2]鄭雯譯,吳開華,趙陽.國外教育資源元數(shù)據(jù)標(biāo)準(zhǔn)比較研究[J].圖書情報(bào)工作,2005,49(1):107-111.
[3]王昉,張曉林.面向教育資源的元數(shù)據(jù)[J].2002(7):37-39.
[4]張彥軍.基于云計(jì)算的華文教育資源平臺設(shè)計(jì).現(xiàn)代教育技術(shù),2012,22(10):11-113.
[5]孫守義.基于聚類的教育資源個(gè)性化信息服務(wù)[D].南京:南京師范大學(xué),2008.
[6]Beil F,Ester M,Xu X.Frequent term-based text clustering[C].New York:Proceeding KDD'02 Proceedingsof the eighth ACM SIGKDD international conference on Know ledge discovery and datam ining,2002.