国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

學(xué)習(xí)資源的語(yǔ)義眾包標(biāo)注系統(tǒng)設(shè)計(jì) *

2016-09-06 01:27:12丁國(guó)柱余勝泉
中國(guó)電化教育 2016年9期
關(guān)鍵詞:三元組實(shí)例實(shí)體

丁國(guó)柱,余勝泉,潘 升

(1.北京師范大學(xué) 教育學(xué)部 教育技術(shù)學(xué)院,北京 100875;2.“移動(dòng)學(xué)習(xí)”教育部—中國(guó)移動(dòng)聯(lián)合實(shí)驗(yàn)室,北京 100875)

學(xué)習(xí)資源的語(yǔ)義眾包標(biāo)注系統(tǒng)設(shè)計(jì) *

丁國(guó)柱1,2,余勝泉1,2,潘 升1,2

(1.北京師范大學(xué) 教育學(xué)部 教育技術(shù)學(xué)院,北京 100875;2.“移動(dòng)學(xué)習(xí)”教育部—中國(guó)移動(dòng)聯(lián)合實(shí)驗(yàn)室,北京 100875)

語(yǔ)義標(biāo)注是Web3.0環(huán)境下學(xué)習(xí)資源組織方式的基礎(chǔ)和前提。目前學(xué)習(xí)資源的語(yǔ)義標(biāo)注多是通過(guò)本體對(duì)文檔的實(shí)體進(jìn)行識(shí)別和標(biāo)注,一般揭示的是顯性的、有確定規(guī)則的知識(shí),對(duì)人文性學(xué)科中蘊(yùn)含情境性、文化性特征可多元解釋的隱性知識(shí)揭示不足,針對(duì)目前這個(gè)問(wèn)題,該文提出基于眾包的學(xué)習(xí)資源語(yǔ)義標(biāo)記的思路,充分利用人的集體智慧,解決海量學(xué)習(xí)資源的復(fù)雜多元語(yǔ)義標(biāo)注問(wèn)題。研究以學(xué)習(xí)元平臺(tái)為支撐,構(gòu)建基于眾包的語(yǔ)義標(biāo)注系統(tǒng),通過(guò)社會(huì)信任計(jì)算和關(guān)聯(lián)詞匯判別過(guò)濾機(jī)制進(jìn)行質(zhì)量控制,實(shí)現(xiàn)學(xué)習(xí)資源中隱性知識(shí)的標(biāo)注,通過(guò)實(shí)驗(yàn)證明基于眾包能夠有效解決人文性學(xué)科中的隱性知識(shí)標(biāo)注。

語(yǔ)義標(biāo)注;眾包;學(xué)科資源;學(xué)習(xí)元

一、引言

語(yǔ)義標(biāo)注是指為文檔添加規(guī)范化知識(shí)表示的過(guò)程[1],是實(shí)現(xiàn)文檔機(jī)器可讀的重要途徑,也是學(xué)習(xí)資源語(yǔ)義檢索、資源庫(kù)轉(zhuǎn)向知識(shí)服務(wù)等應(yīng)用的關(guān)鍵環(huán)節(jié)。雖然目前已有不少機(jī)器自動(dòng)處理的辦法來(lái)實(shí)現(xiàn)語(yǔ)義標(biāo)注,但一些學(xué)科特別是人文社會(huì)類(lèi)學(xué)科的實(shí)例具有動(dòng)態(tài)變化的特點(diǎn),一些知識(shí)實(shí)例存在的隱性關(guān)聯(lián)是機(jī)器難以自動(dòng)處理的,如語(yǔ)文學(xué)科中的人文性知識(shí)是動(dòng)態(tài)發(fā)展的,而且具有一定的主觀(guān)性,單純靠機(jī)器來(lái)實(shí)現(xiàn)語(yǔ)義標(biāo)注比較困難,特別是隱性知識(shí)存在情境性,受文化、民族傳統(tǒng)甚至宗教的影響,機(jī)器標(biāo)注的正確率低;而依賴(lài)少數(shù)專(zhuān)家的人工標(biāo)注則存在巨大的人力和時(shí)間成本,需要其他方式來(lái)解決這個(gè)問(wèn)題。眾包利用互聯(lián)網(wǎng)將工作分配出去[2],利用群體的智慧完成工程巨大的任務(wù)。利用眾包來(lái)解決機(jī)器難以完成的部分學(xué)習(xí)資源的語(yǔ)義標(biāo)注是一個(gè)值得研究的課題。

二、研究現(xiàn)狀

語(yǔ)義標(biāo)注的本質(zhì)是實(shí)體識(shí)別和實(shí)體標(biāo)注,即基于本體對(duì)文檔中的實(shí)體進(jìn)行提取,并對(duì)實(shí)體進(jìn)行標(biāo)注,從而使得計(jì)算機(jī)可以理解文檔的內(nèi)容。目前語(yǔ)義標(biāo)注的方法主要有自動(dòng)化標(biāo)注、半自動(dòng)標(biāo)注、手工標(biāo)等類(lèi)型[3],自動(dòng)標(biāo)注有基于機(jī)器學(xué)習(xí)的方式(Machine Learning-based)、基于模式的方式(Patternbased)和綜合方式(Multi Strategy,結(jié)合機(jī)器學(xué)習(xí)和模式方式);半自動(dòng)標(biāo)注結(jié)合了自動(dòng)標(biāo)注和手工標(biāo)注兩種方式,有助于提高標(biāo)注的準(zhǔn)確性。標(biāo)注工具方面,手工工具有SHOE Knowledge Annotation;半自動(dòng)工具有SMORE、MnM、Melita、Semantic Word等,自動(dòng)化工具有AeroDAML等[4]??偟膩?lái)看,語(yǔ)義標(biāo)注包括如下幾個(gè)方面:(1)實(shí)體標(biāo)注,實(shí)體標(biāo)注是指將某個(gè)實(shí)體指向?yàn)楸倔w中的某個(gè)概念(或稱(chēng)為類(lèi)),即建立實(shí)例和概念的關(guān)聯(lián),其形式化表示為(I,rdf:type,C),其中I表示實(shí)例,C表示概念;(2)實(shí)體關(guān)聯(lián),實(shí)體關(guān)聯(lián)則是基于本體中的對(duì)象屬性建立2個(gè)實(shí)例的關(guān)系,形式化表示為(I1,R,I2),其中I1、I2為2個(gè)不同的實(shí)例,R為對(duì)象屬性;(3)實(shí)體屬性標(biāo)注,即標(biāo)注一個(gè)實(shí)體的XML數(shù)據(jù)類(lèi)型信息,如人的出生日期、身高等,形式化表示為(I1,R,d),其中I1為實(shí)體,R為數(shù)據(jù)屬性,d則是XML數(shù)據(jù)類(lèi)型的相關(guān)數(shù)據(jù);(4)新增概念,當(dāng)一個(gè)實(shí)例要標(biāo)注的概念系統(tǒng)未記錄時(shí),這個(gè)概念就是新增的概念,可以納入本體中;(5)新增概念關(guān)系,即增加本體中的對(duì)象屬性;(6)新增概念屬性,即增加本體中的數(shù)據(jù)屬性。

對(duì)于學(xué)習(xí)資源而言,合理的語(yǔ)義標(biāo)注可以實(shí)現(xiàn)資源聚合、語(yǔ)義檢索、資源推薦等應(yīng)用,然而當(dāng)前語(yǔ)義標(biāo)注方法多是針對(duì)顯性知識(shí)進(jìn)行標(biāo)注,對(duì)隱性知識(shí)的標(biāo)注能力不強(qiáng),如“廉頗老矣”簡(jiǎn)單四字,卻涉及了歷史、情感和隱喻,機(jī)器往往難以標(biāo)注全面,因此現(xiàn)實(shí)中很大一部分學(xué)習(xí)資源的標(biāo)注還是要依賴(lài)于人工。

基于眾包對(duì)信息進(jìn)行標(biāo)注可以追溯到Web2.0時(shí)代,如圖片分享網(wǎng)站Flickr的Folksonomy,用戶(hù)群體將照片貼上標(biāo)簽并且以此來(lái)組織圖片資源;眾包的標(biāo)志性成果則是路易斯·馮·安開(kāi)發(fā)的reCAPTCHA,完成紙質(zhì)書(shū)的數(shù)字化[5];利用同樣的原理Sophia等開(kāi)發(fā)faceCAPTCHA,完成性別標(biāo)注[6];研究者設(shè)計(jì)了一款基于眾包的游戲Foldit,僅用了三周時(shí)間,玩家就解決了一個(gè)艾滋病方面的難題[7],而這個(gè)難題已經(jīng)困擾了科學(xué)家15年;也有學(xué)者利用眾包來(lái)構(gòu)建情感詞匯[8],構(gòu)建詞匯聯(lián)想網(wǎng)絡(luò)[9]等。此外亞馬遜、愛(ài)立信、華為等500強(qiáng)企業(yè)也以各種方式利用眾包,讓群體智慧為自己的企業(yè)解決部分難題。從已有的研究來(lái)看,眾包至少有3個(gè)特點(diǎn):(1)問(wèn)題轉(zhuǎn)化:將機(jī)器難以處理的任務(wù)轉(zhuǎn)化成人類(lèi)可以完成的任務(wù);(2)化整為零:將一個(gè)巨大的任務(wù)分成數(shù)量較大的小任務(wù),這些小任務(wù)分配下來(lái)后用戶(hù)可以較輕松完成;(3)聚合群體智慧:對(duì)于每一個(gè)任務(wù)而言,互聯(lián)網(wǎng)中個(gè)體的簡(jiǎn)單行為(如創(chuàng)建、投票、瀏覽)可以看成是一個(gè)微小N維向量,一定數(shù)量用戶(hù)的行為產(chǎn)生的向量之和則可以產(chǎn)生足夠的影響力;即單獨(dú)個(gè)體的行為與智能簡(jiǎn)單有限,但相當(dāng)數(shù)量的個(gè)體行為相互作用可以形成巨大的智慧。

從眾包的特點(diǎn)來(lái),眾包可以充分利用人本計(jì)算(Human-based Computation),將人視為計(jì)算資源,即基于網(wǎng)絡(luò)的分眾性和協(xié)同性,利用人的智慧來(lái)完成計(jì)算機(jī)難以做好的事情。因此利用眾包來(lái)完成學(xué)習(xí)資源語(yǔ)義標(biāo)注,可以解決學(xué)習(xí)資源隱性知識(shí)的語(yǔ)義標(biāo)注問(wèn)題。

三、基于眾包的學(xué)習(xí)資源語(yǔ)義標(biāo)注模型

建構(gòu)主義認(rèn)為知識(shí)的獲取過(guò)程來(lái)自于他人(包括教師和學(xué)習(xí)伙伴)的幫助,他人知識(shí)的顯性化可以促進(jìn)個(gè)體的認(rèn)知。學(xué)習(xí)資源的標(biāo)注可以看成是個(gè)體知識(shí)顯性化的過(guò)程。當(dāng)標(biāo)注活動(dòng)成為群體行為時(shí),可產(chǎn)生知識(shí)共享與協(xié)同知識(shí)建構(gòu),與此同時(shí)也解決了學(xué)習(xí)資源的語(yǔ)義標(biāo)注問(wèn)題。具體實(shí)現(xiàn)步驟如下:(1)任務(wù)分配:根據(jù)學(xué)習(xí)內(nèi)容與用戶(hù)特征將任務(wù)分配下去;(2)用戶(hù)參與機(jī)制:學(xué)習(xí)管理系統(tǒng)的目標(biāo)是為了促進(jìn)用戶(hù)的學(xué)習(xí),因此應(yīng)該設(shè)計(jì)合理的機(jī)制,使得用戶(hù)在完成學(xué)習(xí)任務(wù)的過(guò)程中自然地完成標(biāo)注任務(wù);(3)群體智慧的聚合:利用聚合算法實(shí)現(xiàn)用戶(hù)參與結(jié)果計(jì)算,使得大量用戶(hù)相對(duì)無(wú)序的工作變成智慧的產(chǎn)物。基于上述步驟,本研究構(gòu)建了基于眾包的語(yǔ)義標(biāo)注模型,如圖1所示。基于眾包的學(xué)習(xí)資源語(yǔ)義標(biāo)注主要包括任務(wù)分配器、語(yǔ)義標(biāo)注工具、眾包質(zhì)量控制機(jī)制三個(gè)部分。

圖1 基于眾包的語(yǔ)義標(biāo)注模型

(一)眾包任務(wù)分配器

“學(xué)習(xí)活動(dòng)”通過(guò)支持教學(xué)方法、教學(xué)策略、教學(xué)活動(dòng)的重用,在教學(xué)層面上實(shí)現(xiàn)了教育過(guò)程與活動(dòng)的高水平共享[10][11]。網(wǎng)絡(luò)學(xué)習(xí)環(huán)境下,教學(xué)目標(biāo)的達(dá)成可以由一系列的學(xué)習(xí)活動(dòng)組成,通過(guò)恰當(dāng)?shù)慕虒W(xué)策略與方法,設(shè)計(jì)和實(shí)施有效的學(xué)習(xí)活動(dòng),促進(jìn)學(xué)生與教師之間、學(xué)生與學(xué)生之間的交流,使得學(xué)生積極地投入到網(wǎng)絡(luò)學(xué)習(xí)中,實(shí)現(xiàn)知識(shí)的習(xí)得與內(nèi)化。因此“活動(dòng)”是學(xué)習(xí)設(shè)計(jì)的重要載體,如課堂/小組討論、問(wèn)題解決、角色扮演等,可以將學(xué)習(xí)資源的語(yǔ)義標(biāo)注任務(wù)轉(zhuǎn)化為學(xué)習(xí)活動(dòng),既促進(jìn)學(xué)習(xí)者的學(xué)習(xí),也實(shí)現(xiàn)學(xué)習(xí)資源的語(yǔ)義標(biāo)注。語(yǔ)文學(xué)習(xí)中大量的知識(shí)需要學(xué)生進(jìn)行構(gòu)建和關(guān)聯(lián),通過(guò)學(xué)習(xí)活動(dòng)讓學(xué)生建立相關(guān)的知識(shí)關(guān)聯(lián),一方面可以促進(jìn)學(xué)生的知識(shí)內(nèi)化,教師也可以發(fā)現(xiàn)學(xué)生的認(rèn)知缺陷,進(jìn)而有針對(duì)性地指導(dǎo)學(xué)生;另一方面也可以利用學(xué)生的智慧完善語(yǔ)義標(biāo)注。如圖2所示,教師發(fā)布語(yǔ)義標(biāo)注的學(xué)習(xí)活動(dòng),學(xué)生參與學(xué)習(xí)學(xué)動(dòng),進(jìn)而構(gòu)建更完整的知識(shí)體系,而教師也可以根據(jù)學(xué)生完成情況進(jìn)行個(gè)性化指導(dǎo),基于學(xué)習(xí)活動(dòng)的任務(wù)分配可以取到一舉多得的效果。

圖2 基于學(xué)習(xí)活動(dòng)的任務(wù)分配

(二)用戶(hù)參與機(jī)制設(shè)計(jì)

當(dāng)一個(gè)語(yǔ)義標(biāo)注任務(wù)分配下來(lái)后,相關(guān)群體需要一個(gè)適合的語(yǔ)義標(biāo)注工具來(lái)完成任務(wù)。考慮到參與人員大部分是普通的教師,用戶(hù)對(duì)語(yǔ)義這個(gè)概念的了解程度比較有限,可以利用一些輔助工具來(lái)降低語(yǔ)義標(biāo)注的難度。語(yǔ)義標(biāo)注包括的實(shí)體標(biāo)注、實(shí)體關(guān)聯(lián)、實(shí)體屬性標(biāo)注、新增概念、新增概念關(guān)系、新增概念屬性等內(nèi)容,其本質(zhì)來(lái)看都是描述事物A、事物B和2者關(guān)系R的三元組,標(biāo)記為<A,R,B>,故最簡(jiǎn)單的辦法可能是讓用戶(hù)直接填充這個(gè)三元組,然后再通過(guò)算法識(shí)別是哪一個(gè)類(lèi)型的語(yǔ)義標(biāo)注。因此一個(gè)完整的語(yǔ)義標(biāo)注工具包括了用戶(hù)前端標(biāo)注和標(biāo)注后端分析。

用戶(hù)前端標(biāo)注,本文使用了兩種用戶(hù)標(biāo)注方法,一是直接填充三元組法:通過(guò)三個(gè)文本輸入框,讓用戶(hù)直接填充知識(shí),如右圖3所示;二是構(gòu)建個(gè)人知識(shí)圖譜法:通過(guò)圖像界面,顯示知識(shí)點(diǎn)與知識(shí)點(diǎn)之間的關(guān)系,通過(guò)構(gòu)建個(gè)人知識(shí)圖譜完善語(yǔ)義標(biāo)注。如圖4所示。

圖3 利用直接填充三元組法實(shí)現(xiàn)語(yǔ)義標(biāo)注

圖4 利用知識(shí)圖譜實(shí)現(xiàn)語(yǔ)義標(biāo)注

用戶(hù)完成語(yǔ)義標(biāo)注后,具體標(biāo)注類(lèi)型還是未知的,系統(tǒng)可以通過(guò)算法進(jìn)行分類(lèi)。具體算法如下:

(1)一個(gè)語(yǔ)義標(biāo)注<A,R,B>,若B為概念,R為是、是一個(gè)、為、是一類(lèi)、類(lèi)型是、類(lèi)型等類(lèi)別詞匯,同時(shí)A不屬于一個(gè)概念時(shí),則<A,R,B>為實(shí)體標(biāo)注。如標(biāo)注<劉禹錫,是,唐朝詩(shī)人>,唐朝詩(shī)人在系統(tǒng)中已作為一個(gè)關(guān)鍵概念存在,而劉禹錫不是概念,則這個(gè)語(yǔ)義標(biāo)注為實(shí)體標(biāo)注,將劉禹錫標(biāo)注為一個(gè)實(shí)體,并作為唐朝詩(shī)人的一個(gè)實(shí)例。

(2)一個(gè)語(yǔ)義標(biāo)注<A,R,B>,若A和B都不是概念,同時(shí)A和B是分別或者同時(shí)是某個(gè)概念的實(shí)例,則<A,R,B>為實(shí)體關(guān)聯(lián)。如標(biāo)注<李白,創(chuàng)作,靜夜思>,李白和靜夜思都不是概念,而分別屬于唐朝詩(shī)人和唐朝詩(shī)詞的實(shí)例,那么這個(gè)標(biāo)注為實(shí)體關(guān)聯(lián)。

(3)一個(gè)語(yǔ)義標(biāo)注<A,R,B>,若A為某個(gè)概念的實(shí)例,B既不是實(shí)例也不是一個(gè)概念,則<A,R,B>為實(shí)體屬性標(biāo)注。如<杜甫,字,子美>,杜甫為唐朝詩(shī)人的實(shí)例,子美在系統(tǒng)中不是實(shí)例也不是一個(gè)概念,那么這個(gè)標(biāo)注可以視為屬性標(biāo)注,即將“字”作為杜甫的一個(gè)屬性。

(4)一個(gè)語(yǔ)義標(biāo)注<A,R,B>,若A為某個(gè)概念的實(shí)例或者A不是實(shí)例也不是一個(gè)概念,R為是、是一個(gè)、為、是一類(lèi)、類(lèi)型是、類(lèi)型等類(lèi)別詞匯,B在系統(tǒng)中沒(méi)有對(duì)應(yīng)的概念,則<A,R,B>為新增概念。如標(biāo)注<杜甫,是,現(xiàn)實(shí)主義詩(shī)人>,已知杜甫是唐朝詩(shī)人的實(shí)例,而現(xiàn)實(shí)主義詩(shī)人在系統(tǒng)中沒(méi)有作為一個(gè)概念存在,現(xiàn)實(shí)主義詩(shī)人就作為一個(gè)新增的概念加入系統(tǒng)。

(5)一個(gè)語(yǔ)義標(biāo)注<A,R,B>,若A是一個(gè)概念,B在系統(tǒng)中沒(méi)有對(duì)應(yīng)的概念,同時(shí)B有其他關(guān)系連接,則<A,R,B>為新增概念關(guān)系。如標(biāo)注<司馬遷,創(chuàng)作,史記>,系統(tǒng)中<司馬遷,是,史學(xué)家>的記錄,同時(shí)也有<史記,被譽(yù)為,“史家之絕唱,無(wú)韻之離騷”>,此時(shí)可以把“創(chuàng)作”這個(gè)作為史學(xué)家的一個(gè)概念關(guān)系。

(6)一個(gè)語(yǔ)義標(biāo)注<A,R,B>,若A是一個(gè)概念,B在系統(tǒng)中沒(méi)有對(duì)應(yīng)的概念,同時(shí)B沒(méi)有其他關(guān)系連接,則<A,R,B>為新增概念屬性。如標(biāo)注<衛(wèi)青,字,仲卿>,衛(wèi)青是西漢大將軍,而仲卿則未有其他節(jié)點(diǎn)與之關(guān)聯(lián),則可以將“字”視為大將軍的一個(gè)屬性。

(三)群體智慧的聚合

互聯(lián)網(wǎng)環(huán)境下,參與眾包的用戶(hù)量巨大,需要有效的匯聚群體智慧的機(jī)制。本文參考王蓉博士的群體認(rèn)知聚合模型算法[12], 從兩個(gè)方面進(jìn)行語(yǔ)義標(biāo)注聚合計(jì)算:一是個(gè)體標(biāo)注的疊加效果計(jì)算,如多個(gè)用戶(hù)都標(biāo)注了相同的語(yǔ)義信息;二是群體對(duì)語(yǔ)義標(biāo)注聚合結(jié)果實(shí)施的行為表現(xiàn)出來(lái)的認(rèn)可程度,如瀏覽、投票次數(shù)等,對(duì)每個(gè)標(biāo)注Wi聚合算法如下:

其中:Wit為t時(shí)刻標(biāo)注W的權(quán)重;Wit-1為t-1時(shí)刻標(biāo)注W的權(quán)重;d為時(shí)間衰減因子;R為當(dāng)前標(biāo)注的可信度;y為投票權(quán)重系數(shù);V為對(duì)W的投票人數(shù);z 為瀏覽權(quán)重系數(shù);L為瀏覽過(guò)W的人數(shù)。

根據(jù)算法,用戶(hù)信任評(píng)價(jià)、投票、瀏覽參數(shù)的設(shè)定決定了群體智慧的價(jià)值取向和群體智慧進(jìn)化方向,當(dāng)一個(gè)學(xué)習(xí)資源的標(biāo)注的聚合程度超過(guò)一定閥值時(shí),可以認(rèn)為圍繞這個(gè)學(xué)習(xí)資源形成了一個(gè)群體認(rèn)知。其中R表示的標(biāo)注可信度是能否有效促進(jìn)學(xué)習(xí)資源語(yǔ)義眾包的關(guān)鍵,本文從社會(huì)信任評(píng)估和機(jī)器判斷2個(gè)方面進(jìn)行可信度計(jì)算,公式如下:

基于社會(huì)信任評(píng)估機(jī)制。利用開(kāi)放知識(shí)社區(qū)中的信任評(píng)估模型[13],系統(tǒng)為每個(gè)用戶(hù)建立信任評(píng)估值UT,對(duì)于對(duì)每一條語(yǔ)義標(biāo)注信息,用戶(hù)可以投贊成或者反對(duì)票。算法如下:

其中,f(x)為具體一條語(yǔ)義標(biāo)注信息可信度,UTn為具體投票用戶(hù)的可信度,K表示用戶(hù)的意見(jiàn),投贊成票時(shí)為1,反對(duì)票為-1。當(dāng)f(x)值超過(guò)系統(tǒng)預(yù)設(shè)的閥值時(shí),可以認(rèn)為這條語(yǔ)義標(biāo)注信息可信,可以存入語(yǔ)義數(shù)據(jù)庫(kù)。

基于Word2vec進(jìn)行關(guān)聯(lián)詞匹配判斷。語(yǔ)義標(biāo)注本質(zhì)上是把學(xué)習(xí)資源中的關(guān)鍵知識(shí)通過(guò)三元組進(jìn)行表示,每一個(gè)三元組都可以看成是描述主語(yǔ)和賓語(yǔ)之間的關(guān)聯(lián),理論上主語(yǔ)和賓語(yǔ)之間存在一定的共現(xiàn)概率。當(dāng)一個(gè)新的三元組被錄入時(shí),可以通過(guò)分析和主語(yǔ)一起相關(guān)詞匯,按照關(guān)聯(lián)度可以幫助判斷這個(gè)語(yǔ)義標(biāo)注的準(zhǔn)確性。Word2vec是Google在2013年發(fā)布基于深度學(xué)習(xí)的自然語(yǔ)言處理開(kāi)源工具[14],Word2vec可以將詞匯表征為向量,核心思想是將語(yǔ)料庫(kù)作為訓(xùn)練集,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算,因此可以利用word2vec來(lái)計(jì)算詞與詞之間的相似度,進(jìn)而實(shí)現(xiàn)語(yǔ)義標(biāo)注的質(zhì)量控制。算法流程如下表所示。

基于深度學(xué)習(xí)的本體進(jìn)化質(zhì)量控制算法表

四、基于學(xué)習(xí)元平臺(tái)的語(yǔ)義眾包實(shí)驗(yàn)

為驗(yàn)證系統(tǒng)對(duì)特定學(xué)科語(yǔ)文語(yǔ)義標(biāo)注效果,以學(xué)習(xí)元平臺(tái)(Learning Cell System,簡(jiǎn)稱(chēng)LCS)[15]作為支撐,基于人教版初中語(yǔ)文課本中的《孔子語(yǔ)錄十則》,要求學(xué)生完善儒家相關(guān)知識(shí),驗(yàn)證結(jié)合學(xué)科知識(shí)本體和眾包機(jī)制對(duì)學(xué)習(xí)資源進(jìn)行語(yǔ)義標(biāo)注的質(zhì)量,運(yùn)行時(shí)間為1個(gè)月。

(一)實(shí)驗(yàn)對(duì)象

本次實(shí)驗(yàn)選取某初級(jí)中學(xué)七年級(jí)學(xué)生43人作為實(shí)驗(yàn)對(duì)象,實(shí)驗(yàn)前已對(duì)學(xué)生進(jìn)行了語(yǔ)義標(biāo)注的相關(guān)操作培訓(xùn)。

(二)實(shí)驗(yàn)過(guò)程

1.任務(wù)描述

《孔子語(yǔ)錄十則》的教學(xué)目標(biāo)之一是“積累成語(yǔ)、格言、警句等,了解儒家相關(guān)諸子百家信息,并能用儒家的思想指導(dǎo)自己的言行”。這節(jié)課含有較多的人文性知識(shí)——儒家思想是中國(guó)傳統(tǒng)文化的核心之一,從孔子和儒家展開(kāi),可以呈現(xiàn)波瀾壯闊的中國(guó)傳統(tǒng)文化。學(xué)生通過(guò)了解儒家相關(guān)的知識(shí),進(jìn)行語(yǔ)義標(biāo)注,實(shí)現(xiàn)知識(shí)共享與構(gòu)建。

2.實(shí)驗(yàn)過(guò)程

(1)以人教版初中七年級(jí)語(yǔ)文課程《孔子語(yǔ)錄十則》為基礎(chǔ),學(xué)生學(xué)習(xí)相關(guān)學(xué)習(xí)資源,包括中國(guó)傳統(tǒng)文化、儒家經(jīng)典欣賞、百家爭(zhēng)鳴和儒家思想形成等;

(2)教師基于教學(xué)目標(biāo),針對(duì)每個(gè)學(xué)習(xí)資源發(fā)布語(yǔ)義標(biāo)注任務(wù);

(3)學(xué)生在學(xué)習(xí)元平臺(tái)上閱讀相關(guān)課程內(nèi)容;

(4)學(xué)生完成語(yǔ)義標(biāo)注活動(dòng)。

3.實(shí)驗(yàn)結(jié)果分析

(1)語(yǔ)義標(biāo)注結(jié)果分析:學(xué)生使用三元組標(biāo)注和構(gòu)建個(gè)人知識(shí)圖譜法,一共生成了134條三元組;系統(tǒng)對(duì)語(yǔ)義標(biāo)注的情況進(jìn)行質(zhì)量控制,包括用戶(hù)投票和利用Word2vec進(jìn)行機(jī)器判斷,其中一共有6833條用戶(hù)投票記錄,其中贊成票6703條,贊成比例為98%,反對(duì)票130條,反對(duì)比例為2%;Word2vce方面針對(duì)134條三元組,一共生成1356條候選詞匯,其中有236條記錄關(guān)聯(lián)詞匯被確認(rèn)相關(guān);最終有126條記錄存儲(chǔ)進(jìn)了語(yǔ)義數(shù)據(jù)庫(kù)。

(2)隱性知識(shí)標(biāo)注分析,134條標(biāo)注中有48條人文性知識(shí),集中在儒家相關(guān)名言上,如<儒家,名言,“三人行,必有我?guī)煛保荆肌叭诵?,必有我?guī)煛?,表示,要善于向其他學(xué)習(xí)>,不單揭示圍繞《論語(yǔ)十則》的隱性知識(shí),還表現(xiàn)出學(xué)生對(duì)知識(shí)的理解。

六、結(jié)論與展望

學(xué)習(xí)資源的語(yǔ)義標(biāo)注是構(gòu)建學(xué)科知識(shí)庫(kù)的重要環(huán)節(jié),本研究提出結(jié)合學(xué)科知識(shí)本體和眾包解決學(xué)習(xí)資源語(yǔ)義標(biāo)注問(wèn)題的方法,本方法可以利用人類(lèi)計(jì)算(Human Computation)解決學(xué)科知識(shí)中的蘊(yùn)涵的大規(guī)模隱性知識(shí)的語(yǔ)義標(biāo)注問(wèn)題,為深層次的學(xué)科知識(shí)庫(kù)構(gòu)建提供了一種新思路。本研究不足之處是體智慧匯聚還需探討更有效的算法,以確保群體智慧可以有效匯聚,同時(shí)在調(diào)動(dòng)用戶(hù)參與眾包上的獎(jiǎng)勵(lì)機(jī)制還可改進(jìn),如何設(shè)計(jì)高效有用的用戶(hù)激勵(lì)機(jī)制是眾包成功的關(guān)鍵。因此,本文的后續(xù)工作是針對(duì)學(xué)習(xí)社區(qū)群體,研究更有效的學(xué)習(xí)者智慧匯集算法,設(shè)計(jì)有吸引力同時(shí)相對(duì)低耗的激勵(lì)機(jī)制,讓更多的用戶(hù)參與語(yǔ)義標(biāo)注,為實(shí)現(xiàn)學(xué)科知識(shí)本體的進(jìn)化打下基礎(chǔ)。

[1] 荊濤,左萬(wàn)利等.中文網(wǎng)頁(yè)語(yǔ)義標(biāo)注:由句子到RDF表示[J].計(jì)算機(jī)研究與發(fā)展,2008,(7):1221-1231.

[2] 杰夫·豪(JEFF HOWE).眾包:群體力量驅(qū)動(dòng)商業(yè)未來(lái)[M].北京:中信出版社,2011.

[3] 邱均平等.國(guó)內(nèi)外語(yǔ)義標(biāo)注研究進(jìn)展分析[J].情報(bào)理論與實(shí)踐,2014,(5):12-16.

[4] 王傳清,畢強(qiáng).數(shù)字圖書(shū)館自動(dòng)化語(yǔ)義標(biāo)注工具系統(tǒng)模型研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014,(6):17-24.

[5] Von Ahn,Luis,Benjamin Maurer,Colin McMillen,David Abraham,and Manuel Blum.recaptcha:Human-based character recognition via web security measures[J].Science,2008,(321):1465-1468.

[6] Kim,Jonghak,Sangtae Kim,Joonhyuk Yang,Jung-hee Ryu,and KwangYun Wohn.Facecaptcha: a captcha that identifies the gender of face images unrecognized by existing gender classifiers[J].Multimedia Tools and Applications,2013,(72): 1-23.

[7] 胡昭陽(yáng).眾包科學(xué):網(wǎng)絡(luò)傳播語(yǔ)境下的公眾參與創(chuàng)新[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2015.

[8] 邰陽(yáng),基于眾包的語(yǔ)料標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].大連:大連理工大學(xué),2013.

[9] 丁宇,車(chē)萬(wàn)翔,劉挺,張梅山.基于眾包的詞匯聯(lián)想網(wǎng)絡(luò)的獲取和分析[J].中文信息學(xué)報(bào),2013,(3):100-106.

[10] 楊現(xiàn)民,余勝泉.開(kāi)放環(huán)境下學(xué)習(xí)資源內(nèi)容進(jìn)化的智能控制研究[J].電化教育研究,2013,(9):83-88.

[11] 余勝泉,楊現(xiàn)民.辨析“積件”“學(xué)習(xí)對(duì)象”與“學(xué)習(xí)活動(dòng)”——教育資源共享的新方向[J].中國(guó)電化教育,2007,(12):60-65.

[12] 王蓉,劉妍妍,陳禹,方美琪.社會(huì)性群體協(xié)作學(xué)習(xí)環(huán)境中的認(rèn)知聚合研究[J].信息系統(tǒng)學(xué)報(bào),2010,(1):65-75.

[13] 楊現(xiàn)民.泛在學(xué)習(xí)環(huán)境下的學(xué)習(xí)資源進(jìn)化研究[D].北京:北京師范大學(xué),2012.

[14] Tomas Mikolov.Word2vec project[EB/OL].https://code.google.com/p/ word2v,2015-12-06.

[15] 余勝泉,楊現(xiàn)民,程罡.泛在學(xué)習(xí)環(huán)境中的學(xué)習(xí)資源設(shè)計(jì)與共享——“學(xué)習(xí)元”的理念與結(jié)構(gòu)[J].開(kāi)放教育研究,2009,(1):47-53.

The Annotation of Learning Resources Based on Crowdsourcing

Ding Guozhu1,2, Yu Shengquan1,2, Pan Sheng1,2
(1.School of Educational Technology, Faculty of Education, Beijing Normal University, Beijing 100875; 2.The Joint Laboratory for Mobile Learning, Ministry of Education-China Mobile Communications Corporation, Beijing 100875)

Semantic annotation is the foundation and precondition of learning resources organization which based on Web3.0. But there are little paper Focus on the annotation of tacit knowledge. In this paper, we put forward a new way to solve this problem by crowdsourcing which can make full use of human computation to work out the magnanimity learning resources’ tacit knowledge. further on ,we created a crowdsourcing based semantic tagging system based on LCS, via vote by the user and the machine for quality control, realized tacit knowledge during the learning resources by the above work and to prove based on crowdsourcing can e ff ectively improve the quality of the annotation of learning resources by experiment.

Semantic Annotation; Crowdsourcing; Subject Learning Resources; Learning Cell

G434

A

丁國(guó)柱:在讀博士,研究方向?yàn)橹R(shí)本體技術(shù)、計(jì)算機(jī)教育應(yīng)用(laoding1982@qq.com)。

余勝泉:教授,博士生導(dǎo)師,研究方向?yàn)橐苿?dòng)教育與泛在學(xué)習(xí)、信息技術(shù)與課程整合、網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)關(guān)鍵技術(shù)、區(qū)域性教育信息化等(yusq@bnu.edu.cn)。

潘升:碩士,研究方向?yàn)檠芯糠较驗(yàn)橹R(shí)本體技術(shù)、計(jì)算機(jī)教育應(yīng)用(ps199052@163.com)。

2016年6月13日

責(zé)任編輯:趙興龍

1006—9860(2016)09—0091—05

* 本文受北京市未來(lái)教育高精尖創(chuàng)新中心項(xiàng)目“智慧學(xué)伴平臺(tái)設(shè)計(jì)與開(kāi)發(fā)”(項(xiàng)目編號(hào):BJAICFFE2016DR-001)資助。

猜你喜歡
三元組實(shí)例實(shí)體
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
特征標(biāo)三元組的本原誘導(dǎo)子
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
關(guān)于余撓三元組的periodic-模
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
完形填空Ⅱ
完形填空Ⅰ
三元組輻射場(chǎng)的建模與仿真
赞皇县| 漾濞| 崇州市| 长兴县| 浦城县| 曲阳县| 蓝田县| 兴业县| 邛崃市| 灵石县| 洛宁县| 改则县| 静安区| 和静县| 木兰县| 义乌市| 长乐市| 安阳县| 江陵县| 监利县| 兴山县| 京山县| 九龙坡区| 澎湖县| 宁晋县| 巍山| 会宁县| 布尔津县| 志丹县| 江永县| 塘沽区| 钟山县| 绥滨县| 宁南县| 华蓥市| 锡林浩特市| 怀来县| 牡丹江市| 民县| 沂水县| 崇义县|