国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)鍵詞標(biāo)注的教學(xué)論壇內(nèi)容組織方法研究

2009-06-02 06:32馬秀麟金海燕
現(xiàn)代教育技術(shù) 2009年12期
關(guān)鍵詞:分詞帖子聚類

馬秀麟 金海燕

【摘要】隨著網(wǎng)絡(luò)交互平臺(tái)在教學(xué)活動(dòng)中的普及,論壇、Blog等成為教學(xué)活動(dòng)中實(shí)現(xiàn)知識(shí)分享的重要手段。然而,論壇和Blog中帖子的無序性、同類帖子之間缺乏聯(lián)系等問題日益凸顯,成為知識(shí)進(jìn)一步共享的桎梏。因此,以分詞和文本聚類的相關(guān)理論為指導(dǎo),研究論壇帖子內(nèi)容的內(nèi)在聯(lián)系,探索在教學(xué)平臺(tái)上對(duì)帖子進(jìn)行分詞并通過關(guān)鍵詞實(shí)現(xiàn)標(biāo)注,進(jìn)而把論壇中的所有帖子歸納到知識(shí)體系中,對(duì)于提高教學(xué)平臺(tái)的服務(wù)質(zhì)量,實(shí)現(xiàn)大范圍的知識(shí)分享和建構(gòu)具有重要意義。

【關(guān)鍵詞】中文分詞;知識(shí)體系;關(guān)鍵詞標(biāo)注

【中圖分類號(hào)】G420 【文獻(xiàn)標(biāo)識(shí)碼】A【論文編號(hào)】1009—8097(2009)12—0087—04

一 問題的發(fā)現(xiàn)

隨著教育技術(shù)的發(fā)展,教學(xué)服務(wù)平臺(tái)在教學(xué)活動(dòng)中發(fā)揮著越來越重要的作用,論壇、Blog等成為學(xué)習(xí)者進(jìn)行知識(shí)分享的重要平臺(tái)。教育技術(shù)的相關(guān)研究證明:學(xué)習(xí)者在論壇(或Blog)中按照自己對(duì)知識(shí)的理解撰寫帖子、參與討論,有利于學(xué)習(xí)者按照個(gè)體思維習(xí)慣對(duì)知識(shí)點(diǎn)及其內(nèi)在聯(lián)系進(jìn)行梳理,使之規(guī)范化、條理化,是一種重要的知識(shí)重構(gòu)過程。在這一過程中,學(xué)習(xí)者能夠使自己的隱性知識(shí)顯性化,并通過Blog或個(gè)人網(wǎng)頁與其他同學(xué)分享自己對(duì)知識(shí)的理解。同學(xué)之間通過相互分享不同語言形式、不同理解風(fēng)格的知識(shí)樹,有助于他們從不同的角度探討知識(shí),深化個(gè)體對(duì)知識(shí)的理解。因此,學(xué)習(xí)者參與論壇并組織專題討論的過程本身就是一個(gè)知識(shí)建構(gòu)、知識(shí)遷移和知識(shí)創(chuàng)新的過程[1]。

然而,在開展具體研究的過程中,筆者發(fā)現(xiàn):隨著論壇(或Blog)中帖子數(shù)量的增加,帖子的無序性、同類帖子之間缺乏聯(lián)系的缺陷逐步暴露出來。當(dāng)論壇(或Blog)中帖子的數(shù)量達(dá)到一定規(guī)模時(shí),學(xué)習(xí)者常常難以從帖子的海洋中獲取所需的內(nèi)容。這一問題導(dǎo)致學(xué)習(xí)者在閱讀其他同學(xué)的帖子和回帖的過程中,只能就當(dāng)前的主題帖和回帖進(jìn)行討論,很難獲取針對(duì)同一知識(shí)點(diǎn)的其他主題帖及相關(guān)回帖,使知識(shí)的分享和重構(gòu)受到限制。

針對(duì)教學(xué)論壇(或Blog)中同類帖子之間缺乏聯(lián)系、不利于知識(shí)分享和社會(huì)知識(shí)建構(gòu)的狀況,筆者進(jìn)行了如下設(shè)想:“如果以學(xué)科教學(xué)中的知識(shí)點(diǎn)為鏈接結(jié)點(diǎn),建構(gòu)教學(xué)論壇(或Blog)中各類帖子之間的聯(lián)系,建立以知識(shí)體系為核心的導(dǎo)航系統(tǒng),過濾掉一些與學(xué)科教學(xué)相關(guān)性低的帖子,就能提高優(yōu)質(zhì)帖子的利用率,使學(xué)習(xí)者在參與討論的過程中,能夠快速地獲取相關(guān)的帖子。通過論壇中的這種橫向鏈接關(guān)系,引導(dǎo)學(xué)習(xí)者在參與討論的過程中展開聯(lián)想,逐步擴(kuò)大知識(shí)面,從而促進(jìn)學(xué)習(xí)者從不同的層次和維度思考問題,促使學(xué)習(xí)者從多個(gè)角度實(shí)現(xiàn)意義建構(gòu)?!?/p>

盡管Web2.0已經(jīng)提出了對(duì)信息標(biāo)記和管理的方法、思想,而且Tag和RSS的思路也已在某些Blog中有所體現(xiàn)。然而,由于其標(biāo)注關(guān)鍵詞和超級(jí)鏈接管理都非常注重普適性,并不是面向?qū)W科教學(xué)的,因此在實(shí)際的教學(xué)應(yīng)用中仍存在標(biāo)注不夠便利、對(duì)普通學(xué)生要求較高、其關(guān)鍵詞并沒有完全面向?qū)W科教學(xué)等缺點(diǎn)。

為此,筆者認(rèn)為:在對(duì)教學(xué)平臺(tái)論壇(或Blog)的管理過程中融入知識(shí)科學(xué)的文本聚類思想,使教學(xué)平臺(tái)能夠針對(duì)學(xué)科知識(shí)特點(diǎn),選取特定的詞匯作為特征向量,探討知識(shí)點(diǎn)之間的聯(lián)系,自動(dòng)形成基于知識(shí)點(diǎn)聯(lián)系的知識(shí)網(wǎng)絡(luò)圖,對(duì)于提高教學(xué)平臺(tái)的服務(wù)水平、促進(jìn)學(xué)習(xí)者積極地進(jìn)行意義建構(gòu)是具有重要意義的。

二 系統(tǒng)設(shè)計(jì)的指導(dǎo)思想

探求解決上述問題的方法,其關(guān)鍵是解決對(duì)帖子的分析、聚類問題,即探索一種算法,解決如何依據(jù)帖子所反應(yīng)的知識(shí)內(nèi)容,為大量帖子建立基于知識(shí)體系的橫向關(guān)聯(lián)的問題。

1 指導(dǎo)思想

鑒于中文信息處理的特點(diǎn),借鑒中文信息處理的最新成果,在這一任務(wù)中,首先要解決的是中文文檔的分詞問題,其次是如何使文本聚類、并使相關(guān)文檔建立鏈接關(guān)系等問題。因此,需要解決好以下子任務(wù):

(1)選擇適當(dāng)?shù)脑~匯庫作為基礎(chǔ)語料庫,并要求學(xué)科教師根據(jù)學(xué)科的特點(diǎn)組織專有名詞、專業(yè)術(shù)語豐富基礎(chǔ)語料庫,作為實(shí)現(xiàn)分詞的依據(jù)。

(2)選擇有效的分詞算法,對(duì)平臺(tái)內(nèi)尚未處理的帖子進(jìn)行分詞處理,并重點(diǎn)關(guān)注與學(xué)科關(guān)系密切的專業(yè)術(shù)語在帖子中出現(xiàn)的頻率和位置。

(3)分析帖子內(nèi)學(xué)科專業(yè)術(shù)語的作用、頻率和權(quán)重,利用文本聚類的相關(guān)理論,計(jì)算帖子與關(guān)鍵詞之間的相關(guān)度,并把計(jì)算結(jié)果填寫到相關(guān)度表格中。

(4)利用動(dòng)態(tài)網(wǎng)站設(shè)計(jì)的有關(guān)技術(shù)(ASP.Net或JSP),以可視化的方式呈現(xiàn)帖子之間的邏輯關(guān)系。

2 相關(guān)研究綜述

從當(dāng)前文本聚類分析的技術(shù)發(fā)展來看,文本聚類分析已經(jīng)發(fā)展成為一項(xiàng)具有較大實(shí)用價(jià)值的技術(shù),其目標(biāo)是在分析文本內(nèi)容的基礎(chǔ)上,按照預(yù)先定義的文本類別,使多篇文本被自動(dòng)歸類。由于英文以單詞作為語言的基本單位,每個(gè)單詞表示一個(gè)固定的語義,每?jī)蓚€(gè)單詞之間都有相對(duì)固定的分隔符號(hào)。因此基于英語文本的聚類分析不需要考慮單詞的劃分問題。與英文的聚類研究不同,中文以漢字作為文字的基本單位,以詞語作為語義的基本單位,不同的漢字被組織起來形成語義不同的詞匯,而且在漢語形態(tài)的句子中詞匯之間沒有專門分隔符號(hào)。因此在中文環(huán)境下實(shí)現(xiàn)文本聚類分析的前提是分詞,即把一個(gè)句子分隔成為若干個(gè)詞匯,然后再通過分析、計(jì)算詞匯描述的語義,實(shí)現(xiàn)文本的聚類。

從分詞算法來看,現(xiàn)有的分詞算法有三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。比較上述三種方法,基于詞表最大匹配的分詞方法具有程序?qū)崿F(xiàn)簡(jiǎn)單、開發(fā)周期短的特點(diǎn),盡管其分詞準(zhǔn)確率僅有95%左右,但已基本能夠滿足本研究的要求[2]。因此,筆者決定采用這種分詞方案。

從文本聚類算法來看,常用的算法有VSM(空間向量模型)、RBF(徑向基函數(shù)方法)、參考上下文計(jì)算相關(guān)度的聚類算法(基于本體論詞典的發(fā)展而形成的)等等[3]。上述算法在文本聚類的研究中各有特色,都產(chǎn)生了重要影響。

由于傳統(tǒng)的VSM在舍棄了各關(guān)鍵詞匯在文檔中的順序關(guān)系之后,可以把文檔簡(jiǎn)單地表征為由關(guān)鍵詞匯表示的向量空間中的點(diǎn)的集合。因此,只需通過計(jì)算兩個(gè)文檔的向量集內(nèi)部點(diǎn)之間的距離就能確定文檔類別的歸屬。然而研究發(fā)現(xiàn),以文本向量空間模型對(duì)文檔進(jìn)行初步表示以后,用于表達(dá)文本內(nèi)容的向量空間的維數(shù)很大,甚至可以達(dá)到幾萬維,導(dǎo)致分類算法的計(jì)算量太大,而且過高的維數(shù)導(dǎo)致無法準(zhǔn)確地提取文檔的分類信息。因此,降維是提高分類算法效率并提高其分類準(zhǔn)確率的重要手段。在這一思想的指導(dǎo)下,選擇特征項(xiàng)并設(shè)置特征項(xiàng)在分類算法中的權(quán)重是文本聚類中常見的手段。其中文檔頻率、X2統(tǒng)計(jì)(CHI)是其常用的算法,而互信息算法(MI)的理論研究也有重要的應(yīng)用價(jià)值[4]。

基于上述指導(dǎo)思想,針對(duì)學(xué)科的特點(diǎn),采取以專業(yè)術(shù)語和專有名詞為特征項(xiàng)的文本挖掘技術(shù),開展知識(shí)點(diǎn)與論壇文本之間的相關(guān)度研究是完全可行的。

三 系統(tǒng)算法與實(shí)施

1 傳統(tǒng)論壇的數(shù)據(jù)結(jié)構(gòu)

論壇中的帖子一般可分為兩大類,一類是主帖,一類是針對(duì)主帖的回帖。在傳統(tǒng)的論壇中,僅需保存帖子的內(nèi)容及其與回帖之間的關(guān)系即可,因此其數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)非常簡(jiǎn)單。論壇帖子表的存儲(chǔ)結(jié)構(gòu)通常如表1所示。

表1 論壇帖子的存儲(chǔ)結(jié)構(gòu)

在論壇中,所有帖子都有一個(gè)唯一的主ID號(hào),主ID由DBMS自動(dòng)生成,用于唯一地標(biāo)記這個(gè)帖子。主帖的副ID號(hào)為0,用于標(biāo)記這是一個(gè)主帖。而所有的回帖都直接使用被回復(fù)帖的“ID號(hào) & 副ID號(hào)”作為自己的副ID號(hào)。由于副ID號(hào)采用不定長(zhǎng)的特征碼表示方法,因此可利用副ID號(hào)區(qū)分當(dāng)前帖子是對(duì)主帖的直接回帖,還是對(duì)回帖的回帖。

2 對(duì)傳統(tǒng)論壇數(shù)據(jù)結(jié)構(gòu)的改進(jìn)

為了能夠?qū)崿F(xiàn)對(duì)論壇內(nèi)容的分詞處理并記錄帖子之間的內(nèi)在聯(lián)系,擬在傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,增加兩個(gè)數(shù)據(jù)表。

(1)帖子關(guān)聯(lián)度表

為了能有效地表示出各個(gè)帖子之間的知識(shí)關(guān)系,把他們組織到一個(gè)知識(shí)體系中,在上述數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,首先要增加一個(gè)新數(shù)據(jù)表:帖子關(guān)聯(lián)度表。其結(jié)構(gòu)如表2所示。

表2 帖子關(guān)聯(lián)度的存儲(chǔ)結(jié)構(gòu)

帖子關(guān)聯(lián)度表的作用是記錄帖子與各個(gè)關(guān)鍵詞之間的關(guān)聯(lián)度情況。

(2)詞表

在文本分詞和聚類過程中,基礎(chǔ)性的工具是分詞所依據(jù)的語料庫。在本研究中,筆者設(shè)計(jì)了如表3所示的數(shù)據(jù)表,作為詞表的基本結(jié)構(gòu)。

其中,詞匯ID可由系統(tǒng)自動(dòng)生成,是詞匯的唯一性標(biāo)記;詞匯內(nèi)容項(xiàng)用于保存常用的詞匯、學(xué)科的專業(yè)術(shù)語和專業(yè)名詞;頻度項(xiàng)用于記載當(dāng)前研究的文本中對(duì)應(yīng)詞匯出現(xiàn)的頻度,默認(rèn)值為0;詞匯的權(quán)重項(xiàng)則用于說明該詞匯在學(xué)科中的重要性程度,默認(rèn)值為1,最高值為5。

另外,為了標(biāo)明帖子是否已經(jīng)被分詞處理或關(guān)聯(lián)度標(biāo)注,在帖子表中增加一個(gè)新字段“處理狀況”。對(duì)于已經(jīng)進(jìn)行過關(guān)聯(lián)度標(biāo)注的帖子,標(biāo)記為“已處理”。

3 準(zhǔn)備詞表

(1)構(gòu)造基礎(chǔ)詞表。構(gòu)造基礎(chǔ)詞表的首要任務(wù)是選擇一個(gè)應(yīng)用較廣泛的語料庫內(nèi)容作為基礎(chǔ)詞匯,并把語料庫的內(nèi)容填寫到詞表(表3)的詞匯字段中。

(2)豐富詞表。要求學(xué)科教師根據(jù)學(xué)科的知識(shí)體系、教學(xué)內(nèi)容構(gòu)成、知識(shí)點(diǎn)的重要程度等要素,把學(xué)科教學(xué)中常用的術(shù)語、專有名詞、具有特定語義的描述方法,添加到詞表中。

(3)優(yōu)化調(diào)整詞表。為了保證系統(tǒng)標(biāo)注的效率和專用術(shù)語的完整性,首先調(diào)整一些虛詞、助詞的權(quán)重為0;然后強(qiáng)化專業(yè)術(shù)語的權(quán)重級(jí)別,使專業(yè)術(shù)語能夠優(yōu)先被標(biāo)注。因此可根據(jù)專業(yè)詞匯的重要性程度,分別給予2~5級(jí)的權(quán)重。最后按照“權(quán)重(升序)”+“字符串順序(降序)”對(duì)詞表排序。

通過上述處理,能保證專業(yè)術(shù)語和長(zhǎng)字符串被優(yōu)先標(biāo)注,保證了諸如“北京師范大學(xué)”之類的專有名詞不會(huì)被拆分為“北京”、“師范”、“大學(xué)”等多個(gè)詞匯。

4 文本分析與標(biāo)注算法

在基于匹配的算法中,相關(guān)理論證明,逆向匹配算法的精度較高,出現(xiàn)二義性的概率較低,因此本研究采用了逆向匹配算法[5]。即對(duì)一個(gè)發(fā)帖的內(nèi)容與詞表進(jìn)行逆向匹配,并把成功匹配的結(jié)果記錄到詞表的相應(yīng)詞匯的“頻度”字段中。

(1)獲取待處理數(shù)據(jù)

首先從表1所示的帖子表中獲取一條“處理狀況”為空的記錄,從中提取其字段“內(nèi)容”的值,存儲(chǔ)到變量X中,并記下該帖子的主ID號(hào)和副ID號(hào)。

(2)逆向匹配處理

按照如圖1所示的算法,實(shí)現(xiàn)對(duì)文檔的逆向匹配處理。

圖1 逆向匹配處理算法的N-S圖

(3)登記匹配結(jié)果

首先按照公式“計(jì)算值=權(quán)重×頻度”對(duì)詞匯表進(jìn)行計(jì)算,求取本帖內(nèi)容中用到的各個(gè)詞匯的最終重要性程度,把計(jì)算結(jié)果存儲(chǔ)到詞表的“計(jì)算值”字段中,最后按照計(jì)算結(jié)果對(duì)詞表進(jìn)行降序排列。通常需要根據(jù)帖子的長(zhǎng)度、反應(yīng)詞匯重要性程度的計(jì)算值等數(shù)據(jù),確定哪些詞匯及其頻度值需要納入到關(guān)聯(lián)度表(表2)中。在本研究中,筆者選擇了公式“文本長(zhǎng)度×0.01+詞條重要性程度×0.2”作為衡量詞條關(guān)聯(lián)度水平的標(biāo)準(zhǔn)。最后在帖子表(表1)中,把本帖的字段“處理狀況”標(biāo)記為“已處理”。

(4)顯示分析結(jié)果

根據(jù)關(guān)聯(lián)度表格中記錄的帖子與關(guān)鍵詞條的關(guān)聯(lián)度狀況,在動(dòng)態(tài)網(wǎng)頁中通過文本超級(jí)鏈接、圖像Map技術(shù)等建立帖子與知識(shí)點(diǎn)之間的鏈接關(guān)系,從而把師生在教學(xué)服務(wù)平臺(tái)中的討論情況納入到教學(xué)知識(shí)體系中,以可視化的形態(tài)提供給學(xué)習(xí)者。

四 系統(tǒng)運(yùn)行與評(píng)價(jià)

1 系統(tǒng)運(yùn)行說明

由于本算法的目的是對(duì)教學(xué)平臺(tái)中的討論內(nèi)容進(jìn)行標(biāo)注并建立各個(gè)發(fā)帖與知識(shí)點(diǎn)之間的鏈接,從而有利于學(xué)習(xí)者在使用教學(xué)平臺(tái)學(xué)習(xí)過程中開展聯(lián)想,獲取相關(guān)知識(shí),所以對(duì)信息反饋的實(shí)時(shí)性要求并不高。因此,為減輕教學(xué)服務(wù)平臺(tái)的負(fù)擔(dān),并不需要實(shí)時(shí)地分析和運(yùn)行本程序,只需在系統(tǒng)負(fù)荷較低時(shí)執(zhí)行本模塊,實(shí)現(xiàn)對(duì)未處理帖子的標(biāo)注與鏈接。事實(shí)上,在實(shí)際的應(yīng)用環(huán)境中,可把這一工作指定為服務(wù)器系統(tǒng)的一個(gè)任務(wù),要求這個(gè)任務(wù)在每天0點(diǎn)左右自動(dòng)執(zhí)行一次。

2 運(yùn)行效果

為了更清晰地說明本算法的運(yùn)行狀況,本文僅以高中物理教學(xué)的學(xué)生論壇為例進(jìn)行簡(jiǎn)要說明。圖2是進(jìn)行關(guān)鍵字標(biāo)注前的論壇的討論界面。圖3是已經(jīng)進(jìn)行了關(guān)鍵字標(biāo)注后的論壇討論界面。

圖2 沒有進(jìn)行關(guān)鍵字標(biāo)注前的論壇界面

圖3 已經(jīng)進(jìn)行了關(guān)鍵字標(biāo)注后的論壇界面

從圖2和圖3的對(duì)比可以發(fā)現(xiàn),圖3的每個(gè)發(fā)帖后都生成了相應(yīng)的關(guān)鍵詞。通過每個(gè)關(guān)鍵詞對(duì)應(yīng)的超級(jí)鏈接,可以很快地跳轉(zhuǎn)到對(duì)應(yīng)的頁面上,進(jìn)行相關(guān)知識(shí)的學(xué)習(xí)或者參與對(duì)相關(guān)問題的討論。另外,為了更清晰地表示知識(shí)的層次關(guān)系,在本案例中,已經(jīng)根據(jù)主帖中的關(guān)鍵詞“勻變速直線運(yùn)動(dòng)”把圖3所示的帖字鏈接到了如圖4所示的知識(shí)網(wǎng)絡(luò)圖內(nèi),以便學(xué)習(xí)者在參與討論時(shí)能夠方便地獲取其他類型的學(xué)習(xí)資源,進(jìn)行相關(guān)內(nèi)容的學(xué)習(xí)。

圖4 勻變速直線運(yùn)動(dòng)的直線網(wǎng)絡(luò)圖

3 算法運(yùn)行狀況評(píng)價(jià)

在實(shí)際教學(xué)過程中,本算法能夠自動(dòng)地把師生的討論情況納入到學(xué)科知識(shí)體系中,使原本凌亂無序的各類帖子從知識(shí)結(jié)構(gòu)的角度被組織起來,從而使學(xué)習(xí)者可以更容易地獲取與自己當(dāng)前關(guān)注的知識(shí)點(diǎn)密切相關(guān)的各類帖子和各種學(xué)習(xí)資源,對(duì)于促進(jìn)學(xué)習(xí)者在個(gè)體原有知識(shí)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行意義建構(gòu)是非常有效的。

由于算法基于數(shù)據(jù)庫實(shí)現(xiàn),因此在算法實(shí)現(xiàn)中可以充分地利用DBMS自身提供的各類優(yōu)化算法提高程序的執(zhí)行效率,從而有效地降低程序開發(fā)的復(fù)雜度。

本算法允許教師用戶在應(yīng)用系統(tǒng)過程中不斷優(yōu)化其知識(shí)體系結(jié)構(gòu)。首先,教師可以在使用系統(tǒng)過程中不斷地調(diào)整和完善詞表,在教師認(rèn)為必要的情況下,允許他們清除所有帖子的處理狀況信息,從而重建所有的關(guān)聯(lián)信息。其次,由于本算法建立在分詞算法的基礎(chǔ)上,能夠在系統(tǒng)運(yùn)行過程中不斷地收集沒有匹配成功的單字,研究單字之間是否存在聯(lián)系,進(jìn)而發(fā)現(xiàn)針對(duì)該學(xué)科遺漏的重點(diǎn)詞匯,并利用它們逐步地完善詞表。

4 本研究的不足

盡管在研究本算法的過程中,筆者閱讀了大量關(guān)于分詞和文本聚類分析的文獻(xiàn),但大多數(shù)文獻(xiàn)的算法都是基于統(tǒng)計(jì)學(xué)的,算法比較復(fù)雜,計(jì)算量很大,不能適應(yīng)教學(xué)論壇中并發(fā)用戶數(shù)大、發(fā)帖量高而短小的特點(diǎn)。因此筆者對(duì)相關(guān)算法進(jìn)行了簡(jiǎn)化,使之符合以教學(xué)平臺(tái)開展學(xué)科教學(xué)的特點(diǎn)。然而,這種簡(jiǎn)化也帶來了一系列的問題,導(dǎo)致算法中出現(xiàn)了許多需要完善的地方。與大型的文本聚類算法相比,本算法①在解決系統(tǒng)學(xué)習(xí)、補(bǔ)充新詞,完善詞表方面仍有不足,需要教師的人工干預(yù);②僅僅實(shí)現(xiàn)了對(duì)論壇內(nèi)容的關(guān)鍵詞檢索與標(biāo)注,實(shí)現(xiàn)了帖子與帖子、帖子與知識(shí)點(diǎn)之間的關(guān)聯(lián),但對(duì)于大型文檔之間的關(guān)聯(lián)、分類缺乏更深入的探索;在呈現(xiàn)給學(xué)習(xí)者的視圖中,反應(yīng)鏈接關(guān)系的表示方式也略顯粗糙。

五 總結(jié)

對(duì)教學(xué)服務(wù)平臺(tái)中學(xué)習(xí)資源的組織與管理不僅僅是信息科學(xué)的研究范疇,更需要教育科學(xué)、心理科學(xué)的指導(dǎo),使學(xué)習(xí)資源內(nèi)含的知識(shí)點(diǎn)及其邏輯關(guān)系能夠體現(xiàn)出知識(shí)體系結(jié)構(gòu)及其層次關(guān)系,有利于學(xué)習(xí)者通過聯(lián)想、圖式、平衡等手段實(shí)現(xiàn)意義建構(gòu)。本算法的目的在于解決教學(xué)平臺(tái)中論壇帖子的無序問題,在算法的應(yīng)用實(shí)踐中,通過專業(yè)術(shù)語和專業(yè)名詞為關(guān)鍵詞標(biāo)注每一個(gè)帖子,并自動(dòng)把帖子掛接到系統(tǒng)的知識(shí)體系樹內(nèi),較好地實(shí)現(xiàn)了預(yù)期目標(biāo)。本算法的實(shí)施為學(xué)習(xí)者在參與討論過程中快速地獲取其他相關(guān)信息提供了重要支持,無疑在提高學(xué)習(xí)者的學(xué)習(xí)效率,促使學(xué)習(xí)者通過聯(lián)想、同化、平衡等手段快速建構(gòu)知識(shí)體系等方面都是非常有益的。

——————————

參考文獻(xiàn)

[1] 馬秀麟,白鳳鳳.基于知識(shí)管理的網(wǎng)絡(luò)學(xué)習(xí)資源的組織[J].中國(guó)教育信息化,2007,19:60-62.

[2] 賀艷艷.基于詞表結(jié)構(gòu)的中文分詞算法研究[D].北京:中國(guó)地質(zhì)大學(xué),2007.

[3] 丘志宏,宮雷光.利用上下文提高文本聚類效果[J].中文信息學(xué)報(bào),2007,(11):109-115.

[4] 李小紅,許少華.基于模糊向量和BP網(wǎng)絡(luò)的Web文本自動(dòng)分類方法[J].福建電腦,2006,(2):94-95.

[5] 劉新,劉任任.一種基于逆向匹配算法的中文文本分類技術(shù)[J].計(jì)算機(jī)應(yīng)用,2008,(4):945-947.

猜你喜歡
分詞帖子聚類
分詞在英語教學(xué)中的妙用
基于模糊聚類和支持向量回歸的成績(jī)預(yù)測(cè)
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
基于流形學(xué)習(xí)的自適應(yīng)反饋聚類中心確定方法
基于密度的自適應(yīng)搜索增量聚類法
暴力老媽
高手是這樣拍馬屁的
聚焦現(xiàn)在完成進(jìn)行時(shí)
我是怎樣在壇子里墮落的