李菲 路陽(yáng) 馬強(qiáng)
摘? ?要:隨著教育信息化的迅速發(fā)展,以及高等教材具有的專業(yè)性、開放性、公開性等特性,高校課程教材的種類和數(shù)量不斷增加。由此帶來(lái)了諸如同一學(xué)科課程教材內(nèi)容相互交叉、重疊、低水平重復(fù)等現(xiàn)象日益突顯,以及個(gè)性化教材編制缺少有效參考等問(wèn)題。文章基于文本挖掘技術(shù)對(duì)高等教材內(nèi)容進(jìn)行分析,即借助統(tǒng)計(jì)方法識(shí)別教材中的術(shù)語(yǔ)之后,使用自然語(yǔ)言處理技術(shù)對(duì)文本內(nèi)容進(jìn)行分詞處理,進(jìn)而統(tǒng)計(jì)并截取出高頻詞匯,構(gòu)建“高頻詞—課程教材”矩陣,對(duì)高頻詞匯在同一學(xué)科課程教材知識(shí)內(nèi)容中的分布情況進(jìn)行聚類分析,挖掘出課程教材某一知識(shí)點(diǎn)研究中的熱點(diǎn)。最后實(shí)現(xiàn)知識(shí)點(diǎn)的量化,以期幫助課程教材編制人員篩選、評(píng)價(jià)教材,為個(gè)性化課程教材編制提供輔助。
關(guān)鍵詞:內(nèi)容分析;文本挖掘;術(shù)語(yǔ)識(shí)別;層次聚類;熱點(diǎn)分析
中圖分類號(hào):G434 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2021)05-0054-07
一、研究背景
在教育信息化的推進(jìn)過(guò)程中,高等教育的教學(xué)資源越來(lái)越多[1]。通過(guò)檢索《讀秀》數(shù)據(jù)庫(kù)中書籍名為《教育心理學(xué)》的圖書,分別采用“精確匹配”的方式搜索到4332本圖書和采用“模糊匹配”的方式共搜索到20235本。分析每年《教育心理學(xué)》教材的出版數(shù)量,發(fā)現(xiàn)課程教材每年的出版增長(zhǎng)量基本呈現(xiàn)平穩(wěn)趨勢(shì)。
傳統(tǒng)的教材分析方式主要依據(jù)教材評(píng)價(jià)指標(biāo)體系及專家評(píng)議,針對(duì)不同學(xué)科類別,從多個(gè)方面對(duì)課程教材進(jìn)行專家評(píng)分,通過(guò)專家評(píng)分得到教材的量化結(jié)果[2]。這種教材評(píng)價(jià)方式具有使用簡(jiǎn)單、直觀性強(qiáng)的特點(diǎn),但其評(píng)價(jià)體系設(shè)計(jì)復(fù)雜、繁瑣、主觀性強(qiáng),在靈活性、準(zhǔn)確性和客觀性上尚存在欠缺[3]。
隨著高等課程教材數(shù)量的不斷增長(zhǎng),采用傳統(tǒng)的課程教材評(píng)價(jià)方式,顯然存在任務(wù)量大、耗時(shí)費(fèi)力等問(wèn)題。文本挖掘借助于數(shù)據(jù)挖掘、自然語(yǔ)言處理、AI、機(jī)器學(xué)習(xí)等技術(shù),意在挖掘半結(jié)構(gòu)化、非結(jié)構(gòu)化文本材料中隱含的規(guī)則、規(guī)律、模式、約束等能夠幫助人們做出決策的有用知識(shí)的技術(shù)[4-6]。近年來(lái),一些研究者對(duì)文本挖掘領(lǐng)域研究不斷深入。例如:李尚昊、朝樂(lè)門通過(guò)檢索知網(wǎng)中有關(guān)“文本挖掘”和“信息分析”的期刊、學(xué)位與會(huì)議論文,從期刊來(lái)源、學(xué)位論文來(lái)源及所屬專業(yè)、基金來(lái)源等多角度進(jìn)行分析,并將期刊和論文中的關(guān)鍵詞進(jìn)行統(tǒng)計(jì)和聚類分析,得出文本挖掘在中文信息分析應(yīng)用中的三方面研究,包括文本挖掘基本理論和方法研究、在Web中文信息處理中的研究、結(jié)合具體領(lǐng)域的研究[7]。施萱軒等人通過(guò)將文本挖掘技術(shù)應(yīng)用到電力行業(yè)中,結(jié)合文本挖掘的流程,提取出電力部門反饋信息中的關(guān)鍵詞,并對(duì)投訴信息進(jìn)行情感分析[8],從而為客戶提供了更好的服務(wù)。程志、黃榮懷在文本挖掘定義、過(guò)程和實(shí)現(xiàn)途徑分析研究的基礎(chǔ)上,重點(diǎn)探討了文本挖掘在教育中的應(yīng)用,歸納出文本挖掘在學(xué)生檢索信息(有效性和高效性)、個(gè)性化服務(wù)、教學(xué)文檔資料管理、信息保護(hù)和安全(垃圾郵件過(guò)濾)等方面發(fā)揮的重要作用[9]。
基于教材存在的問(wèn)題和文本挖掘相關(guān)研究、應(yīng)用領(lǐng)域的深入,筆者提出一種借助于文本挖掘技術(shù)的高等教材內(nèi)容分析方法。通過(guò)學(xué)校圖書館和教育教材相關(guān)網(wǎng)站下載1995—2015年間的《教育心理學(xué)》高等課程教材24本,隨機(jī)抽取課程教材中的某一知識(shí)點(diǎn)文本內(nèi)容為實(shí)驗(yàn)樣本。該方法首先對(duì)數(shù)據(jù)化后的文本內(nèi)容進(jìn)一步加工處理,統(tǒng)計(jì)出文本內(nèi)容中的詞頻,構(gòu)建“高頻詞—課程教材”矩陣,然后采用凝聚層次聚類算法按照高頻詞在同一門課程教材知識(shí)內(nèi)容中的分布情況劃分類簇,并評(píng)價(jià)聚類效果,最后挖掘出《教育心理學(xué)》課程教材中學(xué)習(xí)動(dòng)機(jī)知識(shí)點(diǎn)研究的三個(gè)方面和三十個(gè)知識(shí)點(diǎn)主題。從而為高等課程教材內(nèi)容分析提供一種新的思路和方法。
二、數(shù)據(jù)來(lái)源和文本挖掘方法
DIKW金字塔(DIKW Pyramind)模型解釋了數(shù)據(jù)(Data)與信息(Information)、知識(shí)(Knowledge)、智慧(Wisdom)之間的區(qū)別和聯(lián)系,如圖1所示。從“數(shù)據(jù)”到“智慧”,不但是人們認(rèn)識(shí)程度的提升過(guò)程,而且也是“從認(rèn)識(shí)部分到理解整體、從描述過(guò)去(或現(xiàn)在)到預(yù)測(cè)未來(lái)”的過(guò)程[10]。
數(shù)據(jù):是用來(lái)記錄現(xiàn)實(shí)世界中的事物所使用的數(shù)字、文字、視頻等多種形式的符號(hào)。
信息:通常被認(rèn)為是對(duì)事物狀態(tài)和特征的描述,數(shù)據(jù)處于不同環(huán)境或場(chǎng)景之下具有不同的含義。
知識(shí):人們從數(shù)據(jù)、信息中發(fā)現(xiàn)的,在數(shù)據(jù)或信息中存在的共性規(guī)律、認(rèn)識(shí)、經(jīng)驗(yàn)與常識(shí)等。依據(jù)知識(shí)能否清晰表述和有效轉(zhuǎn)移,可將其分為顯性知識(shí)(Explicit knowledge)和隱性知識(shí)(Tacit Knowledge)[11]。
智慧:與人類頭腦相關(guān)的,在頭腦中形成的感知、理解、記憶、遷移、文化等超出知識(shí)的多種能力。
相比于數(shù)據(jù)庫(kù)中結(jié)構(gòu)明確、存儲(chǔ)規(guī)范的數(shù)據(jù)形式,文本由于其不存在或難以發(fā)現(xiàn)統(tǒng)一結(jié)構(gòu),也無(wú)法按照預(yù)先定義好的結(jié)構(gòu)(一般是數(shù)據(jù)庫(kù)直接存儲(chǔ))進(jìn)行文本數(shù)據(jù)的捕獲、存儲(chǔ)、計(jì)算和管理等特性,所以歸屬于非結(jié)構(gòu)化數(shù)據(jù)[12]。
為了對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行挖掘和分析,從而進(jìn)一步幫助管理者做出決策。本文設(shè)計(jì)了一種基于文本挖掘的高等課程教材內(nèi)容分析方法,融入數(shù)據(jù)科學(xué)的思想,實(shí)現(xiàn)文本挖掘過(guò)程,具體過(guò)程如圖2所示。數(shù)據(jù)來(lái)源為校圖書館數(shù)據(jù)庫(kù)中的《教育心理學(xué)》電子書籍,采用文字識(shí)別和轉(zhuǎn)換工具,完成對(duì)課程教材(pdz、pdf、caj格式文本)的統(tǒng)一格式轉(zhuǎn)化和存儲(chǔ)。為了進(jìn)一步保證數(shù)據(jù)的準(zhǔn)確性,筆者對(duì)轉(zhuǎn)化后的文本內(nèi)容進(jìn)行了逐一校對(duì)。隨機(jī)從校對(duì)后的《教育心理學(xué)》教材中抽取學(xué)習(xí)動(dòng)機(jī)知識(shí)點(diǎn)[13]文本內(nèi)容作為實(shí)驗(yàn)樣本(共1.26MB),進(jìn)行文本內(nèi)容知識(shí)的挖掘。
數(shù)據(jù)化:本質(zhì)是從現(xiàn)實(shí)世界中采集信息,并對(duì)采集到的信息進(jìn)行計(jì)量和記錄之后,形成原始數(shù)據(jù),即零次數(shù)據(jù)。在課程教材中,人們將頭腦中的知識(shí)、認(rèn)識(shí),借助于語(yǔ)言、文字等工具,形成可以實(shí)際存儲(chǔ)、傳播的物質(zhì)載體,其過(guò)程完成的是將一種抽象的事物借助載體進(jìn)行數(shù)據(jù)化的過(guò)程。
數(shù)據(jù)加工與數(shù)據(jù)整齊化:兩者本質(zhì)上都是將低層次數(shù)據(jù)向高層次數(shù)據(jù)進(jìn)行轉(zhuǎn)化的過(guò)程,包括解決數(shù)據(jù)中存在的問(wèn)題。具體包括:對(duì)數(shù)據(jù)質(zhì)量存在缺陷的臟數(shù)據(jù)[14]進(jìn)行“清洗”,形成干凈數(shù)據(jù);數(shù)據(jù)形態(tài)不符合計(jì)算要求的亂數(shù)據(jù)進(jìn)行“整齊化”,形成整齊數(shù)據(jù)。在文本挖掘領(lǐng)域中,計(jì)算機(jī)無(wú)法直接對(duì)文本內(nèi)容進(jìn)行處理,需要對(duì)原始數(shù)據(jù)進(jìn)行一定的加工處理,進(jìn)一步將數(shù)據(jù)轉(zhuǎn)化成“整齊數(shù)據(jù)”(Tidy Data),滿足層次聚類分析算法所需要的數(shù)據(jù)框或向量的格式要求。
探索性分析(Exploratory Data Analysis,EDA):是在盡可能少的先驗(yàn)知識(shí)指導(dǎo)下進(jìn)行的數(shù)據(jù)探索,通過(guò)可視化或其他分析方式挖掘隱含在數(shù)據(jù)中的知識(shí),通過(guò)不斷地試誤和糾正,最終達(dá)到對(duì)數(shù)據(jù)理解的目的。
三、實(shí)驗(yàn)過(guò)程與分析
文本是將頭腦中的知識(shí)進(jìn)行數(shù)據(jù)化的一種方式。通過(guò)分析文本內(nèi)容,可以更好地幫助理解和掌握知識(shí)。此外,詞語(yǔ)是組成文本內(nèi)容的最基本單位[15],需要在數(shù)據(jù)加工階段,將文本內(nèi)容進(jìn)行分詞處理,以達(dá)到文本內(nèi)容量化和文本數(shù)據(jù)轉(zhuǎn)化的目的,從而為自動(dòng)化挖掘文本內(nèi)容提供合適的基礎(chǔ)數(shù)據(jù)。
1.術(shù)語(yǔ)識(shí)別
不同領(lǐng)域中存在著不同的術(shù)語(yǔ)。南京理工大學(xué)的周浪[16]對(duì)專業(yè)術(shù)語(yǔ)(規(guī)范的領(lǐng)域?qū)S性~語(yǔ))的結(jié)構(gòu)進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)領(lǐng)域?qū)I(yè)術(shù)語(yǔ)的70%往往都是由2個(gè)或3個(gè)詞(單字是單字詞)組合而成,因此專業(yè)術(shù)語(yǔ)以復(fù)合詞(多是4~6個(gè)字組成的詞語(yǔ))形式出現(xiàn)的概率較大。
而在計(jì)算機(jī)語(yǔ)言學(xué)模型中,常以內(nèi)聚性作為組合詞語(yǔ)的一項(xiàng)標(biāo)準(zhǔn)。其理論基礎(chǔ)依據(jù)如下假設(shè):若某個(gè)詞條x與另一個(gè)詞條y同時(shí)出現(xiàn)的概率越高,與兩者之外的其他詞條z、m等同時(shí)出現(xiàn)的概率越低,則詞條x與詞條y組成復(fù)合詞的幾率就越高。其中,互信息[17]可以衡量?jī)蓚€(gè)事物之間的相關(guān)性,其值越大,說(shuō)明兩事物之間結(jié)合越緊密,內(nèi)聚性越高,反之,結(jié)合越疏松,內(nèi)聚性越小。因此,互信息能夠較好地反映詞語(yǔ)之間的聯(lián)合強(qiáng)度。
為了挖掘文本內(nèi)容中的術(shù)語(yǔ),筆者計(jì)算單字詞S1,S2的互信息,并用互信息值衡量?jī)烧咧g凝結(jié)的程度,計(jì)算方法如公式(1)所示。
其中,p(S1,S2)是單字詞S1,S2在給定文本數(shù)據(jù)中同時(shí)出現(xiàn)的概率,采用 進(jìn)行計(jì)算,f(S1,S2)代表詞S1,S2在一起同時(shí)出現(xiàn)的頻次,F(xiàn)表示總的詞數(shù)。p(S1)和p(S2)表示字符串S1和S2單獨(dú)在文本中出現(xiàn)的概率,即 和 ,f(S1),f(S2)指的是S1,S2出現(xiàn)在文本數(shù)據(jù)中各自的頻次。
互信息能夠判斷詞語(yǔ)之間的緊密程度,卻無(wú)法判定聚合程度大的字詞一定是專有詞語(yǔ)或新詞,需要一個(gè)能夠衡量候選詞語(yǔ)與上下文之間依賴程度的參考——耦合性。信息熵是信息論中衡量信息不確定性的重要方法,可以用于衡量候選組成詞與其上下文信息之間的不確定性大小,熵值越大,不確定性越大,說(shuō)明候選組成詞越獨(dú)立于所處的上下文環(huán)境,成為專有詞語(yǔ)和新詞的可能性就越高。公式(2)是左信息熵的計(jì)算公式。
其中S表示候選專有組成詞,l是候選詞左邊鄰接的單字詞集合,且a∈l,p(a)表示詞a在集合l中出現(xiàn)的頻率,使用p(a)= ,f(a)表示詞語(yǔ)a出現(xiàn)的次數(shù),∑a∈lf(a)表示候選組成詞的左邊鄰近單字詞的總個(gè)數(shù)。公式(3)是右信息熵的計(jì)算公式。
其中,S表示候選專有組成詞, r是候選詞右邊鄰接的單字詞集合,且a∈r,p(a)表示詞a在集合r中出現(xiàn)的頻率,使用p(a)= ,f(a)表示詞語(yǔ)a出現(xiàn)的次數(shù),∑a∈rf(a)表示候選組成詞右邊鄰近單字詞的總個(gè)數(shù)。
筆者將“學(xué)習(xí)動(dòng)機(jī)”知識(shí)點(diǎn)文本內(nèi)容作為原始語(yǔ)料進(jìn)行存儲(chǔ),形成語(yǔ)料庫(kù)。并在實(shí)驗(yàn)中,按照最長(zhǎng)詞為6個(gè)漢字的形式,互信息閾值為4、信息熵閾值為0.001、最低單字詞頻為2進(jìn)行候選組成詞的識(shí)別時(shí)效果較好。表1是候選組成詞統(tǒng)計(jì)中,詞頻大于13的結(jié)果。
然后,對(duì)候選組成詞按照詞頻降序、信息熵值升序和互信息值降序的綜合排序方式進(jìn)行排序,去除其中由數(shù)字、字母組成的無(wú)意義詞語(yǔ),并排除組織、機(jī)構(gòu)、人員等名稱,篩選出有關(guān)學(xué)習(xí)動(dòng)機(jī)知識(shí)文本內(nèi)容的術(shù)語(yǔ)。抽取結(jié)果如表 2所示。
2.數(shù)據(jù)加工與處理
筆者將識(shí)別出的術(shù)語(yǔ)加入到《教育大辭典》中,將其編纂成用戶自定義詞典,用來(lái)指導(dǎo)漢語(yǔ)詞法分析系統(tǒng) ICTCLAS對(duì)原始語(yǔ)料的分詞過(guò)程。具體實(shí)現(xiàn)流程如圖3所示。
通過(guò)分析文本中重要的屬性——關(guān)鍵詞,可以衡量研究領(lǐng)域中的重點(diǎn)和熱點(diǎn)[18]。文章為了強(qiáng)調(diào)某一主題或內(nèi)容,關(guān)鍵內(nèi)容一般會(huì)在文本內(nèi)容中反復(fù)出現(xiàn)。因此,筆者對(duì)組成文本內(nèi)容的基本單元——詞語(yǔ),進(jìn)行出現(xiàn)頻次的統(tǒng)計(jì),篩選出頻次較高的詞匯,可以發(fā)現(xiàn)文本內(nèi)容中的關(guān)鍵詞,幫助進(jìn)一步把握文章主旨。
為了有效地統(tǒng)計(jì)出高頻詞匯,筆者在分詞結(jié)果上進(jìn)行去除停用詞的預(yù)處理[19]。所謂停用詞就是一些虛詞、嘆詞、標(biāo)點(diǎn)符號(hào)等,去掉它們,對(duì)整個(gè)句子的意思幾乎不造成影響[20]。如“中”“了”“的”“僅僅”,以及逗號(hào)、句號(hào)、分號(hào)等都是停用詞。
對(duì)預(yù)處理后的詞語(yǔ),取頻次大于13的詞語(yǔ),即高頻詞匯,按照頻次信息降序排列,結(jié)果如表3所示。
為了進(jìn)一步觀察高頻詞匯的分布情況,生成了高頻詞匯散點(diǎn)分布圖,如圖4所示。
從圖4可以看出,頻次較高的高頻詞出現(xiàn)在密集區(qū)外圍,并且比較分散,而較多的高頻詞聚集在頻次較低的地方。因此可知,在《教育心理學(xué)》課程教材中,關(guān)于學(xué)習(xí)動(dòng)機(jī)知識(shí)點(diǎn)的核心關(guān)鍵詞是“學(xué)生、學(xué)習(xí)、學(xué)習(xí)動(dòng)機(jī)、動(dòng)機(jī)、行為、需要、興趣”,剩余較多的關(guān)鍵詞頻次信息基本相同或相近。這也從側(cè)面說(shuō)明,在同一知識(shí)點(diǎn)核心內(nèi)容或基礎(chǔ)內(nèi)容的描述上具有一致性,并且同一知識(shí)點(diǎn)的描述遵從多樣性原則,符合高等教材的個(gè)性化、專業(yè)性、針對(duì)性編寫要求。
通過(guò)分析高頻詞匯,可以更好地把握同一領(lǐng)域內(nèi)的關(guān)鍵內(nèi)容,找到公認(rèn)的知識(shí)點(diǎn)。為了進(jìn)一步挖掘文本內(nèi)容中隱含的主題,可以通過(guò)對(duì)所有高頻詞匯做進(jìn)一步處理,統(tǒng)計(jì)高頻詞匯在課程教材中的出現(xiàn)情況,形成“高頻詞—課程教材”矩陣,采用無(wú)監(jiān)督聚類的方式挖掘?qū)W習(xí)動(dòng)機(jī)知識(shí)點(diǎn)文本內(nèi)容中隱含的主題。
為了提高聚類結(jié)果的收斂速度和精度,對(duì)“高頻詞—課程教材”矩陣進(jìn)行歸一化處理。即采用離差標(biāo)準(zhǔn)化,對(duì)原始數(shù)據(jù)線性變換,使數(shù)值落在[0,1]區(qū)間,計(jì)算方法如公式(4)所示。
其中,xij表示的是高頻詞i在文檔j中出現(xiàn)的頻次,統(tǒng)計(jì)出文檔j中詞頻最高的高頻詞和出現(xiàn)頻次最少的高頻詞,分別作為公式4中的max(yj)和 min(yj),從而得到歸一化后的矩陣,如表4所示。
3.層次凝聚聚類分析
為了分析《教育心理學(xué)》學(xué)習(xí)動(dòng)機(jī)知識(shí)點(diǎn)文本內(nèi)容中隱含的主題,使用gCLUTO軟件對(duì)歸一化后的“高頻詞—課程教材”矩陣進(jìn)行聚類分析。采用的聚類方法是層次凝聚聚類算法,可視化結(jié)果如圖5所示。其中橫坐標(biāo)代表《教育心理學(xué)》中包含學(xué)習(xí)動(dòng)機(jī)知識(shí)點(diǎn)的教材,縱軸代表進(jìn)行聚類的高頻詞匯。
其中,相似度的衡量采用計(jì)算余弦夾角值的方法,假定待比較高頻詞匯的特征向量 =(wi1,wi2,wi3,…,win)和 =(wj1,wj2,wj3,…,wjn)。其相似度度量方法如公式(5)所示。
sim(? , )為兩向量的相似值,cosθ是兩向量之間的余弦夾角值,wiK,wjK表示為高頻詞i和高頻詞j在第K個(gè)教材中分別對(duì)應(yīng)的權(quán)值[21]信息(歸一化后的值)。
在可視化聚類結(jié)果中,帶有深淺顏色的小方格代表矩陣原始數(shù)據(jù)的值。白色代表逼近0,顏色的深淺代表詞匯出現(xiàn)頻次的高低。同一類簇的行列聚在一起,黑色的水平線隔開不同類別,右側(cè)對(duì)應(yīng)的行聚類代表同一類的高頻詞匯,聚集到一起的高頻詞匯說(shuō)明之間的距離短,圍繞著同一個(gè)主題聚集的可能性較高。最底層的列聚類表示的是對(duì)應(yīng)課程教材的聚類。
為了驗(yàn)證聚類結(jié)果的合理性、有效性,將層次凝聚聚類的結(jié)果,通過(guò)計(jì)算其類內(nèi)相似度和類間相似度的值來(lái)評(píng)價(jià)聚類的效果。其中,相似度還是使用余弦夾角值,計(jì)算出類簇類內(nèi)相似度ISim、類內(nèi)相似度均值ISdev、類間相似度ESim和類間相似度均值ESdev。聚類評(píng)價(jià)結(jié)果如表 5所示。
當(dāng)類內(nèi)相似度的值越高,說(shuō)明兩者之間的距離越短,兩者圍繞同一主題的可能性越高。類間相似度的值越低,說(shuō)明類簇之間距離越遠(yuǎn),區(qū)分度越高,兩者歸屬不同主題的可能性越高。
通過(guò)對(duì)實(shí)驗(yàn)樣本中的高頻詞匯進(jìn)行層次聚類分析,去除掉聚類結(jié)果中高頻詞匯里的形容詞和副詞,保留名詞、動(dòng)詞之后,分析該領(lǐng)域的研究熱點(diǎn),歸納出以下三個(gè)方面熱點(diǎn),共30個(gè)主題。
(1)有關(guān)學(xué)習(xí)動(dòng)機(jī)領(lǐng)域?qū)<依碚?、思想的介紹
分析聚類結(jié)果可知,圍繞領(lǐng)域?qū)<液诵睦碚摰慕榻B主要分為兩個(gè)方面:一方面是學(xué)習(xí)動(dòng)機(jī)知識(shí)點(diǎn)研究中主要的領(lǐng)域?qū)<矣^點(diǎn)和理論概述;另一方面是同一現(xiàn)象下,對(duì)領(lǐng)域?qū)<腋髯杂^點(diǎn)和理論的比較。從兩個(gè)方面對(duì)相關(guān)理論和觀點(diǎn)進(jìn)行歸納分析,得到相關(guān)理論或?qū)<谊U述觀點(diǎn)9個(gè),分別是:弗洛伊德的本能論、驅(qū)力論、層次論;阿特金森的先天無(wú)關(guān)理論、潛能理論、失調(diào)論和強(qiáng)化論;麥克里蘭的成就動(dòng)機(jī)理論;奧蘇貝爾的動(dòng)機(jī)理論;赫洛克效應(yīng);耶基斯—多德森定律;卡芬頓價(jià)值論;馬斯洛人本主義;桑代克準(zhǔn)備律等。
(2)有關(guān)學(xué)習(xí)動(dòng)機(jī)知識(shí)點(diǎn)的實(shí)驗(yàn)(案例)分析
分析聚類結(jié)果可知,主要包含7個(gè)相關(guān)實(shí)驗(yàn)。包括:獎(jiǎng)賞與效能實(shí)驗(yàn)、榜樣作用、課堂教學(xué)與年齡特征、學(xué)生的課外閱讀和活動(dòng)、有關(guān)動(dòng)機(jī)作用選定控制組和表?yè)P(yáng)組、研究者的誘因?qū)嶒?yàn)、獎(jiǎng)勵(lì)與懲罰等。
(3)有關(guān)學(xué)習(xí)動(dòng)機(jī)知識(shí)點(diǎn)的相關(guān)概念定義和理解
在《教育心理學(xué)》課程教材上,學(xué)習(xí)動(dòng)機(jī)知識(shí)點(diǎn)包含多個(gè)概念。由聚類結(jié)果分析,約有14個(gè)相關(guān)概念。包括:動(dòng)機(jī)和好奇心、強(qiáng)化物、自我概念、教學(xué)方法、刺激物、近景性、成就動(dòng)機(jī)、學(xué)習(xí)動(dòng)機(jī)、內(nèi)驅(qū)力、行為主義和人本主義、內(nèi)源性、效能感、動(dòng)機(jī)等。
四、結(jié)語(yǔ)
本文提出一種基于文本挖掘的課程教材內(nèi)容分析方法,為課程教材內(nèi)容分析提供了一種自動(dòng)化的統(tǒng)計(jì)分析方法。該方法可以為課程教材專家、教師或?qū)W習(xí)者提供一種量化的評(píng)價(jià)方式,幫助其分析課程教材內(nèi)容中的核心知識(shí)點(diǎn),把握課程教材內(nèi)容主題,從而進(jìn)一步為課程教材的建設(shè)提供指導(dǎo)。
參考文獻(xiàn):
[1]教高[2001]1號(hào).教育部關(guān)于印發(fā)《關(guān)于“十五”期間普通高等教育教材建設(shè)與改革的意見》的通知[Z].
[2]佚名.普通高等教育本科教材評(píng)價(jià)指標(biāo)體系及專家評(píng)議表[EB/OL].http://www.doc88.com/p-3337505848859.html.
[3]李輝.高等職業(yè)教育教材建設(shè)與評(píng)價(jià)體系研究[D].咸陽(yáng):西北農(nóng)林科技大學(xué),2007.
[4]Feldman R.&Dagan,I,Knowledge discovery in textual databases(KDT).In proceedings of the First International Conference on Knowledge Discovery and Data Mining(KDD-95), Montreal,Canada, August 20-21,AAAI Press.112-117,1995.
[5]Feldman R. eds. Poreeedings of the Sixteenth International Joint Conference on Artificial Intelligence(IJCAI-99)Works on Text Mining: Foundations, Techniques and APPlications.1999.
[6]Shehata S, Karray F, Kamel M. A Concept –Based Model for Enhancing Text Categorization[C].Proc. 13th Intl Conf. knowledge Discovery and Data Mining (KDD07).2007:629-637.
[7]李尚昊,朝樂(lè)門.文本挖掘在中文信息分析中的應(yīng)用研究述評(píng)[J].情報(bào)科學(xué),2016(8):153-159.
[8]施萱軒,姜紅紅,梁浩等.文本挖掘技術(shù)研究及其在電力行業(yè)的應(yīng)用[J].機(jī)電信息,2017(30):14-19.
[9]程志,黃榮懷.文本挖掘及其教育應(yīng)用[J].現(xiàn)代遠(yuǎn)距離教育,2008(2):71-73.
[10]朝樂(lè)門.數(shù)據(jù)科學(xué)理論與實(shí)踐[M].北京:清華大學(xué)出版社,2017:2.
[11]周城雄.隱性知識(shí)與顯性知識(shí)的概念辨析[J].情報(bào)理論與實(shí)踐,2004(2):127-129.
[12]顧云鋒,吳鐘鳴,管兆昶等.基于教育大數(shù)據(jù)的學(xué)習(xí)分析研究綜述[J].中國(guó)教育信息化,2018(7):5-10.
[13]Haijian C ,Dongmei H,Yonghui D,et al.Design of Automatic Extraction Algorithm of Knowledge Points for MOOCs[J].Computational Intelligence &Neuroence,2015:2.
[14]劉麗敏等.大數(shù)據(jù)采集與預(yù)處理技術(shù)[M].長(zhǎng)沙:中南大學(xué)出版社,2018.12.
[15]李浩.詞語(yǔ)相似度計(jì)算及其在問(wèn)答系統(tǒng)中的應(yīng)用研究[D].鄭州:鄭州大學(xué),2017.
[16]周浪.中文術(shù)語(yǔ)抽取若干問(wèn)題研究[D].南京:南京理工大學(xué),2010.
[17]Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[J].Stroulia E, Matwin S. lecture notes in artificial intelligence. London,2001:36-46.
[18]譚章祿,彭勝男,王兆剛.基于聚類分析的國(guó)內(nèi)文本挖掘熱點(diǎn)與趨勢(shì)研究[J].情報(bào)學(xué)報(bào),2019,38(6):578-585.
[19]Bienkowski,M.,F(xiàn)eng,M.,Means,B.Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics:An Issue Brief[R].Washington, D.C.:U.S. Department of Education, Office of Educational Technology,2012.
[20]李臻賢.中文問(wèn)答系統(tǒng)知識(shí)庫(kù)的自動(dòng)構(gòu)建問(wèn)題研究[D].濟(jì)南:山東財(cái)經(jīng)大學(xué),2015.
[21]Salton G,Buckley C.Term--weighting approaches in automatic retrieva[J].Information Processing Management,1988,24(5):513-523.
(編輯:王曉明)