劉清堂 賀黎鳴 吳林靜 楊煒欽 李晶
摘要:教育文本挖掘是指通過(guò)數(shù)據(jù)采集和處理,利用數(shù)據(jù)挖掘算法或工具,從非結(jié)構(gòu)化文本文檔中提取有意義的模式或知識(shí)的過(guò)程。教育文本蘊(yùn)含著豐富的學(xué)習(xí)者認(rèn)知、行為和情感等信息,對(duì)其進(jìn)行深度挖掘和分析,有助于深入探索教育教學(xué)的基本規(guī)律,解釋教育中存在的問(wèn)題和現(xiàn)象。大數(shù)據(jù)支持下的教育文本挖掘模型包括數(shù)據(jù)生產(chǎn)和使用的主體(利益相關(guān)者)、教學(xué)環(huán)境、數(shù)據(jù)和挖掘工具等核心要素,涉及數(shù)據(jù)產(chǎn)生、數(shù)據(jù)采集、數(shù)據(jù)處理、知識(shí)發(fā)現(xiàn)、評(píng)估解釋、教學(xué)應(yīng)用等過(guò)程和方法。其常用的數(shù)據(jù)來(lái)源包含問(wèn)卷調(diào)查、在線互動(dòng)、學(xué)習(xí)反饋、在線評(píng)論、社交媒體和教學(xué)文件,主要用于學(xué)習(xí)者成績(jī)預(yù)測(cè)、學(xué)習(xí)者建模、學(xué)習(xí)者水平評(píng)價(jià)、教學(xué)材料結(jié)構(gòu)分析、學(xué)習(xí)者反饋和內(nèi)容可視化等。當(dāng)前教育文本挖掘在海量數(shù)據(jù)處理、數(shù)據(jù)降維保真、結(jié)果評(píng)估與解釋等方面還面臨挑戰(zhàn),研究者需深度融合教育學(xué)、認(rèn)知心理學(xué)、語(yǔ)言學(xué)等多學(xué)科研究方法,結(jié)合教育教學(xué)的基本理論和具體的教育情境,注重多模態(tài)分析和驗(yàn)證,保證將其應(yīng)用于教育研究的科學(xué)性。隨著相關(guān)技術(shù)的突破和應(yīng)用發(fā)展,教育文本數(shù)據(jù)將成為教育現(xiàn)代化發(fā)展的推動(dòng)力,在深度學(xué)習(xí)、精準(zhǔn)教學(xué)等領(lǐng)域中發(fā)揮更大作用。
關(guān)鍵詞:教育大數(shù)據(jù);數(shù)據(jù)挖據(jù);學(xué)習(xí)分析;教育文本挖掘
中圖分類(lèi)號(hào):G434 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ?文章編號(hào):1009-5195(2020)05-0095-09 ?doi10.3969/j.issn.1009-5195.2020.05.011
一、引言
智能時(shí)代,作為人工智能發(fā)展基礎(chǔ)的大數(shù)據(jù)愈發(fā)受到關(guān)注?!蹲匀弧泛汀犊茖W(xué)》分別在2008年和2011年設(shè)立了專(zhuān)刊對(duì)大數(shù)據(jù)的特征及應(yīng)用前景進(jìn)行研討,探索利用其破解不同領(lǐng)域難題的途徑和方法(孟小峰等,2013)。國(guó)務(wù)院也于2015年發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,指出要全面推進(jìn)我國(guó)大數(shù)據(jù)發(fā)展和應(yīng)用,加快建設(shè)數(shù)據(jù)強(qiáng)國(guó)(國(guó)務(wù)院,2015)。大數(shù)據(jù)蘊(yùn)含著海量有價(jià)值的信息,給各行各業(yè)帶來(lái)了歷史性的機(jī)遇。大數(shù)據(jù)技術(shù)也強(qiáng)烈影響著教育系統(tǒng),正成為推動(dòng)教育系統(tǒng)創(chuàng)新、變革的顛覆性力量(楊現(xiàn)民等,2016)。教育大數(shù)據(jù)具有復(fù)雜性、多樣性、差異性和內(nèi)隱性等特征,對(duì)其進(jìn)行挖掘、聚合、組織和應(yīng)用等一直是智能教育研究的熱點(diǎn)問(wèn)題。
在傳統(tǒng)的教育數(shù)據(jù)挖掘中,研究者往往對(duì)結(jié)構(gòu)化數(shù)據(jù)關(guān)注較多,例如課程管理系統(tǒng)中的學(xué)生學(xué)習(xí)活動(dòng)日志,包括登錄次數(shù)、瀏覽時(shí)長(zhǎng)、提交作業(yè)次數(shù)、發(fā)言次數(shù)等(Chen et al.,2014),以及學(xué)生的考評(píng)信息、學(xué)業(yè)成績(jī)等(Baker et al.,2009 )。而據(jù)IBM統(tǒng)計(jì),一個(gè)組織中大約80%的數(shù)據(jù)是開(kāi)放式和非結(jié)構(gòu)化的,這些數(shù)據(jù)實(shí)際上很少被使用(IBM Corporation,2019),而文本數(shù)據(jù)又是非結(jié)構(gòu)化數(shù)據(jù)中最主要的組成部分(Grimes,2008)。教育領(lǐng)域中的文本數(shù)據(jù)挖掘和分析,是一個(gè)價(jià)值巨大且有待進(jìn)一步發(fā)展的新興研究領(lǐng)域。與結(jié)構(gòu)化數(shù)據(jù)相比,文本數(shù)據(jù)以言語(yǔ)數(shù)據(jù)為主,可以更加真實(shí)地反映學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī)、認(rèn)知發(fā)展、情感態(tài)度、學(xué)習(xí)體驗(yàn)等(Witten et al.,2016)。利用文本挖掘技術(shù)獲取教育文本中蘊(yùn)藏的有用信息并發(fā)現(xiàn)復(fù)雜教育系統(tǒng)的規(guī)律,給教育研究者帶來(lái)了新的研究視角。
本文以教育文本為研究對(duì)象,探索了教育文本挖掘的模型和應(yīng)用框架,并從數(shù)據(jù)來(lái)源及清洗、分析算法與工具,以及典型應(yīng)用等方面分析了教育文本數(shù)據(jù)的采集、分析、挖掘方法和挑戰(zhàn),并對(duì)該領(lǐng)域的未來(lái)發(fā)展趨勢(shì)進(jìn)行了展望,以期能為相關(guān)研究者提供參考。
二、文本挖掘基本原理
文本挖掘(Text Mining),又稱(chēng)文本數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)、文本數(shù)據(jù)挖掘,一般是指從非結(jié)構(gòu)化的文本文檔中提取有趣或者有意義的模式或知識(shí)的過(guò)程(Tan,1999)。1995年Feldman將數(shù)據(jù)挖掘與文本分類(lèi)結(jié)合,首次提出文本挖掘的概念(Feldman et al.,1995)。由于文本挖掘處理的是非結(jié)構(gòu)化的數(shù)據(jù),因此它涉及額外的處理步驟,以便在知識(shí)發(fā)現(xiàn)步驟前從文本中定位、提取和構(gòu)造相關(guān)信息(Ananiadou et al.,2010)。
文本挖掘一般包括:數(shù)據(jù)采集、文本預(yù)處理(數(shù)據(jù)選擇與清洗、文檔表示、特征選擇等)、文本挖掘(分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則挖掘等)、文本后處理(模型評(píng)估與反饋、知識(shí)的解釋與可視化等)等步驟。已有許多研究者提出了通用的文本挖掘模型,其中較有代表性的是Tan(1999)提出的兩階段模型(見(jiàn)圖1)。該模型把文本挖掘分為文本精煉(將文本文檔轉(zhuǎn)換成計(jì)算機(jī)可以理解的中間形式)和知識(shí)蒸餾(從中間形式中推導(dǎo)出模式或知識(shí))兩個(gè)階段。中間形式可以是基于文檔的,也可以是基于概念的?;谖臋n的每個(gè)實(shí)體表示一個(gè)文檔,通常與領(lǐng)域無(wú)關(guān);而基于概念的每個(gè)實(shí)體表示特定領(lǐng)域中的對(duì)象或者概念,與領(lǐng)域相關(guān)。
常用的中間形式模型有:布爾模型、向量空間模型、概率模型等,各模型描述及特點(diǎn)如表1所示。
文本挖掘已廣泛應(yīng)用于多個(gè)領(lǐng)域,如生物和生物醫(yī)學(xué)領(lǐng)域文本的挖掘(Cohen et al.,2005)、電子郵件的分類(lèi)與過(guò)濾(Kiritchenko et al.,2011)、商業(yè)領(lǐng)域的運(yùn)作和營(yíng)銷(xiāo)改進(jìn)(Sullivan,2001)、專(zhuān)利的自動(dòng)化分析(Tseng et al.,2007)等,其在教育中的應(yīng)用也逐漸成為研究者關(guān)注的熱點(diǎn)。
三、大數(shù)據(jù)支持的教育文本挖掘模型及方法
大數(shù)據(jù)支持下的教育文本挖掘模型如圖2所示。該模型包括數(shù)據(jù)生產(chǎn)和使用的主體(利益相關(guān)者)、教學(xué)環(huán)境、數(shù)據(jù)和挖掘工具等核心要素,涉及到數(shù)據(jù)產(chǎn)生、數(shù)據(jù)采集、數(shù)據(jù)處理、知識(shí)發(fā)現(xiàn)、評(píng)估解釋、教學(xué)應(yīng)用等過(guò)程和方法。學(xué)習(xí)者、教師、教育管理者和科學(xué)研究者等利益相關(guān)者,既是教育文本數(shù)據(jù)的使用者,又是生產(chǎn)者。其在教育環(huán)境中產(chǎn)生的數(shù)據(jù),通過(guò)數(shù)據(jù)采集、數(shù)據(jù)處理、知識(shí)發(fā)現(xiàn)、評(píng)估解釋等文本挖掘過(guò)程,產(chǎn)生模式和知識(shí),為教學(xué)、管理和科研提供幫助。具體而言,學(xué)習(xí)者可以借助文本挖掘,獲得合適的資源,并通過(guò)反饋調(diào)整學(xué)習(xí)。教師可以借助文本挖掘的結(jié)果,掌握學(xué)習(xí)者學(xué)習(xí)動(dòng)態(tài),預(yù)測(cè)教學(xué)效果,通過(guò)干預(yù)改進(jìn)教學(xué),實(shí)現(xiàn)個(gè)別化指導(dǎo)等。教育管理者借助文本挖掘,可以評(píng)估教學(xué)效果,進(jìn)行教學(xué)監(jiān)測(cè),進(jìn)而做出科學(xué)決策。科研工作者可以借助文本挖掘,發(fā)現(xiàn)和解決教育問(wèn)題,改善教育環(huán)境,增進(jìn)對(duì)教育現(xiàn)象和規(guī)律的認(rèn)識(shí)。大數(shù)據(jù)支持下的教育文本挖掘包括數(shù)據(jù)采集、文本挖掘以及模式應(yīng)用三個(gè)重要環(huán)節(jié)。
1.教育文本的數(shù)據(jù)類(lèi)型及采集
在教育環(huán)境中,文本數(shù)據(jù)有著十分廣泛的來(lái)源,既有教育系統(tǒng)中已經(jīng)存在的資源類(lèi)文本數(shù)據(jù),也有教與學(xué)過(guò)程中產(chǎn)生的過(guò)程性文本數(shù)據(jù),包括傳統(tǒng)的教學(xué)材料如課件、教材、講義,各種問(wèn)卷、試卷的主觀回答,學(xué)生的作業(yè)等,以及隨著在線學(xué)習(xí)平臺(tái)、網(wǎng)絡(luò)公開(kāi)課等的流行出現(xiàn)的各種論壇討論數(shù)據(jù)、評(píng)論數(shù)據(jù)、反思數(shù)據(jù)等。此外,隨著社交媒體如Twitter、Facebook、新浪微博、知乎等的廣泛應(yīng)用,其也產(chǎn)生了大量有助于了解教師和學(xué)生情感、問(wèn)題的真實(shí)數(shù)據(jù)。相較于傳統(tǒng)文本數(shù)據(jù),網(wǎng)絡(luò)中的文本數(shù)據(jù)不僅在數(shù)量上呈指數(shù)級(jí)的增長(zhǎng),也更加容易獲取和處理。目前教育文本挖掘常用的數(shù)據(jù)來(lái)源大致可以分為如表2 所示的6類(lèi):?jiǎn)柧碚{(diào)查、在線互動(dòng)、學(xué)習(xí)反饋、在線評(píng)論、社交媒體和教學(xué)文件。
首先,采集的原始教育文本數(shù)據(jù)并不能直接用于文本數(shù)據(jù)挖掘,其主要原因在于數(shù)據(jù)存在冗余、缺失、歧義和沖突等,需要進(jìn)行數(shù)據(jù)清洗。其次,根據(jù)文本數(shù)據(jù)的語(yǔ)言學(xué)特性,需要加入額外的文本處理環(huán)節(jié),包括分詞、詞性標(biāo)注、停用詞去除、詞干提?。ㄓ⑽臄?shù)據(jù))、詞頻統(tǒng)計(jì)等。文本預(yù)處理完成后,可以得到高維的文本特征。高維的文本特征存在大量冗余,需要通過(guò)特征選擇和提取得到較低維度的、有代表性的特征。常用的特征選擇方法包括信息增益法(Information Gain)、互信息法(Mutual Information)、卡方檢驗(yàn)法(Chi-square)等。最后,通過(guò)對(duì)文本特征進(jìn)行建模,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換成便于計(jì)算機(jī)可以處理的中間形式。
2.教育文本挖掘方法及工具
文本挖掘算法通常可以分為兩大類(lèi):一類(lèi)是預(yù)測(cè)性算法,這類(lèi)算法通過(guò)已有的特征值來(lái)預(yù)測(cè)未知的特征值,如各種分類(lèi)算法等;另一類(lèi)是描述性算法,其目的是描述概括數(shù)據(jù)中已經(jīng)存在的關(guān)系和模式,如聚類(lèi)、關(guān)聯(lián)規(guī)則挖掘、異常檢測(cè)等(Tan,2018)。除了傳統(tǒng)的數(shù)據(jù)挖掘算法外,還有深度學(xué)習(xí)的相關(guān)算法,包括CNN(卷積神經(jīng)網(wǎng)絡(luò))、DBN(深度置信網(wǎng)絡(luò))、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))等。此外,還有一些在文本挖掘中十分重要的方法,如Word2Vec(詞向量)、LDA(隱含狄利克雷分布)模型、馬爾可夫模型、深度學(xué)習(xí)等。常用方法的具體描述如表3所示。
此外,隨著文本挖掘應(yīng)用需求的不斷增長(zhǎng),有許多研究人員和商業(yè)公司致力于文本挖掘工具的研發(fā),目前已有許多成熟的工具和軟件,表4是對(duì)所分析文獻(xiàn)中出現(xiàn)的主要文本挖掘工具的概述。
文本挖掘就是使用數(shù)據(jù)挖掘方法和工具從數(shù)據(jù)中發(fā)現(xiàn)描述性知識(shí)或者預(yù)測(cè)性模型,并對(duì)其進(jìn)行評(píng)估與反饋,最后利用相關(guān)模型的評(píng)價(jià)指標(biāo)和教育學(xué)、心理學(xué)的相關(guān)理論對(duì)得到的信息進(jìn)行評(píng)估和解釋的過(guò)程。如效果不理想則回到之前的步驟,重新選取合適的中間形式或者算法與工具。
3.知識(shí)及模式的提取及應(yīng)用場(chǎng)景
文本挖掘得到的知識(shí)或產(chǎn)生的模式可以給學(xué)習(xí)者、教師、教育管理人員、相關(guān)科研工作者提供幫助,用以解決教育問(wèn)題、提升教學(xué)的效果。提取知識(shí)或產(chǎn)生模式的方法與具體應(yīng)用場(chǎng)景緊密關(guān)聯(lián),如表5所示。
例如,學(xué)習(xí)成績(jī)預(yù)測(cè)通常采用關(guān)聯(lián)規(guī)則挖掘方法,通過(guò)發(fā)現(xiàn)學(xué)習(xí)行為、學(xué)習(xí)表現(xiàn)間的關(guān)系規(guī)則,建立成績(jī)預(yù)測(cè)模型。學(xué)習(xí)者建模一方面可借助文本數(shù)據(jù),通過(guò)關(guān)鍵詞或特征,依據(jù)心理學(xué)、教育學(xué)基本原理等進(jìn)行人工標(biāo)注案例,利用機(jī)器學(xué)習(xí)方法構(gòu)建學(xué)習(xí)者特征模型;另一方面,可對(duì)學(xué)習(xí)者進(jìn)行特征歸類(lèi),如活潑型、好動(dòng)型、沉思型等,構(gòu)建學(xué)習(xí)者分類(lèi)預(yù)測(cè)模型,服務(wù)于個(gè)性化學(xué)習(xí)。學(xué)習(xí)水平評(píng)價(jià)方法則通常對(duì)學(xué)習(xí)者文本數(shù)據(jù)進(jìn)行不同層次水平特征歸類(lèi),如將主題研討中的交互文本歸納為描述性、分析性和批判性認(rèn)知層次,利用詞袋模型進(jìn)行學(xué)習(xí)交互水平模型的構(gòu)建。教學(xué)材料結(jié)構(gòu)分析、內(nèi)容可視化通常采用矩陣關(guān)聯(lián)計(jì)算方法,建立要素與要素之間的關(guān)系,并通過(guò)概念圖、云簽圖等進(jìn)行可視化表示。
此外,當(dāng)獲取到海量的文本數(shù)據(jù)后,還可以根據(jù)教學(xué)應(yīng)用需求,對(duì)文本數(shù)據(jù)進(jìn)行矢量化處理,利用深度學(xué)習(xí)算法構(gòu)建學(xué)習(xí)者認(rèn)知模型、學(xué)習(xí)評(píng)價(jià)模型等,其特點(diǎn)是不需要進(jìn)行特征提取,便可在對(duì)文本數(shù)據(jù)標(biāo)簽化后構(gòu)建精準(zhǔn)的分析模型。
四、教育文本挖掘的典型應(yīng)用
教育文本挖掘的典型應(yīng)用主要包含6類(lèi):
1.學(xué)習(xí)者成績(jī)預(yù)測(cè)
學(xué)習(xí)者成績(jī)預(yù)測(cè)通過(guò)收集和挖掘?qū)W習(xí)者學(xué)習(xí)文本數(shù)據(jù),建立學(xué)習(xí)者學(xué)習(xí)行為和學(xué)業(yè)表現(xiàn)間的關(guān)系模型,用以預(yù)測(cè)學(xué)習(xí)者最終的成績(jī)。例如香港教育學(xué)院的研究者使用Polaris工具對(duì)24個(gè)本科學(xué)生的反思帖子和同伴評(píng)語(yǔ)進(jìn)行建模,實(shí)現(xiàn)在通識(shí)教育中利用學(xué)生機(jī)會(huì)發(fā)現(xiàn)(Merton et al.,2011)的隱藏模式和聯(lián)系來(lái)預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)成績(jī)(Wong et al.,2016b)。另一項(xiàng)研究中,研究者基于MOOC論壇和其他學(xué)習(xí)活動(dòng)數(shù)據(jù)共同評(píng)估學(xué)習(xí)質(zhì)量,發(fā)現(xiàn)論壇帖子和評(píng)論的語(yǔ)義特征對(duì)預(yù)測(cè)學(xué)習(xí)質(zhì)量有較大的影響(Liu et al.,2018)。
2.學(xué)習(xí)者建模
學(xué)習(xí)者建模即通過(guò)學(xué)習(xí)者產(chǎn)生的文本數(shù)據(jù),塑造不同學(xué)習(xí)者的特點(diǎn),如情緒、認(rèn)知、領(lǐng)域知識(shí)和學(xué)習(xí)偏好等。其主要目的是為了識(shí)別不同類(lèi)型的學(xué)習(xí)者,從而對(duì)其施加相應(yīng)的措施,以滿足學(xué)習(xí)者的需求。例如,普渡大學(xué)的研究者開(kāi)發(fā)了一個(gè)多標(biāo)簽的分類(lèi)器,可以根據(jù)該校工科學(xué)生在社交媒體(Twitter)上的發(fā)言內(nèi)容自動(dòng)識(shí)別存在特定問(wèn)題的學(xué)生(Chen et al.,2014)。印度尼西亞的研究者基于內(nèi)容分析的分類(lèi)模型,使用樸素貝葉斯算法構(gòu)建意見(jiàn)分類(lèi)器,通過(guò)學(xué)生在社交媒體(Twitter)上的情緒評(píng)價(jià)來(lái)評(píng)估學(xué)生的滿意度(Candra Permana et al.,2017)。Doleck等人在一個(gè)醫(yī)學(xué)領(lǐng)域的計(jì)算機(jī)學(xué)習(xí)環(huán)境BioWorld中,使用文本挖掘技術(shù)對(duì)學(xué)習(xí)者的書(shū)面案例摘要進(jìn)行自動(dòng)分析,以區(qū)分學(xué)習(xí)者的專(zhuān)業(yè)水平,從而向其提供相應(yīng)的反饋(Doleck et al.,2015)。
3.學(xué)習(xí)者水平評(píng)價(jià)
對(duì)于文本內(nèi)容的評(píng)價(jià),傳統(tǒng)的方式費(fèi)時(shí)費(fèi)力,特別是網(wǎng)絡(luò)課程中由于參與人數(shù)較傳統(tǒng)課堂巨幅增長(zhǎng),評(píng)價(jià)任務(wù)更加艱巨。而通過(guò)文本挖掘的方法可以實(shí)現(xiàn)自動(dòng)評(píng)價(jià)。如Azevedo等人基于N-Simple距離圖模型,開(kāi)發(fā)了一種自動(dòng)評(píng)估異步論壇討論相關(guān)性的工具,該工具在多數(shù)情況下能夠識(shí)別學(xué)生所發(fā)內(nèi)容與討論主題的相關(guān)程度,其結(jié)果與教師人工判別結(jié)果相似,可以很好地幫助教師評(píng)估學(xué)生的參與度(Azevedo et al.,2014)。馬來(lái)西亞麥地那國(guó)際大學(xué)的研究者使用文本挖掘和自然語(yǔ)言工具包(Natural Language Tool Kit),采用基于本體的信息提取方法,通過(guò)對(duì)作文的標(biāo)記化、單詞標(biāo)注、字符計(jì)數(shù)、頻率分布計(jì)算以及文本語(yǔ)義匹配等操作實(shí)現(xiàn)作文的自動(dòng)評(píng)分(Contreras et al.,2018)。Yu等人采用基于詞向量的相似度計(jì)算實(shí)現(xiàn)了學(xué)習(xí)者的答題自動(dòng)化評(píng)價(jià)(Yu et al.,2017)。張平霞基于布魯姆的認(rèn)知分類(lèi)法構(gòu)建評(píng)價(jià)框架,通過(guò)樸素貝葉斯分類(lèi)器實(shí)現(xiàn)了對(duì)MOOC討論區(qū)中帖子的認(rèn)知水平自動(dòng)評(píng)價(jià)(張平霞,2018)。王漪通過(guò)文本的“單向貼近度”和“語(yǔ)義相似度”特征,利用改進(jìn)的KNN分類(lèi)算法分別實(shí)現(xiàn)了簡(jiǎn)答題和論述題的自動(dòng)評(píng)分(王漪,2014)。
4.教學(xué)材料結(jié)構(gòu)分析
教學(xué)材料作為最基本的教育文本數(shù)據(jù)來(lái)源,以往常常只能通過(guò)內(nèi)容分析等方法對(duì)其進(jìn)行研究,但引入文本挖掘的方式后可以從一個(gè)更加客觀的角度分析其內(nèi)在的信息。如韓國(guó)延世大學(xué)的一項(xiàng)研究中,研究者使用狄利克雷多項(xiàng)式回歸主題模型分析多個(gè)高校機(jī)器學(xué)習(xí)相關(guān)課程的教學(xué)材料,如課堂講稿/講義、相關(guān)的輔導(dǎo)論文、作業(yè)、答題紙和試卷等,用以發(fā)現(xiàn)其主要教學(xué)主題的變化趨勢(shì),總結(jié)教學(xué)內(nèi)容的熱點(diǎn)和重點(diǎn)。此外,他們還分析了各個(gè)高校的教學(xué)材料和出版物,用以探究高校教學(xué)情況與科學(xué)研究的關(guān)系,結(jié)果表明兩者通常是相互獨(dú)立的,教學(xué)和研究所關(guān)注的熱點(diǎn)主題并不相同(Lee et al.,2015)。此外,Badawy等人分析了埃及開(kāi)羅大學(xué)統(tǒng)計(jì)學(xué)院的一本教材,通過(guò)RapidMiner將每一章的教學(xué)目標(biāo)與詞庫(kù)進(jìn)行對(duì)比,將章節(jié)自動(dòng)分為:知識(shí)與理解、智力技能和專(zhuān)業(yè)技能三類(lèi),從而為選修章節(jié)的學(xué)習(xí)者提供參考(Badawy et al.,2016)。澳大利亞塔斯馬尼亞大學(xué)一項(xiàng)計(jì)算課程相似性的研究中,研究者分析了多所大學(xué)的計(jì)算機(jī)科學(xué)學(xué)位所教課程的學(xué)科大綱,通過(guò)N-Gram關(guān)鍵詞抽取的方式,使用基于維基百科語(yǔ)料庫(kù)的度量方法計(jì)算相似度,成功地實(shí)現(xiàn)了課程相似程度的自動(dòng)分析,為學(xué)習(xí)者的課程選擇以及教育部門(mén)對(duì)課程學(xué)分的認(rèn)證提供了參考(Langan et al.,2016)。
5.學(xué)習(xí)者反饋
學(xué)習(xí)者反饋在教學(xué)過(guò)程中至關(guān)重要,不僅能為改善教學(xué)及教育系統(tǒng)提供建議,還能為其他學(xué)習(xí)者選擇課程提供參考。如在新加坡管理大學(xué)信息系統(tǒng)學(xué)院,研究者開(kāi)發(fā)了一個(gè)學(xué)生反饋挖掘系統(tǒng),通過(guò)收集學(xué)生在學(xué)期中產(chǎn)生的對(duì)于教學(xué)和課程的文本反饋意見(jiàn),進(jìn)行主題抽取和情感分類(lèi),實(shí)現(xiàn)對(duì)定性反饋的量化分析(Koufakou et al.,2016)。實(shí)驗(yàn)結(jié)果顯示,在情感分類(lèi)方面,利用對(duì)數(shù)回歸模型訓(xùn)練的分類(lèi)器,精度可以達(dá)到80.1%。在印度尼西亞的AKPRIND科學(xué)技術(shù)研究所,研究者通過(guò)隱馬爾可夫詞性標(biāo)記器對(duì)收集到的學(xué)生問(wèn)卷中的評(píng)論文本進(jìn)行分析,可以識(shí)別出其中包含有針對(duì)性意見(jiàn)的評(píng)論(Nitin et al.,2015),并通過(guò)基于規(guī)則的方法,可以確定該意見(jiàn)的類(lèi)別和所持有的情感態(tài)度。其意見(jiàn)檢測(cè)和意見(jiàn)分類(lèi)精度均達(dá)到95%以上,而情感分類(lèi)精度也達(dá)到80%以上。與此類(lèi)似的一項(xiàng)針對(duì)遠(yuǎn)程教育課程評(píng)價(jià)的研究中,研究者提出了一種利用層次分類(lèi)模型來(lái)自動(dòng)識(shí)別學(xué)習(xí)者意見(jiàn)和情感觀點(diǎn)的方法。他們以課程評(píng)價(jià)網(wǎng)站fernstudiumcheck.de上的評(píng)論作為數(shù)據(jù)來(lái)源,訓(xùn)練出了一個(gè)多標(biāo)簽分層文本分類(lèi)器,用以判斷學(xué)習(xí)者的評(píng)論所屬類(lèi)別以及持有的情感態(tài)度,從而給相關(guān)學(xué)習(xí)者選擇課程提供參考,同時(shí)也為課程制作者改善課程提供意見(jiàn)(Hamzah et al.,2016)。此外在美國(guó)的佛羅里達(dá)海灣海岸大學(xué)的軟件工程系,研究者通過(guò)對(duì)課程的評(píng)價(jià)文本數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘和情感分析,可以提取調(diào)查中廣受關(guān)注的關(guān)鍵內(nèi)容以及學(xué)生對(duì)課程所持有的情感(Jaskolski et al.,2016)。
6.內(nèi)容可視化
研究者通過(guò)文本數(shù)據(jù)的交互結(jié)構(gòu)圖形來(lái)形象地展示信息或者知識(shí),可以幫助人們更加直觀地理解相關(guān)教育數(shù)據(jù)。比如,在日本青森縣的一項(xiàng)關(guān)于高中教師的調(diào)查問(wèn)卷中,Takeyasu等人通過(guò)文本挖掘技術(shù)抽取關(guān)鍵詞并形成關(guān)系圖,可以讓相關(guān)教育部門(mén)負(fù)責(zé)人直觀地看到高中教師的工作負(fù)擔(dān)情況(Takeyasu et al.,2016)。香港的一項(xiàng)分析學(xué)習(xí)者學(xué)術(shù)討論的研究中,研究者以40個(gè)本科生發(fā)布的200多個(gè)帖子為數(shù)據(jù)源,使用Forum Graph、R程序集合、LDAvis等工具形成學(xué)生互動(dòng)的社會(huì)網(wǎng)絡(luò)圖和主題分布圖,可以讓管理者了解學(xué)生和教師之間的互動(dòng),識(shí)別出頻繁貢獻(xiàn)者和被動(dòng)觀察者,從而讓教師可以針對(duì)性地提供干預(yù),還可以讓教師了解現(xiàn)有的和正在增長(zhǎng)的討論主題(Wong et al.,2016a)。此外,Karma等人在研究不丹特殊教育需求兒童的家長(zhǎng)與教師的溝通與合作經(jīng)驗(yàn)時(shí),使用文本挖掘技術(shù)分析了26個(gè)家長(zhǎng)的訪談?dòng)涗?,以概念圖、網(wǎng)絡(luò)云、概念辭典的形式直觀地生成了訪談?dòng)涗浀母拍詈椭黝}(Jigyel et al.,2018)。
五、教育文本挖掘的挑戰(zhàn)與展望
2017年我國(guó)首部國(guó)家級(jí)人工智能發(fā)展規(guī)劃《新一代人工智能發(fā)展規(guī)劃》正式出臺(tái),強(qiáng)調(diào)利用智能技術(shù)加快推動(dòng)人才培養(yǎng)模式、教學(xué)方法改革,構(gòu)建包含智能學(xué)習(xí)、交互式學(xué)習(xí)的新型教育體系。作為智能教育技術(shù)重要組成部分的教育文本挖據(jù)技術(shù)也日益受到廣泛的關(guān)注。但受技術(shù)、分析方法等制約,教育文本挖據(jù)的發(fā)展和應(yīng)用仍然面臨諸多挑戰(zhàn)。
1.海量教育文本數(shù)據(jù)的采集與清洗
首先,正如前文所述,教育文本數(shù)據(jù)來(lái)源廣泛,涉及到問(wèn)卷調(diào)查、師生互動(dòng)、學(xué)習(xí)反饋、在線評(píng)論、教學(xué)材料、社交內(nèi)容等。這些文本數(shù)據(jù)多屬于非結(jié)構(gòu)化的模糊教育信息,面臨數(shù)量化處理難題。其次,教育文本數(shù)據(jù)是一個(gè)高維度的特征數(shù)據(jù),如何在進(jìn)行數(shù)據(jù)降維的同時(shí)保留教育教學(xué)的基本特征是教育文本數(shù)據(jù)預(yù)處理的難點(diǎn)。第三,教育文本數(shù)據(jù)蘊(yùn)含豐富的師生交流信息,涉及認(rèn)知、情感、行為等維度,也涉及到教育教學(xué)的主體特性,如學(xué)習(xí)動(dòng)機(jī)、態(tài)度、價(jià)值觀等,如何建立文本數(shù)據(jù)與教育特征之間的聯(lián)系一直是其深度應(yīng)用的難點(diǎn)。
2.多學(xué)科研究方法應(yīng)用和交叉研究
教育文本挖掘中,數(shù)據(jù)挖掘結(jié)果的評(píng)估與解釋往往是重點(diǎn)和難點(diǎn)。文本挖掘是自然科學(xué)領(lǐng)域的方法,而教育領(lǐng)域具有豐富的人文特性和社會(huì)屬性,單純的定量分析難以發(fā)現(xiàn)文本數(shù)據(jù)深層次的隱性知識(shí)。冰冷的文本數(shù)據(jù)需要結(jié)合教育教學(xué)的基本理論,為使用者提供解讀的依據(jù),體現(xiàn)出溫度。發(fā)掘出的知識(shí)和提取出的模式需要與教育系統(tǒng)中教師、學(xué)習(xí)者的情感、狀態(tài)和認(rèn)知規(guī)律等聯(lián)系起來(lái),為解讀教育教學(xué)的真實(shí)狀態(tài)、現(xiàn)象和問(wèn)題提供可能。因此,研究者需深度融合教育學(xué)、認(rèn)知心理學(xué)、語(yǔ)言學(xué)等學(xué)科研究方法,通過(guò)多學(xué)科研究方法應(yīng)用和交叉研究助推教育文本挖掘方法的應(yīng)用和推廣。
3.基于教育情境的多模態(tài)分析與驗(yàn)證
[15]Cohen, M., & Hersh, R. (2005). A Survey of Current Work in Biomedical Text Mining[J]. Briefings in Bioinformatics, 6(1): 57-71.
[16]Contreras, O., Hilles, S., & Abubakar, B. (2018). Automated Essay Scoring with Ontology Based on Text Mining and NLTK Tools[C]// 2018 International Conference on Smart Computing and Electronic Enterprise (ICSCEE). IEEE: 1-6.
[17]Cooper, W. (1988). Getting Beyond Boole[J]. Information Processing & Management, 24(3): 243-248.
[18]Doleck, T., Basnet, R., & Poitras, E. et al. (2015). Mining Learner-System Interaction Data: Implications for Modeling Learner Behaviors and Improving Overlay Models[J]. Journal of Computers in Education, 2(4): 421-447.
[19]Feldman, R., & Dagan, I. (1995). Knowledge Discovery in Textual Databases (KDT)[C]// Proceedings of the First International Conference on Knowledge Discovery and Data Mining(KDD95): 112-117.
[20]Grimes, S.(2008). Unstructured Data and the 80 Percent Rule[EB/OL]. [2020-02-01]. http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule/.
[21]Hamzah, A., & Widyastuti, N. (2016). Opinion Extracting and Classification From Questionnaire Comments Using HMM-POS Tagger and Machine Learning Techniques[C]//2016 International Conference on Data and Software Engineering (ICoDSE). IEEE:1-6.
[22]Harvey, S., & Hyndman, B. (2018). An Investigation Into the Reasons Physical Education Professionals Use Twitter[J]. Journal of Teaching in Physical Education , 37(4): 383-396.
[23]Hew, K., Qiao, C., & Tang, Y. (2018). Understanding Student Engagement in Large-Scale Open Online Courses: A Machine Learning Facilitated Analysis of Students Reflections in 18 Highly Rated MOOCs[J]. International Review of Research in Open and Distributed Learning, 19(3): 69-93.
[24]IBM Corporation(2019). About IBM SPSS Modeler Text Analytics[EB/OL]. [2019-05-15]. https://www.ibm.com/support/knowledgecenter/en/SS3RA7_15.0.0/com.ibm.spss.ta.help/tmfc_intro.htm.
[25]Jaskolski, J., Siegberg, F., & Tibroni, T. et al. (2016). Opinion Mining in Online Reviews About Distance Education Programs[EB/OL]. ?[2020-02-01]. https://arxiv.org/abs/1607.06299.
[26]Jigyel, K., Miller, J., & Mavropoulou, S. et al. (2018). Parental Communication and Collaboration in Schools With Special Educational Needs (SEN) Programmes in Bhutan[J]. International Journal of Inclusive Education, 22(12): 1288-1305.
[27]Kiritchenko, S., & Matwin, S. (2011). Email Classification With Co-Training[C]// Proceedings of the 2011 Conference of the Center for Advanced Studies on Collaborative Research. IBM Corp: 301-312.
[28]Koufakou, A., Gosselin, J., & Guo, D. (2016). Using Data Mining to Extract Knowledge From Student Evaluation Comments in Undergraduate Courses[C]// 2016 International Joint Conference on Neural Networks (IJCNN). IEEE:3138-3142.
[29]Langan, G., Montgomery, J., & Garg, S. (2016). Similarity Matching of Computer Science Unit Outlines in Higher Education[C]// Australasian Joint Conference on Artificial Intelligence. Springer, Cham: 150-162.
[30]Lee, H., Kwak, J., & Song, M. et al. (2015). Coherence Analysis of Research and Education Using Topic Modeling[J]. Scientometrics, 102(2): 1119-1137.
[31]Liu, Z., & Zhang, Y. (2018). A Semantic Role Mining and Learning Performance Prediction Method in MOOCs[C]//Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data. Springer, Cham:259-269.
[32]Merton, R., & Barber, E. (2011). The Travels and Adventures of Serendipity: A Study in Sociological Semantics and the Sociology Of Science[M]. Princeton University Press.
[33]Nitin, G., Swapna, G., & Shankararaman, V. (2015). Analyzing Educational Comments for Topics and Sentiments: A Text Analytics Approach[C]// 2015 IEEE Frontiers in Education Conference (FIE). IEEE: 1-9.
[34]Salton, G., Wong, A., & Yang, C. S.(1975). A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 18(11): 613-620.
[35]Stupans, I., Mcguren, T., & Babey, A. (2016). Student Evaluation of Teaching: A Study Exploring Student Rating Instrument Free-form Text Comments[J]. Innovative Higher Education, 41(1): 33-42.
[36]Sullivan, D. (2001). Document Warehousing and Text Mining: Techniques for Improving Business Operations, Marketing, and Sales[M]. John Wiley & Sons, Inc.
[37]Takeyasu, K., Oyanagi, T., & Ishii, Y. et al. (2016). Text Mining Analysis on the Questionnaire Investigation for High School TeachersWork Load[C]// 2016 International Conference on Industrial Engineering, Management Science and Application (ICIMSA). IEEE:1-5.
[38]Tan, A. (1999). Text Mining: The State of the Art and the Challenges[C]// Proceedings of the PAKDD 1999 Workshop on Knowledge Disocovery from Advanced Databases: 65-70.
[39]Tan, P. (2018). Introduction to Data Mining[M]. Pearson Education India.
[40]Tseng, Y., Lin, C., & Lin, Y. (2007). Text Mining Techniques for Patent Analysis[J]. Information Processing & Management, 43(5): 1216-1247.
[41]Velasquez, N., Fields, D., & Olsen, D. et al. (2014). Novice Programmers Talking About Projects: What Automated Text Analysis Reveals About Online Scratch UsersComments[C]// 2014 47th Hawaii International Conference on System Sciences. IEEE: 1635-1644.
[42]Verma, A., Rathore, S., & Vishwakarma, S. et al. (2017). Multilevel Analysis of Students Feedbackusing Moodle Logs in Virtual Cloud Environment[J]. International Journal of Computer Science & Information Technology, 9(5): 15-28.
[43]Witten, I., Frank, E., & Hall, M. et al. (2016). Data Mining: Practical Machine Learning Tools and Techniques[M]. Morgan Kaufmann.
[44]Wong, G., Li, S., & Wong, E. (2016a). Analyzing Academic Discussion Forum Data With Topic Detection and Data Visualization[C]// 2016 IEEE International Conference on Teaching, Assessment, and Learning for Engineering (TALE). IEEE: 109-115.
[45]Wong, G., & Li, S. (2016b). Academic Performance Prediction Using Chance Discovery From Online Discussion Forums[C]// 2016 IEEE 40th Annual Computer Software and Applications Conference (COMPSAC):706-711.
[46]Yu, F., & Zheng, D. (2017). Education Data Mining: How to Mine Interactive Text in Moocs Using Natural Language Process[C]// 2017 12th International Conference on Computer Science and Education (ICCSE). IEEE:694-699.
收稿日期 2020-05-17責(zé)任編輯 汪燕
Abstract: Educational text mining refers to the process of using data mining algorithms or tools to extract meaningful patterns or knowledge from unstructured text documents through data collection and processing. Educational texts contain a wealth of information about learners cognition, behaviors and emotions. Deep mining and analysis of them will help to explore the basic laws of education and teaching, and explain the problems and phenomena in education. The educational text mining model supported by big data includes the main body of data production and use (stakeholders), teaching environment, data and mining tools and other core elements, involving data generation, data collection, data processing, knowledge discovery, evaluation and interpretation, and instructional application and other processes and methods. Its commonly used data sources include questionnaires, online interactions, learning feedback, online comments, social media and teaching documents, which are mainly used for learners performance prediction, learner modeling, learners level evaluation, teaching material structure analysis, and learners feedback and content visualization. Currently, educational text mining still faces challenges in massive data processing, dimensionality reduction and fidelity of data, result evaluation and interpretation, etc. Researchers need to deeply integrate pedagogy, cognitive psychology, linguistics and other multidisciplinary research methods, combined with basic theories of education and teaching and specific educational situations, pay attention to multimodal analysis and verification, to ensure the scientific nature of its application in educational research. With the breakthroughs and application development of related technologies, educational text data will become the driving force for the modernization of education and play a greater role in the fields of deep learning and precision teaching.
Keywords: Education Big Data; Data Mining; Learning Analysis; Educational Text Mining