王夢(mèng)倩 范逸洲 郭文革 汪瓊
【摘 要】
在當(dāng)前MOOC教學(xué)中,學(xué)習(xí)者普遍按照是否完成課程為標(biāo)準(zhǔn)被分為兩大類:完成與未完成。但是,這種二元分類具有一些局限,如忽視了只選擇部分參與課程的學(xué)習(xí)者和積極參與課程但對(duì)課程證書(shū)沒(méi)有需求的學(xué)習(xí)者,不利于解釋未完成課程者中途輟學(xué)的原因,難以有效捕獲具有高度異質(zhì)性的MOOC學(xué)習(xí)者真實(shí)復(fù)雜的學(xué)習(xí)特點(diǎn)??紤]到MOOC學(xué)習(xí)者的大規(guī)模特征,通過(guò)人工方法從多個(gè)維度對(duì)學(xué)習(xí)者進(jìn)行識(shí)別和分類存在難度,因此有必要采用技術(shù)手段作為一種補(bǔ)充,聚類分析被視為一種有效的探索性技巧來(lái)識(shí)別和刻畫(huà)MOOC學(xué)習(xí)者更多元的特征。本文通過(guò)對(duì)16篇采用聚類分析技術(shù)分析MOOC學(xué)習(xí)者特征的英文文獻(xiàn)進(jìn)行綜述,試圖回答三個(gè)問(wèn)題:哪些特征指標(biāo)被應(yīng)用于聚類?哪些聚類算法被采用?學(xué)習(xí)者被分為哪些類別?希望能以此呈現(xiàn)該主題研究的全貌,為國(guó)內(nèi)研究者應(yīng)用聚類分析技術(shù)刻畫(huà)學(xué)習(xí)者特征提供思路,并對(duì)如何確定合適的聚類指標(biāo)、聚類算法以及闡釋聚類結(jié)果提供方法性的指導(dǎo)。最后,本文指出了聚類分析技術(shù)的情境依賴性和方法局限性,并對(duì)未來(lái)應(yīng)用聚類分析技術(shù)分析學(xué)習(xí)者特征進(jìn)行了研究展望。
【關(guān)鍵詞】 慕課;聚類分析;學(xué)習(xí)者;學(xué)習(xí)分析;數(shù)據(jù)挖掘;在線學(xué)習(xí)
【中圖分類號(hào)】 G420 【文獻(xiàn)標(biāo)識(shí)碼】 A 【文章編號(hào)】 1009-458x(2018)7-0009-11
一、引言
MOOC(Massive Open Online Course,慕課)即大規(guī)模開(kāi)放在線課程,其創(chuàng)新之處在于向全世界學(xué)習(xí)者提供了自由的在線學(xué)習(xí)機(jī)會(huì),因此MOOC學(xué)習(xí)者數(shù)量眾多。在當(dāng)前MOOC教學(xué)中,學(xué)習(xí)者普遍按照是否完成課程為標(biāo)準(zhǔn)被分為兩大類:近5%完成,約95%未完成(Yousef, Chatti, Wosnitza, & Schroeder, 2015)。這是對(duì)MOOC學(xué)習(xí)者群體的初步畫(huà)像,然而這種二元分類無(wú)法解釋導(dǎo)致絕大多數(shù)MOOC學(xué)習(xí)者輟學(xué)的復(fù)雜原因。例如,有的學(xué)習(xí)者只對(duì)一門課程的部分內(nèi)容感興趣,只參與了部分課程,自認(rèn)為學(xué)完了,但是從傳統(tǒng)的學(xué)分賦予單位的角度看他們是“未完成”;有的學(xué)習(xí)者積極參與課程,但對(duì)課程證書(shū)沒(méi)有需求,也被劃分到“未完成”群體(Kizilcec, Piech, & Schneider, 2013, pp. 170-179)。此外,也難以有效地捕獲具有高度異質(zhì)性的MOOC學(xué)習(xí)者真實(shí)復(fù)雜的學(xué)習(xí)特點(diǎn)(Arora, Goel, Sabitha, & Mehrotra, 2017)??紤]到MOOC學(xué)習(xí)者的大規(guī)模特點(diǎn),僅通過(guò)人工方法從文化來(lái)源、人口學(xué)特征、修課動(dòng)機(jī)、學(xué)習(xí)特征等多個(gè)方面(Yousef, et al., 2015)對(duì)學(xué)習(xí)者群體的特征進(jìn)行識(shí)別和分類存在難度,有必要借助技術(shù)手段以更多元的視角刻畫(huà)學(xué)習(xí)者特征。
聚類分析(clustering analysis)作為一種數(shù)據(jù)挖掘方法,被視為一種有效的探索性技巧用來(lái)識(shí)別和刻畫(huà)MOOC學(xué)習(xí)者特征(Cabedo, Edmundo & Castro, 2016),也常作為其他深入研究、教學(xué)干預(yù)和研發(fā)適應(yīng)性功能的起點(diǎn)(Kizilcec, et al., 2013, pp. 170-179; 孫洪濤, 等, 2016),如分析學(xué)習(xí)者需求、進(jìn)行個(gè)性化推薦、識(shí)別危機(jī)學(xué)生等。典型的聚類過(guò)程一般包括數(shù)據(jù)準(zhǔn)備、特征選擇、特征提取、聚類過(guò)程、聚類結(jié)果評(píng)估五步(孫吉貴, 等, 2008)。從輸入輸出的角度來(lái)看,聚類分析包括三個(gè)核心部分:一是選取恰當(dāng)?shù)奶卣髦笜?biāo)作為輸入變量,二是選取合適的聚類算法執(zhí)行相似度的度量,三是對(duì)輸出結(jié)果進(jìn)行類別分析。聚類分析運(yùn)用數(shù)學(xué)的方法來(lái)研究類的劃分以及各類之間的親疏程度(方開(kāi)泰, 等, 1982, p.1),屬于數(shù)據(jù)挖掘領(lǐng)域中的無(wú)監(jiān)督模式識(shí)別方法,在沒(méi)有先驗(yàn)信息的指導(dǎo)下從數(shù)據(jù)集中發(fā)現(xiàn)潛在的結(jié)構(gòu),以提供客觀和穩(wěn)定的分類(Everitt, Landau, Leese, & Stahl, 2013, pp .4-9),并使得同類間的相似性盡可能大,而不同類之間的差異性盡可能大(周開(kāi)樂(lè), 等, 2014)。
在當(dāng)前MOOC學(xué)習(xí)者分析研究中,通過(guò)聚類分析方法刻畫(huà)MOOC學(xué)習(xí)者特征的研究主要來(lái)自國(guó)外,被用來(lái)揭示學(xué)習(xí)者在課程參與、視頻觀看、資源獲取、動(dòng)機(jī)、感興趣話題等方面的特征,以提供對(duì)學(xué)習(xí)者群體的全面解讀(Khalil & Ebner, 2017)。我們從聚類指標(biāo)、聚類算法和聚類結(jié)果三個(gè)方面對(duì)近五年內(nèi)有關(guān)MOOC學(xué)習(xí)者聚類分析的英文文獻(xiàn)進(jìn)行梳理,試圖回答:
(1)哪些特征指標(biāo)被應(yīng)用于聚類?
(2)哪些聚類算法被采用?
(3)學(xué)習(xí)者被分為哪些類別?
通過(guò)回答這三個(gè)問(wèn)題,以呈現(xiàn)該主題研究的全貌,并對(duì)當(dāng)前研究的不足進(jìn)行反思,以期為國(guó)內(nèi)研究者應(yīng)用聚類分析刻畫(huà)學(xué)習(xí)者特征提供思路,并對(duì)如何確定合適的聚類指標(biāo)、聚類算法以及如何闡釋聚類結(jié)果提供方法性的指導(dǎo)。
二、綜述方法
本文最初計(jì)劃對(duì)國(guó)內(nèi)外采用聚類分析方法刻畫(huà)MOOC學(xué)習(xí)者特征的研究進(jìn)行綜述,然而在文獻(xiàn)搜集過(guò)程中發(fā)現(xiàn)相關(guān)中文文獻(xiàn)極少,僅有的文獻(xiàn)描述的聚類過(guò)程不夠規(guī)范嚴(yán)謹(jǐn),沒(méi)有說(shuō)明被聚類的學(xué)習(xí)者對(duì)象人數(shù)。因此,我們決定縮小研究范圍,聚焦于英文文獻(xiàn)。英文語(yǔ)境中,聚類(clustering)和分類(classification)雖是兩種不同的數(shù)據(jù)挖掘技術(shù),前者屬于無(wú)監(jiān)督模式識(shí)別,后者屬于有監(jiān)督模式識(shí)別,但聚類常常作為分類研究的預(yù)步驟,兩種技術(shù)的使用存在交叉的情況,因此我們?cè)谖墨I(xiàn)檢索時(shí)采納了“clustering”和“classification” 這兩個(gè)關(guān)鍵詞,以求在盡量寬泛的范圍內(nèi)搜尋有關(guān)MOOC學(xué)習(xí)者聚類研究的文獻(xiàn),而在后續(xù)的文獻(xiàn)閱讀中再進(jìn)行人工篩選。最終本文以“MOOC”“MOOCs”“clustering”“classification”為關(guān)鍵詞,在Web of Science、ERIC數(shù)據(jù)庫(kù)中檢索了近5年內(nèi)的英文文獻(xiàn),并在之后閱讀文獻(xiàn)的過(guò)程中對(duì)參考文獻(xiàn)中相關(guān)主題的文章進(jìn)行檢索,最終共得到58篇相關(guān)文獻(xiàn)。
為了保證主題的聚焦與分析的信效度,我們對(duì)檢索到的文獻(xiàn)進(jìn)行了進(jìn)一步的篩選。篩選的標(biāo)準(zhǔn)主要包括:
(1)MOOC的課程信息是否明確?
(2)研究對(duì)象是否聚焦于學(xué)習(xí)者?
(3)研究方法是否為聚類分析?
從篩選的步驟上,首先剔除了不是聚焦于MOOC學(xué)習(xí)情境或沒(méi)有介紹課程信息及數(shù)據(jù)來(lái)源的文章;其次剔除了聚類對(duì)象不是MOOC學(xué)習(xí)者的文章(如對(duì)MOOC、教學(xué)者的聚類分析);最后剔除了不是應(yīng)用聚類分析方法進(jìn)行分類的文章(如人工分類、描述統(tǒng)計(jì)等)。經(jīng)過(guò)上述篩選,我們最終從58篇文獻(xiàn)中篩選出了16篇英文文獻(xiàn),可見(jiàn)當(dāng)前采用聚類分析方法刻畫(huà)學(xué)習(xí)者特征的研究成果并不多。相關(guān)文獻(xiàn)信息如表1所示。
三、研究發(fā)現(xiàn)
(一)哪些特征指標(biāo)被應(yīng)用于聚類?
用于MOOC學(xué)習(xí)者聚類分析的數(shù)據(jù)集可能包含數(shù)以百計(jì)的特征屬性,其中大部分屬性與聚類分析目的不相關(guān),研究者需從中選擇或設(shè)計(jì)一組能夠表征研究主題的特征指標(biāo)作為輸入到聚類算法中的原始參數(shù)(孫洪濤, 等, 2016)。針對(duì)不同的聚類目標(biāo),特征指標(biāo)的選取和數(shù)據(jù)來(lái)源會(huì)有所不同。在本文綜述的16篇文獻(xiàn)中,絕大部分聚類研究的數(shù)據(jù)來(lái)源為課程日志,如旨在識(shí)別學(xué)習(xí)者課程參與、視頻觀看和資源獲取等方面特征的聚類研究主要以課程日志為數(shù)據(jù)來(lái)源。
從課程日志中抽取的特征指標(biāo)可以按照傾向性指標(biāo)、人機(jī)交互指標(biāo)、人際交互指標(biāo)和學(xué)習(xí)績(jī)效指標(biāo)四類標(biāo)準(zhǔn)進(jìn)行分類,我們對(duì)這些指標(biāo)作了梳理,如表2所示。其中,傾向性指標(biāo)主要是指學(xué)習(xí)者進(jìn)入學(xué)習(xí)環(huán)境時(shí)自身已經(jīng)帶有的一些屬性,包括他/她的固有指標(biāo)(如性別、年齡、種族)和過(guò)去的經(jīng)歷(如社會(huì)經(jīng)濟(jì)背景、初始知識(shí)等)(范逸洲, 等, 2018)。隨后,我們將再?gòu)奶卣髦笜?biāo)的選取數(shù)目、提取方式和粒度層次三個(gè)方面進(jìn)行分析。
1. 指標(biāo)數(shù)目:與情境有關(guān)
另外,有11篇文獻(xiàn)都關(guān)注學(xué)習(xí)者課程參與模式的識(shí)別,但不同研究者對(duì)于“參與”的含義理解不同,因此在特征指標(biāo)的選擇上存在較大差別。Anderson等人采納的特征指標(biāo)數(shù)目最少,僅包括瀏覽視頻數(shù)目和提交作業(yè)數(shù)目這兩個(gè)特征指標(biāo)(Anderson, et al., 2014, pp. 687-698);Rodrigues等人采納的指標(biāo)最多,他們對(duì)“參與”的理解更加寬泛,把論壇發(fā)帖、視頻觀看、測(cè)驗(yàn)等在內(nèi)的共14個(gè)特征指標(biāo)都包括進(jìn)來(lái)(Rodrigues, et al., 2016, pp. 232-233);Hicks等人則直接將學(xué)習(xí)者點(diǎn)擊流數(shù)據(jù)作為聚類分析的輸入變量(Hicks, et al., 2016, pp. 1-9)。剩余的2篇文獻(xiàn)由于采用的聚類算法較特殊,沒(méi)有明確說(shuō)明所選擇的特征指標(biāo)數(shù)目(Hecking, et al., 2014; Hecking, et al., 2015, pp. 114-121)。
在學(xué)習(xí)者特征聚類分析研究中,對(duì)于應(yīng)該選擇哪些特征指標(biāo)和選擇多少個(gè)特征指標(biāo)沒(méi)有定論,需要結(jié)合研究情境和聚類目的具體分析。此外,需要注意的是遺漏相關(guān)特征或留下不相關(guān)的特征對(duì)聚類過(guò)程都有影響,會(huì)導(dǎo)致發(fā)現(xiàn)的聚類模式質(zhì)量降低(韓家煒, 等, 2001, p. 79)。而且,不相關(guān)或冗余的特征會(huì)增加待分析的數(shù)據(jù)量,可能會(huì)減慢聚類進(jìn)程(韓家煒, 等, 2001, p. 79)。
2. 提取方式:直接與間接
另一種間接的特征指標(biāo)提取方式是通過(guò)對(duì)課程日志中篩選得到的特征進(jìn)行轉(zhuǎn)換形成新的突出特征(孫吉貴, 等, 2008),再將其輸入到聚類過(guò)程中,這個(gè)過(guò)程被稱為“屬性構(gòu)造”或“特征構(gòu)造”,有助于提高聚類精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解(韓家煒, 等, 2001, pp. 76-77)。
我們發(fā)現(xiàn)在當(dāng)前MOOC學(xué)習(xí)者聚類分析文獻(xiàn)中,特征構(gòu)造過(guò)程實(shí)際上是降維的過(guò)程,將視頻觀看、任務(wù)完成等多維度特征整合為單一維度,如Kizilcec 和Ferguson等人將多維度特征轉(zhuǎn)化為單維的標(biāo)稱變量。Kizilcec等人以學(xué)習(xí)者在MOOC平臺(tái)上觀看視頻和完成測(cè)驗(yàn)的行為數(shù)據(jù)為基礎(chǔ),設(shè)定了4個(gè)標(biāo)記值用以標(biāo)記學(xué)習(xí)者每周的學(xué)習(xí)狀態(tài),其中0為“out”,表示完全未參與課程;1為“auditing”,表示觀看了視頻,但沒(méi)有完成測(cè)驗(yàn);2為“behind”,表示在指定時(shí)間之后完成測(cè)驗(yàn);3為“on track”,表示按時(shí)完成測(cè)驗(yàn)(Kizilcec, et al., 2013, pp. 170-179)。Ferguson等人在兩篇文獻(xiàn)中均針對(duì)是否瀏覽學(xué)習(xí)內(nèi)容、是否參與討論、是否按時(shí)參與測(cè)驗(yàn)三個(gè)標(biāo)準(zhǔn)制定了一套評(píng)分標(biāo)準(zhǔn),瀏覽學(xué)習(xí)內(nèi)容記1分,參與討論記2分,推遲完成測(cè)驗(yàn)記4分,按時(shí)完成測(cè)驗(yàn)記8分,然后將每周內(nèi)各項(xiàng)活動(dòng)的得分值累加,每位學(xué)習(xí)者每周的得分值在0-11分之間(Ferguson, et al., 2015a, pp. 51-58)。Anderson等人將多維度特征轉(zhuǎn)化為區(qū)間標(biāo)度變量(韓家煒, 等, 2001, pp. 225-230),設(shè)定了一個(gè)“任務(wù)分?jǐn)?shù)”來(lái)標(biāo)記學(xué)習(xí)者觀看視頻(記為“l(fā)”)和提交任務(wù)(記為“a”)的行為。學(xué)習(xí)者的任務(wù)分?jǐn)?shù)計(jì)算公式為a/(a+l),其值在0到1之間(Anderson, et al., 2014, pp. 687-698)。Baker認(rèn)為“特征構(gòu)造”將領(lǐng)域知識(shí)引入以數(shù)據(jù)驅(qū)動(dòng)的聚類技術(shù),將大量低層級(jí)、不規(guī)范的數(shù)據(jù)指標(biāo)有效地轉(zhuǎn)化為更加合理的具有實(shí)際意義和解釋力的特征指標(biāo)(Baker, Carvalho, Raspat, Aleven, Corbett, & Koedinger, 2009)。
3. 粒度層次:粗粒度為主
通過(guò)分析所選取的文獻(xiàn),我們發(fā)現(xiàn)不同研究所選取的特征指標(biāo)在粒度層次上也體現(xiàn)出差異?!傲6取保╣ranularity)是數(shù)據(jù)庫(kù)名詞,是指記錄數(shù)據(jù)或?qū)?shù)據(jù)進(jìn)行綜合時(shí)所使用的時(shí)間段參數(shù),它決定了所存儲(chǔ)的數(shù)據(jù)單元在時(shí)間上的詳細(xì)程度和級(jí)別。時(shí)間段參數(shù)越小,粒度級(jí)別越低,數(shù)據(jù)越詳細(xì)、具體;反之,時(shí)間段參數(shù)越大,粒度級(jí)別越高,就意味著數(shù)據(jù)綜合度高,同時(shí)細(xì)節(jié)的損失就越多(蘇新寧, 等, 2006, p.53)。
當(dāng)前MOOC學(xué)習(xí)者聚類研究中普遍選取的特征指標(biāo)時(shí)間跨度長(zhǎng)、粒度較高,大多數(shù)研究(共10篇)以整個(gè)課程持續(xù)周期為時(shí)間段參數(shù),這些高粒度級(jí)別的特征指標(biāo)往往是對(duì)低粒度級(jí)別特征指標(biāo)的匯總。例如,Khalil等人基于德國(guó)格拉茨技術(shù)大學(xué)(Graz University of Technology)開(kāi)設(shè)的一門MOOC,刻畫(huà)學(xué)習(xí)者在課程過(guò)程中的參與情況,選取的4項(xiàng)指標(biāo)均以整個(gè)課程周期為時(shí)間段參數(shù),指的是學(xué)習(xí)者在課程10周時(shí)間內(nèi)分別閱讀帖子、發(fā)帖、觀看視頻和嘗試測(cè)驗(yàn)的總次數(shù)(Khalil, et al., 2017)。有3篇研究選取的特征指標(biāo)粒度級(jí)別較低,以每周為時(shí)間段參數(shù)(Kizilcec, et al., 2013, pp. 170-179; Ferguson, et al., 2015a, pp. 51-58; Ferguson et al., 2015b)。例如,Kizilcec等人以0至3四個(gè)數(shù)值分別代表out、auditing、behind和on track四個(gè)屬性值,標(biāo)記學(xué)習(xí)者每周內(nèi)的課程完成屬性(Kizilcec, et al., 2013, pp. 170-179),那么整個(gè)課程周期內(nèi)某個(gè)學(xué)習(xí)者的特征值就可以用一組0至3的數(shù)字組成的集合表示。Hicks等人選取的特征指標(biāo)粒度最低,他們直接采用課程日志中的學(xué)習(xí)者點(diǎn)擊流數(shù)據(jù)作為聚類的輸入變量(Hicks, et al., 2016, pp. 1-9),以每執(zhí)行一項(xiàng)行為的時(shí)間節(jié)點(diǎn)為時(shí)間段參數(shù)。
(二)哪些聚類算法被采用?
1. 類型分布:K均值為主
此外,Hecking等人分析的數(shù)據(jù)來(lái)源是論壇中的討論文本,屬于非結(jié)構(gòu)化數(shù)據(jù)。分析非結(jié)構(gòu)化數(shù)據(jù)難度更大,他們采用了關(guān)鍵詞抽取、網(wǎng)絡(luò)分析和二分聚類分析相結(jié)合,在文本數(shù)據(jù)的聚類方面做出了嘗試。他們依據(jù)文檔主題生成模型(Latent Dirichilet Allocation)從論壇數(shù)據(jù)流中抽取學(xué)習(xí)者的話語(yǔ)關(guān)鍵詞,并將這些關(guān)鍵詞與對(duì)應(yīng)學(xué)習(xí)者建立關(guān)聯(lián),由此形成了一個(gè)二分網(wǎng)絡(luò),采用二分聚類算法(bipartite clustering)對(duì)該網(wǎng)絡(luò)進(jìn)行分析,識(shí)別出有共同興趣主題的學(xué)習(xí)者分類以及學(xué)習(xí)者感興趣的相關(guān)主題分類,進(jìn)而分析有共同興趣主題的學(xué)習(xí)者與無(wú)共同興趣主題的學(xué)習(xí)者之間的特征差別,分析課程周期內(nèi)學(xué)習(xí)者感興趣主題的動(dòng)態(tài)變化趨勢(shì)(Hecking, et al., 2015, pp. 114-121)。
2. 性度度量:內(nèi)部與外部
在當(dāng)前MOOC學(xué)習(xí)者聚類研究中,大多數(shù)研究者都只采用了一種聚類算法,但也有少數(shù)研究者對(duì)同樣的數(shù)據(jù)嘗試了多種聚類算法,以發(fā)現(xiàn)數(shù)據(jù)可能揭示的結(jié)果并從中選取最優(yōu)解。如Gallén等人采用了包括層次化聚類算法和劃分式聚類算法在內(nèi)的9種算法(Gallén et al., 2017, pp. 1600-1605)、Rodrigues等人采用了2種聚類算法(Rodrigues, et al., 2016, pp. 232-233)。不同聚類方法獲得的結(jié)果有所不同,因此需要對(duì)聚類結(jié)果的性能進(jìn)行度量,度量的途徑大致有兩種:其一,將聚類結(jié)果與領(lǐng)域內(nèi)普遍受到認(rèn)可的“參考模型”進(jìn)行比較,稱為“外部指標(biāo)”,如Khalil等人將聚類結(jié)果和Elton1996年提出的Cryers Scheme進(jìn)行比較(Khalil, et al., 2017);其二,利用數(shù)據(jù)集的固有特征和量值直接考察聚類結(jié)果而不利用任何參考模型,如通過(guò)計(jì)算簇內(nèi)平均相似度、簇間平均相似度或整體相似度等,被稱為“內(nèi)部指標(biāo)”(周志華, 2017, pp. 197-198; 李春葆, 等, 2014, p. 273)。
當(dāng)前MOOC學(xué)習(xí)者聚類研究普遍采用的是后一種方法,通過(guò)計(jì)算一系列內(nèi)部指標(biāo)來(lái)驗(yàn)證聚類結(jié)果的有效性。例如,Kizilcec等人、Ferguson等人采用輪廓系數(shù)對(duì)K均值算法的有效性進(jìn)行評(píng)估,輪廓系數(shù)通過(guò)對(duì)聚類簇的凝聚度和分離度進(jìn)行整合,衡量聚類結(jié)果里同類別中對(duì)象之間的相似度以及不同類別之間對(duì)象的差異度,以反映聚類結(jié)果的總體質(zhì)量(Chen, et al., 2002)。輪廓系數(shù)的最大值為 1,其值越接近 1,聚類效果越好(Kizilcec, et al., 2013, pp. 170-179; Ferguson, et al., 2015a, pp. 51-58)。而對(duì)于基于人工神經(jīng)網(wǎng)絡(luò)模型的SOMs算法,Cabedo等人采用了拓?fù)渚_指數(shù)和平均失真指數(shù)來(lái)驗(yàn)證其有效性(Cabedo, et al., 2016)。需要說(shuō)明的是,很難找到一個(gè)獨(dú)立于算法的質(zhì)量評(píng)價(jià)指標(biāo)來(lái)同時(shí)評(píng)價(jià)多種聚類算法(Chen, et al., 2002),因此聚類算法的有效性評(píng)估非常依賴專家通過(guò)領(lǐng)域知識(shí)進(jìn)行解讀(Cabedo, et al., 2016)。
(三)學(xué)習(xí)者被分為哪些類別?
1. 類別數(shù)目:確定與不確定
在所分析的16篇文章中,大多數(shù)研究得到了確定數(shù)目的聚類結(jié)果,其中Hecking等人識(shí)別出的學(xué)習(xí)者類別數(shù)目最少,僅包括2類,分別是與他人存在共同興趣關(guān)鍵詞的學(xué)習(xí)者類和不存在共同興趣關(guān)鍵詞的學(xué)習(xí)者類,前者發(fā)帖數(shù)量更多且帖子主題分布更廣泛,同樣也收到更多回應(yīng),這類學(xué)習(xí)者在整個(gè)學(xué)習(xí)者網(wǎng)絡(luò)中更有影響力,是更重要的節(jié)點(diǎn)(Hecking, et al., 2015, pp. 114-121)。Li等人聚焦學(xué)習(xí)者視頻交互行為,識(shí)別出的學(xué)習(xí)者類別數(shù)目最多,包括9類(Li, et al., 2015, pp. 197-210)。其他大部分研究發(fā)現(xiàn)的類別數(shù)目在3至6之間。由于聚類方法和目的的不同,類別數(shù)目的多少并不能直接與聚類效度掛鉤,但是較多的聚類數(shù)目也能在一定程度上反映該研究對(duì)于識(shí)別數(shù)據(jù)集中不同類別的敏感性。
另有4篇研究中聚類結(jié)果因聚類過(guò)程中的某些因素影響而呈現(xiàn)出多種類別。Kizilcec是最早進(jìn)行MOOC學(xué)習(xí)者聚類研究的學(xué)者,他基于Coursera平臺(tái)上三門xMOOC學(xué)習(xí)者數(shù)據(jù),識(shí)別出4類學(xué)習(xí)者:完成者、試聽(tīng)者、旁觀者、退出者(Kizilcec, et al., 2013, pp. 170-179)。Ferguson等人采用與Kizilcec相似的特征提取方法,分析了FutureLearn平臺(tái)上的5門課程時(shí)長(zhǎng)不一、學(xué)習(xí)設(shè)計(jì)方式不一的cMOOC,試圖對(duì)Kizilcec的研究進(jìn)行檢驗(yàn)。但相比Kizilcec的聚類結(jié)果,F(xiàn)erguson等人只識(shí)別出前兩種類別:完成者、試聽(tīng)者。Ferguson對(duì)此的解釋是xMOOC強(qiáng)調(diào)學(xué)習(xí)者觀看課程視頻并參與課程測(cè)驗(yàn),而cMOOC在此之外更強(qiáng)調(diào)通過(guò)討論進(jìn)行社會(huì)建構(gòu)知識(shí),兩種MOOC的理論基礎(chǔ)和教學(xué)法方面存在差異,影響到學(xué)習(xí)者的聚類結(jié)果(Ferguson, et al., 2015a, pp. 51-58)。
隨后Ferguson等人根據(jù)FutureLearn課程平臺(tái)的特點(diǎn),重新設(shè)計(jì)了特征指標(biāo)的選取方式,對(duì)5門課程時(shí)長(zhǎng)不一、學(xué)習(xí)設(shè)計(jì)方式不一的cMOOC分別進(jìn)行聚類,結(jié)果發(fā)現(xiàn)課程時(shí)長(zhǎng)和課程設(shè)計(jì)都會(huì)影響到學(xué)習(xí)者聚類結(jié)果。在他們研究的5門cMOOC中,有2門時(shí)長(zhǎng)較長(zhǎng)(持續(xù)7-8周)的MOOC、2門時(shí)長(zhǎng)較短(持續(xù)3周)的MOOC以及1門以討論活動(dòng)為主且不含測(cè)試的MOOC(Talk MOOC)。在時(shí)長(zhǎng)較長(zhǎng)的兩門MOOC中,學(xué)習(xí)者被分為7類:抽樣學(xué)習(xí)者(Samplers)、虎頭蛇尾者(Strong Starters)、回歸者(Returners)、中期輟學(xué)者(Mid-way Dropouts)、全程參與者(Nearly There)、拖延的完成者(Late Completers)和敏銳的完成者(Keen Completers);在另外兩門時(shí)長(zhǎng)較短的MOOC中學(xué)習(xí)者被分為4類和5類;在Talk MOOC中學(xué)習(xí)者被分為3類:沉默的學(xué)習(xí)者(Quiet)、貢獻(xiàn)者(Contributors)、持續(xù)參與者(Consistent Engagers)。因此,F(xiàn)erguson等人認(rèn)為一門MOOC中的學(xué)習(xí)者聚類結(jié)果并不總是能夠適用于其他MOOC(Ferguson, et al., 2015a, pp. 51-58)。
此外,Khalil等人發(fā)現(xiàn)學(xué)習(xí)者的自身特點(diǎn)會(huì)影響聚類結(jié)果。他們的研究情境是一門持續(xù)10周的MOOC,該課程的注冊(cè)者包括459名來(lái)自認(rèn)證大學(xué)的本科生和379名校外人員,本科生被要求強(qiáng)制參加課程,并在完成課程后會(huì)得到2.5ECTS學(xué)分,而校外人員則基于自愿進(jìn)行學(xué)習(xí)。研究者分別對(duì)兩類學(xué)習(xí)者進(jìn)行聚類分析,結(jié)果發(fā)現(xiàn):校外人員組的聚類結(jié)果為3類,包括欺騙系統(tǒng)者(Gaming the System)、完美學(xué)習(xí)者(Perfect Students)、退學(xué)者(Dropout)。相比校外人員,本科生學(xué)習(xí)者多了一個(gè)類別——社交者(Social),只有社交者在MOOC論壇中發(fā)過(guò)帖子(Khalil, et al., 2017)。
2. 概念描述:枚舉與特征化
聚類結(jié)果是幾類細(xì)節(jié)數(shù)據(jù)的集合,這些細(xì)節(jié)數(shù)據(jù)并不能給人直觀的印象,應(yīng)當(dāng)靈活地以不同的粒度、從不同的角度進(jìn)行描述,這種描述性數(shù)據(jù)挖掘的過(guò)程稱為概念描述(韓家煒, 2001, p.119)。大多數(shù)MOOC學(xué)習(xí)者聚類結(jié)果的概念描述都體現(xiàn)出了課程參與程度的高低差別,如Rodrigues等人分析一門MOOC論壇中的學(xué)習(xí)者參與情況,將學(xué)習(xí)者劃分為參與者、偶爾參與者和不參與者(Rodrigues, et al., 2016, pp. 232-233);Hicks等人對(duì)學(xué)習(xí)者在課程周期內(nèi)的點(diǎn)擊流數(shù)據(jù)進(jìn)行聚類,將學(xué)習(xí)者分為完全參與的學(xué)習(xí)者、始終如一的學(xué)習(xí)者、參與了兩周的學(xué)習(xí)者、參與了一周的學(xué)習(xí)者、偶爾參與的學(xué)習(xí)者(Hicks, et al., 2016, pp. 1-9)。這兩個(gè)研究中的概念描述從定量的維度反映了學(xué)習(xí)者參與程度的高低。
另一些研究更進(jìn)一步,不僅是數(shù)據(jù)的簡(jiǎn)單枚舉,還產(chǎn)出了對(duì)數(shù)據(jù)的特征化和比較描述,特征化旨在提供給定數(shù)據(jù)匯集的簡(jiǎn)潔匯總,而比較描述則是對(duì)不同的概念或類進(jìn)行比較(韓家煒, 2001, p. 119)。Anderson等人將學(xué)習(xí)者劃分為五類,包括觀看者、解決者、多面手、收集者、旁觀者(Anderson, et al., 2014, pp. 687-698);Arora等人識(shí)別出5類學(xué)習(xí)者,包括非正式學(xué)習(xí)者、不感興趣的學(xué)習(xí)者、執(zhí)行者、探索者、完成者(Arora, et al., 2017);Chen等人識(shí)別出4類學(xué)習(xí)者,包括視頻觀看者(Video Viewers)、資料收集者(Handout Collectors)、追求成績(jī)者(Point Seekers)和其他(Chen, et al., 2017, pp. 542-543)。以上研究在特征化之后,均對(duì)不同類別進(jìn)行了比較分析,例如Hicks等人從學(xué)習(xí)者的個(gè)人特征(包括教育層次、相關(guān)先修課經(jīng)歷、微積分水平等)、學(xué)習(xí)者與課程有關(guān)的情況(包括期待和注冊(cè)動(dòng)機(jī)等方面)、學(xué)習(xí)者目標(biāo)等方面對(duì)5類學(xué)習(xí)者進(jìn)行比較(Hicks, et al., 2016, pp. 1-9)。
通過(guò)分析上述聚類結(jié)果可以發(fā)現(xiàn),概念描述的過(guò)程是結(jié)合教學(xué)過(guò)程對(duì)數(shù)據(jù)集進(jìn)行深入解讀,以體現(xiàn)研究者對(duì)數(shù)據(jù)驅(qū)動(dòng)的聚類結(jié)果的主觀解釋。這是在數(shù)據(jù)驅(qū)動(dòng)的基礎(chǔ)上增加領(lǐng)域知識(shí)的成分,能夠促進(jìn)對(duì)學(xué)習(xí)者特征的內(nèi)部結(jié)構(gòu)之間的潛在關(guān)系的識(shí)別。
3. 對(duì)比分析:共性與特殊性
通過(guò)對(duì)16篇文獻(xiàn)中的聚類結(jié)果進(jìn)行梳理,我們發(fā)現(xiàn)了一些共同的學(xué)習(xí)者類別。完成者、退學(xué)者、課程瀏覽者、低參與者、報(bào)名者這5類學(xué)習(xí)者在16篇研究中被識(shí)別出的頻次最多,如表3所示。除課程瀏覽者之外的4類均描述的是學(xué)習(xí)者課程完成度的高低,可見(jiàn)當(dāng)前MOOC學(xué)習(xí)者聚類研究普遍關(guān)注的是學(xué)習(xí)者完成度情況。共有9項(xiàng)研究識(shí)別出了“完成者”這一類別,明顯多于退學(xué)者、低參與者和報(bào)名者,原因在于一些研究中對(duì)退學(xué)、參與程度低的學(xué)習(xí)者類別做了更細(xì)致的劃分,以致“退學(xué)”“低參與”這類特征在文字描述上有所分化。例如,Kizilcec等人和Ferguson等人識(shí)別出了試聽(tīng)者(Samplers),這類學(xué)習(xí)者只在課程的前一至兩周瀏覽過(guò)課程視頻,而后退出了課程(Kizilcec, et al., 2013, pp. 170-179);Ferguson等人識(shí)別出了虎頭蛇尾者(Strong Starters)和“蛇頭蛇尾者”(Very Weak Starters)(Ferguson et al., 2015b);Hicks 等人識(shí)別出了參與一周和兩周的學(xué)習(xí)者(One/Two-Week Engaged Learners)(Hicks, et al., 2016)。以上這些學(xué)習(xí)者類別均是對(duì)“退學(xué)者”“低參與者”的進(jìn)一步細(xì)致分類。之所以Kizilcec、Ferguson和Hicks 等人能夠做出更進(jìn)一步的分析,是因?yàn)樗麄冞x取的特征指標(biāo)粒度更細(xì),所關(guān)注的時(shí)間段參數(shù)更小。表3中的另外一類被識(shí)別頻次較高的學(xué)習(xí)者是課程瀏覽者,描述的是學(xué)習(xí)者的學(xué)習(xí)特點(diǎn)而非完成情況,這說(shuō)明在較多MOOC中普遍存在著只瀏覽課程內(nèi)容,而不參與測(cè)驗(yàn)、作業(yè)的學(xué)習(xí)者群體,他們把MOOC當(dāng)作一種“教材”或“參考書(shū)”進(jìn)行瀏覽。
同時(shí),我們也發(fā)現(xiàn)了一些獨(dú)特的學(xué)習(xí)者群體,如表4所示。這些獨(dú)特的學(xué)習(xí)者群體與其對(duì)應(yīng)的MOOC教學(xué)情境、研究情境存在著一定的相關(guān)性。拖延的完成者、“蛇頭蛇尾者”、進(jìn)步者等學(xué)習(xí)者群體描述的是學(xué)習(xí)者學(xué)習(xí)過(guò)程中隨時(shí)間變化的特點(diǎn),這反映出研究者選取的特征指標(biāo)粒度較細(xì)。在英國(guó)伯明翰大學(xué)開(kāi)設(shè)的持續(xù)3周的生命科學(xué)主題的MOOC中,F(xiàn)erguson等人識(shí)別出了進(jìn)步者(Improvers)這一群體,這類學(xué)習(xí)者在學(xué)習(xí)過(guò)程中的參與程度逐漸提高;但在另一門同樣時(shí)長(zhǎng)和主題的由英國(guó)利茲大學(xué)開(kāi)設(shè)的MOOC中,F(xiàn)erguson等人卻沒(méi)有類似的發(fā)現(xiàn)。其他研究者也沒(méi)有識(shí)別出進(jìn)步者。這說(shuō)明MOOC中的進(jìn)步者群體極為少見(jiàn),另外在課程時(shí)長(zhǎng)較短的MOOC中出現(xiàn)進(jìn)步者的可能性更高(Ferguson et al., 2015b);Anderson等人選取的特征指標(biāo)聚焦在瀏覽視頻和提交作業(yè),因此識(shí)別出了課程瀏覽者(普遍只看視頻)、解決任務(wù)者(普遍只提交作業(yè))、多面手(既看視頻又提交作業(yè))(Anderson, et al., 2014, pp. 687-698);Talk MOOC是以社會(huì)知識(shí)建構(gòu)為教學(xué)法而設(shè)計(jì)的,教學(xué)活動(dòng)沒(méi)有測(cè)驗(yàn)而是一系列結(jié)構(gòu)化討論,Talk MOOC中的學(xué)習(xí)者同時(shí)也可以是知識(shí)生產(chǎn)者。Ferguson等人發(fā)現(xiàn)沉默者(Quiet)和貢獻(xiàn)者(Contributors)是Talk MOOC中獨(dú)有的學(xué)習(xí)者群體,沉默者僅在課程初有過(guò)發(fā)帖,貢獻(xiàn)者在課程中發(fā)帖較多(Ferguson et al., 2015b)。Kovanovi
另外,Gallén等人關(guān)注的是學(xué)習(xí)者動(dòng)機(jī),識(shí)別出了信任課程(Convinced)、對(duì)課程謹(jǐn)慎(Cautious)和不相關(guān)的(Irrelevant)三類學(xué)習(xí)者(Gallén et al., 2017, pp. 1600-1605)。關(guān)于學(xué)習(xí)者興趣特點(diǎn),Hecking等人只識(shí)別出了兩類學(xué)習(xí)者(Hecking, et al., 2015, pp. 114-121),但與他人是否存在共同感興趣關(guān)鍵詞這一特征,蘊(yùn)含了與他人的關(guān)系,因此特征含義更為復(fù)雜,所采用的聚類方法也更加復(fù)雜。
4. 聚類結(jié)果:受多因素影響
除了前文所述中發(fā)現(xiàn)的課程時(shí)長(zhǎng)、課程設(shè)計(jì)和學(xué)習(xí)者自身特點(diǎn)對(duì)聚類結(jié)果造成影響之外,聚類的結(jié)果還會(huì)受到數(shù)據(jù)樣本、特征指標(biāo)的選擇以及數(shù)據(jù)算法的影響(Cabedo, et al., 2016)。
在所關(guān)注的MOOC學(xué)習(xí)者聚類研究中,有8項(xiàng)研究明確說(shuō)明了確定的特征指標(biāo)數(shù)目和聚類類別數(shù)目,將二者進(jìn)行比較,如圖1所示,從中可以看出,當(dāng)選取的聚類指標(biāo)數(shù)目超過(guò)一定程度后聚類結(jié)果數(shù)目呈現(xiàn)出明顯的減少趨勢(shì),尤其是當(dāng)聚類特征數(shù)目非常多時(shí)反而聚類結(jié)果中識(shí)別出的學(xué)習(xí)者類別更少(Rodrigues, et al., 2016; Gallén, et al., 2017, pp. 1600-1605)。相反,Anderson、Kizilcec、Arora等人對(duì)于特征指標(biāo)經(jīng)過(guò)了細(xì)致的篩選,反而識(shí)別出了更多的學(xué)習(xí)者類別,挖掘出的學(xué)習(xí)者特征也更加深入。由此可以看出,當(dāng)進(jìn)行聚類研究時(shí)選取的特征指標(biāo)不在于數(shù)量多,而在于是否能精確地反映學(xué)習(xí)者特征。當(dāng)聚類特征指標(biāo)過(guò)多時(shí),會(huì)對(duì)算法處理高維數(shù)據(jù)空間的能力提出更高要求,這對(duì)算法造成了挑戰(zhàn),尤其當(dāng)數(shù)據(jù)稀疏、高度傾斜時(shí)更是如此(李雄飛, 等, 2013, p. 139)。因此,在選取特征指標(biāo)時(shí)建議過(guò)濾掉高度相關(guān)、產(chǎn)生二階效應(yīng)的指標(biāo)。
聚類特征指標(biāo)的提取方式對(duì)聚類結(jié)果也有影響。分析發(fā)現(xiàn),相比直接從數(shù)據(jù)來(lái)源中選擇特征指標(biāo),經(jīng)過(guò)特征構(gòu)造而設(shè)計(jì)新特征指標(biāo)的聚類研究的聚類結(jié)果的概念描述更加深入細(xì)致。例如,F(xiàn)erguson對(duì)5門特點(diǎn)不一的cMOOC學(xué)習(xí)者數(shù)據(jù)分析得到多種聚類結(jié)果,發(fā)現(xiàn)了影響聚類結(jié)果的多種因素;Kizilcec識(shí)別出了旁觀者(Auditing)和抽樣學(xué)習(xí)者(Sampling)這兩個(gè)有鮮明特點(diǎn)的類;在Anderson的研究結(jié)果中,多面手(All-Rounders)、收集者(Collectors)這兩個(gè)類很有特點(diǎn)(Kizilcec, et al., 2013, pp. 170-179; Anderson, et al., 2014, pp. 687-698; Ferguson et al., 2015b)。
聚類指標(biāo)的粒度層次對(duì)聚類結(jié)果也有一定影響。Hicks等人選取的特征指標(biāo)粒度層次最低,他們注意到了學(xué)習(xí)者的參與程度在時(shí)間上的細(xì)節(jié)性變化(Hicks, et al., 2016, pp. 1-9),也正因?yàn)槿绱耍趯?duì)學(xué)習(xí)者的綜合特征進(jìn)行概括性解釋方面稍有忽視。而另一方面,當(dāng)采用粒度較高的特征指標(biāo)來(lái)識(shí)別和解釋學(xué)習(xí)者行為時(shí),存在的問(wèn)題是無(wú)法反映出對(duì)應(yīng)行為的持續(xù)時(shí)間長(zhǎng)度方面的特征(Li, et al., 2015, pp. 197-210)。因此,當(dāng)選取聚類研究的特征指標(biāo)時(shí),應(yīng)結(jié)合實(shí)際需要綜合考慮特征指標(biāo)粒度的綜合性和細(xì)節(jié)性。
四、討論及未來(lái)研究展望
(一)聚類分析的情境依賴
通過(guò)上述分析,可以發(fā)現(xiàn)采用聚類分析刻畫(huà)MOOC學(xué)習(xí)者特征在很大程度上受到課程因素的影響,如課程時(shí)長(zhǎng)、課程設(shè)計(jì)、教學(xué)理論、學(xué)習(xí)者來(lái)源等(Ferguson, et al., 2015b; Khalil, et al., 2017),也受到聚類分析過(guò)程本身的影響,如特征指標(biāo)的選取、聚類算法的選取、聚類結(jié)果的闡釋??偟膩?lái)說(shuō),MOOC學(xué)習(xí)者聚類分析具有很強(qiáng)的情境依賴性,這種情境依賴在一定程度上來(lái)源于教育和學(xué)習(xí)過(guò)程本身的復(fù)雜性,但是目前少有研究討論研究情境和聚類結(jié)果之間的關(guān)系(孫洪濤, 等, 2016)。因此,我們認(rèn)為對(duì)于MOOC學(xué)習(xí)者聚類結(jié)果的推廣和應(yīng)用應(yīng)當(dāng)保持謹(jǐn)慎,當(dāng)描述MOOC學(xué)習(xí)者聚類結(jié)果時(shí)對(duì)MOOC教學(xué)情境進(jìn)行具體說(shuō)明,是使研究結(jié)果令人信服的前提。
由于MOOC教學(xué)情境和研究情境的差異,聚類過(guò)程中特征指標(biāo)的選擇應(yīng)符合具體情境特點(diǎn)和研究目標(biāo),可以從自身傾向性、人機(jī)交互、人際交互、學(xué)習(xí)績(jī)效四個(gè)維度(如表2所示)思考,有所側(cè)重地選取合適的特征指標(biāo)。對(duì)于基于不同教學(xué)法的MOOC,分析xMOOC學(xué)習(xí)者應(yīng)著重獲取他們?cè)谝曨l觀看、測(cè)驗(yàn)、提交任務(wù)方面的指標(biāo),而分析cMOOC學(xué)習(xí)者則應(yīng)著重獲取他們?cè)诎l(fā)帖、回帖等社會(huì)交互方面的指標(biāo)(Ferguson, et al., 2015b)。關(guān)于特征指標(biāo)的提取,首先應(yīng)符合聚類研究的需求和目的。此外,相比直接提取特征指標(biāo),在原始特征指標(biāo)的基礎(chǔ)上進(jìn)行整合并構(gòu)造新的特征指標(biāo),這種提取方法更具優(yōu)勢(shì)。關(guān)于特征指標(biāo)的粒度層次,應(yīng)結(jié)合聚類目的,是希望識(shí)別出具有宏觀視野的模式表征,還是希望反映出類別中的細(xì)節(jié)性,從而在粒度的選擇上在綜合性和細(xì)致性之間做好平衡。
(二)聚類分析的方法局限
目前,在線學(xué)習(xí)研究中聚類分析尚處于探索階段。聚類分析方法適合對(duì)大規(guī)模數(shù)據(jù)進(jìn)行解釋,而當(dāng)數(shù)據(jù)量較小時(shí)難以獲得有效的分類。MOOC學(xué)習(xí)者聚類研究中處理的數(shù)據(jù)多是結(jié)構(gòu)化數(shù)據(jù),如果在聚類開(kāi)始前能夠確定聚類數(shù)目的大致范圍,那么可以采用K均值算法;如果無(wú)法確定最佳聚類數(shù)目的范圍,那么可采用SOMs、Neural Gas等算法。聚類算法對(duì)于分析網(wǎng)絡(luò)數(shù)據(jù)、文本數(shù)據(jù)這類非結(jié)構(gòu)化數(shù)據(jù)存在難度,因此當(dāng)分析對(duì)象為文本數(shù)據(jù)時(shí)可以首先對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)鍵詞抽??;如果分析對(duì)象為網(wǎng)絡(luò)數(shù)據(jù),那么可以采用二分聚類算法。同時(shí),聚類算法對(duì)于處理高維數(shù)據(jù)也存在壓力(李雄飛, 等, 2013, p. 139),因此特征指標(biāo)的數(shù)目不宜過(guò)多。當(dāng)數(shù)據(jù)對(duì)象的特征指標(biāo)過(guò)多時(shí),在聚類分析之前可以先對(duì)其進(jìn)行降維處理。此外,聚類分析本質(zhì)上是一種具有相對(duì)性的分析方法,研究者往往需要對(duì)聚類的類別個(gè)數(shù)和聚類變量等進(jìn)行不斷調(diào)整,才能最終獲得具有教學(xué)意義的有效解釋(孫洪濤, 等, 2016),很難找到一個(gè)獨(dú)立于算法的質(zhì)量評(píng)價(jià)指標(biāo)來(lái)同時(shí)評(píng)價(jià)多種聚類算法(Chen, et al., 2002),此時(shí)可以通過(guò)將聚類結(jié)果與領(lǐng)域內(nèi)普遍認(rèn)可的“參考模型”進(jìn)行比較,進(jìn)而分析聚類結(jié)果的有效性。
(三)聚類分析的研究展望
當(dāng)前,通過(guò)聚類分析方法刻畫(huà)學(xué)習(xí)者特征的數(shù)據(jù)來(lái)源主要是課程日志,普遍關(guān)注的是學(xué)習(xí)者課程參與程度的高低,日后可以整合課程前后測(cè)問(wèn)卷、成績(jī)數(shù)據(jù)、論壇討論數(shù)據(jù)等多種數(shù)據(jù)來(lái)源(Ezen-Can, Boyer, Kellogg, & Booth, 2015),進(jìn)一步關(guān)注學(xué)習(xí)者在自身傾向性、人際交互、學(xué)習(xí)績(jī)效等方面的特征。Kizilcec也指出MOOC學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī)、時(shí)間管理、堅(jiān)毅程度、自信心等非認(rèn)知特征有待挖掘(Kizilcec, et al., 2013, pp. 170-179)。此外,當(dāng)前MOOC學(xué)習(xí)者聚類分析不太關(guān)注學(xué)習(xí)者在課程周期內(nèi)隨時(shí)間變化和發(fā)展的特點(diǎn),未來(lái)可以通過(guò)降低特征指標(biāo)粒度以增加時(shí)間維度下對(duì)學(xué)習(xí)者特征的考察,如考察學(xué)習(xí)者在課程周期內(nèi)學(xué)習(xí)狀態(tài)的轉(zhuǎn)變(Coffrin, Corrin, Barba, & Kennedy, 2014)。
最后,聚類分析作為一種數(shù)據(jù)挖掘技術(shù),是對(duì)海量學(xué)習(xí)者數(shù)據(jù)的基本模式識(shí)別,常作為其他研究的預(yù)研究(Kizilcec, et al., 2013, pp. 170-179),不僅適用于分析MOOC學(xué)習(xí)者數(shù)據(jù),也適用于其他學(xué)習(xí)者數(shù)量較多的在線學(xué)習(xí)情境。我們?cè)谇捌诘脑诰€教學(xué)實(shí)踐中積累了體量較大的學(xué)習(xí)者行為數(shù)據(jù),計(jì)劃在本篇綜述的基礎(chǔ)上開(kāi)展學(xué)習(xí)者聚類實(shí)證分析,并在模式識(shí)別的基礎(chǔ)上結(jié)合相關(guān)學(xué)習(xí)者模型或質(zhì)性研究方法,將“底層數(shù)據(jù)挖掘”和“頂層模型設(shè)計(jì)”相結(jié)合,以發(fā)掘?qū)W習(xí)者特征及其背后的深層解釋。
[參考文獻(xiàn)]
范逸洲,汪瓊. 2018. 學(xué)業(yè)成就與學(xué)業(yè)風(fēng)險(xiǎn)的預(yù)測(cè)——基于學(xué)習(xí)分析領(lǐng)域中預(yù)測(cè)指標(biāo)的文獻(xiàn)綜述[J]. 中國(guó)遠(yuǎn)程教育(1):5-15.
方開(kāi)泰,潘恩沛. 1982. 聚類分析[M]. 北京:地質(zhì)出版社.
韓家煒,坎伯. 2001. 數(shù)據(jù)挖掘:概念與技術(shù)[M]. 范明,孟小峰,等,譯. 北京:機(jī)械工業(yè)出版社.
李春葆,李石君,李筱馳. 2014. 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘?qū)嵺`[M]. 北京:電子工業(yè)出版社.
李雄飛,杜欽生,吳昊. 2013. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M]. 北京:機(jī)械工業(yè)出版社.
蘇新寧,楊建林,江念南,栗湘. 2006. 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘[M]. 北京:清華大學(xué)出版社.
孫洪濤,李秋劼,鄭勤華. 2016. MOOCs交互模式聚類研究[J]. 中國(guó)遠(yuǎn)程教育(3):33-38.
孫吉貴,劉杰,趙連宇. 2008. 聚類算法研究[J]. 軟件學(xué)報(bào),19(1):48-61.
周開(kāi)樂(lè),楊善林,丁帥,羅賀. 2014. 聚類有效性研究綜述[J]. 系統(tǒng)工程理論與實(shí)踐(9):2417-2431.
周志華. 2017. 機(jī)器學(xué)習(xí)[M]. 北京:清華大學(xué)出版社.
Anderson, A., Huttenlocher, D., Kleinberg, J., & Leskovec, J. (2014). Engaging with massive online courses. International World Wide Web Conference. (pp. 687-698). New York: ACM.
Arora, S., Goel, M., Sabitha, A. S., & Mehrotra, D. (2017). Learner groups in massive open online courses. American Journal of Distance Education, 31(2), 80-97.
Baker, R. S. J. D., Carvalho, A. M. J. B., Raspat, J., Aleven, V., Corbett, A. T., & Koedinger, K. R. (2004). Educational software features that encourage and discourage "gaming the system". Proceedings of the International Conference on Artificial Intelligence in Education, 200(1).
Cabedo, R., & Edmundo, T. C., & Castro, M. (2016). A Benchmarking Study of Clustering Techniques Applied to a Set of Characteristics of MOOC Participants. 2016 ASEE Annual Conference & Exposition, New Orleans, Louisiana.
Chen, B., Fan, Y., Zhang, G., & Wang, Q. (2017). Examining motivations and self-regulated learning strategies of returning MOOCs learners. International Learning Analytics & Knowledge Conference (pp.542-543). New York: ACM.
Chen, G., Jaradat, S. A., Banerjee, N., Tanaka, T. S., Ko, M. S. H., & Zhang, M. Q. (2002). Evaluation and comparison of clustering algorithms in analyzing ES cell gene expression data. Statistica Sinica, 12(1), 241-262.
Coffrin, C., Corrin, L., Barba, P. D., & Kennedy, G. (2014). Visualizing patterns of student engagement and performance in MOOCs. International Conference on Learning Analytics and Knowledge (pp.83-92). New York: ACM.
Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis (5th ed). United Kingdom: Wiley.
Ezen-Can, A., Boyer, K. E., Kellogg, S., & Booth, S. (2015). Unsupervised modeling for understanding MOOC discussion forums: a learning analytics approach. International Conference on Learning Analytics and Knowledge (pp.146-150). New York: ACM.
Ferguson, R., & Clow, D. (2015a). Examining engagement: analyzing learner subpopulations in massive open online courses (MOOCs). International Conference on Learning Analytics & Knowledge (pp. 51-58). New York: ACM.
Ferguson, R., Clow, D., Beale, R., Cooper, A. J., Morris, N., & Bayne, S., et al. (2015). Moving Through MOOCS: Pedagogy, Learning Design and Patterns of Engagement. European Conference on Technology Enhanced Learning, (Vol.9307, pp.70-84). Switzerland: Springer.
Gallén, R. C., & Caro, E. T. (2017). An exploratory analysis of why a person enrolls in a Massive Open Online Course within MOOCKnowledge data collection. Global Engineering Education Conference (pp.1600-1605). IEEE.
Hecking, T., Ziebarth, S., & Hoppe, H. U. (2014). Analysis of Dynamic Resource Access Patterns in a Blended Learning Course. International Learning Analytics & Knowledge Conference (pp.173-182). New York: ACM.
Hecking, T., Chounta, I. A., & Hoppe, H. U. (2015). Analysis of User Roles and the Emergence of Themes in Discussion Forums. Network Intelligence Conference (Vol.30, pp.114-121). IEEE.
Hicks, N. M., Roy, D., Shah, S., Douglas, K. A., Bermel, P., & Diefesdux, H. A., et al. (2016). Integrating analytics and surveys to understand fully engaged learners in a highly-technical STEM MOOC. Frontiers in Education Conference (pp.1-9). IEEE.
Khalil, M., Kastl, C., & Ebner, M. (2016). Portraying MOOCs Learners: A Clustering Experience Using Learning Analytics. European MOOCs Stakeholders Summit (pp. 265-278).
Khalil, M., & Ebner, M. (2017). Clustering patterns of engagement in massive open online courses (moocs): the use of learning analytics to reveal student categories. Journal of Computing in Higher Education,29(1), 1-19.
Kizilcec, R. F., Piech, C., & Schneider, E. (2013). Deconstructing disengagement: analyzing learner subpopulations in massive open online courses. International Conference on Learning Analytics and Knowledge, 170-179.
Kovanovi?, V., Joksimovi?, S., Ga?evi?, D., Owers, J., Scott, A. M., & Woodgate, A. (2016). Profiling mooc course returners: how does student behavior change between two course enrollments?. Third Annual ACM Conference on Learning at Scale (pp. 269-272). New York: ACM.
Li, N., ?ukasz Kidziński, Jermann, P., & Dillenbourg, P. (2015). MOOC Video Interaction Patterns: What Do They Tell Us?. Design for Teaching and Learning in a Networked World (pp. 197-210). Springer International Publishing.
Rodrigues, R. L., Ramos, J. L. C., Silva, J. C. S., Gomes, A. S., Souza, F. D. F. D., & Maciel, A. M. A. (2016). Discovering Level of Participation in MOOCs through Clusters Analysis. 2016 IEEE 16th International Conference on Advanced Learning Technologies (ICALT) (pp.232-233). Austin: ICALT.
Seaton, D. T., Bergner, Y., Chuang, I., Mitros, P., & Pritchard, D. E. (2014). Who does what in a massive open online course?. Communications of the ACM, 57(4), 58-65.
Yousef, A. M. F., Chatti, M. A., Wosnitza, M., & Schroeder, U. (2015). A cluster analysis of mooc stakeholder perspectives. Revista De Universidad Y Sociedad Del Conocimiento, 12(1), 74-90.
收稿日期:2018-01-06
定稿日期:2018-03-16
作者簡(jiǎn)介:王夢(mèng)倩,博士研究生;范逸洲,博士研究生;郭文革,副教授,博士生導(dǎo)師;汪瓊,教授,博士生導(dǎo)師。北京大學(xué)教育學(xué)院(100871)。
責(zé)任編輯 郝 丹