王莉莉 郭威彤 楊鴻武
[摘? ?要] 在“互聯(lián)網(wǎng)+”在線學(xué)習(xí)環(huán)境下,探索符合學(xué)習(xí)習(xí)慣和偏好的個(gè)性化推薦路徑能夠降低學(xué)習(xí)者學(xué)習(xí)的盲目性、提升學(xué)習(xí)者在線學(xué)習(xí)體驗(yàn)。文章提出了一種基于學(xué)習(xí)者畫像的個(gè)性化課程推薦方法,首先,利用爬蟲技術(shù)獲得Bilibili網(wǎng)站30多萬(wàn)名學(xué)習(xí)者的數(shù)據(jù),然后對(duì)學(xué)習(xí)者學(xué)習(xí)數(shù)據(jù)進(jìn)行定量分析,尤其是在個(gè)性化特征最明顯的情感表達(dá)方面,采用了基于注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行情感分析,從而構(gòu)建了包含學(xué)習(xí)者基本信息、行為和彈幕文本三個(gè)維度的學(xué)習(xí)者畫像特征模型。在此基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)建立了教學(xué)資源與學(xué)習(xí)者畫像之間的關(guān)系模型,用該模型預(yù)測(cè)學(xué)習(xí)者新的學(xué)習(xí)需求。實(shí)驗(yàn)結(jié)果表明,當(dāng)學(xué)習(xí)者登錄后,輸入要選擇的課程,模型能夠根據(jù)學(xué)習(xí)者畫像推薦相似學(xué)習(xí)者學(xué)習(xí)過(guò)的課程,提供個(gè)性化課程推薦服務(wù),且推薦評(píng)價(jià)指標(biāo)也表明該模型能夠提高推薦性能。
[關(guān)鍵詞] 學(xué)習(xí)者畫像; 深度神經(jīng)網(wǎng)絡(luò); 個(gè)性化推薦; 非正式學(xué)習(xí)平臺(tái); 教育大數(shù)據(jù)挖掘
[中圖分類號(hào)] G434? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] A
[作者簡(jiǎn)介] 王莉莉(1994—),女,甘肅蘭州人。博士研究生,主要從事學(xué)習(xí)者學(xué)情分析研究。E-mail:1335502737@qq.com。
一、引? ?言
在“互聯(lián)網(wǎng)+”時(shí)代,大規(guī)模在線學(xué)習(xí)平臺(tái)在為學(xué)習(xí)者帶來(lái)便利的同時(shí),也產(chǎn)生了“信息爆炸”等問(wèn)題,導(dǎo)致學(xué)習(xí)者很可能迷失在浩瀚如煙的學(xué)習(xí)課程中,很難快速地從大量的學(xué)習(xí)課程中找到自己想要的課程。首先,大多數(shù)在線課程平臺(tái)針對(duì)同一知識(shí)點(diǎn)提供了多個(gè)學(xué)習(xí)視頻,給學(xué)習(xí)者帶來(lái)選擇困擾。其次,學(xué)習(xí)者在檢索在線課程時(shí),由于輸入的檢索關(guān)鍵詞表達(dá)不準(zhǔn)確,導(dǎo)致檢索結(jié)果中的資源并不與學(xué)習(xí)者的需求相吻合。最后,現(xiàn)有的大多數(shù)面向課程的搜索引擎并不關(guān)注學(xué)習(xí)者個(gè)性化的需求,任何學(xué)習(xí)者輸入相同的檢索關(guān)鍵詞總會(huì)返回相同的課程列表。因此,學(xué)習(xí)者希望搜索引擎能夠根據(jù)自己的需要提供課程。這樣能夠節(jié)約學(xué)習(xí)者尋找所需資源的時(shí)間,搜索到的個(gè)性化課程對(duì)學(xué)習(xí)也有一定的針對(duì)性,能更好地提高學(xué)習(xí)效率。
二、利用學(xué)習(xí)者畫像實(shí)現(xiàn)個(gè)性化課程推薦的
研究現(xiàn)狀及問(wèn)題
(一)學(xué)習(xí)者畫像
資源信息推薦服務(wù)的重要方法是用戶畫像的刻畫[1]。在教育領(lǐng)域,研究者借鑒用戶畫像的方法和思想,提出了學(xué)習(xí)者畫像的概念,從學(xué)習(xí)者畫像的構(gòu)成要素、分析技術(shù)和可視化三個(gè)方面進(jìn)行了研究。在學(xué)習(xí)者畫像的構(gòu)成要素方面,主要從學(xué)習(xí)動(dòng)機(jī)、學(xué)習(xí)認(rèn)知水平和學(xué)習(xí)風(fēng)格進(jìn)行研究。如Mahammed等研究發(fā)現(xiàn),在英語(yǔ)學(xué)習(xí)方面女生比男生更有學(xué)習(xí)動(dòng)力[2];劉三女牙團(tuán)隊(duì)通過(guò)分析SPOC論壇的話語(yǔ)數(shù)據(jù),建議教師可對(duì)不同群體的認(rèn)知目標(biāo)、討論內(nèi)容和互動(dòng)形式進(jìn)行調(diào)適或指導(dǎo),促進(jìn)學(xué)習(xí)群體的互動(dòng)、學(xué)習(xí)積極性及認(rèn)知水平的提升[3];Jaswinder等通過(guò)研究獸醫(yī)學(xué)學(xué)生的學(xué)習(xí)風(fēng)格,發(fā)現(xiàn)有三分之一的學(xué)生具有明顯的個(gè)人風(fēng)格[4]。在學(xué)習(xí)者畫像的分析技術(shù)方面,主要采用回歸分析、聚類分析和預(yù)測(cè)分析等方法。張雪等追蹤了慕課上中國(guó)學(xué)生學(xué)習(xí)一門國(guó)際全英文慕課的過(guò)程,采用聚類分析和LASSO回歸分析方法揭示了非母語(yǔ)學(xué)生群體在線學(xué)習(xí)的類別差異性[5];Schroeder等使用k-means聚類算法分析學(xué)習(xí)遷移測(cè)試中聚類成員對(duì)參與者分?jǐn)?shù)的影響程度[6];Piech等采用循環(huán)神經(jīng)網(wǎng)絡(luò)算法對(duì)學(xué)習(xí)者的認(rèn)知水平進(jìn)行信息預(yù)測(cè)[7]。在學(xué)習(xí)者畫像可視化分析方面,多采用統(tǒng)計(jì)圖繪制技術(shù)、文本可視化技術(shù)、關(guān)聯(lián)關(guān)系可視化技術(shù)和人機(jī)交互技術(shù)等,還有研究將以上方法融合使用[8-9],為學(xué)習(xí)者提供幫助,為教師提供教學(xué)建議。
(二)個(gè)性化課程推薦
目前,針對(duì)個(gè)性化課程推薦服務(wù)的研究主要處于理論層面探討和小規(guī)模技術(shù)嘗試階段。在理論層面,主要通過(guò)提出智能化、人性化的支持服務(wù)模型,進(jìn)而設(shè)計(jì)教育資源個(gè)性化推薦策略的實(shí)現(xiàn)路徑[10]。在技術(shù)層面,通過(guò)常用的推薦算法進(jìn)行課程推薦,主要包括基于內(nèi)容的推薦算法[11]、基于關(guān)聯(lián)規(guī)則的推薦算法[12]和基于協(xié)同過(guò)濾的推薦算法[13]?;趦?nèi)容的推薦算法推薦結(jié)果直觀,具有較好的可解釋性,但是容易推薦已經(jīng)看過(guò)的課程,而且很難根據(jù)新注冊(cè)的學(xué)習(xí)者的需求進(jìn)行推薦;基于關(guān)聯(lián)規(guī)則的推薦算法優(yōu)點(diǎn)是能夠發(fā)現(xiàn)新的興趣點(diǎn),缺點(diǎn)是規(guī)則抽取難且耗時(shí),個(gè)性化程度低;基于協(xié)同過(guò)濾的推薦算法目前應(yīng)用較多,個(gè)性化和自動(dòng)化程度高,但是推薦質(zhì)量取決于歷史數(shù)據(jù),剛開始推薦時(shí)推薦質(zhì)量差。
(三)基于學(xué)習(xí)者畫像的個(gè)性化課程推薦
利用學(xué)習(xí)者畫像構(gòu)建學(xué)習(xí)資源個(gè)性化推薦的研究主要在理論層面上對(duì)學(xué)習(xí)者特征進(jìn)行標(biāo)簽化,然后基于學(xué)習(xí)者畫像探討個(gè)性化教學(xué)和個(gè)性化推薦服務(wù)的應(yīng)用[14-15]。在技術(shù)層面上,多側(cè)重于學(xué)習(xí)者畫像的構(gòu)建,對(duì)于資源的個(gè)性化推薦較少[16],且采用手動(dòng)的數(shù)據(jù)分析方法。
通過(guò)梳理學(xué)習(xí)者畫像和個(gè)性化推薦技術(shù),本文發(fā)現(xiàn):首先,利用學(xué)習(xí)者畫像實(shí)現(xiàn)個(gè)性化課程推薦的研究大多停留在理論模型建構(gòu)上,基本是以學(xué)習(xí)成績(jī)?yōu)閷?dǎo)向的正式學(xué)習(xí)者的畫像構(gòu)建,針對(duì)非正式學(xué)習(xí)平臺(tái)學(xué)習(xí)者的畫像關(guān)注較少。其次,對(duì)個(gè)性化推薦技術(shù)的研究相對(duì)較少,一方面多采用通用型推薦算法,該算法沒(méi)有考慮學(xué)習(xí)者與學(xué)習(xí)資源之間的交互關(guān)系;另一方面,現(xiàn)有的推薦技術(shù)沒(méi)有考慮學(xué)習(xí)者基本信息和學(xué)習(xí)者行為數(shù)據(jù)等多元化特征,缺乏個(gè)性化的推薦。最后,現(xiàn)有的研究缺乏學(xué)習(xí)者畫像與個(gè)性化推薦路徑相結(jié)合的技術(shù)實(shí)現(xiàn)。
三、構(gòu)建學(xué)習(xí)者畫像實(shí)現(xiàn)個(gè)性化課程推薦的模型
鄭永和教授認(rèn)為,目前產(chǎn)生了“數(shù)據(jù)驅(qū)動(dòng)”的研究范式[17],教育大數(shù)據(jù)正催生個(gè)性化推薦,通過(guò)人工智能算法發(fā)現(xiàn)學(xué)習(xí)者畫像和個(gè)性化推薦之間的關(guān)聯(lián),從而輔助學(xué)習(xí)者減少“迷航”問(wèn)題。因此,本研究從計(jì)算教育學(xué)的視角出發(fā),結(jié)合深度神經(jīng)網(wǎng)絡(luò),構(gòu)建學(xué)習(xí)者畫像實(shí)現(xiàn)個(gè)性化課程推薦,模型框架如圖1所示。框架劃分為三個(gè)階段,每個(gè)階段具有獨(dú)立功能,且上個(gè)階段的輸出是下個(gè)階段的輸入。第一階段是明確畫像目標(biāo),收集學(xué)習(xí)者在非正式學(xué)習(xí)平臺(tái)產(chǎn)生的學(xué)習(xí)者數(shù)據(jù)并進(jìn)行清洗;第二階段是學(xué)習(xí)者畫像的構(gòu)建,對(duì)學(xué)習(xí)者學(xué)情進(jìn)行分析,建立學(xué)習(xí)者行為數(shù)據(jù)和畫像目標(biāo)之間的邏輯關(guān)系;第三階段是個(gè)性化課程推薦,構(gòu)建符合學(xué)習(xí)者畫像和課程信息相融合的深度神經(jīng)網(wǎng)絡(luò)來(lái)深入挖掘教學(xué)資源個(gè)性化推薦服務(wù)的本質(zhì)特征,實(shí)現(xiàn)非正式教育資源與學(xué)習(xí)者之間的精準(zhǔn)匹配,為大數(shù)據(jù)背景下開展非正式教育資源個(gè)性化推薦服務(wù)提供參考。
(一)學(xué)習(xí)者學(xué)習(xí)數(shù)據(jù)的獲取
學(xué)習(xí)者學(xué)習(xí)數(shù)據(jù)的獲取,一方面通過(guò)數(shù)據(jù)發(fā)現(xiàn)模型,預(yù)測(cè)人類行為的概率性和趨勢(shì)性,從而增強(qiáng)個(gè)性化課程推薦研究的預(yù)測(cè)功能;另一方面通過(guò)數(shù)據(jù)分析提升個(gè)性化課程推薦研究的科學(xué)性,使課程的推薦趨于客觀化、形成性、全局化和智能化。因此,筆者采用爬蟲技術(shù)從Bilibili 彈幕視頻網(wǎng)站(簡(jiǎn)稱“B站”)獲取學(xué)習(xí)者在B站產(chǎn)生的各種行為數(shù)據(jù)。之所以選擇B站,首先,該平臺(tái)除了學(xué)習(xí)資源外,還包括各種娛樂(lè)視頻,所以學(xué)習(xí)者很容易迷失在大量的信息中;其次,該平臺(tái)的學(xué)習(xí)沒(méi)有受到教師的督促,沒(méi)有課程必須完成的壓力,也沒(méi)有課程結(jié)業(yè)證書等激勵(lì)措施,學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī)純粹來(lái)源于學(xué)習(xí)者本身,所以,學(xué)習(xí)者在該平臺(tái)發(fā)表的聽課感受、課程評(píng)價(jià)和對(duì)教學(xué)內(nèi)容的吐槽等更容易表達(dá)學(xué)習(xí)者自己的感受,這樣的數(shù)據(jù)更有利于實(shí)時(shí)分析在線課程的內(nèi)容及學(xué)習(xí)者的真實(shí)反饋,能夠更好地根據(jù)學(xué)習(xí)者的情感反應(yīng)等實(shí)現(xiàn)教育資源的個(gè)性化推薦;最后,該網(wǎng)站最新財(cái)報(bào)顯示[18]:2020年第三季度社區(qū)月均活躍者1.972億,日均活躍者5330萬(wàn),月均互動(dòng)數(shù)達(dá)到52億次,日均視頻播放量達(dá)到13億次,表明該網(wǎng)站已經(jīng)積累了大量的學(xué)習(xí)者,具備學(xué)習(xí)者黏性和學(xué)習(xí)者忠誠(chéng)度。
筆者利用Python語(yǔ)言,以視頻網(wǎng)址為種子頁(yè),通過(guò)Chrom開發(fā)工具獲取B站學(xué)習(xí)者的真實(shí)數(shù)據(jù),利用正則表達(dá)式和LXML解析庫(kù)進(jìn)行網(wǎng)頁(yè)解析,共采集B站25門課程中學(xué)習(xí)者的基本信息和各類行為日志(見表1和表2)。在數(shù)據(jù)導(dǎo)入過(guò)程中,由于數(shù)據(jù)量過(guò)大,存在異常值和缺失值,所以對(duì)數(shù)據(jù)進(jìn)行了切分、清洗、補(bǔ)充和刪除等操作。
(二)學(xué)習(xí)者畫像的構(gòu)建
學(xué)習(xí)者畫像是對(duì)依據(jù)學(xué)習(xí)者的基本特征數(shù)據(jù)和學(xué)習(xí)行為數(shù)據(jù)抽象出的學(xué)習(xí)者特征打標(biāo)簽的過(guò)程,是對(duì)現(xiàn)實(shí)世界中學(xué)習(xí)者屬性的描繪,基于數(shù)據(jù)構(gòu)建的學(xué)習(xí)者畫像可以幫助實(shí)現(xiàn)個(gè)性化課程的推薦,為教學(xué)利益相關(guān)者提供信息,但對(duì)于學(xué)習(xí)者畫像的構(gòu)建,不同研究者有不同的構(gòu)建方式。武法提教授依據(jù)Edx平臺(tái)學(xué)習(xí)者的個(gè)人特征、社交網(wǎng)絡(luò)、情感狀態(tài)和在線環(huán)境中學(xué)習(xí)者的體征分析構(gòu)建了數(shù)字化環(huán)境下個(gè)性化行為分析模型[19]。牟智佳等依據(jù)《學(xué)習(xí)者模型規(guī)范 CELTS-11》將學(xué)習(xí)者學(xué)習(xí)信息分成不同層次以構(gòu)建學(xué)習(xí)者畫像[20]。陳海建等人從學(xué)習(xí)者的基本屬性、學(xué)習(xí)風(fēng)格偏好、學(xué)習(xí)者類型和知識(shí)點(diǎn)興趣等方面來(lái)構(gòu)建學(xué)習(xí)者畫像[13]。學(xué)習(xí)者畫像的構(gòu)建均基于在線學(xué)習(xí)數(shù)據(jù),一方面是學(xué)習(xí)者在學(xué)習(xí)平臺(tái)注冊(cè)的個(gè)人信息,另一方面是學(xué)習(xí)者與同伴、教師之間的交互信息,學(xué)習(xí)者交互行為的情感能夠在一定程度上反映學(xué)習(xí)者的認(rèn)知水平,會(huì)拉近學(xué)習(xí)者之間的距離,增加他們的社區(qū)歸屬感。因此,學(xué)習(xí)者畫像的構(gòu)建流程遵循大數(shù)據(jù)驅(qū)動(dòng)的研究范式,將非正式學(xué)習(xí)平臺(tái)可獲取的學(xué)習(xí)者畫像特征數(shù)據(jù)源作為信息素,根據(jù)在線學(xué)習(xí)者行為,在武法提教授提出的“目標(biāo)—過(guò)程—結(jié)果”指導(dǎo)下,從知識(shí)水平、學(xué)習(xí)活動(dòng)和交互能力三個(gè)維度出發(fā),考慮數(shù)據(jù)采集的可行性,以及非正式平臺(tái)與課程本身的特點(diǎn),通過(guò)個(gè)性化學(xué)習(xí)分析理論來(lái)指導(dǎo)分析學(xué)習(xí)者知識(shí)水平、學(xué)習(xí)活動(dòng)完成度和參與度,以監(jiān)控學(xué)習(xí)活動(dòng)過(guò)程。采用社會(huì)認(rèn)知理論指導(dǎo)分析交互層次,以了解學(xué)生的最終學(xué)習(xí)結(jié)果和情感表達(dá)。從數(shù)據(jù)出發(fā),首先,按照學(xué)習(xí)者基本信息和學(xué)習(xí)者行為信息得到這2個(gè)維度下的11項(xiàng)子維度,刻畫學(xué)習(xí)者學(xué)習(xí)方式偏好和認(rèn)知;其次,依據(jù)情感對(duì)交互的影響,得到情感分析維度下的3個(gè)子維度,精確分析學(xué)習(xí)者學(xué)習(xí)喜好、問(wèn)題解決與學(xué)習(xí)者的情感,具體見表3,但是對(duì)于構(gòu)建的初始學(xué)習(xí)者畫像是否能夠準(zhǔn)確有效地支撐個(gè)性化課程推薦,本研究對(duì)初始刻畫的三維學(xué)習(xí)者畫像進(jìn)行了子維度的分析。
1. 學(xué)習(xí)者基本信息分析
為了解學(xué)習(xí)者的基本情況,從學(xué)習(xí)者ID、學(xué)習(xí)者性別、是否為VIP、學(xué)習(xí)者等級(jí)、粉絲數(shù)與關(guān)注數(shù)等子維度統(tǒng)計(jì)分析,判斷該維度是否適合構(gòu)建學(xué)習(xí)者畫像。
學(xué)習(xí)者ID:是學(xué)習(xí)者在B站中相對(duì)唯一的標(biāo)識(shí),相當(dāng)于是一種“身份證”,當(dāng)學(xué)習(xí)者登錄系統(tǒng)后,系統(tǒng)會(huì)根據(jù)學(xué)習(xí)者ID推薦相關(guān)的課程,故認(rèn)為該維度是必須存在的。
學(xué)習(xí)者性別:對(duì)采集數(shù)據(jù)中學(xué)習(xí)者的性別進(jìn)行分析,發(fā)現(xiàn)男性學(xué)習(xí)者占42%,女性學(xué)習(xí)者占33%,且有25%的學(xué)習(xí)者不愿意透露自己的性別,可以看出性別具有差異性,有研究也表明性別對(duì)學(xué)習(xí)者具有影響[21],因此,性別是學(xué)習(xí)者畫像構(gòu)建的一個(gè)重要因素。
是否為VIP:對(duì)學(xué)習(xí)者是否為VIP進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)不是VIP的人數(shù)達(dá)到了99.99%,只有個(gè)別學(xué)習(xí)者是VIP,所以,看出學(xué)習(xí)者大多不在意是否為VIP,故在構(gòu)建學(xué)習(xí)者畫像時(shí)可以忽略該維度。
學(xué)習(xí)者等級(jí):反映的是會(huì)員在社區(qū)的活躍性,是評(píng)估學(xué)習(xí)者活躍度和黏性的一個(gè)重要屬性。可通過(guò)登錄、課程學(xué)習(xí)、投幣、分享等方式獲得等級(jí)提升,所以,學(xué)習(xí)者在社區(qū)內(nèi)參與程度越高,學(xué)習(xí)者等級(jí)就越高。對(duì)學(xué)習(xí)者的等級(jí)進(jìn)行了分析,等級(jí)為3的學(xué)習(xí)者有91371個(gè),等級(jí)為4的有49725個(gè),而等級(jí)為6的只有624個(gè),通過(guò)統(tǒng)計(jì)得出學(xué)習(xí)者等級(jí)具有較大的差異性,不同等級(jí)的學(xué)習(xí)者觀看課程的需求也會(huì)根據(jù)等級(jí)數(shù)有所不同,因此,學(xué)習(xí)者等級(jí)可以作為學(xué)習(xí)者畫像的子維度。
粉絲數(shù)與關(guān)注數(shù):學(xué)習(xí)者粉絲數(shù)是指其他學(xué)習(xí)者關(guān)注該學(xué)習(xí)者的人數(shù),代表了學(xué)習(xí)者的權(quán)威性;關(guān)注數(shù)是學(xué)習(xí)者所關(guān)注的人,代表學(xué)習(xí)者的興趣廣度。據(jù)統(tǒng)計(jì),粉絲數(shù)均值為46.56,關(guān)注數(shù)均值為53.33,可以看出學(xué)習(xí)者并不是一些意見領(lǐng)袖。粉絲數(shù)標(biāo)準(zhǔn)差為897.12,極大值為78291;關(guān)注數(shù)標(biāo)準(zhǔn)差為897.12,極大值為1896,極小值均為0,可以得出學(xué)習(xí)者之間在權(quán)威性和興趣廣度之間差異性較大,所以,對(duì)于不同學(xué)習(xí)者,需要推薦不同質(zhì)量和內(nèi)容的教學(xué)資源,因此,粉絲數(shù)與關(guān)注數(shù)可作為構(gòu)建學(xué)習(xí)者畫像的一個(gè)重要維度。
2. 學(xué)習(xí)者行為分析
為了解學(xué)習(xí)者在彈幕發(fā)送時(shí)的行為,筆者對(duì)學(xué)習(xí)者在發(fā)送彈幕時(shí)的行為進(jìn)行了詳細(xì)的分析,以期找出數(shù)據(jù)之間的關(guān)聯(lián)性,深層次地挖掘數(shù)據(jù)含義,為學(xué)習(xí)者畫像提供數(shù)據(jù)支撐。
彈幕顏色分布:將獲得的數(shù)據(jù)表中的八進(jìn)制顏色代碼經(jīng)過(guò)十六進(jìn)制轉(zhuǎn)碼后發(fā)現(xiàn),共產(chǎn)生了20種顏色,其中,97.80%的學(xué)習(xí)者發(fā)送彈幕的字體顏色均為默認(rèn)色。由此可以說(shuō)明,學(xué)習(xí)者并不像普通彈幕視頻的觀看者更注重字體顏色,而是更注重學(xué)習(xí)內(nèi)容,所以,彈幕顏色不作為學(xué)習(xí)者畫像的子維度。
彈幕模式分布:目前B站有滾動(dòng)彈幕、頂端彈幕、底端彈幕和使用代碼操作的高級(jí)彈幕。統(tǒng)計(jì)發(fā)現(xiàn),96.80%的學(xué)習(xí)者選擇默認(rèn)模式,沒(méi)有高級(jí)彈幕的發(fā)送者,該維度不作為學(xué)習(xí)者畫像的子維度。
字體大小分布:通過(guò)分析學(xué)習(xí)者彈幕字體的選擇,發(fā)現(xiàn)使用默認(rèn)字體25號(hào)字體的學(xué)習(xí)者占到99.96%,而使用18號(hào)字體的學(xué)習(xí)者僅有0.04%,說(shuō)明彈幕字體的大小不能用作區(qū)分學(xué)習(xí)者的特征,故不考慮該維度來(lái)進(jìn)行畫像構(gòu)建。
時(shí)間序列分析:彈幕參數(shù)中包含自然時(shí)間維度和視頻時(shí)間維度兩個(gè)參數(shù),由于自然時(shí)間的一致性,本文通過(guò)自然時(shí)間來(lái)考察彈幕行為的時(shí)間分布。從圖2(a)中學(xué)習(xí)者發(fā)送彈幕數(shù)量的日分布情況可知,彈幕交互行為存在較大的波動(dòng)性,不同學(xué)習(xí)者有不同的學(xué)習(xí)時(shí)間習(xí)慣,可以根據(jù)學(xué)習(xí)者的作息時(shí)間提供不同類型的課程。從圖2(b)中可得出,每天彈幕發(fā)送量的波動(dòng)趨勢(shì)呈一致性和周期性,可以通過(guò)相似學(xué)習(xí)者的學(xué)習(xí)習(xí)慣為新的學(xué)習(xí)者推送相似檢索的課程內(nèi)容,因此,時(shí)間序列是學(xué)習(xí)者畫像的一個(gè)重要維度。
彈幕的數(shù)量:隨機(jī)抽取一門“概率論與數(shù)理統(tǒng)計(jì)”課程,該課程中共有173342條彈幕,50982個(gè)獨(dú)立ID,經(jīng)過(guò)統(tǒng)計(jì)人均發(fā)送彈幕的數(shù)量約為3.4條,發(fā)送一條彈幕的學(xué)習(xí)者占總體的54%,發(fā)送3條的占6%,發(fā)送10條以上的占7%,學(xué)習(xí)者有自己的表達(dá)習(xí)慣,可以根據(jù)學(xué)習(xí)者發(fā)送彈幕的習(xí)慣構(gòu)建學(xué)習(xí)者畫像,推薦不同彈幕數(shù)量的視頻。
3. 彈幕文本分析
彈幕表達(dá)多為口語(yǔ)化的瑣碎文字,在鍵盤上易編輯操作,且采用縮略形式,語(yǔ)義簡(jiǎn)潔,但是用詞混雜,在表達(dá)上充滿幽默和活力,筆者對(duì)彈幕文本子維度進(jìn)行了分析。
彈幕的字?jǐn)?shù):對(duì)彈幕文字長(zhǎng)度進(jìn)行統(tǒng)計(jì),其中,字?jǐn)?shù)在10以內(nèi)的彈幕數(shù)量有231428,占總體彈幕數(shù)量的70.46%,字?jǐn)?shù)在50字以上的占比0.38%,可以看出彈幕文本以短小精悍為主基調(diào),但是也有學(xué)習(xí)者發(fā)比較長(zhǎng)的字符串來(lái)表達(dá)自己更深層的見解與討論,所以,根據(jù)學(xué)習(xí)者發(fā)表彈幕文本字?jǐn)?shù)的多少將學(xué)習(xí)者進(jìn)行劃分,匹配不同的彈幕課程,加深學(xué)習(xí)者的交互,因此,彈幕字?jǐn)?shù)的分布可作為構(gòu)建學(xué)習(xí)者畫像的一個(gè)子維度。
字符的類型:對(duì)彈幕字符類型進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)彈幕文本中有249300個(gè)特殊字符,136782個(gè)中文字符,120666個(gè)英文字符,表明彈幕文字的表達(dá)方式能夠體現(xiàn)出不同學(xué)習(xí)者的不同表達(dá)習(xí)慣。通過(guò)該習(xí)慣,可以推薦同一類型表達(dá)方式較多的視頻,進(jìn)一步促進(jìn)生生交流,讓學(xué)生有臨場(chǎng)感,因此,該特征可作為構(gòu)建學(xué)習(xí)者畫像的一個(gè)子維度。
彈幕情感表達(dá):彈幕文本數(shù)據(jù)所表達(dá)的情感趨勢(shì)和觀點(diǎn)對(duì)課程的選擇更具有參考性,更能滿足對(duì)情節(jié)內(nèi)容的視頻檢索需求,對(duì)于課程的選擇具有一定意義。因此,筆者對(duì)彈幕文本表達(dá)的情感進(jìn)行了分析。由于缺乏成熟開源的彈幕情感分析方法,因此,筆者針對(duì)彈幕文本的情感分析提出了一種基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)加注意力機(jī)制(Bi-directional Long Short-Term Memory and Attention Mechanism,BiLSTM_AM)的彈幕文本情感分析方法,從彈幕文本中判斷學(xué)生的情感,從而進(jìn)行課程的推薦。該模型首先通過(guò)BiLSTM層從評(píng)論中提取文本特征。其次,使用注意力機(jī)制(Attention Mechanism,AM)層來(lái)計(jì)算網(wǎng)絡(luò)的權(quán)值。最后,引入線性輸入層和Softmax層進(jìn)行非線性操作,以獲得學(xué)生對(duì)課程的情感狀態(tài)。模型結(jié)構(gòu)如圖3所示,包含預(yù)處理層、輸入層、隱含層和輸出層。預(yù)處理層主要是對(duì)彈幕評(píng)論進(jìn)行分詞,根據(jù)停用詞表去除低頻詞,該詞表中包含了本實(shí)驗(yàn)B站彈幕分析中需要剔除的非關(guān)鍵詞,共計(jì)2192個(gè)詞條。輸入層使用Word2vec工具包的Skip-gram模型,將得到的詞列表轉(zhuǎn)換為詞向量矩陣,然后將詞向量矩陣輸入隱含層BiLSTM模型中,在這一層中,我們采用了AM進(jìn)行權(quán)重計(jì)算,權(quán)重表示重要數(shù)據(jù)被選擇的程度,權(quán)重越大,表明情感維度越高。最后在輸出層通過(guò)Softmax層進(jìn)行情感預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)集上的準(zhǔn)確率為90.28%,損失值為0.23,時(shí)間代價(jià)為2469秒,驗(yàn)證了BiLSTM_AM模型的有效性。
用該方法分析了所采集的328436條彈幕文本所表達(dá)的情感,其中,積極情感占51.22%,消極情感占37.12%,還有11.66%的彈幕文本表達(dá)的情感為中性,情感表達(dá)能夠比較明顯地反映對(duì)一門課程的喜愛(ài)程度,因此,該特征可作為構(gòu)建學(xué)習(xí)者畫像的一個(gè)重要子維度。
針對(duì)以上數(shù)據(jù)的分析,遵循“按需設(shè)計(jì)且不做無(wú)限細(xì)化”的構(gòu)建原則,得出在學(xué)習(xí)者維度下需要的子維度為學(xué)習(xí)者ID、學(xué)習(xí)者性別、學(xué)習(xí)者等級(jí)以及粉絲數(shù)和關(guān)注數(shù),對(duì)于學(xué)習(xí)者是否為VIP可以忽略。在行為維度需要關(guān)注的子維度是時(shí)間序列分布和彈幕數(shù)量與學(xué)習(xí)者之間的關(guān)系,可省略彈幕顏色分布、彈幕模式分布和字體大小分布等子維度。在彈幕文本維度,需要關(guān)注的子維度是彈幕的字?jǐn)?shù)、字符的類型和彈幕情感表達(dá)。通過(guò)對(duì)學(xué)習(xí)者畫像的研究,可以把學(xué)習(xí)者群體標(biāo)簽化,以便能更好地識(shí)別不同學(xué)習(xí)者,為個(gè)性化推薦提供支持服務(wù)。
四、利用學(xué)習(xí)者畫像實(shí)現(xiàn)個(gè)性化課程推薦
筆者在實(shí)驗(yàn)環(huán)境中實(shí)現(xiàn)了基于學(xué)習(xí)者畫像的個(gè)性化課程推薦,包括學(xué)習(xí)者畫像的標(biāo)簽化處理、深度神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建和簡(jiǎn)單的評(píng)測(cè)過(guò)程,實(shí)驗(yàn)結(jié)果驗(yàn)證了基于學(xué)習(xí)者畫像的個(gè)性化課程推薦的可行性。
(一)深度神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建
構(gòu)建好學(xué)習(xí)者畫像后,通過(guò)梳理現(xiàn)有的個(gè)性化推薦算法,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的非線性擬合力、強(qiáng)特征提取力、高維數(shù)據(jù)處理力和強(qiáng)容錯(cuò)率,因此,采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行課程推薦,結(jié)構(gòu)流程如圖4所示。
在數(shù)據(jù)輸入模型之前,需要對(duì)學(xué)習(xí)者畫像進(jìn)行標(biāo)簽化處理。將學(xué)習(xí)者畫像中的學(xué)習(xí)者ID、學(xué)習(xí)者性別、學(xué)習(xí)者等級(jí)、粉絲數(shù)、關(guān)注數(shù)、時(shí)間序列分布、彈幕數(shù)量、彈幕的字?jǐn)?shù)、字符的類型和彈幕情感表達(dá)等維度分別進(jìn)行數(shù)字化表示,彈幕內(nèi)容用詞向量進(jìn)行表示。要實(shí)現(xiàn)個(gè)性化課程推薦,還需要將獲得的在線課程表中的課程ID、課程名稱、課程上線時(shí)間、課程類型和課程簡(jiǎn)介進(jìn)行標(biāo)簽化處理,其中,課程ID、課程上線時(shí)間、課程類型通過(guò)數(shù)據(jù)字典轉(zhuǎn)化為數(shù)字,課程名稱和課程簡(jiǎn)介轉(zhuǎn)化為向量。
對(duì)學(xué)習(xí)者畫像和課程信息進(jìn)行標(biāo)簽化處理后,在圖4學(xué)習(xí)者特征提取模塊中,首先,在輸入層輸入構(gòu)建的學(xué)習(xí)者畫像標(biāo)簽;其次,通過(guò)嵌入層將學(xué)習(xí)者畫像標(biāo)簽特征屬性矩陣分別轉(zhuǎn)成向量矩陣以實(shí)現(xiàn)數(shù)字化,接著,將嵌入層產(chǎn)生的向量矩陣分別送入隱含層,在該層對(duì)學(xué)習(xí)者畫像的信息做相應(yīng)加權(quán)處理;最后,將處理后的隱含層矩陣合并送入輸出層, 生成聚合的學(xué)習(xí)者個(gè)性化特征。在圖4所示的課程特征提取模塊中,首先,在輸入層輸入課程標(biāo)簽特征,產(chǎn)生課程基本信息特征;其次,對(duì)其做卷積處理,初始化卷積核的參數(shù)和偏置參數(shù),指定卷積的大小和步長(zhǎng);然后,將卷積后的向量矩陣數(shù)據(jù)輸入池化層以獲得課程的全連接矩陣,此處池化層選用最大池化,激活函數(shù)選用ReLU函數(shù);最后,通過(guò)全連接層輸出學(xué)習(xí)課程特征。在圖4所示的特征融合模塊中,對(duì)學(xué)習(xí)者特征提取模塊提取的學(xué)習(xí)者個(gè)性化特征和課程特征模塊提取的學(xué)習(xí)課程特征進(jìn)行特征加權(quán)計(jì)算,獲得個(gè)性化課程推薦的預(yù)測(cè)評(píng)分,如公式(1)所示:
Pinference=∑∑(w0×A+w1×B)+b(1)
其中,Pinference表示預(yù)測(cè)評(píng)分,A為學(xué)習(xí)者特征,B為課程特征,b為偏差,考慮到預(yù)測(cè)評(píng)分中學(xué)習(xí)者特征與學(xué)習(xí)視頻特征所占比例可能存在不平衡性,為A,B設(shè)置權(quán)重w0,w1。實(shí)驗(yàn)中,w0,w1,b的值分別為1、1、0。
(二)基于學(xué)習(xí)者畫像的個(gè)性化課程推薦評(píng)估
當(dāng)上述深度神經(jīng)網(wǎng)絡(luò)模型通過(guò)計(jì)算機(jī)訓(xùn)練后,獲得訓(xùn)練好的模型,進(jìn)行實(shí)驗(yàn)室測(cè)試,結(jié)果如圖5所示。首先,以學(xué)習(xí)者的ID和選擇的課程ID作為初始輸入,根據(jù)學(xué)習(xí)者在線活動(dòng)的學(xué)習(xí)畫像,提取學(xué)習(xí)者的學(xué)習(xí)行為后,系統(tǒng)自動(dòng)對(duì)比已有的相似學(xué)習(xí)者的學(xué)習(xí)經(jīng)歷,根據(jù)已有課程,自動(dòng)計(jì)算相關(guān)性,依次從高到低進(jìn)行推薦,也可以手動(dòng)設(shè)置每次推薦前多少個(gè)課程,從而實(shí)現(xiàn)個(gè)性化的推薦。
其次,對(duì)推薦結(jié)果進(jìn)行客觀評(píng)價(jià),使用推薦系統(tǒng)中常用的兩個(gè)評(píng)價(jià)指標(biāo),即命中率(Hit Ratio,HR)和歸一化折損累積增益(Normalize Discount Cumulative Gain,NDCG)來(lái)衡量課程推薦的性能,表達(dá)式分別如式(2)和式(3)所示:
其中,p表示某一課程,TK表示推薦的課程列表,
|t|表示測(cè)試集中課程數(shù)量,reli表示i位置推薦課程的相關(guān)性,|REL|為課程相關(guān)度的個(gè)數(shù),K表示向用戶推薦預(yù)測(cè)概率最大的前K門課程。HR,NDCG的值越大,說(shuō)明推薦的效果越好。
當(dāng)K等于N時(shí),表示向?qū)W習(xí)者推薦概率最大的前N門課程。本文計(jì)算HR5、NDCG5和HR10、NDCG10的值分別為0.487、0.345和0.651、0.431,可以看出當(dāng)K值越大,推薦的課程數(shù)量就越多,包含學(xué)習(xí)者喜歡的課程的概率就越大。通過(guò)與已有的不添加學(xué)習(xí)者畫像的深度神經(jīng)網(wǎng)絡(luò)的課程推薦[22]結(jié)果相比較,當(dāng)K為10時(shí),該文獻(xiàn)中HR10和NDCG10分別為0.572和0.354,也可以說(shuō)明我們提出的利用學(xué)習(xí)者畫像的個(gè)性化課程推薦研究能夠有效提高課程推薦的命中率。
最后,選取了30名志愿者對(duì)模型進(jìn)行了主觀評(píng)測(cè),每位志愿者登錄系統(tǒng)后輸入想要檢索的課程,從非常符合、符合、一般符合、不符合和非常不符合五個(gè)選項(xiàng)中選擇模型推薦結(jié)果是否符合自己的需求。筆者統(tǒng)計(jì)得出,30%的人認(rèn)為推薦課程非常符合自己的需求;50%的人認(rèn)為符合自己的需求;20%的人認(rèn)為不符合,沒(méi)有人認(rèn)為推薦的課程非常不符合自己的需求。說(shuō)明筆者提出的方法能夠?qū)崿F(xiàn)個(gè)性化課程推薦,同時(shí)通過(guò)動(dòng)態(tài)更新學(xué)習(xí)者畫像和課程信息,能夠使深度神經(jīng)網(wǎng)絡(luò)不斷識(shí)別出學(xué)習(xí)者新的學(xué)習(xí)需求,從而推薦新的個(gè)性化課程資源。
五、結(jié)? ?語(yǔ)
本文結(jié)合人工智能技術(shù),利用學(xué)習(xí)者畫像實(shí)現(xiàn)了個(gè)性化課程推薦服務(wù),從模型的測(cè)試、客觀評(píng)測(cè)和主觀評(píng)測(cè)三個(gè)方面說(shuō)明了利用學(xué)習(xí)者畫像實(shí)現(xiàn)個(gè)性化課程推薦服務(wù)的可行性。但依然存在以下不足:首先,學(xué)習(xí)者畫像指標(biāo)的確立需要進(jìn)一步細(xì)化完善;其次,神經(jīng)網(wǎng)絡(luò)的超參數(shù)需要進(jìn)一步計(jì)算,同時(shí)要提高主觀評(píng)測(cè)的有效性。未來(lái)將進(jìn)一步改進(jìn)個(gè)性化課程推薦服務(wù),使其能夠應(yīng)用到B站課程推薦中,減少學(xué)習(xí)者“迷航”問(wèn)題。
[參考文獻(xiàn)]
[1] 劉海鷗,孫晶晶,蘇妍嫄.國(guó)內(nèi)外用戶畫像研究綜述[J].情報(bào)理論與實(shí)踐,2018,41(11):155-160.
[2] MAHAMMED A, RAWIAN R M. English learning motivation of first-year students in universiti sultan zainal abidin(unisza)[J]. Asian Tefl journal of language teaching and applied lingus, 2018, 1(1): 79-90.
[3] 劉智,楊重陽(yáng),劉三女牙.SPOC學(xué)習(xí)者認(rèn)知行為及序列模式的差異性分析[J].開放教育研究,2019,25(2):44-52.
[4] JASWINDER S, NIRMAL S, VERMA HK. A scoping study on learning style, gender and academic performance of veterinary students of punjab, india[J]. Indian journal of extension education. 2020,56(1):70-76.
[5] 張雪,檀悅穎,羅恒.在線學(xué)習(xí)非母語(yǔ)學(xué)習(xí)者群體研究:類別畫像與行為特征分析[J].現(xiàn)代遠(yuǎn)距離教育,2019(1):18-26.
[6] SCHROEDER N L, FAN Y, TANVI B, et al. The influence of learners' perceptions of virtual humans on learning transfer[J]. Computers and education, 2018,126(11):170-182.
[7] PIECH C, SPENCER J, HUANG J, et al. Deep knowledge tracing[J]. Computer science, 2015, 3(3): 19-23.
[8] ZHANG J H, ZHANG Y X, ZOU Q, HUANG S. What learning analytics tells us: group behavior analysis and individual learning diagnosis based on long-term and large-scale data[J]. Educational technology and society,2018(1):245-258.
[9] 肖君,喬惠,李雪嬌.基于xAPI的在線學(xué)習(xí)者畫像的構(gòu)建與實(shí)證研究[J].中國(guó)電化教育,2019,384(1):128-134.
[10] 余勝泉,陳敏.泛在學(xué)習(xí)資源建設(shè)的特征與趨勢(shì)——以學(xué)習(xí)元資源模型為例[J].現(xiàn)代遠(yuǎn)程教育研究,2011(6):14-22.
[11] LI Y, SHAO Z, WANG X, et al. A concept map-based learning paths automatic generation algorithm for adaptive learning systems[J]. Quality control, transactions, 2019(7):245-255.
[12] WANG P, WOLFRAM D, ZHANG J, et al. Mining web search behaviors: strategies and techniques for data modeling and analysis[J]. Proceedings of the american society for information science and technology, 2010, 44(1):1-8.
[13] 陳海建,戴永輝,韓冬梅,馮彥杰,黃河笑.開放式教學(xué)下的學(xué)習(xí)者畫像及個(gè)性化教學(xué)探討[J].開放教育研究,2017,23(3):105-112.
[14] 牟智佳,李雨婷,商俊超.教育大數(shù)據(jù)環(huán)境下基于學(xué)習(xí)畫像的個(gè)性化學(xué)習(xí)路徑設(shè)計(jì)研究[J].中國(guó)教育信息化,2019(11):55-59,65.
[15] 唐燁偉,茹麗娜,范佳榮.基于學(xué)習(xí)者畫像建模的個(gè)性化學(xué)習(xí)路徑規(guī)劃研究[J].電化教育研究,2019,40(10):53-60.
[16] 師亞飛,彭紅超,童名文.基于學(xué)習(xí)畫像的精準(zhǔn)個(gè)性化學(xué)習(xí)路徑生成性推薦策略研究[J].中國(guó)電化教育,2019,388(5):84-91.
[17] 王晶瑩,楊伊,鄭永和.從大數(shù)據(jù)到計(jì)算教育學(xué):概念,動(dòng)因和出路[J].中國(guó)電化教育,2020(1):85-92.
[18] 尹子璇.B站發(fā)布三季度財(cái)報(bào):?jiǎn)卧禄钴S用戶破2億,營(yíng)收32.3億元再創(chuàng)新高[EB/OL].[2021-08-01].https://new.qq.com/omn/20201119/20201119A0391J00.html,2020-11-19.
[19] 武法提,牟智佳.基于學(xué)習(xí)者個(gè)性行為分析的學(xué)習(xí)結(jié)果預(yù)測(cè)框架設(shè)計(jì)研究[J].中國(guó)電化教育,2016(1):41-48.
[20] 牟智佳,武法提.電子書包中基于學(xué)習(xí)者模型的個(gè)性化學(xué)習(xí)資源推薦研究[J].電化教育研究,2015,36(1):69-76.
[21] 張成龍,李麗嬌,李建鳳.基于MOOCs的混合式學(xué)習(xí)適應(yīng)性影響因素研究——以Y高校的實(shí)踐為例[J].中國(guó)電化教育,2017(4):60-66.
[22] 卜祥鵬.基于GRU和課程關(guān)聯(lián)關(guān)系的推薦模型[J].軟件,2020,41(6):137-142.