郭飛雁 羅校清
(1.湖南電氣職業(yè)技術(shù)學(xué)院,湖南 湘潭 411100;2.湖南軟件職業(yè)技術(shù)大學(xué),湖南 湘潭 411100)
如何利用信息技術(shù)提供個性化學(xué)習(xí)環(huán)境及服務(wù)已成為當(dāng)前教育研究者關(guān)注的焦點。近年來,隨著人工智能大數(shù)據(jù)等技術(shù)的逐漸成熟,越來越多的教育研究者將研究重點定位到利用在線學(xué)習(xí)平臺上的大量學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析,實現(xiàn)個性化教學(xué)。用戶畫像也隨著信息技術(shù)的發(fā)展興起,通過多維度數(shù)字化標(biāo)簽抽象用戶個人信息數(shù)字化特征,準(zhǔn)確解析用戶需求及預(yù)測用戶變化趨勢,現(xiàn)已用于個性化服務(wù)推薦、精準(zhǔn)營銷等方面。用戶畫像十分契合在線學(xué)習(xí)用戶精準(zhǔn)、個性化服務(wù)需求。
用戶畫像是一個綜合的研究領(lǐng)域,通過數(shù)字標(biāo)簽體系對用戶特征進(jìn)行描述,預(yù)測用戶未來需求或變化方向,從而為用戶提供個性化推薦信息。隨著大數(shù)據(jù)技術(shù)的發(fā)展,人們通過用戶畫像將用戶數(shù)據(jù)轉(zhuǎn)化為商業(yè)價值,眾多行業(yè)引入了用戶畫像的理念,實現(xiàn)對核心用戶價值的挖掘,開展產(chǎn)品的精準(zhǔn)營銷和個性化服務(wù)。其中,圖書館領(lǐng)域的研究成果最為廣泛,對講座信息推薦[1]、科研推送服務(wù)[2][3][4]、專利推送[5]、資源推薦[6]等主題開展用戶畫像的應(yīng)用進(jìn)行了探討。
目前,基于用戶畫像的個性化推薦服務(wù)國內(nèi)研究并不多見。有學(xué)者從個性化推薦過程的用戶建模、推薦對象建模和推薦策略三個模塊對現(xiàn)有學(xué)術(shù)資源個性化推薦進(jìn)行了探討[7];也有學(xué)者將用戶畫像技術(shù)引入圖書的個性化推薦中[8];也有學(xué)者針對旅游情境化推薦服務(wù)問題,提出了一個基于用戶畫像的景點推薦模型并進(jìn)行了實證研究[9];還有學(xué)者提出從單用戶和多用戶角度基于用戶畫像技術(shù)推薦圖書館資源,為大數(shù)據(jù)環(huán)境下面向用戶的圖書館資源精準(zhǔn)推薦提供參考[10]?;谟脩舢嬒竦脑诰€學(xué)習(xí)個性化推薦服務(wù)相關(guān)研究暫時處于空白。
國外學(xué)者主要從用戶畫像定義及用戶畫像實踐應(yīng)用方面進(jìn)行研究。S.Gauch,M.Speretta 等也將用戶畫像視為一種集合[11]。Guimaraes 等將用戶畫像的構(gòu)成要素歸納為:用戶的基本素養(yǎng)、學(xué)歷層次、社會關(guān)系[12]。在實踐應(yīng)用方面國外學(xué)者將用戶畫像較多地應(yīng)用于圖書館的用戶體驗改善研究中。如Z.Holt 以高校圖書館為例,闡述研究了用戶畫像的構(gòu)建及應(yīng)需而變的發(fā)展變化過程[13]。M.Otterlo 以圖書館的業(yè)務(wù)服務(wù)為例,借助市場細(xì)分方法繪制用戶畫像,并以可視化展示的方式提供給館員實現(xiàn)相應(yīng)圖書館服務(wù)的優(yōu)化[14]。
通過國內(nèi)外研究現(xiàn)狀得出,國內(nèi)外對基于用戶畫像技術(shù)的資源個性化推薦的方法及模式研究較少,且大部分研究集中在圖書館方面,尚無文獻(xiàn)對基于用戶畫像的在線學(xué)習(xí)資源個性化推薦服務(wù)展開系統(tǒng)論述。
基于用戶畫像技術(shù)的在線學(xué)習(xí)用戶畫像構(gòu)建過程主要有在線學(xué)習(xí)用戶數(shù)據(jù)采集、在線學(xué)習(xí)用戶數(shù)據(jù)處理、在線學(xué)習(xí)用戶畫像構(gòu)建。通過各類在線學(xué)習(xí)平臺數(shù)據(jù)的采集,采用非結(jié)構(gòu)化標(biāo)簽關(guān)鍵詞處理相關(guān)數(shù)據(jù),得出在線學(xué)習(xí)用戶屬性值的特征標(biāo)志,形成在線學(xué)習(xí)用戶標(biāo)簽體系?;谟脩魳?biāo)簽體系,采用非結(jié)構(gòu)化關(guān)鍵詞法對在線學(xué)習(xí)用戶進(jìn)行畫像構(gòu)建,最終形成在線學(xué)習(xí)用戶畫像[15]。
在線學(xué)習(xí)用戶數(shù)據(jù)采集主要采用系統(tǒng)日志法。在線學(xué)習(xí)平臺中日志文件數(shù)據(jù)由在線學(xué)習(xí)平臺系統(tǒng)產(chǎn)生,記錄了用戶在登錄平臺過程中所產(chǎn)生的所有活動數(shù)據(jù),比如用戶的訪問軌跡、用戶與系統(tǒng)互動數(shù)據(jù)、用戶學(xué)習(xí)時長等。許多在線學(xué)習(xí)平臺都有自己的數(shù)據(jù)采集工具用于系統(tǒng)日志數(shù)據(jù)采集,這些工具采用分布式架構(gòu),能滿足每秒數(shù)百MB 的日志數(shù)據(jù)采集和傳輸需求。
在線學(xué)習(xí)用戶數(shù)據(jù)主要來源于各個在線學(xué)習(xí)平臺,數(shù)據(jù)類型主要分為兩種:一種為靜態(tài)信息,即一段時間內(nèi)不會發(fā)生變化、相對穩(wěn)定的數(shù)據(jù);另一種則為動態(tài)信息,即隨著時間的變化而發(fā)生變化。靜態(tài)信息的組成主要為用戶基本屬性數(shù)據(jù),例如性別、年齡、學(xué)歷、專業(yè)及研究領(lǐng)域、地區(qū)等。動態(tài)信息的組成主要為用戶學(xué)習(xí)資源偏好、用戶平臺互動、用戶訪問記錄等。動態(tài)信息也是用戶畫像實時更新的主要數(shù)據(jù)來源。在線學(xué)習(xí)用戶數(shù)據(jù)來源如表1 所示。
表1 在線學(xué)習(xí)用戶數(shù)據(jù)類型及來源
通過在線學(xué)習(xí)平臺所收集的數(shù)據(jù)主要有三種類型:結(jié)構(gòu)化數(shù)據(jù),例如用戶會話相關(guān)數(shù)據(jù)中訪問時間、登錄次數(shù)等;半結(jié)構(gòu)化數(shù)據(jù),例如用戶會話相關(guān)數(shù)據(jù)中性別、年齡等;非結(jié)構(gòu)化數(shù)據(jù),例如用戶學(xué)習(xí)互動過程是對學(xué)習(xí)資源的評論、分享、情感態(tài)度等。結(jié)構(gòu)化數(shù)據(jù)清洗簡單,只需要通過簡單挖掘便可形成標(biāo)簽。半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)則需要大量的時間進(jìn)行清洗和標(biāo)準(zhǔn)化處理,從而減少缺失項、數(shù)據(jù)冗余、數(shù)據(jù)異常、數(shù)據(jù)噪聲等問題。
將用戶屬性的所有標(biāo)志綜合起來,形成在線學(xué)習(xí)用戶標(biāo)簽體系。其中用戶基本屬性數(shù)據(jù)主要對應(yīng)人群屬性標(biāo)簽,用戶學(xué)習(xí)資源偏好屬性數(shù)據(jù)主要對應(yīng)資源選擇偏好標(biāo)簽,用戶學(xué)習(xí)互動屬性數(shù)據(jù)主要對應(yīng)操作偏好、活躍度等標(biāo)簽。在線學(xué)習(xí)用戶數(shù)據(jù)與標(biāo)簽對應(yīng)主要如表2 所示。
表2 在線學(xué)習(xí)用戶數(shù)據(jù)與標(biāo)簽對應(yīng)表
科學(xué)合理的標(biāo)簽是個性化資源推薦成功的重要因素。在線學(xué)習(xí)用戶標(biāo)簽體系構(gòu)建時需要注意標(biāo)簽粒度大小。過小的標(biāo)簽粒度會導(dǎo)致標(biāo)簽沒有泛化能力和使用價值,降低推薦精度。過大的標(biāo)簽粒度會導(dǎo)致標(biāo)簽沒有區(qū)分度,造成推薦資源泛濫。為了保證在線學(xué)習(xí)用戶畫像精準(zhǔn)度及泛化性,我們構(gòu)建層次化標(biāo)簽體系,同時用不同粒度大小的標(biāo)簽來匹配在線學(xué)習(xí)用戶的興趣偏好,從而保證標(biāo)簽的準(zhǔn)確性和泛化性。
例如,某一在線學(xué)習(xí)用戶在在線學(xué)習(xí)平臺上點擊“協(xié)同過濾推薦算法”這一單元知識點,如果用單個單元知識點作為用戶畫像標(biāo)簽粒度,畫像粒度就會過于精細(xì),系統(tǒng)認(rèn)為用戶僅對“協(xié)同過濾推薦算法”感興趣,在進(jìn)行在線學(xué)習(xí)資源推薦時,也僅推薦“協(xié)同過濾推薦算法”相關(guān)的學(xué)習(xí)資源,可能將其他的個性化推薦算法學(xué)習(xí)資源忽略。如果采用“算法”作為在線學(xué)習(xí)用戶畫像標(biāo)簽粒度,則無法捕捉到用戶的實際需求是個性化推薦,從而會給用戶推薦一系列算法,如人工智能、遺傳算法等,這樣的推薦也缺乏精準(zhǔn)性,從而達(dá)不到預(yù)期效果。因此,將“協(xié)同過濾推薦算法”和“算法”同時列為不同層次標(biāo)簽,這樣系統(tǒng)就可以匹配出“推薦算法”,提高標(biāo)簽準(zhǔn)確性。
在數(shù)據(jù)清洗、集成及標(biāo)簽化處理后,通過用戶標(biāo)簽體系對在線學(xué)習(xí)用戶從多個維度不同層次進(jìn)行畫像構(gòu)建,從而形成在線學(xué)習(xí)用戶畫像庫?;谠诰€學(xué)習(xí)用戶畫像,預(yù)測用戶潛在需求,進(jìn)行個性化資源推薦。
例如,某在線學(xué)習(xí)用戶畫像如下:
{基本信息:女,漢,本科,計算機,湖南長沙,白領(lǐng);
學(xué)習(xí)資源偏好:python,數(shù)據(jù)挖掘,大數(shù)據(jù)
互動偏好:郵箱、留言;
會話偏好:活躍度高;
學(xué)習(xí)效果:高;}
由于在線學(xué)習(xí)用戶隨著時間的推移興趣偏好會發(fā)生變化,用戶畫像也需要動態(tài)更新。因此在構(gòu)建用戶畫像時,引入隨著時間窗口變化的興趣衰減因子X=1/T,T表示產(chǎn)生的天數(shù),時間越長,在線學(xué)習(xí)用戶對較早訪問的興趣偏好資源會逐步衰減,構(gòu)建用戶畫像時權(quán)重越小。時間越短,表示近期興趣偏好資源在構(gòu)建用戶畫像時權(quán)重越大,便于實時更新用戶畫像,生成在線學(xué)習(xí)用戶動態(tài)畫像,進(jìn)一步提高推薦的準(zhǔn)確度。
在線學(xué)習(xí)個性化推薦服務(wù)主要有個性化服務(wù)推薦體系、在線學(xué)習(xí)資源個性化推薦流程及推薦學(xué)習(xí)資源展示和發(fā)送等內(nèi)容。
基于用戶畫像的在線學(xué)習(xí)個性化推薦服務(wù)體系主要在數(shù)據(jù)收集、數(shù)據(jù)處理、資源推薦三個功能模塊基礎(chǔ)上完成?;诟鱾€在線學(xué)習(xí)平臺收集用戶各類靜態(tài)和動態(tài)信息,為數(shù)據(jù)處理模塊提供數(shù)據(jù)基礎(chǔ)。在數(shù)據(jù)處理模塊中,采用關(guān)鍵詞法建立非結(jié)構(gòu)化標(biāo)簽體系?;跇?biāo)簽體系,預(yù)測用戶個性化資源需求,進(jìn)行個性化資源推薦。在資源推薦模塊中也實時考慮用戶畫像的動態(tài)變化,根據(jù)在線學(xué)習(xí)用戶動態(tài)畫像,反映用戶的興趣變化,推薦系統(tǒng)實時更新展示推薦結(jié)果?;谟脩舢嬒竦脑诰€學(xué)習(xí)個性化推薦服務(wù)體系結(jié)構(gòu)設(shè)計如圖1 所示。
圖1 基于用戶畫像的在線學(xué)習(xí)個性化推薦服務(wù)體系結(jié)構(gòu)圖
通過在線學(xué)習(xí)平臺收集在線學(xué)習(xí)用戶基本數(shù)據(jù)和用戶行為數(shù)據(jù),并對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,形成畫像標(biāo)簽體系,生成在線學(xué)習(xí)用戶畫像。隨著用戶行為數(shù)據(jù)的更新,用戶畫像也在動態(tài)變化,以適應(yīng)用戶需求的動態(tài)性和多樣性?;谟脩舢嬒?,推薦平臺預(yù)測用戶興趣資源,從在線學(xué)習(xí)資源庫中檢索相關(guān)資源,將資源以學(xué)習(xí)單元的形式展示在在線學(xué)習(xí)平臺,推薦給學(xué)習(xí)用戶?;谟脩舢嬒竦脑诰€學(xué)習(xí)資源個性化推薦流程設(shè)計如圖2 所示。
圖2 基于用戶畫像的在線學(xué)習(xí)資源個性化推薦流程圖
基于用戶畫像技術(shù),構(gòu)建基于時間序列的在線學(xué)習(xí)用戶動態(tài)畫像,從而對在線學(xué)習(xí)用戶感興趣資源進(jìn)行個性化推薦預(yù)分析進(jìn)行推薦處理,形成在線學(xué)習(xí)資源推薦列表。將在線學(xué)習(xí)資源以單個學(xué)習(xí)目標(biāo)的形式,根據(jù)在線學(xué)習(xí)用戶畫像和在線學(xué)習(xí)資源的匹配情況,基于在線學(xué)習(xí)平臺的自動推送功能將資源主題、關(guān)鍵詞定時發(fā)送給在線學(xué)習(xí)用戶。推送方式可先用平臺內(nèi)消息、郵件、短信等。在推送消息下方有用戶反饋選項,例如是否對推送內(nèi)容感興趣,以便及時了解推送效果。在推送信息中,提醒用戶及時報名進(jìn)行學(xué)習(xí)。如果推送內(nèi)容用戶不感興趣,則用戶可以提交自己感興趣的主題到后臺,后臺通過在線學(xué)習(xí)資源庫進(jìn)行匹配,從而再次推薦給用戶。
為解決推薦算法中的數(shù)據(jù)稀疏性和冷啟動性問題,在基于用戶畫像的在線學(xué)習(xí)資源個性化推薦服務(wù)中,采用一種混合式協(xié)同過濾算法。目前常用的協(xié)同過濾算法有基于用戶的協(xié)同過濾算法和基于項目的協(xié)同過濾算法?;谟脩舻膮f(xié)同過濾算法是指找到相似用戶感興趣的項目推薦給當(dāng)前用戶,基于項目的協(xié)同過濾算法是指給用戶推薦其以前喜歡的相似項目。我們采用基于用戶和項目的一種混合式協(xié)同過濾算法進(jìn)行在線學(xué)習(xí)用戶個性化資源推薦。在混合式協(xié)同過濾算法中,為了減小用戶項目評分偏置影響,采用皮爾遜相關(guān)系數(shù)計算用戶和用戶或項目和項目之間的相似度,尋找到推薦項目,最后利用Mahout 構(gòu)建推薦系統(tǒng)引擎,實現(xiàn)個性化推薦服務(wù)。
基于用戶畫像的在線學(xué)習(xí)資源個性化推薦服務(wù)評估主要從三個方面進(jìn)行:推薦項目準(zhǔn)確率、覆蓋率及新穎度。
推薦項目的準(zhǔn)確率指的是在線學(xué)習(xí)過程中,基于用戶畫像技術(shù),預(yù)測在線學(xué)習(xí)用戶感興趣的學(xué)習(xí)資源,并以學(xué)習(xí)單元的形式呈現(xiàn)出來,用戶點擊并進(jìn)行學(xué)習(xí)的概率。準(zhǔn)確率綜合考慮用戶對資源的點擊率和學(xué)習(xí)時間長度,點擊率越高,學(xué)習(xí)時間越長,在線學(xué)習(xí)資源的個性化推薦服務(wù)準(zhǔn)確率則越高。
為了檢驗混合式推薦推薦算法對于解決算法冷啟動性問題效果,我們在評估個性化推薦服務(wù)時引入項目覆蓋率,即給用戶呈現(xiàn)的個性化學(xué)習(xí)資源占整個資源比例。覆蓋率反映了推薦算法發(fā)掘長尾的能力,覆蓋率越高,說明推薦算法越能將長尾中的在線學(xué)習(xí)資源推薦給學(xué)習(xí)用戶。如果在線學(xué)習(xí)資源所有學(xué)習(xí)單元都至少被推薦給一個在線學(xué)習(xí)用戶,則項目的覆蓋率為100%。
在線學(xué)習(xí)用戶在學(xué)習(xí)過程中,興趣愛好往往具有動態(tài)性和多樣化特點,因此,推薦項目的新穎度可以很好地表現(xiàn)在線學(xué)習(xí)用戶的興趣動態(tài)化和多樣化。采用推薦列表中在線學(xué)習(xí)資源的流行度衡量推薦項目的新穎度。由于在線學(xué)習(xí)資源的流行度呈長尾分布,為了使流行度的平均值更加穩(wěn)定,對在線學(xué)習(xí)資源的流行度取對數(shù)。如果推薦列表中學(xué)習(xí)資源流行度高,說明在線學(xué)習(xí)資源推薦的新穎度較低,資源缺乏多樣化。如果推薦列表中學(xué)習(xí)資源流行度低,說明在線學(xué)習(xí)資源推薦的新穎度較高,可以滿足在線學(xué)習(xí)用戶多樣化需求。
在線學(xué)習(xí)資源超載問題出現(xiàn)在線學(xué)習(xí)過程中斷或?qū)W習(xí)效率低下等現(xiàn)象。用戶畫像技術(shù)的出現(xiàn)解決了這一難題,給在線學(xué)習(xí)個性化資源推薦帶來了新思路?;谟脩舢嬒窦夹g(shù),采集在線學(xué)習(xí)用戶動態(tài)及靜態(tài)數(shù)據(jù),在相關(guān)數(shù)據(jù)的基礎(chǔ)上構(gòu)建在線學(xué)習(xí)用戶的多維度動態(tài)畫像并實時進(jìn)行更新,形成以個體需求為導(dǎo)向的個性化推薦,結(jié)合混合式協(xié)同過濾算法實現(xiàn)用戶個性化資源的精準(zhǔn)推送,從而提高在線學(xué)習(xí)用戶學(xué)習(xí)的主動性,同時大大提高在線學(xué)習(xí)效率,實現(xiàn)個性化教育。在接下來的研究中,我們將繼續(xù)優(yōu)化在線學(xué)習(xí)用戶畫像構(gòu)建方法,進(jìn)一步提高在線學(xué)習(xí)資源個性化推薦精度,實現(xiàn)個性化智慧教學(xué)。