陳會 余馨 李琳琳 吳蘇徽 蔣秀蓮
摘? 要:在信息社會,各行各業(yè)的管理控制轉(zhuǎn)變?yōu)橐詳?shù)據(jù)、信息為中心。在高等教育領(lǐng)域,高校重視學(xué)生信息數(shù)據(jù)庫的建設(shè),通過學(xué)生瀏覽信息的關(guān)鍵詞、種類分布和瀏覽主題等多個維度構(gòu)建學(xué)生畫像向量空間模型。本文使用大數(shù)據(jù)技術(shù)構(gòu)建學(xué)生學(xué)習(xí)畫像基礎(chǔ)模型框架,研究學(xué)生學(xué)習(xí)畫像在個性化學(xué)習(xí)、問題預(yù)警及輔助學(xué)校決策等方面的應(yīng)用,為高校提升學(xué)生培養(yǎng)質(zhì)量提供參考。
關(guān)鍵詞:學(xué)習(xí)畫像;用戶標(biāo)簽;數(shù)據(jù)挖掘
中圖分類號:TP311.13? ? ?文獻(xiàn)標(biāo)識碼:A
Abstract: In information society, it is data and information that manage and control all walks of life. In the field of higher education, universities attach importance to the construction of student information databases. The vector space model of student portraits is constructed through multiple dimensions such as keywords, type distribution and browsing topics of students' browsing information. This article uses big data technology to build a basic model framework for student learning portraits, and studies the aspects of student learning portraits in personalized learning, early warning of problems, and assistance in school decision-making, so as to provide references for colleges and universities to improve the quality of student training.
Keywords: learning portrait; user tags; data mining
1? ?引言(Introduction)
我國普通高等學(xué)校素質(zhì)教育明確提出,高校的教學(xué)任務(wù)在于不斷提升學(xué)生的綜合素質(zhì)。信息社會下的大學(xué)生呈現(xiàn)個性化發(fā)展的趨勢[1],他們的學(xué)習(xí)行為、特長偏好等也相對多樣化。學(xué)校對學(xué)生的教育方式要適應(yīng)學(xué)生的個性化發(fā)展需求,以利于提升學(xué)生的綜合素質(zhì),為經(jīng)濟(jì)社會培養(yǎng)高質(zhì)量人才。
當(dāng)前國內(nèi)在企業(yè)精準(zhǔn)營銷以及數(shù)據(jù)產(chǎn)品個性化推薦領(lǐng)域中,對用戶進(jìn)行畫像構(gòu)建的較多。高校對學(xué)生的數(shù)據(jù)搜集、處理以及畫像構(gòu)建等尚不全面,大多數(shù)畫像構(gòu)建通常停留在數(shù)據(jù)的描述可視化上[2],并未對學(xué)生的教育與改善學(xué)習(xí)效果起到明顯作用?;诖髷?shù)據(jù)技術(shù)的學(xué)生學(xué)習(xí)畫像構(gòu)建針對學(xué)生不同個性發(fā)展的獨(dú)立性及多樣性,重視學(xué)生在思維和行為上的差距,突破對學(xué)生綜合評價僅考慮學(xué)習(xí)成績的局限性,能更加全面地對學(xué)生進(jìn)行評價及打分,可以更好地引導(dǎo)學(xué)生,挖掘?qū)W生潛能,促進(jìn)學(xué)生全面發(fā)展。本文探討研究基于大數(shù)據(jù)技術(shù)的學(xué)生學(xué)習(xí)畫像基礎(chǔ)模型框架的構(gòu)建,以期在學(xué)生個性化學(xué)習(xí)、學(xué)生問題預(yù)警及輔助學(xué)校有關(guān)政策、決策的制定等方面提供數(shù)據(jù)驅(qū)動。
2? 大學(xué)生學(xué)習(xí)畫像(University students' learning portrait)
大學(xué)生學(xué)習(xí)畫像是高校大學(xué)生在學(xué)習(xí)方面的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型。通過學(xué)生學(xué)習(xí)數(shù)據(jù)收集分析了解學(xué)生,根據(jù)他們的目標(biāo)、行為和屬性的差異,將他們區(qū)分為不同的類型,然后從每種類型學(xué)生中抽取出基本信息、內(nèi)容偏好、學(xué)習(xí)風(fēng)格和社交互動行為描述,就形成了一個人物原型即一個學(xué)生學(xué)習(xí)畫像。根據(jù)數(shù)據(jù)的記錄和描述性統(tǒng)計分析可得:在已知學(xué)生性別、年齡和專業(yè)的前提條件下,依據(jù)學(xué)生檢索信息的內(nèi)容、頁面瀏覽的次數(shù)以及下載量,甚至包括在社交學(xué)習(xí)平臺上資源轉(zhuǎn)發(fā)頻率和互動評論內(nèi)容等,可以計算出每位在校大學(xué)生的學(xué)習(xí)狀態(tài),從而構(gòu)建學(xué)生學(xué)習(xí)畫像,預(yù)測學(xué)生學(xué)習(xí)成效,進(jìn)而幫助教師更好地關(guān)注學(xué)生的學(xué)習(xí)狀態(tài)和身心健康。此外,根據(jù)統(tǒng)計的數(shù)據(jù)記錄能夠輔助學(xué)校政策的制定,使得制定的政策更加人性化和專業(yè)化。
3? ?基于大數(shù)據(jù)技術(shù)的學(xué)習(xí)畫像構(gòu)建(Construction of learning portrait based on big data technology)
現(xiàn)行的用戶畫像主要運(yùn)用網(wǎng)絡(luò)流算法檢驗(yàn)學(xué)生的學(xué)習(xí)狀態(tài),重點(diǎn)運(yùn)用多層次聚類分析算法進(jìn)行數(shù)據(jù)挖掘,運(yùn)用多元回歸分析和神經(jīng)網(wǎng)絡(luò)算法預(yù)測學(xué)生學(xué)習(xí)成績及掛科率。鑒于一些高校對學(xué)生考評測評方式僅限于結(jié)構(gòu)化數(shù)據(jù)的成績分析,且存在數(shù)據(jù)挖掘意識不強(qiáng)等問題[3],本項(xiàng)目對高校學(xué)生學(xué)習(xí)、消費(fèi)、網(wǎng)絡(luò)使用及生活等行為方面的結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理和挖掘,構(gòu)建學(xué)生學(xué)習(xí)畫像,從而為學(xué)生個性化學(xué)習(xí)、學(xué)生問題預(yù)警、輔助學(xué)校決策等提供數(shù)據(jù)驅(qū)動,以加強(qiáng)高校優(yōu)良學(xué)風(fēng)建設(shè)。學(xué)生學(xué)習(xí)畫像構(gòu)建步驟如下:
第一步:將目標(biāo)用戶畫像問題轉(zhuǎn)化為學(xué)生學(xué)習(xí)畫像問題。
學(xué)生學(xué)習(xí)畫像分析本質(zhì)上是從學(xué)生的角度思考問題,涉及若干學(xué)生用戶群體、若干學(xué)生用戶行為。網(wǎng)絡(luò)課程通常有三種學(xué)習(xí)用戶——存量學(xué)習(xí)用戶、流失學(xué)習(xí)用戶、潛在學(xué)習(xí)用戶,涉及學(xué)生基本信息、學(xué)習(xí)目的、學(xué)習(xí)方式、學(xué)習(xí)態(tài)度、學(xué)習(xí)成效、學(xué)習(xí)評價和體驗(yàn)等,因此分門別類解釋邏輯尤為重要。
第二步:宏觀假設(shè)驗(yàn)證。
轉(zhuǎn)化完問題后,需在拆解以前聚焦假設(shè),先在宏觀上對假設(shè)進(jìn)行檢驗(yàn),有效避免無限拆解的錯誤。進(jìn)行大方向檢驗(yàn),可以有效縮小懷疑范圍。懷疑范圍越小,后續(xù)對學(xué)生用戶分析越精確[4]。當(dāng)數(shù)據(jù)不足的時候,能改善數(shù)據(jù)質(zhì)量,做出準(zhǔn)確分析。
第三步:構(gòu)建分析邏輯。
宏觀驗(yàn)證以后,可基于已驗(yàn)證的結(jié)論,構(gòu)建更細(xì)致的分析邏輯。在這個階段,實(shí)際上已經(jīng)把原本龐大的問題聚焦為一個個小問題。學(xué)生學(xué)習(xí)畫像構(gòu)建框架可劃分為三個層次:數(shù)據(jù)源層、數(shù)據(jù)挖掘?qū)雍蜆I(yè)務(wù)應(yīng)用層。數(shù)據(jù)源層需要對結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行提取;數(shù)據(jù)挖掘?qū)觿t需對所提取的數(shù)據(jù)建模,針對所建立的模型和運(yùn)算結(jié)果進(jìn)行充分應(yīng)用,是業(yè)務(wù)應(yīng)用層的基礎(chǔ)。學(xué)生學(xué)習(xí)畫像構(gòu)建框架具體如圖1所示。
3.1? ?學(xué)生學(xué)習(xí)畫像的數(shù)據(jù)預(yù)處理
鑒于本文所需爬取的數(shù)據(jù)均存在于高校的學(xué)生信息數(shù)據(jù)庫和各大學(xué)習(xí)網(wǎng)絡(luò)平臺上,且各大學(xué)習(xí)網(wǎng)絡(luò)都提供了API,在數(shù)據(jù)爬取前申請key,以json形式返回文檔,方便解析。通過各種學(xué)習(xí)、社交平臺和上網(wǎng)流量監(jiān)控,對學(xué)生的學(xué)習(xí)數(shù)據(jù)進(jìn)行爬取。若數(shù)據(jù)呈結(jié)構(gòu)化狀態(tài)則直接提取,若數(shù)據(jù)呈非結(jié)構(gòu)化狀態(tài)則先對其進(jìn)行賦值,再做數(shù)據(jù)無量綱化處理。利用模糊c均值聚類法和詞云圖過濾掉大量的文本信息及異常值,數(shù)據(jù)爬取時盡可能獲取全量的學(xué)生學(xué)習(xí)數(shù)據(jù),為教師對學(xué)生學(xué)習(xí)成績的分析提供堅實(shí)的數(shù)據(jù)基礎(chǔ),如學(xué)生成績數(shù)據(jù)、學(xué)生上網(wǎng)數(shù)據(jù)、學(xué)生消費(fèi)數(shù)據(jù)、學(xué)生課堂行為數(shù)據(jù)及教師反饋數(shù)據(jù)等相關(guān)數(shù)據(jù)。數(shù)據(jù)來源如圖2所示。提取相應(yīng)的數(shù)據(jù),量化后建立標(biāo)簽。
(1)基本信息標(biāo)簽
基本信息是指一個學(xué)生的基本信息和變更頻率較低的代表性指標(biāo),此處提取學(xué)生的學(xué)號、姓名、性別、專業(yè)、班級及所關(guān)注的方向等,這些指標(biāo)可以直接獲取。
(2)學(xué)習(xí)風(fēng)格標(biāo)簽
學(xué)習(xí)風(fēng)格是學(xué)生用戶非常重要的一個方面,學(xué)生對學(xué)習(xí)方式的偏好及喜愛程度是學(xué)生學(xué)習(xí)畫像最重要的信息之一,是對用戶和學(xué)習(xí)方式之間的關(guān)系進(jìn)行深度刻畫的重要標(biāo)簽,其中最典型的是視覺(影視網(wǎng)課)、聽覺(語音錄播)、言語(交流討論)。
(3)內(nèi)容偏好標(biāo)簽
內(nèi)容偏好記錄的是大學(xué)生學(xué)習(xí)、瀏覽、關(guān)注的內(nèi)容。學(xué)生的瀏覽內(nèi)容行為包括信息檢索、頁面瀏覽和資源下載等。由于這些瀏覽內(nèi)容行為種類繁多且和不同的學(xué)習(xí)平臺、不同的模塊交互,不同時間進(jìn)行不同操作,導(dǎo)致行為屬性更加復(fù)雜。針對如何能夠全面梳理,怎樣才能集成抽取出學(xué)生的內(nèi)容偏好,可以按照圖2所示的分類方法來進(jìn)行。
(4)社交互動標(biāo)簽
學(xué)生學(xué)習(xí)時會進(jìn)行社交、分享等一系列互動活動,主要有資源分享轉(zhuǎn)發(fā)、收藏、互動評論等。在該過程中,有些學(xué)生會瀏覽比較陌生的領(lǐng)域知識,而有些內(nèi)容要通過一定知識量和案例的引導(dǎo)才會促使學(xué)生更深入地學(xué)習(xí)。通過建立社交活動標(biāo)簽,可對不同專業(yè)的學(xué)生推送合理的學(xué)習(xí)資源,保證資源被學(xué)生最大化利用,使得投資回報率最大。該標(biāo)簽下多種不同屬性的敏感度代表大學(xué)生對學(xué)習(xí)平臺的敏感程度,也是典型的挖掘類標(biāo)簽。
學(xué)生標(biāo)簽分類示意圖如圖3所示。
3.2? ?學(xué)生個性化學(xué)習(xí)模塊
構(gòu)建學(xué)生學(xué)習(xí)個性化推薦模塊的核心任務(wù)之一是準(zhǔn)確分析學(xué)生的興趣、特長、潛能,用完備且準(zhǔn)確的屬性標(biāo)簽對學(xué)生學(xué)習(xí)情況進(jìn)行全覆蓋,從而極大促進(jìn)精準(zhǔn)學(xué)生個性化學(xué)習(xí)模塊推薦。根據(jù)數(shù)據(jù)源層抽取的數(shù)據(jù)并且結(jié)合已構(gòu)建的學(xué)習(xí)畫像,利用KNN與樸素貝葉斯模型形成推薦列表。根據(jù)已確立的標(biāo)簽存入數(shù)據(jù)訓(xùn)練樣本集,每條數(shù)據(jù)記錄都有其對應(yīng)的屬性及標(biāo)簽。當(dāng)輸入新的學(xué)生記錄時,此時該條數(shù)據(jù)不具備標(biāo)簽,將新數(shù)據(jù)中的樣本與該條記錄最相似的數(shù)據(jù)進(jìn)行比對,從而提取標(biāo)簽集,故可根據(jù)新建后的標(biāo)簽進(jìn)行聚類分析。提取學(xué)生學(xué)習(xí)時的特征即上述不同標(biāo)簽下的子屬性計算學(xué)生學(xué)習(xí)偏好與學(xué)習(xí)數(shù)據(jù)庫中的學(xué)習(xí)資源之間的相似度,再運(yùn)用KNN分類器,按照遠(yuǎn)近距離分配學(xué)習(xí)資源給不同的用戶群,形成學(xué)習(xí)資源的個性化推薦。針對學(xué)習(xí)資源推薦,分類的任務(wù)即為特定學(xué)生尋找合適的學(xué)習(xí)資源,用準(zhǔn)確率(Precision)和召回率(Recall)衡量推薦成效,準(zhǔn)確率表示學(xué)生對該項(xiàng)學(xué)習(xí)資源感興趣的概率,召回率為學(xué)生感興趣的資源被成功推薦的概率,準(zhǔn)確率和召回率值越大表示推薦效果越好。用F表示準(zhǔn)確率和召回率的調(diào)和平均值,其值越大表示推薦質(zhì)量越高。
具體計算模型如下:
上式中,表示成功推薦給學(xué)生S的有效學(xué)習(xí)資源數(shù)量,表示推薦學(xué)習(xí)資源數(shù)量,表示符合學(xué)生需求的推薦學(xué)習(xí)資源數(shù)量,Precision代表準(zhǔn)確率,Recall代表召回率。
召回步驟完成初篩,幫助分析學(xué)生學(xué)習(xí)興趣偏好,為進(jìn)入下一流程進(jìn)行粗排和精排做準(zhǔn)備。對學(xué)生學(xué)習(xí)、消費(fèi)、網(wǎng)絡(luò)使用及生活等行為數(shù)據(jù)進(jìn)行分析,完成打分,從而最終推斷出學(xué)生大致的學(xué)習(xí)風(fēng)格,達(dá)到為學(xué)生推薦個性化學(xué)習(xí)資源的目的。
3.3? ?問題預(yù)警模塊
根據(jù)已構(gòu)建的學(xué)習(xí)畫像,結(jié)合學(xué)生在校線上及線下統(tǒng)計數(shù)據(jù)建模,對學(xué)生課堂學(xué)習(xí)、上網(wǎng)信息、門禁記錄等結(jié)果進(jìn)行量化分析。運(yùn)用BP神經(jīng)網(wǎng)絡(luò)、RBF徑向基模型,輸入相應(yīng)向量訓(xùn)練網(wǎng)絡(luò)以達(dá)到局部逼近任意連續(xù)函數(shù)[5]??紤]到在訓(xùn)練過程中分布逐漸偏移變動降低收斂速度,為防止模型過分?jǐn)M合,故添加Batch Normalization層,為的是將輸入的學(xué)生成績數(shù)據(jù)數(shù)值進(jìn)行標(biāo)準(zhǔn)化,緩解后期DNN訓(xùn)練中的梯度消失問題,加快模型的訓(xùn)練速度,使輸出的特征圖均勻度提升,增大梯度,提升收斂度,讓模型趨于穩(wěn)定,從而根據(jù)學(xué)生個人屬性綜合趨勢對成績穩(wěn)定性和掛科率進(jìn)行預(yù)測。分析學(xué)生學(xué)習(xí)效率與掛科率、網(wǎng)絡(luò)使用、消費(fèi)情況及失聯(lián)記錄等之間的關(guān)系,進(jìn)而設(shè)立預(yù)警條件,達(dá)到預(yù)警目的。
3.4? ?輔助學(xué)校決策模塊
學(xué)生畫像的構(gòu)建,可重點(diǎn)結(jié)合學(xué)校管理實(shí)際需求,分析所關(guān)聯(lián)的學(xué)生數(shù)據(jù)??梢赃M(jìn)行問卷調(diào)查,從而完成描述性統(tǒng)計,并結(jié)合上文所構(gòu)建的學(xué)生學(xué)習(xí)畫像模型[6]進(jìn)行比對,直至提出最有利于學(xué)生的有關(guān)決策方案,為學(xué)校實(shí)現(xiàn)淺層干預(yù)與深層干預(yù)相結(jié)合的目標(biāo)提供支撐,使制度政策能更好地服務(wù)于學(xué)生。
4? ?結(jié)論(Conclusion)
構(gòu)建大學(xué)生學(xué)習(xí)畫像,建立合理有效的數(shù)據(jù)挖掘模型,根據(jù)模型輸出結(jié)果對學(xué)生進(jìn)行個性化指導(dǎo),具有一定的針對性和可操作性,并對改善學(xué)生學(xué)習(xí)效果、提高學(xué)生培養(yǎng)質(zhì)量、發(fā)現(xiàn)有潛質(zhì)的人才、提高學(xué)生綜合素質(zhì)具有重要的現(xiàn)實(shí)意義。大學(xué)生學(xué)習(xí)畫像為高校管理者、教師提供了參考,有助于引導(dǎo)學(xué)生全面發(fā)展并發(fā)揮特長,為經(jīng)濟(jì)社會輸送高質(zhì)量、專業(yè)能力強(qiáng)的人才[7]。
參考文獻(xiàn)(References)
[1] 錢愛娟,董笑菊,沈綺文,等.高校圖書館用戶畫像與行為可視化分析[J].圖書館雜志,2020,39(10):82-88.
[2] 魏孔鵬,谷洪彬,李嘯龍,等.學(xué)生綜合素質(zhì)評價的用戶畫像構(gòu)建研究[J].計算機(jī)時代,2020(03):96-98.
[3] 呂挫挫.智慧校園視域下高校用戶畫像探究[J].大眾標(biāo)準(zhǔn)化,2020(19):45-48.
[4] 楊光瑩,杜敏,楊東梅,等.基于校園行為數(shù)據(jù)分析的學(xué)生畫像系統(tǒng)初步構(gòu)建研究[J].教育教學(xué)論壇,2020(41):44-45.
[5] 張麗,呂康銀.智慧城市公共服務(wù)數(shù)據(jù)畫像及應(yīng)用模式研究[J].情報科學(xué),2020,38(10):61-67;89.
[6] 金岡增,李娜,鄭建兵,等.科研人員畫像系統(tǒng)設(shè)計與實(shí)現(xiàn)[J].軟件工程,2018,21(09):28;41-43.
[7] Ye Sun, Rongqian Chai. An Early-Warning Model for Online Learners Based on User Portrait[J]. Ingénierie des Systèmesd' Information, 2020, 25(4):26-43.
作者簡介:
陳? ? 會(1999-),男,本科生.研究領(lǐng)域:智慧校園.
余? ? 馨(2000-),女,本科生.研究領(lǐng)域:數(shù)據(jù)分析.
李琳琳(1999-),女,本科生.研究領(lǐng)域:信息經(jīng)濟(jì).
吳蘇徽(1998-),女,本科生.研究領(lǐng)域:數(shù)據(jù)分析.
蔣秀蓮(1968-),女,本科,高級工程師.研究領(lǐng)域:信息管理,信息經(jīng)濟(jì).