葛曉濱
(安徽財貿(mào)職業(yè)學院雪巖貿(mào)易學院,安徽 合肥 230601)
目前,全球?qū)W術(shù)界對用戶畫像有各不相同的定義。北京郵電大學經(jīng)濟管理學院亓叢、吳俊[1]提出了用戶畫像方法、工具,比較互聯(lián)網(wǎng)領(lǐng)域用戶畫像的主要應用場景、常用畫像方法;中國科學技術(shù)大學郭光明[2]基于社交網(wǎng)絡(luò)理論對用戶行為模式進行研究;中國科學技術(shù)大學馬超[3]提出:用戶畫像是推斷用戶特征的過程、手段和方法,他采用精確的標簽對基于用戶個性化信息實現(xiàn)一系列實際應用;武昌理工學院周鮮子[4]在大數(shù)據(jù)背景下,從用戶畫像建模技術(shù)出發(fā),分析了電商在大數(shù)據(jù)下是如何構(gòu)建用戶畫像的技術(shù);浙江大學楊潔[5]將研究中心聚焦在全景用戶畫像和模型預測上,實現(xiàn)企業(yè)的精細化運營。桂林理工大學姜建武等[6]在大數(shù)據(jù)理論基礎(chǔ)上提出了一種基于用戶畫像的智能信息推送方法;云南電信大數(shù)據(jù)運營中心劉光榕、任建濤[7]根據(jù)用戶訪問網(wǎng)絡(luò)偏好,形成了豐富的用戶網(wǎng)絡(luò)標簽和畫像,利用用戶畫像對用戶進行分類;成都信息工程大學統(tǒng)計學院曾鴻、吳蘇倪[8]構(gòu)建用戶畫像模型,描述企業(yè)用戶群體行為特征,實現(xiàn)精準營銷;首都經(jīng)濟貿(mào)易大學李映坤[9]從用戶畫像的用戶屬性、用戶流失、用戶行為三個主要方面進行了研究。
綜合以上的研究成果,本文在傳統(tǒng)用戶畫像的基礎(chǔ)上,以高等職業(yè)教育的學生為對象進行用戶畫像技術(shù)的研究,旨在通過這種畫像技術(shù)的研究,做到精準的學情分析,提升于高校學生管理工作的水平和精準度。
學生的用戶畫像是通過系統(tǒng)地收集與分析學生的學習、生活、消費行為等主要信息數(shù)據(jù),抽象出該學生在某個特定領(lǐng)域中的全貌。從而有助于學校管理者通過學生的用戶畫像識別和判斷學生在這個特定領(lǐng)域中的潛在或明確的特質(zhì)。
學生的用戶畫像一般是采用高校數(shù)據(jù)中心提供的標準化行為與內(nèi)容數(shù)據(jù),這些數(shù)據(jù)包括學生課程成績、教師的平時考評、圖書借閱情況、輔導員考評、校園一卡通消費等數(shù)據(jù),運用大數(shù)據(jù)分析手段,量化學生在規(guī)律性、努力程度、學習技能、經(jīng)濟狀況、社交關(guān)系等多維度的特性,揭示學生成長軌跡,基于預測模型對學生的學業(yè)成績、就業(yè)傾向、心理狀況等進行預測,為學校對學生進行個性化與精準化的教育管理與引導提供重要依據(jù)。
通常,一個學生基礎(chǔ)知識的掌握好壞可以影響到學生在相關(guān)課程中的成績。在學生畫像技術(shù)的實現(xiàn)上,我們借助高校數(shù)據(jù)中心整合的學生信息,基于矩陣分解的降維技術(shù),可以分析出學生對具體基礎(chǔ)知識的掌握程度,并獲得每門課程所含有的知識體系。基于這些信息,通過學生畫像不僅可以預測出每個學生在其他課程的得分,也可以預測出這個學生在其他課程的掛科可能性,而且為教師在課程教學中有針對性進行課程教學的調(diào)整提供了依據(jù)。
在學生畫像的算法上,以學生學習成績畫像為例,我們采用的設(shè)計思想是通過分析課程之間在知識體系上的相關(guān)性來進行相關(guān)的預測。比如某學生在以往課程中學習的科目Ⅰ成績不好,那么當他在修讀科目Ⅰ的延伸課程科目Ⅱ的時候,預警系統(tǒng)就會預警該學生的掛科可能性比較大,提示教育者及早發(fā)現(xiàn)問題并進行干預,盡可能避免掛科問題。因而,掛科預警實現(xiàn)了從后置性應急管理轉(zhuǎn)變?yōu)榍爸眯灶A警引導。在現(xiàn)實運作過程中,由于課程成績數(shù)據(jù)更新頻率低,掛科預警無法實時更新預測結(jié)果。為此,我們輔助疊加學生學習努力程度因子、生活行為習慣因子等,提升學生畫像系統(tǒng)的實時性。學生在校園內(nèi)的行為習慣的變化是可以實時監(jiān)測的,對于預測成績的變化非常有價值,在學生學習努力程度因子上我們以到課率、晚自習率、出入圖書館的次數(shù)度量等度量;在生活行為習慣因子上,我們以生活規(guī)律性(包括學生出入宿舍、吃早飯、洗澡等行為習慣數(shù)據(jù))、在教學樓打水次數(shù)等對學生進行刻畫學生努力程度。最后,我們基于努力程度、生活規(guī)律性、基礎(chǔ)知識以及興趣愛好這些特性,設(shè)計多任務(wù)遷移學習算法來對學生未來成績進行預測。該算法不僅通過多任務(wù)特性考慮了特征相關(guān)性在學院之間的差異性,而且還通過遷移學習特點考慮了不同學期之間相關(guān)性的變化。得出學生的成績預測分析,能很好地反映出學生成績的未來走勢。
學生畫像的基礎(chǔ)在于標簽的構(gòu)建。標簽應是對學生的高度精煉的特征標識。根據(jù)高校學生的特質(zhì),我們在標簽的設(shè)計思路可以分別采用基本標簽和擴展標簽?;緲撕炇菍W生基本情況和特征的描述,包括學生的基礎(chǔ)特征、學習特征、生活特征、環(huán)境特征等;擴展標簽在基本標簽基礎(chǔ)上建立的學生深層次特征的描述標簽,包括偏好、思維、愛好、行為、人際交往等。這些標簽可以再進行一定程度的細分,形成多級標簽。如表1和表2所示。
表1 學生畫像的數(shù)據(jù)化基本標簽
表2 學生畫像的數(shù)據(jù)化擴展標簽
在標簽化的基礎(chǔ)上,我們實現(xiàn)對學生的用戶畫像技術(shù)的實施,按照用戶畫像的常規(guī)方法,我們通過原始數(shù)據(jù)采集、標準化清洗、建立數(shù)據(jù)模型和算法、數(shù)據(jù)運算分析、可視化呈現(xiàn)等步驟實現(xiàn)對學生的畫像。主要的技術(shù)流程如圖1所示。
圖1 學生畫像的技術(shù)主要流程
第一步:原始數(shù)據(jù)采集
依托數(shù)字校園的基礎(chǔ),通過物聯(lián)網(wǎng)和大數(shù)據(jù)系統(tǒng),我們可以獲得豐富的學生數(shù)據(jù)資源,這些數(shù)據(jù)是構(gòu)建學生畫像的核心依據(jù)。我們在這些原始數(shù)據(jù)的基礎(chǔ)上,采用標簽分類技術(shù),依據(jù)畫像的需要,對數(shù)據(jù)進行分類篩選。(如圖2)
數(shù)字校園
圖2 原始數(shù)據(jù)采集
第二步:標準化清洗
在標簽化的數(shù)據(jù)源中,因為數(shù)據(jù)采集的環(huán)境或其他各種原因,會導致一部分無用、冗余、異常等狀況的“雜質(zhì)”數(shù)據(jù)源,比如成績?nèi)笔А⑿詣e缺失,年齡異常等雜質(zhì)數(shù)據(jù),需要采用一定的數(shù)據(jù)規(guī)則通過計算機或計算機輔助人工進行篩選,將符合學生實際情況的數(shù)據(jù)留存,剔除那些無用、冗余、異常等狀況的雜質(zhì)數(shù)據(jù),這就是標準化清洗。
第三步:數(shù)據(jù)模型和算法
在獲取到較為可靠的數(shù)據(jù)源基礎(chǔ)上,根據(jù)學生畫像的目標,對數(shù)據(jù)建立加工模型,采用具備優(yōu)化能力的算法,提煉出學生畫像的關(guān)鍵要素,實現(xiàn)對數(shù)據(jù)的可操作性。
對學生的畫像進行刻畫的常見方法有多種:(1)普通的統(tǒng)計法;(2)貝葉斯網(wǎng)絡(luò)法;(3)神經(jīng)網(wǎng)絡(luò)法;(4)主題模型法;(5)數(shù)據(jù)挖掘的聚類分析法等。
鑒于用戶畫像的表示方式、關(guān)注點各不相同,用戶畫像建模方法可分為以下幾大類,即面向用戶行為的用戶畫像模型、基于本體的用戶畫像模型、融合用戶興趣的畫像模型等。
在學生用戶畫像的數(shù)據(jù)模型和算法上:
(1)利用校園一卡通和學生本體屬性的模型來預測經(jīng)濟困難學生的狀況,也可以作為學生行為畫像的重要數(shù)據(jù)來源;
(2)利用圖書館管理系統(tǒng)的信息統(tǒng)計學生的閱讀時間和訪問行為等來構(gòu)建了學生閱讀行為畫像和檔案信息,同時基于學生閱讀行為畫像可以用來預測學生的學習情況和成績等;
(3)通過收集學生的行為歷史數(shù)據(jù),包括圖書館借閱信息,學生以前歷史成績信息、以及通過課程歷史成績信息確定難易程度等,來進行多元回歸分析,構(gòu)建了一個貝葉斯網(wǎng)絡(luò)模型,預測學生在某門課程的能否通過概率;
(4)利用校園網(wǎng)門戶網(wǎng)站的數(shù)據(jù)信息分析學生活動規(guī)律、興趣偏好等幾方面信息構(gòu)建學生狀態(tài)畫像。
第四步:數(shù)據(jù)運算分析
在數(shù)據(jù)模型基礎(chǔ)上,依據(jù)學生的標簽,從基本標簽和擴展標簽兩個方面進行運算分析,得出學生畫像的基態(tài)數(shù)據(jù)。
第五步:可視化呈現(xiàn)
在學生畫像的基態(tài)數(shù)據(jù)基礎(chǔ)上,需要采用直觀的方式,呈現(xiàn)目標結(jié)果。包括應用各種圖形(餅圖、柱狀圖、點狀圖)以及原態(tài)標注畫像直觀地呈現(xiàn)學生畫像效果。
在這個技術(shù)流程環(huán)節(jié)中,主要的技術(shù)核心在于學生基礎(chǔ)信息收集、學生行為建模、學生畫像三個步驟,如圖3所示。
圖3 學生畫像的主要技術(shù)環(huán)節(jié)
對學生用戶畫像的技術(shù)實踐,需要結(jié)合學校管理的實際需求,分析出與需求關(guān)聯(lián)的學生數(shù)據(jù)實體,以數(shù)據(jù)實體為中心規(guī)約數(shù)據(jù)維度類型和關(guān)聯(lián)關(guān)系,形成符合學校管理實際需要的建模體系。在維度分解上,需要以學生、課程等數(shù)據(jù)實體為中心,進行數(shù)據(jù)維度分解和列舉。根據(jù)相關(guān)性原則,選取和學生畫像目的需求相關(guān)的數(shù)據(jù)維度,避免產(chǎn)生過多無用數(shù)據(jù)干擾分析過程。在數(shù)據(jù)源的獲取以及數(shù)據(jù)整理上,學生畫像的數(shù)據(jù)來源于學校的數(shù)據(jù)系統(tǒng)日常積累的各類數(shù)據(jù)系統(tǒng),技術(shù)上一般通過Sqoop導入HDFS,也可以用代碼來實現(xiàn),比如Spark的JDBC連接校園數(shù)據(jù)庫進行數(shù)據(jù)的Cache。還有一種方式,可以通過將數(shù)據(jù)寫入本地文件,然后通過Spark SQL的Load或者Hive的Export等方式導入 HDFS。通過Hive編寫UDF或者HiveQL根據(jù)業(yè)務(wù)邏輯拼接ETL,使用戶對應上不同的用戶標簽數(shù)據(jù),生成相應的源表數(shù)據(jù),以便于后續(xù)用戶畫像系統(tǒng),通過不同的規(guī)則進行標簽的生成。在學生畫像計算的框架上,一般選用Spark以及RHadoop進行,Spark的用途一是對于數(shù)據(jù)處理與上層應用所指定的規(guī)則的數(shù)據(jù)篩選過濾;另一個是服務(wù)于上層應用的Spark SQL。RHadoop的應用主要是利用協(xié)同過濾算法等各種推薦算法對數(shù)據(jù)進行各方面評分。
下面通過兩個由表及里的代表性技術(shù)實例研究,說明學生畫像的技術(shù)實現(xiàn)。限于篇幅,本文不對標簽技術(shù)及數(shù)據(jù)呈現(xiàn)技術(shù)做深入探討。
以某校的學生畫像為例,首先對相關(guān)數(shù)據(jù)源中的數(shù)據(jù)信息進行收集整理,主要來自于下面表3中的數(shù)據(jù)庫系統(tǒng)。這些數(shù)據(jù)庫系統(tǒng)中的信息,我們側(cè)重點在于通過數(shù)據(jù)分析研究得出學生畫像。
表3 來自校園內(nèi)部不同系統(tǒng)的原始數(shù)據(jù)量
根據(jù)原始數(shù)據(jù),我們對學生畫像定義的標簽信息包括:學生基本信息、學習用功度、成績狀況、生活規(guī)律性、興趣愛好等畫像的信息,如圖4所示。
圖4 學生張軍的畫像信息
這些信息的具體表達如下:
學生基本信息:姓名、性別、年齡、……;
學習用功度:刻苦、一般、懶散;
成績狀況:優(yōu)秀、良好、一般、差;
生活規(guī)律性:早起早睡、晚睡晚起、正常規(guī)律、沒有規(guī)律;
興趣愛好:科技、運動、文藝、娛樂、時尚、游戲、旅游、音樂、其它。
畫像流程:
1、從教務(wù)數(shù)據(jù)庫中獲取基本信息標簽。這個標簽的信息不需要太復雜的操作或計算,只是簡單直接提取相關(guān)信息。
2、從圖書管理系統(tǒng)中獲取用功度信息。用功度信息一般是主觀性比較大的信息,我們從學生停留在圖書館學習的時間、借閱上課相關(guān)書籍的次數(shù)和人為問卷(輔導員或第三者填寫問卷)等數(shù)據(jù)進行評價。
3、從網(wǎng)絡(luò)中心系統(tǒng)和校園卡的用餐信息中獲取生活規(guī)律性信息。規(guī)律性的四類信息:早起早睡、晚睡晚起、正常規(guī)律、沒有規(guī)律(其它三項中的時間段占比不超過60%),如表4分析。
表4 生活規(guī)律性標簽信息
4、從教務(wù)數(shù)據(jù)庫中獲取學生學習成績狀況信息。通過學生過去學習過的課程考試成績和學分績點來判斷學生的成績狀況。
5、從圖書管理系統(tǒng)和網(wǎng)絡(luò)中心系統(tǒng)中獲取學生的興趣愛好信息。提取比率最高的相關(guān)興趣關(guān)鍵詞共八大類:科技、運動、文藝、娛樂、時尚、游戲、旅游、音樂、其它。
對上述信息整合,可以生成學生初步狀態(tài)信息畫像。
學生成績與多重要素相關(guān),從數(shù)字校園可以獲取多種學生的數(shù)據(jù)。在具體的處理環(huán)節(jié)上,我們一般把這些數(shù)據(jù)劃分直接相關(guān)數(shù)據(jù)和間接相關(guān)數(shù)據(jù)。
直接相關(guān)數(shù)據(jù)是學生直接的學習狀態(tài)數(shù)據(jù),包括學生學習狀態(tài)、以往的考試成績、對基礎(chǔ)知識掌握程度等。學生畫像技術(shù)可以借助以往課程成績信息,分析學生對具體基礎(chǔ)知識的掌握程度。基于這些信息,可以預測每個學生在課程中掛科的可能性。
間接相關(guān)數(shù)據(jù)是學生的學習和生活狀態(tài)數(shù)據(jù)。教育學者普遍認為,良好的行為習慣與學習成績是呈正相關(guān)的。通過采集學生在校內(nèi)行為,并將這些行為轉(zhuǎn)化為可存儲量化的標簽化數(shù)據(jù),這些行為數(shù)據(jù)包括:學生就寢時間、就餐規(guī)律性、校園購物頻次及金額、打水規(guī)律、圖書館進出頻次和停留時間、圖書借閱數(shù)量和閱讀時間、宿舍門禁進出規(guī)律等。我們對這些數(shù)據(jù)分析就能發(fā)現(xiàn),學習好的學生與一般學生在學習生活軌跡上有明顯的不同。
通過貝葉斯網(wǎng)絡(luò)構(gòu)建的學生成績預警模型,依據(jù)直接相關(guān)數(shù)據(jù)和間接相關(guān)數(shù)據(jù),可以預警學習狀態(tài)不佳,或者個體的自律與自控能力較差的學生。學??梢杂嗅槍π缘蒯槍@些學生進行輔導和溝通,以提高學生的成績。圖5是數(shù)據(jù)結(jié)構(gòu)課程成績預測模型的貝葉斯網(wǎng)絡(luò)圖。
圖5 數(shù)據(jù)結(jié)構(gòu)課程成績預測模型的貝葉斯網(wǎng)絡(luò)圖
利用貝葉斯網(wǎng)絡(luò),可以進行推理,對學生成績預警。在貝葉斯網(wǎng)絡(luò)中,根據(jù)常見的變量定義,分為:
●證據(jù)變量集E={E1,E2,…,Em}— 特定事件e
●查詢變量X
●非證據(jù)變量集—Y隱變量(Hidden variable)={Y1,Y2,…,Yn}
●全部變量的集合U={x}∪E∪Y
貝葉斯推理即在一組證據(jù)變量Ei∈E={E1,E2,…,Em}時,推理計算查詢變量的后驗概率(條件概率)分布。即計算在特定事跡e給點的時候,X的后驗概率(即條件概率)分布 P(X∣e)。
在本例的貝葉斯網(wǎng)絡(luò)中,我們首先統(tǒng)計計算出借閱圖書相關(guān)性BR、學習用功度LH的數(shù)據(jù)信息,而先導課程成績OBP和學習成績狀況L則從學生個人畫像標簽中直接獲得數(shù)據(jù)信息。那么根據(jù)貝葉斯定理有:
P(CP|BR,LH,OBP,L)*[P(BR)*P(LH)*P(OBP)*P(L)]
=P(BR|CP)*P(LH|CP)*P(OBP|CP)*P(L|CP)*P(CP)
在上述取得數(shù)據(jù)過程中,需要對相關(guān)數(shù)據(jù)和課程通過的數(shù)據(jù)進行歸一化。根據(jù)對相關(guān)歷史數(shù)據(jù)統(tǒng)計獲得如下的數(shù)據(jù)信息。具體見表5-表10。
表5 數(shù)據(jù)結(jié)構(gòu)(不)通過率表
表6 數(shù)據(jù)結(jié)構(gòu)(不)通過情況下的借閱圖書相關(guān)性概率表
表7 數(shù)據(jù)結(jié)構(gòu)(不)通過情況下學習用功度概率表
表8 數(shù)據(jù)結(jié)構(gòu)(不)通過情況下學習成績狀況概率表
表9 數(shù)據(jù)結(jié)構(gòu)(不)通過情況下先導課程C語言(不)通過概率表
表10 三名學生的后驗概率示例數(shù)據(jù)表
在對數(shù)據(jù)信息進行分析后,我們發(fā)現(xiàn):學生A數(shù)據(jù)結(jié)構(gòu)課程通過概率是不通過概率的1422倍,學生B的課程通過概率是不通過概率的79倍,而學生C的不通過概率是通過概率的4.5倍。
用戶畫像技術(shù)是一種較為復雜的應用技術(shù),而采用用戶畫像技術(shù)對學生進行精準分析的探索也面臨著諸多的難點和挑戰(zhàn)。本文通過學生畫像初始技術(shù)、成績預警技術(shù)等重點技術(shù)的分析,試圖解析這一技術(shù)的實施和應用要點。但是這種探索和嘗試也存在數(shù)據(jù)的分析精度不夠等問題,這是我們未來需要努力的方向。但我們也同時看到基于數(shù)字化校園的寬域、多載荷數(shù)據(jù)為構(gòu)建有價值的大數(shù)據(jù)應用提供了良好機遇和寬廣的應用空間,這為我們采用畫像技術(shù)為學校的管理者切實做好學生管理工作提供有力的環(huán)境支持。未來,這一領(lǐng)域有更加廣泛的應用空間及價值發(fā)現(xiàn)。