国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA的大學一卡通學生行為特征分析研究

2022-05-25 04:48馮健文
現(xiàn)代計算機 2022年6期
關(guān)鍵詞:一卡通軌跡語義

馮健文

(韓山師范學院教務(wù)處,潮州 521041)

0 引言

人工智能時代,通過挖掘信息系統(tǒng)中用戶的行為數(shù)據(jù),發(fā)現(xiàn)其蘊含的社會發(fā)展規(guī)律和趨勢成為可能。在物聯(lián)網(wǎng)技術(shù)應(yīng)用中,用戶行為數(shù)據(jù)為移動對象時空軌跡(spatio-temporal trajectories,STR)數(shù)據(jù),軌跡數(shù)據(jù)挖掘主要包括模式挖掘和語義分類兩種。模式挖掘側(cè)重軌跡路徑,研究成果較多,但不易解釋用戶行為。語義分類則同時關(guān)注路徑和語義,是新興的研究分支,受到廣泛關(guān)注。主要方法有動態(tài)貝葉斯網(wǎng)絡(luò)、隱馬兒可夫模型、條件隨機場、高斯混合模型、主題模型、聚類等。Nascimento等和Sun等提出了改進的隱馬兒可夫模型,處理人類活動認知。Santos等提出使用動態(tài)貝葉斯網(wǎng)絡(luò)作為分類器推理。狄利克雷分布模型(latent Dirichlet allocation,LDA)是重要的文檔分析模型,本質(zhì)上是一種貝葉斯網(wǎng)絡(luò),近年開始應(yīng)用于用戶特征提取和語義軌跡分類。起源于文本處理的LDA主題模型具有提取興趣主題的多樣性和簡單性、數(shù)據(jù)降維、異構(gòu)數(shù)據(jù)建模、語義歸納等優(yōu)點。張宏鑫等采用LDA主題模型從手機日志數(shù)據(jù)提取人群特征。Ferrari等應(yīng)用LDA模型從社交位置數(shù)據(jù)提取城市日?;顒幽J?。Chu等采用一種基于LDA主題模型的語義轉(zhuǎn)換方法,以出租車行駛軌跡為文檔,經(jīng)過的街道名字為單詞,映射GPS坐標為軌跡數(shù)據(jù),提取出租車行駛軌跡特征。蔡文學等通過LDA模型分析出租車軌跡得到熱門城市區(qū)域,有效解釋用戶行為。雖然現(xiàn)有的LDA模型軌跡分類應(yīng)用取得了較好效果,但是很少面向RFID軌跡數(shù)據(jù),非業(yè)務(wù)特征軌跡數(shù)據(jù)分析鮮見,因此相關(guān)研究需要更多探索。

本文以大學一卡通學生行為特征分析為案例,根據(jù)一卡通RFID應(yīng)用場景和數(shù)據(jù)特征,提出基于LDA的RFID數(shù)據(jù)軌跡框架,通過RFID應(yīng)用標簽的表示和分類方法、詞袋模型構(gòu)建、主題模型建立和聚類分析,最終提取學生群體特征知識,用于指導(dǎo)管理部門改進服務(wù)質(zhì)量。

1 基于LDA的學生行為特征挖掘框架

本文研究目的是基于一卡通RFID-SIR數(shù)據(jù)提取學生用戶群體特征知識,發(fā)現(xiàn)數(shù)據(jù)隱含的信息,對一卡通業(yè)務(wù)應(yīng)用服務(wù)改進提供建議。如圖1所示,研究基本流程為:①獲取一卡通RFID-SIR數(shù)據(jù)并生成語義軌跡數(shù)據(jù);②建立語義軌跡與LDA主題模型的關(guān)聯(lián),通過分析一卡通業(yè)務(wù)點特征來定義應(yīng)用類型標簽,該標簽作為單詞集,接著基于使用次數(shù)或交易金額等語義打分機制建立詞袋模型,語義軌跡作為文檔,利用LDA主題模型學習分析得到主題與應(yīng)用類型標簽的關(guān)聯(lián);③通過聚類分析得到主題特征用戶群體;④分析結(jié)果并提出業(yè)務(wù)改進建議。

圖1 學生行為特征挖掘框架

1.1 問題分析

為了挖掘一卡通學生用戶的行為習慣,需要把原始軌跡數(shù)據(jù)預(yù)處理,得到語義軌跡作為軌跡特征知識挖掘的數(shù)據(jù)源。原始數(shù)據(jù)來源于多個一卡通RFID業(yè)務(wù)應(yīng)用,存在數(shù)據(jù)格式、語義等差異。經(jīng)過數(shù)據(jù)清洗、整合、壓縮等校準操作,并根據(jù)業(yè)務(wù)應(yīng)用主題建立數(shù)據(jù)集市。一卡通用戶軌跡大多是單點軌跡,即軌跡中只包含單個業(yè)務(wù)點數(shù)據(jù),不同的軌跡間沒有明顯的關(guān)聯(lián)和約束,即無業(yè)務(wù)流程特征??刹捎眠^程發(fā)現(xiàn)(process discovery)技術(shù)結(jié)合時間閥值參數(shù)法,從數(shù)據(jù)集市中提取用戶的業(yè)務(wù)活動過程軌跡,即得到語義軌跡,其中不僅包含用戶在某個時間段內(nèi)的軌跡,還蘊含了用戶的活動特征。例如,以一天為時間閥值,可得到某學生語義軌跡:食堂A(7:30)—實驗室B(7:50)—圖書館C(10:00)—食堂B(12:00)—圖書館C(15:00)—熱水D(22:00)。

可以看到軌跡業(yè)務(wù)點是屬于某個業(yè)務(wù)應(yīng)用類型,如食堂屬于“餐飲類”。當把全部業(yè)務(wù)點分類到多個集合后,每一個集合可定義為一個主題。顯然每個學生的活動特征實際上就是多個主題的聚合模型。因此,需要建立語義軌跡與LDA主題模型的關(guān)聯(lián),通過LDA方法得到主題模型的種類,用于學生用戶群體聚類分析。

1.2 主題模型建立

要建立語義軌跡與LDA模型文本描述之間的映射關(guān)系,就需要通過RFID應(yīng)用領(lǐng)域“語義軌跡-主題-業(yè)務(wù)應(yīng)用類型標簽”到LDA“用戶-主題-單詞”三層貝葉斯模型的語義轉(zhuǎn)換,最后通過模型的生成實現(xiàn)軌跡特征知識的提取。定義一個學生用戶語義軌跡對應(yīng)一篇文檔,用戶軌跡中的業(yè)務(wù)應(yīng)用類型標簽對應(yīng)文檔中的單詞,全部學生用戶就形成語料庫,學生行為軌跡提取就轉(zhuǎn)為LDA方法從語料庫中提取主題模型。LDA主題模型可以幫助在聚類前對數(shù)據(jù)進行降維操作,把學生用戶軌跡中幾十個業(yè)務(wù)點提取為學生與主題的相關(guān)度。

1.2.1 建立應(yīng)用標簽的詞袋模型

在一卡通RFID應(yīng)用標簽對應(yīng)單詞后,進一步從RFID應(yīng)用業(yè)務(wù)名稱文本集合中提取出詞頻大于某個閥值的業(yè)務(wù)應(yīng)用名稱集合;主題采用主題重要度確定,即軌跡出現(xiàn)次數(shù);將語義軌跡看作文檔,軌跡中涉及多個RFID應(yīng)用主題區(qū)域,好比文檔包含多個主題,這樣將軌跡集合類比文檔集合,對其進行主題推斷,就可以得到多個主題區(qū)域,而這些主題區(qū)域通過應(yīng)用標簽來表示,所以反映了語義軌跡的特征知識。因此,使用一卡通應(yīng)用類型分類標簽作為單詞,建立每個學生用戶的詞袋模型,如表1所示。

表1 一卡通學生用戶應(yīng)用標簽詞袋模型

詞袋模型采用了業(yè)務(wù)點重要度來衡量,業(yè)務(wù)點重要度指應(yīng)用標簽單詞在某個語義軌跡中出現(xiàn)的次數(shù),次數(shù)越高說明該單詞越能代表該語義軌跡特征??紤]業(yè)務(wù)點太多,采用業(yè)務(wù)點類型與校區(qū)結(jié)合的方式定義應(yīng)用標簽類。采用單個業(yè)務(wù)點刷卡次數(shù)與LDA模型的詞頻對應(yīng),通過打分機制提高單詞的文檔代表性。一個業(yè)務(wù)點在所有主題中出現(xiàn)概率為1,設(shè)置一個閥值篩選主題中的業(yè)務(wù)點。

1.2.2 一卡通學生行為主題特征模型

在一卡通RFID應(yīng)用領(lǐng)域,根據(jù)LDA主題模型,得到公式(1):

每個軌跡與個主題的一個多項分布對應(yīng),每個主題又與個標簽的一個多項分布對應(yīng)。因此LDA模型求解如圖2所示,首先要求解與和參數(shù)相關(guān)的狄利克雷先驗分布參數(shù)和,然后推理出和參數(shù),最后使用Gibbs抽樣法求出軌跡在主題上的分布和主題在標簽上的分布,就能得到軌跡與標簽的分布。

圖2 LDA主題特征模型[5]

經(jīng)多次實驗,選取3個有實際代表意義的主題進行本文分析,分別為自習類、生活類、實驗類,每個主題下包括多個一卡通應(yīng)用分類標簽,如表2所示。每個學生用戶與每個主題都有相關(guān)度,如某學生主題相關(guān)度為:自習=0.7,生活=0.5,實驗=0.1,表明該學生有良好的自習學習習慣,可能是文科類專業(yè),使用校內(nèi)生活服務(wù)應(yīng)用頻次一般。

表2 一卡通學生用戶應(yīng)用主題構(gòu)成

1.3 特征聚類

在得到學生用戶語義軌跡與主題的相關(guān)度后,每個學生都可用3個應(yīng)用標簽維度向量來表示。采用主流的聚類算法如K-means將具有相近主題特征的用戶軌跡聚集,形成代表性學生一卡通用戶群體。本文實驗采集2萬名左右學生用戶一年數(shù)據(jù)、一卡通業(yè)務(wù)點38個,統(tǒng)計每個用戶和3個主題的相關(guān)度,采用K-means算法將學生聚類為4類主題用戶群體,其中心點如表3所示。

表3 一卡通學生用戶群體的特征分析

從表3可以看出,學生群體3用戶數(shù)最多,其行為特征是生活類相比其他主題較多,但總體上使用一卡通業(yè)務(wù)應(yīng)用不突出,也沒有自習行為。結(jié)合其他群體特征分析,從校內(nèi)生活服務(wù)頻率看,只有學生群體2的不足2000人,蘊含信息是學生對校內(nèi)餐飲、小賣部、熱水等生活類服務(wù)滿意度一般,這可能受該大學周邊外賣和超市、餐館林立的情況影響,說明后勤部門應(yīng)對生活服務(wù)類應(yīng)用進行調(diào)查,加強服務(wù)質(zhì)量。從自習行為看,只有群體1有自習習慣,蘊含信息可能是:一方面有自習習慣但沒有列入統(tǒng)計的學生可能在宿舍或不需要校園卡的場所學習;另一方面有一部分學生確實沒有良好的自習習慣,學生管理部門可進行相關(guān)的調(diào)查,在學風建設(shè)上開展有針對性的措施。

2 結(jié)語

本文以大學一卡通學生行為特征分析為案例,介紹從日常信息系統(tǒng)用戶原始數(shù)據(jù)中,經(jīng)過數(shù)據(jù)預(yù)處理、語義軌跡提取、行為主題建模,有效獲得一卡通學生行為群體特征知識,為大學管理部門加強一卡通應(yīng)用服務(wù)和學生管理、提升人才培養(yǎng)質(zhì)量提供幫助。研究發(fā)現(xiàn),軌跡數(shù)據(jù)挖掘必須附加語義分析才能增強研究的實際指導(dǎo)作用,其中數(shù)據(jù)預(yù)處理、主題類定義、聚類結(jié)果分析幾個環(huán)節(jié)值得關(guān)注,研究團隊應(yīng)引進具有業(yè)務(wù)應(yīng)用領(lǐng)域知識的專家,在上述幾個關(guān)鍵環(huán)節(jié)提供應(yīng)用知識。本研究會進一步將結(jié)果進行可視化,并把數(shù)據(jù)范圍擴大至5年以上,探索大數(shù)據(jù)下挖掘算法的效率和實用性。

猜你喜歡
一卡通軌跡語義
一卡通失卡招領(lǐng)系統(tǒng)設(shè)計
韓國語“容入-離析”關(guān)系表達及認知語義解釋
淺談求軌跡方程中的增解與漏解
無從知曉
捕捉物體運動軌跡
向心加速度學習一卡通