国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用戶序列行為分析研究與應用綜述

2018-10-10 03:25:08陳恩紅陳玉瑩
安徽大學學報(自然科學版) 2018年5期
關(guān)鍵詞:貝葉斯社交建模

陳恩紅,陳玉瑩,潘 鎮(zhèn),李 徵

(中國科學技術(shù)大學 計算機科學與技術(shù)學院 大數(shù)據(jù)分析與應用安徽省重點實驗室,安徽 合肥 230027)

近幾十年來,伴隨著整個社會對移動互聯(lián)網(wǎng)的廣泛接受,用戶產(chǎn)生的數(shù)據(jù)呈現(xiàn)出爆炸式增長[1],如新浪的日活微博超過1.34億,Twitter的總用戶量已經(jīng)超過5億.與此同時,人們利用信息技術(shù)進行生產(chǎn)和搜集數(shù)據(jù)的能力也大幅度提高[2].遍布各個行業(yè)的海量數(shù)據(jù)包含大量和用戶相關(guān)的信息,利用機器學習、數(shù)據(jù)挖掘的建模方法可以對用戶的行為數(shù)據(jù)進行深度分析,挖掘出用戶行為數(shù)據(jù)背后隱藏的興趣愛好、消費傾向,為企業(yè)在市場競爭中留住已有用戶、吸引潛在用戶提供重要的技術(shù)支撐.因此,用戶行為分析成為工業(yè)界和學術(shù)界廣泛關(guān)注的課題[3-4].

在現(xiàn)實世界中,用戶在很多場景中的行為是序列化的,很多信息呈現(xiàn)序列特征[5-6],這種序列數(shù)據(jù)在用戶行為分析中也得到了極大的體現(xiàn).例如:現(xiàn)代電商平臺的用戶瀏覽購買數(shù)據(jù)包含了長期和短期兩種不同模式的興趣愛好[7-8];基于社交媒體的微博數(shù)據(jù)往往是以時間線的形式呈現(xiàn),用戶在不同時刻產(chǎn)生的文本等內(nèi)容往往在主題和情感上各不相同[9];基于在線學習平臺的學生數(shù)據(jù)往往以周期形式變化,學生在不同學習階段的學習內(nèi)容和知識水平也會各不相同[10].因此,序列信息成為用戶行為分析中十分重要的影響因素.圍繞該領(lǐng)域的相關(guān)研究中,一個主要的挑戰(zhàn)就是如何分析利用用戶序列行為數(shù)據(jù),更加精準地對用戶序列行為進行建模并應用于各個行業(yè)的實際場景.

序列模式挖掘最早是由Agrawal等[11]在1995年針對超市購物籃數(shù)據(jù)的分析中提出的.序列模式挖掘的目標是要找出序列數(shù)據(jù)庫中所有超過最小支持度閾值的序列模式.除了購物籃數(shù)據(jù),序列模式挖掘還有著廣泛的應用領(lǐng)域,如商業(yè)組織可以利用序列模式挖掘研究用戶購買行為模式特征和用戶網(wǎng)絡訪問模式.序列模式挖掘與關(guān)聯(lián)規(guī)則挖掘在很多方面是相似的, 但序列模式挖掘更關(guān)心數(shù)據(jù)之間順序的關(guān)聯(lián)性.最早的序列模式挖掘算法大多基于關(guān)聯(lián)規(guī)則挖掘算法Apriori[11].近些年來,在序列模式挖掘的基礎上,人們提出了很多基于機器學習、數(shù)據(jù)挖掘技術(shù)的序列建模方法,如張量分解[12-13]、隱馬爾科夫[14]、動態(tài)貝葉斯網(wǎng)[15]和循環(huán)神經(jīng)網(wǎng)絡[16].結(jié)合各個領(lǐng)域數(shù)據(jù)的獨有特征,用戶序列行為分析的研究與應用在各個領(lǐng)域大放異彩.

論文對近年來用戶序列行為分析的研究與應用進行綜述.首先,詳細闡述序列數(shù)據(jù)的格式和特征,以及用戶序列行為分析的各類任務;其次,從基于分解的模型、貝葉斯模型、深度學習模型3個方面梳理用戶序列行為分析技術(shù)的研究現(xiàn)狀;然后,從社交網(wǎng)絡、推薦系統(tǒng)、智慧教育、智慧交通4個領(lǐng)域列舉了用戶序列行為分析的實際應用場景;最后,從建模技術(shù)和應用價值兩個方向?qū)τ脩粜蛄行袨榉治龅奈磥戆l(fā)展趨勢進行探討和展望.

1 序列數(shù)據(jù)特征與問題定義

用戶的行為往往受用戶興趣、時間、地理位置、社交好友等多種因素的影響.其中,序列數(shù)據(jù)往往展現(xiàn)了用戶行為變化的規(guī)律,其數(shù)據(jù)格式在不同領(lǐng)域具有獨特的數(shù)據(jù)特征和形式.該章節(jié)首先總結(jié)了用戶序列行為數(shù)據(jù)的幾種主要特性,其次闡述了基于這些時序數(shù)據(jù)的幾類數(shù)據(jù)挖掘任務.

1.1 序列行為數(shù)據(jù)特征

用戶序列行為數(shù)據(jù)可以表示為一個有限集{(x1,y1),(x2,y2),…,(xn,yn)}.例如,當某一個用戶瀏覽購物網(wǎng)站時,產(chǎn)生的序列行為可表示為

{(a,click),(b,click),(a,cart),(b,collect),(b,buy),…,(f,click),(f,buy)},

其中:a,b,f代表不同商品;click,cart,collect,buy分別代表點擊、加購物車、收藏、購買行為.

時間序列是序列的一種特殊形式,當xi為時間數(shù)據(jù)并且x2-x1=x3-x2=…=xn-xn-1時,這個序列是一個時間序列(time series).時間序列在近幾十年被廣泛地研究,在表示與索引[17,19]、相似度衡量[20-22]、分割[23-26]、可視化[27-30]、模式發(fā)現(xiàn)與聚類[31-35]、分類[36-37]、規(guī)則發(fā)現(xiàn)[38]和摘要[39]等研究方向上都有大量研究成果.由于篇幅所限,論文略過時間序列的經(jīng)典算法,而著重介紹近些年來在用戶序列行為上使用的技術(shù)和應用場景.

用戶的序列行為數(shù)據(jù)并不僅僅是具有時間信息的數(shù)據(jù),用戶在長期或者短期的行為往往有一定的規(guī)律和模式,按照數(shù)據(jù)變化的規(guī)律將用戶序列行為數(shù)據(jù)分為以下4種類別:

趨勢(長期)變化:它用于反映用戶在一段時間內(nèi)的行為規(guī)律,通常可用于挖掘用戶長期行為數(shù)據(jù)的共性以及未來趨勢的預測,如根據(jù)用戶的在線時長或者行為記錄,預測用戶的流失率[40]和潛在的興趣[41].

序列(短期)變化:它用于反映用戶在短時間內(nèi)頻繁進行的一系列操作,這類數(shù)據(jù)往往更能反映用戶當前時刻的主要意圖[7],對用戶建模的在線實時更新起到了極其重要的作用.

周期性變化:它反映的是每間隔一段時間后,用戶會呈現(xiàn)相似的狀態(tài).如基于在線學習輔導系統(tǒng)的學生行為數(shù)據(jù),因為學生在一段時間內(nèi)可能會集中學習某個章節(jié)相關(guān)的課程,不同時間段內(nèi),學生所需要學習的課程內(nèi)容,以及對應知識水平往往會有一定的差異[10].

隨機性(異常)變化:它反映的是隨機或者特定事件引起的零星時序變化.如雙十一期間用戶指數(shù)級增長的消費記錄,某個熱點新聞造成的用戶微博大量轉(zhuǎn)發(fā)[42]等.該類數(shù)據(jù)對于特定時間或者事件所引發(fā)的用戶行為的分析十分重要.

1.2 序列分析任務

針對序列數(shù)據(jù)的特性,一系列的數(shù)據(jù)挖掘任務在不同的場景下展開,這些任務可以分為以下幾類:預測、分類、聚類、搜索與檢索、模式發(fā)現(xiàn).在該節(jié)中,將提供關(guān)于這些任務更詳細的描述.

預測任務:序列預測任務通常是基于先前的序列數(shù)據(jù)預測未來可能的取值,為了做到這一點,需要建立一個對序列敏感的預測模型[43],模型的輸出隨序列的變化動態(tài)更新.實際應用中有很多序列預測需求,如基于學生學習數(shù)據(jù)的成績排名預測[44]、基于用戶瀏覽記錄的商品推薦[7-8,16]等.

分類任務:在序列分類任務中,呈現(xiàn)給系統(tǒng)的每個序列被假定為屬于單個或者多個類別,目標是自動確定給定輸入序列的對應類別[45-46].其主要特性在于:序列內(nèi)部是有序的,并且這種序列性對于正確分類的影響不可忽視.如基于用戶評論的情感分類任務,一條用戶的評論信息可以看成一條文本序列,而文本內(nèi)部每個詞是有序的,這種順序性對于正確區(qū)分用戶的情感十分必要[47].

聚類任務:序列的聚類是基于序列集合的相似性對它們進行分組.聚類對序列數(shù)據(jù)特別敏感,因為它本身潛在的趨勢特性,有助于聚類算法快速捕獲數(shù)據(jù)集中的結(jié)構(gòu)信息.如基于用戶的網(wǎng)絡活動日志,可以對用戶進行聚類和分組以展示不同的導航模式[48].在金融數(shù)據(jù)中,它有助于挖掘具有相似價格變動趨勢的股票,從而對用戶的投資風險進行評估[49].

搜索與檢索任務:搜索與檢索任務是序列數(shù)據(jù)挖掘中一項重要的任務,其核心思想在于從大量的序列文檔中快速有效地定位子序列(通常指查詢),或者判斷查詢和待搜索文本的序列相似性匹配[50].

模式發(fā)現(xiàn)任務:基于序列數(shù)據(jù)的模式發(fā)現(xiàn)任務是將排序信息合并到模式發(fā)現(xiàn)中,其與基礎的頻繁模式挖掘的區(qū)別在于,每一個事務都有對應的時間戳,用戶的一次交易行為包含一系列的事務集合,事務與事務之間具有時間先后順序[51].

2 用戶序列行為分析技術(shù)

該章節(jié)將總結(jié)近年來用戶序列行為分析的三種主要技術(shù)方案,即基于張量分解的模型、貝葉斯模型和深度學習模型,并著重闡述如何將序列信息融合到建模過程中.

2.1 基于張量分解的模型

概率矩陣分解模型[52-53](probabilistic matrix factorization, 簡稱PMF)因其簡單高效的特性被廣泛應用于各類得分預測任務中,特別是在基于協(xié)同過濾的推薦系統(tǒng)中.其特點在于通過隱含特征來聯(lián)系用戶和物品,將“用戶-項目”評分矩陣R分解為維度為D的“用戶-隱含特征”矩陣U和“物品-隱含特征”矩陣V,有

(1)

然而,傳統(tǒng)的各類矩陣分解模型往往基于一個靜態(tài)的假設,并不能直接應用到時間序列數(shù)據(jù),因此,近些年來,研究者們基于矩陣分解提出了各種改進以應用于時間序列數(shù)據(jù).一個最直接的想法便是增加時間的維度T,從2維的矩陣轉(zhuǎn)化為3維的張量,有

(2)

張量分解模型被廣泛應用于各類時序預測任務中.如圖1所示,張量分解[11-12]將“用戶-項目-時間”評分張量分解為“用戶-隱含特征”矩陣U、“物品-隱含特征”矩陣V和“時間-隱含特征”矩陣T,由于加入了時間的特征矩陣,不同時刻的用戶-項目評分大不相同.

圖1 張量CP分解

Chua等[54]認為時間因素主要體現(xiàn)在用戶的序列行為上,即用戶在不同時刻的隱含特征矩陣是在上一時刻的基礎上不斷變化的,基于以上的分析,他們提出了動態(tài)矩陣分解模型(dynamic matrix factorization, 簡稱DMF)為

(3)

此外,也有學者嘗試加入一些外部的先驗知識實現(xiàn)基于矩陣分解的動態(tài)建模.Wu等[55]認為用戶在不同時刻的消費偏好受到用戶當前時刻的自身偏好,以及用戶當前社交關(guān)系好友偏好的影響.其將社交學理論和用戶的時序行為融合到概率矩陣分解模型中,最后模型將得到用戶在不同時刻的購物偏好,以及用戶不同時刻社交關(guān)系的構(gòu)建.Koren等[56]認為每個物品的受歡迎程度會隨著時間變化而改變,用戶也會隨著時間改變他們的評價標準.故作者在傳統(tǒng)的矩陣分解中加入物品和用戶個性化的參數(shù),表示用品的受歡迎程度以及用戶的評分標準,而這些參數(shù)都是跟時間相關(guān)的.

2.2 貝葉斯模型

貝葉斯網(wǎng)絡是一個有向無環(huán)圖(directed acyclic graph, 簡稱DAG),它反映了一系列變量間的概率依存關(guān)系,沒有考慮時間因素對變量的影響.而沿時間軸變化的貝葉斯網(wǎng)絡即構(gòu)成動態(tài)貝葉斯網(wǎng)絡,如圖2所示.動態(tài)貝葉斯網(wǎng)[57]既能夠表征變量之間的概率依存關(guān)系,又能描述這一系列變量隨時間變化的情況,是貝葉斯網(wǎng)絡在時間變化過程上的擴展.因此,動態(tài)貝葉斯網(wǎng)被廣泛應用于用戶序列行為分析的建模[15,57-59].文獻[57-58]將動態(tài)貝葉斯網(wǎng)絡應用于學生建模,評估學生在學習過程中的認知水平.Chapelle等[15]利用動態(tài)貝葉斯網(wǎng)絡為用戶提供更加精準的網(wǎng)絡搜索排名,移動用戶的行為和地理位置分析也同樣適用[59].

圖2 動態(tài)貝葉斯網(wǎng)絡示意圖

此外,隱馬爾科夫模型(hidden Markov model, 簡稱HMM)是一種特殊的貝葉斯網(wǎng)絡,其作為一種有效序列模型也在用戶序列行為分析中得到了廣泛的應用[60-66]. HMM的基本模型如圖3所示,其最基本的假設即當前狀態(tài)yt只與前一個狀態(tài)yt-1有關(guān),這種序列性描述了由一個隱藏的馬爾科夫鏈隨機生成不可觀測的狀態(tài)隨機序列{xt-2,xt-1,xt},再由各個狀態(tài)生成一個觀測而產(chǎn)生觀測隨機序列{yt-2,yt-1,yt}的過程.而現(xiàn)實生活中,大量場景下的序列數(shù)據(jù)都符合隱馬爾科夫的這種基本假設. Dias等[60]利用隱馬爾科夫模型實現(xiàn)了對金融時間序列數(shù)據(jù)的聚類;文獻[61-64]是隱馬爾科夫模型在追蹤學生認知水平領(lǐng)域的一系列擴展;文獻[65-66]將隱馬爾科夫模型成功應用于推薦系統(tǒng).

圖3 隱馬爾科夫模型示意圖

2.3 深度學習模型

隨著深度學習模型在自然語言處理(natural language processing, 簡稱NLP)等領(lǐng)域序列分析上取得了巨大成功,越來越多的研究人員開始關(guān)注深度學習模型,并使用深度學習方法對行為序列數(shù)據(jù)進行處理,從中挖掘行為模式,分析序列關(guān)系.例如:Zhou等[67]提出了一種基于注意力網(wǎng)絡模型用于建模用戶的行為從而輔助用戶個性化推薦過程中;Zheng等[45-46,68]利用多通道的卷積神經(jīng)網(wǎng)絡實現(xiàn)對時間序列的分類.事實上,用戶行為中存在大量復雜的關(guān)聯(lián),這種關(guān)聯(lián)往往是非線性的。深度學習模型能夠較好地學習和構(gòu)建輸入特征之間非線性的復雜關(guān)系,因此,深度學習模型可以很好地捕捉用戶行為上下文關(guān)系,并對序列行為進行有效學習.因此,深度學習模型可以很好地捕捉用戶行為上下文關(guān)系,并對行為序列進行有效學習.

在深度學習模型中,循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network, 簡稱RNN)是一種常見的序列模型.循環(huán)神經(jīng)網(wǎng)絡通過引入定向循環(huán)來處理序列數(shù)據(jù)的前后關(guān)聯(lián),網(wǎng)絡會對前面的信息進行記憶并應用于當前輸出的計算中.如圖4所示,在某一時刻t,隱藏層的輸入不僅包括輸入層xt,還包括上一時刻隱藏層的輸出ht-1,這樣網(wǎng)絡的每一步輸出ot都會和序列前列的輸入相關(guān).循環(huán)神經(jīng)網(wǎng)絡的這種特性對序列數(shù)據(jù)的動態(tài)建模有著十分明顯的優(yōu)勢,研究人員利用循環(huán)神經(jīng)網(wǎng)絡的這種特性演化出了兩種變種,即長短期記憶網(wǎng)絡(long short-term memory, 簡稱LSTM)與門循環(huán)單元(gated recurrent unit, 簡稱GRU),這兩種網(wǎng)絡都對非規(guī)整、變長序列進行了很好的改進.

圖4 循環(huán)神經(jīng)網(wǎng)絡示意圖

得益于循環(huán)神經(jīng)網(wǎng)絡對序列的動態(tài)特征的有效學習,越來越多的工作開始結(jié)合循環(huán)神經(jīng)網(wǎng)絡對用戶行為序列進行分析與建模.例如:Hidasi等[69]使用GRU模型對用戶短會話(session)場景下的點擊行為進行建模,并推薦用戶下一個感興趣的商品;Su等[70]使用循環(huán)神經(jīng)網(wǎng)絡對學生學習行為進行序列分析并運用到試題表現(xiàn)的預測中;文獻[71]利用LSTM深度挖掘用戶社交媒體上發(fā)布內(nèi)容的時間序列關(guān)系從而對發(fā)布內(nèi)容熱度進行預測.這些工作都證明了深度學習模型能夠從用戶數(shù)據(jù)中高效地學習行為背后隱藏的用戶與市場序列模式.

3 用戶序列分析的應用場景

用戶序列行為分析可以應用于多種場景,該章節(jié)將著重介紹推薦系統(tǒng)、社交網(wǎng)絡、智慧教育和智慧交通4個方面,除此之外,用戶序列行為分析還可用于廣告點擊、事件檢測等任務.

3.1 推薦系統(tǒng)

推薦系統(tǒng)是電子商務平臺最重要的組成部分,通過對用戶序列行為的分析與挖掘,推薦系統(tǒng)能夠智能地發(fā)現(xiàn)用戶偏好,并對用戶的下一次交易過程提供一定的幫助和指導.

在傳統(tǒng)工作中,研究人員常常結(jié)合數(shù)據(jù)挖掘方法與用戶心理學[72]、行為學[73-74]等交叉學科知識,對用戶歷史的行為序列進行靜態(tài)建模,挖掘其中隱含的用戶固有行為模式與用戶偏好更好為用戶提供更高的推薦服務.如Liu等[72]通過分析用戶行為序列中隱藏的用戶對商品的猶豫度,從而輔助推薦系統(tǒng)更好地為用戶進行推薦.隨著研究人員對用戶行為序列研究的深入,越來越多的序列推薦場景開始引起大家的關(guān)注,如基于短會話的推薦[69]、下一個商品[75]、購物籃推薦[76]、興趣點(point of interest, 簡稱POI)推薦[77]等.這些場景往往建立在對用戶的購買或者決策行為的序列分析基礎之上,綜合考慮了用戶偏好的序列特征,學習到用戶行為模式并對用戶的下一個行為進行預測,更加合理地為用戶進行推薦.例如:文獻[76]提出了一種結(jié)合矩陣分解的馬爾科夫鏈用來預測用戶的下一個購物籃可能會出現(xiàn)的商品,從而對用戶的下一次購物籃進行推薦;Wang等[78]使用深度學習模型對用戶行為序列進行表達,并用于預測用戶下一個購物籃中的商品;文獻[79]提出了一種基于注意力機制的神經(jīng)網(wǎng)絡模型,在基于短會話的商品推薦中較大地提升了推薦結(jié)果的準確度.

推薦系統(tǒng)領(lǐng)域中,用戶決策過程的序列特征對用戶行為理解與預測是十分重要的.這些序列信息不僅可以幫助系統(tǒng)更加深入地理解商品之間的顯式序列關(guān)系,還能更進一步地輔助理解用戶的動態(tài)偏好信息以及用戶的購物目的[80],這對構(gòu)建更加準確、智能的推薦系統(tǒng)起到了很大作用.

3.2 社交網(wǎng)絡

真實世界中,社交網(wǎng)絡結(jié)構(gòu)一直處于演化過程,伴隨著新的節(jié)點和鏈接的加入,近年來越來越多的研究工作關(guān)注于時序的鏈路預測,即輸入數(shù)據(jù)通常包含社交邊創(chuàng)立的時間或者不同階段社交網(wǎng)絡的快照信息[81].一種簡單有效的方法,是將多個時間段的鏈路數(shù)據(jù)通過加權(quán)平均壓縮到一個矩陣中,然后利用靜態(tài)的鏈路預測方法處理壓縮后的矩陣[82-83].其他研究者提出了利用張量分解或者非參數(shù)時間序列模型來挖掘社交圖演化過程[84-85].

此外,用戶的消費偏好對社交圖的結(jié)構(gòu)有著重要影響,而用戶也可能會根據(jù)社交朋友的決定改變自身的消費行為.Jamali等[86]從宏觀角度研究了社交網(wǎng)絡和用戶評分行為的雙向關(guān)系;Yang等[87]對用戶的消費行為和社交鏈接進行了共同建模;Wu等[88]集合社交情境下的用戶消費情況建模以及用戶對產(chǎn)品的時序喜愛程度,預測用戶的時序產(chǎn)品使用率,并且利用用戶-產(chǎn)品之間的消費行為以及用戶-用戶建立的社交鏈接行為,對用戶的消費行為和社交行為的聯(lián)合演化建模[55].

3.3 智慧教育

隨著教育信息化的持續(xù)深入以及互聯(lián)網(wǎng)的迅猛發(fā)展,在線教育已成為計算機融合傳統(tǒng)教育領(lǐng)域而形成的一個新的重要研究和應用方向.面向?qū)W生的在線學習數(shù)據(jù)的建模技術(shù)主要應用于以下3種實際任務:得分預測[89]、知識水平診斷[90]、退課預測[91].教育學專家指出,學生在長時間的學習進程中會不斷學習新的知識遺忘舊的知識,甚至會因為自身的惰性將學習任務不斷拖延[92].因此基于序列行為數(shù)據(jù)的學生建模是智慧教育領(lǐng)域的一個重要研究課題.

Thai等[93]利用張量分解技術(shù)基于學生歷史的答題數(shù)據(jù)預測其未來的表現(xiàn).Chen等[10]將教育學中的學習曲線和遺忘曲線等先驗知識應用到概率矩陣分解模型中,動態(tài)地追蹤學生不同時刻的知識掌握水平,并預測其在不同時刻的做題表現(xiàn).考慮到學生做題先后的序列性,有學者將循環(huán)神經(jīng)網(wǎng)絡模型應用到學生答題的序列預測任務中,循環(huán)神經(jīng)網(wǎng)絡的隱含層輸出可用于表征學生答題過程中知識水平的變化,并取得了可觀的表現(xiàn)[91].考慮到試題的難度差異,Su等[70]利用雙向循環(huán)神經(jīng)網(wǎng)絡表征試題的文本信息,并結(jié)合學生的序列作答數(shù)據(jù)預測學生的答題表現(xiàn).

得分預測任務往往只能獲得學生基于試題層面的表現(xiàn),而針對性的教學輔導往往更加關(guān)注學生知識水平的不足,因此基于知識點層面的知識水平分析也引起了廣大學者的關(guān)注.基于隱馬爾科夫模型的貝葉斯追蹤模型(Bayesian knowledge tracing, 簡稱BKT)在智能輔導系統(tǒng)中廣泛應用,其把學生在某一個知識點下的做題結(jié)果看作一條馬爾科夫鏈,學生對于該知識點的掌握情況則是對應的轉(zhuǎn)移狀態(tài)[61].有學者將學生個性化的猜測和遺忘參數(shù)結(jié)合到BKT模型中,提升了BKT模型的知識診斷精度和解釋性[63].而 Pardos等[64]認為猜測和遺忘應該是跟試題相關(guān)的,而不是學生,將試題的難度信息等應用到學生序列性知識水平診斷工作中.Zhang等[94]結(jié)合知識點和學生序列答題數(shù)據(jù),利用動態(tài)的記憶網(wǎng)絡實時追蹤學生知識水平的變化.

此外,退課預測也是在線學習系統(tǒng)的主要研究任務之一.Lykourentzou等[91]將學生是否能完成課程看作一個二分類任務,結(jié)合學生每天的在線學習時長、提交作業(yè)的次數(shù)等時序特征并利用神經(jīng)網(wǎng)絡、最大支持向量機等機器學習算法測試分類的表現(xiàn).而Halawa等[40]則認為學生退課的概率往往跟學生日常的活躍程度以及學習的持久程度相關(guān).

3.4 智慧交通

智慧交通能緩解資源供需不匹配、路網(wǎng)利用不均衡、公共交通分擔率低等原因造成的交通擁堵,改善城市交通狀況,提高城市交通系統(tǒng)的整體運行效率,在智慧城市建設中發(fā)揮著非常重要的作用.其中,用戶軌跡數(shù)據(jù)挖掘是智慧交通重要的研究方向,用戶的運動軌跡可視為用戶個體的序列行為,出租車等車輛的移動軌跡可視為用戶群體的序列行為.研究者通過全球定位系統(tǒng)、無線局域網(wǎng)絡、藍牙等技術(shù)手段,獲取用戶和車輛等物體的位置、時間、訪問頻率、共現(xiàn)模式等信息,然后通過數(shù)據(jù)挖掘等技術(shù)分析與理解移動對象的活動規(guī)律和特性,預測個體行為和群體事件,并應用于智慧交通、城市規(guī)劃等任務中.

在算法方面,Wang等[95]提出了基于Apriori的有效組模式挖掘算法和基于FP-Growth的有效組圖結(jié)構(gòu)挖掘算法來挖掘組模式.Zheng等[96-97]不僅考慮利用軌跡簡化技術(shù)來簡化軌跡,在軌跡段上進行聚類,而且通過建立網(wǎng)格索引大大降低了空間區(qū)域查詢的計算量.他們還研究了在軌跡數(shù)據(jù)庫不斷增加的情況下,利用增量式算法挖掘聚集模式.Ge等[98]提出實時軌跡異常檢測算法,通過分析移動對象的行為發(fā)現(xiàn)前K個(top-K)異常軌跡.不同于以往的基于距離的軌跡計算,他們同時考慮了異常軌跡在空間距離上和運動方向上的離群因素,首先為空間區(qū)域建立方格,為每個方格定義方向矩陣,根據(jù)軌跡的歷史數(shù)據(jù)生成基于方向的摘要向量;然后計算指定軌跡和摘要向量的距離,以此判斷該軌跡的異常情況.在應用方面,Yuan等綜合考慮了交通模式、時間、目的地等情境信息及司機群體智慧,實現(xiàn)了一種實時的路線推薦[99]以及載客地點推薦方法[100].

4 結(jié)束語

針對用戶序列行為領(lǐng)域的研究與應用,論文首先分析和介紹了序列數(shù)據(jù)的特性以及基于用戶序列行為數(shù)據(jù)的數(shù)據(jù)挖掘任務;然后,從基于分解的模型、貝葉斯模型、深度學習模型3個方面詳細闡述并總結(jié)了近些年來用戶序列行為建模的技術(shù)進展;最后,列舉了用戶序列行為在推薦系統(tǒng)、社交網(wǎng)絡、智慧教育、智慧交通4個領(lǐng)域的實際應用場景.

從上述研究現(xiàn)狀可以看出,基于用戶序列行為的分析仍然是一個充滿挑戰(zhàn)的研究領(lǐng)域,它仍然有許多值得深入探索和亟待解決的問題.首先,從建模技術(shù)的角度,文獻[101-102]嘗試使用不同的深度學習模型對用戶的序列行為建模.但是用戶的序列行為分析往往對時間非常敏感,導致算法的在線實時更新對算法的復雜度和時間效率要求更為嚴格,而且用戶的序列數(shù)據(jù)往往長短不一,并且具有稀疏、隱含興趣多變的特性,如何設計更為高效的算法實現(xiàn)對用戶序列行為更為精準的分析仍具有很大的挑戰(zhàn).其次,從用戶情境的角度來看,文獻[103]對用戶的多種序列行為同時建模.但是用戶的行為往往受地理位置、社交好友、自身興趣多種因素的影響,如何綜合多種因素對用戶進行序列建模仍值得進一步探索.最后,從應用場景的角度出發(fā):文獻[104]對移動設備的用戶按鍵序列行為進行建模,來識別用戶;文獻[105]對某網(wǎng)站的用戶點擊序列行為進行建模,來預測用戶的未來行為.但是不同場景下的數(shù)據(jù)規(guī)律和特征往往區(qū)別很大,而對于不同領(lǐng)域的用戶行為規(guī)律往往需要綜合領(lǐng)域?qū)<液托睦韺W專家等各方面的先驗知識.如何泛化用戶序列建模的技術(shù),降低領(lǐng)域?qū)<蚁闰炛R的影響,使其能夠在新領(lǐng)域快速展開應用也是一個值得深入研究的課題.

猜你喜歡
貝葉斯社交建模
社交之城
英語世界(2023年6期)2023-06-30 06:28:28
社交牛人癥該怎么治
意林彩版(2022年2期)2022-05-03 10:25:08
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
社交距離
你回避社交,真不是因為內(nèi)向
文苑(2018年17期)2018-11-09 01:29:28
基于PSS/E的風電場建模與動態(tài)分析
電子制作(2018年17期)2018-09-28 01:56:44
不對稱半橋變換器的建模與仿真
貝葉斯公式及其應用
基于貝葉斯估計的軌道占用識別方法
一種基于貝葉斯壓縮感知的說話人識別方法
電子器件(2015年5期)2015-12-29 08:43:15
逊克县| 佛坪县| 云南省| 思南县| 宁陵县| 东阿县| 尼勒克县| 瓮安县| 巩义市| 南投县| 洪湖市| 布尔津县| 庐江县| 遂平县| 灵寿县| 浦江县| 太和县| 竹溪县| 社旗县| 南通市| 涞源县| 广西| 噶尔县| 中西区| 镇安县| 旺苍县| 炎陵县| 托克逊县| 博白县| 阜平县| 龙州县| 酉阳| 象山县| 琼海市| 芮城县| 锦屏县| 新绛县| 济源市| 临清市| 年辖:市辖区| 灵丘县|