姜雅雯,余建坤,2,陸鏡弛
(1.云南財(cái)經(jīng)大學(xué) 信息學(xué)院, 云南 昆明 650000;2.云南財(cái)經(jīng)大學(xué) 云南省經(jīng)濟(jì)社會(huì)大數(shù)據(jù)研究院, 云南 昆明 650000)
在數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)的現(xiàn)代社會(huì),眾多的企業(yè)組織會(huì)投入大量的時(shí)間、精力去搜集和分析數(shù)據(jù)以求獲得更高的經(jīng)濟(jì)價(jià)值,但如果過多的關(guān)注對(duì)數(shù)據(jù)的分析而不注意數(shù)據(jù)本身質(zhì)量,為此會(huì)付出沉重的代價(jià).文獻(xiàn)[1]表明數(shù)據(jù)的質(zhì)量對(duì)研究存在至關(guān)重要的影響,數(shù)據(jù)的質(zhì)量問題會(huì)給結(jié)果造成重大影響,有統(tǒng)計(jì)表明,美國(guó)企業(yè)因數(shù)據(jù)質(zhì)量造成的額外成本高達(dá)6110億美元一年[2],而在醫(yī)療數(shù)據(jù)中有占到75%臨床重要發(fā)現(xiàn)因?yàn)閿?shù)據(jù)的問題被延遲公開[3],除了成本問題,數(shù)據(jù)的質(zhì)量很有可能會(huì)影響到分析的最終結(jié)果,導(dǎo)致前期努力付之一炬,例如英國(guó)生物銀行耗時(shí)12年的一個(gè)健康檢測(cè)項(xiàng)目得到了與事實(shí)截然不符的結(jié)論[4],因此提高數(shù)據(jù)的質(zhì)量是數(shù)據(jù)清洗的首要任務(wù).
為了獲取較高質(zhì)量的數(shù)據(jù),同時(shí)也為了確保原始數(shù)據(jù)的質(zhì)量不被破壞,文獻(xiàn)[5]提出一種基于約束條件的流數(shù)據(jù)清理方法——利用數(shù)據(jù)到達(dá)速度作為限制條件,依據(jù)數(shù)據(jù)間的最小距離來修復(fù)數(shù)據(jù);與平滑方法相比,該方法時(shí)間性能有所改善且修復(fù)數(shù)據(jù)精度更高,但此法注重于修復(fù),不能有效去除冗余,清洗后的數(shù)據(jù)量依舊很大.流數(shù)據(jù)的數(shù)據(jù)質(zhì)量除了受到大面積誤差或大的尖峰誤差的影響外,不嚴(yán)重偏離事實(shí)的小錯(cuò)誤也會(huì)影響到數(shù)據(jù)的質(zhì)量,文獻(xiàn)[6]提出一種基于統(tǒng)計(jì)的數(shù)據(jù)清洗方法,通過已到達(dá)的連續(xù)數(shù)據(jù)速度的概率分布來對(duì)異常數(shù)據(jù)進(jìn)行清理,確保數(shù)據(jù)的準(zhǔn)確性,實(shí)驗(yàn)證明此方法可有效修復(fù)偏離事實(shí)較小的小錯(cuò)誤,但對(duì)大面積的異?;蜻B續(xù)異常數(shù)據(jù)的修復(fù)效果不佳,達(dá)不到提高整體數(shù)據(jù)質(zhì)量的要求.文獻(xiàn)[7]提出一種基于高效關(guān)聯(lián)度的聚簇建模思想來進(jìn)行數(shù)據(jù)清洗,利用組間成員的聯(lián)系判斷對(duì)象所在小組,維護(hù)小組內(nèi)的動(dòng)態(tài)變化以提高清洗的準(zhǔn)確性,該方法有效的提高了數(shù)據(jù)的質(zhì)量但清洗完的數(shù)據(jù)量依舊很大,數(shù)據(jù)保存成本較高.文獻(xiàn)[8]提出一種改進(jìn)的分布式增量數(shù)據(jù)聚合方法,對(duì)數(shù)據(jù)進(jìn)行清洗提取,可確保數(shù)據(jù)的準(zhǔn)確性與可靠性,但清洗投入成本較大且過程較為復(fù)雜.以上方法注重于提升數(shù)據(jù)的質(zhì)量,卻忽略了數(shù)據(jù)的成本問題.
由于流數(shù)據(jù)的數(shù)據(jù)分析往往需要投入大量的人力和物力,耗費(fèi)較高的成本,為此人們?cè)谶M(jìn)行流數(shù)據(jù)清洗時(shí)就開始考慮優(yōu)化、縮減成本的方法.Hadoop高效、可伸縮性的分布式處理滿足降低成本的需求,基于Hadoop的流數(shù)據(jù)清洗相關(guān)研究應(yīng)運(yùn)而生[9-10],但在實(shí)踐中發(fā)現(xiàn),并行計(jì)算框架會(huì)在實(shí)現(xiàn)過程中出現(xiàn)冗余的MapReduce,給數(shù)據(jù)帶來新的冗余,這樣清洗完數(shù)據(jù)的質(zhì)量會(huì)有影響.基于密度的聚類處理方法能有效壓縮數(shù)據(jù)體積以降低成本[11~13],但隨著數(shù)據(jù)量的增長(zhǎng),算法的執(zhí)行時(shí)間呈指數(shù)增長(zhǎng),清洗數(shù)據(jù)的成本也隨之增長(zhǎng),因此該方法不太適用于流數(shù)據(jù).為降低算法執(zhí)行成本,文獻(xiàn)[14]在前人的基礎(chǔ)上提出了改進(jìn)的IMR算法,在預(yù)測(cè)錯(cuò)誤的最小檢驗(yàn)中迭代的進(jìn)行修復(fù),提高數(shù)據(jù)質(zhì)量密度.實(shí)驗(yàn)表明可以將算法的線性時(shí)間復(fù)雜度降到恒定時(shí)間,可以憑借較低的時(shí)間成本獲取較高質(zhì)量的數(shù)據(jù),但由于清洗的密度較高,清洗完成的數(shù)據(jù)量較大,數(shù)據(jù)的保存成本也隨之增加.
除了成本問題外,流數(shù)據(jù)所蘊(yùn)含的語義信息也是十分重要的,它可以加強(qiáng)用戶對(duì)數(shù)據(jù)的理解,幫助優(yōu)化對(duì)數(shù)據(jù)的查詢與分析.文獻(xiàn)[15]指出將軌跡流數(shù)據(jù)的分析整合與具體的應(yīng)用場(chǎng)景是相結(jié)合,可提前判斷得出與軌跡分析相關(guān)的空間特征類型(例如,旅館,旅游地點(diǎn)).文獻(xiàn)[16]指出一些軌跡數(shù)據(jù)分析研究存在的問題便是缺乏語義信息的分析,為獲得更多有價(jià)值的信息需要依靠更復(fù)雜的查詢,如數(shù)據(jù)挖掘算法,并且在現(xiàn)實(shí)情況中,數(shù)據(jù)中的移動(dòng)行為等問題需要通過結(jié)合軌跡和語義信息來分析判斷.文獻(xiàn)[17]向我們展示了在不添加語義信息和添加語義信息兩種情況下同一個(gè)查詢的結(jié)果,實(shí)驗(yàn)表明在沒有語義的軌跡中,軌跡與相關(guān)地理信息對(duì)象的關(guān)系需要進(jìn)行多次的重復(fù)計(jì)算,效率較低,而添加了抽取到的語義信息的軌跡在可視化圖表中可清晰看出客戶的行為動(dòng)態(tài),無需再次查找計(jì)算.
因此,本文提出一種基于語義的軌跡流數(shù)據(jù)清洗方法SSMOT,采用文獻(xiàn)[17-18]提出的軌跡數(shù)據(jù)模型將裸數(shù)據(jù)轉(zhuǎn)化為語義軌跡,并將語義作為動(dòng)態(tài)過濾指標(biāo)去除重復(fù)采樣以降低數(shù)據(jù)體積,以達(dá)到對(duì)數(shù)據(jù)進(jìn)行高質(zhì)量的清洗的目的同時(shí)將空間地理信息與數(shù)據(jù)進(jìn)行整合,清洗完成之后,將從原始數(shù)據(jù)中得到高質(zhì)量的語義軌跡數(shù)據(jù)集,服務(wù)于后續(xù)數(shù)據(jù)挖掘.本文使用真實(shí)商場(chǎng)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證,證明本方法的優(yōu)勢(shì)性,對(duì)實(shí)驗(yàn)結(jié)果的比較和分析,將在第4節(jié)中詳細(xì)闡述.
軌跡數(shù)據(jù)產(chǎn)生于車輛的移動(dòng)、人類的行走、動(dòng)物的遷徙等行為活動(dòng)中,這種源于生活的數(shù)據(jù)往往蘊(yùn)藏著大量有價(jià)值的信息,因此,對(duì)它的分析研究也一直沒有停歇過.傳統(tǒng)的軌跡數(shù)據(jù)以原始時(shí)空位置的形式展現(xiàn),比如車輛移動(dòng)軌跡數(shù)據(jù)會(huì)以編號(hào)、時(shí)間、地點(diǎn)、經(jīng)緯度的形式展現(xiàn),但這種數(shù)據(jù)表現(xiàn)方式并不能體現(xiàn)對(duì)象的“運(yùn)動(dòng)狀態(tài)”且運(yùn)動(dòng)的空間類型得不到體現(xiàn).然而在對(duì)數(shù)據(jù)進(jìn)行分析的過程中,需要的是體現(xiàn)對(duì)象運(yùn)動(dòng)結(jié)構(gòu)化的數(shù)據(jù)記錄即時(shí)間序列間隔,從行程的開始到結(jié)束,每一個(gè)停留的點(diǎn)都需要被標(biāo)記,停留的點(diǎn)之間行程段都要在對(duì)象的運(yùn)動(dòng)中占據(jù)一定的時(shí)間間隔,為此文獻(xiàn)[18]將傳統(tǒng)的概念模型擴(kuò)展到覆蓋時(shí)空建模維度,從而定義了一個(gè)新的軌跡數(shù)據(jù)模型.
定義1 軌跡是對(duì)象的位置演變記錄(該對(duì)象是指為了實(shí)現(xiàn)給定目標(biāo)而在給定時(shí)間間隔內(nèi)在空間中移動(dòng)的對(duì)象而非靜態(tài)對(duì)象),軌跡的開始為tbegin,終點(diǎn)為tend.
trajectory:[tbegin,tend]→space
在軌跡中,運(yùn)動(dòng)的對(duì)象不一定會(huì)連續(xù)移動(dòng).因此,可以通過時(shí)間上的定義來對(duì)軌跡本身進(jìn)行時(shí)間子間隔序列的分割,在此間隔中,對(duì)象位置可以發(fā)生變或者并保持固定,若發(fā)生位置變化則稱之為移動(dòng),若位置固定則稱之為停留點(diǎn),至此軌跡可以看成是一系列停留點(diǎn)、移動(dòng)的集合.
定義2 停留點(diǎn)(stop)是軌跡[tbegin,tend]的一部分,該時(shí)間間隔[tbeginstopx,tendstopx]非空并且對(duì)象在該時(shí)間間隔內(nèi)沒有產(chǎn)生移動(dòng).兩個(gè)停留點(diǎn)的時(shí)間間隔始終不相交.
定義3 移動(dòng)(move)是軌跡[tbegin,tend]的一部分,存在于2個(gè)停留點(diǎn)之間或者在tbegin,和第一個(gè)停留點(diǎn)之間或者在最后一個(gè)停留點(diǎn)和tend之間,該時(shí)間間隔[tbeginmovex,tendmovex]非空且呈現(xiàn)在可視化視圖中是建立在采樣點(diǎn)上的折線.
原始數(shù)據(jù)通過軌跡數(shù)據(jù)模型,從樣本點(diǎn)轉(zhuǎn)化為停留點(diǎn)和移動(dòng)的集合,在可視化圖表中會(huì)得到更為直觀的運(yùn)動(dòng)狀態(tài)變化,能更好的發(fā)現(xiàn)對(duì)象的運(yùn)動(dòng)行為規(guī)律,分析和預(yù)測(cè)對(duì)象的行為動(dòng)態(tài).
在數(shù)據(jù)挖掘中,更有價(jià)值的數(shù)據(jù)可以幫助人們獲取更多的知識(shí).例如人們的日常生活行為數(shù)據(jù),研究人員更關(guān)心的是人們?nèi)チ四男┑胤?、進(jìn)行了什么活動(dòng),分辨這些具有代表意義數(shù)據(jù)的常用方法就是聚類.然而以數(shù)據(jù)的密集度作為清洗條件很容易造成一些密集度低但價(jià)值高的數(shù)據(jù)被忽略,從而對(duì)數(shù)據(jù)挖掘的結(jié)果產(chǎn)生影響.為了獲取較高價(jià)值的數(shù)據(jù),文獻(xiàn)[17]提出了一種語義軌跡模型,重新定義了語義軌跡的停留點(diǎn)和移動(dòng),語義軌跡模型的應(yīng)用可以有效的避免這種情況.圖1是根據(jù)時(shí)間屬性將數(shù)據(jù)采樣點(diǎn)連接起來的軌跡,從中只可以看出D1到D4可以有3種非直接到達(dá)路徑(D1-D2-D5-D4;D1-D5-D4;D1-D3-D4);而圖2結(jié)合了語義信息:機(jī)場(chǎng)(A)、大巴站(B)、旅行社(Y)、景區(qū)(V)、酒店(H),除了存在3種間接從機(jī)場(chǎng)到景區(qū)的路徑外(分別為機(jī)場(chǎng)-大巴站-酒店-景區(qū);機(jī)場(chǎng)-酒店-景區(qū);機(jī)場(chǎng)-旅行社-景區(qū)),可以看出選擇先到達(dá)酒店再前往景區(qū)的比重大.其中旅行社(Y)的密度較低,在傳統(tǒng)的軌跡中該點(diǎn)可能會(huì)被忽視,但在語義軌跡中,旅行社(Y)會(huì)被保留并參與數(shù)據(jù)的分析.
定義4 語義軌跡移動(dòng)定義為以下4種情況之一:
1) 在軌跡T的2個(gè)連續(xù)停止時(shí)間之間的最大連續(xù)子軌跡;
2) 在軌跡T的初始點(diǎn)和第一個(gè)停止時(shí)間之間的最大連續(xù)子軌跡;
3) 在軌跡T的最后一個(gè)停止時(shí)間和軌跡終點(diǎn)之間的最大連續(xù)子軌跡;
4) 如果軌跡有且只有一個(gè)停止時(shí)間或者沒有停止時(shí)間,那么移動(dòng)則表示為軌跡本身T.
定義5 語義軌跡停留點(diǎn)是移動(dòng)的組成部分,當(dāng)移動(dòng)從開始進(jìn)入到離開某個(gè)空間地理范圍的時(shí)間超過既定的時(shí)間閾值Δc,則停留點(diǎn)定義為S=(RC,tin,tout),其中RC表示空間地理位置集合,tin和tout表示進(jìn)入和離開空間地理范圍的時(shí)間.
定義6 語義軌跡是N個(gè)停留點(diǎn)的集合,St=(S1,S2,…,Sn-1,Sn),對(duì)任意停留點(diǎn)Si滿足定義5的要求,語義軌跡的長(zhǎng)度即為其所包含的停留點(diǎn)的個(gè)數(shù)n,n>=1.
本文提出的數(shù)據(jù)清洗模型如圖3所示,主要步驟為裸數(shù)據(jù)轉(zhuǎn)化軌跡、獲取語義軌跡和獲取SSMOT數(shù)據(jù)集.
Step 1 誤差類型獲?。簩?duì)原始數(shù)據(jù)進(jìn)行抽樣分析,找出數(shù)據(jù)誤差的類型,對(duì)誤差進(jìn)行分析,找到誤差的類別,根據(jù)誤差的分類確定清洗的流程.準(zhǔn)確的誤差分析是數(shù)據(jù)清洗的基礎(chǔ)和保障.
Step 2 語義信息集合獲?。簩⒌乩硇畔⒄蠟檎Z義信息集合,這里面包含了需要添加進(jìn)最終清洗完數(shù)據(jù)的語義信息以及作為動(dòng)態(tài)過濾指標(biāo)的語義屬性.
Step 3 軌跡獲取:依據(jù)文獻(xiàn)[18]提出的軌跡數(shù)據(jù)模型的相關(guān)理論,提取停留點(diǎn)和移動(dòng)并得到軌跡.
Step 4 語義停留點(diǎn)及移動(dòng)獲?。涸讷@取軌跡后,借鑒文獻(xiàn)[17]的思路獲取語義軌跡,驗(yàn)證軌跡T的每個(gè)點(diǎn)是否與RC的幾何形狀相交,RC為地理空間在平面上的幾何映射,在肯定的情況下,查看交叉的持續(xù)時(shí)間是否大于等于給定的閾值Δc.如果滿足上述條件,則將相交的候選停留點(diǎn)視為語義停留點(diǎn),并記錄該語義停留點(diǎn).
Step 5 SSMOT集合獲取:上一步獲取的語義軌跡,可成功將地理空間外的數(shù)據(jù)點(diǎn)過濾掉,但每個(gè)被標(biāo)記的空間內(nèi),依舊存在著重復(fù)采樣和噪點(diǎn),比如某個(gè)人在某家餐廳的吃飯時(shí)間超過30 min,我們需要的信息更偏向于餐廳的位置和該客人停留的時(shí)間段,而不是30 min內(nèi)所有的數(shù)據(jù)采集樣本,所以在已獲取進(jìn)入和離開餐廳時(shí)間的基礎(chǔ)上,需要去除客戶位置不變而時(shí)間變化的重復(fù)采樣以及采集設(shè)備產(chǎn)生的數(shù)據(jù)漂移噪點(diǎn).為此,提出一種基于語義的數(shù)據(jù)清洗方法SSMOT,在SMOT的基礎(chǔ)上使用語義作為動(dòng)態(tài)過濾指標(biāo)替代固定過濾值,旨在提高數(shù)據(jù)清洗的質(zhì)量.
Step 6 對(duì)比分析:對(duì)清洗完成的數(shù)據(jù)進(jìn)行分析,與其他清洗方法進(jìn)行結(jié)果比對(duì),查看數(shù)據(jù)質(zhì)量和成本效果;結(jié)合步驟一的噪聲分析判斷數(shù)據(jù)清洗有沒有達(dá)到預(yù)期效果.
Step 7 輸出:輸出清洗完成的語義軌跡數(shù)據(jù)集,完成數(shù)據(jù)清洗.
為了驗(yàn)證本文提出的基于語義的商場(chǎng)軌跡流數(shù)據(jù)清洗模型的可行性,以2015年某商場(chǎng)的真實(shí)數(shù)據(jù)作為應(yīng)用案例來進(jìn)行測(cè)試.本實(shí)驗(yàn)是在配置為酷睿i7-8750H(2.20 GHz 6核)、16 GB 內(nèi)存的計(jì)算機(jī)上進(jìn)行的,系統(tǒng)為Win 10,使用Python(3.6.3)+UltraEdit(25.00.0.68)編寫程序.
實(shí)驗(yàn)數(shù)據(jù)部分使用的是來自河南某商場(chǎng)的真實(shí)室內(nèi)軌跡數(shù)據(jù)集,該數(shù)據(jù)集是通過商場(chǎng)無線AP(accesspoint)設(shè)備采集的,通過信號(hào)強(qiáng)弱計(jì)算用戶距離AP設(shè)備的距離,最后獲得相應(yīng)的數(shù)據(jù),每個(gè)元組分別表示用戶ID、x坐標(biāo)、y坐標(biāo)、區(qū)域ID、采樣時(shí)刻、連接狀態(tài)、建筑ID、樓層ID.采樣頻率為1次/s,該數(shù)據(jù)集一共有 43 784 744 個(gè)采樣點(diǎn),731 739 條軌跡,數(shù)據(jù)體積為2.11GB.該商場(chǎng)有3層樓,一共164個(gè)商戶,即該數(shù)據(jù)集共164個(gè)地點(diǎn).
表1 數(shù)據(jù)樣例
隨著定位技術(shù)及通信技術(shù)的發(fā)展,定位設(shè)備被廣泛應(yīng)用,商場(chǎng)內(nèi)的定位設(shè)備會(huì)定時(shí)采集客戶的位置信息并將其匯總,形成大規(guī)模的客戶軌跡流數(shù)據(jù).這些數(shù)據(jù)中包含了大量的信息,可用于多種場(chǎng)景:客戶行為動(dòng)態(tài)模式、商場(chǎng)布局規(guī)劃以及熱門商鋪分析等.由于定位設(shè)備自身的緣故,加上商場(chǎng)客流量大、商鋪分布較為密集等緣故,實(shí)時(shí)采集的數(shù)據(jù)可能會(huì)出現(xiàn)各種各樣的問題,會(huì)出現(xiàn)不合理甚至錯(cuò)誤的數(shù)據(jù).少量的問題數(shù)據(jù)可能對(duì)整體的數(shù)據(jù)挖掘影響不大,但對(duì)單個(gè)客戶的行為分析時(shí)可能會(huì)出現(xiàn)嚴(yán)重偏差.例如在對(duì)客戶進(jìn)行動(dòng)態(tài)行為分析時(shí),同一個(gè)位置坐標(biāo)反映到另一個(gè)樓層,客戶所在的店鋪就會(huì)發(fā)生改變,客戶實(shí)時(shí)的興趣趨向就會(huì)發(fā)生改變,得到一個(gè)錯(cuò)誤的行為動(dòng)態(tài).進(jìn)過研究發(fā)現(xiàn),商場(chǎng)軌跡流數(shù)據(jù)噪聲分類一般分為2類:一類是由設(shè)備所產(chǎn)生的,一類是由人為因素所產(chǎn)生的.
設(shè)備產(chǎn)生的噪聲:①數(shù)據(jù)集通過商場(chǎng)無線AP(accesspoint)設(shè)備采集的,當(dāng)用戶的手機(jī)接入AP設(shè)備,我們就能通過信號(hào)強(qiáng)弱計(jì)算用戶距離AP設(shè)備的距離,最后獲得相應(yīng)的軌跡數(shù)據(jù).但是由與設(shè)備的制約,會(huì)產(chǎn)生“漂移”數(shù)據(jù),例如根據(jù)客戶ID顯示,客戶前一秒處于2樓的某家商鋪,下一秒會(huì)定位到3樓.②由于信號(hào)較弱導(dǎo)致采集到的客戶數(shù)據(jù)有所偏差,這類誤差通常會(huì)出現(xiàn)在設(shè)備采集的邊緣地帶.③設(shè)備在獲取客戶數(shù)據(jù)產(chǎn)生的不合理誤差,如采集時(shí)間與實(shí)際情況不符合,這類誤差的產(chǎn)生通常是由于AP設(shè)備設(shè)置問題引起的,且這類誤差所占比例較小.
人為因素產(chǎn)生的誤差:①為研究客戶的行為動(dòng)態(tài),會(huì)把商場(chǎng)工作人員產(chǎn)生的數(shù)據(jù)作為噪聲處理,例如保安巡邏、清潔人員打掃產(chǎn)生的數(shù)據(jù),這類數(shù)據(jù)的明顯特征是大多數(shù)集中在走廊過道處且每日循環(huán)往復(fù)、有固定的時(shí)間間隔,根據(jù)此特征可快速區(qū)別.②客戶在走廊過道產(chǎn)生的數(shù)據(jù)密度會(huì)大于在商店內(nèi)的數(shù)據(jù)密度,這對(duì)研究客戶的商鋪行為動(dòng)態(tài)會(huì)產(chǎn)生很大的影響,需要加以區(qū)分.
為了驗(yàn)證本文所提出方法的準(zhǔn)確性,與文獻(xiàn)[19]使用同一份數(shù)據(jù)進(jìn)行比較實(shí)驗(yàn),比較結(jié)果如下表所示.
表2 實(shí)驗(yàn)結(jié)果
從表2可以看出,本文提出的方法在減小數(shù)據(jù)體積,降低成本上優(yōu)于文獻(xiàn)[19]所使用的方法且處理后的數(shù)據(jù)價(jià)值密度得到了明顯提高.
如圖4所示,未經(jīng)清洗的數(shù)據(jù)是雜亂無章的;經(jīng)過清洗,得到如圖5所示的結(jié)果,可以發(fā)現(xiàn)數(shù)據(jù)集中密集度較高的是圖中紅色部分較深的區(qū)域,同樣的該部分的數(shù)據(jù)價(jià)值密度也較高.經(jīng)過清洗可以過濾走廊部分密集度高但價(jià)值密度低的數(shù)據(jù),達(dá)到壓縮數(shù)據(jù)體積、降低成本的目的.為了驗(yàn)證數(shù)據(jù)的質(zhì)量,從原始數(shù)據(jù)中隨機(jī)抽取了某個(gè)ID,并對(duì)該ID進(jìn)行清洗分析.實(shí)驗(yàn)結(jié)果如圖6、圖7和圖8所示.
實(shí)驗(yàn)結(jié)果表明,語義在清洗過程中起到了很大的作用,使用語義清洗可有效的過濾重復(fù)采樣和噪聲,提高數(shù)據(jù)質(zhì)量密度并且語義有助于在清洗過程中發(fā)現(xiàn)客戶的動(dòng)態(tài)行為.
在清洗前,該ID在3樓的活動(dòng)狀態(tài)并不明顯,如圖6只能看出在火鍋店附近聚集的點(diǎn)較多.清洗后發(fā)現(xiàn),該ID 當(dāng)天的活動(dòng)軌跡為16∶49(婭茜)——16∶46(抱抱熊)——17∶29-17∶36(食色)——17∶39-18∶10(舍家家居)——18∶28(龍泉青瓷)——19∶02(包子樓)——19∶06(黃記煌)——19∶28(阿三生煎)——19∶46-22∶25(大家庭火鍋)——22∶53(藝家瓷).這表明清洗完成的數(shù)據(jù)沒有破壞數(shù)據(jù)中蘊(yùn)含的客戶行為動(dòng)態(tài)信息,反而可以更方便、更直觀的體現(xiàn)用戶的動(dòng)態(tài)行為過程.
綜上,實(shí)驗(yàn)證明本文提出的方法可以有效地壓縮數(shù)據(jù)的體積,緩解由于數(shù)據(jù)量較大而引起的成本問題,并且提高了數(shù)據(jù)價(jià)值的密度;在數(shù)據(jù)質(zhì)量上,該方法沒有破壞數(shù)據(jù)所包含的信息,可以將動(dòng)態(tài)行為信息更直觀的表現(xiàn)出來以表現(xiàn)其優(yōu)越性.
本文針對(duì)流數(shù)據(jù)挖掘中的流數(shù)據(jù)清洗問題進(jìn)行研究,在現(xiàn)有研究的基礎(chǔ)上,綜合考慮了數(shù)據(jù)清洗質(zhì)量要求和客觀地理信息需求,采用軌跡數(shù)據(jù)模型,提出一種基于語義的軌跡流數(shù)據(jù)清洗方法用于流數(shù)據(jù)清洗研究,并采用真實(shí)的商場(chǎng)數(shù)據(jù)進(jìn)行試驗(yàn)驗(yàn)證.實(shí)驗(yàn)結(jié)果表明, 本文所采用基于語義的軌跡流數(shù)據(jù)方法較以往的方法有更高的準(zhǔn)確率.然而, 本文實(shí)驗(yàn)研究所使用的數(shù)據(jù)量較大,實(shí)驗(yàn)周期較長(zhǎng),雖有了一定的成果,但缺乏算法理論分析的相關(guān)內(nèi)容如算法計(jì)算代價(jià)分析,算法復(fù)雜度分析.未來的工作將圍繞該方面進(jìn)行展開.