吳 浩,張威強(qiáng),張朋柱
(上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院,上海 200030)
長期以來,用戶特征的識別作為一個重要的研究領(lǐng)域,在語言學(xué)、心理學(xué)和社會學(xué)中得到了廣泛研究。在移動互聯(lián)網(wǎng)興起之前,許多不同的研究都從眾多的領(lǐng)域中搜集數(shù)據(jù)。比如從互聯(lián)網(wǎng)瀏覽行為、網(wǎng)頁文本、移動網(wǎng)絡(luò)通信記錄(電話和短信)以及心理學(xué)問卷測試中來預(yù)測各種各樣的用戶特征。例如,性別、年齡、收入和個性等。然而,作為能夠反映用戶行為重要數(shù)據(jù)之一的軌跡數(shù)據(jù),在過去的許多用戶特征推斷的研究中分析較少。
近年來,隨著智能手機(jī)、移動互聯(lián)網(wǎng)和全球衛(wèi)星導(dǎo)航系統(tǒng)(global navigation satellite system, GNSS)的普及,基于位置的服務(wù)(location based service, LBS)得到了極大發(fā)展。通過移動通訊網(wǎng)絡(luò)獲得用戶的位置信息變得更加便捷,一段連續(xù)時間內(nèi),用戶位置信息可以形成該用戶在該段時間的軌跡數(shù)據(jù)。這些軌跡數(shù)據(jù)代表著用戶某種活動的發(fā)生,周期性的活動反映了用戶的生活習(xí)慣和行為模式,體現(xiàn)了用戶的年齡、職業(yè)等特征。因此,軌跡分析是識別用戶年齡特征的有效途徑?,F(xiàn)有對軌跡數(shù)據(jù)的研究仍存在以下不足。
(1) 對軌跡點的有效清洗不足。通過基站收集用戶歷史軌跡數(shù)據(jù)時,可能會存在一些錯誤。產(chǎn)生的原因有多種: 網(wǎng)絡(luò)信號不穩(wěn)定、硬件故障等。因此,在分析軌跡數(shù)據(jù)之前,必須先剪枝過濾這些明顯錯誤的點。
(2) 對軌跡空間語義的考慮不足。不同的用戶雖經(jīng)過的具體地理位置(如經(jīng)緯度)不同,但若這些地理位置具有相同的語義,則他們的軌跡在語義方面存在相似性(如1號小學(xué)與2號小學(xué),雖所在經(jīng)緯度不同,但功能語義均為小學(xué))。因此,這些用戶之間可能存在著身份特征或行為習(xí)慣的相似性。
(3) 對軌跡時間語義的考慮不足。即使是同一區(qū)域,不同對象在不同時間的訪問,該位置的功語義可能不同。如在早上6:00~10:00出現(xiàn)在中餐館的用戶可能是服務(wù)人員,而中午11:00~13:00出現(xiàn)在中餐館附近的用戶可能是來就餐的周邊上班族等。現(xiàn)有部分研究通過提取軌跡點周邊一定范圍內(nèi)的興趣點(point of interest,POI),直接采用TF-IDF提取該軌跡點的語義,沒有對不同時間不同用戶的軌跡語義加以區(qū)分。
針對上述問題,本文將從以下幾個方面展開研究。
(1) 提出“速度—時空—角度”的軌跡剪枝方法(velocity-space-time-angle pruning, VSTA Pruning),從軌跡的速度、距離、運動與停留的時間、運動方向及其變化等方面,對原始軌跡數(shù)據(jù)進(jìn)行有效剪枝和清洗,過濾存在明顯錯誤的軌跡點。
(2) 提出帶有時間標(biāo)簽的TF-IDF改進(jìn)算法(term frequency-inverse document frequency with time label, TFT-IDFT),利用軌跡點周邊的POI信息對不同用戶不同時間不同軌跡點的時空語義進(jìn)行了分析。該方法在考慮軌跡點的空間語義的同時,也將軌跡的時間語義納入考慮。其中,空間語義是指軌跡點的區(qū)域功能類型(如學(xué)校、公司等),時間語義是指不同用戶經(jīng)過某類型區(qū)域的時間,以及其對用戶身份特征和行為習(xí)慣識別的影響。
(3) 通過將軌跡點的時空語義提取為一個個特征單詞,利用Word2vec方法進(jìn)行多組特征訓(xùn)練,獲得每個單詞的向量表達(dá),以及軌跡點語義的相關(guān)性。在此基礎(chǔ)上分析每個用戶的軌跡規(guī)律,識別用戶特征。
早期的用戶特征識別主要通過用戶的通話數(shù)據(jù)和文本數(shù)據(jù)分析用戶的行為模式,從而判別用戶的年齡、性別等特征。Eckert[1]等認(rèn)為性別應(yīng)被視為語言變異和標(biāo)準(zhǔn)及非標(biāo)準(zhǔn)形式使用的重要原因。因此,可以將語言作為判別性別的重要特征; Koppel[2]根據(jù)文本內(nèi)容自動分類推斷作者的性別特征。
隨著互聯(lián)網(wǎng)的興起,基于用戶上網(wǎng)行為及其瀏覽內(nèi)容推斷用戶特征的研究開始逐漸增多。Hu[3]等利用貝葉斯理論對用戶瀏覽的歷史記錄進(jìn)行分析,較準(zhǔn)確地預(yù)測了用戶的年齡和性別;還有基于搜索習(xí)慣來挖掘用戶特征的工作也取得不錯的效果,如Lorigo[4]等和Bi[5]等的研究。王晶晶[6]等還通過微博用戶名和微博文本構(gòu)建基于貝葉斯融合的分類器,采用這兩種文本信息同時對用戶性別進(jìn)行判別。
隨著移動通訊對人們?nèi)粘I畹闹鸩綕B透,研究開始關(guān)注移動通訊帶來的信息在推斷用戶特征中的應(yīng)用。Ying[7]等通過用戶移動手機(jī)端獲取了用戶每天的移動距離、app使用情況、通話短信以及無線和藍(lán)牙使用情況的特征,應(yīng)用多層次分類模型對用戶的年齡、工作、婚姻狀況和家庭人數(shù)等人口特征進(jìn)行了分析;Sanja[8]等提取多維度的移動手機(jī)數(shù)據(jù),主要包括應(yīng)用使用情況、通話情況、聯(lián)絡(luò)人情況以及移動距離,測量了不同用戶之間的相似度,并在此基礎(chǔ)上對用戶的人口特征建立了分類模型。還有研究主要基于移動設(shè)備帶來的基于位置服務(wù)(LBS)的信息來分析用戶的人口特征,Riederer[9]通過用戶在不同位置的簽到足跡,不僅使用了移動距離等研究廣泛使用的特征,還使用了不同簽到位置的地址特征來識別用戶的人口特征。
但這些研究并沒有充分利用用戶在不同時間不同位置的信息所反映的活動規(guī)律和生活習(xí)慣,在這方面,李敏[10]等通過分析時空數(shù)據(jù),認(rèn)為用戶簽到的時間和地點存在一定的規(guī)律性;陳元娟等[11]也基于用戶移動的時間順序和位置順序,向量化用戶本身特征,從而學(xué)習(xí)不同用戶之間的社交聯(lián)系。李源昊[12]等基于移動社會網(wǎng)絡(luò)的理論,利用位置網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和用戶通話交互情況,建立了基于關(guān)系馬爾科夫網(wǎng)絡(luò)的用戶特征識別模型。Jing[13]等通過建立用戶在不同時間訪問不同地質(zhì)特征的詞向量,探索用戶之間的相似性,判別城市的功能區(qū),并預(yù)測相鄰地區(qū)之間的犯罪率。但這些研究主要是基于用戶在一些特定網(wǎng)站的簽到信息來定位用戶位置,數(shù)據(jù)本身存在一定的偏差,也沒有在分析中同時考慮位置信息和語義信息。此外,在用戶時間、位置和活動等的關(guān)聯(lián)方面也分析不足,未能用這些信息來反映用戶本身的特征。
目前對軌跡數(shù)據(jù)的挖掘主要分為基于地理信息和語義信息兩類。前者基于諸如經(jīng)緯度等地理位置信息,認(rèn)為頻繁出現(xiàn)在相同或相鄰地理位置的用戶具有相似性。因此,Xue[14]等和Zheng[15]等通過挖掘用戶頻繁出現(xiàn)的位置經(jīng)緯度來判斷不同用戶之間軌跡的相似性,進(jìn)而實現(xiàn)對用戶的分類。但該類方法具有一定的局限性,得到的同類用戶基本在地理位置相近的范圍內(nèi)活動。而實際上即使兩個用戶的地理位置軌跡并不相似,但二者的軌跡具有相同或相似的功能語義(如學(xué)校),他們的活動軌跡也具有相似性。
近年來,出現(xiàn)了較多工作嘗試挖掘軌跡數(shù)據(jù)中豐富的語義信息,即地理位置隱含功能特征的提取。Yuan[16]等先通過利用城市干道對地理位置進(jìn)行劃分,再基于用戶軌跡和行為語義挖掘潛在地區(qū)的功能特征。但該方法對區(qū)域劃分的要求較高,若直接按照高速公路進(jìn)行劃分,會產(chǎn)生功能區(qū)域較大的問題。Toole[17]從用戶的手機(jī)使用行為出發(fā),認(rèn)為某一地點的語義特征和用戶在此地點的行為有著密切關(guān)系,故而利用移動用戶在該地的手機(jī)行為數(shù)據(jù)推斷該地點的功能語義。邱運芬[18]等從軌跡的功能語義和訪問的不確定性出發(fā),從具體的地理位置坐標(biāo)抽象出軌跡點語義,并計算訪問不同軌跡點語義的概率,將其作為特征進(jìn)行人群分類。
此外,基于神經(jīng)網(wǎng)絡(luò)的word2vec模型對發(fā)現(xiàn)單詞序列的語義關(guān)系有效性也使該模型開始被應(yīng)用到軌跡數(shù)據(jù)分析中。Al-Dohuki[19]等通過將軌跡數(shù)據(jù)轉(zhuǎn)化為文檔模型,利用文本搜索方法對出租車軌跡數(shù)據(jù)進(jìn)行了挖掘和分析。Feng[20]等提出POI2vec模型,將每個POI映射為一個實數(shù)向量,POI之間的相似性則用向量余弦表示。與此類似,Liu[21]等使用Skip-gram模型,根據(jù)軌跡信息的上下文來分析用戶潛在的興趣點。Yu[22]等利用Word2vec模型計算交通工具軌跡的相似性,并對道路交通流量進(jìn)行預(yù)測。
本文工作與上述研究有所不同: 本文從用戶的原始軌跡出發(fā)。先從速度、距離、時間、運動方向及其變化等方面,對原始軌跡數(shù)據(jù)進(jìn)行有效剪枝和清洗(VSTA Pruning)。再通過在傳統(tǒng)TF-IDF算法中添加時間標(biāo)簽,利用帶時間標(biāo)簽的TFT-IDFT方法提取軌跡點周邊的POI語義。然后,在提取出的語義軌跡上利用word2vec方法建立與有效軌跡點一一對應(yīng)的實數(shù)向量。最后,通過分類預(yù)測方法識別用戶年齡段特征。具體分析流程如圖1所示。
圖1 分析流程圖
通過基站收集用戶歷史軌跡數(shù)據(jù)時可能會存在一些錯誤。產(chǎn)生原因有多種: 網(wǎng)絡(luò)信號不穩(wěn)定、硬件故障等。同時,軌跡數(shù)據(jù)中還可能包括用戶在高速移動中采集到的數(shù)據(jù)。例如,某用戶乘坐地鐵等高速交通工具,這些高速移動的軌跡點在本研究中并無意義。因此,也需要過濾。
軌跡數(shù)據(jù)預(yù)處理主要是針對原始軌跡數(shù)據(jù)進(jìn)行無效點剪枝,剪枝條件主要有以下幾點。
(1) 速度剪枝: 過濾速度大于速度閾值δv的軌跡點,以剪除干擾研究的高速軌跡點。
(2) 時空剪枝: 過濾距離小于給定的最小距離閾值δd且時間差小于給定的最小時間閾值δt1,以剪除同一地點短時間內(nèi)重復(fù)采集的軌跡點。
(3) 角度剪枝: 在規(guī)律的軌跡上,某些軌跡點突然異常偏離,跳到遠(yuǎn)處又迅速跳回的軌跡點。具體剪除步驟如下:
① 按時間順序遍歷軌跡,取每相鄰3個點記為Trajk={Pk-1,Pk,Pk+1};
② 提取Trajk={Pk-1,Pk,Pk+1}三點的經(jīng)緯度,計算以Pk為頂點的夾角∠Pk-1PkPk+1和Pk-1和Pk+1的時間差Δtk;
③ 如果夾角∠Pk-1PkPk+1小于給定最小角度閾值δa,時間差Δtk小于給定最小時間閾值δt2,刪除中間點Pk。
算法 軌跡數(shù)據(jù)預(yù)處理算法VSTA-Pruning輸入:原始軌跡序列Traj,速度閾值δv,距離閾值δd,時間閾值δt1和δt2,角度閾值δa輸出:保留有效點的軌跡序列Traj'1 k=1,pointNum=length[Traj],Traj'=[];2whilek 根據(jù)實際經(jīng)驗,普通公路上的速度上限一般在60km/h~120km/h,人的步行速度一般在15km/h,同時一般而言,用戶不可能在3秒內(nèi)以任何交通工具方式形成鋒利銳角的軌跡夾角。因此,在本文中,速度閾值δv=15km/h,距離閾值δd=200m,時間閾值δt1=60s,δt2=3s,角度閾值δa=15°。 根據(jù)上述方法和閾值,圖2左圖是某用戶某段時間的原始軌跡,圖2右圖是過濾無效軌跡點后的剪枝軌跡,可以看出剪枝軌跡更加清晰,可用作進(jìn)一步的研究分析。 圖2 剪枝無效點前后的軌跡對比圖 關(guān)于移動軌跡的分析方法主要有兩類: 基于地理信息和基于語義信息。前者主要關(guān)注軌跡的具體位置特征,如經(jīng)緯度、移動方向和移動距離等;后者主要關(guān)注與軌跡緊密相關(guān)的語義特征。二者的關(guān)系和不同如圖3所示。 圖3 軌跡地理圖和軌跡語義圖 由圖3可知,從軌跡的形狀來看,A與C更加相似。但從軌跡的語義來看,A與B的相似程度高于A與C的相似程度。 本文根據(jù)用戶移動端上網(wǎng)時所訪問基站的經(jīng)緯度,從國內(nèi)某知名互聯(lián)網(wǎng)地圖服務(wù)商獲取每個基站周邊的POI數(shù)據(jù),從中分析提取該軌跡點的語義代表。 興趣點POI(point of interest)是地理信息系統(tǒng)中的一個術(shù)語。泛指一切可以抽象為點的地理對象,尤其是一些與人們生活密切相關(guān)的地理實體,如學(xué)校、銀行、餐館、加油站、醫(yī)院、超市等。POI的主要用途是對事物或事件的地址進(jìn)行描述。能在很大程度上增強(qiáng)對事物或事件位置的描述能力和查詢能力,提高地理定位的精度和速度。本文中使用的POI的一級標(biāo)簽共有19個。分別為: 房地產(chǎn)、公司企業(yè)、教育培訓(xùn)、酒店、交通設(shè)施、休閑娛樂、政府機(jī)構(gòu)、行政地標(biāo)、購物、美食、金融、汽車服務(wù)、醫(yī)療、內(nèi)部樓號、運動健身、旅游景點、生活服務(wù)、文化傳媒、自然地物。二級分類共有103種有效標(biāo)簽。包括: 宿舍、公司、培訓(xùn)機(jī)構(gòu)、廠礦、寫字樓、劇院、福利機(jī)構(gòu)、村莊、商鋪、各級政府、中餐廳、超市、住宅區(qū)、銀行、中學(xué)、健身中心等。 通常一個基站周邊的POI會有多個,故可以利用語義分析的詞頻-逆文檔頻率(TF-IDF)方法來找出對每個基站詞義貢獻(xiàn)最大的標(biāo)簽。因在后面的分析中,希望盡可能細(xì)分每次訪問基站的語義類型,故本文采用POI二級標(biāo)簽來分析軌跡的語義特征。 TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用統(tǒng)計方法。其中,TF(term frequency)表示詞條在文檔中出現(xiàn)的頻率。但只考慮詞條出現(xiàn)的頻率會對高頻詞條產(chǎn)生過大的依賴,且有可能會忽略部分僅在某類中出現(xiàn)的低頻詞條。只考慮詞頻不足以表示一個詞條對樣本類別的有用程度,故而需要計算IDF值。 IDF(inverse document frequency)是用包含特定詞條的樣本數(shù)來計算該詞條的權(quán)重。即包含某個詞條的樣本越多,說明該特征項出現(xiàn)在大部分樣本中,其代表類別的能力就越弱。也就是說若包含某個詞條的文檔越少,則這個詞條的語義貢獻(xiàn)度就越大。即IDF越大。 傳統(tǒng)TF-IDF算法如式(1)~式(3)所示。 然而,即使是軌跡語義相似,不同時間的軌跡語義仍然有不同的代表意義。如在早上6:00~10:00出現(xiàn)在中餐館的用戶可能是服務(wù)人員,而中午11:00~13:00出現(xiàn)在中餐館附近的用戶可能是來就餐的周邊上班族。因此,本文在通過提取軌跡點周邊一定范圍內(nèi)的POI,直接采用TF-IDF提取軌跡點的語義的基礎(chǔ)上,提出包含訪問時間信息的帶時間標(biāo)簽TF-IDF(term frequency-inverse document frequency with time label, 后文稱為TFT-IDFT)方法,對不同時間的軌跡語義加以區(qū)分。計算如式(4)所示。 (4) IDFT是指時間段ti中包含POI標(biāo)簽aj的樣本數(shù)與除時間段ti之外的其他時間段包含POI標(biāo)簽aj的樣本數(shù)的比值。如果某個POI標(biāo)簽在某個時間段中的IDFT越高,說明該POI標(biāo)簽在不同時間段出現(xiàn)得越不均勻,其代表意義也越強(qiáng),即該POI標(biāo)簽在該時間段越重要。IDFT計算如式(5)所示。 (5) 其中,ns(j|i)表示時間段ti中包含POI特征aj的樣本數(shù),ns(j) 表示樣本集中出現(xiàn)POI特征aj的樣本數(shù)總數(shù);為了避免IDFT不可求(分母為0),令λ=1。 IDF算法的核心思想在于只在少量樣本中出現(xiàn)的標(biāo)簽比在大量樣本中都出現(xiàn)的標(biāo)簽重要,即IDF主要用于增強(qiáng)在少量樣本中出現(xiàn)的標(biāo)簽的代表性,減弱在大量樣本中出現(xiàn)的標(biāo)簽的代表性。不同訪問時間的軌跡點語義提取概率如式(6)所示。 TFT-IDFT=TFT(aj|ti)×IDFT(aj|ti) (6) 為了反映人們普遍的行程規(guī)律和日常生活習(xí)慣,本文將訪問的原始時間劃分為以下10檔,如表1所示。 表1 訪問基站的時間段標(biāo)簽劃分 在此基礎(chǔ)上,將提取出的特定時間段特定軌跡點周邊TFT-IDFT最大的POI二級標(biāo)簽作為該時間段該軌跡點的語義代表。 2.3.1 模型概念 詞向量技術(shù)的核心思想是將一個單詞表示為一個N維的實數(shù)向量,兩個向量的相似度可以用來描述其對應(yīng)單詞的語義相似度。 Word2vec有兩類模型: CBOW(Contious Bag-of-Words)模型和Skip-gram模型。其區(qū)別在于CBOW利用上下文預(yù)測目標(biāo)詞,Skip-gram模型通過目標(biāo)詞來預(yù)測上下文,如圖4所示。 圖4 CBOW和Skip-gram模型構(gòu)架圖 本文采用Skip-gram模型,對于給定的一系列單詞w1,w2,…,wT,其目標(biāo)函數(shù)如式(7)所示。 (7) 其中,k為訓(xùn)練窗口大小,代表目標(biāo)詞前后各k個單詞作為目標(biāo)詞的相鄰詞;p(wt+j|wt)表示根據(jù)目標(biāo)詞wt正確預(yù)測相鄰詞wt+j的概率;T表示語料庫的詞總數(shù)。 模型中每個詞都有一個輸入向量和輸出向量,分別為記為uw和vw。對于給定詞wj正確預(yù)測wi的概率如式(8)所示。 (8) 其中,V表示詞典中的詞總數(shù)。 2.3.2 本文應(yīng)用 在本文中,選擇Skip-gram模型的主要原因是傳統(tǒng)的軌跡識別和推薦方法并不能捕捉到某一位置訪問的上下文信息。若將某一用戶連續(xù)訪問的位置作為能夠反映其訪問規(guī)律的軌跡,這就與其寫一個句子來表達(dá)他的語義是類似的。這就使得利用自然語言處理方法對用戶移動模式進(jìn)行建模分析具有合理性[13,20-21]。此外,和其他諸如主題分析等自然語言處理方法不同,Skip-gram模型在上下文(即前后詞語)分析上更加適用。 本文首先對每個用戶的訪問數(shù)據(jù)按時間順序進(jìn)行排序,將每次訪問的位置視為用戶整個訪問“句子”的組成“詞語”,得到的所有訪問位置就可以作為位置詞庫。在此基礎(chǔ)上,應(yīng)用Skip-gram模型去學(xué)習(xí)每個詞語(即每個位置)的向量表達(dá)。需要注意的是,每個位置的向量表達(dá)與其上下文密切相關(guān),即每次訪問前后訪問的一串位置對此次訪問位置的語義向量表達(dá)也有著重要的影響。由于每個用戶的訪問軌跡通過時間順序組織,故連續(xù)訪問的位置之間的隱含關(guān)系已經(jīng)被包含在內(nèi)。盡管,每次訪問后的位置在當(dāng)時并不可知。但是,在用戶特征識別過程中,可以先通過歷史軌跡進(jìn)行建模,在有新的軌跡訪問點加入后繼續(xù)進(jìn)行調(diào)整。因此,通過將基站訪問序列視為虛擬句子,每次訪問位置及其上下文位置的關(guān)聯(lián)性可以得到更好的模擬。 每一個用戶的軌跡由兩個平行的序列按時間順序組成: 1)基于時間段和語義特征的語義序列。2)訪問基站的地理位置序列。序列中的點按時間順序一一對應(yīng),如圖5所示。 圖5 軌跡語義序列和位置序列 如果將每個用戶的軌跡作為一個文檔,其中的每個軌跡點就是文檔中的單詞。因每個軌跡點同時包含語義信息和位置信息,故每個軌跡點相當(dāng)于同時對應(yīng)了兩個單詞。即按照時間順序,每個用戶的軌跡對應(yīng)了語義序列和位置序列兩個文檔。通過Word2vec分別對這兩個文檔的單詞進(jìn)行訓(xùn)練,得到軌跡語義詞向量和位置詞向量后,再將二者用元素相加的方式結(jié)合在一起。即可以得到不同時間段軌跡點的向量表達(dá),并在此基礎(chǔ)上對每個用戶的軌跡進(jìn)行算數(shù)平均,得到每個用戶的向量代表,如圖6所示[13]。 圖6 通過Word2vec方法從軌跡語義和位置信息得到用戶軌跡特征的流程圖 本文中采用的軌跡數(shù)據(jù)來自于某通訊運營商。隨機(jī)抽樣1 163位用戶,提取2017年1月1日至2017年8月16日的所有基站訪問數(shù)據(jù)和含用戶年齡特征的用戶基本信息數(shù)據(jù),共計4 257 754條有效記錄。利用基站數(shù)據(jù)中的經(jīng)緯度,通過國內(nèi)某知名地圖服務(wù)商API服務(wù),得到基站相關(guān)POI記錄43 863條。在用戶ID匹配和基站經(jīng)緯度匹配的基礎(chǔ)上(圖7),通過VSDA Pruning剪枝過濾,最終整理出有效數(shù)據(jù)2 385 094條。具體說明如表2至表4所示。 圖7 數(shù)據(jù)之間的匹配 表2 用戶信息表 用戶信息的字段包括: 用戶ID和用戶年齡段。 表3 基站訪問數(shù)據(jù)表 基站訪問信息的字段包括: 用戶ID、訪問時間、基站代碼、基站經(jīng)度、基站緯度。 表4 基站周邊POI數(shù)據(jù)表 基站周邊POI數(shù)據(jù)的字段包括: 基站代碼、基站經(jīng)度、基站緯度、POI經(jīng)度、POI緯度、POI距離基站距離、POI一級標(biāo)簽、POI二級標(biāo)簽。 通過TFT-IDFT的方式對軌跡點周邊POI數(shù)據(jù)進(jìn)行分析,提取每個軌跡點最具代表性的地址特征??梢钥吹?,在不同時間段,不同年齡段用戶的軌跡語義特征存在著一定的差異。 例如,如圖8所示,工作日早上的休閑場所,18—25歲的青少年出現(xiàn)的頻率最高,而工作日晚上青少年出現(xiàn)的頻率最低。25—45歲的青壯年和45—65歲中年人群在兩個時間出現(xiàn)的頻率比較穩(wěn)定,且在晚上時段出現(xiàn)的頻率明顯超過其他兩個年齡段的人群。另外,如圖9所示,同樣是在工作日的早上,中青年人群在公司企業(yè)出現(xiàn)的頻率明顯高于老年人群,而老人群出現(xiàn)在急救中心的頻率遠(yuǎn)超過其他三類人群,與現(xiàn)實相符。 圖8 各年齡段人群在工作日早上和晚上訪問休閑廣場的頻率分布 圖9 各年齡段人群在工作日早上訪問公司企業(yè)和急救中心的頻率分布 分類模型的訓(xùn)練數(shù)據(jù)為總數(shù)據(jù)中隨機(jī)抽取的67%,剩余的33%作為測試集。采用分類算法中通用的評價指標(biāo): 精確度(Precision)、召回率(Recall)和準(zhǔn)確度(Accuracy)來評價模型的效果,如式(9)~式(11)所示。 (9) 表5 模型識別評分標(biāo)準(zhǔn) 精確度又稱查準(zhǔn)率,反映了模型識別正確的正例在所有正例樣本中的占比;召回率又稱查全率,反映了模型識別正確的正例在所有識別正確樣本中的占比;準(zhǔn)確率反映了模型對整體樣本的識別能力。這三個指標(biāo)的值越高,說明模型的識別能力越強(qiáng)。 為了更全面地反映年齡識別效果,本文選取了常用的4種分類識別方法: K近鄰(KNN)、邏輯回歸(LR)、決策樹(DT)和隨機(jī)森林(RF)。識別預(yù)測結(jié)果如表6所示,4種方法的ROC曲線如圖10所示。 表6 年齡段識別結(jié)果 圖10 4種分類識別方法的ROC曲線 從表6和圖10可以看出,對于本文劃分的4個年齡階段,決策樹(DT)和隨機(jī)森林(RF)的識別和預(yù)測結(jié)果相對更好。準(zhǔn)確率分別達(dá)到了69.78%和69.82%,好于K近鄰(KNN)65.96%和邏輯回歸(LR)51.66%的準(zhǔn)確度。在精確度和召回率上,決策樹(DT)和隨機(jī)森林(RF)也比其他幾種方法表現(xiàn)更好。 此外,通過比較TF-IDF方法和改進(jìn)的TFT-IDFT方法提取軌跡語義后的年齡識別準(zhǔn)確率,如圖11所示,可以看出通過TFT-IDFT方法提取軌跡語義,并在此基礎(chǔ)上應(yīng)用Word2vec提取軌跡詞向量的用戶年齡段識別模型具有更高的預(yù)測準(zhǔn)確率,即說明了TFT-IDFT的有效性。 圖11 基于TF-IDF與TFT-IDFT的用戶年齡識別準(zhǔn)確率比較 用戶軌跡的功能語義是識別用戶特征的重要依據(jù)。通過深入挖掘不同時間段各軌跡點所具備的功能語義,研究用戶訪問不同位置語義的概率,對于識別用戶特征具有重要意義。 本文從用戶的原始軌跡出發(fā),首先從速度、距離、時間、運動方向及其變化等方面,對原始軌跡數(shù)據(jù)進(jìn)行有效剪枝和清洗(VSTA Pruning)。然后,通過在傳統(tǒng)TF-IDF算法中添加時間標(biāo)簽,利用帶時間標(biāo)簽的TFT-IDFT方法提取軌跡點周邊的POI語義。在提取出的語義軌跡上通過使用Word2vec模型,對用戶的有效軌跡點進(jìn)行了向量化處理,并在此基礎(chǔ)上利用分類模型對用戶的年齡段特征進(jìn)行識別和預(yù)測。實驗結(jié)果表明,改進(jìn)的TFT-IDFT方法提取軌跡語義的效果明顯好于傳統(tǒng)的TF-IDF方法。建立在Word2vec模型生成的軌跡點時,時空詞向量上的分類模型(分類樹和隨機(jī)森林)對用戶年齡段的識別也具有一定的有效性。此外,由于本文使用的基站軌跡數(shù)據(jù)精確度并不高,而軌跡數(shù)據(jù)的來源廣泛,如手機(jī)的地圖App或社交App等可以獲取更加精確的GPS軌跡數(shù)據(jù)。因此,本文的研究不僅可以適用于當(dāng)前的基站軌跡數(shù)據(jù),還可以基于精確度更高的軌跡數(shù)據(jù)進(jìn)行用戶特征分析,應(yīng)用場景廣泛,可以為用戶識別與營銷推薦提供有效支持。 接下來的研究會從以下方面重點展開: 1)因數(shù)據(jù)限制,本文并未研究用戶的上網(wǎng)操作特征,實際上這也是用戶年齡段特征的重要識別因素。結(jié)合用戶在不同時間、不同地點和用戶當(dāng)時當(dāng)?shù)氐纳暇W(wǎng)鏈接和操作,可以進(jìn)一步提升分類的準(zhǔn)確率。2)通過向量化軌跡點的位置特征和語義特征,可以得到每個用戶唯一的向量化表示?;诖丝梢赃M(jìn)一步判斷用戶之間的相似性,通過聚類方式可以找出不同年齡段用戶的生活規(guī)律和行為習(xí)慣,甚至可以識別出不屬于該年齡段的上網(wǎng)行為,確定移動端實時使用人的身份特征,為進(jìn)一步分析不同年齡段用戶上網(wǎng)行為提供支持。2.2 軌跡語義分析
2.3 軌跡語義詞向量構(gòu)建
3 實驗結(jié)果與分析
3.1 實驗數(shù)據(jù)及數(shù)據(jù)預(yù)處理
3.2 不同年齡段人群軌跡語義分布
3.3 年齡識別方法與評價指標(biāo)
4 結(jié)束語