摘 要:近年來,失信被執(zhí)行人的數(shù)量和被執(zhí)行金額都有所增加,因此案件的有效執(zhí)行成為了影響社會穩(wěn)定的重要因素。法院也針對該現(xiàn)狀逐步完善了相關(guān)立法和條規(guī),加強了對失信被執(zhí)行人的懲治措施和追查力度。本文為了幫助法院提高找人的效率,提出了一種基于用戶社交網(wǎng)絡(luò)信賴度的居住地位置推測PLRU(Predict Location Based on the Reliability of Social-online Users)模型。本文根據(jù)失信被執(zhí)行人的在線社交歷史進行相關(guān)社交用戶的信賴度估計及篩選,然后對選取的用戶 社交聊天文本有關(guān)居住地維度權(quán)重的內(nèi)容提取并進行估計。最后,結(jié)合失信被執(zhí)行人歷史居住地的用戶畫像來篩選得到居住地預(yù)測范圍。
關(guān)鍵詞:在線社交;居住地預(yù)測;信賴度模型
隨著移動設(shè)備、無線網(wǎng)絡(luò)和社交網(wǎng)絡(luò)的飛速發(fā)展,以聊天為主的各種軟件成為社交必備。目前典型的有微信、QQ、Twitter、LINE等,在社交聊天的過程中,用戶會在其朋友圈、空間中分享有關(guān)他們活動的地理位置信息,這使得地理位置數(shù)據(jù)逐漸成為一種質(zhì)量極高的信息資源。同時社交網(wǎng)絡(luò)不僅包括了傳播信息,還包括用戶行為。我們的社會活動是在不斷地與他人聯(lián)系和互動中形成,所以很多情況下人的行為只有在情景上下文中才能得到理解。因此本文假設(shè),若一名失信被執(zhí)行人在面對法院追查的情況下,最大概率行為的是向其好友尋求幫助。其中好友并不僅代表朋友,是指以聊天軟件為基礎(chǔ)得出的信賴值排名較高的用戶。本文基于用戶信賴度提出的PLRU模型主要分為三塊內(nèi)容:用戶信賴度賦值、本地詞語提取和歷史居住地用戶畫像。
一、問題描述
本文的研究目標(biāo)是利用與好友的社交內(nèi)容來預(yù)測失信被執(zhí)行人的未來居住地信息。主要有以下幾個目標(biāo):①如何通過社交網(wǎng)絡(luò)來準(zhǔn)確得到可靠的用戶信賴度權(quán)重;②如何利用好友社交互動提高地理關(guān)鍵詞的準(zhǔn)確性;③對居住地信息的用戶畫像維度權(quán)重的準(zhǔn)確計算。
本實驗以微信、QQ、Twitter和LINE為信息來源,對被研究對象的聊天軟件互動信息進行研究,并進行聊天好友用戶進行信賴度估計,選取高信賴度的好友聊天內(nèi)容進行地理關(guān)鍵詞提取構(gòu)建本地詞語。最后結(jié)合居住地用戶畫像的維度評分來確定居住預(yù)測地。本文的重點在于提取高質(zhì)量的地理詞文本,但前提是需要提高已收集到的資料中文本提取的有效性以及提取范圍的可靠性。因此,本文通過以用戶信賴度的計算為前提進行數(shù)據(jù)前期處理,有效縮小提取范圍并在提高運行效率。
二、基于社交聊天的用戶信賴度估計
面對龐大的聊天文本數(shù)據(jù),要想提高對聊天文本中地理信息的關(guān)鍵詞提取的運行效率以及質(zhì)量,就須劃分出有效的數(shù)據(jù)集,準(zhǔn)確縮小查找范圍。所以本文提出以用戶信賴度為基礎(chǔ)對數(shù)據(jù)文本劃分,進行有效的內(nèi)容查找提高執(zhí)行效率。在測算好友信任度時,可分為直接好友與間接好友分別進行測算。Yang等提出一種基于朋友信賴圈的社會化標(biāo)簽推薦算法,與Ma、Wang等人都是通過給不同的好友賦予不同的權(quán)重來計算用戶之間的信賴值;潘一騰等人則是提出了信任隱含相似度為基礎(chǔ)進一步對信任度的評分進行改進。馮宇等人則是以社會學(xué)六度分割理論為基礎(chǔ),計算對用戶的信任度。這些對信賴強度進行探索的工作,很好的挖掘了社交關(guān)系中的隱含信息,但不能很好的處理評分和信賴數(shù)據(jù)稀疏的情況。本文主要針對這些工作的以下兩個不足之處進行改進,在信賴數(shù)據(jù)稀疏的情況下,也能得到有效的結(jié)果,并對每組用戶間的信賴強度綜合進行考量。
首先根據(jù)社交聊天收集到的實驗數(shù)據(jù),本文以對失信被執(zhí)行人的社交好友進行信賴度進行估計。以聊天的頻率、內(nèi)容及社交時間等進行數(shù)據(jù)采集估計,得出的信賴值為(0,1)。其中,好友分為直接好友與間接好友,分別對其進行用戶信賴度的計算,對間接好友的不同路徑產(chǎn)生的信賴度進行加和。在選取的樣本量較大的前提下,我們可以發(fā)現(xiàn)用戶的信賴度總評分隨好友量的增加呈半曲線性遞減。選取信賴度有效并評分較高的前n個,作為有效的篩選結(jié)果。
三、基于語義的地理特征詞以及情感詞的提取
在傳統(tǒng)的本地詞語提取方式中,主要有LDA模型、TF-IDF算法和基于共現(xiàn)詞的關(guān)鍵詞提取算法等。劉江華提出了一種基于kmeans聚類算法和LDA主題模型的文本檢索方法及有效性驗證,但是缺乏情感詞的提取,無法反映出對不同地理詞態(tài)度。和志強則對基于詞共現(xiàn)的關(guān)鍵詞提取算法研究與改進,提出了一種優(yōu)于TF-IDF的算法,不過也沒有對情感類詞的提取進行優(yōu)化。本文利用一種以DBSCAN聚類算法為基礎(chǔ)結(jié)合LDA主題模型的DDA模型來對文本檢索來進行本地詞語R的提取以及得到相關(guān)的情感詞Z來顯示相關(guān)的態(tài)度,來得到情感偏好的主要地理位置。首先從文本數(shù)據(jù)集中得到相關(guān)的文本數(shù)據(jù),然后利用通過設(shè)置鄰域半徑與密度閾值 DT, 將滿足領(lǐng)域半徑的點分類匯集成一個中心群,能有效得將密度距離外的點進行除噪工作,其中與DT如下所示:
由于計算每份文檔中每個字詞的詞頻(Term Freqiency,TF)與計算字詞的特殊性所用的文檔頻率(Dociment Freqiency,DF)都會導(dǎo)致字詞的權(quán)重計算結(jié)果不同,為了解決文檔的篇幅對詞語權(quán)重計算的影響,以及在文檔內(nèi)容中被遺漏而導(dǎo)致缺失的詞語內(nèi)容,利用公式:
Wij是修正過后字詞fj在文章中的權(quán)重,tfij為詞于聊天內(nèi)容中出現(xiàn)的次數(shù),N為集合聊天文本數(shù),nj為的字母數(shù)。maxT為文件集合中擁有最大詞頻的字詞總數(shù)之詞頻數(shù),用來解決較高詞頻的問題
四、基于模糊綜合分析法的權(quán)重模型
經(jīng)過上述實驗流程之后,我們可以根據(jù)篩選出的信任用戶,即本文稱為的好友及與其之間的聊天內(nèi)容計算得到失信被執(zhí)行人常出現(xiàn)并情感偏好的幾個主要地理位置,這將成為實驗預(yù)測居住地范圍的重要位置。同時,我們還需要查找失信被執(zhí)行人的歷史居住地資料,包括身份證地址、房產(chǎn)證地址、租賃信息地址以及淘寶收貨地等,對其躲藏前的常駐地的居住地信息進行居住地用戶畫像刻畫。
本文將失信被執(zhí)行人的居住地的歷史用戶畫像維度定義為U,l為維度數(shù), ? ? ? ? ? ? ? ? ? ? ? ? ? 。杜德斌、張小玉等人大致都將影響因素分為房價、交通、環(huán)境、就業(yè)可達性、工作地、家庭生命周期、居民社會屬性和收入。本文結(jié)合眾多學(xué)者從年齡段、是否為外來人口等不同角度對影響居住區(qū)選擇的因素研究,采用模糊綜合分析法可以避免憑經(jīng)驗進行目標(biāo)選擇所固有的主觀性,使并購決策更加科學(xué)合理等。對U進行服務(wù)設(shè)施、交通條施件、環(huán)境狀況、房價和歸屬感五個維度的權(quán)重計算。同樣的,我們將得到的情感詞語Z按照相同的分類準(zhǔn)則進行以上五個維度的劃分,通過各自維度的詞數(shù) ? ? ? ? ? 與總維度詞數(shù)af的比值分別得到不同維度的詞頻率,即得
其中 代表在聊天內(nèi)容中展示出的對不同維度的敏感程度,敏感程度越高,其代表的WZn可靠性越高,再結(jié)合其歷史居住地得到的維度權(quán)重評分Wbn,可以利用附近或類似的居住地評估報告得到相關(guān)權(quán)重評分,進行加權(quán)得到最終的權(quán)重Wn。按照我們得到的維度打分表,對已得到的幾個關(guān)鍵地理位置進行打分,從而得到評分最高的地理位置,即最終居住地預(yù)測點。
五、結(jié)果分析
本文利用法院以往的歷史案例存檔數(shù)據(jù)進行了相應(yīng)的實驗檢測。其中,用到的相關(guān)案例中的中帶有位置的聊天內(nèi)容共有708920條數(shù)據(jù),占全部數(shù)據(jù)的33%。利用本文提出的PLRU模型,進行大數(shù)據(jù)實驗,并將實驗結(jié)果與Flap模型,UGC-LI模型進行實驗效果對比,發(fā)現(xiàn)結(jié)果的準(zhǔn)確率得到了提高,運行時間也相比各縮減了20%與13%,有效驗證了本模型對居住地預(yù)測的有效性。對比結(jié)果如下所示:
在實驗結(jié)果中選取其中部分實驗結(jié)果進行準(zhǔn)確度的對比,發(fā)現(xiàn)本模型下的實驗準(zhǔn)確度較高。同時,以Flap模型和UGC-LI模型為基準(zhǔn)進行PLRU模型執(zhí)行效率的對比,發(fā)現(xiàn)本實驗?zāi)P偷膱?zhí)行效率也都有顯著的提升。
針對居住地不明的失信被執(zhí)行人,本文利用網(wǎng)絡(luò)社交聊天,提出了一種基于用戶社交網(wǎng)絡(luò)信賴度的居住地位置推測PLRU模型。該模型有效的融合了社交網(wǎng)絡(luò)中的用戶信賴度與地理位置頻率,在失信被執(zhí)行人的居住地位置推斷預(yù)測過程中,不僅考慮了用戶之間的信賴度與聊天情感詞,同時引進了居住地用戶畫像,更具有針對性的對可能的居住地進行位置點篩選,有效得提高了結(jié)果準(zhǔn)確性。在追蹤失信被執(zhí)行人的過程中,失信被執(zhí)行人的用戶好友會發(fā)布實時動態(tài),這些動態(tài)能幫助我們及時更新本地詞語庫,更具時效性。
參考文獻:
[1]潘一騰,何發(fā)智,于海平.一種基于信任關(guān)系隱含相似度的社會化推薦算法[J].計算機學(xué)報,2018,41(01):65-81.
[2]馮宇,李愛萍,段利國.融合社交關(guān)系和位置影響的地點推薦算法[J].計算機工程與設(shè)計,2018,39(09):2934-2940.
[3]劉江華.一種基于kmeans聚類算法和LDA主題模型的文本檢索方法及有效性驗證[J].情報科學(xué),2017,35(02):16-21+26.
[4]和志強,王麗鵬,張鵬云.基于詞共現(xiàn)的關(guān)鍵詞提取算法研究與改進[J].電子技術(shù)與軟件工程,2018(01):144-146.
[5]杜德斌,崔裴,劉小玲.論住宅需求、居住選址與居住分異[J].經(jīng)濟地理,1996,16(1):82-90.
[6]張小玉,張志斌.蘭州市居民居住區(qū)位偏好研究[J].干旱區(qū)資源與環(huán)境,2015,29(05):36-41.
作者簡介:
傅揚嵐,1996年6出生,女,漢族,浙江金華人,研究生在讀,浙江財經(jīng)大學(xué)會計學(xué)院。
(浙江財經(jīng)大學(xué) 浙江 杭州 ?310018)