卞怡倩 ,趙 濤,李 欣
安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,安徽蚌埠,233030
作為能夠滿足用戶日?;顒?dòng)需求的平臺(tái),社交網(wǎng)絡(luò)(Social Network Service即SNS)已成為許多人進(jìn)行各種活動(dòng)時(shí)不可或缺的一部分。不同SNS提供了不同的功能,例如,微信、Facebook等網(wǎng)站主要為用戶提供了日常交流的功能,而微博、Twitter等則是一種可以通過關(guān)注機(jī)制為用戶提供及時(shí)消息以及分享日常的平臺(tái)。同一個(gè)用戶往往會(huì)進(jìn)行一個(gè)以上的SNS賬號(hào)注冊(cè),以滿足使用者所有層面的需求。為了識(shí)別出同一用戶在不同SNS中的虛擬身份,進(jìn)行更加精準(zhǔn)的用戶畫像描述,提供個(gè)性化的服務(wù)以及維持網(wǎng)絡(luò)秩序,跨社交網(wǎng)絡(luò)的用戶身份識(shí)別技術(shù)已成為當(dāng)前的熱點(diǎn)問題。
社交網(wǎng)絡(luò)中的用戶名[1-3]、用戶昵稱[4-6]以及用戶生成內(nèi)容(UGC)信息[7-10]都可以辨別出不同SNS中的同一使用者。但隨著用戶隱私保護(hù)意識(shí)的增強(qiáng),不同社交網(wǎng)絡(luò)的可訪問信息變得越來越分散且不一致,導(dǎo)致這些方法會(huì)出現(xiàn)識(shí)別精確度低、信息不易獲取的問題。在SNS中,用戶的關(guān)系不易偽造,通常沒有兩個(gè)用戶能夠共享完全相同的朋友關(guān)系;一些社交網(wǎng)站為了給用戶提供更好的服務(wù),會(huì)公開獲取用戶關(guān)系的接口,使得用戶關(guān)系的獲取變得更加容易。因此,基于用戶關(guān)系信息的身份識(shí)別比其他方法更可靠、更精確。
在現(xiàn)有的研究中,基于用戶關(guān)系的身份識(shí)別主要分為三類:是否基于先驗(yàn)節(jié)點(diǎn)、基于多種維度信息以及其他識(shí)別方法。
現(xiàn)有的多數(shù)基于用戶關(guān)系的識(shí)別方法均是有監(jiān)督或半監(jiān)督的,這需要事先獲得一些匹配相同的用戶或種子用戶,即先驗(yàn)知識(shí)。Zhou等[11]對(duì)不同社交網(wǎng)絡(luò)中的所有候選用戶的匹配度進(jìn)行計(jì)算,篩選出匹配度高的用戶,視為相同用戶來衡量,并通過共同擁有的相同用戶的數(shù)量以及相同用戶的相似度進(jìn)行匹配來提高該算法的效率。這種FRUI算法能夠基于用戶的朋友關(guān)系對(duì)用戶身份進(jìn)行識(shí)別,只有匹配度高的用戶才會(huì)被視為同一用戶,該模型也能很好地適應(yīng)跨平臺(tái)任務(wù)。作者在進(jìn)一步的研究中發(fā)現(xiàn),當(dāng)種子節(jié)點(diǎn)不合適時(shí),這種算法將會(huì)停止運(yùn)行,因此針對(duì)這一現(xiàn)象,Li等[12]通過引入一個(gè)新的計(jì)算方法p-FRUI對(duì)有爭(zhēng)議的節(jié)點(diǎn)進(jìn)行一種復(fù)雜計(jì)算,提高了這一算法的識(shí)別精度。
劉奇飛等[13]對(duì)傳統(tǒng)的LINE算法加以改良,將算法與先驗(yàn)關(guān)聯(lián)關(guān)系結(jié)合,提出CSN_LINE算法改進(jìn)一、二階親密度函數(shù),利用多層感知機(jī)構(gòu)建了基于用戶關(guān)系的用戶識(shí)別算法模型。文中將已獲取的用戶關(guān)系數(shù)據(jù)在DeepWalk、node2vec以及LINE算法中通過召回率(recall)、精確率(precision)以及正確率(accuracy)進(jìn)行效果對(duì)比驗(yàn)證了LINE算法的可行性,并選取不同的調(diào)節(jié)參數(shù)值對(duì)CSN_LINE模型驗(yàn)證,發(fā)現(xiàn)當(dāng)參數(shù)值為5、7、9時(shí),身份關(guān)聯(lián)效果最佳,其F1值分別達(dá)到了0.856 3、0.855 2、0.858 3,進(jìn)一步驗(yàn)證了經(jīng)過改良的LINE算法的可行性。
當(dāng)先驗(yàn)節(jié)點(diǎn)無從獲取時(shí),通過人工標(biāo)識(shí)來獲取數(shù)據(jù)將變成一項(xiàng)困難的工作。Zhou等[14]提出了模型FRUI-P來識(shí)別多個(gè)SNS使用者的關(guān)系。這種算法首先將選取的社交網(wǎng)絡(luò)中用戶的好友特征通過深度學(xué)習(xí)中的隨機(jī)游走算法抽象為特征向量,得到兩個(gè)社交網(wǎng)絡(luò)相同用戶的好友相似性,最后利用計(jì)算相似性來識(shí)別用戶,并從理論上驗(yàn)證了模型的可行性。引入了三個(gè)參數(shù)來改善模型的性能以及λ保證模型的高精度,并發(fā)現(xiàn)隨著λ值的正向變化,模型的精度也隨之上升。該算法識(shí)別結(jié)果的精度較高,最終還被證實(shí)能夠?yàn)槠渌惴ㄈ缦惹暗腇RUI等提供先驗(yàn)知識(shí)。
Li[15]認(rèn)為,K-hop鄰居的信息冗余對(duì)用戶識(shí)別具有一定的積極作用,于是利用K-hop鄰居節(jié)點(diǎn)的相似程度(用戶朋友關(guān)系、用戶朋友群、聚類系數(shù))來描述友誼網(wǎng)絡(luò)中的信息冗余,并在十個(gè)常用分類器中處理這些信息冗余時(shí)發(fā)現(xiàn),GB在處理三個(gè)SNS中獲取的真實(shí)數(shù)據(jù)集時(shí)的分類性能較高,通過實(shí)驗(yàn)計(jì)算出了GB的最優(yōu)參數(shù),使特征重要性趨于平衡,以提高分類性能,最后在數(shù)據(jù)集中驗(yàn)證了本文提出的UI-FR算法的有效性。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),與K-hop鄰居相關(guān)的相似性對(duì)用戶識(shí)別的貢獻(xiàn)遠(yuǎn)遠(yuǎn)大于其他參數(shù)的相似性,并且K-hop鄰居的信息冗余在用戶識(shí)別中具有很好的性能。
由表1可知,基于有先驗(yàn)節(jié)點(diǎn)的識(shí)別方法精確率普遍低于無先驗(yàn)節(jié)點(diǎn)的識(shí)別結(jié)果。其中,造成FRUI識(shí)別精度最低的原因是每個(gè)數(shù)據(jù)中共同關(guān)系的JACCARD相似系數(shù)的比例非常低,且該算法在很大程度上依賴于共同關(guān)系的比例,因此識(shí)別精度較低。而UI-FR則使用了很多特征來匹配用戶,因而大大提升了最終的識(shí)別精度。
表1 各算法識(shí)別結(jié)果對(duì)比
基于有先驗(yàn)節(jié)點(diǎn)的識(shí)別方法算法的實(shí)現(xiàn)相對(duì)簡(jiǎn)單,但需要一些特定用戶的信息,在一些難以獲得先驗(yàn)知識(shí)的情況下,手動(dòng)標(biāo)記先驗(yàn)知識(shí)將會(huì)十分困難,因而該方法有一定的局限性。基于無先驗(yàn)節(jié)點(diǎn)的方法克服了有先驗(yàn)節(jié)點(diǎn)方法的弊端,解決了手動(dòng)標(biāo)記的問題,且還可用于生成監(jiān)督、半監(jiān)督方法的先驗(yàn)知識(shí),但該方法的實(shí)現(xiàn)也較為復(fù)雜、困難。
在研究中發(fā)現(xiàn),基于單個(gè)用戶關(guān)系的識(shí)別有時(shí)會(huì)受到數(shù)據(jù)集大小等因素的限制,因此一些學(xué)者開始基于多維度信息識(shí)別用戶以提高識(shí)別效果。
Vosecky等[16]在早期對(duì)用戶身份進(jìn)行識(shí)別時(shí),采用了一種基于輪廓屬性和友誼網(wǎng)絡(luò)的方法,為基于用戶關(guān)系冗余信息的身份識(shí)別開創(chuàng)了先例。文獻(xiàn)通過已有的兩個(gè)社交網(wǎng)站數(shù)據(jù)集,研究輪廓屬性的相似性,開發(fā)了一個(gè)輪廓屬性比較工具,將配置文件的表示作為向量,求得兩個(gè)輪廓向量的類似程度。當(dāng)兩個(gè)配置文件的相似度達(dá)到一定的閾值時(shí),該內(nèi)容即屬于同一個(gè)使用者。最后結(jié)果展示了該模型在不同的網(wǎng)站上匹配相同用戶的有效性與高效性。
雖然UI-FR在實(shí)驗(yàn)中取得了較其他算法更高的精度,但友誼網(wǎng)絡(luò)的獲取仍會(huì)受到用戶設(shè)置的影響。為了解決這個(gè)問題,擴(kuò)大數(shù)據(jù)集,Li[15]將用戶好友關(guān)系與顯示名稱相結(jié)合,利用顯示名稱冗余信息提高原算法的識(shí)別精度。在可獲得的數(shù)據(jù)集中,基于用戶顯示名稱的數(shù)據(jù)集遠(yuǎn)大于基于用戶關(guān)系的數(shù)據(jù)集,但由于顯示名稱具有可偽造性,因此基于單個(gè)用戶名稱的識(shí)別不能展現(xiàn)出很好的匹配效果。如果結(jié)合用戶關(guān)系的獨(dú)特性對(duì)UI-FR模型進(jìn)行改進(jìn)(UI-FRName),顯然其識(shí)別效果高于普通的基于用戶顯示名稱模型。結(jié)果表明,基于用戶關(guān)系和顯示名稱的識(shí)別可以極大地提高原模型的性能以及通用性。
Nie等[17]認(rèn)為用戶在進(jìn)行社交網(wǎng)絡(luò)的活動(dòng)時(shí)會(huì)展現(xiàn)出幾個(gè)特點(diǎn):用戶的核心利益在短期內(nèi)較為穩(wěn)定;核心利益改變時(shí),用戶在社交網(wǎng)絡(luò)中的虛擬身份的核心利益也會(huì)隨之變化;SNS用戶更傾向于與有相同喜好的用戶來往;積極度較高的SNS使用者會(huì)在SNS中表現(xiàn)與現(xiàn)實(shí)生活中相同的核心偏好。基于這四個(gè)特征,Nie提出了一種基于用戶關(guān)系和原創(chuàng)內(nèi)容的動(dòng)態(tài)核心利益算法(DCIM)。他將用戶在社交網(wǎng)站中的行為偏向分為核心利益和邊際利益,對(duì)核心利益進(jìn)行建模,利用DCIM計(jì)算目標(biāo)用戶的相似性,并將模型應(yīng)用于驗(yàn)證核心利益的合理性以及檢測(cè)算法在真實(shí)數(shù)據(jù)集中的真實(shí)性。在對(duì)識(shí)別結(jié)果的召回率、準(zhǔn)確率的分析中,驗(yàn)證了該模型在配對(duì)跨SNS用戶匹配中的可行性。
由于基于單個(gè)用戶名、用戶生成內(nèi)容以及用戶關(guān)系的方法都有著可識(shí)別性弱、稀疏性高等特征,降低了用戶識(shí)別的精度,因此Zhang等[18]同時(shí)基于用戶名、用戶生成內(nèi)容、用戶關(guān)系作為重疊關(guān)系展開身份識(shí)別研究,將微博和豆瓣分別作為源社交網(wǎng)絡(luò)和目標(biāo)社交網(wǎng)絡(luò),評(píng)估兩個(gè)網(wǎng)站間的重疊關(guān)系和好友關(guān)系特征的相關(guān)性。文章通過眾包、注釋和提取用戶描述獲取種子目標(biāo)并加以訓(xùn)練,利用重疊關(guān)系選取候選用戶集,并根據(jù)用戶名、用戶生成內(nèi)容以及用戶關(guān)系進(jìn)行身份匹配。在通過召回率、準(zhǔn)確率、精確率和F1進(jìn)行評(píng)估時(shí)展現(xiàn)出了較好的識(shí)別性能。
由此可見,將用戶關(guān)系結(jié)合多種維度進(jìn)行身份識(shí)別時(shí),在一定程度上能夠改進(jìn)識(shí)別方法的結(jié)果。但基于多維度因素的數(shù)據(jù)的收集、建模對(duì)技術(shù)的要求高,且計(jì)算更為復(fù)雜。因此,基于多維度的身份識(shí)別還處于起步階段,現(xiàn)有的研究成果較少,將來仍是一個(gè)值得深入研究的課題。
Korula[19]將基于用戶關(guān)系的身份識(shí)別問題公式化,設(shè)計(jì)了一種局部分散式演算法。他們將有關(guān)圖形的結(jié)構(gòu)信息初始鏈路集擴(kuò)展為兩個(gè)網(wǎng)絡(luò)中很大一部分節(jié)點(diǎn)的映射,遞歸地測(cè)量了兩個(gè)不同的社交網(wǎng)絡(luò)用戶的相似程度,以描述兩個(gè)友誼網(wǎng)絡(luò)的相似性,并在真實(shí)的數(shù)據(jù)集上驗(yàn)證了該算法的可行性。
由Fu等[20]提出了一種建立于圖結(jié)構(gòu)和描述信息的節(jié)點(diǎn)相似度上的測(cè)量方法以及基于該方法的一種去匿名化算法。該算法經(jīng)由迭代的過程評(píng)估多個(gè)SNS中多個(gè)節(jié)點(diǎn)的相似性。將該算法與幾種典型的算法在真實(shí)數(shù)據(jù)集上進(jìn)行評(píng)估,驗(yàn)證了NM算法在去匿名化任務(wù)中的有效性,在一定程度上解決了無先驗(yàn)節(jié)點(diǎn)時(shí)評(píng)估用戶相似性的難題,為其后的研究提供了參考。
Tan等[21]采用了超圖方法,建立高階用戶關(guān)系模型。超圖由點(diǎn)和邊構(gòu)成,每個(gè)頂點(diǎn)對(duì)應(yīng)一個(gè)用戶,每條邊對(duì)應(yīng)一個(gè)用戶關(guān)系。不同于以往的學(xué)習(xí)方法,這一算法將用戶關(guān)系表示為矩陣形式,并通過降低秩以縮減計(jì)算難度。最后用向量計(jì)算關(guān)聯(lián)度,并進(jìn)行用戶匹配。
由于相匹配的節(jié)點(diǎn)在不同網(wǎng)絡(luò)中具有一致性,因此可以通過節(jié)點(diǎn)的相似性進(jìn)行用戶匹配,且節(jié)點(diǎn)之間的關(guān)系可以通過親密度量化,因此徐乾[22]提出了一種用戶的好友關(guān)系的帶權(quán)超圖的識(shí)別算法(WHUI),結(jié)合網(wǎng)絡(luò)用戶身份的已知節(jié)點(diǎn)信息來表示該節(jié)點(diǎn)所處的關(guān)系結(jié)構(gòu),最終利用交叉匹配算法可以求出匹配的節(jié)點(diǎn),實(shí)現(xiàn)用戶的識(shí)別。文中使用DBLP數(shù)據(jù)庫(kù)數(shù)據(jù)創(chuàng)建了一個(gè)虛擬的社交網(wǎng)絡(luò)并使用一個(gè)真實(shí)數(shù)據(jù)集進(jìn)行模型測(cè)試,發(fā)現(xiàn)算法在各項(xiàng)指標(biāo)上均優(yōu)于傳統(tǒng)算法。
隨著圖神經(jīng)網(wǎng)絡(luò)研究的進(jìn)一步發(fā)展,為用戶身份識(shí)別在展現(xiàn)出巨大的潛力的同時(shí)也面臨著對(duì)具有社區(qū)屬性的全局結(jié)構(gòu)進(jìn)行編碼等的挑戰(zhàn)?;谶@些挑戰(zhàn),Zhang等[23]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的識(shí)別算法(GraphUIL),有效地學(xué)習(xí)了社交網(wǎng)絡(luò)的用戶表示,并且解決了用戶關(guān)系的鏈接問題,即用戶身份鏈接預(yù)測(cè),極大地提高了預(yù)測(cè)的性能。這種特征學(xué)習(xí)的過程一般稱為節(jié)點(diǎn)嵌入,其目的是為了將網(wǎng)絡(luò)結(jié)構(gòu)映射到一個(gè)低維空間,并在此基礎(chǔ)上保留原始特征,以降低計(jì)算的難度并改善識(shí)別的精度。在結(jié)果的對(duì)比測(cè)試中,GraphUIL測(cè)定結(jié)果的精確率達(dá)到了0.754,遠(yuǎn)遠(yuǎn)優(yōu)于其他現(xiàn)有算法的性能。
綜上,基于用戶關(guān)系的其他識(shí)別方法的創(chuàng)新點(diǎn)見表2。
表2 基于用戶關(guān)系的其他識(shí)別方法
在基于用戶關(guān)系進(jìn)行身份識(shí)別時(shí),通常會(huì)將兩個(gè)網(wǎng)絡(luò)分別嵌入低維向量空間來表示用戶關(guān)系,以減少計(jì)算量。但在使用這種方法時(shí)往往會(huì)造成信息的丟失并且有丟失隱私數(shù)據(jù)的可能性,同時(shí)在進(jìn)行識(shí)別時(shí)會(huì)忽略用戶關(guān)系的相似性等問題。
與其他的識(shí)別方法相比,用戶關(guān)系信息具有一定的真實(shí)性,一定程度上克服了其他屬性信息存在的虛構(gòu)、不全面等問題,吸引了大量學(xué)者的研究。但由于網(wǎng)絡(luò)結(jié)構(gòu)同時(shí)所具有的稀疏性以及不同SNS的異構(gòu)性,基于用戶關(guān)系的身份識(shí)別難度大幅提高,在今后的研究中還需更先進(jìn)的技術(shù)支持,進(jìn)一步提高識(shí)別精度。
本文總結(jié)了現(xiàn)有的基于用戶關(guān)系的跨社交網(wǎng)絡(luò)身份識(shí)別方法,分別從基于有、無先驗(yàn)節(jié)點(diǎn)、基于多維度以及其他識(shí)別方法三類進(jìn)行述評(píng)。基于采用用戶關(guān)系進(jìn)行身份識(shí)別時(shí)所遇到的問題,提出以下研究展望,在收集數(shù)據(jù)時(shí),由于各SNS之間信息存在的碎片化、不一致等特性,以及用戶關(guān)系的異構(gòu)化,導(dǎo)致可以收集到的數(shù)據(jù)較少,使得識(shí)別結(jié)果精度不夠高。如何解決這一問題,提高用戶關(guān)系數(shù)據(jù)量,是提高基于用戶關(guān)系識(shí)別精度的一個(gè)重要指標(biāo),在今后,基于大量數(shù)據(jù)的研究十分關(guān)鍵。不難發(fā)現(xiàn),在基于單個(gè)用戶關(guān)系數(shù)據(jù)進(jìn)行用戶識(shí)別時(shí),其精度往往低于基于多維度的識(shí)別結(jié)果,但其建模的難度導(dǎo)致現(xiàn)有的研究成果還不多。因此,提高技術(shù)水平,開發(fā)基于多維度用戶關(guān)系識(shí)別方法的模型是該領(lǐng)域未來的研究主流。值得關(guān)注的是,隨著用戶對(duì)個(gè)人隱私保護(hù)意識(shí)增強(qiáng),如何獲得高質(zhì)量的數(shù)據(jù)以及在無先驗(yàn)節(jié)點(diǎn)的情況下獲得較好的識(shí)別效果仍然是一個(gè)值得關(guān)注的重點(diǎn)問題。