寧躍飛+李艷萍
摘 要: 傳統(tǒng)基于遺傳算法布局無向圖方法塑造的社交網(wǎng)絡(luò)消息可視化系統(tǒng)不適合大規(guī)模社交網(wǎng)絡(luò)消息的可視化,存在運(yùn)行時間長以及顯示效果粗糙等問題。針對該問題,設(shè)計并實現(xiàn)了基于Gephi的社交網(wǎng)絡(luò)消息可視化系統(tǒng),其由顯示層、業(yè)務(wù)邏輯層以及數(shù)據(jù)支撐層構(gòu)成,該系統(tǒng)可呈現(xiàn)出社交網(wǎng)絡(luò)消息的路徑傳播以及系統(tǒng)的可視化布局。詳細(xì)介紹了系統(tǒng)實現(xiàn)社交網(wǎng)絡(luò)消息可視化的工作流程。網(wǎng)絡(luò)工具Gephi分別采用基于時間序列以及樹狀排列的算法,對相似消息以及具有明確用戶轉(zhuǎn)發(fā)關(guān)系的消息進(jìn)行排序,對經(jīng)過排序后的消息采用Gephi的文件格式gexf進(jìn)行寫入保存操作,生成社交網(wǎng)絡(luò)消息的傳播路徑圖。實驗結(jié)果說明該系統(tǒng)具有較低的時間復(fù)雜度、對社交網(wǎng)絡(luò)的布局效果更佳,可視化性能強(qiáng)。
關(guān)鍵詞: Gephi; 社交網(wǎng)絡(luò); 消息可視化; 傳播路徑
中圖分類號: TN711?34; TP391.1 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)17?0183?04
Design and implementation of Gephi?based information visualization
analysis system for social network
NING Yuefei, LI Yanping
(Zhengzhou Shengda University of Economics, Business and Management, Zhengzhou 450000, China)
Abstract: The social network′s information visualization system constructed with traditional undirected graph method based on genetic algorithm is unsuitable for information visualization of large?scale social network, and has problems of long running time and rough display effect. In order to solve the above problems, a Gephi?based information visualization system of social network was designed and implemented. The system is composed of display layer, business logic layer and data support layer, and can present the information propagation path of the social network and visualization layout of the system. The work flow of social network information visualization realized with the system is introduced in detail. The algorithms based on time series and arborescence sorting are used in network tool Gephi respectively to sort the similar information and information with explicit user forwarding relation. The sorted information is written and saved with file format gexf of Gephi to generate the information propagation path diagram of social network. The experimental results show that the system has low time complexity, perfect layout effect of social network, and strong visualization performance.
Keywords: Gephi; social network; message visualization; propagation path
隨著科學(xué)技術(shù)的發(fā)展,社交網(wǎng)絡(luò)平臺在人們的生產(chǎn)和生活中具有廣泛的應(yīng)用價值,社交網(wǎng)絡(luò)平臺使得網(wǎng)絡(luò)輿論高速傳播,網(wǎng)絡(luò)中的數(shù)據(jù)量呈現(xiàn)爆炸式增長[1]。對社交網(wǎng)絡(luò)中的海量數(shù)據(jù)進(jìn)行分析和可視化,能夠?qū)⒊橄蟮臄?shù)據(jù)變換成人們更易理解和觀測的圖形,形象描述出數(shù)據(jù)內(nèi)的信息,實現(xiàn)輿論信息的有效監(jiān)控[2]。傳統(tǒng)基于遺傳算法布局無向圖方法塑造的社交網(wǎng)絡(luò)消息可視化系統(tǒng)不適合大規(guī)模社交網(wǎng)絡(luò)消息的可視化,存在運(yùn)行時間長以及顯示效果粗糙等問題[3]。因此設(shè)計更加準(zhǔn)確、高效的社交網(wǎng)絡(luò)消息可視化分析系統(tǒng)具有重要的應(yīng)用意義。
1 Gephi的社交網(wǎng)絡(luò)消息可視化分析系統(tǒng)
1.1 系統(tǒng)邏輯層結(jié)構(gòu)
本文設(shè)計的可視化系統(tǒng)由顯示層、業(yè)務(wù)邏輯層以及數(shù)據(jù)支撐層構(gòu)成,如圖1所示。
(1) 顯示層為用戶提供了可交互的界面,確保用戶在界面上設(shè)置需要呈現(xiàn)的數(shù)據(jù)和待檢索的文字信息,并向用戶呈現(xiàn)結(jié)果信息、文本檢索信息排列情況以及社團(tuán)狀態(tài)等。
(2) 業(yè)務(wù)邏輯層用于對顯示層反饋的用戶需求進(jìn)行操作,將操作后的數(shù)據(jù)以及圖形信息再反饋到顯示層。業(yè)務(wù)邏輯層由數(shù)據(jù)爬取模塊、數(shù)據(jù)操作模塊、文本向量化模塊以及可視化模塊構(gòu)成[4]。其中的數(shù)據(jù)爬取模塊設(shè)計在新浪微博API中的網(wǎng)絡(luò)爬蟲可按照顯示層設(shè)定的爬取需求完成社交網(wǎng)絡(luò)信息的采集。數(shù)據(jù)處理模塊將爬取的數(shù)據(jù)變換成后續(xù)需要處理的格式化數(shù)據(jù)[5],通過MapReduce和Oozie協(xié)同進(jìn)行用戶間行為的采集、用戶關(guān)系數(shù)據(jù)的加權(quán)以及用戶微博數(shù)據(jù)格式化等處理。社團(tuán)劃分模塊采用不同的社團(tuán)劃分方法,將獲取的用戶關(guān)系加權(quán)數(shù)據(jù)進(jìn)行社團(tuán)劃分,存儲獲取的社團(tuán)信息。文本向量化模塊將社團(tuán)的微博文本信息和顯示層反饋的檢索文件變換成向量,運(yùn)算獲取社團(tuán)信息同檢索文本的同類度,將完成排序的結(jié)果反饋給后續(xù)模塊??梢暬K采用Gephi工具,基于獲取的社團(tuán)信息以及用戶關(guān)系,獲取社交網(wǎng)絡(luò)消息的路徑傳播圖[6],通過顯示層呈現(xiàn)系統(tǒng)可視化布局圖。endprint
(3) 數(shù)據(jù)支撐層實現(xiàn)系統(tǒng)中數(shù)據(jù)爬取模塊獲取的數(shù)據(jù),以及其他不同模塊間中間數(shù)據(jù)的分布式存儲。
1.2 系統(tǒng)的工作流程
基于Gephi的社交網(wǎng)絡(luò)消息可視化分析系統(tǒng)的運(yùn)行流程圖如圖2所示。
圖2描述的系統(tǒng)詳細(xì)工作流程如下:
(1) 若客戶需要的社交網(wǎng)絡(luò)可視化消息數(shù)據(jù)不存在,則進(jìn)行爬取。通過爬取模塊,按照顯示層內(nèi)設(shè)置的種子文件路徑以及爬取方案完成爬取,基于爬取數(shù)據(jù)的大小,用戶按照顯示層內(nèi)的“目標(biāo)路徑”選擇路徑存儲到相應(yīng)的區(qū)域。
(2) 爬取獲取的數(shù)據(jù)需要進(jìn)行格式化操作,實現(xiàn)用戶間關(guān)系數(shù)據(jù)、用戶微博數(shù)據(jù)等的格式化輸出,并將輸出數(shù)據(jù)存儲到用戶目標(biāo)路徑。
(3) 若用戶所需的可視化數(shù)據(jù)已經(jīng)存在,則直接運(yùn)行社團(tuán)劃分模塊,用戶選擇進(jìn)行社團(tuán)劃分以及相應(yīng)的劃分方法,將顯示層中的信息傳播路徑存儲到本機(jī)中。
(4) 若檢索框中存在數(shù)據(jù),應(yīng)進(jìn)行可視化信息的呈現(xiàn),同時運(yùn)行文本信息向量化以及可視化布局[7]。向量化時先檢測是否存在完成向量化的社團(tuán)數(shù)據(jù),若存在則運(yùn)行下一步,否則對社團(tuán)數(shù)據(jù)進(jìn)行向量化處理。
(5) 對檢索文本框內(nèi)的數(shù)據(jù)進(jìn)行向量化處理,采用MapReduce分布式運(yùn)算獲取檢索文本相似運(yùn)算結(jié)果,將結(jié)果反饋給顯示層。
(6) 按照顯示層設(shè)置的可視化方法,采用Gephi工具獲取社交網(wǎng)絡(luò)消息的路徑傳播圖,并將結(jié)果反饋給顯示層。
(7) 顯示層依據(jù)獲取的網(wǎng)絡(luò)信息傳播路徑和相似度排序進(jìn)行繪圖,完成社交網(wǎng)絡(luò)結(jié)構(gòu)的布局。
2 Gephi的社交網(wǎng)絡(luò)消息傳播路徑塑造
設(shè)計的社交網(wǎng)絡(luò)消息可視化分析系統(tǒng)采用復(fù)雜網(wǎng)絡(luò)工具Gephi對社交網(wǎng)絡(luò)信息進(jìn)行消息轉(zhuǎn)發(fā)分析,分析社交網(wǎng)絡(luò)消息的傳播路徑。社交網(wǎng)絡(luò)中相同以及相似的消息會被不同用戶發(fā)送,能夠推測出用戶間存在的官方轉(zhuǎn)發(fā)關(guān)系以及非官方轉(zhuǎn)發(fā)關(guān)系[8]。社交網(wǎng)絡(luò)中不存在明確轉(zhuǎn)發(fā)關(guān)系的相似消息可依據(jù)時間序列進(jìn)行排序,而存在轉(zhuǎn)發(fā)關(guān)系的消息可通過排序算法進(jìn)行排序,對排序后的節(jié)點集通過gexf圖文件進(jìn)行排序展示,獲取社交網(wǎng)絡(luò)消息的路徑傳播圖。
為了對社交網(wǎng)絡(luò)節(jié)點進(jìn)行排序,需要收集指定的4個數(shù)據(jù)表中的數(shù)據(jù),再面向官方轉(zhuǎn)發(fā)消息和相似性消息設(shè)計排序算法,分別對用戶節(jié)點進(jìn)行樹狀排序和時間序列排序[9]。Gephi基于上述4種數(shù)據(jù)表,采集其中的社交網(wǎng)絡(luò)用戶轉(zhuǎn)發(fā)關(guān)系,匯總時間序列,規(guī)劃排序算法,生成gexf格式的網(wǎng)絡(luò)數(shù)據(jù),呈現(xiàn)社交網(wǎng)絡(luò)消息傳播路徑,發(fā)現(xiàn)消息源頭。
使用Gephi可高效率渲染社交網(wǎng)絡(luò)用戶間的關(guān)系,及用戶間話語疊加相似度。Gephi中含有較多的簡單程序嵌套,可將Gephi的功能融入系統(tǒng)的應(yīng)用程序內(nèi)。Gephi為數(shù)據(jù)顯示設(shè)置了較多的數(shù)據(jù)格式[10],系統(tǒng)將排序好的數(shù)據(jù)節(jié)點依據(jù)Gephi設(shè)置的gexf數(shù)據(jù)格式存儲,如圖3所示,其導(dǎo)出的簡單轉(zhuǎn)發(fā)圖中存在兩個節(jié)點,分別描述用戶名mynte 以及ccpout,分析圖中箭頭能夠得出,用戶ccpout轉(zhuǎn)發(fā)了用戶mynte的消息。
Gephi將社交網(wǎng)絡(luò)消息傳遞關(guān)系劃分成官方轉(zhuǎn)發(fā)關(guān)系的傳遞關(guān)系以及依據(jù)時間序列的傳遞關(guān)系,通過淺灰色渲染官方轉(zhuǎn)發(fā)消息傳播路徑,深灰色渲染依據(jù)時間序列的傳播路徑。Gephi分別采用基于時間序列以及樹狀排列的算法對相似消息以及具有確定用戶轉(zhuǎn)發(fā)關(guān)系的消息進(jìn)行排序,將完成排序的節(jié)點信息以及邊信息分別存儲到對應(yīng)的gexf圖文件中,生成的gexf社交網(wǎng)絡(luò)消息路徑傳播圖由官方轉(zhuǎn)發(fā)的消息路徑傳播圖和依據(jù)時間序列的路徑傳播圖構(gòu)成。
分析基于Gephi產(chǎn)生的社交網(wǎng)絡(luò)消息路徑傳播圖,可總結(jié)出不同結(jié)構(gòu)的路徑傳播圖。基于官方轉(zhuǎn)發(fā)消息的路徑傳播圖主要包括兩層樹狀轉(zhuǎn)發(fā)結(jié)構(gòu)、自轉(zhuǎn)發(fā)結(jié)構(gòu)、多層樹狀轉(zhuǎn)發(fā)結(jié)構(gòu)、樹干轉(zhuǎn)發(fā)結(jié)構(gòu)以及環(huán)形轉(zhuǎn)發(fā)結(jié)構(gòu)。其中兩層樹狀結(jié)構(gòu)的轉(zhuǎn)發(fā)路徑圖如圖4所示,能夠看出發(fā)送消息的源頭是soswga用戶,其具有大量的粉絲,這些粉絲都轉(zhuǎn)發(fā)了源頭用戶的消息。依據(jù)時間序列的消息傳播圖如圖5所示,其中的消息都是相似的,這些消息基于時間序列完成轉(zhuǎn)發(fā)。
3 實驗結(jié)果與分析
實驗從時間復(fù)雜度、圖布局效果以及可視化性能三個方面檢測本文方法的性能。實驗采用的數(shù)據(jù)集都是爬蟲從新浪微博中爬取到的數(shù)據(jù)集。
3.1 時間復(fù)雜度測試
實驗統(tǒng)計出本文方法和基于遺傳算法布局無向圖方法進(jìn)行社交網(wǎng)絡(luò)消息可視化過程中的時間復(fù)雜度,結(jié)果如圖6所示。
分析圖6可得,隨著社交網(wǎng)絡(luò)消息量的增加,兩種方法的運(yùn)行時間都不斷提升,本文方法的時間復(fù)雜度低于基于遺傳算法布局無向圖方法,說明本文方法對海量社交網(wǎng)絡(luò)消息的可視化分析效率較高。
3.2 圖布局效果測試
兩種方法在實驗社交網(wǎng)絡(luò)消息集中進(jìn)行可視化呈現(xiàn),兩種方法獲取的社交網(wǎng)絡(luò)消息可視化布局圖如圖7所示。
從圖7中可明顯看出,相對于基于遺傳算法布局無向圖方法,本文方法可以更好地呈現(xiàn)出圖像結(jié)構(gòu)以及用戶間的轉(zhuǎn)發(fā)關(guān)系,準(zhǔn)確呈現(xiàn)出社交網(wǎng)絡(luò)的特征。
3.3 可視化性能測試
實驗對兩種方法從社交網(wǎng)絡(luò)中獲取數(shù)據(jù)后,從數(shù)據(jù)處理到可視化布局過程中系統(tǒng)的準(zhǔn)確率進(jìn)行檢測,結(jié)果見表1。
分析表1可以看出,本文方法的準(zhǔn)確率高于基于遺傳算法布局無向圖方法,并且不受社交網(wǎng)絡(luò)消息量的干擾,始終保持較高的準(zhǔn)確度。說明本文可準(zhǔn)確挖掘社交網(wǎng)絡(luò)中內(nèi)部成員間的關(guān)系以及其中的關(guān)鍵人物,具有較高的可視化性能。
4 結(jié) 語
本文設(shè)計并實現(xiàn)了基于Gephi的社交網(wǎng)絡(luò)消息可視化分析系統(tǒng)。實驗結(jié)果說明該系統(tǒng)具有較低的時間復(fù)雜度,對社交網(wǎng)絡(luò)的布局效果更佳,可視化性能強(qiáng)。
參考文獻(xiàn)
[1] 陳召群,車向前,谷源濤.基于譜聚類的大規(guī)模社交網(wǎng)絡(luò)可視化方法研究[J].計算機(jī)仿真,2015,32(9):318?322.
[2] 于蕾,吳強(qiáng).一個基于社區(qū)相似度分析的物流網(wǎng)絡(luò)優(yōu)化算法[J].現(xiàn)代電子技術(shù),2016,39(6):45?48.
[3] 劉輝.基于隨機(jī)游走算法的社交網(wǎng)絡(luò)構(gòu)建[J].湖北成人教育學(xué)院學(xué)報,2014,20(1):11?12.
[4] 周碧,段富.免疫細(xì)胞因子網(wǎng)絡(luò)模型設(shè)計與仿真研究[J].現(xiàn)代電子技術(shù),2016,39(8):21?25.
[5] 賀超波,湯庸,麥輝強(qiáng),等.在線社交網(wǎng)絡(luò)挖掘綜述[J].武漢大學(xué)學(xué)報(理學(xué)版),2014,60(3):189?200.
[6] 鄭健,馮亞娟,郭偉.基于貝葉斯網(wǎng)絡(luò)的大學(xué)生考研動機(jī)影響因素[J].西安工程大學(xué)學(xué)報,2015,29(6):780?784.
[7] 蕭海東,陳寧.移動社交信息智能態(tài)勢感知分析[J].中國科學(xué):信息科學(xué),2015,45(6):783?795.
[8] 李緒,曹磊,付磊.社交網(wǎng)絡(luò)數(shù)據(jù)個性化推薦的可視化方法[J].計算機(jī)工程,2014,40(3):46?50.
[9] 胡蓉.混合信息可視化研究:以實時網(wǎng)絡(luò)攻擊可視化設(shè)計案例為例[J].情報理論與實踐,2015,38(11):103?107.
[10] 姚士成,劉學(xué)鋒,毛建華,等.基于傳感網(wǎng)的傳感器感知信息可視化系統(tǒng)設(shè)計[J].電子測量技術(shù),2015,38(1):95?99.endprint