国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

博客中國虛擬社群的社會(huì)網(wǎng)絡(luò)分析

2011-02-15 11:06:38高志偉李艷松
關(guān)鍵詞:網(wǎng)絡(luò)分析博客頁面

高志偉, 李艷松, 范 玉

(1.石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043;2.中國教育部信息中心,北京 100816)

0 博客介紹

中國互聯(lián)網(wǎng)協(xié)會(huì)副理事長高盧麟2009 年1 月說,截至2008 年11 月底,我國博客空間超過1 億,博客作者規(guī)模超過5 000 萬人,其中活躍博客作者( 平均每個(gè)月更新一次以上) 1 691.3 萬人,博客讀者已達(dá)1億人以上。博客數(shù)和博客用戶數(shù)均比去年有一定程度的增長,人均擁有博客數(shù)與去年相比也略有上升?,F(xiàn)在,博客已經(jīng)成為了互聯(lián)網(wǎng)上最受歡迎、發(fā)展最快的應(yīng)用之一。相應(yīng)地,學(xué)界對(duì)于博客的研究也一直層出不窮,研究領(lǐng)域更是跨越了計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、傳播學(xué)、新聞學(xué)、社會(huì)學(xué)等各個(gè)學(xué)科。

1 博客社會(huì)網(wǎng)絡(luò)研究現(xiàn)狀

目前,國內(nèi)的博客研究主要還是在傳播學(xué)的基本框架下進(jìn)行的。研究視野顯得單一而狹窄,而國外的博客研究開始延展到社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、人類學(xué)、人種學(xué)、符號(hào)學(xué)等多種研究視角。同時(shí),國內(nèi)的博客研究的話題較雷同,低層次重復(fù)研究的現(xiàn)象較為嚴(yán)重。在博客研究中,研究方法與手段是一個(gè)瓶頸,多數(shù)論文無研究方法可言,而少數(shù)運(yùn)用了一定方法的研究項(xiàng)目,也不同程度存在著手段不夠科學(xué)、完善的問題。研究方法和手段的缺失制約著博客研究向更廣的領(lǐng)域和更深的層次拓展[1]。借鑒國外博客發(fā)展經(jīng)驗(yàn)及其研究成果,通過引入社會(huì)網(wǎng)絡(luò)分析技術(shù),將研究重點(diǎn)集中到博客中國網(wǎng)站上,目的在于社會(huì)網(wǎng)絡(luò)分析法在分析數(shù)據(jù)方面比較單一,具有個(gè)體的代表性。文中均采自2010 年3 月至10 月之間的數(shù)據(jù),因?yàn)橐粋€(gè)Blog頁面上的鏈接不是隨時(shí)更改的,所以可以認(rèn)為該博客子圖的結(jié)構(gòu)在一段時(shí)間內(nèi)是相對(duì)穩(wěn)定的。

2 博客信息模型數(shù)據(jù)的提取

研究的關(guān)鍵是博客實(shí)際數(shù)據(jù)( 博客地址) 的提取,系統(tǒng)采用JAVA 語言來開發(fā),使用ECLIPSE 作為開發(fā)環(huán)境,數(shù)據(jù)庫使用SQL SERVER2000,系統(tǒng)的設(shè)計(jì)采用到JAVA 語言的多方面,例如多線程。通過分析博客網(wǎng)頁特征,使用開源的全文檢索引擎工具包LUCENE[2]索引網(wǎng)頁數(shù)據(jù)信息,并使用純JAVA 寫的HTML 解析庫HTML Parser 和正則表達(dá)式兩種提取網(wǎng)頁文本信息的方式,提取博客網(wǎng)頁地址。

為實(shí)現(xiàn)對(duì)博客數(shù)據(jù)信息的提取,將整個(gè)處理過程分成幾大模塊:初始URL 選擇、Web Spider 抓取、提取預(yù)處理、頁面分析提取、數(shù)據(jù)存儲(chǔ)。其系統(tǒng)模型如圖1 所示。

圖1 所示的抽象圖給出了該系統(tǒng)的流程如下:首先從Web 中抓取頁面,然后將抓取到的頁面進(jìn)行頁面分析,再對(duì)頁面鏈接進(jìn)行相應(yīng)的提取操作,最后再將提取結(jié)果信息存入數(shù)據(jù)庫。信息提取時(shí),首先利用HTML Parser 遞歸提取各層鏈接的信息,然后利用正則表達(dá)式對(duì)各鏈接對(duì)應(yīng)頁面進(jìn)行信息提取。提取博客地址信息算法如下:

圖1 系統(tǒng)提取模型

(1) 通過使用HTML Parser 中的nodeIterator 接口,可以得到頁面中需要提取的Title、Image 和Link 等信息。同時(shí),使用HTML Parser API 編寫的Filter Bean 和String Bean 兩個(gè)類,獲取到URL 頁面文檔顯示的所有文本信息,將URL 頁面的所有文本內(nèi)容存入文本文件中。

(2) 系統(tǒng)使用類DBConnect 建立到SQL SERVER2000 數(shù)據(jù)庫的連接,同時(shí)使用execute Query( ) 方法和execute Update( ) 方法,分別執(zhí)行產(chǎn)生單個(gè)結(jié)果集及根據(jù)參數(shù)不同執(zhí)行插入、更新、刪除等操作。

(3) 分析所有博客鏈接頁面并將提取信息存入數(shù)據(jù)庫。

其中,HTML Parser 提供了提取文本信息的API,可以用來方便的提取特定文本。而正則表達(dá)式[3]是功能強(qiáng)大的文本分析工具,正則表達(dá)式對(duì)象用來規(guī)范一個(gè)規(guī)范的表達(dá)式( 也就是表達(dá)式符不符合特定的要求,比如是不是Blog 網(wǎng)頁地址格式) ,它可以通過自定義的正則模式去精確地提取文本信息。

3 Pajek 在博客網(wǎng)絡(luò)可視化研究中的應(yīng)用

博客網(wǎng)絡(luò)的建立遵循相關(guān)規(guī)則,將博客地址作為節(jié)點(diǎn),將每兩位有鏈接的博客用一條線連接,構(gòu)成了博客實(shí)際網(wǎng)絡(luò)圖。由于研究的博客的關(guān)系是獨(dú)立的,因此所建立的是有向、有權(quán)重網(wǎng)絡(luò)。

信息提取到所有的博客好友鏈接后,提取的數(shù)據(jù)需要轉(zhuǎn)換成相應(yīng)的格式才能導(dǎo)入軟件進(jìn)行分析,研究選用社會(huì)網(wǎng)絡(luò)分析及可視化工具Pajek[4]對(duì)提取的社會(huì)網(wǎng)絡(luò)的數(shù)據(jù)行分析。轉(zhuǎn)換后的數(shù)據(jù)格式為Pajek軟件所需格式,根據(jù)此格式將數(shù)據(jù)導(dǎo)入Pajek 軟件,可視化博客網(wǎng)絡(luò)。圖2 顯示了轉(zhuǎn)化后的Pajek 所需數(shù)據(jù)格式。

4 研究結(jié)果及分析

將提取的博客網(wǎng)絡(luò)進(jìn)行導(dǎo)出,導(dǎo)出的結(jié)果如圖3 所示,入度由節(jié)點(diǎn)的大小來標(biāo)定。

該博客網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)N =8 663,平均入度和平均出度值為5.12,累計(jì)入度和出度的分布如圖4 所示。圖的出度和入度均為冪律分布,提取的子圖具有明顯的無標(biāo)度特性,其聚類系數(shù)為0.23( 遠(yuǎn)大于具有同樣結(jié)點(diǎn)總數(shù)和平均度的ER 隨機(jī)圖的聚類系數(shù)) 。

通過使用社會(huì)網(wǎng)絡(luò)分析[5]理論及可視化分析理論測(cè)量社會(huì)網(wǎng)絡(luò)的各種指標(biāo),得出對(duì)一個(gè)社會(huì)網(wǎng)絡(luò)( 即博客中國構(gòu)成的社會(huì)網(wǎng)絡(luò)) 的理性認(rèn)識(shí)。使用Pajek 測(cè)量分析結(jié)論如表1 所示。

圖2 轉(zhuǎn)化后的Pajek 所需數(shù)據(jù)格式

圖3 博客網(wǎng)絡(luò)導(dǎo)出圖

圖4 博客網(wǎng)分布圖

密度指的是一個(gè)社群圖中各個(gè)點(diǎn)之間聯(lián)絡(luò)的緊密程度( 在本次研究當(dāng)中,即各個(gè)獨(dú)立的博客之間的聯(lián)絡(luò)緊密程度) ,網(wǎng)絡(luò)密度用來衡量相關(guān)網(wǎng)絡(luò)鏈接數(shù),范圍介于0 到1。密度值越大說明網(wǎng)絡(luò)連接越緊密,此博客網(wǎng)絡(luò)鏈接密度為0.008,這表明該網(wǎng)絡(luò)鏈接聯(lián)結(jié)不高。其“中心性”是社會(huì)網(wǎng)絡(luò)分析的重點(diǎn)之一,本文測(cè)量的是網(wǎng)絡(luò)局部中心性,測(cè)量得知博客網(wǎng)絡(luò)的點(diǎn)度中心度為0.23。社會(huì)網(wǎng)絡(luò)研究表明,博客( 節(jié)點(diǎn))的社會(huì)成就與其在社會(huì)網(wǎng)絡(luò)中的位置有緊密聯(lián)系,博客的位置可使用點(diǎn)度中心度進(jìn)行分析。同時(shí),使用Pajek 測(cè)量博客網(wǎng)絡(luò)的內(nèi)中心勢(shì)為0.016,外中心勢(shì)為0.163,整體中心勢(shì)為0.096??梢?,相對(duì)于整個(gè)網(wǎng)絡(luò)的中心點(diǎn)博客并不存在。

表1 社會(huì)網(wǎng)絡(luò)分析結(jié)果

5 結(jié)論

通過編程提取博客網(wǎng)絡(luò)真實(shí)數(shù)據(jù)信息,再利用可視化工具可視化博客網(wǎng)絡(luò)鏈接情況,得到了博客間鏈接信息的一個(gè)大致特點(diǎn)。研究數(shù)據(jù)顯示,局部特定的范圍內(nèi),少數(shù)博客呈現(xiàn)出連接較充分的情況。但是,整體博客網(wǎng)絡(luò)連接密度較低、網(wǎng)絡(luò)向心趨勢(shì)不明顯,博客之間的交流仍然比較分散和單一。相信隨著這方面的研究越來越深入,博客社會(huì)網(wǎng)絡(luò)的研究會(huì)越來越得到重視。

[1]周海英.我國博客研究現(xiàn)狀的實(shí)證分析[J].當(dāng)代傳播,2006,9(4) : 55-57.

[2]于天恩. 搜索引擎開發(fā)權(quán)威經(jīng)典[M].北京:中國鐵道出版社,2008.

[3]邱哲,符滔滔. 搜索引擎lucene 2.0 +Heritrix[M].北京:人民郵電出版社,2007.

[4]孟微,龐景安. PAJEK 在情報(bào)學(xué)合著網(wǎng)絡(luò)可視化研究中的應(yīng)用[J].情報(bào)理論與實(shí)踐,2008,31(4) :573-575.

[5]Jia Lin,Alexander Halavais,Bin Zhang. The Blog network in America: Blogs as indicators of relationships among US cities[J].INSNA,2007,27(2) : 15-23.

猜你喜歡
網(wǎng)絡(luò)分析博客頁面
大狗熊在睡覺
刷新生活的頁面
基于ISM模型的EPC項(xiàng)目風(fēng)險(xiǎn)網(wǎng)絡(luò)分析
鐵路有線調(diào)度通信的網(wǎng)絡(luò)分析
2016年社交網(wǎng)絡(luò)分析
博客天下
博客天下(2015年2期)2015-09-15 14:12:57
大班幼兒同伴交往的社會(huì)網(wǎng)絡(luò)分析
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
博客相冊(cè)
博客天下(2009年12期)2009-08-21 07:35:10
张北县| 土默特右旗| 大埔县| 喀什市| 松桃| 玉门市| 长顺县| 浦城县| 贵南县| 牡丹江市| 临洮县| 天镇县| 闽侯县| 翁源县| 金阳县| 永登县| 庄河市| 苏尼特右旗| 淳安县| 汤阴县| 十堰市| 荣成市| 肇东市| 隆德县| 将乐县| 新竹市| 孝昌县| 高雄市| 灵璧县| 崇州市| 东台市| 鄯善县| 洪泽县| 祥云县| 临猗县| 扶风县| 苏尼特右旗| 华蓥市| 武冈市| 宜都市| 图们市|