◆魏利梅
微博社交網(wǎng)絡數(shù)據(jù)挖掘與用戶權重分析
◆魏利梅
(山西警察學院 山西 030000)
信息技術水平的不斷進步使得信息的獲取方式也越來越豐富,但是在目前的信息領域中網(wǎng)絡爬蟲以及網(wǎng)頁信息解析仍然是應用最為廣泛的兩種信息獲取方式。而如果將這兩種信息獲取方式應用在微博方面,則很難保證數(shù)據(jù)信息獲取的速率,這主要是因為微博本身具有龐大的用戶群體,隨時隨地都有用戶在進行信息更新,導致整體的信息更新量以及更新速率都非常快,加之用戶之間的信息交流量也比較大,因此,常規(guī)的信息獲取方式已經(jīng)不再適用。目前,微博在信息獲取方面主要使用的是API接口,這種接口主要是相關的服務提供商針對微博的大數(shù)據(jù)量以及數(shù)據(jù)信息交流量而應用的一種數(shù)據(jù)查詢和獲取的方式。
數(shù)據(jù)采集;特性;數(shù)據(jù)挖掘
對于所有微博用戶的數(shù)據(jù)以及微博本身產(chǎn)生的數(shù)據(jù)量,服務商都可以獲取,而這些數(shù)據(jù)本身都是非常重要的數(shù)據(jù)形式,雖然利用API能夠實現(xiàn)微博的大數(shù)據(jù)量獲取和查詢,但是其作為一種服務器,本身存在一定的負荷極限,鑒于這種情況,必須要針對各個API的結構設置相應權限,這樣才能充分保證其在運行的過程中不會出現(xiàn)崩潰或者數(shù)據(jù)丟失的現(xiàn)象。
目前,充分利用API開放接口能夠完全滿足微博運行中的數(shù)據(jù)采集工作,但在此基礎上還必須要有效解決用戶身份認證的核心問題。用戶使用微博必須要經(jīng)過嚴格的身份認證,而在認證過程中產(chǎn)生的用戶信息應該要受到保護,用戶的賬戶以及密碼要堅決杜絕出現(xiàn)第三方獲悉的情況,也不能出現(xiàn)第三方查看用戶個人信息的現(xiàn)象。為了實現(xiàn)對用戶的身份認證信息的保護,新浪微博使用的OAUTH認證,這種認證方式具有較高的安全性,而且其本身的結構比較簡單,實用性也比較強,目前新浪微博針對API的用戶驗證協(xié)議主要使用的就是這種認證方式。用戶在注冊微博賬戶的時候,首先必須要經(jīng)過OAUTH授權,在申請過程中,API會結合用戶實際發(fā)送出來的申請請求,產(chǎn)生XML或者JSON文件并將其發(fā)送給用戶,將上述兩種類型的文件進行解析之后,就能快速獲取到原始的數(shù)據(jù)[2]。
每一個微博用戶個體實際受到的關注程度存在很大的差異,為針對用戶的受關注程度主要是根據(jù)其微博的恢復以及轉發(fā)數(shù)據(jù)統(tǒng)計來進行評價。微博用戶在發(fā)布相關的微博信息后,別的微博用戶主要利用以下三種方式來進行關注:首先是通過直接回復博主的信息進行關注,他人的信息回復會讓微博的評論數(shù)增加一條;其次是對微博進行轉達來關注,這種操作會使得微博的轉發(fā)數(shù)量增加一條;最后是同時進行回復和轉發(fā),這種關注方式會使得微博的回復數(shù)以及轉發(fā)數(shù)同時增加。由此可見,微博的回復和轉發(fā)既存在一定的聯(lián)系,也存在一定的區(qū)別。
與其他的社交平臺相比較,新浪微博具備的功能更加全面,多媒體信息就是微博本身所具備比較重要的一種功能。根據(jù)相關的數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),與單純的發(fā)布文字信息相比較,圖片以及其他多媒體形式的信息會對其他用戶形成更大的吸引力,也會進一步增加微博的回復量以及轉發(fā)量。另外,除了多媒體信息的發(fā)布之外,提及關系的信息發(fā)布會受到更多的關注,而關注度本身會隨著提及關系用戶的數(shù)量的增加而進一步增加。
與世界知名的Facebook相同,微博也是一種社交網(wǎng)絡,但是微博在本質(zhì)上與其還存在較大的差異,具備了自身獨特的特點。例如,微博能夠實現(xiàn)用戶友好關系的雙向發(fā)展,A用戶在關注B用戶的時候,不需要通過其審核,在這種關注關系中,B用戶如果本身不存在關注A用戶的意愿,那么在B用戶的關注名單中并不會因為A用戶的關注而出現(xiàn),那么兩個用戶之間的關系會呈現(xiàn)出一種復雜的狀態(tài),兩者之間并不是普通的好友關系,由于A用戶關注了B用戶,但是A用戶并沒有受到B用戶的關注,因此,A用戶就成為B用戶的粉絲。在這種社交網(wǎng)絡中,可以用G=( U,E)來表達這種網(wǎng)絡結構,U代表是整個社交網(wǎng)絡中的各個節(jié)點,就也就是微博的每一個用戶,E代表的是不同用戶之間產(chǎn)生的一種有向聯(lián)系關系[3]。利用這種網(wǎng)絡拓撲關系來表達用戶之間的聯(lián)系,需要對其出度以及入度都進行設定,出度主要是用來表示用戶實際關注的好友數(shù)量,而入度則表示的是用戶實際擁有的粉絲數(shù)量,出入度共同構成了整個社交網(wǎng)絡節(jié)點度的分布特性。
微博針對用戶設置了不同的等級,通過對新浪微博數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),用戶在認證過程中會被劃分能普通用戶以及認證用戶。而隨著微博版本的不斷更新,針對認證用戶也實現(xiàn)了進一步精細分類。通過分析可以知道,認證用戶通常擁有的粉絲數(shù)量更多,而且微博的回復以及轉發(fā)數(shù)量也明顯要超過普通用戶,由此可見,微博的傳播在很大程度上取決于認證用戶。對于微博認證用戶來說,其微博的回復量以及轉發(fā)量在很大程度上都取決于其粉絲數(shù)量,粉絲數(shù)量與微博回復以及轉發(fā)量之間存在一種緊密的關聯(lián),但是通過研究發(fā)現(xiàn)這種關系呈現(xiàn)出模糊的狀態(tài)。
用戶使用微博的時候,關注好友的最新微博動態(tài)是首先呈現(xiàn)出來的,這些動態(tài)信息會按照時間進行排列。而用戶將頁面向下滑動的時候會呈現(xiàn)出更多的微博信息,因此,每次使用微博都會呈現(xiàn)大量的信息,而這些信息在用戶進行簡單的瀏覽之后,大多數(shù)都會被忽略。而用戶實際情況的不同也會導致其微博的關注度受到影響,當在微博用戶活躍時間段來更新微博,那么這些信息在很可能會被用戶關注,而在用戶不活躍時間段更新信息則會很少被關注,由此可見,微博的傳播在一定程度上會受到用戶活躍時間特性的影響[4]。
人與人的相互關系是社會網(wǎng)絡中重要的一個因素,因此,如果微博的作者本身具備較強的權威性,其微博信息也會被廣泛傳播。由上述的分析可以知道,微博用戶的權重會受到用戶自身影響力、活躍度等多種因素的影響。HITS算法嚴格的來講是一種權重排序法,互聯(lián)網(wǎng)領域對此的應用非常廣泛,在網(wǎng)頁中會同時存在指向所有網(wǎng)頁authority值的hub值,以及指向某一個網(wǎng)頁的所有的網(wǎng)頁的hub構成的該網(wǎng)頁的authorty值。分析互聯(lián)網(wǎng)網(wǎng)頁信息可以知道,很多情況下一些權威性的網(wǎng)頁通常都會值相加未知網(wǎng)頁,而且未知網(wǎng)頁也有極大的可能會指向權威性網(wǎng)頁[5]。
互聯(lián)網(wǎng)中的網(wǎng)頁基本上包含很多各型各色的連接,例如,一些權威性網(wǎng)頁中也經(jīng)常會包含著一些廣告連接,在這種情況下,權威性網(wǎng)頁本身就很可能會賦予了廣告權威性;又如當用戶瀏覽某一個主體網(wǎng)頁的時候,經(jīng)常會出現(xiàn)一些與本出題沒有任何關聯(lián)的頁面,但是這個頁面很可能本身具有較高的權威性,這種情況的大量出現(xiàn)必然會對HITS算法公正性形成一定的影響。而微博用戶個體本身的差異性比較大,研究微博的傳播可以知道,如果具有較高權威性的微博用戶實際關注的用戶越多,那么其關注好友通常情況下重要性也有待考究,而如果少量關注好友,則表示其關注好友很重要。由于微博好友具有雙向性的特征,因此,為了避免用戶自身權威性的無限傳遞,那么久必須要針對HITS算法進行一定的改進,結合微博雙向關系與互聯(lián)網(wǎng)網(wǎng)頁連接的相似性,在針對HITS算法進行改進的時候就可以充分參照互聯(lián)網(wǎng)的方式。
互聯(lián)網(wǎng)技術在當今社會科技不斷發(fā)展的形式取得了巨大的進步,微博等一些社交網(wǎng)絡在人們的日常生活中已經(jīng)逐漸成為一種必不可少的部分。社交的網(wǎng)絡的信息傳播速度以及傳播范圍都比傳統(tǒng)網(wǎng)絡會好很多,而且微博本身的特征也更加復雜,因此,針對微博等社交網(wǎng)絡不能利用傳統(tǒng)研究理論和模型進行分析,必須要針對社交網(wǎng)絡數(shù)據(jù)信息獲取和傳播進行研究具有更高的價值。
在針對API接口在微博的實際應用進行研究,對微博的數(shù)據(jù)采集等幾個方面進行分析,揭示了影響微博用戶權威性和微博傳播的一些因素。對于微博來說,具備了自身的一些特征,因此信息的發(fā)布會受到發(fā)布內(nèi)容、發(fā)布人權威性等因素的影響。
[1]孫萌.面向社交網(wǎng)站的數(shù)據(jù)挖掘應用研究—用戶關系分析[D].南京郵電大學,2014.
[2]李鵬宇.微博社交網(wǎng)絡中的學生用戶抑郁癥識別方法研究[D].哈爾濱工業(yè)大學,2014.
[3]張劭捷.基于微博社交網(wǎng)絡的輿情分析模型及實現(xiàn)[D].華南理工大學,2011.