蔡國(guó)永,林 航
(桂林電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林 541004)
在開(kāi)放的互聯(lián)網(wǎng)環(huán)境中,涌現(xiàn)出了大量不同類(lèi)型的在線社會(huì)網(wǎng)絡(luò)(也稱在線社區(qū))。在線社會(huì)網(wǎng)絡(luò)是人們以計(jì)算機(jī)和網(wǎng)絡(luò)為中介進(jìn)行交互、聯(lián)系和協(xié)作時(shí)所形成的人與人、人與物的邏輯網(wǎng)絡(luò)[1]。根據(jù)Facebook在2011年7月公布的數(shù)據(jù),F(xiàn)acebook的全球用戶總數(shù)已達(dá)7.5億,每天的分享次數(shù)達(dá)40億。在線社會(huì)網(wǎng)絡(luò)在全球范圍內(nèi)呈爆炸式增長(zhǎng),與此同時(shí),在線社會(huì)網(wǎng)絡(luò)分析成為學(xué)術(shù)界關(guān)注的熱點(diǎn)之一。
傳統(tǒng)社會(huì)網(wǎng)絡(luò)分析方法側(cè)重于研究在線社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)規(guī)模、中心性、聚類(lèi)系數(shù)和異配性等網(wǎng)絡(luò)拓?fù)涮卣鳎?~4]。這些研究通過(guò)提取單一網(wǎng)絡(luò)服務(wù)平臺(tái)的用戶數(shù)據(jù),分析社會(huì)網(wǎng)絡(luò)的拓?fù)涮卣?,而沒(méi)有充分考慮社會(huì)網(wǎng)絡(luò)中的語(yǔ)義信息[5]。
針對(duì)在線社會(huì)網(wǎng)絡(luò)資源缺少統(tǒng)一語(yǔ)義模型問(wèn)題,國(guó)外學(xué)者提出使用語(yǔ)義網(wǎng)技術(shù)描述在線社會(huì)網(wǎng)絡(luò)。Mika P等[5]從語(yǔ)義角度將在線社會(huì)網(wǎng)絡(luò)分成三個(gè)層,即社團(tuán)層、本體層和超文本內(nèi)容層,并根據(jù)三層模型構(gòu)建了用于描述在線社會(huì)網(wǎng)絡(luò)的本體。Finin T等人[6]提出基于朋友的朋友FOAF(the Friend of A Friend)的社會(huì)語(yǔ)義網(wǎng)絡(luò),利用啟發(fā)式的方法確定和發(fā)現(xiàn)網(wǎng)絡(luò)中的FOAF文檔,并從中提取參與者相關(guān)信息。Kinsellal S等[7]利用社會(huì)語(yǔ)義網(wǎng)描述在線用戶及其生成內(nèi)容間的顯性和隱性關(guān)系,側(cè)重研究在線社會(huì)網(wǎng)絡(luò)中用戶生成內(nèi)容的語(yǔ)義鏈接。這些研究表明:語(yǔ)義網(wǎng)技術(shù)可以為上層的應(yīng)用和分析提供一致的語(yǔ)義模型,便于異構(gòu)網(wǎng)絡(luò)資源的整合,也賦予資源更豐富的語(yǔ)義信息;語(yǔ)義網(wǎng)技術(shù)的推理能力,使得資源的語(yǔ)義可被計(jì)算機(jī)理解,并能將隱性知識(shí)轉(zhuǎn)換和共享。因此,引入語(yǔ)義網(wǎng)技術(shù)能更好地構(gòu)建完整、非冗余的在線社會(huì)網(wǎng)絡(luò),并為進(jìn)一步的社會(huì)網(wǎng)絡(luò)分析提供重要支撐。
然而,現(xiàn)有研究側(cè)重于將語(yǔ)義網(wǎng)技術(shù)用于在線社會(huì)網(wǎng)絡(luò)的描述,在分析過(guò)程中探討利用語(yǔ)義信息的研究還不多。本文其余部分安排如下:第2節(jié)給出在線社會(huì)網(wǎng)絡(luò)表示與分析框架;第3節(jié)具體介紹在線社區(qū)社會(huì)語(yǔ)義網(wǎng)絡(luò)的構(gòu)建;第4節(jié)給出在線社區(qū)社會(huì)語(yǔ)義網(wǎng)絡(luò)分析的原理和實(shí)現(xiàn)技術(shù);第5節(jié)以真實(shí)在線社會(huì)網(wǎng)絡(luò)為例,說(shuō)明社會(huì)語(yǔ)義網(wǎng)絡(luò)分析框架的實(shí)例分析過(guò)程。
在線社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)框架包括兩部分:在線社會(huì)網(wǎng)絡(luò)的語(yǔ)義表示和在線社會(huì)網(wǎng)絡(luò)的語(yǔ)義分析,如圖1所示。
Figure 1 Social semantic network structure framework diagram圖1 社會(huì)語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)框架圖
圖1中框架分為四層:最下面的第1層為數(shù)據(jù)層,它包括非資源描述框架RDF(Resource Description Framework)數(shù)據(jù)源集合和本體語(yǔ)言描述的實(shí)例數(shù)據(jù)集合,為框架提供原始數(shù)據(jù);第2層為本體層,它包括用于描述網(wǎng)絡(luò)資源的各類(lèi)本體,如FOAF、Relationship、SIOC和SKOS等;第3層為RDF語(yǔ)義圖模型,利用本體將原始數(shù)據(jù)集表示成RDF圖模型,實(shí)現(xiàn)在線社會(huì)網(wǎng)絡(luò)的語(yǔ)義表示;第4層為社會(huì)語(yǔ)義網(wǎng)分析層,在語(yǔ)義表示的基礎(chǔ)上,利用SPARQL(Simple Protocol And RDF Query Language)的表達(dá)能力和語(yǔ)義檢索引擎的推理能力實(shí)現(xiàn)對(duì)在線社會(huì)網(wǎng)絡(luò)的語(yǔ)義分析。
社會(huì)語(yǔ)義網(wǎng)絡(luò)分析的實(shí)現(xiàn)過(guò)程如圖2所示。
Figure 2 Social semantic network analysis flow diagram圖2 社會(huì)語(yǔ)義網(wǎng)分析流程圖
首先,需要對(duì)待分析的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行社會(huì)語(yǔ)義提取,獲取基本的結(jié)構(gòu)化數(shù)據(jù),并利用語(yǔ)義網(wǎng)技術(shù)對(duì)抽取的數(shù)據(jù)進(jìn)行存儲(chǔ)和表示。在線社會(huì)網(wǎng)絡(luò)中,用戶的信息多數(shù)以規(guī)則的網(wǎng)頁(yè)形式出現(xiàn),且網(wǎng)頁(yè)含有明顯的區(qū)域結(jié)構(gòu)。因此,可以利用基于HTML結(jié)構(gòu)的信息抽取方法[8],對(duì)待分析的社交網(wǎng)絡(luò)中的用戶信息進(jìn)行提取。
信息提取獲得的數(shù)據(jù)、用戶數(shù)據(jù)庫(kù)提供的數(shù)據(jù)和開(kāi)放API獲取的數(shù)據(jù)都屬于結(jié)構(gòu)化非RDF數(shù)據(jù)。需要用語(yǔ)義網(wǎng)技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行處理轉(zhuǎn)換,將其存儲(chǔ)為RDF或Web本體建模語(yǔ)言O(shè)WL(Ontology Web Language)格式。對(duì)轉(zhuǎn)換生成的RDF數(shù)據(jù)和已有的RDF數(shù)據(jù)進(jìn)行知識(shí)推理和一致性檢測(cè),最終生成在線社會(huì)網(wǎng)絡(luò)的RDF語(yǔ)義圖模型。在RDF語(yǔ)義圖表示的基礎(chǔ)上,可進(jìn)行框架中的社會(huì)語(yǔ)義網(wǎng)分析。
框架中利用RDF語(yǔ)義圖模型將在線社區(qū)構(gòu)建成社會(huì)語(yǔ)義網(wǎng)絡(luò),使用已有的本體描述在線社會(huì)網(wǎng)絡(luò)中的社會(huì)數(shù)據(jù)。社會(huì)數(shù)據(jù)包括網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)和用戶生成內(nèi)容數(shù)據(jù),其中網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)包括用戶個(gè)人信息和關(guān)系信息。
框架中使用本體FOAF描述用戶信息,F(xiàn)OAF是基于OWL的詞匯表,定義了用于描述用戶個(gè)人信息、網(wǎng)絡(luò)賬戶和社會(huì)關(guān)系的元數(shù)據(jù)。其中,family name、nick、interest等屬性集合用來(lái)描述用戶個(gè)人信息;knows屬性用來(lái)建立用戶的社會(huì)網(wǎng)絡(luò)。在社會(huì)網(wǎng)絡(luò)中,F(xiàn)OAF中的“knows”可以根據(jù)關(guān)系特征和親密程度具體化為不同的社會(huì)關(guān)系,如家庭關(guān)系、朋友關(guān)系或職業(yè)關(guān)系等。使用Relationship本體具體化FOAF中的knows屬性,如rel:friendOf屬性表示一種具體的foaf:knows屬性。Relationship中還定義了關(guān)系的屬性特征,如傳遞性、對(duì)稱性等。此外,框架使用SIOC本體具體化FOAF中的onlineAccount和HasOnlineAccout屬性,用于描述用戶的賬號(hào)信息及對(duì)應(yīng)賬戶所生成的內(nèi)容。利用這些本體能完整描述在線社會(huì)網(wǎng)絡(luò)中的用戶信息,信息包括同一用戶的不同SNS賬戶、不同服務(wù)平臺(tái)上發(fā)布的內(nèi)容以及用戶通過(guò)不同網(wǎng)絡(luò)服務(wù)建立的社會(huì)關(guān)系等。
然而,在社會(huì)網(wǎng)絡(luò)中,大部分用戶數(shù)據(jù)可能是以非RDF格式存在的,這些數(shù)據(jù)需要轉(zhuǎn)換或封裝成RDF格式才能被社會(huì)語(yǔ)義網(wǎng)分析框架使用。本文利用語(yǔ)義檢索引擎CORESE[9]將非RDF數(shù)據(jù)轉(zhuǎn)換為RDF語(yǔ)義圖模型中的實(shí)例數(shù)據(jù)。CORESE是基于SPARQL的語(yǔ)義搜索引擎,支持內(nèi)嵌的SQL和XPATH查詢,能將SQL和XPATH查詢的結(jié)果與SPARQL查詢中的變量相互綁定。通過(guò)內(nèi)嵌SQL和XPATH查詢,CORESE可以從多個(gè)不同類(lèi)型的數(shù)據(jù)源獲取數(shù)據(jù),并轉(zhuǎn)換為RDF形式。
CORESE中利用函數(shù)sql()實(shí)現(xiàn)對(duì)關(guān)系型數(shù)據(jù)庫(kù)的查詢,sql()的參數(shù)包括:連接數(shù)據(jù)庫(kù)服務(wù)的URL、JDBC驅(qū)動(dòng)類(lèi)名、數(shù)據(jù)庫(kù)用戶名、用戶密碼和SQL查詢。sql()查詢的結(jié)果將與SPARQL查詢中的變量相綁定。
假設(shè)需要從一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中檢索出friendOf關(guān)系,并用查詢結(jié)果構(gòu)建RDF圖。在CORESE中可以使用construct塊、函數(shù)sql()和函數(shù)getIdUrl()實(shí)現(xiàn)上述要求,其中函數(shù)getI-dUrL()用于將sql()查詢的結(jié)果轉(zhuǎn)換為URL形式。具體的實(shí)現(xiàn)過(guò)程如下:
PREFIX rel:<http://purl.org/vocab/relationship/>
construct{?url_user1rel:friendOf?url_user2}
select sql(′jdbc:mysql://localhost:3306/SNA′,′com.mysql.jdbc.Driver′,′userName′,′pwd′,′SELECT user1,user2from relations where rel=2′)as(?id1,?id2)
fun:genIdUrl(?id1,′http://semsni.fr/people/′)as?url_user1
fun:genIdUrl(?id2,′http://semsni.fr/people/′)as?url_user2
where{}
與之類(lèi)似,對(duì)XML數(shù)據(jù)的查詢可以通過(guò)內(nèi)嵌函數(shù)XPATH()實(shí)現(xiàn)。函數(shù)XPATH()的參數(shù)包括:XML數(shù)據(jù)源的URL和需匹配的XPATH表達(dá)式。函數(shù)xpath()將返回XML數(shù)據(jù)源中與xpath表達(dá)式相匹配的元素。將結(jié)果與SPARQL查詢中的變量相綁定,生成RDF圖。
利用CORESE的上述功能,可將XML格式和關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)的社會(huì)數(shù)據(jù)封裝為RDF格式的數(shù)據(jù)。使用add子句代替construct子句,可以將封裝好的RDF數(shù)據(jù)加入已有的社會(huì)網(wǎng)RDF語(yǔ)義圖模型中。
在在線社區(qū)社會(huì)語(yǔ)義網(wǎng)絡(luò)表示的基礎(chǔ)上,首先根據(jù)社會(huì)網(wǎng)絡(luò)分析指標(biāo)的定義,使用SPARQL語(yǔ)言描述待檢索的社會(huì)網(wǎng)絡(luò)分析指標(biāo),然后通過(guò)CORESE搜索引擎完成對(duì)在線社會(huì)網(wǎng)絡(luò)RDF圖的檢索分析。在分析過(guò)程中,可以利用社會(huì)數(shù)據(jù)屬性的層次結(jié)構(gòu)實(shí)現(xiàn)對(duì)分析粒度的控制,利用屬性路徑的檢索實(shí)現(xiàn)整體網(wǎng)分析。
在線社會(huì)網(wǎng)絡(luò)中,社會(huì)數(shù)據(jù)含有豐富的類(lèi)型信息,如用戶類(lèi)型、關(guān)系類(lèi)型和生成內(nèi)容類(lèi)型等。這些類(lèi)型存在語(yǔ)義上的層次結(jié)構(gòu),不同層次的類(lèi)型具有不同的分析粒度。使用SPARQL描述網(wǎng)絡(luò)分析的查詢語(yǔ)句時(shí),可以利用社會(huì)數(shù)據(jù)的屬性層次結(jié)構(gòu)控制分析的粒度。如圖3所示,用戶Jack所在的社會(huì)網(wǎng)絡(luò)中存在多種類(lèi)型的關(guān)系屬性。關(guān)系屬性的層次結(jié)構(gòu)可以用樹(shù)狀結(jié)構(gòu)表示。根節(jié)點(diǎn)know屬性具有最大分析粒度,層次越高的屬性具有的分析粒度越小。分析粒度不同將得到不同的分析結(jié)果。根據(jù)示例中的關(guān)系層次和圖結(jié)構(gòu),如果分析網(wǎng)絡(luò)中的know屬性,Jack的節(jié)點(diǎn)度為5;若僅考慮家族關(guān)系,Jack的節(jié)點(diǎn)度則為3。
Figure 3 Combination of type hierarchy structure and the graph structure圖3 類(lèi)型層次結(jié)構(gòu)和圖結(jié)構(gòu)的結(jié)合
對(duì)在線社會(huì)網(wǎng)絡(luò)的RDF圖模型進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)分析需要借助于圖的路徑信息。在RDF圖模型中,節(jié)點(diǎn)通過(guò)屬性進(jìn)行鏈接,所以節(jié)點(diǎn)間的路徑取決于屬性。由一組屬性序列構(gòu)成的路徑稱為屬性路徑。RDF圖的路徑檢索通過(guò)屬性路徑匹配實(shí)現(xiàn)。屬性路徑匹配可形式化表示為:
其中,G=(EG,RG,nG,lG)表示RDF圖模型;EG表示實(shí)體的點(diǎn)的集合;RG表示關(guān)系的集合;nG:RG→E*G表示關(guān)聯(lián)函數(shù),將關(guān)系與有限實(shí)體相關(guān)聯(lián);若nG(r)=(e1,…,ek),則niG(r)=ei表示關(guān)系r的第i個(gè)參數(shù);lG:EG∪RG→L表示實(shí)體和關(guān)系的標(biāo)簽函數(shù);reli,i+1表示屬性序列中的第i+1個(gè)屬性。
本文使用CORESE語(yǔ)法規(guī)定的正則表達(dá)式來(lái)描述屬性路徑。在CORESE語(yǔ)法中定義了描述路徑的正則表達(dá)式操作符,正則表達(dá)式操作符及其含義如表1所示。
Table 1 Regular expression operator in CORESE表1 CORESE中的正則表達(dá)式操作符
屬性路徑是正則表達(dá)式操作符與待檢索屬性的組合,例如表達(dá)式“foaf:knows*/rel:works-With”表示以零個(gè)或以上的foaf:know屬性開(kāi)始且以rel:works屬性結(jié)束的屬性路徑。屬性路徑的長(zhǎng)度計(jì)算通過(guò)函數(shù)length()實(shí)現(xiàn),路徑的長(zhǎng)度可以作為檢索的過(guò)濾條件,如使用“filter(path-Length($path)<=5)”表示所查詢的路徑長(zhǎng)度不超過(guò)5。CORESE中定義了描述路徑特征的可選參數(shù),其中,‘i’表示路徑的可逆屬性;‘s’表示一條最短路徑;‘sa’表示所有最短路徑。這些參數(shù)用于表示路徑的正則表達(dá)式前。例如,在上述例子加入路徑特征,檢索所有滿足正則表達(dá)式所描述屬性的可逆最短路徑,其表達(dá)式為“i sa foaf:knows*/worksWith?y”。
通過(guò)參數(shù)可以實(shí)現(xiàn)社會(huì)網(wǎng)絡(luò)分析指標(biāo)的語(yǔ)義約束,參數(shù)化社會(huì)網(wǎng)絡(luò)分析指標(biāo)形式化表示為:SNA_Indice〈properties,contants〉(object)={description}其中,SNA_Indice表示待分析指標(biāo)的名稱;〈properties,constants〉表示參數(shù)集合,包括用戶的類(lèi)型、社會(huì)關(guān)系等屬性參數(shù)和常數(shù)參數(shù);object表示待分析的對(duì)象;description表示對(duì)該指標(biāo)的詳細(xì)描述。
根據(jù)參數(shù)化社會(huì)網(wǎng)絡(luò)分析指標(biāo)設(shè)計(jì)相應(yīng)的SPARQL查詢語(yǔ)句,可以直接實(shí)現(xiàn)在線社會(huì)語(yǔ)義網(wǎng)絡(luò)分析。下面以計(jì)算中間中心度為例,簡(jiǎn)述語(yǔ)義網(wǎng)分析的過(guò)程。根據(jù)Freeman的定義[10],假設(shè)節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的最短路徑數(shù)用gij表示,經(jīng)過(guò)第三點(diǎn)k的最短路徑數(shù)用gij(k)表示,則節(jié)點(diǎn)k對(duì)節(jié)點(diǎn)對(duì)(i,j)的中介能力用中間度bij(k)表示。bij(k)為k處于i和j的最短路徑上的概率,用參數(shù)化網(wǎng)絡(luò)分析指標(biāo)可將節(jié)點(diǎn)k的中間度表示為:
其中,〈type〉表 示 指 定 的 網(wǎng) 絡(luò) 類(lèi) 型,gcount〈type〉(k,from,to)是最短路徑數(shù)gij(k)的參數(shù)化表示,gcount〈type〉(from,to)是最 短 路 徑 數(shù)gij的 參 數(shù) 化 表示??梢允褂孟鄳?yīng)的SPARQL查詢計(jì)算出節(jié)點(diǎn)k的中間度值。
節(jié)點(diǎn)k的中間中心度CB(k)等于節(jié)點(diǎn)k相應(yīng)于圖中所有的點(diǎn)對(duì)的中間度之和,可表示為:
最后,將SPARQL檢索結(jié)果中的非0值相加,便得到參數(shù)化的中間中心度Cb〈type〉(b)。后期處理的算法如下:
本節(jié)以朋友網(wǎng)部分用戶構(gòu)成的社會(huì)網(wǎng)絡(luò)為例,演示社會(huì)語(yǔ)義網(wǎng)分析具體情況。實(shí)驗(yàn)數(shù)據(jù)集取自朋友網(wǎng),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具收集了含有用戶個(gè)人信息和用戶網(wǎng)絡(luò)關(guān)系信息的網(wǎng)頁(yè),并從中提取用戶相關(guān)數(shù)據(jù)進(jìn)行語(yǔ)義處理。獲取的數(shù)據(jù)集包含了3 566個(gè)參與者,參與者組成的網(wǎng)絡(luò)中存在179 592個(gè)關(guān)系。關(guān)系類(lèi)型分為三種:家庭關(guān)系類(lèi)型、朋友關(guān)系類(lèi)型和其他關(guān)系類(lèi)型。本文詳細(xì)考察的家庭關(guān)系包括:父子關(guān)系、兄弟關(guān)系和配偶關(guān)系等;朋友關(guān)系中考慮relationship本體中定義的密友關(guān)系和熟人關(guān)系;其他關(guān)系中包括了除上述家庭和朋友關(guān)系以外的關(guān)系類(lèi)型,如師生關(guān)系、雇傭關(guān)系等。
首先,根據(jù)類(lèi)型的不同,實(shí)驗(yàn)分析了三類(lèi)網(wǎng)絡(luò)的規(guī)模、密度和直徑等網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)。原始網(wǎng)絡(luò)、家庭關(guān)系網(wǎng)絡(luò)、朋友關(guān)系網(wǎng)絡(luò)和其他關(guān)系網(wǎng)絡(luò)的參與者數(shù)量、關(guān)系數(shù)量以及網(wǎng)絡(luò)密度、直徑等分析數(shù)據(jù)如表2所示。
Table 2 Parameter contrast of different networks表2 不同類(lèi)型網(wǎng)絡(luò)的參數(shù)對(duì)比
從實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),家庭關(guān)系網(wǎng)絡(luò)參與者僅占整體網(wǎng)絡(luò)參與者的13%,家庭網(wǎng)絡(luò)密度小且網(wǎng)絡(luò)直徑大。這是因?yàn)樵诰€社會(huì)網(wǎng)絡(luò)中年輕人的比例大,而家庭親屬網(wǎng)絡(luò)需要通過(guò)年長(zhǎng)的參與者進(jìn)行聯(lián)系。與家庭關(guān)系網(wǎng)絡(luò)相比,朋友關(guān)系網(wǎng)絡(luò)和其他關(guān)系網(wǎng)絡(luò)具有較高的密度和較小的直徑。數(shù)據(jù)反映了不同類(lèi)型的網(wǎng)絡(luò)具有不同的特征。因此,通過(guò)SPARQL查詢的語(yǔ)義約束,可以分析出不同粒度的網(wǎng)絡(luò)特征。
實(shí)驗(yàn)對(duì)家庭網(wǎng)絡(luò)和朋友網(wǎng)絡(luò)的度數(shù)中心度分布進(jìn)行了對(duì)比分析,這兩種類(lèi)型網(wǎng)絡(luò)的度數(shù)中心度分布如圖4所示。
Figure 4 Degree centrality distribution diagram圖4 度數(shù)中心度分布圖
圖4中縱坐標(biāo)N(K)表示度值為K的節(jié)點(diǎn)的數(shù)量,橫坐標(biāo)表示度數(shù)。結(jié)果表明,兩種網(wǎng)絡(luò)的度數(shù)中心分布都服從冪律分布特性,且大部分節(jié)點(diǎn)的度值集中于[1,200],但朋友網(wǎng)絡(luò)中存在多個(gè)高中心度節(jié)點(diǎn),最高度值可達(dá)701,而家庭網(wǎng)絡(luò)中最高度值僅為216。實(shí)驗(yàn)證明,兩種網(wǎng)絡(luò)的度數(shù)中心度分布存在差異,使用基于語(yǔ)義網(wǎng)技術(shù)的分析方法能很好地區(qū)分出不同類(lèi)型的網(wǎng)絡(luò),使得分析更精細(xì)。
最后,實(shí)驗(yàn)對(duì)網(wǎng)絡(luò)的中間中心性進(jìn)行了分析。整體網(wǎng)絡(luò)的中間中心度分布如圖5所示。
Figure 5 Betweenness centrality distribution diagram of the overall network圖5 整體網(wǎng)絡(luò)的中間中心度分布圖
圖5中縱坐標(biāo)N(Dc)表示中間中心度值為Dc的節(jié)點(diǎn)數(shù)量,橫坐標(biāo)表示中間中心度值。整體網(wǎng)絡(luò)中有3 365個(gè)節(jié)點(diǎn)中間中心度值在[0,523 499]內(nèi),其中有46個(gè)節(jié)點(diǎn)的中間中心度值大于100 000,這些點(diǎn)在網(wǎng)絡(luò)中起著重要的中介作用。借助于本文的語(yǔ)義分析方法,可以對(duì)這些節(jié)點(diǎn)做進(jìn)一步的分析。經(jīng)實(shí)驗(yàn)分析,朋友網(wǎng)絡(luò)中1 004個(gè)節(jié)點(diǎn)的中間中心度值分布在[0,148 225]內(nèi),其中有5個(gè)節(jié)點(diǎn)的中間中心度值大于100 000,如圖6所示。
Figure 6 Betweenness centrality distribution diagram of friend network圖6 朋友網(wǎng)絡(luò)的中間中心度分布圖
圖6中縱坐標(biāo)N(Dc)表示中間中心度值為Dc的節(jié)點(diǎn)數(shù)量,橫坐標(biāo)表示中間中心度值。這5個(gè)節(jié)點(diǎn)恰好包含于整體網(wǎng)絡(luò)中中間中心度值較高的46個(gè)節(jié)點(diǎn)中。因此,可以推斷這5個(gè)節(jié)點(diǎn)是利用家庭關(guān)系的鏈接為網(wǎng)絡(luò)提供中介作用。
本文根據(jù)已有研究成果,利用RDF圖模型和已有的本體描述在線社會(huì)網(wǎng)絡(luò),并利用CORESE的內(nèi)嵌函數(shù)對(duì)非RDF數(shù)據(jù)進(jìn)行語(yǔ)義封裝,為在線社會(huì)網(wǎng)絡(luò)的語(yǔ)義分析提供基礎(chǔ)數(shù)據(jù)。利用SPARQL對(duì)在線社會(huì)網(wǎng)絡(luò)的語(yǔ)義數(shù)據(jù)進(jìn)行檢索,設(shè)計(jì)了基于SPARQL的參數(shù)化在線社會(huì)網(wǎng)絡(luò)分析語(yǔ)句。在分析過(guò)程中利用社會(huì)數(shù)據(jù)的屬性層次結(jié)構(gòu)實(shí)現(xiàn)分析粒度的控制,并通過(guò)數(shù)據(jù)的屬性路徑檢索實(shí)現(xiàn)整體網(wǎng)絡(luò)分析。最后,利用真實(shí)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),說(shuō)明了所提框架的可行性和適用性。將語(yǔ)義網(wǎng)技術(shù)引入在線社會(huì)網(wǎng)絡(luò)表示分析過(guò)程中,有利于表達(dá)的準(zhǔn)確性,有利于對(duì)在線社區(qū)作深入的分析理解。
[1] Bai Yu,Hong Lei.Multi-scale analysis and modeling of user session traffic in social networks[C]∥Proc of the 11th IEEE International Conference on Communication Technology,2008:85-88.
[2] Freeman L C,White D R,Romney A K.Research methods in social network analysis[M].Iroince:Transaction Publishers,1989.
[3] Adamic L A,Buyukkokten O,Adar E.A social network caught in the Web[J].New York:First Monday,2003,8(6):1-22.
[4] Mislove A,Marcon M,Gummadi P K,et al.Measurement and analysis of online social networks[C]∥Proc of the 7th ACM SIGCOMM Conference on Internet Measurement,2007:29-42.
[5] Mika P.Social network and the sematic Web[M].New York:Springer Press,2007.
[6] Finin T,Sleeman J.Computing FOAF co-reference relations with rules and machine learning[C]∥Proc of the 3rd International Workshop on Social Data on Web,2010:595-608.
[7] Kinsella S,Breslin J,Passant A,et al.Applications of semantic web methodologies and techniques to social networks and social websites[C]∥Proc of Reasoning Web 2008,2008:171-199.
[8] Liu Ling,Pu Calton,Han Wei.XWRAP:An XML-enabled wrapper construction system for Web information sources[C]∥Proc of the 16th International Conference on Data Engineering,2000:611-621.
[9] Corby O,Dieng-kuntz R,F(xiàn)aron-zucker.Querying the semantic web with the CORESE search engine[C]∥Proc of the 15th ECAI/PAI,2004:1-5.
[10] Freeman L C.Centrality in social network:Conceptual clarification[J].Social Networks,1979,1(3):215-239.
[11] Kochut K J,Janik M.SPARQLeR:Extended sparql for semantic association discovery[C]∥Proc of ESWC’07,2007:145-159.