劉峰 葉紅
摘 要 在數(shù)據(jù)庫技術發(fā)展的基礎上,企業(yè)建立了大量的數(shù)據(jù)倉庫,通過數(shù)據(jù)倉庫實現(xiàn)數(shù)據(jù)向決策信息的轉化。隨著計算機應用的不斷推廣,信息網(wǎng)絡應運而生,有著非常廣泛的應用,主要包括同構信息網(wǎng)絡與異構信息網(wǎng)絡兩種實體類型,包含了大量的實體信息與實體關聯(lián)信息。從多維視角對信息網(wǎng)絡進行分析具有非常重要的意義,本文針對同構信息網(wǎng)絡提出了簡單嵌套立方體,針對異構信息網(wǎng)絡提出了多層嵌套立方體。
【關鍵詞】信息網(wǎng)絡 簡單嵌套立方體 多層嵌套立方體
隨著計算機技術的發(fā)展與數(shù)據(jù)庫應用的普及,數(shù)據(jù)主要劃分為操作性與分析性兩種類型。兩種數(shù)據(jù)處理的特點不同決定了其數(shù)據(jù)環(huán)境不同,由此而產(chǎn)生了數(shù)據(jù)倉庫,通過聯(lián)機分析處理方法為決策提供依據(jù)。當前,新型數(shù)據(jù)的出現(xiàn)對聯(lián)機分析處理技術提出了新的要求,需要對其進行創(chuàng)新。信息網(wǎng)絡中的連接分析處理技術面臨的挑戰(zhàn)為需要一種新的多維數(shù)據(jù)模型來對信息網(wǎng)絡進行描述,當數(shù)據(jù)模型發(fā)生變化之后,數(shù)據(jù)存儲模式及物化等都會發(fā)生變化,需要實現(xiàn)聯(lián)機分析處理技術的創(chuàng)新。
1 信息網(wǎng)絡概述
數(shù)據(jù)庫并不僅僅是指出數(shù)據(jù)存儲與檢索的倉庫,其中包含了非常多的數(shù)據(jù)類型及相同或不同數(shù)據(jù)類型之間所存在的關聯(lián)信息等。數(shù)據(jù)庫中所包含的數(shù)據(jù)及數(shù)據(jù)間的關聯(lián)形成了信息網(wǎng)絡,從而對更具有意義的信息進行挖掘。
當前,在對信息網(wǎng)絡進行分析的過程中缺乏多維分析工具,對聯(lián)機分析處理提出了新的挑戰(zhàn)。信息網(wǎng)絡中所包含的結點代表的是實體,所包含的便代表的是實體之間的關系。如果信息網(wǎng)絡中的節(jié)點類型相同,則形成同構信息網(wǎng)絡;如果信息網(wǎng)絡中結點類型不同,則形成異構信息網(wǎng)絡。在日常生活中信息網(wǎng)絡有著廣泛的應用,例如Facebook、DBLP等。
傳統(tǒng)的聯(lián)機分析處理技術是以數(shù)據(jù)立方體為基礎的,但是其中只能夠存在一種實體類型且實體類型之間不存在關聯(lián)。這就導致了連接分析處理技術不能夠對信息網(wǎng)絡多維分析問題進行解決。
2 多維分析視角的同構信息網(wǎng)絡分析
2.1 多維網(wǎng)絡
同構信息網(wǎng)絡屬于新型的數(shù)據(jù)形式,為了對其進行分析需要實現(xiàn)簡單模型的建立,以該模型為基礎進行分析操作。將同構信息網(wǎng)絡進行抽象之后就得到了多維網(wǎng)絡模型。
例如一個小型的社交網(wǎng)絡,將社交網(wǎng)絡中的每一個人都視為一個節(jié)點,每一個節(jié)點都具有姓名、國籍、職業(yè)、年齡、學歷等多維屬性。兩個節(jié)點之間的連線代表著兩人的朋友關系,可以實現(xiàn)信息的共享,因此兩節(jié)點之間的線中都包含了多條信息,而每條信息中又包含了ID、信息、主題等多維屬性。通過多維網(wǎng)絡實現(xiàn)了對社交網(wǎng)絡的建模,從而對社交網(wǎng)絡中的實體信息進行了展示,從而將實體與實體之間具體的關系進行了表示。
2.2 簡單嵌套立方體中的聯(lián)機分析處理操作
在對簡單嵌套立方體進行分析的過程中,選取雙向兩層聯(lián)機分析處理查詢方式,主要包括點到邊的查詢與邊到點的查詢兩種類型。為了能夠對這種查詢進行更好的理解,沿用上文社交網(wǎng)絡的例子來進行說明。在多維網(wǎng)絡中可能存在的聯(lián)機分析處理類型的查詢包括:第一,不同國家的人如何實現(xiàn)信息的共享及信息在不同類別如何發(fā)布;第二,對特點信息進行分享的人在職業(yè)方面的結構分布。這兩個查詢都涉及到多維網(wǎng)絡的聚集操作,首先從對應的圖立方體中找到對應的度量網(wǎng)絡,之后從對應的數(shù)據(jù)立方體中找到答案對應的度量。
首先,點到邊的查詢。首先對結點進行分析,之后再對邊進行分析,也就是所謂的先對圖立方體進行多維分析,之后再對動態(tài)生成的數(shù)據(jù)立方體進行多維分析。在對上面的第一個類型進行查詢的過程中,首先依據(jù)國籍維度對所有的節(jié)點進行分組,將在國籍方面具有相同值的節(jié)點劃分到同一組中,同時將這些節(jié)點對應的邊進行合并,從而得到不同國籍之間所分享的信息,之后再對這些分享信息按照類別對其進行劃分。
其次,邊到點的查詢。首先對邊進行聯(lián)機分析查詢,之后再對節(jié)點進行分析,也就是說先對內(nèi)層數(shù)據(jù)立方體進行分析,之后再對動態(tài)生成的圖立方體進行分析。在對上文第二類型進行查詢的過程中,首先應該對所有的共享信息的類別分布進行計算,之后在對特定的類型進行選定,從而對該類別信息進行分享的人進行選擇,之后在對這些選擇的人的職業(yè)拓撲情況進行計算。通過對共享信息類別的分布進行計算得知人們對政治信息關注較多,在選定了政治類別的信息之后,對共享這些政治信息的人們的職業(yè)拓撲分布進行計算,從而得知教師、醫(yī)師之間進行政治信息共享的較多。
3 多維分析視角的異構信息網(wǎng)絡分析
3.1 多維異構網(wǎng)絡
圖1代表一個小型的多維異構網(wǎng)絡,其中結點代表兩種實體,方形代表的是作者,三角形代表的是論文,兩者之間的連線代表論文是該作者所發(fā)表,若兩個三角形指向一個方形,則證明兩篇論文為同一位作家所發(fā)表,如果兩個方形指向一個三角形,則證明兩位作家共同發(fā)表了一篇論文。圖1中的多維異構網(wǎng)絡對文獻網(wǎng)絡進行了形象的刻畫,一方面對作者的合作關系與論文的出處關系進行了表達,另一方面對作者與論文兩種之間類型之間的關系進行了表達。在多維網(wǎng)絡中包含了兩種不同類型的實體,因此將其稱之為兩類型多維異構網(wǎng)絡。
3.2 兩層嵌套立方體
通過兩類型多維異構網(wǎng)絡可以實現(xiàn)兩層嵌套立方體的獲得,由圖1所示的兩類型多維異構網(wǎng)絡可知兩層嵌套立方體主要包括兩種情況:第一,重視對V1類型實體與實體之間的關聯(lián)進行重點研究,則V1類型實體的屬性構成了未曾圖立方體的維度,通過對其屬性子集聚集進行計算得到圖立方體,將圖立方體的度量作為度量網(wǎng)絡,將V1實體進行分組,不同小組之間的V2類型實體的屬性構成了內(nèi)層數(shù)據(jù)立方體的維,通過對其屬性子集聚集進行計算得到數(shù)據(jù)立方體。數(shù)據(jù)立方體存在與圖立方體的度量中,兩者之前形成嵌套關系。第二,重視對V2類型實體與實體之間的關聯(lián)進行重點研究,將V2實體集合構成外層他立方體,V1類型實體結合構成內(nèi)層數(shù)據(jù)立方體,兩者自檢相互嵌套。
綜上所述,兩層嵌套立方體指的是外層圖立方體中包含內(nèi)層數(shù)據(jù)立方體,同一種類型的實體既可以構成內(nèi)層圖立方體,也可以構成外層的數(shù)據(jù)立方體。因此,同一個兩種類型多維異構網(wǎng)絡依據(jù)分析角度可以分為兩個兩層嵌套立方體。在兩層嵌套立方體中,兩類對象存在既獨立又關聯(lián)的關系。
3.3 多層嵌套立方體
兩種類型的多維網(wǎng)絡能夠形成對應的兩層嵌套立方體。在異構信息網(wǎng)絡中,實體類型包括多種類型,兩層嵌套立方體可以擴展成為多層嵌套立方體。例如三種類型的異構網(wǎng)絡能夠形成六個不同的三層嵌套立方體。因此,多維網(wǎng)絡中的N個實體類型與實體類型之間存在的內(nèi)在聯(lián)系能夠在異構網(wǎng)絡中形成N!個N層嵌套立方體,不同的實體類型能夠在任意一層中出現(xiàn),但是只能夠出現(xiàn)在一層中。
3.4 多層嵌套立方體上的聯(lián)機分析處理操作
在對傳統(tǒng)的數(shù)據(jù)立方體進行操作的過程中,主要的操作類型包括切片、上卷、切塊等。這些操作方式在多層嵌套立方體中同樣適應。此外,還可以通過復合查詢的方式對多層嵌套立方體中的多種類型分析對象進行查詢。在多層嵌套立方體的聯(lián)機分析處理操作過程中,N層嵌套立方體上的復合查詢需要N-1次轉換分析對象操作,從而形成N-1個部分立方體。
4 總結
在信息網(wǎng)絡多維分析方法的研究方面已經(jīng)取得了一定的成果,在已有的研究方法中不能夠實現(xiàn)對同構信息網(wǎng)絡的聯(lián)系進行深入分析,而且對異構信息網(wǎng)絡的研究也較為缺乏。本文通過立方體相互嵌套的思想對信息網(wǎng)絡的多維視角分析問題進行了解決。針對同構信息網(wǎng)絡提出了簡單嵌套立方體,針對異構信息網(wǎng)絡提出了多層嵌套立方體,對兩者之間的區(qū)別與聯(lián)系進行了研究,為基于多維分析視角的信息網(wǎng)絡研究奠定了理論基礎。
參考文獻
[1]王杰.信息網(wǎng)絡傳播權與圖書館信息資源共享的利益沖突分析[J].佳木斯大學社會科學學報,2012,01(36):174-175.
[2]聶章艷,李川,唐常杰,徐洪宇,張永輝,楊寧.面向OLGP的多維信息網(wǎng)絡數(shù)據(jù)倉庫模型設計[J].計算機科學與探索,2014,01(32):51-60.
[3]甘亮,李潤恒,賈焰,劉健.HS-Stream Cube:網(wǎng)絡安全事件流實時多維分析系統(tǒng)[J].計算機工程與科學,2013,03(24):72-79.
[4]尹為,張成虎,甘凱.基于數(shù)據(jù)流多維分析的可疑金融交易動態(tài)識別[J].北京理工大學學報(社會科學版),2013,05(15):52-59.
作者單位
陜西省科技資源統(tǒng)籌中心 陜西省西安市 710075