黃堰++程曉榮
摘要:大數(shù)據(jù)時代數(shù)據(jù)飛速增長,高維數(shù)據(jù)越來越多迫切需要新的數(shù)據(jù)可視化方法對高維數(shù)據(jù)進行處理。本文在傳統(tǒng)的Radviz數(shù)據(jù)可視化方法基礎(chǔ)上,結(jié)合彈簧模型,給出了一種改進的Radviz數(shù)據(jù)可視化方法,并通過兩種模型之間的比較,證明了改進的Radviz可視化方法增強了屬性間的合力,降低了數(shù)據(jù)遮蓋度,更好地保持了原有數(shù)據(jù)集的特征。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)可視化;Radviz;彈簧模型
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)17-0231-03
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)產(chǎn)生的速度呈直線上升,數(shù)據(jù)海量化已成為不可避免的發(fā)展趨勢。數(shù)據(jù)急劇增加對數(shù)據(jù)處理、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化等都是一個極大的挑戰(zhàn)。目前,數(shù)據(jù)可視化面臨高維數(shù)據(jù)越來越多,數(shù)據(jù)量越來越大,數(shù)據(jù)種類越來越多等多種挑戰(zhàn)。針對這些問題,提出了一種Radviz數(shù)據(jù)可視化方法,將高維數(shù)據(jù)樣本非線性的投影到二維目標空間,能夠快速找到容易被領(lǐng)域?qū)<艺J可的可視化模型。但是傳統(tǒng)的Radviz可視化方法將屬性值均勻分布在圓周上造成屬性間的值相互抵消,從而導致數(shù)據(jù)遮蓋度較大及可視化圖形有內(nèi)縮趨勢等問題。本文提出了一種新的改進的Radviz可視化方法,改進的方法增強屬性了間的合力,降低了數(shù)據(jù)遮蓋度,使得原始數(shù)據(jù)集的特征能夠更好地保持。
1 數(shù)據(jù)可視化
數(shù)據(jù)可視化技術(shù)誕生于二十世紀八十年代,是運用計算機圖形學和圖像處理等技術(shù),以圖表、地圖、動畫或其他使內(nèi)容更容易理解的圖形方式來表示數(shù)據(jù),使數(shù)據(jù)所表達的內(nèi)容更加容易被處理。數(shù)據(jù)可視化技術(shù)與虛擬現(xiàn)實技術(shù)、數(shù)據(jù)挖掘、人工智能,甚至與人類基因組計劃等前沿學科領(lǐng)域都有著密切的聯(lián)系[1]。目前數(shù)據(jù)可視化技術(shù)大體可以分為5類:基于幾何投影可視化技術(shù)、面向像素可視化技術(shù)、基于圖標可視化技術(shù)、基于層次可視化技術(shù)以及基于圖形可視化技術(shù)[2]。
數(shù)據(jù)可視化的簡易工作圖如圖1所示:
2 傳統(tǒng)的Radviz可視化方法分析
Radviz(Radial Coordinate Visualization)是一種基于彈簧模型的可視化方法,Radviz是將一系列多維空間的點通過非線性方法映射到二維空間,實現(xiàn)在平面中對多維數(shù)據(jù)可視化的一種數(shù)據(jù)分析方法。自從Ankerst于1996年提出Radviz技術(shù)以來,Radviz技術(shù)取得了很大的發(fā)展,被廣泛應用于可視化分析和數(shù)據(jù)挖掘等領(lǐng)域。近年來更是把Radviz技術(shù)運用到基因表達數(shù)據(jù)的分類上,且取得了良好的分類效果[3]。
2.1 傳統(tǒng)Radviz模型
經(jīng)典的Radviz方法通常運用在平行坐標系上,將一系列具有多維度屬性的點通過非線性方法映射到二維空間,使人們得以用肉眼觀察。如圖2所示,設(shè)n個特征變量隨機均勻地分布在單位圓周上(如n= 6),記為
其中,
根據(jù)胡克定律,對一個彈簧而言,小球所受到的彈力取決于彈簧拉伸的長度(矢量)和彈簧的彈性系數(shù)(標量) ,當小球靜止不動時,則表明其受到所有彈簧的合力為零。對此可得到如下公式:
其中xj表示第j個變量在二維空間的圓周上的坐標,pi表示第i個觀測點在圓內(nèi)二維空間平衡位置的坐標。公式(2-2)表示第i個觀測的平衡位置,式(2-3)表示觀測平衡位置向量pi為各變量的坐標位置的加權(quán)平均。為了避免負值的出現(xiàn),常常采用歸一化的方法,即將最大值和最小值歸為1和0,歸一化后的所有得數(shù)值都位于[0,1]之間[4]。歸一化公式為:
從上述公式分析,我們可以得出如下結(jié)論:
(1)維度值越大,那么該投影位置將更靠近該維度在圓周上的位置;
(2)改變圓周上的屬性,將影響投影的位置;
傳統(tǒng)的Radviz可視化方法計算復雜度低;可顯示維度大;相似多維對象的投影點十分接近,容易發(fā)現(xiàn)聚類信息;直觀便于理解。但是傳統(tǒng)的Radviz方法也存在一些不足,該方法受數(shù)據(jù)本身及數(shù)據(jù)集的類型影響,當相似的數(shù)據(jù)集或成比例的數(shù)據(jù)集較多時,數(shù)據(jù)遮蓋度會很大,將會影響對原始數(shù)據(jù)集的特征保持[5.6]。
3 改進的Radviz可視化方法分析
傳統(tǒng)的Radviz可視化方法受數(shù)據(jù)本身和數(shù)據(jù)集類型的影響,一旦相似數(shù)據(jù)集或成比例的數(shù)據(jù)集較多,數(shù)據(jù)遮蓋度就會很大,那么原始數(shù)據(jù)集的特征將會被影響,造成這種現(xiàn)象的原因是傳統(tǒng)Radviz模型屬性間的相互作用增加了數(shù)據(jù)密集度,使數(shù)據(jù)覆蓋和重復概率增大,從而影響原始數(shù)據(jù)集的特征。對此,本文提出了一種改進的Radviz模型,新的模型減少了屬性間的相互作用,從而使可視化結(jié)果更加接近數(shù)據(jù)集的原有特征。
3.1 改進的Radviz模型
改進模型采取1/4圓來對應n維空間,對于一個n維數(shù)據(jù)集,那么就將1/4圓n等分,即每一個點表示一個維度,然后通過彈簧模型來將數(shù)據(jù)集投影到二維平面的1/4圓中。但是每個點都在1/4圓弧上,則有可能最后的平衡點不在1/4圓內(nèi),那么就需要一個固定點來使得平衡點一定落在1/4內(nèi),這里把原點設(shè)為固定點。如四維數(shù)據(jù)集,原理圖如下:
在圖3中,X、Y軸分別表示投影點的橫、縱坐標;原點表示用來使平衡點一定落在1/4圓內(nèi)的固定點;Mi表示數(shù)據(jù)集的每一個維度;O表示數(shù)據(jù)集在1/4圓周上的平衡點;h(x,y)表示平衡點O的坐標函數(shù)。
3.2 改進Radviz可視化方法的實現(xiàn)
3.2.1 數(shù)據(jù)預處理
首先要對數(shù)據(jù)集進行預處理,把非數(shù)字轉(zhuǎn)化為數(shù)字,然后對數(shù)據(jù)集進行歸一化處理,使得數(shù)據(jù)集中的所有數(shù)據(jù)都在[0,1]之間。本文采用的歸一化公式為:
3.2.2 固定點彈性系數(shù)
傳統(tǒng)的Radviz模型沒有固定點,當然也就不用設(shè)定固定點彈性系數(shù)。但是,在改進的Radviz模型中所有的屬性都在1/4圓上,他們所受到的彈力都在一側(cè),無法使得平衡點落在1/4圓內(nèi),所以需要提供一個固定點,來提供一個彈力來使得平衡點落在1/4圓內(nèi)。本文提出了一種全局均值的固定點彈性系數(shù)算法,全距均值就是所有屬性中最大值和最小值的均值之和,它可以使數(shù)據(jù)可視化投影點處于居中的位置,方便進一步的數(shù)據(jù)處理。全距均值的計算公式:
3.2.3 新的平衡點坐標計算
其中,圓的半徑為1,p表示彈簧彈性系數(shù),k表示第i個數(shù)據(jù)中第t個屬性的值,兩個三角函數(shù)表示第t個屬性沿坐標軸的分量[7.8]。再由合力為零,得到投影坐標的公式為:
3.3 改進Radviz模型與傳統(tǒng)Radviz模型比較
傳統(tǒng)的Radviz模型是把所有屬性隨機均勻分布在一個圓周上,那么屬性之間的夾角都是鈍角,那就使得屬性的投影值小于它的初始值,這就導致屬性值的落點更靠近圓點,增加了數(shù)據(jù)遮蓋度,最終導致得到的數(shù)據(jù)可視化效果較差。而改進的Radviz模型是把所有的屬性均勻分布在1/4圓周上,屬性間的夾角就是一個銳角,也就是說屬性的投影值不小于初始值,這就使得屬性值的落點比初始值更遠離原點,這就降低了數(shù)據(jù)遮蓋度,最終得到的數(shù)據(jù)可視化效果就更好。
綜上所述,改進的Radviz數(shù)據(jù)可視化方法更好,即更好地保持了數(shù)據(jù)集的原始特征,又能得到更好的可視化效果;為數(shù)據(jù)可視化的研究提出了一種更好的方法,使得數(shù)據(jù)可視化更加容易,得到的結(jié)果更加可靠。
4 總結(jié)
本文在研究傳統(tǒng)的Radviz數(shù)據(jù)可視化方法的基礎(chǔ)上,結(jié)合傳統(tǒng)方法的優(yōu)點,給出了一種改進的Radviz數(shù)據(jù)可視化方法,并對改進可視化方法進行了分析與比較。解決了傳統(tǒng)方法不能很好保持原始數(shù)據(jù)集特征和數(shù)據(jù)遮蓋度高的問題,使得數(shù)據(jù)可視化的效果更好,為數(shù)據(jù)可視化提出了一種新的參考方法。
參考文獻:
[1] 任磊,杜一,馬帥,張小龍,戴國忠.大數(shù)據(jù)可視分析綜述[J],軟件學報,2014(9):1909-1936.
[2] 陳建軍,于志強,朱昀.數(shù)據(jù)可視化技術(shù)及其應用[J].紅外激光工程,2001,30(5):339-343.
[3] 張濤,趙發(fā)林,武振宇,李康.Radviz可視化方法在基因表達數(shù)據(jù)分析中的應用[J].中國衛(wèi)生統(tǒng)計,2011(1):2-4+8.
[4] 徐永紅,洪文學,陳銘明.基于Radviz及其優(yōu)化的可視化故障診斷方[J].計算機應用研究,2009(3):840-842.
[5] 陳琰.基于Radviz算法的金融數(shù)據(jù)可視化分析技術(shù)研究[D].浙江大學,2014.
[6] 曾晶.Radviz可視化技術(shù)度量模型的研究[D].北京交通大學,2011.
[7] 胡健,李濟龍,曹丹陽.一種改進的Radviz數(shù)據(jù)可視化方法[J].北方工業(yè)大學學報,2015(3):30-35.
[8] John Sharko,Georges Grinstein.Visualizing Fuzzy Clusters Using Radviz[J].IEEE,2009(6):307-316.