大數(shù)據(jù)背景下數(shù)據(jù)可視化方法研究

2016-07-23 21:08黃堰程曉榮

電腦知識與技術(shù) 2016年17期

黃堰++程曉榮

摘要：大數(shù)據(jù)時代數(shù)據(jù)飛速增長，高維數(shù)據(jù)越來越多迫切需要新的數(shù)據(jù)可視化方法對高維數(shù)據(jù)進行處理。本文在傳統(tǒng)的Radviz數(shù)據(jù)可視化方法基礎(chǔ)上，結(jié)合彈簧模型，給出了一種改進的Radviz數(shù)據(jù)可視化方法，并通過兩種模型之間的比較，證明了改進的Radviz可視化方法增強了屬性間的合力，降低了數(shù)據(jù)遮蓋度，更好地保持了原有數(shù)據(jù)集的特征。

關(guān)鍵詞：大數(shù)據(jù)；數(shù)據(jù)可視化；Radviz；彈簧模型

中圖分類號：TP311 文獻標識碼：A 文章編號：1009-3044（2016）17-0231-03

隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)產(chǎn)生的速度呈直線上升，數(shù)據(jù)海量化已成為不可避免的發(fā)展趨勢。數(shù)據(jù)急劇增加對數(shù)據(jù)處理、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化等都是一個極大的挑戰(zhàn)。目前，數(shù)據(jù)可視化面臨高維數(shù)據(jù)越來越多，數(shù)據(jù)量越來越大，數(shù)據(jù)種類越來越多等多種挑戰(zhàn)。針對這些問題，提出了一種Radviz數(shù)據(jù)可視化方法，將高維數(shù)據(jù)樣本非線性的投影到二維目標空間，能夠快速找到容易被領(lǐng)域?qū)＜艺J可的可視化模型。但是傳統(tǒng)的Radviz可視化方法將屬性值均勻分布在圓周上造成屬性間的值相互抵消，從而導致數(shù)據(jù)遮蓋度較大及可視化圖形有內(nèi)縮趨勢等問題。本文提出了一種新的改進的Radviz可視化方法，改進的方法增強屬性了間的合力，降低了數(shù)據(jù)遮蓋度，使得原始數(shù)據(jù)集的特征能夠更好地保持。

1 數(shù)據(jù)可視化

數(shù)據(jù)可視化技術(shù)誕生于二十世紀八十年代，是運用計算機圖形學和圖像處理等技術(shù)，以圖表、地圖、動畫或其他使內(nèi)容更容易理解的圖形方式來表示數(shù)據(jù)，使數(shù)據(jù)所表達的內(nèi)容更加容易被處理。數(shù)據(jù)可視化技術(shù)與虛擬現(xiàn)實技術(shù)、數(shù)據(jù)挖掘、人工智能，甚至與人類基因組計劃等前沿學科領(lǐng)域都有著密切的聯(lián)系[1]。目前數(shù)據(jù)可視化技術(shù)大體可以分為5類：基于幾何投影可視化技術(shù)、面向像素可視化技術(shù)、基于圖標可視化技術(shù)、基于層次可視化技術(shù)以及基于圖形可視化技術(shù)[2]。

數(shù)據(jù)可視化的簡易工作圖如圖1所示：

2 傳統(tǒng)的Radviz可視化方法分析

Radviz（Radial Coordinate Visualization）是一種基于彈簧模型的可視化方法，Radviz是將一系列多維空間的點通過非線性方法映射到二維空間，實現(xiàn)在平面中對多維數(shù)據(jù)可視化的一種數(shù)據(jù)分析方法。自從Ankerst于1996年提出Radviz技術(shù)以來，Radviz技術(shù)取得了很大的發(fā)展，被廣泛應用于可視化分析和數(shù)據(jù)挖掘等領(lǐng)域。近年來更是把Radviz技術(shù)運用到基因表達數(shù)據(jù)的分類上，且取得了良好的分類效果[3]。

2.1 傳統(tǒng)Radviz模型

經(jīng)典的Radviz方法通常運用在平行坐標系上，將一系列具有多維度屬性的點通過非線性方法映射到二維空間，使人們得以用肉眼觀察。如圖2所示，設(shè)n個特征變量隨機均勻地分布在單位圓周上（如n= 6），記為～，現(xiàn)在假設(shè)n個彈性系數(shù)不同的彈簧一端全部固定在一個小球上，另一端分別固定在～。假定第j根彈簧對于觀測點i的彈性系數(shù)為，如果觀測點固定在圓內(nèi)的一個平衡位置，那么（，）就是n維空間（，…，）在二維空間的投影，便實現(xiàn)了一個n維數(shù)據(jù)轉(zhuǎn)化到二維坐標的Radviz可視化[3]。

其中，表示隨機均勻分布在單位圓周上的特征向量；單位圓周表示一個二維空間；O表示特征向量映射在二維空間上的平衡點。

根據(jù)胡克定律，對一個彈簧而言，小球所受到的彈力取決于彈簧拉伸的長度（矢量）和彈簧的彈性系數(shù)（標量），當小球靜止不動時，則表明其受到所有彈簧的合力為零。對此可得到如下公式：

其中xj表示第j個變量在二維空間的圓周上的坐標，pi表示第i個觀測點在圓內(nèi)二維空間平衡位置的坐標。公式（2-2）表示第i個觀測的平衡位置，式（2-3）表示觀測平衡位置向量pi為各變量的坐標位置的加權(quán)平均。為了避免負值的出現(xiàn)，常常采用歸一化的方法，即將最大值和最小值歸為1和0，歸一化后的所有得數(shù)值都位于[0，1]之間[4]。歸一化公式為：

從上述公式分析，我們可以得出如下結(jié)論：

（1）維度值越大，那么該投影位置將更靠近該維度在圓周上的位置；

（2）改變圓周上的屬性，將影響投影的位置；

傳統(tǒng)的Radviz可視化方法計算復雜度低；可顯示維度大；相似多維對象的投影點十分接近，容易發(fā)現(xiàn)聚類信息；直觀便于理解。但是傳統(tǒng)的Radviz方法也存在一些不足，該方法受數(shù)據(jù)本身及數(shù)據(jù)集的類型影響，當相似的數(shù)據(jù)集或成比例的數(shù)據(jù)集較多時，數(shù)據(jù)遮蓋度會很大，將會影響對原始數(shù)據(jù)集的特征保持[5.6]。

3 改進的Radviz可視化方法分析

傳統(tǒng)的Radviz可視化方法受數(shù)據(jù)本身和數(shù)據(jù)集類型的影響，一旦相似數(shù)據(jù)集或成比例的數(shù)據(jù)集較多，數(shù)據(jù)遮蓋度就會很大，那么原始數(shù)據(jù)集的特征將會被影響，造成這種現(xiàn)象的原因是傳統(tǒng)Radviz模型屬性間的相互作用增加了數(shù)據(jù)密集度，使數(shù)據(jù)覆蓋和重復概率增大，從而影響原始數(shù)據(jù)集的特征。對此，本文提出了一種改進的Radviz模型，新的模型減少了屬性間的相互作用，從而使可視化結(jié)果更加接近數(shù)據(jù)集的原有特征。

3.1 改進的Radviz模型

改進模型采取1/4圓來對應n維空間，對于一個n維數(shù)據(jù)集，那么就將1/4圓n等分，即每一個點表示一個維度，然后通過彈簧模型來將數(shù)據(jù)集投影到二維平面的1/4圓中。但是每個點都在1/4圓弧上，則有可能最后的平衡點不在1/4圓內(nèi)，那么就需要一個固定點來使得平衡點一定落在1/4內(nèi)，這里把原點設(shè)為固定點。如四維數(shù)據(jù)集，原理圖如下：

在圖3中，X、Y軸分別表示投影點的橫、縱坐標；原點表示用來使平衡點一定落在1/4圓內(nèi)的固定點；Mi表示數(shù)據(jù)集的每一個維度；O表示數(shù)據(jù)集在1/4圓周上的平衡點；h（x，y）表示平衡點O的坐標函數(shù)。

3.2 改進Radviz可視化方法的實現(xiàn)

3.2.1 數(shù)據(jù)預處理

首先要對數(shù)據(jù)集進行預處理，把非數(shù)字轉(zhuǎn)化為數(shù)字，然后對數(shù)據(jù)集進行歸一化處理，使得數(shù)據(jù)集中的所有數(shù)據(jù)都在[0，1]之間。本文采用的歸一化公式為：

3.2.2 固定點彈性系數(shù)

傳統(tǒng)的Radviz模型沒有固定點，當然也就不用設(shè)定固定點彈性系數(shù)。但是，在改進的Radviz模型中所有的屬性都在1/4圓上，他們所受到的彈力都在一側(cè)，無法使得平衡點落在1/4圓內(nèi)，所以需要提供一個固定點，來提供一個彈力來使得平衡點落在1/4圓內(nèi)。本文提出了一種全局均值的固定點彈性系數(shù)算法，全距均值就是所有屬性中最大值和最小值的均值之和，它可以使數(shù)據(jù)可視化投影點處于居中的位置，方便進一步的數(shù)據(jù)處理。全距均值的計算公式：

3.2.3 新的平衡點坐標計算

其中，圓的半徑為1，p表示彈簧彈性系數(shù)，k表示第i個數(shù)據(jù)中第t個屬性的值，兩個三角函數(shù)表示第t個屬性沿坐標軸的分量[7.8]。再由合力為零，得到投影坐標的公式為：

3.3 改進Radviz模型與傳統(tǒng)Radviz模型比較

傳統(tǒng)的Radviz模型是把所有屬性隨機均勻分布在一個圓周上，那么屬性之間的夾角都是鈍角，那就使得屬性的投影值小于它的初始值，這就導致屬性值的落點更靠近圓點，增加了數(shù)據(jù)遮蓋度，最終導致得到的數(shù)據(jù)可視化效果較差。而改進的Radviz模型是把所有的屬性均勻分布在1/4圓周上，屬性間的夾角就是一個銳角，也就是說屬性的投影值不小于初始值，這就使得屬性值的落點比初始值更遠離原點，這就降低了數(shù)據(jù)遮蓋度，最終得到的數(shù)據(jù)可視化效果就更好。

綜上所述，改進的Radviz數(shù)據(jù)可視化方法更好，即更好地保持了數(shù)據(jù)集的原始特征，又能得到更好的可視化效果；為數(shù)據(jù)可視化的研究提出了一種更好的方法，使得數(shù)據(jù)可視化更加容易，得到的結(jié)果更加可靠。

4 總結(jié)

本文在研究傳統(tǒng)的Radviz數(shù)據(jù)可視化方法的基礎(chǔ)上，結(jié)合傳統(tǒng)方法的優(yōu)點，給出了一種改進的Radviz數(shù)據(jù)可視化方法，并對改進可視化方法進行了分析與比較。解決了傳統(tǒng)方法不能很好保持原始數(shù)據(jù)集特征和數(shù)據(jù)遮蓋度高的問題，使得數(shù)據(jù)可視化的效果更好，為數(shù)據(jù)可視化提出了一種新的參考方法。

參考文獻：

[1] 任磊，杜一，馬帥，張小龍，戴國忠.大數(shù)據(jù)可視分析綜述[J]，軟件學報，2014（9）：1909-1936.

[2] 陳建軍，于志強，朱昀.數(shù)據(jù)可視化技術(shù)及其應用[J].紅外激光工程，2001，30（5）：339-343.

[3] 張濤，趙發(fā)林，武振宇，李康.Radviz可視化方法在基因表達數(shù)據(jù)分析中的應用[J].中國衛(wèi)生統(tǒng)計，2011（1）：2-4+8.

[4] 徐永紅，洪文學，陳銘明.基于Radviz及其優(yōu)化的可視化故障診斷方[J].計算機應用研究，2009（3）：840-842.

[5] 陳琰.基于Radviz算法的金融數(shù)據(jù)可視化分析技術(shù)研究[D].浙江大學，2014.

[6] 曾晶.Radviz可視化技術(shù)度量模型的研究[D].北京交通大學，2011.

[7] 胡健，李濟龍，曹丹陽.一種改進的Radviz數(shù)據(jù)可視化方法[J].北方工業(yè)大學學報，2015（3）：30-35.

[8] John Sharko，Georges Grinstein.Visualizing Fuzzy Clusters Using Radviz[J].IEEE，2009（6）：307-316.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)背景下數(shù)據(jù)可視化方法研究