張凱斐,王翠娥
(呂梁學(xué)院 計算機(jī)科學(xué)與技術(shù)系,山西 離石 033001)
隨著信息技術(shù)的不斷發(fā)展,分布式空間數(shù)據(jù)庫的規(guī)模逐漸增大,存儲數(shù)據(jù)逐漸增多,因此,如何從分布式空間數(shù)據(jù)庫中提取到有用的數(shù)據(jù),使得有效數(shù)據(jù)的檢測效率提高,成為了前信息領(lǐng)域中的一個難題[1].通過設(shè)置數(shù)據(jù)聚類中心O,數(shù)據(jù)聚類半徑R,依托隸屬度計算、數(shù)據(jù)檢測偏差S計算,完成有效數(shù)據(jù)檢測路徑的搭建.然后將分布式空間數(shù)據(jù)庫中的數(shù)據(jù)屬性經(jīng)過離散化處理,成為模糊集合,檢測符合關(guān)聯(lián)模糊規(guī)則條件的數(shù)據(jù),確定有效數(shù)據(jù)檢測目標(biāo),最后使用結(jié)合并行檢測算法的FCM聚類算法對分布式空間數(shù)據(jù)庫中的數(shù)據(jù)空間屬性進(jìn)行處理,依托模糊集分類檢測,最終實現(xiàn)分布式空間數(shù)據(jù)庫中的有效數(shù)據(jù)高效檢測.仿真實驗結(jié)果表明了本文設(shè)計的數(shù)據(jù)檢測方法在分布式空間數(shù)據(jù)庫的有效數(shù)據(jù)檢測方面具有優(yōu)勢.
在分布式空間數(shù)據(jù)庫中提取數(shù)據(jù),進(jìn)行有效數(shù)據(jù)檢測,能夠提取到數(shù)據(jù)庫中隱藏的信息,為以后的數(shù)據(jù)決策提供依據(jù),具體的數(shù)據(jù)檢測路徑如下:
將分布式空間數(shù)據(jù)庫中的各個空間屬性數(shù)據(jù),組成一個集合,在各個數(shù)據(jù)集合中,O為數(shù)據(jù)聚類中心,R為數(shù)據(jù)聚類半徑,S為數(shù)據(jù)檢測過程中的偏差,V為各項數(shù)據(jù)的信息要素[2].在時刻t,從分布式空間數(shù)據(jù)庫中始發(fā)點Yj出發(fā)開始進(jìn)行數(shù)據(jù)檢測,檢測到數(shù)據(jù)聚類中心O,產(chǎn)生的數(shù)據(jù)檢測偏差為S,對始發(fā)點Yj數(shù)據(jù)進(jìn)行隸屬度計算.
為了避免在進(jìn)行有效數(shù)據(jù)的檢測過程中,出現(xiàn)多樣的數(shù)據(jù)聚類中心O,從而導(dǎo)致數(shù)據(jù)檢測失敗.引入檢測調(diào)控因子,對數(shù)據(jù)聚類中心O進(jìn)行計算.
在分布式空間數(shù)據(jù)庫中進(jìn)行有效數(shù)據(jù)檢測的過程中,數(shù)據(jù)庫中所有的數(shù)據(jù)都為待檢測數(shù)據(jù),通過設(shè)置數(shù)據(jù)聚類中心O,數(shù)據(jù)聚類半徑R,依托隸屬度計算、數(shù)據(jù)檢測偏差S,完成有效數(shù)據(jù)的檢測,得到目標(biāo)數(shù)據(jù)[3].
確定分布式空間數(shù)據(jù)庫中有效數(shù)據(jù)的檢測目標(biāo)由三步驟構(gòu)成,第一步,將分布式空間數(shù)據(jù)庫中的數(shù)據(jù)屬性經(jīng)過離散化處理,成為模糊集合[4].第二步,收集目標(biāo)數(shù)據(jù)的相關(guān)屬性數(shù)據(jù)以及屬性的模糊頻繁值.第三步,在小信任度的條件下,檢測符合關(guān)聯(lián)模糊規(guī)則條件的數(shù)據(jù),最終得到目標(biāo)數(shù)據(jù).
圖1 分布式空間數(shù)據(jù)庫的結(jié)構(gòu)示意圖
分布式空間數(shù)據(jù)庫的結(jié)構(gòu)形式為非共享型數(shù)據(jù)庫,設(shè)分布式空間數(shù)據(jù)庫共有數(shù)目為P的處理器,每個處理器都有一個專門的存儲器和內(nèi)存,并且各個處理器都是通過通信電纜連接,形成一個通信網(wǎng)絡(luò)[5],分布式空間數(shù)據(jù)庫的結(jié)構(gòu)示意圖如圖1所示.
分布式空間數(shù)據(jù)庫中有效數(shù)據(jù)檢測采用的是關(guān)聯(lián)規(guī)則的檢測方法,以典型的計數(shù)分配算法為基礎(chǔ),減少了存儲器的通信開銷.在分布式空間數(shù)據(jù)庫中,每個處理器都有與之對應(yīng)的候選集散列樹,所以數(shù)據(jù)庫中的處理器都能在檢測時得到候選集的支持.
分布式空間數(shù)據(jù)庫中有效數(shù)據(jù)檢測通過申請一個求和操縱命令,可以得到對應(yīng)的候選集的全部支持?jǐn)?shù).每一個完整的候選集散列樹都是分布式空間數(shù)據(jù)庫中有效數(shù)據(jù)檢測的重要組成部分,所以,在進(jìn)行有效數(shù)據(jù)的檢測時,要盡量減少額外消耗開銷[6].通過確定分布式空間數(shù)據(jù)庫中有效數(shù)據(jù)檢測路徑,確定有效數(shù)據(jù)檢測目標(biāo),完成有效數(shù)據(jù)檢測方法的設(shè)計.從而實現(xiàn)了有效數(shù)據(jù)的檢測.
分布式空間數(shù)據(jù)庫中的數(shù)據(jù)主要為具有空間屬性的數(shù)據(jù),通過采用FCM聚類算法,對分布式空間數(shù)據(jù)庫中的數(shù)據(jù),根據(jù)空間屬性進(jìn)行分類.FCM聚類算法作為無監(jiān)督模糊聚類算法,在檢測分布式空間數(shù)據(jù)庫中的有效數(shù)據(jù)時,需要開銷很多的輸入/輸出(I/O)接口,并且占用很大的內(nèi)存空間,因此需要花費很多的時間來進(jìn)行檢測[7].
通過結(jié)合并行檢測算法,來實現(xiàn)有效數(shù)據(jù)的檢測.首先將分布式空間數(shù)據(jù)庫中的數(shù)據(jù)根據(jù)空間屬性進(jìn)行分類,在分類過程中區(qū)分原始化數(shù)據(jù)集,從而得到s/n個數(shù)據(jù),s為檢測的進(jìn)程數(shù)據(jù),n為進(jìn)行數(shù)據(jù)檢測的總數(shù)目.在檢測過程中,將所有的檢測進(jìn)行歸零,然后逐次進(jìn)行標(biāo)記,同時將歸零過程設(shè)置為根進(jìn)程.將歸零過程當(dāng)做初始化檢測中心O(i=1,2,…c),將檢測信息發(fā)送到全部檢測進(jìn)程,記錄所有檢測進(jìn)程收到的檢測信息Vi(i=1,2,…c),計算收集到的信息隸屬度[8].這樣完成了對檢測數(shù)據(jù)的初始化處理,然后計算檢測數(shù)據(jù)子集的隸屬度,對檢測進(jìn)行偏差計算,得到具體數(shù)值時,停止檢測.
對分布式空間數(shù)據(jù)庫的所有數(shù)據(jù)進(jìn)行空間屬性分類,可以獲得數(shù)據(jù)空間屬性的矩陣以及聚類中心.每個空間屬性對應(yīng)的數(shù)集都可以視為一個模糊集,數(shù)據(jù)空間屬性的矩陣可以表示模糊集的水平,結(jié)合并行檢測算法的FCM聚類算法可以對分布式空間數(shù)據(jù)庫中的有效數(shù)據(jù)檢測,結(jié)合后的FCM聚類算法有更好的適應(yīng)性以及可擴(kuò)展性.
使用結(jié)合并行檢測算法的FCM聚類算法,對分布式空間數(shù)據(jù)庫中的數(shù)據(jù)空間屬性進(jìn)行處理之后,得到多個不同空間屬性的模糊數(shù)據(jù)集.將所獲得的模糊數(shù)據(jù)集,對應(yīng)的匹配到分布式空間數(shù)據(jù)庫的每個處理器中,網(wǎng)絡(luò)通信檢測傳輸是數(shù)據(jù)檢測過程中的主要檢測途徑[9].
有效數(shù)據(jù)高效檢測方法的實現(xiàn)具體步驟如下所述:
圖2 有效數(shù)據(jù)高效檢測方法的工作流程示意圖
首先,將分布式空間數(shù)據(jù)庫中的全部數(shù)據(jù)平均分配到各個檢測進(jìn)程中,然后利用C均值模糊聚類算法再次對數(shù)據(jù)庫中的數(shù)據(jù)根據(jù)空間屬性進(jìn)行聚類,同時計算各個數(shù)據(jù)空間屬性的隸屬度.
其次,把分布式空間數(shù)據(jù)庫中的數(shù)據(jù)初始空間屬性轉(zhuǎn)變成數(shù)據(jù)空間屬性模糊集,計算各個模糊集的隸屬度,獲得相應(yīng)的數(shù)據(jù)模糊屬性的值.根據(jù)模糊聯(lián)規(guī)則,對分布式空間數(shù)據(jù)庫中的數(shù)據(jù)空間屬性進(jìn)行均值處理,獲得若干模糊集,形成具有不同的界限數(shù)據(jù)集合.
最后,對分布式空間數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行反復(fù)檢測,對各個檢測進(jìn)程是否達(dá)到結(jié)束檢測的條件進(jìn)行判斷,判定是否繼續(xù)執(zhí)行檢測[10].有效數(shù)據(jù)高效檢測方法的工作流程如圖2所示.
使用結(jié)合并行檢測算法的FCM聚類算法對分布式空間數(shù)據(jù)庫中的數(shù)據(jù)空間屬性進(jìn)行處理,依托模糊集分類檢測,最終實現(xiàn)了分布式空間數(shù)據(jù)庫中的有效數(shù)據(jù)高效檢測.
為了保證本文提出的分布式空間數(shù)據(jù)庫有效數(shù)據(jù)高效檢測方法的有效性,進(jìn)行仿真實驗分析.實驗過程中,以不同的數(shù)據(jù)庫有效數(shù)據(jù)檢測方法作為仿真實驗對象,對數(shù)據(jù)庫有效數(shù)據(jù)檢測效率進(jìn)行仿真模擬.為了保證實驗的有效性,使用常規(guī)檢測方法作為比較對象,進(jìn)行仿真實驗.記錄兩次仿真的實驗結(jié)果,并將其呈現(xiàn)在同一數(shù)據(jù)圖表中.
為了減少仿真實驗的影響因素,確保實驗過程、結(jié)果的準(zhǔn)確度,設(shè)置仿真實驗環(huán)境.仿真實驗使用的PC機(jī)的內(nèi)存為4G DDR3,配置為core CPU T4300.使用傳統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)檢測方法進(jìn)行仿真對比實驗,設(shè)置分布式空間數(shù)據(jù)庫中的數(shù)據(jù)總數(shù)為N,有n種不同的數(shù)據(jù)空間屬性,數(shù)據(jù)構(gòu)成的集合為(a1,a2,…an),數(shù)據(jù)空間屬性構(gòu)成的集合為(b1,b2,…bn),待檢測的有效數(shù)據(jù)為ai,具有的空間屬性是bj,利用數(shù)據(jù)檢測過程中的檢測效率、檢測準(zhǔn)確度對兩種檢測方法的有效性進(jìn)行對比.
利用傳統(tǒng)數(shù)據(jù)檢測方法以及本文提出的數(shù)據(jù)高效檢測方法對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行檢測,兩種數(shù)據(jù)檢測方法檢測后的實驗結(jié)果如表1所示。
根據(jù)表1中的仿真實驗結(jié)果可知,本文設(shè)計的有效數(shù)據(jù)高效檢測方法相比于傳統(tǒng)檢測方法,數(shù)據(jù)檢測的有效率提高了21.5%.實驗數(shù)據(jù)表明本文設(shè)計的有效數(shù)據(jù)高效檢測方法能夠有效的提高數(shù)據(jù)檢測的質(zhì)量,對于分布式空間數(shù)據(jù)庫來說,該檢測方法能夠更好地為人們提高服務(wù).
為了進(jìn)一步證明本文設(shè)計的檢測方法的優(yōu)越性,在仿真實驗中逐步增加待檢測數(shù)據(jù)的數(shù)量,利用傳統(tǒng)數(shù)據(jù)檢測方法以及本文提出的檢測方法對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)檢測,記錄檢測用時.獲得的仿真實驗結(jié)果可以如圖3所示。
由圖3可知,本設(shè)計的有效數(shù)據(jù)高效檢測方法的檢測效率明顯高于傳統(tǒng)數(shù)據(jù)檢測方法,仿真實驗證明本設(shè)計的數(shù)據(jù)檢測方法能夠顯著的提高數(shù)據(jù)檢測的效率.
表1 兩種數(shù)據(jù)檢測方法仿真實驗結(jié)果對比
圖3 兩種數(shù)據(jù)檢測方法耗時對比
本文通過確定分布式空間數(shù)據(jù)庫中有效數(shù)據(jù)檢測路徑、確定檢測目標(biāo),完成了數(shù)據(jù)檢測方法的設(shè)計,最后使用結(jié)合并行檢測算法的FCM聚類算法對分布式空間數(shù)據(jù)庫中的數(shù)據(jù)空間屬性進(jìn)行處理,依托模糊集分類檢測,最終實現(xiàn)了分布式空間數(shù)據(jù)庫中的有效數(shù)據(jù)高效檢測.通過仿真實驗證明,本文提出的數(shù)據(jù)檢測方法具有極強(qiáng)的有效性,希望本文能夠為數(shù)據(jù)檢測提供參考依據(jù).