方加娟 李凱
摘? 要: 現(xiàn)有多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)均存在著檢測(cè)精度差、可擴(kuò)展性差的缺陷,為了解決上述問(wèn)題,引入聚類分析方法對(duì)多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)進(jìn)行設(shè)計(jì)。多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)硬件為數(shù)據(jù)處理器,由電源單元、通信單元與紅外單元組成;軟件設(shè)計(jì)主要分為多維離散數(shù)據(jù)空間劃分模塊與多維離散數(shù)據(jù)相關(guān)性檢測(cè)模塊。通過(guò)系統(tǒng)硬件與軟件的設(shè)計(jì),實(shí)現(xiàn)了多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)的運(yùn)行。通過(guò)測(cè)試結(jié)果可知,與現(xiàn)有多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)相比,設(shè)計(jì)的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)極大地提升了檢測(cè)精度與可擴(kuò)展性,充分說(shuō)明設(shè)計(jì)的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)具備更好的檢測(cè)性能。
關(guān)鍵詞: 聚類分析; 多維離散數(shù)據(jù); 無(wú)線通信; 紅外單元; 相關(guān)性檢測(cè); 可擴(kuò)展性
中圖分類號(hào): TN710?34; G255? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)21?0143?04
Design of multidimensional discrete data relevance detection
system based on cluster analysis
FANG Jiajuan1, 2, LI Kai2
(1. School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China;
2. Department of Software Engineering, Zhengzhou Technical College, Zhengzhou 450121, China)
Abstract: The existing multi?dimensional discrete data correlation detection system has the defects of poor detection accuracy and scalability. In order to solve the above problems, the cluster analysis method is introduced to design the multi?dimensional discrete data correlation detection system. The hardware of multi?dimensional discrete data correlation detection system is a data processor, which consists of power supply unit, communication unit and infrared unit. The software design is mainly divided into multi?dimensional discrete data space partition module and multi?dimensional discrete data correlation detection module. The operation of multi?dimensional discrete data correlation detection system is realized by the design of hardware and software. The test results show that, in comparison with the existing multi?dimensional discrete data correlation detection system, the designed multi?dimensional discrete data correlation detection system greatly improves the detection accuracy and scalability, which fully demonstrates that the designed system has a better detection performance.
Keywords: cluster analysis; multidimensional discrete data; wireless communication; infrared unit; relevance detection; scalability
0? 引? 言
隨著科學(xué)技術(shù)的發(fā)展,研究水平與數(shù)量也在不斷的攀升。無(wú)論是技術(shù)研究,還是故障檢測(cè)等領(lǐng)域,都需要大量的數(shù)據(jù),現(xiàn)今主要采用嵌入式數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),嵌入式數(shù)據(jù)庫(kù)主要根據(jù)其運(yùn)行模型進(jìn)行定義,可以消除與服務(wù)器配置的開(kāi)銷。嵌入式數(shù)據(jù)庫(kù)屬于輕量級(jí),具有運(yùn)行內(nèi)存較小、存儲(chǔ)空間更大、存儲(chǔ)速度較快、效果更好的優(yōu)勢(shì),被多個(gè)領(lǐng)域所應(yīng)用[1]。但是,若想在嵌入式數(shù)據(jù)庫(kù)中提取需要的數(shù)據(jù)信息難度較大,而其中還含有大量的多維離散數(shù)據(jù),這些數(shù)據(jù)中摻雜著用戶需要的數(shù)據(jù)信息,因此,需要對(duì)多維離散數(shù)據(jù)相關(guān)性進(jìn)行相應(yīng)的檢測(cè),以此為基礎(chǔ),對(duì)用戶需求數(shù)據(jù)信息進(jìn)行提取。由此可見(jiàn),多維離散數(shù)據(jù)相關(guān)性檢測(cè)成為現(xiàn)今嵌入式數(shù)據(jù)庫(kù)研究的重點(diǎn)問(wèn)題。
目前使用較為廣泛的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)主要有兩種,分別為基于關(guān)系矩陣融合的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)與基于粗糙集理論的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)[2]。其中,基于關(guān)系矩陣融合的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)主要是對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行特征矩陣的關(guān)聯(lián)性分析,將關(guān)聯(lián)性進(jìn)行融合,以此來(lái)檢測(cè)多維離散數(shù)據(jù)的相關(guān)性;基于粗糙集理論的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)主要是根據(jù)粗糙集理論對(duì)數(shù)據(jù)的特征信息進(jìn)行缺陷識(shí)別,依據(jù)聚類中心對(duì)數(shù)據(jù)進(jìn)行離散化處理,根據(jù)決策樹(shù)規(guī)則對(duì)多維離散數(shù)據(jù)相關(guān)性進(jìn)行檢測(cè)。但是上述兩種方法均存在著檢測(cè)精度差、可擴(kuò)展性差的缺陷,無(wú)法滿足現(xiàn)今社會(huì)的需求,為此引入聚類分析方法對(duì)多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)進(jìn)行設(shè)計(jì)。
1? 多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)硬件設(shè)計(jì)
多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)硬件主要是對(duì)數(shù)據(jù)進(jìn)行相關(guān)處理,為多維離散數(shù)據(jù)的相關(guān)性檢測(cè)提供支撐,因此,系統(tǒng)硬件設(shè)備主要為數(shù)據(jù)處理器,其主要由電源單元、通信單元與紅外單元構(gòu)成[3]。
1.1? 電源單元
電源單元主要為數(shù)據(jù)處理器提供能量支撐。電源單元最主要的結(jié)構(gòu)為電路,由于篇幅的設(shè)置主要對(duì)電源電路進(jìn)行設(shè)計(jì)[4]。電源電路框圖如圖1所示。
該電路中設(shè)計(jì)了保護(hù)環(huán)節(jié),可以對(duì)電路以及元件進(jìn)行有效的保護(hù)。AC 220 V電源中設(shè)置了壓敏電阻,可以對(duì)雷擊等情況產(chǎn)生的電壓進(jìn)行相應(yīng)的調(diào)節(jié),對(duì)電壓高峰進(jìn)行了吸收,以免器件受到傷害[5]。
1.2? 通信單元
該系統(tǒng)通信單元主要采用微功率無(wú)線通信,通過(guò)外置插接方式進(jìn)行相應(yīng)的安裝,插座為標(biāo)準(zhǔn)形式,間距為2.55 mm。無(wú)線接口示意圖如圖2所示。
通過(guò)無(wú)線接口的設(shè)計(jì)可以滿足無(wú)線通信的需求,還能滿足單元之間的接口需求。
1.3? 紅外單元
紅外單元主要通過(guò)串口信號(hào)與調(diào)制信號(hào)的配合對(duì)發(fā)射管進(jìn)行控制,以此實(shí)現(xiàn)信號(hào)的發(fā)射。通過(guò)控制三極管的開(kāi)關(guān)頻率,對(duì)紅外發(fā)射管的頻率進(jìn)行相應(yīng)的控制[6]。紅外發(fā)射電路示意圖如圖3所示。
通過(guò)上述過(guò)程完成了系統(tǒng)硬件的設(shè)計(jì),為多維離散數(shù)據(jù)相關(guān)性檢測(cè)提供了硬件支撐。
2? 多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)軟件設(shè)計(jì)
上述硬件無(wú)法獨(dú)立實(shí)現(xiàn)多維離散數(shù)據(jù)相關(guān)性的檢測(cè),為此對(duì)系統(tǒng)軟件進(jìn)行設(shè)計(jì)。系統(tǒng)軟件主要分為兩部分,分別為多維離散數(shù)據(jù)空間劃分模塊與多維離散數(shù)據(jù)相關(guān)性檢測(cè)模塊[7]。
2.1? 多維離散數(shù)據(jù)空間劃分模塊
在多維離散數(shù)據(jù)相關(guān)性檢測(cè)過(guò)程中,計(jì)算復(fù)雜程度較高,為了簡(jiǎn)化計(jì)算的難度,提升檢測(cè)效率,采用空間劃分算法將數(shù)據(jù)庫(kù)中的多維數(shù)據(jù)進(jìn)行重新投影,以投影的傾斜角度為基礎(chǔ)對(duì)空間劃分的結(jié)果進(jìn)行判定,并對(duì)最優(yōu)劃分子空間中數(shù)據(jù)對(duì)象的局部離群因子屬性值進(jìn)行計(jì)算[8]。具體過(guò)程如下所示。
首先將數(shù)據(jù)庫(kù)中的數(shù)據(jù)集區(qū)進(jìn)行劃分,得到多個(gè)子空間,對(duì)子空間的劃分度量因子進(jìn)行計(jì)算,其主要是由數(shù)據(jù)在子空間中的占比來(lái)決定[9]。則數(shù)據(jù)集在區(qū)分[p]下的區(qū)分偏斜度為:
[sopp=j=1Tnj-μ2N] (1)
式中:[sopp]表示區(qū)分[p]下的區(qū)分偏斜度;[nj]表示第[j]個(gè)子空間的數(shù)據(jù)個(gè)數(shù);[μ]表示平均數(shù)據(jù)個(gè)數(shù);[N]表示數(shù)據(jù)集中數(shù)據(jù)的個(gè)數(shù)[10]。
假設(shè)數(shù)據(jù)對(duì)象存在于數(shù)據(jù)庫(kù)子空間[s]內(nèi),則[s]內(nèi)的其他數(shù)據(jù)對(duì)象稱為[p]的鄰域,采用[sp=oo∈sp]表示,對(duì)其進(jìn)行歸一化處理,歸一化的屬性采用[goik]表示,并滿足[0≤goik≤1],數(shù)據(jù)權(quán)值采用[ωd]表示,滿足[0≤ωd≤1],則多維離散數(shù)據(jù)之間的加權(quán)距離為:
[distoi,oj,ωd=d=1kωdgoid-gojd2]? ?(2)
式中:[oi,oj]表示領(lǐng)域數(shù)據(jù);[goid,gojd]表示數(shù)據(jù)屬性。
根據(jù)式(2)得到的值對(duì)數(shù)據(jù)的局部離群因子進(jìn)行計(jì)算,得到[SPLOFp],為下述多維離散數(shù)據(jù)相關(guān)性檢測(cè)提供數(shù)據(jù)支撐[11]。
2.2? 多維離散數(shù)據(jù)相關(guān)性檢測(cè)模塊
以上述得到的子空間數(shù)據(jù)局部離群因子為衡量依據(jù),將歐幾里得距離當(dāng)作多維離散數(shù)據(jù)相關(guān)性的距離函數(shù),與最小劃分邊界矩陣相結(jié)合,通過(guò)聚類分析方法對(duì)多維離散數(shù)據(jù)相關(guān)性進(jìn)行相應(yīng)的檢測(cè)[12]。
假設(shè)多維離散數(shù)據(jù)的度量函數(shù)為[Dkp],用戶需求多維離散數(shù)據(jù)個(gè)數(shù)為[n],一般情況下,依據(jù)局部離群因子[SPLOFp]對(duì)近鄰進(jìn)行查詢,找到數(shù)據(jù)庫(kù)中的前[n]個(gè)[Dkp]中最大的數(shù)據(jù)點(diǎn),將其定義為相關(guān)多維離散數(shù)據(jù)[13]。具體步驟如下:
1) 對(duì)數(shù)據(jù)庫(kù)中的多維離散數(shù)據(jù)點(diǎn)進(jìn)行定義,采用[p1,p2,…,pn]表示,對(duì)其最小邊界矩陣進(jìn)行計(jì)算,其計(jì)算過(guò)程較為復(fù)雜,因此利用頂點(diǎn)將其表示為[r1,r2,…,rn],通過(guò)式(2)對(duì)加權(quán)距離進(jìn)行計(jì)算,得到[14][distpi,pj]。
2) 對(duì)多維離散數(shù)據(jù)點(diǎn)與最小劃分邊界矩陣之間的距離進(jìn)行計(jì)算,計(jì)算公式表示為:
[Mindistp,R=i=1nx2i;? ? xi=ri-pi,? ? pi 根據(jù)式(3)得到的值對(duì)多維離散數(shù)據(jù)之間的相關(guān)性進(jìn)行判定。判定規(guī)則為:當(dāng)[Mindistp,R≥0],認(rèn)為該多維離散數(shù)據(jù)是用戶需求的相關(guān)性數(shù)據(jù)點(diǎn);當(dāng)[Mindistp,R<0],認(rèn)為該多維離散數(shù)據(jù)不是用戶需求的相關(guān)性數(shù)據(jù)點(diǎn)[15]。 通過(guò)上述過(guò)程實(shí)現(xiàn)了多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)的運(yùn)行,完成了多維離散數(shù)據(jù)的相關(guān)性檢測(cè),為數(shù)據(jù)庫(kù)的應(yīng)用提供了先進(jìn)的技術(shù)支撐。 3? 系統(tǒng)性能測(cè)試 上述過(guò)程實(shí)現(xiàn)了多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)的設(shè)計(jì)與運(yùn)行,但是對(duì)其是否可以解決現(xiàn)有系統(tǒng)存在的問(wèn)題還無(wú)法確定,因此,設(shè)計(jì)仿真對(duì)比實(shí)驗(yàn)對(duì)系統(tǒng)性能進(jìn)行驗(yàn)證與分析。 在實(shí)驗(yàn)過(guò)程中,主要采用設(shè)計(jì)系統(tǒng)、基于關(guān)系矩陣融合的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)及基于粗糙集理論的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)進(jìn)行對(duì)比實(shí)驗(yàn)。由于檢測(cè)過(guò)程的差別,實(shí)驗(yàn)過(guò)程也存在著較大的差異,為了保障實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,對(duì)實(shí)驗(yàn)外部環(huán)境參數(shù)進(jìn)行統(tǒng)一設(shè)置,通過(guò)檢測(cè)精度與可擴(kuò)展性指標(biāo)對(duì)系統(tǒng)性能進(jìn)行體現(xiàn)。具體的實(shí)驗(yàn)結(jié)果分析過(guò)程如下所示。 3.1? 檢測(cè)精度對(duì)比分析 檢測(cè)精度指的是多維離散數(shù)據(jù)相關(guān)性檢測(cè)的準(zhǔn)確率,因此,檢測(cè)精度越高,表示系統(tǒng)性能越好。通過(guò)實(shí)驗(yàn)得到檢測(cè)精度對(duì)比情況如表1所示。 如表1所示,設(shè)計(jì)系統(tǒng)與現(xiàn)有兩種系統(tǒng)檢測(cè)精度值差異較為明顯,設(shè)計(jì)系統(tǒng)檢測(cè)精度遠(yuǎn)遠(yuǎn)高于現(xiàn)有兩種系統(tǒng),其最大值可以達(dá)到93%。 3.2? 可擴(kuò)展性對(duì)比分析 系統(tǒng)的可擴(kuò)展性與數(shù)據(jù)庫(kù)的存儲(chǔ)空間有著較大的聯(lián)系,因此,為了增強(qiáng)實(shí)驗(yàn)結(jié)果的精準(zhǔn)性,分別在存儲(chǔ)空間為5 TB與15 TB的情況下對(duì)可擴(kuò)展性進(jìn)行實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)得到可擴(kuò)展性參數(shù)對(duì)比情況,如圖4,圖5所示。由圖可知,本文設(shè)計(jì)系統(tǒng)的擴(kuò)展性參數(shù)更高,其擴(kuò)展性更好。 通過(guò)實(shí)驗(yàn)結(jié)果可知,本文設(shè)計(jì)的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)極大地提升了檢測(cè)精度與可擴(kuò)展性,充分說(shuō)明設(shè)計(jì)的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)具備更好的檢測(cè)性能。 4? 結(jié)? 語(yǔ) 本文設(shè)計(jì)的多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)極大地提升了檢測(cè)精度與可擴(kuò)展性,為數(shù)據(jù)庫(kù)的應(yīng)用提供了先進(jìn)的技術(shù)支撐。但是檢測(cè)精度依舊有上升空間,需要對(duì)多維離散數(shù)據(jù)相關(guān)性檢測(cè)系統(tǒng)進(jìn)行進(jìn)一步的研究與優(yōu)化。 參考文獻(xiàn) [1] 陸釗.嵌入式數(shù)據(jù)庫(kù)中多維離散數(shù)據(jù)檢測(cè)仿真[J].計(jì)算機(jī)仿真,2017,34(3):400?403. [2] 張怡,熊朝陽(yáng),張加萬(wàn).多維數(shù)據(jù)的不確定性可視相關(guān)分析[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2018,30(6):1089?1099. [3] 陳誼,張聰.一種基于維度投影的多維數(shù)據(jù)相關(guān)性可視分析方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2018,30(4):592?601. [4] 石剛,劉婷,賀鏗,等.冠狀動(dòng)脈病變與QT離散度的相關(guān)性分析[J].基層醫(yī)學(xué)論壇,2017,21(34):4845?4846. [5] 粘冬曉,杜慶治,龍華.基于數(shù)據(jù)間相關(guān)性的異常檢測(cè)方法[J].數(shù)據(jù)通信,2018(6):44?47. [6] 柴政,劉晨,朱美玲,等.基于多源傳感數(shù)據(jù)相關(guān)性分析的電廠設(shè)備故障檢測(cè)方法[J].計(jì)算機(jī)與數(shù)字工程,2019,47(3):682?688. [7] 崔小娜.高速公路瀝青路面檢測(cè)數(shù)據(jù)與養(yǎng)護(hù)的相關(guān)性[J].山東交通科技,2018(2):88?90. [8] 邱辰霖,程禮,何衛(wèi)鋒.一種基于數(shù)據(jù)間相關(guān)性的激光噴丸聲學(xué)監(jiān)測(cè)技術(shù)[J].振動(dòng)與沖擊,2017,36(4):139?143. [9] 周志光,湯成,劉玉華,等.降維空間視覺(jué)認(rèn)知增強(qiáng)的多維時(shí)變數(shù)據(jù)可視分析方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2018,30(7):1194?1204. [10] 劉念,劉宇.基于聚類分析算法的海量關(guān)系數(shù)據(jù)可視化技術(shù)研究[J].電子設(shè)計(jì)工程,2018,26(10):92?95. [11] 周志光,胡迪欣,劉亞楠,等.面向空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)時(shí)空多維屬性的可視分析方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2017,29(8):1477?1487. [12] 劉希玉,姜珍妮,趙玉禎.鏈?zhǔn)侥は到y(tǒng)及直接(間接)膜算法與聚類分析研究進(jìn)展[J].安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,42(3):11?17. [13] 鄒磊,朱晶,聶曉輝.基于聚類的多維數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)算法[J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(3):465?471. [14] 王玲,孟建瑤,徐培培,等.基于多維時(shí)間序列形態(tài)特征的相似性動(dòng)態(tài)聚類算法[J].工程科學(xué)學(xué)報(bào),2017,39(7):1114?1122. [15] 張玉超,王民川,黃繼海.定向信息推薦下多維信任數(shù)據(jù)協(xié)同推薦算法研究[J].科學(xué)技術(shù)與工程,2017,17(19):201?206. 作者簡(jiǎn)介:方加娟(1975—),女,河南新鄉(xiāng)人,教授,主要從事計(jì)算機(jī)軟件技術(shù)應(yīng)用研究及教學(xué)工作。 李? 凱(1980—),男,河南鄭州人,碩士,講師,研究方向?yàn)榫W(wǎng)絡(luò)安全、軟件工程。