許明宇,王宜懷
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215000)
因信息產(chǎn)業(yè)發(fā)展速度加快,大數(shù)據(jù)技術(shù)的應(yīng)用范圍越來越廣。在社會(huì)個(gè)領(lǐng)域的運(yùn)轉(zhuǎn)中,各式各樣的數(shù)據(jù)以海量式模式快速增長[1,2]。在這一背景下,數(shù)據(jù)一致性問題愈發(fā)重要。在數(shù)據(jù)挖掘、數(shù)據(jù)聚類等相關(guān)應(yīng)用中,數(shù)據(jù)一致性挖掘必不可少。
關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘的目的在于發(fā)現(xiàn)網(wǎng)絡(luò)關(guān)聯(lián)數(shù)據(jù)中不同數(shù)據(jù)在鄰近域內(nèi)的相互依賴關(guān)系以及相似性關(guān)系,其對(duì)于理解數(shù)據(jù)間的交互作用具有重要意義。然而,目前關(guān)于異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘這一問題有關(guān)的研究還有待進(jìn)一步加強(qiáng)[3]。為此,本研究構(gòu)建了異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘模型。
異構(gòu)物聯(lián)網(wǎng)信息屬于多源異構(gòu)特性,也存在大量重復(fù)數(shù)據(jù)。因此,本研究在設(shè)計(jì)一致性規(guī)則挖掘過程時(shí),考慮到異構(gòu)物聯(lián)網(wǎng)信息中的重復(fù)數(shù)據(jù),引入了重復(fù)數(shù)據(jù)優(yōu)化清除過程。該過程對(duì)異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘存在積極作用,且以內(nèi)容相關(guān)條件函數(shù)依賴規(guī)則為挖掘規(guī)則。然后通過基于內(nèi)容相關(guān)條件函數(shù)依賴的關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘模型,有效獲取關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則。
2.1.1 特征向量的量化
在異構(gòu)物聯(lián)網(wǎng)中,為了準(zhǔn)確挖掘其中關(guān)聯(lián)數(shù)據(jù)的一致性規(guī)則,本研究首先基于異構(gòu)物聯(lián)網(wǎng)多維數(shù)據(jù)聚類的的方式對(duì)重復(fù)數(shù)據(jù)進(jìn)行清除。通過多維數(shù)據(jù)聚類分析方法,把所有數(shù)據(jù)集里各個(gè)數(shù)據(jù)項(xiàng)均映射至對(duì)應(yīng)的種類之中,再采用貝葉斯方法劃分異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)樣本空間,獲取每個(gè)異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)文本里的特征向量,實(shí)現(xiàn)特征向量的量化[4-6]。詳細(xì)流程如下:
設(shè)定異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)集表示為E,E的種類集合為D。將異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)集E中的各個(gè)數(shù)據(jù)項(xiàng)E1均映射至D中的數(shù)據(jù)種類Q里,則存在
(1)
式(1)中,?表示依存關(guān)系;s表示有向邊。若將有向邊集合設(shè)成β,似然率測試規(guī)則表示為N,數(shù)據(jù)特征矢量種類表示為W,事件e出現(xiàn)幾率是α,則數(shù)據(jù)樣本空間劃分的過程如下
(2)
式(2)中,數(shù)據(jù)集映射后的值與映射至的相似性依次表示為r、ε;字符串匹配閾值表示為q。
在此基礎(chǔ)上,將數(shù)據(jù)間耦合度與聚類集的相似性依次設(shè)成φ、rs,則每個(gè)數(shù)據(jù)文本里特征量f的提取方法是
(3)
式(3)中,h表示數(shù)據(jù)核心屬性占所有屬性的百分比,k表示數(shù)據(jù)集的掃描次數(shù)。
根據(jù)上述提取的數(shù)據(jù)文本里特征量f,將差異數(shù)據(jù)集的維度與變量集合依次設(shè)定位m、c,則可得到所有特征量的量化集f′為
(4)
式(4)中,I表示學(xué)習(xí)數(shù)據(jù)結(jié)果集,S表示測試訓(xùn)練集。
在上述操作過程中,還需注意在去除異構(gòu)物聯(lián)網(wǎng)中的重復(fù)數(shù)據(jù)時(shí),把所有數(shù)據(jù)集各個(gè)數(shù)據(jù)項(xiàng)均映射至對(duì)應(yīng)種類之中[7],通過貝葉斯方法實(shí)現(xiàn)數(shù)據(jù)樣本空間劃分,得到每個(gè)數(shù)據(jù)文本里的特征向量,對(duì)所有特征向量完成量化。
2.1.2 基于數(shù)據(jù)相似度的重復(fù)數(shù)據(jù)清除
清除重復(fù)數(shù)據(jù)時(shí),把上一小節(jié)得到的量化處理后特征量f′作成依據(jù),設(shè)置字符語義數(shù)值,然后運(yùn)算各個(gè)數(shù)據(jù)集合相應(yīng)的語義數(shù)值序列,得到字符間相鄰關(guān)系,獲取每個(gè)數(shù)據(jù)的傅立葉展開系數(shù)向量,設(shè)置數(shù)據(jù)相似度判斷閾值,完成異構(gòu)物聯(lián)網(wǎng)的重復(fù)數(shù)據(jù)清除。詳細(xì)流程如下:
假設(shè)離散數(shù)值序列為γ,重復(fù)數(shù)據(jù)近似數(shù)值序列為g,將數(shù)值序列實(shí)施傅立葉轉(zhuǎn)換獲取傅立葉系數(shù),可得到字符語義數(shù)值為
(5)
式(5)中,n表示字符語義數(shù)值的種類數(shù)目,y表示各個(gè)數(shù)據(jù)集合相應(yīng)的語義數(shù)值序列,字符間相鄰關(guān)系表示為i′。
在此基礎(chǔ)上,設(shè)置字符j的語義數(shù)值是jφ,拉格朗日乘子表示為φ,yj所描述的各個(gè)數(shù)據(jù)集合相應(yīng)的語義數(shù)值序列是
(6)
式(6)中,emax表示特征絕對(duì)值向量最大值是;F′表示數(shù)據(jù)屬性集合。
設(shè)置滑動(dòng)窗口大小與平滑操作后第u個(gè)字符相應(yīng)的語義數(shù)值表示為ru,則可得到字符間相連關(guān)系B′swdftr為
(7)
式(7)中,l表示字符語義相對(duì)距離。
在此基礎(chǔ)上,設(shè)置不同數(shù)據(jù)的語義數(shù)值分布概率為p,傅立葉展開系數(shù)為x,一個(gè)周期離散數(shù)列是rt,那么數(shù)據(jù)相似度判斷閾值是:
(8)
式(8)中,ht表示各個(gè)數(shù)據(jù)的權(quán)重。然后設(shè)置各個(gè)異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)映射空間是G,重復(fù)數(shù)據(jù)清除結(jié)果如下
(9)
式(9)中,z表示清除重復(fù)數(shù)據(jù)后的異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)。
在上一小節(jié)得到的重復(fù)數(shù)據(jù)被清除的異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)中,使用基于內(nèi)容相關(guān)的條件函數(shù)依賴關(guān)系構(gòu)建關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘模型,按照內(nèi)容相關(guān)條件函數(shù)依賴規(guī)則,挖掘異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則。
2.2.1 異構(gòu)模式融合
異構(gòu)物聯(lián)網(wǎng)中,因?yàn)閿?shù)據(jù)間關(guān)聯(lián)模式的不同,某種關(guān)聯(lián)模式中規(guī)則集合難以在其它關(guān)聯(lián)模式里有效應(yīng)用[8-10]。在此種情況下,異構(gòu)物聯(lián)網(wǎng)關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則的使用效果將受到影響。因此,在挖掘關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則前,在重復(fù)數(shù)據(jù)清除結(jié)果E中,需要實(shí)現(xiàn)異構(gòu)物聯(lián)網(wǎng)關(guān)聯(lián)數(shù)據(jù)融合,而異構(gòu)融合與簡單的數(shù)據(jù)合并存在一定差異[11]。
將異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)的關(guān)聯(lián)模式設(shè)成Sa、Sb,然后在異構(gòu)物聯(lián)網(wǎng)關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)模式中,將關(guān)聯(lián)數(shù)據(jù)實(shí)例設(shè)成La、Lb,條件函數(shù)依賴(conditional functional dependencies,CFDs)的規(guī)則集合設(shè)成Ω,且存在σ∈Ω,這里的σ表示為屬性匹配模式。則Sa、Sb、σ的模式融合過程如下
(10)
式(10)中,R(Sa*Sb)σ表示異構(gòu)物聯(lián)網(wǎng)關(guān)聯(lián)數(shù)據(jù)的融合結(jié)果;V表示融合后衍生的新模式屬性;attr(Sa)、attr(Sb)依次表示Sa、Sb的屬性數(shù)量;lhsσ、rhsσ依次表示σ的左部、右部屬性集合。在上述操作過程中,R(Sa*Sb)σ中原始異構(gòu)模式里以σ為標(biāo)準(zhǔn)所的匹配屬性將聚類于一組,變成融合模式里的關(guān)聯(lián)數(shù)據(jù)屬性;未能被匹配的關(guān)聯(lián)數(shù)據(jù)屬性還留在原始模式里,針對(duì)融合后關(guān)聯(lián)數(shù)據(jù)屬性值,閾值屬于2個(gè)關(guān)聯(lián)數(shù)據(jù)屬性的并集[12]。
異構(gòu)物聯(lián)網(wǎng)關(guān)聯(lián)數(shù)據(jù)實(shí)例簡稱異構(gòu)實(shí)例,規(guī)則挖掘問題一般是在實(shí)例里對(duì)數(shù)據(jù)關(guān)系實(shí)施抽象。模式融合對(duì)關(guān)系屬性存在擴(kuò)展功能,以此讓關(guān)系實(shí)例出現(xiàn)差異。異構(gòu)實(shí)例融合的概念如下:
假設(shè)T表示融合模式中合并獲取的關(guān)系實(shí)例,其獲取過程如下
(11)
式(11)中,關(guān)聯(lián)模式Sa里不具有的屬性表示為Lv;v、g表示不同類型的關(guān)聯(lián)數(shù)據(jù)屬性;關(guān)聯(lián)模式Sb里不具有的屬性是Lg;La、Lb依次表示關(guān)聯(lián)模式Sa、Sb里數(shù)據(jù)特征值。
2.2.2 規(guī)則發(fā)現(xiàn)
函數(shù)依賴(functional dependencies,F(xiàn)Ds)、條件函數(shù)依賴、擴(kuò)展條件函數(shù)依賴(extended conditional functional dependencies,eCFDs),其屬于數(shù)據(jù)一致性管理的核心技術(shù)。在關(guān)聯(lián)模式中,將函數(shù)依賴設(shè)成?:v→C。其中,?、C表示關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則的屬性值。
針對(duì)條件函數(shù)依賴、擴(kuò)展函數(shù)依賴而言,因?yàn)樵诤瘮?shù)依賴規(guī)則中,規(guī)則左部條件屬性被劃分,在實(shí)施規(guī)則挖掘時(shí),必須依次分析條件屬性與變量屬性,本文構(gòu)建一種二級(jí)lattice結(jié)構(gòu)模型,詳情見圖1。使用此模型在挖掘一致性規(guī)則時(shí),自vg→Γ開始,穿過v|g→Γ、g|v→Γ直至vg|→Γ停止,以此獲取內(nèi)容相關(guān)條件函數(shù)依賴,Γ是關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則屬性。二級(jí)lattice結(jié)構(gòu)如圖1所示。
圖1 二級(jí)lattice結(jié)構(gòu)示意圖
2.2.3 一致性規(guī)則合并挖掘
在使用二級(jí)lattice結(jié)構(gòu)獲取內(nèi)容相關(guān)條件函數(shù)依賴后,將符合一致形式Γ|g→v的關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則實(shí)施合并,獲取融合后關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則相應(yīng)的內(nèi)容相關(guān)條件函數(shù)依賴。但是,不是全部關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則的條件值均可以實(shí)施合并。為此,為了準(zhǔn)確挖掘一致性規(guī)則,需要清除條件沖突值。條件沖突值τΓ的判斷過程如下:
(12)
式(12)中,π?!萭表示實(shí)例La⊕ΩLb中,條件值為Γ=Γj的選擇操作、投影操作。
去除條件沖突值后,將不存在沖突的關(guān)聯(lián)數(shù)據(jù)規(guī)則實(shí)施一致性合并,輸出的合并結(jié)果即為異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性挖掘結(jié)果。
為驗(yàn)證上述異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘模型的有效性,設(shè)計(jì)如下仿真檢驗(yàn)過程。
使用Inter Core i5-7400CPU,與RAM主機(jī)相連,使用Java語言設(shè)計(jì)實(shí)驗(yàn)程序。
實(shí)驗(yàn)數(shù)據(jù)集分為NBA數(shù)據(jù)與豆瓣數(shù)據(jù),NBA數(shù)據(jù)集主要為賽季統(tǒng)計(jì)數(shù)據(jù)構(gòu)成,其中的數(shù)據(jù)具有11種屬性,數(shù)據(jù)為20000條。豆瓣數(shù)據(jù)來自于豆瓣網(wǎng)站,由豆瓣電影數(shù)據(jù)與豆瓣讀書數(shù)據(jù)構(gòu)成,豆瓣電影數(shù)據(jù)屬性為10種,元組數(shù)為50000條,豆瓣讀書數(shù)據(jù)屬性為12種,元組數(shù)為50000條。
首先測試本文模型對(duì)異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則的挖掘時(shí)間,以此判斷本文模型的挖掘效率。實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 本文模型挖掘效果實(shí)驗(yàn)結(jié)果
分析圖2結(jié)果可知,3種不同來來源數(shù)據(jù)量的異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)中,本文模型在異構(gòu)模式融合階段、規(guī)則發(fā)現(xiàn)階段、規(guī)則合并階段中,對(duì)關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘耗時(shí)始終在2.50s以下。具體來看,本文模型針對(duì)賽季統(tǒng)計(jì)數(shù)據(jù)、豆瓣電影數(shù)據(jù)、豆瓣讀書數(shù)據(jù)的總挖掘耗時(shí)最大值依次為2.15s、2.20s、2.40s,挖掘耗時(shí)可滿足異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘需求。
因異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則屬于虛體,不具有可衡量性,本文模型對(duì)NBA隊(duì)員數(shù)據(jù)、賽季統(tǒng)計(jì)數(shù)據(jù)、豆瓣電影數(shù)據(jù)、豆瓣讀書數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘結(jié)果以四種數(shù)據(jù)的屬性為判斷結(jié)果,本文模型的挖掘準(zhǔn)確性如圖3所示。
圖3 本文模型挖掘準(zhǔn)確性實(shí)驗(yàn)結(jié)果
分析圖3所示結(jié)果可知。本文模型對(duì)豆瓣電影數(shù)據(jù)和豆瓣讀書數(shù)據(jù)中一致性規(guī)則挖掘的準(zhǔn)確率呈上升狀態(tài),對(duì)賽季統(tǒng)計(jì)數(shù)據(jù)中一致性規(guī)則挖掘的準(zhǔn)確率呈下降狀態(tài)。但本文模型對(duì)賽季統(tǒng)計(jì)數(shù)據(jù)、豆瓣電影數(shù)據(jù)、豆瓣讀書數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘準(zhǔn)確率較高,其準(zhǔn)確率始終保持在90%以上。產(chǎn)生這一結(jié)果的原因在于本文模型先使用了基于異構(gòu)物聯(lián)網(wǎng)多維數(shù)據(jù)聚類的重復(fù)數(shù)據(jù)優(yōu)化清除方法,去除異構(gòu)物聯(lián)網(wǎng)多維數(shù)據(jù)聚類的重復(fù)數(shù)據(jù),大大降低關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘誤差。
為了進(jìn)一步測試本文模型對(duì)重復(fù)數(shù)據(jù)的清除效果,以數(shù)據(jù)重復(fù)率為測試指標(biāo)驗(yàn)證其有效性。數(shù)據(jù)重復(fù)率B計(jì)算方法如下
(13)
式(13)中,d、m依次表示查全率與重復(fù)數(shù)據(jù)數(shù)目;?是正確清除的數(shù)據(jù)量。本文模型的清除效果測試結(jié)果如表1所示。
表1 本文模型的清除效果測試結(jié)果
分析表1所示結(jié)果可知,本文模型處理后的異構(gòu)物聯(lián)網(wǎng)數(shù)據(jù)重復(fù)率均值最大值是0.03,重復(fù)率極小,對(duì)關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘不存在顯著影響。由此可以說明,本文模型對(duì)異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)的處理性能顯著。
在異構(gòu)物聯(lián)網(wǎng)環(huán)境中,關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘的準(zhǔn)確與否,與數(shù)據(jù)挖掘、數(shù)據(jù)應(yīng)用的合理與否存在直接聯(lián)系。為此,本文構(gòu)建了一種異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘模型。在實(shí)驗(yàn)中通過NBA數(shù)據(jù)與豆瓣數(shù)據(jù)測試本文模型的應(yīng)用效果。測試結(jié)果驗(yàn)證,本文模型對(duì)關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則的挖掘耗時(shí)較短,挖掘準(zhǔn)確性較高,且本文模型清洗后的關(guān)聯(lián)數(shù)據(jù)重復(fù)率較低,本文模型可優(yōu)化異構(gòu)物聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則挖掘效果。