楊曉娟
(河南牧業(yè)經(jīng)濟(jì)學(xué)院,河南 鄭州 450000)
數(shù)據(jù)挖掘技術(shù)是從海量、龐大的數(shù)據(jù)庫(kù)中,篩選和提取具有價(jià)值的信息數(shù)據(jù),并對(duì)信息數(shù)據(jù)進(jìn)行深入挖掘和分析。另外,在綜合應(yīng)用物聯(lián)網(wǎng)技術(shù)和云計(jì)算技術(shù)的基礎(chǔ)上,完成對(duì)數(shù)據(jù)挖掘模型的構(gòu)建,確保該模型具有功能運(yùn)行良好、結(jié)構(gòu)穩(wěn)定可靠等特點(diǎn),確保各種統(tǒng)計(jì)學(xué)因素進(jìn)行有效的融合[1],從而實(shí)現(xiàn)對(duì)物聯(lián)網(wǎng)數(shù)據(jù)的高效化、智能化處理,使得物聯(lián)網(wǎng)數(shù)據(jù)處理成本降到最低。所以,充分發(fā)揮和利用數(shù)據(jù)挖掘技術(shù)的應(yīng)用優(yōu)勢(shì),如何科學(xué)地設(shè)計(jì)數(shù)據(jù)挖掘模型是技術(shù)人員必須思考和解決的問(wèn)題。
1.1.1 物聯(lián)網(wǎng)概念
物聯(lián)網(wǎng)作為一種重要網(wǎng)絡(luò),可以將不同物體進(jìn)行相連相通,有效突顯出信息時(shí)代特點(diǎn)。物聯(lián)網(wǎng)使用原理是借助智能感知技術(shù),融會(huì)貫通處理網(wǎng)絡(luò)[2],保證物物相連的穩(wěn)定性和可靠性,同時(shí),還要有效地延伸和擴(kuò)大互聯(lián)網(wǎng)客戶端。物聯(lián)網(wǎng)主要適用于智能交通、環(huán)境保護(hù)、智能家居等領(lǐng)域。
1.1.2 物聯(lián)網(wǎng)特點(diǎn)
物聯(lián)網(wǎng)主要具有以下幾個(gè)特點(diǎn):(1)感知能力強(qiáng)。通過(guò)綜合運(yùn)用多種傳感器,可以實(shí)現(xiàn)對(duì)多種實(shí)時(shí)數(shù)據(jù)的獲取,這些實(shí)時(shí)數(shù)據(jù)在形式、內(nèi)容呈現(xiàn)上具有一定的差異。(2)智能化處理能力強(qiáng)。通過(guò)將物聯(lián)網(wǎng)與傳感器的有效結(jié)合,可以獲得較高的智能化處理能力,然后,從海量信息數(shù)據(jù)中,可以深入分析和挖掘出有價(jià)值的信息數(shù)據(jù),從而滿足用戶的實(shí)際使用需求。
1.2.1 信息融合技術(shù)概念
信息融合技術(shù)又叫數(shù)據(jù)融合,主要通過(guò)運(yùn)用計(jì)算機(jī)技術(shù),對(duì)多種傳感器信息進(jìn)行綜合化分析和處理,從而獲得有用的信息數(shù)據(jù)。另外,也可以融合處理多個(gè)傳感器信息,將多個(gè)信息源進(jìn)行綜合化處理,從而獲得需要的信息數(shù)據(jù)[3]。然后,在關(guān)聯(lián)處理信息的基礎(chǔ)上,對(duì)身份信息和位置信息進(jìn)行估計(jì)和確定。整個(gè)過(guò)程表現(xiàn)出一定的創(chuàng)新性和時(shí)效性,有利于后期數(shù)據(jù)結(jié)果的實(shí)時(shí)化更新和發(fā)布。
1.2.2 信息融合技術(shù)的基本方法
信息融合技術(shù)基本方法如圖1所示,可以看出,該技術(shù)基本方法主要包含以下幾種:(1)小波分析法。該方法除了可以直接分析分布特征信息外,還能分析分布特征信號(hào)。(2)加權(quán)平均法。通過(guò)加權(quán)平均法對(duì)傳感器收集的信息進(jìn)行處理,并獲得相應(yīng)的融合值,該融合值屬于平均值,是信息融合技術(shù)的典型應(yīng)用[4]。(3)概率論法。通過(guò)概率論法對(duì)不同傳感器信息源進(jìn)行分析和整理,有針對(duì)性地刪除錯(cuò)誤信息、低水平信息,如果將先驗(yàn)概率直接設(shè)置為已知條件,可以采用貝葉斯概率法獲得最終信息融合結(jié)果。(4)卡爾曼濾波法。該方法主要適用于傳感器冗余信息處理。線性系統(tǒng)在實(shí)際運(yùn)行時(shí),一旦產(chǎn)生的傳感器噪聲符合設(shè)置的建模條件,通過(guò)利用卡爾曼濾波法可以實(shí)現(xiàn)融合值的提取和統(tǒng)計(jì),無(wú)需占用太大存儲(chǔ)空間,促使信息數(shù)據(jù)處理向高效化、實(shí)時(shí)化發(fā)展。(5)D-S證據(jù)理論方法。該方法主要適用于專家系統(tǒng)、人工智能等領(lǐng)域,可以實(shí)現(xiàn)對(duì)概率論的有效擴(kuò)充。(6)模糊邏輯理論法。該方法內(nèi)部主要用到多數(shù)據(jù)邏輯處理技術(shù),在實(shí)際推理過(guò)程中,該方法可以真實(shí)、有效地突顯傳感器的隨機(jī)性和不確定性[5],被廣泛地應(yīng)用于多傳感器信息融合領(lǐng)域,取得了良好的應(yīng)用效果。(7)貝葉斯信息融合法。在融合處理多傳感器信息時(shí),要使用概率,精確地表示不同傳感器傳遞的隨機(jī)性和不確定性,利用獨(dú)立決策,科學(xué)地劃分和處理樣本空間,最后,嚴(yán)格按照系統(tǒng)決策的相關(guān)標(biāo)準(zhǔn)和要求,獲得最終有價(jià)值的信息數(shù)據(jù)。
圖1 信息融合技術(shù)基本方法
物聯(lián)網(wǎng)與云計(jì)算兩種先進(jìn)技術(shù)的有效結(jié)合是信息時(shí)代發(fā)展的必然趨勢(shì)?;谠朴?jì)算的數(shù)據(jù)挖掘模型,如圖2所示,為后期高效化處理物聯(lián)網(wǎng)數(shù)據(jù)提供重要的技術(shù)支持。在具體設(shè)計(jì)中,數(shù)據(jù)挖掘模型除了用到挖掘算法的并行運(yùn)行模式[6],還用到推薦算法的分布運(yùn)行模式。另外,數(shù)據(jù)挖掘模型的設(shè)計(jì),運(yùn)用了分層設(shè)計(jì)思想,有效地保證物聯(lián)網(wǎng)數(shù)據(jù)處理的可靠性和有效性,使得物聯(lián)網(wǎng)數(shù)據(jù)處理效率得以顯著提升。數(shù)據(jù)挖掘模型主要包含以下幾個(gè)層次。
圖2 基于云計(jì)算的數(shù)據(jù)挖掘模型
云計(jì)算支撐平臺(tái)層設(shè)計(jì),為用戶提供充足的數(shù)據(jù)存儲(chǔ)空間,使得模型具有較高的數(shù)據(jù)計(jì)算能力,因此,該層次被視為數(shù)據(jù)處理模型的“骨架”。在該模型中,主要用到第三方挖掘算法。整個(gè)模型業(yè)務(wù)運(yùn)作方式主要利用云計(jì)算平臺(tái)[7],有效地突出物聯(lián)網(wǎng)的智能性和便捷性。
數(shù)據(jù)挖掘能力層設(shè)計(jì)為整個(gè)模型提供強(qiáng)大的數(shù)據(jù)挖掘功能。在具體設(shè)計(jì)中,該層次要從服務(wù)管理、數(shù)據(jù)并行處理等環(huán)節(jié)入手,保證框架處理水平,使得整個(gè)數(shù)據(jù)挖掘模型表現(xiàn)出較高的數(shù)據(jù)挖掘云服務(wù)能力。通常情況下,數(shù)據(jù)挖掘能力大小,對(duì)云計(jì)算服務(wù)性能和物聯(lián)網(wǎng)的服務(wù)能力產(chǎn)生明顯的影響。
數(shù)據(jù)挖掘云服務(wù)層通常會(huì)用到多種封裝接口,如對(duì)象訪問(wèn)協(xié)議接口、XML接口、程序編程接口。物聯(lián)網(wǎng)技術(shù)的應(yīng)用優(yōu)勢(shì)是借助信息化技術(shù)為用戶提供更加優(yōu)質(zhì)的智能化服務(wù)體驗(yàn),而云計(jì)算技術(shù)的應(yīng)用優(yōu)勢(shì)是不斷地提高模型的服務(wù)能力[8]。在設(shè)計(jì)云服務(wù)層時(shí),要利用這兩種技術(shù)的優(yōu)勢(shì),結(jié)合用戶實(shí)際需求,不斷地提高整個(gè)模型的服務(wù)水平。同時(shí),通過(guò)設(shè)計(jì)云服務(wù)層,可以方便用戶快速地訪問(wèn)各種數(shù)據(jù)庫(kù)查詢語(yǔ)句,促使數(shù)據(jù)在實(shí)際處理期間,表現(xiàn)出強(qiáng)大的語(yǔ)言轉(zhuǎn)化能力。
在整個(gè)物聯(lián)網(wǎng)中,通過(guò)運(yùn)用不同種類的傳感器,對(duì)所需數(shù)據(jù)進(jìn)行采集,發(fā)現(xiàn)采集到的數(shù)據(jù)主要以實(shí)時(shí)數(shù)據(jù)流為主,因此,在進(jìn)行物聯(lián)網(wǎng)數(shù)據(jù)處理時(shí),技術(shù)人員除了要重視對(duì)實(shí)時(shí)數(shù)據(jù)流的處理[9],還要重視對(duì)實(shí)時(shí)數(shù)據(jù)流的加工。本文以某出租車數(shù)據(jù)集為研究對(duì)象,將采集和處理好的出租車交通相關(guān)定位數(shù)據(jù)呈現(xiàn)在用戶面前,便于用戶全面、實(shí)時(shí)地了解和掌握當(dāng)前城市實(shí)際交通狀況。此外,技術(shù)人員還要重視對(duì)原始系統(tǒng)的搭建,為后期和加工處理物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)提供一定的便利。
在獲取傳感數(shù)據(jù)時(shí),要利用出租車GPS技術(shù),完成對(duì)行車軌跡信息的全面化獲取和整理,同時(shí),還要做好原型系統(tǒng)的搭建,并對(duì)數(shù)據(jù)挖掘模型進(jìn)行科學(xué)驗(yàn)證。在采集某城市交通數(shù)據(jù)時(shí),采集到的交通信息主要涉及8 000輛以上出租車當(dāng)天行駛軌跡數(shù)據(jù)信息,采集到的傳感數(shù)據(jù)相對(duì)較多,為1 900萬(wàn)條。為保證數(shù)據(jù)處理質(zhì)量,技術(shù)人員要重點(diǎn)做好對(duì)以下兩種問(wèn)題的處理:(1)交通狀況始終處于不斷變化的狀態(tài),通過(guò)對(duì)重要數(shù)據(jù)的實(shí)時(shí)化、有效化處理,可以確保交通狀況信息的完整性和可靠性。(2)城市中的所有出租車在實(shí)際行駛時(shí),均采用隨機(jī)行駛的方式,同時(shí),所采集的數(shù)據(jù)在時(shí)空緯度上呈現(xiàn)的狀態(tài)特點(diǎn)為均勻性、稀疏性,這些數(shù)據(jù)主要分布于不同的道路中。所以,在實(shí)時(shí)估算法的應(yīng)用背景下,可以完成對(duì)物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)處理平臺(tái)的搭建和開(kāi)發(fā)[10]。
為避免出現(xiàn)估算缺失值現(xiàn)象,技術(shù)人員要在構(gòu)建多元線性回歸模型的基礎(chǔ)上,運(yùn)用在線算法,精確地計(jì)算出相關(guān)系數(shù)。
vit=β0+β1v1t+β2v2t+...+βmvmt+μt
(1)
公式(1)中的vit表示出租車于t時(shí)刻,在ri區(qū)域內(nèi)所對(duì)應(yīng)的交通條件;vkt,k={1,2,3...m},表示出租車于t時(shí)刻,在rk中對(duì)應(yīng)的交通條件;βk表示vit和vkt兩者之間的偏相關(guān)系數(shù);μ表示隨機(jī)誤差項(xiàng)。
(2)
通過(guò)公式(2)可以精確地計(jì)算出系數(shù)估計(jì)值,在交通缺失情況下的估計(jì)算法。
通過(guò)geohash法(地址編碼方法)對(duì)地球表現(xiàn)經(jīng)緯度進(jìn)行科學(xué)化分割,并在指定的緯度、經(jīng)度上,對(duì)地球經(jīng)緯度進(jìn)行不斷迭代二分處理,直到獲得最終精度位置即可。在原始二進(jìn)制的應(yīng)用背景下,可以實(shí)現(xiàn)對(duì)位置精度信息的安全化存儲(chǔ)和操作,同時(shí),還能對(duì)geohash進(jìn)行轉(zhuǎn)化,使其全部轉(zhuǎn)化為相應(yīng)的浮點(diǎn)數(shù),便于用戶結(jié)合所獲得的浮點(diǎn)數(shù)自動(dòng)存儲(chǔ)和訪問(wèn)需要的數(shù)據(jù)。另外,在geohash法的應(yīng)用背景下,可以將二進(jìn)制的字符串一一映射到浮點(diǎn)數(shù)中。在某個(gè)城市,確定的研究區(qū)域始終保持不變,運(yùn)用二進(jìn)制,獲得的字符串完全相同,在某出租車GPS數(shù)據(jù)集中,前10位字符串保持一致。此時(shí),采用截?cái)嗟姆绞?對(duì)相同部位的字符串進(jìn)行截?cái)嗵幚?并對(duì)需要的數(shù)據(jù)進(jìn)行壓縮處理,這為后期計(jì)算提供重要依據(jù)和參考。通過(guò)采用移位操作的方式,對(duì)有效位進(jìn)行處理,可以獲得需要存儲(chǔ)的浮點(diǎn)數(shù)。為實(shí)現(xiàn)對(duì)整個(gè)運(yùn)算流程的優(yōu)化,需要將整個(gè)區(qū)域劃分為9個(gè)矩形,然后,獲得8個(gè)估算樣本參考區(qū)。結(jié)合確定好的估算速度方向,確定出空缺區(qū)域值,然后結(jié)合最終獲得的交通信息,開(kāi)展相關(guān)估算工作。
在實(shí)時(shí)處理數(shù)據(jù)期間,出租車相關(guān)行駛軌跡數(shù)據(jù)按照設(shè)置好的時(shí)間順序,集中分布于消息隊(duì)列中。為保證實(shí)時(shí)數(shù)據(jù)處理效率和效果,在驗(yàn)證原型系統(tǒng)結(jié)構(gòu)時(shí),需要重視對(duì)一種Spout業(yè)務(wù)和3種Bolt業(yè)務(wù)邏輯關(guān)系的處理。其中,在處理Bolt業(yè)務(wù)邏輯關(guān)系時(shí),要做好對(duì)各條原始數(shù)據(jù)的切分處理,確保原始數(shù)據(jù)被直接處理為一種典型的標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)。在整個(gè)樣本區(qū)域中,當(dāng)geohash劃分工作完成后,要重視對(duì)業(yè)務(wù)的聚合操縱處理,確保數(shù)據(jù)傳感速度顯著提升,如果采用傳統(tǒng)數(shù)據(jù)庫(kù)處理模式,會(huì)降低數(shù)據(jù)傳感速度。因此,在儲(chǔ)存數(shù)據(jù)時(shí),要提高數(shù)據(jù)內(nèi)存利用率,不斷縮短數(shù)據(jù)處理時(shí)間。另外,為提高實(shí)時(shí)數(shù)據(jù)處理水平,要利用5臺(tái)臺(tái)式計(jì)算機(jī),完成集群運(yùn)行環(huán)境的搭建,同時(shí),將需要使用的操作系統(tǒng)安裝和固定于節(jié)點(diǎn)上,然后,利用Web頁(yè)面,將這些數(shù)據(jù)形象、直觀地呈現(xiàn)在用戶面前,保護(hù)用戶交互效率和效果。
通過(guò)靈活運(yùn)用上述算法,完成分布式計(jì)算框架的設(shè)計(jì),并結(jié)合當(dāng)前計(jì)算機(jī)設(shè)備運(yùn)行環(huán)境需求,突出數(shù)據(jù)處理的時(shí)效性。另外,在進(jìn)行交換和訪問(wèn)數(shù)據(jù)時(shí),需要將計(jì)算單元時(shí)延設(shè)置為ms級(jí),總之,原型系統(tǒng)結(jié)構(gòu)經(jīng)過(guò)驗(yàn)證,發(fā)現(xiàn)在處理實(shí)時(shí)數(shù)據(jù)方面具有一定的可行性和可操作性。
綜上所述,在科學(xué)技術(shù)的不斷普及和推廣下,人們對(duì)網(wǎng)絡(luò)性能提出了更高的要求,本文通過(guò)綜合運(yùn)用物聯(lián)網(wǎng)和云計(jì)算技術(shù),完成對(duì)數(shù)據(jù)挖掘模型的科學(xué)化設(shè)計(jì),并驗(yàn)證該模型的有效性和可靠性。結(jié)果發(fā)現(xiàn),與傳統(tǒng)數(shù)據(jù)處理模式相比,本文設(shè)計(jì)的數(shù)據(jù)挖掘模型具有較高的拓展性,不僅可以提高數(shù)據(jù)處理效率,還能保證數(shù)據(jù)處理準(zhǔn)確度,為用戶提供更加優(yōu)質(zhì)的服務(wù)。