摘要:隨著我國云計(jì)算和物聯(lián)網(wǎng)技術(shù)的持續(xù)發(fā)展,數(shù)據(jù)挖掘技術(shù)和模型逐漸發(fā)展成熟,提高了網(wǎng)絡(luò)數(shù)據(jù)利用率。文章基于云計(jì)算和互聯(lián)網(wǎng)技術(shù)下的數(shù)據(jù)挖掘技術(shù)以及模型、系統(tǒng)研究,在簡單闡述云計(jì)算和物聯(lián)網(wǎng)技術(shù)內(nèi)涵的前提下,針對以云計(jì)算和互聯(lián)網(wǎng)技術(shù)所形成的數(shù)據(jù)挖掘系統(tǒng)中的數(shù)據(jù)匯集調(diào)度、挖掘算法并行、服務(wù)調(diào)度管理等多項(xiàng)關(guān)鍵技術(shù)進(jìn)行探討,并對以云計(jì)算和物聯(lián)網(wǎng)技術(shù)形成的數(shù)據(jù)挖掘模型、系統(tǒng)建立進(jìn)行了分析。
關(guān)鍵詞:云計(jì)算;物聯(lián)網(wǎng);數(shù)據(jù)挖掘
中圖法分類號:TP391文獻(xiàn)標(biāo)識碼:A
Data mining based on cloud computing and Internet of things technology
LU Yu
(Wuxi City Cloud Computing CenterCo.,Ltd.,Wuxi,Jiangsu 214135,China)
Abstract:With the continuous development of cloud computing and Internet of things technologies in China,data mining technologies and models have gradually developed and matured,improving the utilization of network data. Based on the data mining technology and model and system research under cloud computing and Internet technology, this paper briefly expounds the connotation of cloud computing and Internet of things technology, and aims at the data collection and integration in the data mining system formed by cloud computing and Internet technology. Scheduling,mining algorithm parallelism, service scheduling and management and other key technologies are discussed. and the data mining model and system establishment formed by cloud computing and Internet of things technology are analyzed.
Key words:cloud computing, Internet of things, data mining
數(shù)據(jù)挖掘技術(shù)能夠幫助企業(yè)以及相關(guān)部門發(fā)掘社會生活中存在的海量數(shù)據(jù),以便在掌握人們真實(shí)需求的前提下,為其提供針對性的產(chǎn)品和服務(wù)。對于相關(guān)部門而言,數(shù)據(jù)挖掘技術(shù)能夠深刻發(fā)掘目前國內(nèi)經(jīng)濟(jì)社會發(fā)展問題背后的原因,在采取針對性措施解決相關(guān)問題的基礎(chǔ)上,推動國內(nèi)經(jīng)濟(jì)社會的發(fā)展。企業(yè)則可以利用數(shù)據(jù)挖掘技術(shù)將業(yè)務(wù)經(jīng)營中積累的各項(xiàng)數(shù)據(jù)進(jìn)行分析,充分利用這些數(shù)據(jù)反映出的市場變化規(guī)律形成正確的企業(yè)發(fā)展決策。
1概述
1.1云計(jì)算技術(shù)
云計(jì)算技術(shù)可以憑借分布式計(jì)算平臺對海量數(shù)據(jù)背后的隱藏規(guī)律進(jìn)行挖掘。云計(jì)算技術(shù)可以幫助用戶結(jié)合真實(shí)需求隨時訪問計(jì)算機(jī)和數(shù)據(jù)庫,并提供不同類型數(shù)據(jù)的分析處理服務(wù),對提高數(shù)據(jù)挖掘效率及數(shù)據(jù)利用率都有著重要作用[1]。為了進(jìn)一步提高數(shù)據(jù)的安全性,云計(jì)算技術(shù)可以同步實(shí)施儲存和計(jì)算操作,對各項(xiàng)數(shù)據(jù)進(jìn)行高效處理,并能夠解決其中的融合性和存儲問題。隨著國內(nèi)云計(jì)算技術(shù)的持續(xù)發(fā)展,逐漸展現(xiàn)出如下特征:第一,規(guī)模較大。云計(jì)算技術(shù)通常會涉及百萬臺服務(wù)器,這意味著能夠在極短時間內(nèi)對海量數(shù)據(jù)進(jìn)行全面計(jì)算和挖掘;第二,資源的虛擬特征。用戶可以憑借基于云計(jì)算技術(shù)的現(xiàn)代化裝置在任意時間和地點(diǎn)實(shí)現(xiàn)和數(shù)據(jù)中心的連接,獲得自己所需要的各種服務(wù),同時數(shù)據(jù)不會在任何實(shí)體服務(wù)器內(nèi)進(jìn)行儲存,通常會被存入云端系統(tǒng)中;第三,可靠性和通用性特征。云計(jì)算系統(tǒng)中分布的各種節(jié)點(diǎn)能夠?qū)崿F(xiàn)同構(gòu)互換的效果,與本地計(jì)算機(jī)相比,計(jì)算可靠性得到了明顯提升。
1.2物聯(lián)網(wǎng)技術(shù)
物聯(lián)網(wǎng)技術(shù)實(shí)際上是一種全新的網(wǎng)絡(luò)模式,能夠使用節(jié)點(diǎn)表示對象,并涉及數(shù)據(jù)的查詢、應(yīng)用、匯總等多個環(huán)節(jié),能夠?qū)?shù)據(jù)分別傳送到不同的傳感器和服務(wù)器中。隨著國內(nèi)物聯(lián)網(wǎng)技術(shù)的持續(xù)發(fā)展,計(jì)算機(jī)技術(shù)和第5代通信技術(shù)的融合也變得越發(fā)深入,物聯(lián)網(wǎng)技術(shù)可以借助實(shí)體對象與信息網(wǎng)絡(luò)進(jìn)行無縫連接,以保障業(yè)務(wù)經(jīng)營的有效性[2]。國內(nèi)物聯(lián)網(wǎng)技術(shù)發(fā)展體現(xiàn)出如下特征:第一,可以憑借現(xiàn)代信息技術(shù)和電子標(biāo)簽技術(shù)獲得生產(chǎn)、生活的基礎(chǔ)性信息;第二,有著較高的信息傳輸可靠性,物聯(lián)網(wǎng)可以通過無線、有線網(wǎng)絡(luò)技術(shù)的集成處理,借助傳感器和通信網(wǎng)絡(luò)獲取、傳輸各種信息;第三,物聯(lián)網(wǎng)技術(shù)可以與云計(jì)算技術(shù)進(jìn)行結(jié)合,進(jìn)行數(shù)據(jù)信息的傳輸和處理,通過使用標(biāo)準(zhǔn)化數(shù)據(jù)識別技術(shù)對各項(xiàng)異構(gòu)數(shù)據(jù)及時進(jìn)行處理,從而維護(hù)海量數(shù)據(jù)的有效性。
2數(shù)據(jù)挖掘中的關(guān)鍵技術(shù)
2.1數(shù)據(jù)匯集調(diào)度技術(shù)
以云計(jì)算和物聯(lián)網(wǎng)平臺作為基礎(chǔ),數(shù)據(jù)挖掘體系逐漸形成,其能夠借助云計(jì)算平臺匯集和調(diào)度多種不同類型的數(shù)據(jù),最終實(shí)現(xiàn)綜合性管理和應(yīng)用數(shù)據(jù)信息的目標(biāo)。數(shù)據(jù)匯集調(diào)度技術(shù)作為數(shù)據(jù)挖掘技術(shù)的核心,能夠有效連接不同格式、類型之間的數(shù)據(jù),實(shí)現(xiàn)二者之間的交流,同時不同類型的數(shù)據(jù)也能夠同步進(jìn)行處理和連接。數(shù)據(jù)處理技術(shù)可以幫助相關(guān)人員在設(shè)計(jì)問題解決方案時,保障不同數(shù)據(jù)生成格式的統(tǒng)一化,具體包括聯(lián)機(jī)事務(wù)處理系統(tǒng)的形式數(shù)據(jù)、分析處理系統(tǒng)的形式數(shù)據(jù)和各種日常維護(hù)日志數(shù)據(jù)等[3]。數(shù)據(jù)匯集調(diào)度技術(shù)的應(yīng)用能夠在深入挖掘海量數(shù)據(jù)信息背后價值的前提下,幫助企業(yè)做出正確決策。
2.2挖掘算法并行技術(shù)
基于云計(jì)算和物聯(lián)網(wǎng)技術(shù)的數(shù)據(jù)挖掘系統(tǒng)擁有挖掘算法并行技術(shù),具體可以分為可行化算法、并行化算法和并行策略等。在數(shù)據(jù)挖掘算法應(yīng)用的過程中,挖掘算法并行技術(shù)同樣可以引入決策樹算法和關(guān)聯(lián)規(guī)則算法。用戶可以在使用云計(jì)算平臺時,結(jié)合自己的具體需求以及數(shù)據(jù)規(guī)模選擇不同的挖掘算法,以便對數(shù)據(jù)背后的價值進(jìn)行挖掘以及利用。
2.3服務(wù)調(diào)度管理技術(shù)
出于滿足不同業(yè)務(wù)系統(tǒng)服務(wù)需求的考慮,需要在綜合使用云計(jì)算和物聯(lián)網(wǎng)技術(shù)的過程中融入服務(wù)調(diào)度管理技術(shù)。服務(wù)調(diào)度管理技術(shù)可以針對服務(wù)等級、資源匹配進(jìn)行科學(xué)分析,從而實(shí)現(xiàn)優(yōu)先級服務(wù)的調(diào)度工作。在應(yīng)用這一技術(shù)的過程中,同樣需要保障隔離不同服務(wù)以及維持彼此之間的互斥狀況,確保服務(wù)調(diào)度管理技術(shù)能夠發(fā)揮應(yīng)有的作用,保證云服務(wù)的安全穩(wěn)定運(yùn)行[4]。此外,應(yīng)用服務(wù)調(diào)度管理技術(shù)時,可以通過設(shè)置服務(wù)注冊、服務(wù)暴露等功能模塊,開展用戶所需的一體化服務(wù)管理工作。以服務(wù)調(diào)度管理技術(shù)為基礎(chǔ)所形成的數(shù)據(jù)挖掘系統(tǒng)能夠接入第三方數(shù)據(jù),從而進(jìn)一步提高系統(tǒng)的數(shù)據(jù)挖掘能力。
2.4基于云計(jì)算數(shù)據(jù)的挖掘技術(shù)
在國內(nèi)信息技術(shù)持續(xù)發(fā)展的影響下,數(shù)據(jù)信息已經(jīng)成為各個行業(yè)可持續(xù)發(fā)展的重要基礎(chǔ)資源,使用云計(jì)算數(shù)據(jù)的行業(yè)若要取得市場競爭力方面的優(yōu)勢,必須深入挖掘核心數(shù)據(jù)中的商業(yè)價值,以實(shí)現(xiàn)數(shù)據(jù)價值的利益最大化目標(biāo)。隨著云計(jì)算數(shù)據(jù)下的挖掘技術(shù)不斷發(fā)展,企業(yè)內(nèi)部的數(shù)據(jù)挖掘工作在質(zhì)量和效率方面也得到了明顯的進(jìn)步。同時,企業(yè)的數(shù)據(jù)挖掘工作總量也得到了控制,企業(yè)完全可以憑借云計(jì)算技術(shù)、物聯(lián)網(wǎng)應(yīng)用獲取關(guān)于生產(chǎn)、生活的關(guān)鍵數(shù)據(jù)信息,對數(shù)據(jù)背后的規(guī)律進(jìn)行全面挖掘,確保企業(yè)的生產(chǎn)、生活信息應(yīng)用逐漸向著高質(zhì)量方向發(fā)展。
3數(shù)據(jù)挖掘模型及系統(tǒng)
3.1數(shù)據(jù)挖掘模型
以目前結(jié)合云計(jì)算和物聯(lián)網(wǎng)技術(shù)所形成的數(shù)據(jù)挖掘模式看來,通常是以物聯(lián)網(wǎng)環(huán)境作為基礎(chǔ)。但當(dāng)下物聯(lián)網(wǎng)應(yīng)用擁有明顯的復(fù)雜性、煩瑣性和關(guān)聯(lián)性特征,企業(yè)為了避免數(shù)據(jù)模型中的應(yīng)用出現(xiàn)問題,會在數(shù)據(jù)應(yīng)用的過程中進(jìn)行創(chuàng)新,發(fā)揮云計(jì)算和物聯(lián)網(wǎng)數(shù)據(jù)技術(shù)在數(shù)據(jù)挖掘過程中的重要作用。以云計(jì)算和物聯(lián)網(wǎng)技術(shù)為基礎(chǔ)形成的數(shù)據(jù)挖掘模型可以幫工作人員對互聯(lián)網(wǎng)世界中的數(shù)據(jù)分布特征進(jìn)行全面解析,從而選擇符合自身需求以及數(shù)據(jù)處理規(guī)模的方法,能夠進(jìn)一步推動云計(jì)算和物聯(lián)網(wǎng)下的數(shù)據(jù)挖掘模型的發(fā)展。隨著國內(nèi)信息化社會的持續(xù)發(fā)展和進(jìn)步,物聯(lián)網(wǎng)數(shù)據(jù)同樣出現(xiàn)了關(guān)聯(lián)性弱、容量大、質(zhì)量差等缺點(diǎn)。針對數(shù)據(jù)挖掘模型的應(yīng)用,也需要結(jié)合數(shù)據(jù)規(guī)模方面的變化進(jìn)行科學(xué)調(diào)整?;谠朴?jì)算和物聯(lián)網(wǎng)技術(shù)所形成的數(shù)據(jù)挖掘模式和傳統(tǒng)的數(shù)據(jù)挖掘模式存在較大的差異,尤其是原始數(shù)據(jù)來源于四維空間中的時空網(wǎng)絡(luò)表現(xiàn)得最為明顯,而傳統(tǒng)的物聯(lián)網(wǎng)數(shù)據(jù)則是使用個體用點(diǎn)進(jìn)行表示。數(shù)據(jù)挖掘模型可以合理應(yīng)用云計(jì)算數(shù)據(jù)成果,尤其是網(wǎng)絡(luò)發(fā)掘技術(shù),實(shí)現(xiàn)對生產(chǎn)、生活數(shù)據(jù)的高質(zhì)量處理,并且數(shù)據(jù)挖掘操作中的失誤事件發(fā)生概率有所降低。
基于云計(jì)算和物聯(lián)網(wǎng)技術(shù)所形成的數(shù)據(jù)挖掘模型建立需要綜合考慮物與物之間的個體聯(lián)系。并且,聯(lián)系方面的差異意味著建立的數(shù)據(jù)挖掘模型也存在明顯不同。一般而言,物與物之間存在的間接聯(lián)系可以使用拉普拉斯變換模型或者是 SVD 模型表示,數(shù)學(xué)模型的差異也會帶來表現(xiàn)結(jié)果的不同[5]。比如,目前較為常用的超圖物聯(lián)網(wǎng)數(shù)據(jù)模型就可以隨意的連接預(yù)編點(diǎn),借此客觀展示網(wǎng)內(nèi)的數(shù)據(jù)關(guān)聯(lián)關(guān)系,最為常見的表示如下:A={ v1,v2,v3,v4,v5,v6,v7}超邊集合,B={ e1,e2,e3,e4}={{ v1,v2,v3},{ v2,v3}。同時,穩(wěn)定性相對較好的可外推非參數(shù)模型的建立也需要相關(guān)人員針對事物之間的聯(lián)系進(jìn)行深入分析,通過建立數(shù)學(xué)模型,獲得完整的數(shù)量效果。但實(shí)際上,這種模型的應(yīng)用也會受到網(wǎng)絡(luò)數(shù)據(jù)丟失以及錯誤方面的阻礙。
3.2數(shù)據(jù)挖掘系統(tǒng)
基于云計(jì)算和物聯(lián)網(wǎng)技術(shù)所形成的數(shù)據(jù)挖掘系統(tǒng),其內(nèi)部結(jié)構(gòu)可以分為應(yīng)用層、中間層、網(wǎng)絡(luò)層、接入網(wǎng)絡(luò)層和感知層等。感知層作為整個數(shù)據(jù)挖掘系統(tǒng)的底層,一般都是以硬件和物理設(shè)施為主;中間層則是感知層和應(yīng)用層之間的連接和過渡層,能夠?qū)崿F(xiàn)數(shù)據(jù)在二者之間的有效傳遞。中間層是處于底層的硬件層和上層應(yīng)用層之間的接口,具備設(shè)備、信息管理等關(guān)鍵功能,同時數(shù)據(jù)過濾、語義分析、信息發(fā)現(xiàn)等工作也需要在這一層進(jìn)行處理;應(yīng)用層需要為用戶提供相應(yīng)的服務(wù)或者是應(yīng)用程序;接入網(wǎng)絡(luò)層在數(shù)據(jù)挖掘系統(tǒng)中主要是負(fù)責(zé)消息發(fā)布,并且在必要的情況下能夠?qū)崟r跨平臺通信。
數(shù)據(jù)挖掘系統(tǒng)中的應(yīng)用程序和中間層需要使用云計(jì)算技術(shù)實(shí)現(xiàn)其功能,云計(jì)算技術(shù)能夠提供帶有伸縮性的儲存、計(jì)算時間和其他工具,為用戶提供應(yīng)用程序服務(wù)。基于此,網(wǎng)絡(luò)層能夠進(jìn)行物聯(lián)網(wǎng)設(shè)備和云端的連接。數(shù)據(jù)挖掘系統(tǒng)可以借助云計(jì)算和物聯(lián)網(wǎng)技術(shù)形成較大的流量,在解決相關(guān)問題的過程中可以引入 fog 計(jì)算方式來否定節(jié)點(diǎn)。因?yàn)樘峁┝吮镜鼗?wù),以及擁有明顯的低延遲和上下文感知特征,云計(jì)算技術(shù)能夠提供全局集中的服務(wù)。
為了建立完善的以物聯(lián)網(wǎng)技術(shù)和云計(jì)算技術(shù)為基礎(chǔ)的數(shù)據(jù)挖掘系統(tǒng),通常會使用readmake云或者是大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)。微軟的 Azure 機(jī)器學(xué)習(xí)作為一個以 SaaS 技術(shù)所形成的預(yù)測分析服務(wù),能夠向用戶提供必要的包括數(shù)據(jù)獲取、預(yù)處理、特征定義等在內(nèi)的完善數(shù)據(jù)分析服務(wù)。但用戶只能夠在 Azure ML 學(xué)習(xí)算法中應(yīng)用包括分類、回歸、異常檢測和聚類等方式,并且在算法擴(kuò)展的過程中也只能添加有關(guān)機(jī)器學(xué)習(xí)市場上其他成熟、可用的算法,這項(xiàng)技術(shù)可以憑借 Azure API 發(fā)布集成性質(zhì)的其他模塊以及服務(wù)。
Apache Spark 機(jī)器學(xué)習(xí)庫作為一種以 Apache Spark 平臺為基礎(chǔ)形成的帶有擴(kuò)展性的機(jī)器學(xué)習(xí)庫,涵蓋了最為常見的學(xué)習(xí)算法和工具,以分類、回歸、聚類、協(xié)同處理等為主,擁有屬于自己的 MapReduce 范例實(shí)現(xiàn),可借助已有內(nèi)存進(jìn)行數(shù)據(jù)的儲存和管理。同時,這種機(jī)器學(xué)習(xí)庫算法能夠進(jìn)一步提高算法效率,用戶也可以根據(jù)自己的需求拓展機(jī)器學(xué)習(xí)算法。但實(shí)際上,用戶在對其進(jìn)行具體應(yīng)用的過程中,需要在地圖上進(jìn)行算法分解,這使得部分機(jī)器學(xué)習(xí)庫中的功能有所減少,限制了數(shù)據(jù)挖掘算法的并行化能力。
作為國際社會知名度較高的開源數(shù)據(jù)挖掘庫下的拓展成果,Weka4WS 實(shí)現(xiàn)了 WSRF 網(wǎng)格中的數(shù)據(jù)挖掘算法執(zhí)行框架,可以做到在遠(yuǎn)程網(wǎng)絡(luò)節(jié)點(diǎn)上執(zhí)行擁有的挖掘算法。Weka4WS 可以實(shí)現(xiàn)產(chǎn)品的遠(yuǎn)程調(diào)用目標(biāo),Weka 提供的數(shù)據(jù)挖掘算法是一種以 Web 服務(wù)的形式進(jìn)行全面公開,能夠在各個網(wǎng)絡(luò)節(jié)點(diǎn)上進(jìn)行部署。但實(shí)際上,這種算法也只能夠針對單個儲存節(jié)點(diǎn)中儲存的數(shù)據(jù)集合進(jìn)行處理,并且需要將數(shù)據(jù)集合傳輸?shù)叫枰诰虻挠?jì)算節(jié)點(diǎn)中。
4結(jié)束語
基于物聯(lián)網(wǎng)和云計(jì)算技術(shù)所形成的數(shù)據(jù)挖掘算法和模型通常使用的是集中式或者是分布式架構(gòu),又以集中式結(jié)構(gòu)體系為主。由于分布式結(jié)構(gòu)體系能夠減少終端在互聯(lián)網(wǎng)上的網(wǎng)絡(luò)流量,逐漸得以推廣和應(yīng)用。在今后的數(shù)據(jù)挖掘系統(tǒng)算法持續(xù)優(yōu)化的過程中,相關(guān)人員需要結(jié)合物聯(lián)網(wǎng)和云計(jì)算技術(shù)發(fā)展的全新技術(shù)成果,將數(shù)據(jù)挖掘算法分解成系統(tǒng)中的各個功能逐一映射到參與者身上,以便在進(jìn)一步提高數(shù)據(jù)挖掘系統(tǒng)的數(shù)據(jù)分析性能的同時,降低終端設(shè)備和云端之間的網(wǎng)絡(luò)流量,以最小的成本提高數(shù)據(jù)挖掘系統(tǒng)算法以及模型的數(shù)據(jù)處理效率。
參考文獻(xiàn):
[1]周鑫隆,梁婧.云計(jì)算與物聯(lián)網(wǎng)技術(shù)的數(shù)據(jù)挖掘分析[J].電子世界,2022(2):28?29+32.
[2]王艷雨,劉萍.基于云計(jì)算與物聯(lián)網(wǎng)技術(shù)的數(shù)據(jù)挖掘分析[J].科技創(chuàng)新與應(yīng)用,2021,11(35):94?97.
[3]楊烈龍.基于云計(jì)算與物聯(lián)網(wǎng)技術(shù)的數(shù)據(jù)挖掘[J].中小企業(yè)管理與科技(下旬刊),2021(2):148?149.
[4]房悅.基于云計(jì)算與物聯(lián)網(wǎng)技術(shù)的數(shù)據(jù)挖掘分析[ J].粘接,2021,45(1):163?166.
[5]湯勇峰.基于云計(jì)算平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究[J].電腦知識與技術(shù),2017,13(7):218?219.
作者簡介:
陸煜(1983—),碩士,工程師,研究方向:物聯(lián)網(wǎng)產(chǎn)業(yè)和云計(jì)算產(chǎn)業(yè)的發(fā)展。