◆李康
(成都三零盛安信息系統(tǒng)有限公司 四川 610031)
目前,大數(shù)據(jù)技術(shù)是廣泛應(yīng)用于各領(lǐng)域中的重要技術(shù)之一,通過(guò)處理與分析總體數(shù)據(jù)、關(guān)注事物之間存在的關(guān)聯(lián)性,分析預(yù)測(cè)出發(fā)展趨勢(shì)。大數(shù)據(jù)是由社交網(wǎng)絡(luò)、監(jiān)控設(shè)備、移動(dòng)計(jì)算、傳感器等信息源產(chǎn)生,數(shù)據(jù)來(lái)源具有復(fù)雜性、多樣性,對(duì)大數(shù)據(jù)技術(shù)運(yùn)行帶來(lái)較大的數(shù)據(jù)提取難度,也影響了大數(shù)據(jù)質(zhì)量。
大數(shù)據(jù)是指數(shù)據(jù)巨大,已經(jīng)無(wú)法通過(guò)人工方式合理化截取、管理、處理、整理。大數(shù)據(jù)類型多樣化,包括結(jié)構(gòu)、非結(jié)構(gòu)、半結(jié)構(gòu)數(shù)據(jù),還包含系統(tǒng)、傳感器、社交媒體產(chǎn)生的數(shù)據(jù)等。從數(shù)據(jù)格式角度,大數(shù)據(jù)還包括文本、圖片、數(shù)值、音頻、視頻等數(shù)據(jù)。為了實(shí)現(xiàn)大數(shù)據(jù)有效解讀,大數(shù)據(jù)技術(shù)、大數(shù)據(jù)平臺(tái)、大數(shù)據(jù)應(yīng)用被研發(fā)而出。根據(jù)大數(shù)據(jù)定義與特征,大數(shù)據(jù)質(zhì)量是指數(shù)據(jù)分析、處理、預(yù)測(cè)等過(guò)程滿足用戶需求。在處理大數(shù)據(jù)時(shí),處理流程如下:收集數(shù)據(jù)、預(yù)處理數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、分析與挖掘數(shù)據(jù)、展示數(shù)據(jù)、應(yīng)用大數(shù)據(jù)等。在此流程過(guò)程中,數(shù)據(jù)質(zhì)量貫穿于每個(gè)環(huán)節(jié)中。
1.2.1 數(shù)據(jù)真實(shí)性
大數(shù)據(jù)真實(shí)記錄了數(shù)據(jù)變化及運(yùn)行模式,顯示其原始質(zhì)量,體現(xiàn)在數(shù)據(jù)可信性、真實(shí)性、來(lái)源與信譽(yù)、有效性、可審計(jì)性等方面。大數(shù)據(jù)存在于虛擬網(wǎng)絡(luò)中,會(huì)受到惡意性攻擊,導(dǎo)致“數(shù)據(jù)產(chǎn)生污染”,影響決策結(jié)果,應(yīng)采取有效措施保證真實(shí)性與客觀性,保障大數(shù)據(jù)價(jià)值挖掘與趨勢(shì)預(yù)測(cè)的效果。
1.2.2 數(shù)據(jù)完整性
大數(shù)據(jù)采集具有完整性,體現(xiàn)在采集時(shí)間段完整、數(shù)據(jù)屬性值完備、數(shù)據(jù)值無(wú)缺失等。大數(shù)據(jù)運(yùn)行時(shí)能夠從大量數(shù)據(jù)甚至是海量數(shù)據(jù)中全面、完整地刻畫事物,分析出事物的本質(zhì)與規(guī)律,為用戶提供完整性的數(shù)據(jù)分析。
1.2.3 數(shù)據(jù)一致性
數(shù)據(jù)一致性是指同構(gòu)/異構(gòu)來(lái)源數(shù)據(jù)、格式、數(shù)據(jù)編碼具有一致性的特點(diǎn),能夠在預(yù)處理時(shí)應(yīng)用檢測(cè)技術(shù)過(guò)濾出不一致的數(shù)據(jù),保證數(shù)據(jù)一致性。實(shí)現(xiàn)數(shù)據(jù)一致性是保證數(shù)據(jù)準(zhǔn)確性的基礎(chǔ),也是保障結(jié)果質(zhì)量的重要元素。
1.2.4 數(shù)據(jù)準(zhǔn)確性
數(shù)據(jù)準(zhǔn)確性不只包括采集數(shù)據(jù)準(zhǔn)確性,還含有預(yù)處理數(shù)據(jù)準(zhǔn)確性、分析結(jié)果準(zhǔn)確性??梢?jiàn),數(shù)據(jù)準(zhǔn)確性是從采集數(shù)據(jù)開(kāi)始直至分析整個(gè)過(guò)程實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)確性。數(shù)據(jù)準(zhǔn)確性決定分析結(jié)果的價(jià)值,不同數(shù)據(jù)應(yīng)用的數(shù)據(jù)準(zhǔn)確度要求也不同,應(yīng)用目標(biāo)與決策需求決定的。
開(kāi)展數(shù)據(jù)分析工作時(shí),第一步要開(kāi)展數(shù)據(jù)收集工作。收集數(shù)據(jù)的來(lái)源不同,并且是由機(jī)器自動(dòng)生成,再利用網(wǎng)絡(luò)傳輸功能傳輸至指定位置。收集的數(shù)據(jù)內(nèi)容是由企業(yè)或者組織決定的,針對(duì)某種來(lái)源收集所需信息,比如用戶購(gòu)買的產(chǎn)品數(shù)據(jù),分析出某種產(chǎn)品的熱度等。在收集數(shù)據(jù)時(shí),可通過(guò)設(shè)備收集、Web“數(shù)據(jù)爬取”收集方式獲取。在數(shù)據(jù)收集過(guò)程中,對(duì)大數(shù)據(jù)質(zhì)量真實(shí)性、一致性、完整性、準(zhǔn)確性、時(shí)效性、安全性等會(huì)產(chǎn)生較大的影響。
2.1.1 數(shù)據(jù)源
數(shù)據(jù)源是影響大數(shù)據(jù)質(zhì)量的重要因素,體現(xiàn)在數(shù)據(jù)源來(lái)源于各種網(wǎng)站、系統(tǒng)、傳感器設(shè)備等,只有在安全運(yùn)行、避免惡意攻擊與篡改的條件下,才能保證大數(shù)據(jù)質(zhì)量。同時(shí),數(shù)據(jù)源運(yùn)行是否具有穩(wěn)定性、無(wú)間斷性,是保證大數(shù)據(jù)完整性的關(guān)鍵環(huán)節(jié)。不同數(shù)據(jù)源之間實(shí)現(xiàn)統(tǒng)一編碼與互相協(xié)調(diào)是實(shí)現(xiàn)同構(gòu)或者是異構(gòu)大數(shù)據(jù)一致性的重要條件,數(shù)據(jù)源之間要同步與協(xié)作??梢?jiàn),數(shù)據(jù)源是影響大數(shù)據(jù)真實(shí)性、完整性、一致性、準(zhǔn)確性和安全性的重要因素。
2.1.2 數(shù)據(jù)收集方式
收集方式?jīng)Q定著大數(shù)據(jù)時(shí)效性質(zhì)量,設(shè)備在收集數(shù)據(jù)時(shí)均收取實(shí)時(shí)數(shù)據(jù),采集、處理、分析方式為流式數(shù)據(jù)模式,保證時(shí)效性質(zhì)量。如果是Web數(shù)據(jù),收集方式為網(wǎng)絡(luò)爬蟲,需對(duì)爬蟲軟件設(shè)計(jì)時(shí)間,保證數(shù)據(jù)時(shí)效性質(zhì)量。因此,收集方式是影響時(shí)效性質(zhì)量的重要因素。
大數(shù)據(jù)技術(shù)運(yùn)行時(shí),會(huì)存在數(shù)據(jù)預(yù)處理環(huán)節(jié)。由于采集的多個(gè)數(shù)據(jù)源,比如文件系統(tǒng)、服務(wù)接口等會(huì)受到噪聲數(shù)據(jù)、沖突、缺失數(shù)據(jù)值的影響,會(huì)導(dǎo)致數(shù)據(jù)不準(zhǔn)確,通過(guò)預(yù)處理環(huán)節(jié)保障原始數(shù)據(jù)準(zhǔn)確性,進(jìn)而促進(jìn)分析與預(yù)測(cè)結(jié)果的準(zhǔn)確性與價(jià)值性。預(yù)處理的工作內(nèi)容是清理數(shù)據(jù)、集成數(shù)據(jù)、數(shù)據(jù)歸約、轉(zhuǎn)換數(shù)據(jù)等,數(shù)據(jù)清理技術(shù)可以檢測(cè)出不一致的數(shù)據(jù)、識(shí)別噪聲數(shù)據(jù)等,可保證大數(shù)據(jù)一致性、真實(shí)性、準(zhǔn)確性、可用性;數(shù)據(jù)集成的工作內(nèi)容是集成多個(gè)數(shù)據(jù)源數(shù)據(jù),形成集中、統(tǒng)一數(shù)據(jù)庫(kù)等,保障大數(shù)據(jù)完整性、安全性、一致性、可用性;數(shù)據(jù)歸約是降低規(guī)模的重要措施,簡(jiǎn)化數(shù)據(jù)處理過(guò)程,并且不會(huì)對(duì)分析結(jié)果準(zhǔn)確性產(chǎn)生影響;轉(zhuǎn)換數(shù)據(jù)是利用規(guī)則或者元數(shù)據(jù)轉(zhuǎn)換、模型與學(xué)習(xí)轉(zhuǎn)換等技術(shù)轉(zhuǎn)換數(shù)據(jù)并統(tǒng)一化,可提高大數(shù)據(jù)一致性與可用性。可見(jiàn),數(shù)據(jù)預(yù)處理是影響大數(shù)據(jù)質(zhì)量的關(guān)鍵因素。
大數(shù)據(jù)處理應(yīng)用的是分布式技術(shù),需根據(jù)存儲(chǔ)形式與業(yè)務(wù)數(shù)據(jù)開(kāi)展。在處理大數(shù)據(jù)時(shí)計(jì)算模型包括MapReduce分布式計(jì)算框架、內(nèi)存計(jì)算系統(tǒng)、流計(jì)算系統(tǒng)等。MapReduce屬于批處理數(shù)據(jù)的過(guò)程,能夠分析與處理海量數(shù)據(jù),適合應(yīng)用于各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理工作中;應(yīng)用內(nèi)存計(jì)算系統(tǒng)能夠縮減數(shù)據(jù)讀寫與移動(dòng)開(kāi)銷的次數(shù),提升處理性能;流計(jì)算系統(tǒng)實(shí)時(shí)處理數(shù)據(jù)流,保證大數(shù)據(jù)時(shí)效性與價(jià)值性??梢?jiàn),任意處理技術(shù)對(duì)大數(shù)據(jù)質(zhì)量都會(huì)產(chǎn)生較大的影響力。
在采集數(shù)據(jù)時(shí),特別是采集他人數(shù)據(jù)時(shí),企業(yè)應(yīng)避免敏感信息的收集、統(tǒng)計(jì),還要保護(hù)用戶的隱私。同時(shí),收集到數(shù)據(jù)信息后應(yīng)辨別與驗(yàn)證數(shù)據(jù)來(lái)源,保障數(shù)據(jù)具備真實(shí)性與有效性。
在存儲(chǔ)環(huán)節(jié)可借鑒傳統(tǒng)信息技術(shù)手段,實(shí)現(xiàn)數(shù)據(jù)具備可用性、完整性、私密性要求。比如,采取設(shè)置冗余方式保證數(shù)據(jù)可用性、應(yīng)用校驗(yàn)技術(shù)達(dá)到數(shù)據(jù)完整性、利用訪問(wèn)控制技術(shù)與安全審計(jì)功能提高數(shù)據(jù)安全性等。
在管理采集數(shù)據(jù)、預(yù)處理工作、存儲(chǔ)數(shù)據(jù)、處理與分析環(huán)節(jié)、可視化時(shí),應(yīng)注重全局管理與不同環(huán)節(jié)之間的協(xié)調(diào)與連貫管理,比如在存儲(chǔ)數(shù)據(jù)時(shí)應(yīng)注重存儲(chǔ)形式,選擇的數(shù)據(jù)處理系統(tǒng)是否能夠有效分析處理采取到的數(shù)據(jù)類型,還要考慮是否能夠達(dá)到準(zhǔn)確性與可用性的要求,優(yōu)化大數(shù)據(jù)質(zhì)量。
綜上所述,大數(shù)據(jù)技術(shù)是當(dāng)下先進(jìn)的技術(shù)之一,企業(yè)應(yīng)注重大數(shù)據(jù)技術(shù)的應(yīng)用,保障大數(shù)據(jù)質(zhì)量,從而不斷開(kāi)發(fā)與分析大數(shù)據(jù),獲取最有價(jià)值的信息應(yīng)用于發(fā)展決策中,從而得到最大的成功。
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2020年8期