郭子英
(北京化工大學(xué) 北京市 100029)
隨著信息化技術(shù)的迭代發(fā)展,各個(gè)領(lǐng)域都已經(jīng)開始運(yùn)用信息化技術(shù),使用數(shù)據(jù)信息的數(shù)量和種類越來(lái)越多。在當(dāng)前的時(shí)代背景下,數(shù)據(jù)獲取數(shù)量與途徑呈現(xiàn)出幾何增長(zhǎng)趨勢(shì),降低了數(shù)據(jù)獲取的成本。但是面對(duì)龐大的數(shù)據(jù),如何分析和利用成為一項(xiàng)難題。為了在繁雜的信息當(dāng)中挖掘出具有價(jià)值的信息,需要應(yīng)用大數(shù)據(jù)分析與挖掘技術(shù),構(gòu)建出信息管理系統(tǒng),使各項(xiàng)數(shù)據(jù)能夠發(fā)揮出更高的價(jià)值,推動(dòng)社會(huì)各行業(yè)領(lǐng)域高質(zhì)量發(fā)展。
在大數(shù)據(jù)時(shí)代,為了更好地利用各類信息與數(shù)據(jù),需要選擇相應(yīng)的大數(shù)據(jù)技術(shù),獲取具有價(jià)值的信息。目前,大數(shù)據(jù)主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、數(shù)據(jù)挖掘以及結(jié)果呈現(xiàn)幾項(xiàng)技術(shù)(如圖1所示)。
圖1:大數(shù)據(jù)技術(shù)主要種類
在數(shù)據(jù)采集過(guò)程中,通常會(huì)運(yùn)用到多個(gè)數(shù)據(jù)庫(kù),接受來(lái)自客戶端或者傳感器途徑的信息。但是這樣的大數(shù)據(jù)采集工作具有一定的難度,主要是受到了并發(fā)性高的影響。在某個(gè)特定時(shí)間段,一個(gè)網(wǎng)站的并發(fā)訪問(wèn)量很可能是其他時(shí)間段的幾倍或者幾十倍。這對(duì)網(wǎng)站系統(tǒng)造成了沉重的壓力,甚至?xí)?dǎo)致網(wǎng)站運(yùn)行系統(tǒng)的崩潰。為了促進(jìn)大數(shù)據(jù)的有效分析,應(yīng)當(dāng)將各項(xiàng)數(shù)據(jù)上傳至一個(gè)大型分布式數(shù)據(jù)庫(kù)當(dāng)中,或者導(dǎo)入到分布式存儲(chǔ)集群內(nèi)。在數(shù)據(jù)傳輸導(dǎo)入的過(guò)程中應(yīng)當(dāng)進(jìn)行篩選和甄別處理,除去雜亂、無(wú)價(jià)值的信息數(shù)據(jù),實(shí)現(xiàn)預(yù)處理的作用?;ヂ?lián)網(wǎng)企事業(yè)為了提升數(shù)據(jù)采集工作質(zhì)量,都具有自己的系統(tǒng)日志數(shù)據(jù)采集工具,例如Hadoop 的Chukwa,以及Facebook 的scribe 等。這些數(shù)據(jù)采集工具為分布式架構(gòu),能夠滿足數(shù)百M(fèi)BPS 的日志數(shù)據(jù)采集和傳輸需求,保證運(yùn)行過(guò)程的通暢。在對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行采集的時(shí)候,經(jīng)常會(huì)選擇網(wǎng)絡(luò)爬蟲或者網(wǎng)站公開API,能夠?qū)⒕W(wǎng)頁(yè)中的音頻、視頻、圖片、文字等非結(jié)構(gòu)化數(shù)據(jù)抽取出來(lái),并且將其轉(zhuǎn)化為結(jié)構(gòu)化的形式,對(duì)其進(jìn)行統(tǒng)一存儲(chǔ)。在對(duì)網(wǎng)絡(luò)流量進(jìn)行采集的時(shí)候,可以運(yùn)用DPI、DFI 等帶寬管理技術(shù),具有一定的精準(zhǔn)度和高效性。
在完成了數(shù)據(jù)收集之后,需要將繁多的數(shù)據(jù)進(jìn)行合理的存儲(chǔ)?;ヂ?lián)網(wǎng)企事業(yè)在存取數(shù)據(jù)的過(guò)程中,經(jīng)常會(huì)采用PostgreSQL。PostgreSQL在設(shè)計(jì)的時(shí)候主要是為了滿足OLTP交互型的相關(guān)要求,使其能夠?qū)崿F(xiàn)人機(jī)會(huì)話功能。除了PostgreSQL 之外,一些互聯(lián)網(wǎng)企事業(yè)也會(huì)應(yīng)用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),常見的形式為Oracle,這項(xiàng)技術(shù)能夠在數(shù)據(jù)多次修改、增減操作中具有明顯的優(yōu)勢(shì),具有較高的效率。但是也具有一定的缺陷,那就是在數(shù)據(jù)統(tǒng)計(jì)、分析過(guò)程中效率比較低,不能夠帶來(lái)理想的工作效果。針對(duì)這種情況,一些企事業(yè)開始嘗試Teradata,選擇MPP 架構(gòu),以軟硬一體機(jī)的形式呈交給客戶。
大數(shù)據(jù)會(huì)在網(wǎng)絡(luò)系統(tǒng)中添加多個(gè)節(jié)點(diǎn)服務(wù)器來(lái)達(dá)到均衡計(jì)算的目的,屬于一種橫向擴(kuò)展結(jié)構(gòu),不屬于服務(wù)器硬件的縱向擴(kuò)展結(jié)構(gòu)。在運(yùn)用大數(shù)據(jù)技術(shù)的過(guò)程中,一些企事業(yè)在數(shù)據(jù)歸檔和備份過(guò)程中,數(shù)據(jù)冗余已經(jīng)達(dá)到了90%以上,這樣會(huì)嚴(yán)重影響到數(shù)據(jù)系統(tǒng)的運(yùn)行效率。因此,應(yīng)當(dāng)采取有效的措施,將數(shù)據(jù)系統(tǒng)中的各類重復(fù)數(shù)據(jù)進(jìn)行刪除。在這個(gè)過(guò)程中,分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)擁有較強(qiáng)的作用,它是由元數(shù)據(jù)服務(wù)器、客戶端以及數(shù)據(jù)服務(wù)器組建而成。元數(shù)據(jù)服務(wù)器承擔(dān)著元數(shù)據(jù)的維護(hù)和存儲(chǔ)任務(wù),客戶端則是為文件的操作提供操作接口,并且對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理。數(shù)據(jù)服務(wù)器需要啟動(dòng)重引擎,將繁多的數(shù)據(jù)進(jìn)行梳理分類匯總,將其進(jìn)行有效的存儲(chǔ)和管理。
為了讓各類數(shù)據(jù)信息釋放出自身的價(jià)值,需要將收集到的數(shù)據(jù)進(jìn)行歸納,展開深入的分析與處理,釋放數(shù)據(jù)信息的運(yùn)用價(jià)值。在處理數(shù)據(jù)的過(guò)程中,需要結(jié)合應(yīng)用需求來(lái)選擇處理方式,將數(shù)據(jù)導(dǎo)入到相應(yīng)的數(shù)據(jù)模型當(dāng)中,使其能夠?qū)崿F(xiàn)預(yù)測(cè)功能。大數(shù)據(jù)處理技術(shù)最初是源于Google 的Hadoop 數(shù)據(jù)處理架構(gòu)。這個(gè)數(shù)據(jù)處理架構(gòu)具有較高的效率,能夠?qū)崿F(xiàn)千兆字節(jié)數(shù)據(jù)的處理。而在這個(gè)數(shù)據(jù)處理架構(gòu)當(dāng)中,MapRe-suce 算法以及分布式文件系統(tǒng)HDFS 都是他們的關(guān)鍵部分,具有難以替代的作用。當(dāng)數(shù)據(jù)處理任務(wù)出現(xiàn)差錯(cuò)到時(shí)任務(wù)失敗時(shí),可以自動(dòng)重新布置計(jì)算任務(wù)。但是在這個(gè)處理架構(gòu)當(dāng)中,容易因任務(wù)內(nèi)串行、鏈?zhǔn)嚼速M(fèi)情況多,中間結(jié)果不支持分享等情況導(dǎo)致整體效率低下,并且編程較為復(fù)雜。skytree 結(jié)合機(jī)器學(xué)習(xí)算法,能夠?qū)A繑?shù)據(jù)進(jìn)行快速的分析,滿足企事業(yè)大數(shù)據(jù)高級(jí)分析的需求,目前,已經(jīng)被運(yùn)用于異常識(shí)別、預(yù)測(cè)分析、市場(chǎng)細(xì)分、相似性搜索等領(lǐng)域當(dāng)中。Spark 通用并行計(jì)算框架是將MapReduxe算法實(shí)現(xiàn)的分布式計(jì)算作為基礎(chǔ),它會(huì)將中間數(shù)據(jù)放在內(nèi)存當(dāng)中,能夠帶來(lái)良好的迭代運(yùn)算效果,準(zhǔn)確度也較為可靠,非常適合用于迭代計(jì)算需求較多的數(shù)據(jù)處理架構(gòu)當(dāng)中。
為了讓海量數(shù)據(jù)的應(yīng)有價(jià)值得以充分釋放,需要在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,選擇合適的算法進(jìn)行計(jì)算,了解數(shù)據(jù)信息潛在價(jià)值,實(shí)現(xiàn)數(shù)據(jù)分析和預(yù)測(cè)的效果,更好的滿足高級(jí)別數(shù)據(jù)分析的需求。目前,數(shù)據(jù)挖掘算法在大數(shù)據(jù)技術(shù)中具有重要的作用,是整個(gè)大數(shù)據(jù)分析理論的核心部分。隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,數(shù)據(jù)挖掘算法也衍生出了不同的種類。在當(dāng)前階段,應(yīng)用較為廣泛的算法有Kmeans算法、SVM 算法、NaciveBayes 算法。數(shù)據(jù)挖掘技術(shù)在發(fā)展的過(guò)程中也面對(duì)嚴(yán)峻的挑戰(zhàn),因?yàn)閿?shù)據(jù)分析挖掘過(guò)程中會(huì)涉及到不同的算法,算法具有一定的復(fù)雜性,使算法的應(yīng)用于選擇具有較高難度。數(shù)據(jù)挖掘計(jì)算過(guò)程中需要面對(duì)較大的數(shù)據(jù)規(guī)模,計(jì)算量也大,為數(shù)據(jù)挖掘處理工作增加了難度。不同類型的數(shù)據(jù)挖掘算法需要根據(jù)數(shù)據(jù)類型和數(shù)據(jù)格式,對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行深入分析研究,發(fā)現(xiàn)數(shù)據(jù)深層的價(jià)值,全面表達(dá)數(shù)據(jù)本身的特性與價(jià)值。
對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與分析,得到相應(yīng)的數(shù)據(jù)處理結(jié)果,應(yīng)當(dāng)選擇適合的方式將其直觀、可視化地呈現(xiàn)出來(lái),發(fā)揮出大數(shù)據(jù)技術(shù)的價(jià)值。在對(duì)數(shù)據(jù)處理結(jié)果進(jìn)行呈現(xiàn)的過(guò)程中,應(yīng)當(dāng)應(yīng)用適合的數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng),制定和設(shè)計(jì)算法,將各項(xiàng)數(shù)據(jù)的指標(biāo)和維度進(jìn)行梳理。根據(jù)主題以及體系將各類數(shù)據(jù)隱藏的關(guān)系進(jìn)行連接。完成數(shù)據(jù)處理結(jié)果之后,可以將其以柱形圖、餅狀圖、地理信息圖等數(shù)據(jù)形式展現(xiàn)出來(lái),或者通過(guò)圖像的大小、形狀、顏色、亮度等方式借助大屏展示功能,實(shí)現(xiàn)數(shù)據(jù)結(jié)果的超清輸出,并且支持觸控交互,能夠?qū)Ω黜?xiàng)數(shù)據(jù)展開多維定性分析研究。將數(shù)據(jù)分析結(jié)構(gòu)通過(guò)不同的角度展現(xiàn)出來(lái),使用者能夠更加全面的掌握數(shù)據(jù)變化趨勢(shì),了解數(shù)據(jù)之間的比例關(guān)系,分析各項(xiàng)數(shù)據(jù)之間的關(guān)聯(lián)性。正確掌握數(shù)據(jù)深層次隱藏的規(guī)律,使數(shù)據(jù)內(nèi)部的價(jià)值得以科學(xué)有效的應(yīng)用。
大數(shù)據(jù)的信息系統(tǒng)所具備的功能存在一定的差別,系統(tǒng)架構(gòu)具有復(fù)雜多變的特點(diǎn)。對(duì)于大數(shù)據(jù)信息系統(tǒng)中所涉及到的重要技術(shù),大致可分為以下幾種:分別是分布式大數(shù)據(jù)存儲(chǔ)技術(shù)、分布式大數(shù)據(jù)處理技術(shù)以及海量數(shù)據(jù)運(yùn)算與管理技術(shù)。
在系統(tǒng)當(dāng)中,數(shù)據(jù)的存儲(chǔ)與管理是大數(shù)據(jù)應(yīng)用的基礎(chǔ)功能。傳統(tǒng)的數(shù)據(jù)文件管理系統(tǒng)已經(jīng)不能夠滿足當(dāng)前的使用需求。因此,大數(shù)據(jù)信息系統(tǒng)需要結(jié)合當(dāng)前的實(shí)際需求以及實(shí)際的應(yīng)用方式。對(duì)文件管理技術(shù)進(jìn)行合理的設(shè)計(jì)與分析。目前,應(yīng)用較為廣泛且技術(shù)較為成熟的技術(shù)為分布式文件管理系統(tǒng)技術(shù)。這項(xiàng)技術(shù)主要面向具有海量用戶的互聯(lián)網(wǎng)企事業(yè)當(dāng)中。GFS 文件管理系統(tǒng)是由谷歌提出并且開發(fā)的一類數(shù)據(jù)文件管理技術(shù),這項(xiàng)技術(shù)能夠?yàn)榱畠r(jià)服務(wù)器搭建一個(gè)可以實(shí)現(xiàn)擴(kuò)展的文件管理系統(tǒng),將繁多的數(shù)據(jù)存儲(chǔ)于多個(gè)服務(wù)器當(dāng)中,使其能夠得到更好的管理與應(yīng)用。這項(xiàng)管理基礎(chǔ)可以實(shí)現(xiàn)分塊儲(chǔ)存、關(guān)聯(lián)鏈接、追加更新等功能。但是這項(xiàng)技術(shù)也存在一定的限制,在對(duì)大文件進(jìn)行管理和存儲(chǔ)的過(guò)程中存在一定的不足。為了解決這樣的情況,多個(gè)類GFS件管理系統(tǒng)已經(jīng)得到了開發(fā)與利用,將其運(yùn)用到大數(shù)據(jù)管理當(dāng)中。這類技術(shù)能夠增加緩沖層,使用內(nèi)存加載部分元數(shù)據(jù)的方式,提高數(shù)據(jù)存儲(chǔ)以及讀取的效率,大大提升了工作質(zhì)量,推進(jìn)大數(shù)據(jù)文件管理系統(tǒng)進(jìn)入集群管理階段。
大數(shù)據(jù)服務(wù)會(huì)將繁多、雜亂的數(shù)據(jù)進(jìn)行分析處理,為使用者帶來(lái)更加便捷的數(shù)據(jù)服務(wù)。在分布式處理系統(tǒng)當(dāng)中,主要應(yīng)用了批處理技術(shù)、流處理技術(shù)兩種數(shù)據(jù)處理技術(shù)。在批處理技術(shù)當(dāng)中,會(huì)將各項(xiàng)數(shù)據(jù)進(jìn)行整合歸納,將其進(jìn)行存儲(chǔ)。隨后根據(jù)數(shù)據(jù)處理需求將一整個(gè)數(shù)據(jù)劃分成多個(gè)數(shù)據(jù)塊,將這些數(shù)據(jù)塊分別交給不同處理器進(jìn)行處理。在這樣的數(shù)據(jù)處理過(guò)程中,降低了數(shù)據(jù)之間的關(guān)聯(lián)性,同時(shí)加強(qiáng)了數(shù)據(jù)的可調(diào)度性,提升了數(shù)據(jù)的集群性。這項(xiàng)技術(shù)的核心部分為數(shù)據(jù)的劃分方式、分配方式和處理技術(shù)。在此過(guò)程中,如果某個(gè)環(huán)節(jié)存在披露,那么將會(huì)影響到整個(gè)數(shù)據(jù)分析處理的結(jié)果。流處理技術(shù)則是需處理的大數(shù)據(jù)當(dāng)做一個(gè)不間斷的流,實(shí)時(shí)將各項(xiàng)數(shù)據(jù)劃入到處理系統(tǒng)當(dāng)中對(duì)其進(jìn)行深入研究分析并且反饋結(jié)果。流處理技術(shù)的應(yīng)用能夠促進(jìn)數(shù)據(jù)處理時(shí)效性的提升。通過(guò)合理運(yùn)用這兩項(xiàng)技術(shù),達(dá)到了有效提升數(shù)據(jù)處理效率和質(zhì)量,將繁瑣的數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)管理,挖掘數(shù)倍背后隱藏的內(nèi)容。針對(duì)不同的文件選擇不同的分布式數(shù)據(jù)處理技術(shù),優(yōu)化數(shù)據(jù)處理模式,使得數(shù)據(jù)處理技術(shù)充分發(fā)揮有效作用。
傳統(tǒng)的數(shù)據(jù)庫(kù)通常是關(guān)系型數(shù)據(jù)庫(kù),這類數(shù)據(jù)庫(kù)在對(duì)規(guī)模性,多樣性以及低價(jià)值密度性的大數(shù)據(jù)處理過(guò)程中,會(huì)存在明顯的缺陷與不足。為了提升大數(shù)據(jù)處理預(yù)期效果,應(yīng)當(dāng)結(jié)合實(shí)際需求,采取更簡(jiǎn)單便捷的數(shù)據(jù)庫(kù)模型。例如,Bigtable技術(shù),會(huì)將所需處理的數(shù)據(jù)信息當(dāng)做字符串,不會(huì)對(duì)這些字符串進(jìn)行解釋,這樣能夠讓所管理的數(shù)據(jù)呈現(xiàn)出結(jié)構(gòu)化特征或者半結(jié)構(gòu)化特征。這樣一來(lái),數(shù)據(jù)庫(kù)系統(tǒng)也就更加簡(jiǎn)化。除了Bigtable技術(shù)之外,Dynamo技術(shù)所運(yùn)用的分布式哈希表、鍵值存儲(chǔ)以及向量時(shí)鐘等技術(shù)也能夠?qū)崿F(xiàn)大數(shù)據(jù)庫(kù)系統(tǒng)的高效管理。隨著數(shù)據(jù)庫(kù)系統(tǒng)的高速發(fā)展,推動(dòng)了關(guān)系型數(shù)據(jù)的進(jìn)步,令NoSQLogic 數(shù)據(jù)庫(kù)得到了發(fā)展與應(yīng)用提升。這個(gè)數(shù)據(jù)庫(kù)能夠?qū)崿F(xiàn)模式智能化,對(duì)應(yīng)用程序的接口等進(jìn)行了優(yōu)化改進(jìn),進(jìn)而達(dá)到更好的科學(xué)應(yīng)用效果。為了促進(jìn)數(shù)據(jù)庫(kù)功能效果的提升,需要及時(shí)進(jìn)行優(yōu)化與改進(jìn)。借助分布式數(shù)據(jù)庫(kù)系統(tǒng),對(duì)各項(xiàng)數(shù)據(jù)進(jìn)行處理與分析。結(jié)合數(shù)據(jù)庫(kù)模型來(lái)處理繁雜的數(shù)據(jù)信息,對(duì)各項(xiàng)數(shù)據(jù)實(shí)現(xiàn)規(guī)范化、科學(xué)化管理,從而達(dá)到預(yù)期效益。
為了讓大數(shù)據(jù)技術(shù)在信息系統(tǒng)中得到更好的運(yùn)用,需要清楚了解大數(shù)據(jù)技術(shù)的特點(diǎn),并且正確掌握基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)分析。大數(shù)據(jù)技術(shù)具有廣闊的發(fā)展前景,科學(xué)進(jìn)行大數(shù)據(jù)分析、處理工作,挖掘數(shù)據(jù)內(nèi)部隱藏的價(jià)值,提供更加精準(zhǔn)可行的策略,為社會(huì)信息化發(fā)展提供支撐與保障。