柏永榕
摘 要 隨著經(jīng)濟(jì)發(fā)展和社會(huì)進(jìn)步,數(shù)據(jù)和信息數(shù)量龐大和種類多樣的特點(diǎn)日趨明顯,傳統(tǒng)數(shù)據(jù)分析技術(shù)很難適應(yīng)現(xiàn)階段發(fā)展趨勢(shì),呈現(xiàn)出諸多弊端。因此,利用大數(shù)據(jù)信息系統(tǒng)關(guān)鍵技術(shù),推動(dòng)相關(guān)產(chǎn)業(yè)持續(xù)發(fā)展成為社會(huì)關(guān)注的焦點(diǎn)。本文基于上述背景對(duì)大數(shù)據(jù)技術(shù)進(jìn)行了簡(jiǎn)要概述,并探討了大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù),以期能順應(yīng)時(shí)代發(fā)展趨勢(shì),提升數(shù)據(jù)處理能力。
【關(guān)鍵詞】大數(shù)據(jù) 信息系統(tǒng) 關(guān)鍵技術(shù)
近年來(lái),信息技術(shù)發(fā)展迅速,對(duì)以移動(dòng)互聯(lián)網(wǎng)技術(shù)和云計(jì)算機(jī)技術(shù)為主的現(xiàn)代數(shù)字信息系統(tǒng)的發(fā)展起到重要的推動(dòng)作用,并使得信息獲取量及途徑呈現(xiàn)幾何增長(zhǎng)態(tài)勢(shì),同時(shí)降低了數(shù)據(jù)獲取與存儲(chǔ)的成本,極大提高了數(shù)據(jù)處理的有效性,為社會(huì)各行各業(yè)發(fā)展奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ)?;诖耍绾螌?shí)現(xiàn)從復(fù)雜的數(shù)據(jù)中提煉有效信息,進(jìn)而推動(dòng)相關(guān)產(chǎn)業(yè)發(fā)展成為社會(huì)關(guān)注的重點(diǎn),相關(guān)部門必須采取有效措施,保證當(dāng)前信息系統(tǒng)的高校運(yùn)行。
1 大數(shù)據(jù)技術(shù)概述
1.1 數(shù)據(jù)采集
在數(shù)據(jù)采集中,一般運(yùn)用多個(gè)數(shù)據(jù)庫(kù),以此接收來(lái)自客戶端或者傳感器等途徑的數(shù)據(jù),在具體采集中會(huì)面臨并發(fā)量較高的挑戰(zhàn),為了便于后續(xù)分析工作的有效開展,在采集中需要將數(shù)據(jù)導(dǎo)入分布式存儲(chǔ)集或者數(shù)據(jù)庫(kù)中,并在導(dǎo)入過程中進(jìn)行相應(yīng)的預(yù)處理。比如在互聯(lián)網(wǎng)企業(yè)中,多數(shù)企業(yè)均創(chuàng)建了諸如包含Ⅱadoop的cloudera的系統(tǒng)日志數(shù)據(jù)采集工具,采取分布式結(jié)構(gòu),以此滿足高并發(fā)量的日志數(shù)據(jù)采集需求,并實(shí)現(xiàn)有效的數(shù)據(jù)傳輸。
1.2 數(shù)據(jù)存儲(chǔ)
在數(shù)據(jù)存取方面,互聯(lián)網(wǎng)企業(yè)多采用PostgreSQL,其在設(shè)計(jì)中主要滿足OLTP交易型需求,進(jìn)而具備人機(jī)會(huì)話功能。也有很多企業(yè)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),其中以O(shè)racle較為常見,在頻繁的數(shù)據(jù)修改、增加和刪除操作中具有明顯優(yōu)勢(shì),但是在數(shù)據(jù)統(tǒng)計(jì)分析查詢方面效率較低。針對(duì)這一問題,很多公司選擇Teradata,主要利用MPP架構(gòu),在銷售過程中以軟硬一體機(jī)的形式呈現(xiàn)給客戶。
1.3 基礎(chǔ)架構(gòu)
在對(duì)大數(shù)據(jù)技術(shù)運(yùn)用中,很多企業(yè)指出在歸檔和備份過程中數(shù)據(jù)冗余度高達(dá)92%,必須采取有效措施高效刪除存儲(chǔ)系統(tǒng)中的重復(fù)數(shù)據(jù),其中分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)發(fā)揮了重要的作用,其主要由元數(shù)據(jù)服務(wù)器、客戶端和數(shù)據(jù)服務(wù)器組成,元數(shù)據(jù)服務(wù)器主要實(shí)現(xiàn)元數(shù)據(jù)的維護(hù)和儲(chǔ)存,而客戶端則在提供文件操作接口的同時(shí),實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理,數(shù)據(jù)服務(wù)器主要啟動(dòng)去重引擎,并對(duì)有效數(shù)據(jù)進(jìn)行儲(chǔ)存和管理。
1.4 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘必須以現(xiàn)有數(shù)據(jù)為基礎(chǔ),通過各類算法進(jìn)行計(jì)算,進(jìn)而起到預(yù)測(cè)效果,以此達(dá)到客戶高級(jí)別的數(shù)據(jù)分析要求。在大數(shù)據(jù)分析理論中,數(shù)據(jù)挖掘算法處于核心地位,但是由于挖掘算法復(fù)雜性較為明顯,且計(jì)算過程中涉及巨大的計(jì)算量,導(dǎo)致數(shù)據(jù)挖掘技術(shù)面臨研究挑戰(zhàn),在具體應(yīng)用中必須保證不同的算法對(duì)應(yīng)特定的數(shù)據(jù)類型及格式,進(jìn)而達(dá)到深入計(jì)算的效果。
1.5 結(jié)果呈現(xiàn)
在大數(shù)據(jù)技術(shù)應(yīng)用中,注重處理結(jié)果的直觀化和可視化,通過數(shù)據(jù)的分析與處理,能夠清楚地了解海量數(shù)據(jù)的維度和指標(biāo),進(jìn)而按照具體標(biāo)準(zhǔn)呈現(xiàn)復(fù)雜數(shù)據(jù)隱藏的關(guān)系。并且隨著技術(shù)的創(chuàng)新與發(fā)展,在數(shù)據(jù)輸出過程中出現(xiàn)了多屏聯(lián)動(dòng)、主從屏和自動(dòng)翻屏等功能,保證了輸出的清晰度,并在輸出中支持觸控交互操作,幫助客戶更好地了解數(shù)據(jù)的走勢(shì)與規(guī)律。
2 基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)探討
2.1 分布式文件管理
在大數(shù)據(jù)技術(shù)應(yīng)用中,數(shù)據(jù)的存儲(chǔ)和管理發(fā)揮著基礎(chǔ)性作用,現(xiàn)階段基于大數(shù)據(jù)信息系統(tǒng)而設(shè)計(jì)研發(fā)的分布式文件管理技術(shù)具有明顯的實(shí)用性,廣泛應(yīng)用于各大互聯(lián)網(wǎng)企業(yè)之中,以Google創(chuàng)設(shè)的GFS管理技術(shù)為例,其具有成本低廉的優(yōu)勢(shì),已成為使用量較大的服務(wù)器,為客戶建立了高效的文件管理系統(tǒng),并且具備較高的拓展性能。在這一系統(tǒng)中,很多數(shù)據(jù)存儲(chǔ)于不同的服務(wù)器之中,呈現(xiàn)分塊式的狀態(tài),客戶可利用追加更新和關(guān)聯(lián)連接的方式開展數(shù)據(jù)管理工作。
2.2 分布式數(shù)據(jù)處理
在大數(shù)據(jù)信息系統(tǒng)中,實(shí)現(xiàn)了對(duì)各類數(shù)據(jù)的封裝操作,基于此用戶可享受隨時(shí)、隨需且標(biāo)準(zhǔn)化的檢索與分析服務(wù)。例如在分布式數(shù)據(jù)處理系統(tǒng)中,主要采用流處理技術(shù)和批處理技術(shù),其中前者將大數(shù)據(jù)視作不間斷的流,對(duì)進(jìn)入系統(tǒng)的數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理,并及時(shí)返回結(jié)果,進(jìn)而提升了數(shù)據(jù)處理的及時(shí)性;而后者的核心則在于劃分?jǐn)?shù)據(jù)的方式、分配數(shù)據(jù)的方式和處理數(shù)據(jù)的技術(shù),該技術(shù)先存儲(chǔ)需要處理的數(shù)據(jù),再根據(jù)特定的分割方法,將數(shù)據(jù)分割為多個(gè)數(shù)據(jù)塊,接下來(lái)將各個(gè)數(shù)據(jù)塊分給不同的處理器進(jìn)行并行處理,進(jìn)而降低了數(shù)據(jù)的關(guān)聯(lián)關(guān)系,使得數(shù)據(jù)具有極高的集群性和可調(diào)度性。
2.3 分布式數(shù)據(jù)庫(kù)
通常情況下,傳統(tǒng)數(shù)據(jù)庫(kù)以關(guān)系型為主,考慮到大數(shù)據(jù)具有體量巨大,種類繁多的特點(diǎn),傳統(tǒng)類型的數(shù)據(jù)庫(kù)在數(shù)據(jù)處理時(shí)存在諸多弊端,并且大數(shù)據(jù)還具有價(jià)值密度低的特質(zhì),對(duì)數(shù)據(jù)庫(kù)本身提出了更高要求。因此在大數(shù)據(jù)處理中,必須建立新型的數(shù)據(jù)庫(kù)模式,其中分布式數(shù)據(jù)庫(kù)系統(tǒng)具有明顯的優(yōu)勢(shì),該系統(tǒng)模型簡(jiǎn)便,在數(shù)據(jù)管理中將數(shù)據(jù)視作字符串,并且在字符串解釋過程中采取間接手段,從而保證了數(shù)據(jù)的半結(jié)構(gòu)化特征,簡(jiǎn)化了整個(gè)數(shù)據(jù)庫(kù)的運(yùn)行程序,提高了數(shù)據(jù)處理效率。
3 結(jié)束語(yǔ)
綜上所述,大數(shù)據(jù)技術(shù)具有巨大的潛在價(jià)值,合理有效地開展大數(shù)據(jù)分析與處理工作,能夠幫助客戶了解數(shù)據(jù)背后的隱藏信息,進(jìn)而制定精準(zhǔn)且可行的決策,推動(dòng)社會(huì)各領(lǐng)域的信息化發(fā)展。
參考文獻(xiàn)
[1]禹祿君.基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)研究[J].湖南郵電職業(yè)技術(shù)學(xué)院學(xué)報(bào),2015(03):40-42.
[2]王本勝,殷階,朱旭,等.指揮信息系統(tǒng)大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)[J].指揮信息系統(tǒng)與技術(shù),2014,5(03):12-16.
[3]盧川英.大數(shù)據(jù)環(huán)境下的信息系統(tǒng)安全保障技術(shù)[J].價(jià)值工程,2016,35(04):188-190.
作者單位
中國(guó)電子科技集團(tuán)公司第二十八研究所 江蘇省南京市 210000