張淑杰
(華北理工大學(xué)附屬醫(yī)院,河北唐山,063000)
對(duì)于大數(shù)據(jù)分析平臺(tái)的構(gòu)建和應(yīng)用,儲(chǔ)存數(shù)據(jù)問(wèn)題的解決是第一要?jiǎng)?wù)。由于大數(shù)據(jù)技術(shù)所具有的特點(diǎn),必須要按照分布式的系統(tǒng)結(jié)構(gòu)建立分析平臺(tái),從用戶的多元化、個(gè)性化需求出發(fā),來(lái)設(shè)計(jì)具有多種數(shù)據(jù)收集管理的功能和方法。建立分布式文件系統(tǒng)需要對(duì)系統(tǒng)現(xiàn)有的資源進(jìn)行充分的運(yùn)用,也可以運(yùn)用其它可靠的方法來(lái)實(shí)現(xiàn)對(duì)信息數(shù)據(jù)的檢測(cè),以滿足用戶的多樣化需求。由于該兩種不同的數(shù)據(jù)服務(wù)類型,直接導(dǎo)致建立數(shù)據(jù)儲(chǔ)存結(jié)構(gòu)的難度增大。這是因?yàn)榇髷?shù)據(jù)中所擁有著海量的信息數(shù)據(jù)和多種格式的文檔圖表,這些大規(guī)模的信息存量都多屬于半結(jié)構(gòu)、非結(jié)構(gòu)類型,要想實(shí)現(xiàn)對(duì)這些信息數(shù)據(jù)的高效處理,必須要建立功能穩(wěn)定的儲(chǔ)存模塊。對(duì)于鍵值、圖表類型的數(shù)據(jù)的儲(chǔ)存,目前還未給予規(guī)范的說(shuō)明,因此,這里所建立的儲(chǔ)存模塊,也包括對(duì)此類型信息進(jìn)行的儲(chǔ)存,通過(guò)數(shù)據(jù)庫(kù)方式對(duì)圖標(biāo)和鍵值進(jìn)行處理,這樣可以與現(xiàn)今的網(wǎng)絡(luò)技術(shù)環(huán)境相適應(yīng)。與傳統(tǒng)的方法相比,數(shù)據(jù)庫(kù)的建立可以避免申請(qǐng)這道環(huán)節(jié),具有明顯的優(yōu)勢(shì)。
在互聯(lián)網(wǎng)技術(shù)環(huán)境下,數(shù)據(jù)的匯集量會(huì)不斷增多,因此,必須要有效促進(jìn)數(shù)據(jù)收集儲(chǔ)存的效率的提升。目前,所廣泛應(yīng)用的數(shù)據(jù)收集技術(shù)依然無(wú)法較好的滿足各類用戶的多樣化需求,并且存在著內(nèi)存消耗過(guò)大的問(wèn)題。而通過(guò)遠(yuǎn)程內(nèi)存訪問(wèn)協(xié)議技術(shù)的應(yīng)用能夠有效的提升數(shù)據(jù)測(cè)量的效率和質(zhì)量,并且有效解決了內(nèi)存消耗過(guò)大的難題。從大數(shù)據(jù)處理技術(shù)特點(diǎn)來(lái)看,符合應(yīng)有標(biāo)準(zhǔn)的數(shù)據(jù)收集方式是較為豐富的,通過(guò)數(shù)據(jù)流處理系統(tǒng)的建立,就能夠成功實(shí)現(xiàn)數(shù)據(jù)收集效率的提升,并且有效降低成本,讓信息價(jià)值得到最大化的發(fā)揮。
集云計(jì)算、分布式、儲(chǔ)存等多種功能為一體的大數(shù)據(jù)分析平臺(tái),信息數(shù)據(jù)的處理效率和質(zhì)量的提升都有了更加可靠的保證,對(duì)于云計(jì)算數(shù)據(jù)分析統(tǒng)一平臺(tái)的構(gòu)建,結(jié)構(gòu)框架主要包括三個(gè)方面:即頂層、中間層、數(shù)據(jù)層。其中,頂層主要涉及用戶接口子系統(tǒng)、工作流,中間層涉及數(shù)據(jù)預(yù)處理、并行數(shù)據(jù)子系統(tǒng);數(shù)據(jù)中心層則是云計(jì)算系統(tǒng)里中心數(shù)據(jù)儲(chǔ)存模塊。
此次設(shè)計(jì)的方法和要求說(shuō)明如下:第一,在企業(yè)內(nèi)建立一個(gè)統(tǒng)一的數(shù)據(jù)運(yùn)算平臺(tái);第二,企業(yè)管理人員可以對(duì)數(shù)據(jù)實(shí)例進(jìn)行直接控制;第三,以實(shí)體整合的方式實(shí)現(xiàn)對(duì)企業(yè)業(yè)績(jī)數(shù)據(jù)的訪問(wèn);第四,具有良好的擴(kuò)展性,能夠在配置低的狀態(tài)下平穩(wěn)運(yùn)行,有效降低投資風(fēng)險(xiǎn)。在云技術(shù)應(yīng)用環(huán)境下,計(jì)算機(jī)硬件配置具有良好的擴(kuò)展性和較高的性價(jià)比,才能確保大數(shù)據(jù)平臺(tái)的構(gòu)建具有低成本、高效益的效果,能夠支持PB級(jí)別和ZB級(jí)海量數(shù)據(jù)的儲(chǔ)存,并且支持對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)以及非結(jié)構(gòu)等多種類型數(shù)據(jù)的處理。以此同時(shí),數(shù)據(jù)統(tǒng)一分析平臺(tái)的構(gòu)建必須要充分發(fā)揮自身的價(jià)值,為企業(yè)帶來(lái)豐厚的經(jīng)濟(jì)效益,實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵就是要保證數(shù)據(jù)價(jià)值得到最大化的挖掘。在本文中,筆者對(duì)應(yīng)用云計(jì)算技術(shù)建立統(tǒng)一分析平臺(tái)所進(jìn)行的分析闡述,針對(duì)這項(xiàng)技術(shù)我們所運(yùn)用的數(shù)據(jù)庫(kù)存儲(chǔ),其中Map Reduce的結(jié)構(gòu)被重點(diǎn)運(yùn)用,同時(shí)設(shè)計(jì)人員也構(gòu)建了一個(gè)平臺(tái),來(lái)對(duì)相關(guān)機(jī)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化的數(shù)據(jù)、一些非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行相關(guān)的處理與分析,這個(gè)平臺(tái)在項(xiàng)目中的實(shí)際應(yīng)用,對(duì)所有客戶群體的信息數(shù)據(jù)進(jìn)行準(zhǔn)確高效的收集和分析,挖掘潛在的客戶群體,將是將數(shù)據(jù)價(jià)值變?yōu)榻?jīng)濟(jì)價(jià)值,用技術(shù)為企業(yè)創(chuàng)造更多的利潤(rùn)提供支持和保障。
(1)軟件結(jié)構(gòu)
對(duì)于Segment的主機(jī)而言,其中往往存在著很多的節(jié)點(diǎn),在Segment主機(jī)中存在著多個(gè)節(jié)點(diǎn),運(yùn)用互聯(lián)網(wǎng)技術(shù)將Segment主機(jī)、Master主機(jī)和相關(guān)數(shù)據(jù)庫(kù)進(jìn)行融合和連接。在網(wǎng)絡(luò)運(yùn)行過(guò)程中,每一個(gè)儲(chǔ)存節(jié)點(diǎn)之間不產(chǎn)生任何信息交換,他們的運(yùn)行狀態(tài)往往都是獨(dú)立進(jìn)行的。我們只有通過(guò)使用Master的一些相關(guān)功能才能讓整個(gè)的Segment的主機(jī)與其他的數(shù)據(jù)庫(kù)之間形成信息交換的這一功能,所有的運(yùn)用程序都要通過(guò)Master主機(jī)設(shè)置的權(quán)限來(lái)成功訪問(wèn)相關(guān)數(shù)據(jù)信息。每個(gè)節(jié)點(diǎn)在segment服務(wù)器中的運(yùn)行所具有的任務(wù)的相同的,在借助互聯(lián)網(wǎng)這一介質(zhì)將這些節(jié)點(diǎn)進(jìn)行了一個(gè)有效的連接之后,共同組成了服務(wù)器系統(tǒng)。服務(wù)器系統(tǒng)在運(yùn)行過(guò)程中,所有的節(jié)點(diǎn)保持著獨(dú)立的狀態(tài),不具備數(shù)據(jù)共享功能,其擁有的數(shù)據(jù)訪問(wèn)權(quán)限僅限于本地資源,正式憑借著這一獨(dú)特功能,為服務(wù)器良好擴(kuò)展提供了便利。從理論角度來(lái)講,服務(wù)器可以實(shí)現(xiàn)無(wú)限擴(kuò)展。但是,根據(jù)目前的技術(shù)支持來(lái)看,互聯(lián)網(wǎng)CPU的可承載數(shù)為千個(gè),節(jié)點(diǎn)可達(dá)到512個(gè)。在互聯(lián)網(wǎng)實(shí)現(xiàn)連接的前提下,所有節(jié)點(diǎn)直接可以穩(wěn)定完成數(shù)據(jù)的共享,并且在共享的過(guò)程中不會(huì)對(duì)對(duì)方的內(nèi)存進(jìn)行訪問(wèn),這個(gè)運(yùn)行過(guò)程我們可以將其稱為數(shù)據(jù)進(jìn)行一個(gè)重新的分配。
(2)設(shè)計(jì)的具有較高可用性的方案
在此次設(shè)計(jì)的方案中,Master主機(jī)采用“一主一備”的配置模式,用G(gigabit ethemet)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)對(duì)Segment主機(jī)和Master主機(jī)的有效連接,這樣的配置模式可以讓Segment主機(jī)同時(shí)具有兩種類型的數(shù)據(jù),即網(wǎng)段數(shù)據(jù)和備份網(wǎng)段數(shù)據(jù),從而有效提升的服務(wù)器系統(tǒng)運(yùn)行的穩(wěn)定性和可靠性。
(1)現(xiàn)有的,共享的結(jié)構(gòu)
在無(wú)交換的信息平臺(tái)架構(gòu)中,為了讓系統(tǒng)具備在線處理數(shù)據(jù)的功能,專門設(shè)計(jì)了通用性較強(qiáng)的數(shù)據(jù)庫(kù)、主機(jī)SAN/共享磁盤和磁盤SAN/FC網(wǎng)絡(luò),這種設(shè)計(jì)模式主要適用于小規(guī)模信息數(shù)據(jù)的查詢。在無(wú)交換數(shù)據(jù)平臺(tái)運(yùn)行體系下,用戶所具有的信息查詢需求,可以分成多個(gè)流程步驟在整個(gè)集群中完成統(tǒng)一的分析計(jì)算,用戶所具有的所有信息數(shù)據(jù)需求都可以在以互聯(lián)網(wǎng)高帶寬的運(yùn)行體系中快速實(shí)現(xiàn)。這種體系模式不僅具有簡(jiǎn)潔化的優(yōu)勢(shì),其中沒(méi)一個(gè)節(jié)點(diǎn)與本地磁盤中間均具有一個(gè)保持?jǐn)?shù)據(jù)獨(dú)立運(yùn)行的高速通道,從而為信息的高質(zhì)量、高效率處理提供了有力的支持與保障(如圖1所示)。
圖1 完全共享性架構(gòu)
(1)為保護(hù)數(shù)據(jù)的節(jié)點(diǎn)鏡像提供了強(qiáng)大保證
在云計(jì)算技術(shù)下的大數(shù)據(jù)分析平臺(tái)的運(yùn)行過(guò)程中,Master主機(jī)負(fù)責(zé)對(duì)最原始的信息數(shù)據(jù)進(jìn)行保存,在各節(jié)點(diǎn)位置處的Segment主機(jī)主要就是保存用戶的形象,通過(guò)鏡像技術(shù)的運(yùn)用,通過(guò)多個(gè)不同任務(wù)的Segment主機(jī)能夠?qū)︾R像數(shù)據(jù)進(jìn)行保存。這樣,如果Segment主機(jī)在運(yùn)行過(guò)程中發(fā)生損壞,負(fù)責(zé)鏡像數(shù)據(jù)保存的Segment主機(jī)可以將自身已保存的鏡像數(shù)據(jù)恢復(fù)到原來(lái)的數(shù)據(jù)庫(kù)系統(tǒng)中,有效保證了數(shù)據(jù)的安全性。
(2)外部表的快速加載
對(duì)于數(shù)據(jù)流的SQL而言我們可以通過(guò)外部表來(lái)進(jìn)行一個(gè)較為直接的操作,這樣操作有著非常明顯的優(yōu)點(diǎn),數(shù)據(jù)能夠進(jìn)行并行加載,其中加載的最高速度往往能夠達(dá)到4.5TB/小時(shí)的峰值。
(3)Map R educe&SQL
應(yīng)用云計(jì)算技術(shù)所建立的大數(shù)據(jù)分析平臺(tái)以Map R educe &SQL一體化的技術(shù)環(huán)境為保障,與傳統(tǒng)的編程理念所運(yùn)用的技術(shù)環(huán)境有著較大的差異,并且也與傳統(tǒng)的關(guān)系類型的數(shù)據(jù)庫(kù)系統(tǒng)有著本質(zhì)的區(qū)別。
(4)云計(jì)算平臺(tái)的私有性
要想使平臺(tái)的安全能夠較為穩(wěn)定的運(yùn)行,那么繼續(xù)用更加穩(wěn)定的服務(wù)器,為了確保運(yùn)行效果,此次設(shè)計(jì)采用了X86開放架構(gòu)的PC服務(wù)器,這種類型服務(wù)器具有非常明顯的優(yōu)勢(shì),不僅能夠快速安全的完成對(duì)數(shù)據(jù)分布式的儲(chǔ)存;而且還能夠穩(wěn)定支持?jǐn)?shù)據(jù)信息的大規(guī)模統(tǒng)一計(jì)算,從而使得較為棘手的I/O難題得到了有效的解決(如圖2所示)。
從以上的內(nèi)容中我們可以看出,由于我國(guó)近些年來(lái)高速發(fā)展的網(wǎng)絡(luò)信息技術(shù),大數(shù)據(jù)這項(xiàng)技術(shù)已經(jīng)充分的運(yùn)用到了各個(gè)行業(yè)之中,,大量新技術(shù)、新方案的涌現(xiàn)使得以大數(shù)據(jù)技術(shù)為核心的產(chǎn)品紛紛推向市場(chǎng)。在此趨勢(shì)和背景下,企業(yè)只有充分的運(yùn)用大數(shù)據(jù)技術(shù),才能適應(yīng)時(shí)代的發(fā)展,為企業(yè)創(chuàng)造更多的經(jīng)濟(jì)效益。本文,筆者對(duì)依靠云計(jì)算技術(shù)建立大數(shù)據(jù)分析平臺(tái)進(jìn)行了分析闡述,并且嘗試設(shè)計(jì)出了一套分析平臺(tái),該平臺(tái)能夠穩(wěn)定支持對(duì)結(jié)構(gòu)復(fù)雜、關(guān)聯(lián)度高的信息數(shù)據(jù)的高效準(zhǔn)確處理,并且這種設(shè)計(jì)模式還能夠很好的支持PB級(jí)別數(shù)據(jù)的處理,有效實(shí)現(xiàn)了信息數(shù)據(jù)處理的高效化、準(zhǔn)確化目標(biāo)。因此,在企業(yè)的大數(shù)據(jù)平臺(tái)構(gòu)建中具有較高的借鑒參考價(jià)值。