国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分布式云計(jì)算架構(gòu)在區(qū)域醫(yī)療大數(shù)據(jù)分析中的優(yōu)化研究

2021-08-24 01:46顏冰冰
智慧健康 2021年19期
關(guān)鍵詞:日志分布式架構(gòu)

顏冰冰

(蘇州市立醫(yī)院北區(qū) 信息科,江蘇 蘇州 215000)

0 引言

在醫(yī)療信息化不斷深入的背景之下,原本較為單一的數(shù)據(jù)信息也逐步變得更為多元化,這也給相關(guān)技術(shù)人員的處理利用提出了更高的要求,因此做好區(qū)域醫(yī)療數(shù)據(jù)信息的整合工作就顯得尤為重要。這一舉措不單單能夠有效推動(dòng)醫(yī)療數(shù)據(jù)更為標(biāo)準(zhǔn)化與規(guī)范化,也能夠?qū)崿F(xiàn)單一數(shù)據(jù)的有機(jī)融合以及從多個(gè)維度來進(jìn)行分析匯總,進(jìn)而為相關(guān)工作提供數(shù)據(jù)上的支持。

1 分布式云計(jì)算在醫(yī)療大數(shù)據(jù)分析中的架構(gòu)

1.1 整合架構(gòu)的設(shè)計(jì)

分布式云計(jì)算整體架構(gòu)如圖1所示。

圖1 整體架構(gòu)設(shè)計(jì)示意圖

客戶節(jié)點(diǎn)包含了主流配置的兩臺(tái)物理服務(wù)器,并對(duì)其進(jìn)行了內(nèi)存容量的提升,醫(yī)療終端節(jié)點(diǎn)中的數(shù)據(jù)量分別由redis數(shù)據(jù)庫、Tomcat服務(wù)、Nginx反向代理服務(wù)進(jìn)行儲(chǔ)存或利用,被架設(shè)于邊界防火墻之中,所使用的帶寬都不低于100M。每個(gè)醫(yī)療終端節(jié)點(diǎn)都和百度云分布式平臺(tái)中的服務(wù)節(jié)點(diǎn)相連接,不同節(jié)點(diǎn)之間能夠智能協(xié)同,且每個(gè)節(jié)點(diǎn)所采取的代碼相同,能夠執(zhí)行在不同的引擎之中[1]。通過這一方式,無需明確Bigflow的實(shí)際計(jì)算與運(yùn)行部位,只需要按照單機(jī)程序的編寫來獲取獨(dú)特的邏輯,就會(huì)讓Bigflow將這些計(jì)算分發(fā)到相應(yīng)的執(zhí)行引擎之上執(zhí)行。Bigflow的目標(biāo)是為了使分布式程序更簡(jiǎn)單,高效,維護(hù)更容易,遷移成本更小,進(jìn)而實(shí)現(xiàn)分布式從架構(gòu)到代碼的環(huán)節(jié)盡可能精簡(jiǎn)的目的。在每個(gè)服務(wù)節(jié)點(diǎn)之間會(huì)按照線路建議申請(qǐng)電信運(yùn)營(yíng)商級(jí)別的CN2線路,以此來保障網(wǎng)絡(luò)性能高速且穩(wěn)定,同時(shí)實(shí)現(xiàn)最短最優(yōu)通訊,具體如圖2所示。

圖2 百度云數(shù)據(jù)中心城域網(wǎng)CN2干線

分布式計(jì)算核心節(jié)點(diǎn)由master和多個(gè)slave虛擬化服務(wù)器單元組成,單元操作系統(tǒng)Cetos7.0.Hadoop+HBase+Spark+Hive為主要組件環(huán)境搭建,并由keepalived組件協(xié)調(diào)各個(gè)核心節(jié)點(diǎn)做主備切換及負(fù)載均衡調(diào)優(yōu),其中最主要計(jì)算組件單元為MapReduce,能夠分布式并行并設(shè)計(jì)出計(jì)算編程模型。

1.2 分布式日志審計(jì)系統(tǒng)

分布式日志審計(jì)系統(tǒng)主要是為了讓醫(yī)療大數(shù)據(jù)在處理各類信息時(shí)能夠更為順暢,通過該系統(tǒng)的應(yīng)用,可以實(shí)現(xiàn)日志分析與處理這一根本目的。分布式日志主要包含了Web應(yīng)用訪問日志、系統(tǒng)日志等,可以有效對(duì)日志中所存在的攻擊行為進(jìn)行精準(zhǔn)定位并分類,這樣一來安全管理人員以及運(yùn)維工作人員就能夠收獲到加固應(yīng)用及事后追溯的關(guān)鍵依據(jù)。在進(jìn)行分析時(shí)會(huì)出現(xiàn)數(shù)量眾多的日志,醫(yī)療云計(jì)算就會(huì)將其儲(chǔ)存至相應(yīng)的服務(wù)器之中,并為其添加一定的權(quán)限,只有已經(jīng)授權(quán)的用戶才能夠進(jìn)行訪問,有效防止隱私數(shù)據(jù)泄露這類現(xiàn)象的出現(xiàn)。分布式日志審計(jì)系統(tǒng)主要包含了采集層、計(jì)算層、匯聚層、數(shù)據(jù)可視化以及數(shù)據(jù)存儲(chǔ)層,日志的采集與分類具體流程如下:通過syslog來分布式收集海量日志,并將其傳輸?shù)絝lume-NG層,以此來統(tǒng)一分發(fā)日志[2]。當(dāng)flume采集系統(tǒng)成功采集數(shù)據(jù)信息之后,就會(huì)將其匯聚到kafka層,并對(duì)其進(jìn)行隊(duì)列化處理,讓日志數(shù)據(jù)信息在傳輸?shù)倪^程之中更為穩(wěn)定。接著利用分布式計(jì)算集群strom來全面分析與處理日志,定位存在著跨站校本(XSS)、暴力破解登錄、sql注入、目錄遍歷這類攻擊行為的日志,并統(tǒng)計(jì)、儲(chǔ)存、預(yù)警、可視化結(jié)果。利用RESTful API來部署syslog,從而快速下載配置文件,為各類服務(wù)的提供奠定基礎(chǔ)。通過SSL/TLS協(xié)議來完成對(duì)數(shù)據(jù)信息的加密,以此來確保數(shù)據(jù)信息具備較強(qiáng)的機(jī)密性以及完整性。

1.3 分布式入侵檢測(cè)

入侵檢測(cè)主要包含了主機(jī)層入侵檢測(cè)(HIDS)、物理層入侵檢測(cè)以及網(wǎng)絡(luò)層入侵檢測(cè)(NIDS)。在傳統(tǒng)設(shè)備之中,要想完成對(duì)IDS的部署,必須依賴交換機(jī)所提供的鏡像流量,如若用戶數(shù)量較多,那么就要保證鏡像流量分屬于不同的端口。在醫(yī)療大數(shù)據(jù)云計(jì)算之中,能夠通過各類軟件的應(yīng)用來上移控制平面,將安全策略自動(dòng)派發(fā)至子系統(tǒng),通過SDN技術(shù)來完成流量調(diào)度,利用SDN控制器來將FLOW_MOD指令下發(fā)給Open vSwitch這類網(wǎng)絡(luò)設(shè)備,這樣一來就能夠有效控制匹配策略的相關(guān)流量[3]。而要想在私有性較高的云計(jì)算之中完成HIDS,就必須部署agent來全方位監(jiān)控云主機(jī),有效識(shí)別、記錄并預(yù)警主機(jī)用戶的可疑行為、基線安全以及系統(tǒng)文件的完整性。

1.4 分布式應(yīng)用防火墻

通過反向搭建這一手段能夠有效部署分布式應(yīng)用防火墻,而要想部署反向代理vWAF,主要采取了以下幾種方式:第一,利用SDN控制器來將FLOW_MOD指令下發(fā),并把Web服務(wù)器的HTTP在虛擬網(wǎng)關(guān)之中完成與交換機(jī)端口的流量定向,這樣一來就能夠?qū)WAF作為關(guān)鍵端口。因?yàn)橐话闶菍eb應(yīng)用服務(wù)器地址作為HTTP流量目的IP,但反向代理vWAF并不會(huì)對(duì)這類流量進(jìn)行處理,所以必須要對(duì)目的地址進(jìn)行重新定向,利用iptables來轉(zhuǎn)發(fā)相關(guān)流量,這樣才能夠讓分布式應(yīng)用防火墻的作用得以充分的發(fā)揮[4]。第二,利用nginx來反向代理分布式應(yīng)用,讓反向代理服務(wù)器能夠收獲相應(yīng)的流量,這樣一來就能夠?qū)崿F(xiàn)上佳的安全防護(hù)效果。Web應(yīng)用會(huì)將nginx作為對(duì)外發(fā)布的主要途徑,通過在nginx層部署防護(hù)引擎和安全防護(hù)規(guī)則,可采用Modsecurity作為vWAF的防護(hù)引擎,并部署OWASP開源防護(hù)規(guī)則,這樣的部署方式能夠?qū)ginx層的應(yīng)用訪問日志通過agent傳輸至分布式日志審計(jì)系統(tǒng)中對(duì)日志進(jìn)行分析[5]。

1.5 身份認(rèn)證

Keystone作為openstack中的安全認(rèn)證模塊,通過API實(shí)現(xiàn)身份認(rèn)證、服務(wù)規(guī)則和服務(wù)令牌等功能。在f版本之前,openstack只能依賴UUID生成令牌ID,生成的令牌保存在Keystone的后臺(tái)數(shù)據(jù)庫中,并發(fā)布到客戶端。在客戶機(jī)擁有ID之后,Keystone將驗(yàn)證請(qǐng)求的合法性。這種方式可能導(dǎo)致請(qǐng)求并發(fā),從而使Keystone成為性能的瓶頸[6]。在f版本之后,在密鑰石中引入了PKI機(jī)制。通過將CA的公鑰證書和用戶簽名的公鑰證書存儲(chǔ)在服務(wù)器上,可以對(duì)令牌進(jìn)行本地驗(yàn)證,可以有效解決密鑰問題,同時(shí)只要用戶不丟失私鑰,其他用戶就無法竊取和冒充合法用戶,大大提高了系統(tǒng)的安全性openstack的整體安全性。為了在醫(yī)學(xué)云中實(shí)現(xiàn)AAA認(rèn)證,我們可以使用輕量級(jí)目錄訪問協(xié)議(LDAP協(xié)議)結(jié)合Keystone集成,通過Keystone的LDAP身份驅(qū)動(dòng)程序使用安裝的LDAP服務(wù)器。Keystone可以從第三方LDAP服務(wù)器獲取統(tǒng)一管理用戶,完成open stack的操作。Keystone與tenant、US-Er、role和其他概念兼容。通過LDAP服務(wù)對(duì)賬戶進(jìn)行驗(yàn)證,實(shí)現(xiàn)企業(yè)和組織內(nèi)部的統(tǒng)一認(rèn)證[7]。

2 分布式云計(jì)算架構(gòu)優(yōu)化方式

結(jié)合上文可知,要想對(duì)分布式云計(jì)算架構(gòu)進(jìn)行優(yōu)化,最為關(guān)鍵的便是改善MapReduce組件,具體流程如圖3所示。

圖3 MapReduce組件優(yōu)化流程

具體而言,Mapeduce組件優(yōu)化主要包含了數(shù)據(jù)輸入問題、Map階段、Reduce階段、ID傳輸問題以及數(shù)據(jù)傾斜問題這幾個(gè)環(huán)節(jié),其中數(shù)據(jù)輸入問題主要是進(jìn)行小文件的合并,并讓MAP任務(wù)速度得以加快,具體做法是將Combine Text ImputFornat作為主要輸入;Map階段主要是對(duì)Spill的次數(shù)進(jìn)行減少,以此來實(shí)現(xiàn)磁盤IO降低的目的,具體做法是調(diào)整io.sort.factor的參數(shù),并讓Merge的文件數(shù)目得以增大;Reduce階段主要是適量設(shè)定Map與Reduce的數(shù)值,具體做法是讓Map與Reduce能夠共存,并對(duì)slovstart.completedmaps的參數(shù)進(jìn)行調(diào)整;IO傳輸問題主要是為了完成smappy與LZO壓縮編碼器的安裝,具體做法是使用SequenceFlie這類二進(jìn)制文件;數(shù)據(jù)傾斜問題主要是為了實(shí)現(xiàn)抽樣和范圍分區(qū),具體做法是結(jié)合實(shí)際情況來自定義分區(qū)[8]。

在完成優(yōu)化之后,計(jì)算機(jī)的性能也出現(xiàn)了一定的變化,主要體現(xiàn)在數(shù)據(jù)頻率傾斜在某一個(gè)區(qū)域的數(shù)據(jù)量要遠(yuǎn)遠(yuǎn)大于其他區(qū)域,而數(shù)據(jù)大小傾斜在某一個(gè)區(qū)域的大小遠(yuǎn)遠(yuǎn)大于平均值[9]。

3 優(yōu)化結(jié)果測(cè)試分析

針對(duì)優(yōu)化后的分布式云計(jì)算架構(gòu)主要是對(duì)其進(jìn)行壓力測(cè)試,所使用的軟件為http_load為輕量級(jí)高效測(cè)試工具,以下為操作系統(tǒng)安裝軟件:

#tar zxvf http_load-18mar2018.tar.gz

#cd http_load-18mar2018

#make &&make install

測(cè)試用法命令為:

http_load-p 并發(fā)進(jìn)程數(shù)-s時(shí)間URL文件

[root@localhost http-load]# http_loadp30-s10 url.txt

21 fetches,30 max parallel,907207 bytes,in 10.0001 seconds

43200.3 mean bytes/connection

2.09998 fetches/sec,90720 bytes/sec

msecs/connect:15.2955mean,17.253max,13.701min

msecs/first-response:968.356mean,3807.22max,42.817min

HTTP response codes:

code 200——21

從中能夠看出測(cè)試中共進(jìn)行了864次請(qǐng)求,最大的并發(fā)進(jìn)程數(shù)是921,總傳輸58647207bytes,運(yùn)行22.0001s。平均每次請(qǐng)求傳輸數(shù)據(jù)量863210.3,實(shí)際就等于總傳輸/請(qǐng)求次數(shù),每秒響應(yīng)請(qǐng)求數(shù)為12.09998,每秒傳遞數(shù)據(jù)為270720,連接的平均時(shí)間為1.2955ms,最大的響應(yīng)時(shí)間為17.253ms,最小的響應(yīng)時(shí)間為19.701ms,響應(yīng)的平均時(shí)間為968.356ms,最大的響應(yīng)時(shí)間為3807.22ms,最小的響應(yīng)時(shí)間49.817ms,最后服務(wù)器會(huì)將各類狀態(tài)碼數(shù)量正確返回,此處全部是200正常返回(服務(wù)器撐不住時(shí)會(huì)有502返回)[10]。

4 結(jié)語

綜上所述,分布式云計(jì)算架構(gòu)在區(qū)域醫(yī)療大數(shù)據(jù)分析中有著至關(guān)重要的作用,不但能夠提升分析質(zhì)量及效率,還能夠有效保障分析結(jié)果的準(zhǔn)確性。通過以上各流程調(diào)試以及優(yōu)化完成分布式計(jì)算應(yīng)用平臺(tái)的建設(shè),旨在為醫(yī)療大數(shù)據(jù)技術(shù)的普及與推廣提供理論上的支持,進(jìn)而促進(jìn)醫(yī)療大數(shù)據(jù)在不斷擴(kuò)展和復(fù)雜的環(huán)境中得以更深的應(yīng)用和改進(jìn)。

猜你喜歡
日志分布式架構(gòu)
新一代分布式母線保護(hù)裝置
一名老黨員的工作日志
山西公布首批屋頂分布式光伏整縣推進(jìn)試點(diǎn)
分布式空戰(zhàn)仿真系統(tǒng)設(shè)計(jì)
功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
讀扶貧日志
基于深度學(xué)習(xí)的分布式安全日志分析方法
基于B/S架構(gòu)的圖書管理系統(tǒng)探究
構(gòu)建富有活力和效率的社會(huì)治理架構(gòu)
雅皮的心情日志
鲁山县| 永州市| 遂宁市| 梧州市| 泉州市| 景宁| 崇州市| 徐水县| 韶山市| 永平县| 湛江市| 怀柔区| 金寨县| 永城市| 沾益县| 错那县| 札达县| 桃源县| 郎溪县| 永修县| 安图县| 三明市| 池州市| 页游| 临澧县| 漳平市| 天津市| 许昌市| 泗水县| 海伦市| 类乌齐县| 苍南县| 盐边县| 无极县| 伊川县| 綦江县| 临洮县| 曲水县| 澄江县| 赫章县| 广宁县|