国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的大數(shù)據(jù)處理系統(tǒng)分析與研究

2020-07-09 22:13盧愛芬
現(xiàn)代信息科技 2020年2期
關(guān)鍵詞:大數(shù)據(jù)分析

摘? 要:針對當前很多醫(yī)院或者企業(yè)在面對龐大數(shù)據(jù)處理過程中存在能力缺乏的問題,研究提出基于Hadoop的數(shù)據(jù)分析系統(tǒng),該系統(tǒng)能夠用于醫(yī)院輔助診斷以及數(shù)據(jù)比較分析,同時該系統(tǒng)融合多節(jié)點分布式計算技術(shù),能夠依據(jù)醫(yī)院患者醫(yī)檢結(jié)果生成初步診斷結(jié)果,可顯著改善傳統(tǒng)醫(yī)療過程中數(shù)據(jù)信息處理效率較低的問題。

關(guān)鍵詞:Hadoop;大數(shù)據(jù)處理系統(tǒng);大數(shù)據(jù)分析

中圖分類號:TP311.13? ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)02-0109-03

Abstract:In view of the lack of ability of many hospitals or enterprises in the process of huge data processing,this paper proposes a data analysis system based on Hadoop,which can be used for hospital auxiliary diagnosis and data comparative analysis. At the same time,the system integrates multi node distributed computing technology,it can generate preliminary diagnosis results according to the medical examination results of the patients in the hospital,which can significantly improve the low efficiency of data information processing in the traditional medical process.

Keywords:Hadoop;big data processing system;big data analysis

0? 引? 言

近年來,互聯(lián)網(wǎng)技術(shù)以及計算機技術(shù)的發(fā)展,在一定程度上改變了人們的日常生活和工作方式,使人類社會逐漸進入了大數(shù)據(jù)時代,使醫(yī)療信息化逐漸加速,根據(jù)有關(guān)部門統(tǒng)計數(shù)據(jù)顯示,在2018年,我國醫(yī)療信息化建設(shè)共投入資金300多億元,同時多種醫(yī)療信息數(shù)據(jù)量擴大,且呈現(xiàn)爆炸增長的方式,過去主要是通過數(shù)據(jù)倉庫的方式進行儲存,相應(yīng)的醫(yī)院信息系統(tǒng)由于受到硬件等多種因素的影響,對于一些數(shù)據(jù)量較大的非結(jié)構(gòu)化數(shù)據(jù)在處理過程中很容易出現(xiàn)問題,無法獲得良好的儲存能力和計算效果。因此本研究在當前大數(shù)據(jù)背景下設(shè)計了Hadoop的數(shù)據(jù)分析系統(tǒng),能夠更好地幫助企業(yè)或者醫(yī)院實現(xiàn)數(shù)據(jù)整合加工和定性分析。

1? 大數(shù)據(jù)及其處理技術(shù)

最早的大數(shù)據(jù)是由全球麥肯錫公司提出的,大數(shù)據(jù)是指能夠超出常規(guī)數(shù)據(jù)庫或者數(shù)據(jù)處理能力,被迫采用一些非常規(guī)方式的數(shù)據(jù)集,同時大數(shù)據(jù)具備四大特點,包括較大的體量、處理速度較快、具有多種類別、具有較強的可靠性,能夠通過分布式可擴展儲存的方式實現(xiàn)數(shù)據(jù)的管理查詢,目前很多研究機構(gòu)雖然已經(jīng)具備大量數(shù)據(jù),然而由于缺乏高效分析手段,同時數(shù)據(jù)倉庫維護過程的成本逐漸升高,因此目前很多企業(yè)廣泛應(yīng)用基于Hadoop結(jié)構(gòu)的分布式文件系統(tǒng)。Hadoop是一種大規(guī)模數(shù)據(jù)處理的重要分布式系統(tǒng)架構(gòu),其核心為MapReduce編程以及HDFS的編程模式,其中HDFS是一種主/從式架構(gòu),具有較強的容錯性。在普通的PC端大量部署,進而能夠?qū)崿F(xiàn)多數(shù)據(jù)節(jié)點對大量數(shù)據(jù)集的分塊儲存有效管理,除此之外,HDFS能夠為系統(tǒng)提供一次訪問,寫入多次讀取的模式,確保數(shù)據(jù)一致性,能夠適用于當前處于大數(shù)據(jù)時代背景下高吞吐需求,而MAP和Reduce是由谷歌研發(fā)的一種重要分布式程序模型,是通過化簡和映射這兩個環(huán)節(jié)來實現(xiàn)大數(shù)據(jù)處理,首先在映射函數(shù)中不改變原有數(shù)據(jù)的前提下,能夠?qū)⒋笪募懈钚纬傻男∥募?gòu)建獨立元素實現(xiàn)逐步映射,并創(chuàng)建多種列表實現(xiàn)映射,將處理結(jié)果保存之后可以利用化簡函數(shù)將所映射出的文件根據(jù)函數(shù)值進行合并或者縮減,將大量不同結(jié)構(gòu)或不相關(guān)數(shù)據(jù)進行特征提取后,將結(jié)果保存至指定的途徑中。

2? 系統(tǒng)結(jié)構(gòu)設(shè)計

針對當前醫(yī)院實現(xiàn)數(shù)據(jù)信息化建設(shè)的情況,本研究提出的大數(shù)據(jù)分析系統(tǒng)框架主要由三個部分構(gòu)成,分別是數(shù)據(jù)層、訪問控制層和應(yīng)用層,其具體的系統(tǒng)結(jié)構(gòu)功能如下:在該結(jié)構(gòu)中,根據(jù)層次結(jié)構(gòu)原則,數(shù)據(jù)層是最底層,可將現(xiàn)有數(shù)據(jù)系統(tǒng)所提交的文件通過切割的方式保存至Hadoop數(shù)據(jù)節(jié)點中,進而能夠有效控制文件分片管理和負載;中間層為控制訪問層,主要是由命名節(jié)點命名各種文件和數(shù)據(jù)節(jié)點關(guān)系以及空間鏡像之間的關(guān)系,運算中心可以通過節(jié)點調(diào)取的方式提供重要的原數(shù)據(jù)信息,能夠?qū)υ瓟?shù)據(jù)進行映射化簡處理,指導(dǎo)相應(yīng)的文件進行讀寫,并將處理結(jié)果反饋到應(yīng)用層中;系統(tǒng)最高層為應(yīng)用層,可為用戶提供文件界面,窗口用戶通過該界面能夠下達訪問控制層指令,并接收系統(tǒng)最終提交的輔助診斷報告和分析結(jié)果。

3? 系統(tǒng)功能設(shè)計和實現(xiàn)

該系統(tǒng)與傳統(tǒng)的信息系統(tǒng),如果兩者能夠?qū)崿F(xiàn)協(xié)同運行,對現(xiàn)有單節(jié)點數(shù)據(jù)庫儲存多種數(shù)據(jù)方式及分布式儲存管理,通過運算中心調(diào)用的映射化簡算法,進而能夠?qū)嫶髷?shù)據(jù)實現(xiàn)高效分析處理,以及為醫(yī)生提供確切的輔助診斷信息。從數(shù)據(jù)儲存功能來看,數(shù)據(jù)層是安裝了一系列Linux系統(tǒng),由普通PC端和現(xiàn)有信息化系統(tǒng)數(shù)據(jù)庫共同構(gòu)成的,由于Hadoop分布式文件系統(tǒng)在眾多由PC端所構(gòu)成的節(jié)點群中運行,所以能夠?qū)υ袛?shù)據(jù)實現(xiàn)分布管理導(dǎo)入。

當前很多醫(yī)院采用的信息管理系統(tǒng)是由電子病歷系統(tǒng)、影像歸檔系統(tǒng)共同構(gòu)成的,其中電子病歷系統(tǒng)可用于患者基本情況檢查結(jié)果、診斷結(jié)果等一些結(jié)構(gòu)化數(shù)據(jù)的儲存,而影像歸檔系統(tǒng)可用于多種數(shù)字影像,聲音等非結(jié)構(gòu)化的數(shù)據(jù)的儲存。在Hadoop項目中,除了HDFS和映射化簡編程模型之外,還包括非結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)所構(gòu)架的hive以及非關(guān)系數(shù)據(jù)庫HBase,傳統(tǒng)數(shù)據(jù)儲存?zhèn)}庫與HDFS之間重要的數(shù)據(jù)導(dǎo)入工具及Sqoop等模塊。

在利用分布式處理原始醫(yī)療數(shù)據(jù)之前,首先需要進行節(jié)點命名并安裝HBase以及hive,利用Sqoop工具能夠?qū)⑺峁┑腏ava API與現(xiàn)有的數(shù)據(jù)庫進行有效連接,導(dǎo)入多種數(shù)據(jù)之后,判斷其是否屬于結(jié)構(gòu)化數(shù)據(jù),如果系統(tǒng)判斷其為結(jié)構(gòu)化數(shù)據(jù)時,可以利用Sqoop工具通過接口進行hive的連接,然后判斷數(shù)據(jù)查詢與數(shù)據(jù)對應(yīng)的列表是否存在,如果不存在則需要創(chuàng)建新表進行hive的儲存,如果該列表已經(jīng)存在,需要有系統(tǒng)自行判斷數(shù)據(jù)量是否超過額定值,如果沒有超過額定值可以直接進行儲存,如果超過需要進行分區(qū)再次存入。當所儲存的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)時,可以利用Sqoop工具通過JDBC接口與HBase進行連接,提交插入后得到請求響應(yīng)之后能夠?qū)ase表進行掃描和定位插入,同時實現(xiàn)時間設(shè)置,能夠?qū)?shù)據(jù)插入特定的HBase數(shù)據(jù)庫中,數(shù)據(jù)寫入HBase的具體步驟為:由客戶端開發(fā)庫啟動相應(yīng)的數(shù)據(jù)節(jié)點,并向上層命名節(jié)點發(fā)起請求,命名節(jié)點會檢查所創(chuàng)建的文件是否存在,或者具體創(chuàng)建人員的使用權(quán)限,一旦檢查成功會為其創(chuàng)建文件,如果檢查失敗會提出異常報警信息,當RPC獲得請求響應(yīng)之后,由客戶端開發(fā)庫將所需要寫入的文件切割成多種小文件,之后再向命名節(jié)點申請blocks,能夠?qū)DFS與本地文件數(shù)據(jù)快實現(xiàn)映射列表,并且通過報告的方式提交命名節(jié)點,該命名節(jié)點之后能夠向客戶端返回數(shù)據(jù)節(jié)點的配置信息,由客戶端根據(jù)節(jié)點地址IP管道的方式,按照順序?qū)懭胂鄳?yīng)的數(shù)據(jù)塊節(jié)點中,當HDFS寫入全部的原始數(shù)據(jù)后,命名節(jié)點能夠?qū)⑺袛?shù)據(jù)信息,包括文件屬性、塊列表、數(shù)據(jù)結(jié)點與列表之間文件之間的關(guān)系,提交到相應(yīng)的運算中心中,此時運算中心可以根據(jù)所設(shè)計的算法模式對該文件進行讀寫和分析。

在數(shù)據(jù)儲存以及數(shù)據(jù)庫設(shè)計過程中,基于Hadoop的大數(shù)據(jù)分析系統(tǒng)在數(shù)據(jù)儲存過程中主要利用HBase數(shù)據(jù)庫,同時在儲存數(shù)據(jù)庫時能夠按照一定標準完成數(shù)據(jù)庫設(shè)計,為后續(xù)實現(xiàn)數(shù)據(jù)庫擴展奠定基礎(chǔ)。在hive數(shù)據(jù)庫中相對應(yīng)的數(shù)據(jù)表能夠按照內(nèi)部、外部表形式儲存,由于hive在內(nèi)部數(shù)據(jù)表創(chuàng)建過程中,可將目標數(shù)據(jù)信息移動到指定路徑,并刪除相對應(yīng)的內(nèi)部數(shù)據(jù),因此,這對于數(shù)據(jù)的錯誤操作保護以及安全性來說是有利的。本研究中我們按照用戶信息表創(chuàng)建進行hive儲存方式創(chuàng)建。具體的代碼如下所示:

Create? external? table? ? ?//創(chuàng)建外部數(shù)據(jù)存儲表

User_info(user_id? int , user_name? string ,

user_password? string )? ? ?//指定關(guān)鍵詞和存儲類型

Row? format? delimited? ? //指定行格式限定

Fields? terminated? by ,? ?//指定分隔符

Stored? as? textfile? ? ? ?//指定文件存儲類型

Location? ‘/data/report/ user_info;? ? //指定文件存儲位置

完成上述代碼執(zhí)行之后,需要將指定文件上傳到相對應(yīng)的文件夾中,然后系統(tǒng)能夠自動生成統(tǒng)一路徑,每一個hive儲存數(shù)據(jù)表有唯一路徑,在后續(xù)數(shù)據(jù)改變時只需要找到相對應(yīng)的文件夾就可完成操作。在數(shù)據(jù)庫部署過程中,大數(shù)據(jù)分析系統(tǒng)中數(shù)據(jù)庫選擇和充電是重要的環(huán)節(jié),數(shù)據(jù)庫是一種數(shù)據(jù)儲存的重要程序,其與API是一種獨立的且可用于數(shù)據(jù)的儲存訪問。在本研究中,我們以數(shù)據(jù)庫作為數(shù)據(jù)管理系統(tǒng),首先在數(shù)據(jù)庫安裝過程中,由于該數(shù)據(jù)系統(tǒng)屬于開源系統(tǒng),可以直接在網(wǎng)站下載,為便于數(shù)據(jù)庫服務(wù)器的后期管理,實現(xiàn)用戶訪問控制和數(shù)據(jù)庫查詢,本研究,我們采用的是MySQL RPM版本完成數(shù)據(jù)庫安裝,需要檢查其是否可正常運行,通過執(zhí)行代碼ps-efl grep mysql確認其安裝的正確性,如果無法正常運行,則需要啟動下列指令:root@host# cd/usr/bin./safe_mysqld。在數(shù)據(jù)庫管理方面,為便于實現(xiàn)數(shù)據(jù)庫管理,需要添加數(shù)據(jù)庫用戶,通過改指令實現(xiàn)數(shù)據(jù)庫啟動,利用Database changed開啟寫入功能,利用寫入修改后的用戶信息,包括用戶種類、賬戶、密碼等,同時需要指定用戶權(quán)限,將其作為數(shù)據(jù)庫的管理員,包含選擇、升級等多種權(quán)限,完成用戶設(shè)定之后,可以利用選擇鍵對數(shù)據(jù)庫信息進行查詢。除這些方法之外也可以采用GRANT的方式實現(xiàn)用戶設(shè)置。在數(shù)據(jù)庫的鏈接中,可以安裝MySQL利用PHP的mysql_connect()指令實現(xiàn)數(shù)據(jù)庫鏈接,具體函數(shù)參數(shù)如表1所示。

當完成鏈接后會返回相應(yīng)標志,構(gòu)建數(shù)據(jù)庫連接之后需要以下指令[(用戶名)@host]#mysql-u root-p,實現(xiàn)數(shù)據(jù)庫用戶的指定,完成連接后會返回鏈接信息。用戶使用結(jié)束之后可以根據(jù)指令實現(xiàn)終端連接或者鏈接關(guān)閉。

4? 輔助診斷和數(shù)據(jù)功能的設(shè)計

在患者來醫(yī)院就診的過程中,通常需要開展一系列的醫(yī)療檢查,由于不同患者體質(zhì)不同,對于同一疾病在檢查過程中也會根據(jù)患者檢查中成像數(shù)據(jù)差異進行自動診斷,因此當患者接受醫(yī)療檢查之后,還需要經(jīng)過一段時間入院觀察才能夠確定最終疾病類型。具體算法順序為:首先在映射算法上,工作人員需要打開患者的電子病歷文件,并且能夠確定文件是非空集,未結(jié)束則采取循環(huán)字符串讀取的方式到變量str中,如果str為年齡,Then數(shù)據(jù)值為年齡值,當str為診斷結(jié)果時,value1為病癥名稱,我們可將(key1,value1)寫入相應(yīng)的中間文件中,如果str為診斷結(jié)果時,之后key2為病癥名稱,可以將(key2,value2)作為醫(yī)療數(shù)據(jù),可以修改str為病癥名稱和所對應(yīng)的醫(yī)療檢查項目,value2是該項目對應(yīng)的意見結(jié)果數(shù)據(jù),能夠?qū)⒃摬?yīng)的一些項目分別形成key2和value2,并寫入中間文件中。在化簡算法中需要首先創(chuàng)建hash表ht,當k值為整數(shù)時,key與key1對應(yīng)年齡段以及value1等于value+1,將其寫入ht中,當k值為字符串類型時,此時如果value大于max,那么則有max=value,如果當key為key2時,value等于max,則此時需要將(key,value)寫入hIt中,如果value低于min時,此時min等于value等于key2,value等于min,可以將ht中的每一個(key,value)寫入最終結(jié)果分析文件中,由于映射算法提供的key值與value存在不同數(shù)值類型,而hash table可用于多種類型的key和value值的識別,需要創(chuàng)建hash表可用于最終結(jié)果處理。該系統(tǒng)進行統(tǒng)計分析過程中,首先需要判斷所收到的配置是否為整數(shù),如果是整數(shù),需要按照數(shù)值大小依次排序并歸入對應(yīng)年齡中,然后對該年齡段和對應(yīng)癥狀構(gòu)成新的配置,判斷該值是否儲存于ht中,如果不存在則需要在ht中加入key值,如果已經(jīng)存在,需要將key值對應(yīng)的value值輸入,當接收到key值時,如果該值為字符串類型,判斷key對應(yīng)的value值是否高于目前max最大值,如果是,則需要將max替換為value,如果判斷key值對應(yīng)value值小于min最小值時,需要將min替代為value,反復(fù)進行數(shù)據(jù)比對,可實現(xiàn)某一疾病不同患者醫(yī)療檢查項目數(shù)據(jù)的匯總,最終能夠?qū)λ谢颊呒膊№椖繑?shù)據(jù)值區(qū)間進行提取,形成一種醫(yī)療輔助檢測模板。

5? 系統(tǒng)性能測試

為了能夠進一步測試該系統(tǒng)的運行效果,在本研究中共設(shè)置20個數(shù)據(jù)節(jié)點,隨機挑取不同年齡段的電子病例,共計5萬多份,實現(xiàn)數(shù)據(jù)統(tǒng)計分析,數(shù)據(jù)統(tǒng)計如表2所示。

最后與醫(yī)院現(xiàn)有的信息化數(shù)據(jù)庫進行比較,將該系統(tǒng)與原有系統(tǒng)利用函數(shù)記錄時間實現(xiàn)工作效率進行比較,在數(shù)據(jù)處理過程中兩種系統(tǒng)比較表如表3所示。

通過實驗我們可以發(fā)現(xiàn),隨著目前醫(yī)院電子病歷數(shù)量的增加,采用傳統(tǒng)單節(jié)點數(shù)據(jù)庫處理,耗時呈現(xiàn)線性關(guān)系,然而利用基于Hadoop的大數(shù)據(jù)分析處理系統(tǒng)時,在處理中采用分布式數(shù)據(jù)分析方法能夠顯著節(jié)約時間。

6? 結(jié)? 論

本研究提出了基于Hadoop的數(shù)據(jù)分析系統(tǒng),能夠?qū)υ撓到y(tǒng)工程進行分析設(shè)計,進而該系統(tǒng)運用到醫(yī)療系統(tǒng)時可為醫(yī)療輔助診斷提供可操作性的映射。簡化上,相比原系統(tǒng)來說能夠簡化診斷流程、實現(xiàn)龐大數(shù)據(jù)的快速處理。最后通過實驗驗證的方式證明該系統(tǒng)相比傳統(tǒng)單一節(jié)點數(shù)據(jù)庫具有較高的運行效率。

參考文獻:

[1] 陳臣.基于Hadoop的圖書館非結(jié)構(gòu)化大數(shù)據(jù)分析與決策系統(tǒng)研究 [J].情報科學(xué),2017,35(1):24-28.

[2] 王衛(wèi)鋒,楊林.基于Hadoop的郵政寄遞大數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn) [J].中國科學(xué)院大學(xué)學(xué)報,2017,34(3):395-400.

[3] 王麗紅,劉平,于光華.基于Hadoop的對俄貿(mào)易大數(shù)據(jù)分析系統(tǒng)研究 [J].電腦知識與技術(shù),2018,14(1):20-22.

作者簡介:盧愛芬(1975.09-),女,漢族,湖南郴州人,就職于軟件教研室,專任教師兼教研室主任,講師,研究生,碩士,研究方向:軟件工程。

猜你喜歡
大數(shù)據(jù)分析
大數(shù)據(jù)分析對提高教學(xué)管理質(zhì)量的作用
基于大數(shù)據(jù)分析的電力通信設(shè)備檢修影響業(yè)務(wù)自動分析平臺研究與應(yīng)用
面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
面向大數(shù)據(jù)分析的信息管理實踐教學(xué)體系構(gòu)建
傳媒變局中的人口電視欄目困境與創(chuàng)新