摘 要:文章基于當前電子政務(wù)平臺的數(shù)據(jù)存儲量越來越大,而這些數(shù)據(jù)又不能有效利用這一問題,設(shè)計了基于大數(shù)據(jù)的電子政務(wù)數(shù)據(jù)分析平臺,通過大數(shù)據(jù)技術(shù)的應(yīng)用,使電子政務(wù)平臺模塊大量數(shù)據(jù)資源得到更有效的利用,并借助數(shù)據(jù)分析和預(yù)測,了解各部門存在的問題,及時調(diào)整政策實施方向,提高政府決策效率。
關(guān)鍵詞:大數(shù)據(jù);電子政務(wù)系統(tǒng);數(shù)據(jù)分析
一、 大數(shù)據(jù)平臺介紹
大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的區(qū)別并不在于數(shù)據(jù)的形式,大數(shù)據(jù)所涉及的數(shù)據(jù),包括文本文件、音頻文件、圖像文件、影像文件等,其數(shù)據(jù)本身和傳統(tǒng)數(shù)據(jù)類型并沒有區(qū)別,所以,大數(shù)據(jù)學(xué)科主要是為了解決在當前某些計算資源條件下,傳統(tǒng)數(shù)據(jù)分析技術(shù)無法在指定時間內(nèi)處理的數(shù)據(jù)。
二、 電子政務(wù)系統(tǒng)大數(shù)據(jù)分析平臺所用技術(shù)
(一)云計算和分布式存儲
大數(shù)據(jù)的數(shù)據(jù)具有產(chǎn)生速度快、數(shù)據(jù)量龐大、數(shù)據(jù)類型繁雜等特點,如果應(yīng)用本地的存儲軟件,中心數(shù)據(jù)庫數(shù)據(jù)龐大,數(shù)據(jù)的查詢會變得困難,查詢速度會變慢,特別當多線程共同對同一個服務(wù)器進行數(shù)據(jù)查詢時候,數(shù)據(jù)庫中心負載太大,可能會造成數(shù)據(jù)處理效率變低。因此,現(xiàn)在采用分布式存儲技術(shù)來分割大量數(shù)據(jù),將不同的數(shù)據(jù)模塊存儲在不同的數(shù)據(jù)存儲服務(wù)器上,并使用不同的網(wǎng)絡(luò)接口來實現(xiàn)它們之間的數(shù)據(jù)同步,然后再將數(shù)據(jù)結(jié)果匯總返回到本地,可以加快存儲查詢,處理的速度,提高系統(tǒng)運行效率。
(二)Hadoop
Hadoop是目前大數(shù)據(jù)分析使用最廣泛的HDFS和MapReduce框架。是大數(shù)據(jù)處理的核心內(nèi)容。MapReduce,這個想法是使用哈希映射技術(shù)來首先分割大型數(shù)據(jù)源,使用Map將拆分出來的小塊數(shù)據(jù)進行單獨的工作單位進行處理。當Map處理完了之后。再通過Reduce模塊接收到Map得到的結(jié)果。將其匯總之后,輸出對整個大數(shù)據(jù)的分析結(jié)果。這種并行的小單元處理速度,因為它可以分割大量數(shù)據(jù)。提高了運算效率,使大數(shù)據(jù)的分析成為可能。
(三)數(shù)據(jù)可視化
數(shù)據(jù)可視化技術(shù)是指利用一些可視化報告的軟件,常見的如Tableau,PowerBI等,將大數(shù)據(jù)分析結(jié)果可視化,讓使用者可以快捷、直觀、高效的觀測出數(shù)據(jù)的結(jié)果,以及對結(jié)果進行更加智能化的分析、預(yù)測。
三、 需求分析
借助大數(shù)據(jù)對群眾的留言以及意見進行數(shù)據(jù)分析:基于大數(shù)據(jù)技術(shù),對網(wǎng)友在電子政務(wù)系統(tǒng)中的留言與意見進行采集,對電子政務(wù)系統(tǒng)收集的信息以不同的維度和顆粒度進行分析,從中獲取政府辦公現(xiàn)有模塊的不足之處,需要改進的地方,以及用于預(yù)測分析的具體問題。
借助大數(shù)據(jù)對政務(wù)部門業(yè)績進行多維度的考核與分析:為了推動政府服務(wù)人員的主觀能動性,收集平時各個業(yè)務(wù)部門的工作狀態(tài)數(shù)據(jù)。從而提高人民群眾的滿意度,促進政務(wù)部門的健康發(fā)展。
四、 大數(shù)據(jù)分析平臺功能實現(xiàn)
(一)電子政務(wù)平臺數(shù)據(jù)采集/清理
原先每個獨立的系統(tǒng)由于其有著自己獨有的應(yīng)用背景,往往每個系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一。為了實現(xiàn)大數(shù)據(jù)分析,首先,通過分析各個系統(tǒng)的數(shù)據(jù),了解不同系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)關(guān)系,可以對數(shù)據(jù)進行清理。提取標準規(guī)范,通過建立統(tǒng)一的數(shù)據(jù)接口共享電子政務(wù)系統(tǒng)各模塊的信息,并將各平臺的數(shù)據(jù)存儲在一個集中的數(shù)據(jù)分析云計算平臺中,用于后續(xù)的大數(shù)據(jù)分析功能使用。
(二)電子政務(wù)平臺數(shù)據(jù)處理
1. 借助Hadoop框架中的HDFS技術(shù),創(chuàng)建Distributed FileSystem對象,對電子政務(wù)系統(tǒng)數(shù)據(jù)集群中的NameNode節(jié)點的元數(shù)據(jù)發(fā)起下載的請求。拿到數(shù)據(jù)中臺返回的元數(shù)據(jù)文件以后對再通過創(chuàng)建FSDataInputStream服務(wù)對象,然后分別向電子政務(wù)系統(tǒng)數(shù)據(jù)集群下的子數(shù)據(jù)節(jié)點請求數(shù)據(jù),最后將所有子數(shù)據(jù)服務(wù)進行合并,得到最終的數(shù)據(jù)結(jié)果。
2. 借助Hadoop框架中的MapReduce技術(shù),獲取電子政務(wù)系統(tǒng)中待處理數(shù)據(jù)的信息,然后根據(jù)參數(shù)配置,形成一個任務(wù)分配的規(guī)劃。使用Job.Split和Job.xml文件提交切片信息,調(diào)用Yarn和RM計算出MapTask數(shù)量。然后使用Map函數(shù)對每個MapTask進行邏輯運算,將運算結(jié)果寫入到收集器中。所有MapTask任務(wù)完成后,啟動相應(yīng)數(shù)量的ReduceTask,并告知ReduceTask數(shù)據(jù)處理范圍(數(shù)據(jù)分區(qū))下載到本地存盤,進行合并文件、歸并排序。
(三)電子政務(wù)平臺數(shù)據(jù)分析展示
在大數(shù)據(jù)全部通過人工算法進行分析以后,隨后進行數(shù)據(jù)可視化系統(tǒng)的搭建,幫助人們可以通過最直觀的方式,直接觀察到大數(shù)據(jù)分析得到的結(jié)果。最后通過可視化數(shù)據(jù)分析的結(jié)果直觀的儀表板或以適當?shù)膱D片形式呈現(xiàn)。幫助政務(wù)處理人員更加快速的得到分析結(jié)果。
五、 結(jié)論
隨著國家對電子政務(wù)系統(tǒng)越來越重視,借用大數(shù)據(jù)技術(shù)構(gòu)建符合時代需求的電子政務(wù)平臺是新時代的發(fā)展方向。通過大數(shù)據(jù)技術(shù),構(gòu)建了電子政務(wù)數(shù)據(jù)分析平臺,實現(xiàn)了對政務(wù)部門的需求分析和績效分析,并借助數(shù)據(jù)展示平臺,幫助管理者快速發(fā)現(xiàn)現(xiàn)有系統(tǒng)中存在的問題,并提供數(shù)據(jù)參考解決方案,顯著提高政府處理政務(wù)的效率。
參考文獻:
[1]蘇勝軍.電子政務(wù)云平臺信息安全建設(shè)探討[J].中國新通信,2019,21(21):129.
作者簡介:
陳明杰,江蘇龍虎網(wǎng)信息科技股份有限公司。