王衛(wèi)列,高 嵐
(1.國網(wǎng)電力科學研究院,江蘇省南京市 211106;2.國網(wǎng)電力科學研究院,江蘇省南京市 211106)
建設大壩監(jiān)測的大數(shù)據(jù)應避免的問題
王衛(wèi)列1,高 嵐2
(1.國網(wǎng)電力科學研究院,江蘇省南京市 211106;2.國網(wǎng)電力科學研究院,江蘇省南京市 211106)
目前國內(nèi)各個行業(yè)都在上大數(shù)據(jù)項目,大壩監(jiān)測行業(yè)也是一樣,但行業(yè)內(nèi)存在對大數(shù)據(jù)技術(shù)概念認識模糊的現(xiàn)象,在技術(shù)構(gòu)想方面有一些盲動現(xiàn)象。本文探討了大壩監(jiān)測大數(shù)據(jù)建設中可能存在的一些錯誤思路,希望能促進同行一起思考,避免走彎路。
大數(shù)據(jù);大壩監(jiān)測
無疑,大數(shù)據(jù)和云計算是當下IT的發(fā)展熱點,隨之國內(nèi)很多新的IT項目紛紛貼上了大數(shù)據(jù)和云計算的概念標簽,然而由于處于大數(shù)據(jù)系統(tǒng)的發(fā)展初期,各自對其的認識存在不同,不免會出現(xiàn)一些不成熟的發(fā)展思路,本文結(jié)合大壩安全監(jiān)測信息系統(tǒng)引入對大數(shù)據(jù)的展望,探索其發(fā)展過程中應避免的各種問題。
很多新大數(shù)據(jù)項目都聲稱將極大地提高決策和智能水平,然而仔細審視這些項目的內(nèi)容卻發(fā)現(xiàn)其實質(zhì)還屬于“新瓶裝老酒”,只是用大數(shù)據(jù)的概念裝飾了一下。
例如,建立某個數(shù)據(jù)中心,主要內(nèi)容是將多個工程現(xiàn)場的數(shù)據(jù)匯集到中心,然后在中心通過與工程現(xiàn)場相似的應用系統(tǒng)再分析處理這些數(shù)據(jù),其內(nèi)容實質(zhì)還是一個傳統(tǒng)的系統(tǒng),只是搬了個家,常常發(fā)現(xiàn)其挖掘的數(shù)據(jù)價值并沒有發(fā)生超越。
對這種系統(tǒng)我們應該有鑒別能力,避免國家的重復投資。
很多人認為有Hadoop(或其他類似系統(tǒng),如Spark等)就是大數(shù)據(jù)了,于是只重視創(chuàng)Hadoop系統(tǒng)然后將各路工程的數(shù)據(jù)匯入,然后聲稱實現(xiàn)了某大數(shù)據(jù)系統(tǒng),其實Hadoop只是解決了大規(guī)模存儲和并發(fā),雖然突破了大數(shù)據(jù)的幾個關(guān)鍵技術(shù)瓶頸,但遠遠不是大數(shù)據(jù)的全部,再者在并發(fā)和存儲方面Hadoop還不是唯一的解決方案。
驗證是否是大數(shù)據(jù),可以參考業(yè)界提出的4V特征,Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值),其中value是大數(shù)據(jù)的終極目標,也就是通過對大數(shù)據(jù)的分析來獲取以往傳統(tǒng)系統(tǒng)難以得到的有價值的信息,從而獲得巨大的經(jīng)濟和社會效益,如果只是停留在用Hadoop及類似系統(tǒng)解決了前3個V的話,那么這樣的大數(shù)據(jù)系統(tǒng)只是徒有其表。
以后在鑒別大數(shù)據(jù)系統(tǒng)的真?zhèn)螘r,不要被Hadoop之類的數(shù)據(jù)術(shù)語所遮目,要全面考量4V在系統(tǒng)中的必要性,尤其要看清能為我們帶來什么分析價值(即value)。
下面我們具體結(jié)合大壩監(jiān)測信息系統(tǒng)來分析是否符合4V特性。我們曾做過一次試驗,我們的在系統(tǒng)存儲了2億7000萬條測量數(shù)據(jù),一共花了140G存儲空間,這個數(shù)據(jù)規(guī)模相當于一天存入1萬條測量數(shù)據(jù)共使用了73年(通常情況下大壩測點每天就一條測量數(shù)據(jù)),顯然這種數(shù)據(jù)規(guī)模還遠沒有達到所謂的Volume問題(即使將多個大壩的測量數(shù)據(jù)匯聚到一起,注:這里不是說數(shù)據(jù)匯聚時直接使用工程中的原測量數(shù)據(jù),這里只是用這個細粒度的數(shù)據(jù)做一個規(guī)模估計);另外,我們系統(tǒng)僅僅供少數(shù)專業(yè)人士查看,所以其并發(fā)性要求很不高,如果與阿里巴巴、騰訊等系統(tǒng)相比,其Velocity要求實在是太低了;在Variety方面,大壩除了測量數(shù)據(jù)外,確實還會有一些非結(jié)構(gòu)化數(shù)據(jù)(如圖片、視頻等),但比起社交網(wǎng)絡形成的非結(jié)構(gòu)化數(shù)據(jù),其復雜度還相對比較低,對這些數(shù)據(jù),通過關(guān)系數(shù)據(jù)庫中的BLOB和xml字段也能應付,當然在這方面,今后可能會有所發(fā)展;在Value挖掘方面,如果使用原來的大壩監(jiān)測數(shù)據(jù),則其價值已經(jīng)被發(fā)掘得差不多了,在數(shù)據(jù)中心重復這樣的系統(tǒng),意義不大。
當然,我們不必為大壩監(jiān)測數(shù)據(jù)尚不滿足4V特性而去否定大壩數(shù)據(jù)在大數(shù)據(jù)建設中的作用,我們的眼光不能僅僅限制在自己的專業(yè)領(lǐng)域,大數(shù)據(jù)的價值發(fā)現(xiàn)一般是通過跨領(lǐng)域的數(shù)據(jù)挖掘產(chǎn)生,當大壩專業(yè)領(lǐng)域的安全監(jiān)測、施工管理等數(shù)據(jù)與水情水調(diào)、氣象、強震監(jiān)測、堤防監(jiān)測、防災應急等系統(tǒng)的數(shù)據(jù)進行聯(lián)合挖掘時,可以充分體現(xiàn)自身的價值(value),這方面是我們的空白,也是我們今后發(fā)展的方向。
常常有這樣的現(xiàn)象,在做大數(shù)據(jù)項目的計劃時,不管三七二十一,先把分布在各廠中的多個系統(tǒng)數(shù)據(jù)傳送到數(shù)據(jù)中心,如此缺少目的性的數(shù)據(jù)匯聚很容易形成數(shù)據(jù)垃圾,最后因做無用功而造成浪費。
我們建立大數(shù)據(jù)中心,一個很重要的目的是為了從數(shù)據(jù)中發(fā)現(xiàn)價值,而且是那些在我們已有系統(tǒng)中挖掘不出來的價值,這需要對跨領(lǐng)域、跨系統(tǒng)的數(shù)據(jù)進行分析才能獲得,在這個層面上看,似乎上述的數(shù)據(jù)匯聚方式是合理的,但答案是否定的。 因為任何一個數(shù)據(jù)分析問題都需要有針對性的數(shù)據(jù)建模,只有在我們確定具體分析目標后,才能決定哪個數(shù)據(jù)源中的哪些數(shù)據(jù)列是有效的,才能確定數(shù)據(jù)格式和粒度,才能考慮跨系統(tǒng)的數(shù)據(jù)維度如何統(tǒng)一,才能確立挖掘的數(shù)據(jù)模型如何建立,如此精細的數(shù)據(jù)需求不可能通過盲動的數(shù)據(jù)匯聚得到。有人說,可以先匯到中心,然后再慢慢抽?。‥TL),然而已建的子系統(tǒng)種類多、數(shù)據(jù)量大,無端消耗中心的大量存儲實難稱道,所以目的性不強的數(shù)據(jù)匯聚一定會浪費大量的人力、財力。當然,分析目標的確定不會一蹴而就,常常是一個反復迭代的過程,在其后的定義問題(確定分析目標)、數(shù)據(jù)準備、形成數(shù)據(jù)視圖、數(shù)據(jù)建模和部署發(fā)布的過程中都會根據(jù)實施過程中遇到的問題反復調(diào)整分析目標,然而這些都是目的性很強的活動,我們只是花了我們必須付出的代價,只有這樣才能最大程度地減少因盲動而造成的損失。
除了對大數(shù)據(jù)的認識程度以外,沒有確定分析目標(定義問題)的原因很大程度上是因為這項工作的確有難度,這需要業(yè)務決策人員和數(shù)據(jù)挖掘?qū)I(yè)人員深入進行溝通,我們常常遇到的情況是僅僅技術(shù)人員在那里空想,沒有對業(yè)務問題的深入理解,是不可能完成這項任務的,所以業(yè)務決策人員不要坐等系統(tǒng)完成后才介入。
業(yè)務決策人員可以從業(yè)務流程的角度去發(fā)現(xiàn)問題(決策時需要查詢的數(shù)據(jù)、預測、評估等),數(shù)據(jù)挖掘?qū)I(yè)人員則思考如何構(gòu)建數(shù)據(jù)模型,數(shù)據(jù)挖掘人員可以從技術(shù)角度提出一些問題來和業(yè)務人員溝通,另外定義問題的重點在跨系統(tǒng)的數(shù)據(jù)分析(單個系統(tǒng)能回答的問題無需數(shù)據(jù)中心來分析)。
這里舉個例子來說明如何確定分析目標,申明一下,可能所涉及的業(yè)務問題不一定正確,我們只是來模擬一個確定分析目標的過程,假設我們現(xiàn)在要做出的是:洪水來臨時,區(qū)域內(nèi)多個大壩的棄、保水決策,為了支持這個決策,需要系統(tǒng)能回答很多數(shù)據(jù)查詢和預測問題,如:目前的氣象條件以及保水策略下水庫水位的預測;在目前的水位和大壩的狀態(tài)下,升水速率限制什么范圍可保證大壩的安全?在目前的水位下,流域內(nèi)大壩聯(lián)動泄洪策略是否可保洪峰安全度過,泄洪時應該如何組織人力資源執(zhí)行應急預案,這些問題由業(yè)務決策人員根據(jù)自己的決策流程的需要來提出,數(shù)據(jù)分析專業(yè)人員會和業(yè)務決策人員反復溝通后分析需要哪些數(shù)據(jù)以及如何數(shù)據(jù)建模,這可能涉及氣象預測、洪水預報、大壩安全監(jiān)測和分析、流域三維數(shù)據(jù)、歷史泄洪水土流失數(shù)據(jù)、歷史泄洪形成的重大民事事件、應急預案、視頻監(jiān)控、汛期值班任務、人力資源、搶險器材庫存等數(shù)據(jù),需要雙方緊密合作來確定這些問題,然后由專業(yè)人員來采集數(shù)據(jù)、建模并實現(xiàn)所需的分析預測目標,如果相關(guān)基礎(chǔ)數(shù)據(jù)缺失,還可以提出相應的數(shù)據(jù)建設需求。
總之,盡管確定分析目標是困難的,但是這是我們大數(shù)據(jù)分析的出發(fā)點,必須從這里開始考慮。
國內(nèi)某些單位常有這樣的習慣性思維,就是要搞什么系統(tǒng)就是委托第三方廠家研發(fā)一套,最后經(jīng)過安裝、培訓來接手這套系統(tǒng),然而如果要建的是具有大數(shù)據(jù)概念的數(shù)據(jù)中心,則需要改變這種思路??梢宰屑毩私庖幌乱延械拇髷?shù)據(jù)系統(tǒng)(阿里巴巴、騰訊、亞馬遜,Microsoft Azure),無一不是自己的研發(fā)隊伍在運維這套系統(tǒng);不然進場的各應用廠家各行其是,必定造成中心的應用邏輯混亂,成為信息的垃圾場。
數(shù)據(jù)中心將匯聚各種所需專業(yè)系統(tǒng)的數(shù)據(jù),而對它們的分析要求常常是原來某個專業(yè)系統(tǒng)所不能提供的,而且分析目標也是不斷變化的,這需要中心有自己的數(shù)據(jù)分析開發(fā)人員。
數(shù)據(jù)中心所涉及的云計算和大數(shù)據(jù)軟硬件架構(gòu),對其維護升級需要技術(shù)能力很強的專職技術(shù)人員,依賴第三方做到這點也是不可能的。
各種專業(yè)應用是如何影響中心的數(shù)據(jù)建設呢?其實只有在中心進行數(shù)據(jù)采集時才會發(fā)生關(guān)系,其采集模式無論是拉模式還是推模式,只要符合其交互的服務接口和數(shù)據(jù)標準即可,而這些標準也應該是中心的技術(shù)人員提出。
綜上所述,中心的工作必須有一支自己的研發(fā)隊伍,而且是研發(fā)的主體。
數(shù)據(jù)中心很多信息影響到國家的安全,例如在做局域網(wǎng)應用時,常常比較重視功能性開發(fā),對非功能性的安全問題重視不夠,如今數(shù)據(jù)中心是依賴于Internet運行的,其信息安全問題是首先要解決的問題,這方面涉及的技術(shù)繁多且復雜,在這里不多贅述,應該高度重視該問題才是。
無論我們采用什么技術(shù)手段,應該深刻理解其技術(shù)內(nèi)涵,不能為贏得什么彩頭而使用技術(shù),不然會造成國家財產(chǎn)的嚴重浪費;隨著大數(shù)據(jù)和云計算技術(shù)在國內(nèi)應用的深入,我相信對這些技術(shù)的使用會越來越成熟,會為我們的國家和社會創(chuàng)造巨大的價值。
[1] 郭曉科.大數(shù)據(jù).北京:清華出版社,2013.
[2] 高彥杰.Spark大數(shù)據(jù)處理.北京:機械工業(yè)出版社,2014.
[3] 大數(shù)據(jù)研究報告編寫組.綜合分析冷靜看待大數(shù)據(jù)標準化漸行漸近.信息技術(shù)與標準化,2013,(9).
王衛(wèi)列(1961—),男,高級工程師,主要研究方向:電力系統(tǒng)軟件開發(fā)。E-mail:wangweilie@sgepri.sgcc.com.cn
高 嵐(1965—),女,高級工程師,主要研究方向:電力系統(tǒng)計算機應用。E-mail:gaolan@sgepri.sgcc.com.cn
Problems Should Be Avoided in Constructing the Big Data System of Dam Monitoring
WANG Weilie1,GAO Lan2
(1. State Grid Electric Power Research Institute,Nanjing 211106,China;2. State Grid Electric Power Research Institute,Nanjing 211106,China)
Big data is more and more popular today and it is same in dam monitoring system also. But within the industry there are large technical concepts of fuzzy phenomena,some blind in technology ideas. This article discusses some wrong ideas in construction of big data system of dam monitoring. I hope peers to reflect together on how to avoid these mistakes.
big data;dam monitoring