陳靜,張敏,王娟
大數(shù)據(jù)時(shí)代空管設(shè)備異構(gòu)數(shù)據(jù)集成研究
陳靜,張敏,王娟
在大數(shù)據(jù)時(shí)代,機(jī)場(chǎng)服務(wù)由原來(lái)被動(dòng)查詢向信息推送、智能推薦的方向發(fā)展,這就需要機(jī)場(chǎng)在海量的空管數(shù)據(jù)和其他數(shù)據(jù)中進(jìn)行挖掘出有價(jià)值的信息,而傳統(tǒng)的關(guān)系型數(shù)據(jù)由于其自身的原因不能很好地適應(yīng)在海量數(shù)據(jù)條件下進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)。針對(duì)在海量的數(shù)據(jù)條件下如何進(jìn)行數(shù)據(jù)的集成,提出了基于NoSQL的空管異構(gòu)數(shù)據(jù)集成模型,該方法能夠存儲(chǔ)各種結(jié)構(gòu)的空管數(shù)據(jù),同時(shí)還能夠適應(yīng)分布式存儲(chǔ)并達(dá)到較好的性能。
大數(shù)據(jù);異構(gòu)數(shù)據(jù);非關(guān)系型數(shù)據(jù)庫(kù);數(shù)據(jù)集成;分布式存儲(chǔ)
近年來(lái)隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展,我國(guó)航空事業(yè)進(jìn)入一個(gè)高速的發(fā)展期,經(jīng)過(guò)幾十年的建設(shè)和發(fā)展,我國(guó)機(jī)場(chǎng)總量初具規(guī)模,機(jī)場(chǎng)密度逐步提高,現(xiàn)代化程度不斷提高。每個(gè)航空機(jī)場(chǎng)都需要具有通信、導(dǎo)航、監(jiān)視、內(nèi)話、氣象、情報(bào)等設(shè)備,每種設(shè)備都是來(lái)自不同的生產(chǎn)廠家,不同設(shè)備所產(chǎn)生的數(shù)據(jù)的格式也不盡相同。隨著機(jī)場(chǎng)服務(wù)的提高,機(jī)場(chǎng)空管設(shè)備所服務(wù)的對(duì)象由原來(lái)的飛機(jī)轉(zhuǎn)向人時(shí),人所需要的服務(wù)是個(gè)性化的,所需要的信息也是各種各樣,這就包含固定結(jié)構(gòu)、半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)的數(shù)據(jù)。因此在“大數(shù)據(jù)”時(shí)代對(duì)航空機(jī)場(chǎng)的空管設(shè)備的異構(gòu)數(shù)據(jù)進(jìn)行集成具有一定的理論價(jià)值和現(xiàn)實(shí)意義。
1.1 大數(shù)據(jù)時(shí)代
隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)正以前所未有的增長(zhǎng)速度增長(zhǎng)。在云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)計(jì)算等一系列新技術(shù)的推動(dòng)下,虛擬服務(wù)、社交網(wǎng)絡(luò)等新的應(yīng)用領(lǐng)域不斷的刷新人民應(yīng)用信息的范圍和形式,全面基于信息和網(wǎng)絡(luò)的生產(chǎn)和創(chuàng)新模式,正在將人們帶入“第三次工業(yè)革命”時(shí)代[1]。大數(shù)據(jù)的概念最早可以追溯到20年前,但在近幾年才開(kāi)始真正被人們所關(guān)注,2008年《Nature》推出了名為“Big Data”的??痆2]。著名咨詢公司麥肯錫發(fā)表了一篇大數(shù)據(jù)報(bào)告[3]“Big data:the next frontier for innovation,competition,and productivity”。在這篇文章里分析了大數(shù)據(jù)的影響、應(yīng)用領(lǐng)域和關(guān)鍵技術(shù)等方面。隨著各種社會(huì)團(tuán)體對(duì)大數(shù)據(jù)的討論,各國(guó)政府也開(kāi)始重視大數(shù)據(jù),2012年美國(guó)政府宣布了每年投資兩億美元的“大數(shù)據(jù)研究計(jì)劃(Big Data R&D Initiative)”[4]旨在從海量的復(fù)雜的數(shù)據(jù)中提取知識(shí)和有效信息,并服務(wù)于金融、醫(yī)療、能源等領(lǐng)域。我國(guó)政府也開(kāi)始關(guān)注大數(shù)據(jù),在 2012年,科技部發(fā)布的“‘十二五’國(guó)家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度項(xiàng)目征集指南”把大數(shù)據(jù)排在第一位。
隨著大數(shù)據(jù)的研究的深入,IT界對(duì)大數(shù)據(jù)有了一個(gè)較為全面和統(tǒng)一的認(rèn)識(shí),就是大數(shù)據(jù)需要滿足4個(gè)基本特征:規(guī)模性(Volume)、高速性(Velocity)、價(jià)值性(Value)和多樣性(Variety)[5]。
規(guī)模性:通過(guò)各種設(shè)備產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)的規(guī)模龐大。
高速性:數(shù)據(jù)實(shí)時(shí)生成,且只有在特定的時(shí)間和控件中才有意義,這就要求數(shù)據(jù)處理的速度快。
價(jià)值性:數(shù)據(jù)的價(jià)值密度低,單條或少量的數(shù)據(jù)并無(wú)太多的價(jià)值,但對(duì)海量的數(shù)據(jù)進(jìn)行挖掘,會(huì)發(fā)現(xiàn)大量有價(jià)值的信息。
多樣性:指數(shù)據(jù)類型的多樣性,大數(shù)據(jù)時(shí)代海量的數(shù)據(jù)并無(wú)固定的數(shù)據(jù)格式,這就包括各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)的數(shù)據(jù)。
1.2 空管設(shè)備具有大數(shù)據(jù)特征
經(jīng)過(guò)幾十年的發(fā)展,我國(guó)機(jī)場(chǎng)總量初具規(guī)模,機(jī)場(chǎng)密度逐漸加大,機(jī)場(chǎng)服務(wù)能力逐漸提高,現(xiàn)代化程度不斷加強(qiáng)。隨著機(jī)場(chǎng)服務(wù)能力的快速提高,機(jī)場(chǎng)空管設(shè)備的數(shù)據(jù)也具有了“大數(shù)據(jù)”的特點(diǎn)。
航空機(jī)場(chǎng)的空管設(shè)備種類繁多,有導(dǎo)航類、通信類、監(jiān)視類、管制類以及其他一些氣象和情報(bào)發(fā)布系統(tǒng)。每種信息系統(tǒng)都產(chǎn)生相應(yīng)的信息數(shù)據(jù),每天產(chǎn)生的數(shù)據(jù)達(dá)到百GB甚至TB,這就構(gòu)成了大量的機(jī)場(chǎng)空管數(shù)據(jù),具有了海量的規(guī)模。機(jī)場(chǎng)管理信息系統(tǒng)主要包括各種運(yùn)營(yíng)調(diào)度系統(tǒng)、航班管理系統(tǒng)、信息顯示系統(tǒng)、信息監(jiān)控系統(tǒng)等。而這些系統(tǒng)的不同性質(zhì),系統(tǒng)建設(shè)的廠家和軟件公司各不相同,通常的做法就是每個(gè)系統(tǒng)建立自己對(duì)應(yīng)的數(shù)據(jù)庫(kù)系統(tǒng)。有多少管理系統(tǒng)就有多少系統(tǒng)數(shù)據(jù)庫(kù)。而各個(gè)系統(tǒng)之間又是相互獨(dú)立的,數(shù)據(jù)結(jié)構(gòu)也各不相同,這就構(gòu)成了大量的異構(gòu)數(shù)據(jù),具有數(shù)據(jù)多樣性的特點(diǎn)[6]。
同時(shí)隨著機(jī)場(chǎng)管理的逐步提高,機(jī)場(chǎng)也建立起自己的辦公自動(dòng)化和旅客信息服務(wù)等系統(tǒng)。而旅客對(duì)機(jī)場(chǎng)的服務(wù)要求不再局限與傳統(tǒng)的信息查詢?yōu)橹鳎枰诖罅繉?shí)時(shí)機(jī)場(chǎng)空管數(shù)據(jù)的基礎(chǔ)上進(jìn)行快速的計(jì)算和挖掘,發(fā)現(xiàn)能夠?yàn)槁每瓦M(jìn)行智能推薦的實(shí)時(shí)信息,這樣機(jī)場(chǎng)空管數(shù)據(jù)具有實(shí)時(shí)、高速的特點(diǎn)。
在海量的機(jī)場(chǎng)數(shù)據(jù)中需要對(duì)大量的數(shù)據(jù)進(jìn)行分析才能挖掘出有價(jià)值的信息,在針對(duì)旅客進(jìn)行服務(wù)推薦時(shí),往往需要了解該旅客的歷史出行信息、需要在其大量的歷史出行的記錄中及其他相關(guān)信息進(jìn)行挖掘分析,得出其出行規(guī)律和特點(diǎn),再進(jìn)行有針對(duì)性的推薦服務(wù),而針對(duì)少量甚至單條信息,基本沒(méi)有進(jìn)行挖掘和分析的價(jià)值,也即是說(shuō)機(jī)場(chǎng)數(shù)據(jù)具有價(jià)值稀疏的特性。
1.3 大數(shù)據(jù)時(shí)代機(jī)場(chǎng)建設(shè)面臨的問(wèn)題
進(jìn)入大數(shù)據(jù)時(shí)代,旅客的出行不只滿足于傳統(tǒng)機(jī)場(chǎng)的信息提示等服務(wù)。機(jī)場(chǎng)需要根據(jù)旅客的行為信息,發(fā)掘客戶潛在的需求,為旅客提供更智能的出行解決方案,同時(shí)也為機(jī)場(chǎng)進(jìn)行決策提供支持服務(wù)。這就需要機(jī)場(chǎng)根據(jù)航班信息、氣象信息、旅客個(gè)人信息以及機(jī)場(chǎng)調(diào)度信息等海量的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,為旅客提供智能服務(wù)。機(jī)場(chǎng)在進(jìn)行海量數(shù)據(jù)挖掘和分析的時(shí)候主要面臨著兩個(gè)主要的問(wèn)題。
一個(gè)是數(shù)據(jù)集成的問(wèn)題,大數(shù)據(jù)時(shí)代機(jī)場(chǎng)的監(jiān)控系統(tǒng)、資源調(diào)度系統(tǒng)、生產(chǎn)營(yíng)運(yùn)系統(tǒng)、航班信息顯示系統(tǒng)等眾多系統(tǒng)產(chǎn)生了大量的數(shù)據(jù),雖然這些數(shù)據(jù)大部分為結(jié)構(gòu)化的數(shù)據(jù),但如何對(duì)這些數(shù)據(jù)進(jìn)行集成,統(tǒng)一的進(jìn)行資源的調(diào)配,統(tǒng)一監(jiān)管,就需要對(duì)這些異構(gòu)數(shù)據(jù)源進(jìn)行整合。以機(jī)場(chǎng)航管設(shè)備信息系統(tǒng)為例,機(jī)場(chǎng)主要的航管設(shè)備有數(shù)據(jù)語(yǔ)音系統(tǒng)、AWFS系統(tǒng)、氣象數(shù)據(jù)庫(kù)系統(tǒng)、管理生產(chǎn)運(yùn)行管理信息系統(tǒng)、GPS系統(tǒng)、航行情報(bào)發(fā)布系統(tǒng)、航管自動(dòng)化系統(tǒng)、儀表著陸設(shè)備、二次雷達(dá)(SSR)設(shè)備、一次雷達(dá)(PSR)設(shè)備、場(chǎng)面監(jiān)視雷達(dá)、VHF收發(fā)信機(jī)設(shè)備等眾多設(shè)備。這些設(shè)備體現(xiàn)了三多的特點(diǎn),設(shè)備類型多、設(shè)備廠商多和設(shè)備型號(hào)多,而每種設(shè)備所產(chǎn)生的數(shù)據(jù)格式都是互不相同的。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)很難建立一個(gè)合適的模型能夠完全滿足這么多異構(gòu)數(shù)據(jù)的建模需要。同時(shí)關(guān)系型數(shù)據(jù)庫(kù)很難適應(yīng)在大數(shù)據(jù)時(shí)代對(duì)海量數(shù)據(jù)進(jìn)行知識(shí)挖掘,知識(shí)發(fā)現(xiàn),進(jìn)而為用戶提供決策支持服務(wù)。
二是數(shù)據(jù)存儲(chǔ)的問(wèn)題,在大數(shù)據(jù)時(shí)代機(jī)場(chǎng)眾多的信息系統(tǒng)產(chǎn)生了海量的數(shù)據(jù),這些數(shù)據(jù)實(shí)時(shí)的到達(dá),通常航空設(shè)備數(shù)據(jù)需要長(zhǎng)期保存,長(zhǎng)期運(yùn)行下來(lái),每個(gè)機(jī)場(chǎng)所處理的數(shù)據(jù)將達(dá)到TB的級(jí)別時(shí)。單個(gè)服務(wù)器的存儲(chǔ)已經(jīng)很難存儲(chǔ)如此海量的數(shù)據(jù),只能采用分布式的架構(gòu)進(jìn)行存儲(chǔ),而關(guān)系型數(shù)據(jù)庫(kù)由于其設(shè)計(jì)的原因很難適應(yīng)分布式架構(gòu)的擴(kuò)展。同時(shí)關(guān)系型數(shù)據(jù)庫(kù)是需要在系統(tǒng)建立前確定好數(shù)據(jù)模式,對(duì)數(shù)據(jù)進(jìn)行建模,但隨著用戶需求的迅速改變,很難提前預(yù)知用戶需求并且建議一個(gè)萬(wàn)能模式來(lái)應(yīng)對(duì)不斷變化的用戶需求。關(guān)系數(shù)據(jù)已經(jīng)不能很好的適應(yīng)這種數(shù)據(jù)量大,數(shù)據(jù)結(jié)構(gòu)不固定的要求。
2.1 NoSQL技術(shù)及其特點(diǎn)
NoSQL是Not only SQL的縮寫(xiě),泛指非關(guān)系型數(shù)據(jù)庫(kù)。與關(guān)系型數(shù)據(jù)庫(kù)對(duì)比,NoSQL對(duì)比有著許多的不同點(diǎn),其中最大的不同是NoSQL不使用SQL語(yǔ)言作為查詢語(yǔ)言,數(shù)據(jù)存儲(chǔ)也不像關(guān)系型數(shù)據(jù)那樣需要有事先設(shè)定好表模式。
在機(jī)場(chǎng)中的各個(gè)系統(tǒng)中需要根據(jù)實(shí)時(shí)的位置、參數(shù)、用戶個(gè)性化信息來(lái)實(shí)時(shí)的生成動(dòng)態(tài)界面,并對(duì)用戶提供動(dòng)態(tài)的服務(wù)信息,所以數(shù)據(jù)庫(kù)的并發(fā)負(fù)載非常高,在高峰時(shí)段每秒可能達(dá)到上萬(wàn)次甚至更多的讀寫(xiě)請(qǐng)求。傳統(tǒng)關(guān)系型數(shù)據(jù)在處理上萬(wàn)次的SQL查詢請(qǐng)求還能應(yīng)付,而對(duì)于上萬(wàn)次的SQL寫(xiě)數(shù)據(jù)請(qǐng)求,磁盤(pán)I/O已經(jīng)無(wú)法承受。同時(shí)由于機(jī)場(chǎng)空中管制系統(tǒng)的數(shù)據(jù)量的增大,單機(jī)服務(wù)器無(wú)論是在處理能力還是存儲(chǔ)能力都很難滿足機(jī)場(chǎng)信息系統(tǒng)的要求,必須對(duì)添加服務(wù)器和存儲(chǔ)設(shè)備來(lái)滿足需求,而傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)由于其事物一致性的要求很難進(jìn)行橫向的擴(kuò)展,無(wú)法通過(guò)添加更多的服務(wù)節(jié)點(diǎn)和存儲(chǔ)來(lái)擴(kuò)展其性能和負(fù)載能力。
NoSQL數(shù)據(jù)庫(kù)種類繁多,但都能去掉關(guān)系型數(shù)據(jù)庫(kù)的關(guān)系特性,能夠很好的進(jìn)行擴(kuò)展,非常容易的實(shí)現(xiàn)支撐數(shù)據(jù)從TB到PB級(jí)的過(guò)渡。采用分布式架構(gòu),能夠滿足機(jī)場(chǎng)海量空管數(shù)據(jù)的存儲(chǔ)和處理的要求。NoSQL還有非常良好的讀寫(xiě)性能,能夠滿足海量數(shù)據(jù)的頻繁讀寫(xiě)請(qǐng)求,能夠滿足機(jī)場(chǎng)各種個(gè)性化服務(wù)的請(qǐng)求。同時(shí)NoSQL還無(wú)須為存儲(chǔ)的數(shù)據(jù)建立字段,可以自定義數(shù)據(jù)格式,能夠隨時(shí)隨地的添加數(shù)據(jù)字段,這樣系統(tǒng)在建設(shè)之初就無(wú)需考慮數(shù)據(jù)庫(kù)表結(jié)構(gòu)的設(shè)計(jì),把時(shí)間花在系統(tǒng)的開(kāi)發(fā)應(yīng)用上,在系統(tǒng)實(shí)施之后還能夠很好的兼容其他字段,進(jìn)行系統(tǒng)功能的升級(jí)和擴(kuò)展。
2.2 基于NoSQL的數(shù)據(jù)集成方法
為了解決空管數(shù)據(jù)異構(gòu)的問(wèn)題,從實(shí)現(xiàn)的角度出發(fā),提出基于NoSQL的空管異構(gòu)數(shù)據(jù)集成模型。采用基于NoSQL數(shù)據(jù)庫(kù)來(lái)進(jìn)行空管異構(gòu)數(shù)據(jù)的存儲(chǔ)。解決了異構(gòu)數(shù)據(jù)的存儲(chǔ)問(wèn)題?;贜oSQL的空管異構(gòu)數(shù)據(jù)集成模型如圖1所示:
Research on Heterogeneous Data Integration of Air Traffic Control Equipment in The Big Data Age
Chen Jing, Zhang Min, Wang Juan
(Xi'an Fanyi University, Xi’an, Shaanxi 710105, China)
In the era of big data, the airport service develops from the original passive query to the information pushing and intelligent recommendation which need valuable information to be mined in the vast amount of air traffic control data and other data. However, the traditional relational data can not adapt to the data mining and knowledge discovery under the circumstance of massive data due to its own reasons. In order to solve the problem, an integrated model of air traffic control based on NoSQL is proposed. The model can store all kinds of heterogeneous data ,simultaneously. The model architecture can achieve very good performance in the distributed memory architecture.
Big Data; Heterogeneous Data; NoSQL Data Integration; Distribute Storage
TP311
A
1007-757X(2016)09-0044-02
陳 靜(1986-),女,陜西、西安翻譯學(xué)院,助教、碩士,研究方向:信息處理,西安 710105張 敏(1980-),女。內(nèi)蒙古、西安翻譯學(xué)院,講師、碩士,研究方向:信息處理、信息檢索,西安 710105王 娟(1980-),女,山東、西安翻譯學(xué)院,講師、碩士,研究方向:信息處理,西安 710105