陳昌運,李傳慶
(上海船舶運輸科學研究所航運技術(shù)與安全國家重點實驗室,上海 200135)
大數(shù)據(jù)具有數(shù)據(jù)體量大、類型多、處理速度快、數(shù)據(jù)真實性強和價值密度低等特點[1]。
對大數(shù)據(jù)進行分析,挖掘大數(shù)據(jù)所蘊涵的價值,應用前景廣闊[2]。船舶行業(yè)是個傳統(tǒng)產(chǎn)業(yè),它與互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)結(jié)合相對滯后。但是船舶行業(yè)是一個全球性且規(guī)模龐大的行業(yè),聯(lián)系著設(shè)計、制造和貨物運輸,聯(lián)系著貿(mào)易市場和人們的生活,數(shù)據(jù)來源廣泛,蘊涵著許多具有潛在價值的知識與信息,需要去挖掘,需要去發(fā)現(xiàn)。正因為如此,大數(shù)據(jù)在船舶行業(yè)的應用也已經(jīng)啟動。歐洲已經(jīng)發(fā)表了“MUNIN(Maritime Unmanned Navigation though Intelligence Network)”項目,旨在發(fā)展新一代控制系統(tǒng)與通信技術(shù),顯示并控制在港和離港的船舶[3],這無疑推動了信息化船舶與信息化航運的發(fā)展。2014年7月,日本船舶技術(shù)研究協(xié)會著手船舶“大數(shù)據(jù)路標”工作,通過搜集多艘船舶的航行及其相關(guān)數(shù)據(jù)形成大數(shù)據(jù),計劃為船舶的節(jié)能航行、船型開發(fā)、裝備遠程維護等項目所使用[4]。何山和馬云涌提出了未來航運信息化的發(fā)展的趨勢[5~7],論述了航運業(yè)對大數(shù)據(jù)技術(shù)的迫切需求,同時也為船舶行業(yè)大數(shù)據(jù)應用提供了啟示。此外,在航運業(yè)的低谷期,人們也在積極探索大數(shù)據(jù)時代給航運業(yè)的轉(zhuǎn)型發(fā)展所帶來的積極影響[8]。隨著G6、2M、CKYH和O3四大航運聯(lián)盟的形成,運力將達到全球運力的80%左右。無論是航線設(shè)置、港序版圖,還是網(wǎng)絡覆蓋、運力調(diào)整、營銷設(shè)計,都將催生航運的大數(shù)據(jù)時代。
本文主要探索大數(shù)據(jù)分析與挖掘以及大數(shù)據(jù)在船舶行業(yè)的應用。分別描述數(shù)據(jù)的采集和預處理、數(shù)據(jù)的分析與挖掘,并展望了部分應用前景,如船舶能效指數(shù)EEDI驗證,監(jiān)測、報告和驗證(MRV)機制實施;風浪對航速的影響研究;節(jié)能技術(shù)的節(jié)能效果評價;船舶進塢清理污底最佳時機分析;船舶設(shè)備運行管理等,對于促進造船和航運業(yè)的技術(shù)進步具有重要的意義。
通過收集船舶營運數(shù)據(jù)信息及營運船舶性能監(jiān)測,將獲得大量與船舶營運管理、船舶航行環(huán)境、船舶航行性能及營運能耗有關(guān)的數(shù)據(jù)。目前信息技術(shù)和通信技術(shù)發(fā)展迅速,船舶儀器設(shè)備已逐步智能化,航行船舶的衛(wèi)星定位技術(shù)已經(jīng)比較成熟,使得營運船舶很多物理數(shù)據(jù)的測量已成為可能,通過對營運船舶長期監(jiān)測,將逐步形成大數(shù)據(jù)的集合,奠定航運業(yè)船岸信息一體化的基礎(chǔ)。
最常見的實船數(shù)據(jù)采集是交船試航測試的數(shù)據(jù)采集,主要包括航速、航向、風速、風向、主機轉(zhuǎn)速和扭矩等,采用的設(shè)備主要是測試人員自帶的儀器。但這類數(shù)據(jù)是在特定環(huán)境條件下獲取的,采集的時間和數(shù)據(jù)量都有限,最全面的數(shù)據(jù)應來自營運船舶的長期監(jiān)測。目前,營運船舶的航行數(shù)據(jù)主要是依據(jù)定時報送方式,通常每4h或6h由船上報送岸上,而且人工統(tǒng)計抄報的情況仍較為普遍。
實船營運監(jiān)測是未來獲取船舶營運數(shù)據(jù)較為理想和比較科學的方法。通過營運監(jiān)測,可獲取的數(shù)據(jù)有船舶姿態(tài),如航速、航向、吃水等;海況環(huán)境,如風浪流、水深水溫等;船舶能耗,如主輔機工作參數(shù),轉(zhuǎn)速與扭矩、舵角等;船舶駕駛、船舶位置、船舶運動等信息;船上各設(shè)備工作參數(shù)等。此外,還可以采集燃料加注信息、淡水存量與補給信息、進出港動態(tài)、貨物裝載、防臺等信息,構(gòu)成較為齊全的營運船舶數(shù)據(jù)的集合。
小批量數(shù)據(jù)的船舶通信,可以采用無線傳輸?shù)姆绞剑鐭o線電話通信、無線電傳電報通信、國際移動衛(wèi)星通訊、衛(wèi)星手機通訊、電子郵件通訊、網(wǎng)際網(wǎng)路通訊等。目前營運船舶的信息管理普遍采用這種方式。近年來,人們還對近海船岸無線數(shù)據(jù)傳輸技術(shù)進行了一定的研究。
但是對于營運船舶長期監(jiān)測的海量數(shù)據(jù)來說,上述方法還難以適應這樣的需求,一是衛(wèi)星通信成本費用太高,二是難以保證大量數(shù)據(jù)有效傳輸。在目前條件下推薦兩種簡單實用的方法:一是進行數(shù)據(jù)岸端有線傳輸。把數(shù)據(jù)看成貨物一樣,船舶靠岸或靠碼頭時將數(shù)據(jù)采用有線加密方式發(fā)送到指定的岸端網(wǎng)絡信息平臺,該岸端網(wǎng)絡信息平臺的所有者可以為該船舶所屬公司,也可以為合作的科研機構(gòu);二是通過移動存儲介質(zhì),在船舶每個航次返回特定港口時,由指定船員交到岸上指定機構(gòu)。
由于海上風浪和船舶各種設(shè)備運行環(huán)境的復雜性,監(jiān)測數(shù)據(jù)難免會有不完整或失真的情況,例如某個時刻浪高未測出,船舶姿態(tài)測量值超出合理范圍等。對于船舶監(jiān)測中缺失和失真的數(shù)據(jù)需要進行數(shù)據(jù)清洗。
數(shù)據(jù)清洗(Data Cleaning或者Data Scrubbing)的目的是檢測數(shù)據(jù)中存在的錯誤和不一致,剔除或者改正它們,以提高數(shù)據(jù)的質(zhì)量[9]。王曰芬等,以及郭志懋,周傲英介紹了3個有代表性的數(shù)據(jù)清洗框框架:Trillium模型、Bohn模型、AJAX模型架[10,11]。對于營運船舶監(jiān)測數(shù)據(jù)缺失,視缺失情況可采用不同的方法,如借鑒交通流量數(shù)據(jù)缺失值的插補方法[12]。若某時刻僅一兩個信號無數(shù)據(jù),如僅有航速而浪高無數(shù)據(jù),可采用數(shù)據(jù)趨勢進行臨近插補或其他信號的相關(guān)性進行填補;如果一段時間所有信號都沒有數(shù)據(jù),為了后續(xù)的數(shù)據(jù)分析而又不便舍去該時間段的值,那么采用基于前后時間段的數(shù)據(jù)樣本進行隨機插補,并滿足各相關(guān)信號的一致與統(tǒng)一,例如油耗與船舶主機功率轉(zhuǎn)速有一定的相關(guān)性。對于船舶監(jiān)測數(shù)據(jù)的失真要對其進行修改,首先要進行失真數(shù)據(jù)的判斷,可以根據(jù)監(jiān)測數(shù)據(jù)的特性進行,例如船舶吃水通常是有一定區(qū)間和范圍的;也可以根據(jù)數(shù)據(jù)的量級以及數(shù)據(jù)變化趨勢進行判斷;還可以根據(jù)其他相關(guān)信號量的值進行判斷,例如可以根據(jù)船舶運動來判斷波浪監(jiān)測數(shù)據(jù)是否失真。一旦判斷出失真,便可以采用一定的數(shù)值方法對失真的值進行修補。
海上航行的船舶,信號會有各種各樣的干擾,會產(chǎn)生噪聲和震動,所以對監(jiān)測數(shù)據(jù)的濾波也必不可少。濾波的方法有很多,常見的有卡爾曼濾波、高斯濾波、中值濾波、均值濾波等,對于船舶監(jiān)測數(shù)據(jù)而言,可以采用卡爾曼濾波。
進行數(shù)據(jù)預處理之后,需要將監(jiān)測數(shù)據(jù)按照一定的形式導入數(shù)據(jù)庫。對于海量的監(jiān)測數(shù)據(jù)宜采用分布式數(shù)據(jù)庫,并注意數(shù)據(jù)庫優(yōu)化設(shè)計以及同步策略。
航運數(shù)據(jù)挖掘(data mining或Knowledge Discovery)是從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中提取隱含的、未知的,但也是具有潛在價值的知識和信息,其方法是統(tǒng)計分析方法學的延伸和拓展,可包含分類統(tǒng)計、關(guān)聯(lián)分析、可視化描述、預測、再驗證的迭代與逼近等過程。
1)分類統(tǒng)計:是將大量數(shù)據(jù)進行有目的分類、排序和統(tǒng)計,獲取期望得到的相關(guān)參數(shù)間的函數(shù)關(guān)系與信息,諸如浮態(tài)與油耗、載況與功率等;
2)關(guān)聯(lián)分析:兩個或兩個以上變量存在某種規(guī)律性,就稱之為關(guān)聯(lián)。這種關(guān)聯(lián)性對船舶營運過程中某些難以測量或收集數(shù)據(jù)的獲取、推算或驗證提供了一種重要的途徑。例如:船舶航行過程中的動態(tài)吃水和波浪參數(shù)及船舶運動參數(shù)相關(guān)聯(lián);海況波浪參數(shù)和船舶失速以及船舶運動參數(shù)相關(guān)聯(lián)等;
3)可視化描述:對于數(shù)據(jù)挖掘獲得的結(jié)果,需要轉(zhuǎn)換成能被人們理解或接受的知識或信息??梢暬枋隹尚纬沙R?guī)的曲線圖、表格、分布圖、等值圖、云圖等等;
4)再驗證的迭代與逼近:船舶營運過程中通過數(shù)據(jù)挖掘獲得的知識,往往還受到監(jiān)測數(shù)據(jù)的精度、船舶運行的狀態(tài)、船上各種設(shè)備運行的狀態(tài)、海況環(huán)境等眾多因素的影響,隨機因素對于分析結(jié)果的準確性和可靠性的影響是存在的。需要通過后續(xù)監(jiān)測的數(shù)據(jù)進行再驗證,通過多次迭代與分析,逐步逼近正確的結(jié)果。
通過收集和對營運船舶監(jiān)測獲取的數(shù)據(jù)進行統(tǒng)計分析以及價值挖掘,可以獲得很多有價值的數(shù)據(jù)信息,如船舶的功率與航速、船舶能耗數(shù)據(jù)、風浪對船舶航速的影響、各種節(jié)能措施的節(jié)能效果、污底對功率的影響、航線航區(qū)的海況資料和各類設(shè)備運行狀態(tài)等數(shù)據(jù),具有廣泛的用途。
對于船舶營運中收集或監(jiān)測得到的大量數(shù)據(jù),通過數(shù)據(jù)清洗后,可以分類提取出類似于交船試航測試的相應數(shù)據(jù)。對于這些數(shù)據(jù)中可能存在的一些缺失或失真,可通過數(shù)據(jù)的關(guān)聯(lián)性分析,從一種數(shù)據(jù)或幾種數(shù)據(jù)推算出缺失的數(shù)據(jù),驗證與校正失真的數(shù)據(jù),如從船舶運動數(shù)據(jù)推算、補充或驗證波浪環(huán)境參數(shù)。再應用ITTC或ISO的實船測試分析與換算方法,分析營運船舶的功率與航速指標,換算得到相應的船舶能效營運指數(shù)EEOI,為航運能效管理服務,也可為未來的 MRV(Monitor,Report,Verification)機制實施提供支持[13]。
波浪對船舶航速的影響可歸結(jié)到波浪對船舶功率(阻力)的影響。一旦獲得比較準確的波浪中船舶消耗功率的增加,就能夠用于不同船型氣象因子(fw)的驗證與評價,為EEDI指標的驗證提供支持。
對于收集或監(jiān)測得到的大量數(shù)據(jù),按照波浪參數(shù)和載況數(shù)據(jù)進行分類,可統(tǒng)計出浪高、波浪周期和不同載況所對應的不同航速。當浪高近似為零時,可以視為通常所說的靜水情況,此時對應的航速與功率可視為靜水中航速與功率,通過與不同等級波浪分類統(tǒng)計的數(shù)據(jù)比較,可以挖掘出波浪對船舶航速以及失速的影響。從長期監(jiān)測的角度看,營運中的船舶會遭遇到各種等級的波浪,隨著數(shù)據(jù)積累的增多,數(shù)據(jù)的分類也將隨之越來越細,統(tǒng)計的數(shù)據(jù)也將越來越齊全,得到的結(jié)論也將越來越接近實際情況。
借助于船舶營運數(shù)據(jù)長期收集和監(jiān)測,通過分類提取節(jié)能裝置安裝前和安裝后的相關(guān)數(shù)據(jù),對其進行統(tǒng)計分析。同時,借助于數(shù)據(jù)挖掘得到的相關(guān)數(shù)據(jù)之間的影響關(guān)系與修正方法,消除諸如波浪、吃水、浮態(tài)、水深、水流等因素的影響,就能獲得所用節(jié)能裝置的節(jié)能效果。
應用收集和監(jiān)測得到數(shù)據(jù),提煉出與船舶營運功率有關(guān)的系列數(shù)據(jù),按照時間序列進行排序,消除其他因素對于船舶營運功率的影響,進一步分析可得到船舶污底與營運時間及航線間的關(guān)系。結(jié)合塢修時清污成本的測算,可分析求得最低營運成本的塢修清污時間節(jié)點。對于船舶營運能效管理,營運成本的管理具有重要的現(xiàn)實意義。
營運船舶數(shù)據(jù)監(jiān)測包含了海況環(huán)境的長期監(jiān)測,如風、浪、流、水深、水溫等。按照航線、航區(qū)、時間建立統(tǒng)計數(shù)據(jù),可建立航區(qū)、航線的海況資料。
這些海況資料,作為實時氣象信息的補充,可應用于船型開發(fā)設(shè)計研究、海事法規(guī)與管理研究、航線優(yōu)化和航速優(yōu)化研究等,是造船、航運和海事管理的具有寶貴價值的資料。
通過不間斷地營運監(jiān)測和數(shù)據(jù)收集,對船舶主要設(shè)備的運行數(shù)據(jù)進行挖掘,可判斷設(shè)備的運行狀態(tài),結(jié)合設(shè)備的運行特性,判別設(shè)備的故障前兆,確定必要的維護措施等。為設(shè)備日常維護、安全管理以及成本管理提供支持。
綜上所述,給出以下幾點結(jié)論:
1) 營運船舶數(shù)據(jù)可以通過航運信息管理平臺和船舶營運監(jiān)測兩種方式獲取。在衛(wèi)星通信費用比較昂貴的情況下,監(jiān)測數(shù)據(jù)可以采用岸端數(shù)據(jù)傳輸和移動介質(zhì)傳遞兩種方式;
2) 通過船舶營運大數(shù)據(jù)挖掘,可以發(fā)現(xiàn)非常有價值的船舶航行性能方面的知識和信息,在造船和航運兩大行業(yè)具有廣闊的應用前景,諸如通過數(shù)據(jù)挖掘得到的船舶在各種載況下功率與航速的關(guān)系,有助于完善船舶能效設(shè)計指數(shù)(EEDI)實船驗證方法,為船舶能效監(jiān)測、報告和評價(MRV)機制實施提供支持;借助于挖掘得到的各種載況下波浪與失速的關(guān)系,進行船舶在風浪中氣象因子(fw)研究,為EEDI有效實施提供支持;評價節(jié)能附體的節(jié)能效果,推進節(jié)能技術(shù)的有效應用;進行基于最低成本的進塢清污的論證與實施等;
3) 借助于數(shù)據(jù)的統(tǒng)計與挖掘獲取的航線海況、設(shè)備運行狀態(tài)等信息,可以用于船舶營運航線和航速優(yōu)化、營運安全與成本管理、設(shè)備維護等,為船舶節(jié)能減排、航運安全、船舶設(shè)備的管用養(yǎng)修提供有力的支持。
[1] Barwick H. The four Vs of Big Data [N/OL]. COMPUTERWORLD. (2011-08-05) [2014-08-20]. http://www.computerworld.com.au/article/396198/iiis_four_vs_data/
[2] Linco. 一文認識并讀懂大數(shù)據(jù)[N/OL]. 36大數(shù)據(jù). (2013-10-31)[2014-08-20] .http://www.36dsj.com/archives/4203.
[3] MUNIN. Munin Brochure. http://www.unmanned-ship.org/munin/wp-content/uploads/2013/01/MUNIN-Brochure.pdf.
[4] 鋼聯(lián)資訊. 日本船舶著手“大數(shù)據(jù)路標”工作[N/OL]. 物聯(lián)網(wǎng)世界. (2014-07-21) [2014-08-20]. http://www.iotworld.com.cn/html/News/201407/936a2ef158665dd7.shtml
[5] 何 山,馬云涌. 我國航運業(yè)信息化發(fā)展趨勢及戰(zhàn)略選擇[J]. 武漢理工大學學報,2010, 32(5):782-786.
[6] 蘇 敏. 大數(shù)據(jù)時代航運業(yè)的轉(zhuǎn)型發(fā)展[N/OL]. 中國國際海運網(wǎng). 2013-06-24 (2014-08-20)[2014-08-20]. http://gss2012.shippingchina.com/opening/detail/id/11.html
[7] 馬云涌. 航運企業(yè)的船岸信息一體化IT架構(gòu)[N/OL]. 百度文庫. http://wenku.baidu.com/link?url=MNttm5Xfl0IFkGPyoBW8T9FC9noZ6DfchTzlCx9I-Kp7olbamb_-LdQ-0NoN3ykja8u16U-954YVctT6YqS0HJ60M7rsA0qK mARlwMMgrIq.
[8] 陳少華. 船岸高速數(shù)據(jù)傳輸信道編碼與調(diào)制技術(shù)方案的實現(xiàn)[D]. 大連海事大學,碩士論文,2006.
[9] Rahm,E., Do,H.H. Data Cleaning: Problems and Current Approaches[J]. IEEE Data Engineering Bulletin , 2000,23(4): 3~13.
[10] 王曰芬,章成志等. 數(shù)據(jù)清洗研究綜述[J]. 現(xiàn)代圖書情報技術(shù),2007, 12:50-56.
[11] 郭志懋,周傲英. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J]. 軟件學報,2002, 13(11):2076-2082.
[12] 韓衛(wèi)國,王勁峰,胡建軍. 交通流量數(shù)據(jù)缺失值的插補方法[J]. 交通與計算,2005, 23(1):39-42.
[13] ISSC. 歐洲議會確定船舶二氧化碳 MRV規(guī)則使用范圍[N/OL]. 國際海員服務中心網(wǎng). (2014-04-18)[2014-08-20].http://www.issconline.com/article.php?id=34020