国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)技術(shù)綜述與發(fā)展展望

2022-02-21 12:54朱祎蘭
宇航總體技術(shù) 2022年1期
關鍵詞:批處理

趙 鵬,朱祎蘭

(中國運載火箭技術(shù)研究院,北京 100076)

0 引言

縱觀整個數(shù)字技術(shù)的發(fā)展歷史,自1980年前后,隨個人計算機開始普及,人類社會經(jīng)歷了3次信息化浪潮,數(shù)字技術(shù)從軍事領域走向經(jīng)濟社會各個方面。存儲設備容量、CPU處理能力、網(wǎng)絡帶寬等基礎設施水平快速迭代升級,引發(fā)數(shù)據(jù)的產(chǎn)生、傳輸、存儲、處理方式不斷躍遷,在數(shù)據(jù)、算力和算法的共同繁榮之下,以大數(shù)據(jù)技術(shù)為典型代表的新興數(shù)字技術(shù)體系推動第3次信息化浪潮席卷全球。大數(shù)據(jù)技術(shù)已然成為人類社會發(fā)展的底層驅(qū)動力量,推動著生產(chǎn)力、生產(chǎn)關系的深刻變革。

作為技術(shù)產(chǎn)品高度復雜、生產(chǎn)組織高度復雜、經(jīng)營管理高度復雜的研發(fā)、生產(chǎn)一體化科研單位,中國運載火箭技術(shù)研究院擁抱大數(shù)據(jù),加快邁向以數(shù)據(jù)賦能生產(chǎn)、以數(shù)據(jù)驅(qū)動經(jīng)營的新階段,已成為順應歷史潮流,提升生產(chǎn)經(jīng)營能力的必然選擇。只有充分掌握大數(shù)據(jù)的基本特征,理清大數(shù)據(jù)生態(tài)體系各類技術(shù)及其適用場景,才能在保障數(shù)據(jù)安全前提下,打通型號產(chǎn)品研制及經(jīng)營管控各環(huán)節(jié)數(shù)據(jù)壁壘,充分激發(fā)數(shù)據(jù)資產(chǎn)價值。

1 大數(shù)據(jù)的主要特征

數(shù)據(jù)量大、速度快、類型多、復雜性高是大數(shù)據(jù)的主要自然特征。隨著大數(shù)據(jù)逐步成為驅(qū)動數(shù)字經(jīng)濟發(fā)展的核心要素,使其與勞動、資本、技術(shù)、土地一起構(gòu)成經(jīng)濟新范式,重視和利用數(shù)據(jù)要素價值已成為社會各界的廣泛共識。

1.1 體量巨大

對于當前各領域的數(shù)據(jù)集合,TB、PB的數(shù)據(jù)量級單位已不能滿足需求,目前已開始使用EB和ZB進行衡量。

1.2 速度快

一般指處理速度與產(chǎn)生速度。大數(shù)據(jù)往往和人工智能、物聯(lián)網(wǎng)等技術(shù)結(jié)合應用,對數(shù)據(jù)的實時響應要求高。大數(shù)據(jù)的處理效率又稱為“1秒定律”,即可以在秒級時間內(nèi)獲取分析結(jié)果。

1.3 維度多

大數(shù)據(jù)具有多個維度。以人為例,具有性別、年齡、身高、體重、身份證號碼、學歷、家庭住址等多個屬性。數(shù)據(jù)的多維度、多層次屬性應用到社會生產(chǎn)的各個領域,可以加速流程再造,提高生產(chǎn)效率,加速供需信息匹配,提高協(xié)同效率,從而創(chuàng)造更大的價值。

1.4 復雜性高

大數(shù)據(jù)復雜性高。由于記錄工具不同和應用場景不同,一方面,數(shù)據(jù)結(jié)構(gòu)不盡相同,呈現(xiàn)出文字、圖像、音頻、視頻等不同的形式;另一方面,在內(nèi)容邏輯層面也出現(xiàn)看似雜亂無章,實際有章可循的現(xiàn)象。

1.5 依附屬性強

與傳統(tǒng)有形資源不同,大數(shù)據(jù)具有虛擬性、無形性,無法單獨存在,往往需要依賴硬件設備存儲,依賴軟件平臺讀取、操作。只有將數(shù)據(jù)存儲在相應介質(zhì)并通過設備顯示,數(shù)據(jù)才能以更直觀的方式被感知、度量、傳輸、分析與應用,數(shù)據(jù)質(zhì)量的好壞、價值的高低才可能被評估。數(shù)據(jù)的虛擬性、無形性決定了其管理與數(shù)據(jù)平臺管理不可分割,數(shù)據(jù)的價值與平臺算力、算法模型密切相關,倒逼現(xiàn)行資產(chǎn)管理辦法升級完善。

1.6 關鍵生產(chǎn)要素

在農(nóng)業(yè)時代,土地是關鍵生產(chǎn)要素;工業(yè)時代以勞動、資本、技術(shù)作為關鍵生產(chǎn)要素;數(shù)字時代,隨著國家將數(shù)據(jù)列為第5大生產(chǎn)要素,大數(shù)據(jù)將參與到市場的投入、管理、產(chǎn)出和分配的各個階段。

2 大數(shù)據(jù)技術(shù)體系全景

隨著大數(shù)據(jù)技術(shù)體系的不斷成熟,內(nèi)部技術(shù)構(gòu)成不斷分化,從面向海量數(shù)據(jù)的存儲、處理、分析等需求的核心技術(shù),延展到數(shù)據(jù)管理、流通、安全等配套技術(shù),逐漸形成了層次清晰、分工完備的大數(shù)據(jù)技術(shù)體系,如圖 1所示。

1)數(shù)據(jù)基礎技術(shù)應對多種數(shù)據(jù)特征產(chǎn)生。針對大數(shù)據(jù)數(shù)據(jù)量大、數(shù)據(jù)源異構(gòu)多樣、數(shù)據(jù)時效性高等特征催生了高效完成海量異構(gòu)數(shù)據(jù)存儲與計算的技術(shù)需求。在這種需求下,傳統(tǒng)集中式計算架構(gòu)出現(xiàn)難以逾越的瓶頸,傳統(tǒng)關系型數(shù)據(jù)庫單機的存儲及計算性能有限,出現(xiàn)了分布式存儲及分布式計算框架。面向海量結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)批處理,出現(xiàn)了基于Hadoop、Hive和Spark生態(tài)體系的分布式批處理計算框架;面向時效性數(shù)據(jù)進行實時計算反饋的需求,出現(xiàn)了Storm、Flink及Spark Streaming等分布式流處理計算框架。

2)數(shù)據(jù)管理技術(shù)提升數(shù)據(jù)質(zhì)量與可用性。隨相對基本與急迫的數(shù)據(jù)存儲、計算需求已經(jīng)在一定程度上得到滿足后,如何進行數(shù)據(jù)管理與沉淀成為了一個主要的需求。由于企業(yè)內(nèi)部大量數(shù)據(jù)產(chǎn)生鏈條長、復雜度高,但普遍缺乏有效管理,常常存在數(shù)據(jù)獲取難、準確性低、實時性差、標準混亂等問題,導致數(shù)據(jù)后續(xù)的使用存在眾多障礙。在這種情況下,用于數(shù)據(jù)整合的數(shù)據(jù)集成技術(shù)以及用于實現(xiàn)一系列數(shù)據(jù)資產(chǎn)管理功能的數(shù)據(jù)管理技術(shù)隨之出現(xiàn)。

圖1 大數(shù)據(jù)技術(shù)體系及典型開源軟件[6]Fig.1 Big data technology system and typical open source software[6]

3)數(shù)據(jù)分析應用技術(shù)挖掘數(shù)據(jù)價值。為開展數(shù)據(jù)分析、挖掘數(shù)據(jù)價值,包括以BI工具為代表的統(tǒng)計分析與可視化展現(xiàn)技術(shù),以及以傳統(tǒng)機器學習、基于深度神經(jīng)網(wǎng)絡的深度學習為基礎的挖掘分析建模技術(shù)紛紛涌現(xiàn),支撐數(shù)據(jù)價值的挖掘并進一步將分析結(jié)果與模型應用于實際業(yè)務場景中。

4)數(shù)據(jù)安全流通技術(shù)助力安全合規(guī)的數(shù)據(jù)使用及共享。隨著數(shù)據(jù)價值得到挖掘,數(shù)據(jù)安全問題也愈發(fā)凸顯,數(shù)據(jù)泄露、數(shù)據(jù)丟失、數(shù)據(jù)濫用等安全事件層出不窮,如何應對大數(shù)據(jù)時代下的數(shù)據(jù)安全威脅,在安全合規(guī)的前提下使用及共享數(shù)據(jù)成為了備受矚目的問題。訪問控制、身份識別、數(shù)據(jù)加密、數(shù)據(jù)脫敏、隱私計算等數(shù)據(jù)保護技術(shù)正積極向更加適應大數(shù)據(jù)場景的方向不斷發(fā)展。

3 面向兩類典型數(shù)據(jù)處理場景的技術(shù)架構(gòu)

大數(shù)據(jù)處理技術(shù)可以分為批處理和流處理兩大類。

數(shù)據(jù)批處理通常處理+1數(shù)據(jù),用來支撐以“看”為主的數(shù)據(jù)應用。批處理非常適合對分布式數(shù)據(jù)倉庫中的歷史數(shù)據(jù)進行分析和計算,例如在計算總數(shù)和平均數(shù)時,必須將數(shù)據(jù)集作為一個整體加以處理,而不能將其視作多條記錄的集合。這些操作要求在計算進行過程中數(shù)據(jù)維持自己的狀態(tài)。數(shù)據(jù)處理耗時與數(shù)據(jù)量呈正相關,因此批處理不適合對處理時間要求較高的場合。數(shù)據(jù)批處理平臺通常和Hadoop、Hive、數(shù)據(jù)倉庫、ETL、維度建模、數(shù)據(jù)公共層等聯(lián)系在一起,其典型技術(shù)架構(gòu)如圖 2所示。

數(shù)據(jù)流式處理平臺的數(shù)據(jù)即時處理能力可以達到秒級甚至毫秒級延遲,可以支撐實時化、在線化的數(shù)據(jù)分析與展現(xiàn)類應用。流處理系統(tǒng)可以處理幾乎無限量的數(shù)據(jù),但同一時間只能處理一條(真正的流處理)或很少量(微批處理)數(shù)據(jù),不同記錄間只維持最少量的狀態(tài)。流式處理非常適合某些類型的工作負載,有近實時處理需求的任務。如分析服務器或應用程序錯誤日志,以及其他基于時間的衡量指標等。數(shù)據(jù)流式處理平臺的支撐技術(shù)主要包含4個方面:實時數(shù)據(jù)采集(如Flume)、消息中間件(如Kafka)、流計算框架(如Storm、Spark、Flink和Beam等)以及實時數(shù)據(jù)存儲(如列族存儲的HBase)。目前主流的實時數(shù)據(jù)平臺也都基于這4個方面相關的技術(shù)搭建,其典型技術(shù)架構(gòu)如圖 3所示。

4 大數(shù)據(jù)技術(shù)在中國航天的應用展望

通過在中國航天應用大數(shù)據(jù)技術(shù)與大數(shù)據(jù)治理理念,形成“全局數(shù)據(jù)互聯(lián),全程業(yè)務感知,全域決策智能”的大數(shù)據(jù)匯聚與分析能力?;诮y(tǒng)一數(shù)據(jù)管理綱領及數(shù)據(jù)治理工作體系,制定航天型號研制及經(jīng)營管控各環(huán)節(jié)的數(shù)據(jù)標準,保證全局數(shù)據(jù)模型清晰可控;建成航天特色數(shù)據(jù)資產(chǎn)全景圖,形成數(shù)據(jù)資產(chǎn)交換、共享、流通模式,構(gòu)建大數(shù)據(jù)協(xié)同創(chuàng)新體系;打造航天特色全域數(shù)據(jù)湖,實現(xiàn)全域數(shù)據(jù)入湖且入湖數(shù)據(jù)清潔、透明、安全,有效突破航天型號研制及經(jīng)營管控各環(huán)節(jié)數(shù)據(jù)壁壘;依托航天特色全域數(shù)據(jù)湖,實時感知、全局分析航天型號研制過程及企業(yè)經(jīng)營狀況,實現(xiàn)數(shù)據(jù)支撐決策、數(shù)據(jù)優(yōu)化流程;實現(xiàn)全域數(shù)據(jù)均能按標準實現(xiàn)標準化、規(guī)范化采存管理,完成全域數(shù)據(jù)治理,數(shù)據(jù)能為科研生產(chǎn)、經(jīng)營管控工作提供支撐。

為深入剖析大數(shù)據(jù)技術(shù)在中國航天數(shù)據(jù)治理中的潛在應用場景和價值,本文選取建模仿真這一高度依賴模型,同時又產(chǎn)生大量數(shù)據(jù)的領域作為典型代表進行分析。某航天研究所積累了同類型相似型號的大量物理真實實測試驗條件與實測性能數(shù)據(jù),通過應用大數(shù)據(jù)分析技術(shù),一方面對運載器飛行中的遙測參數(shù)值、變化趨勢以及關聯(lián)參數(shù)間表征的狀態(tài)是否一致等展開分析,另一方面建立基于真實實測數(shù)據(jù)的產(chǎn)品測試性能預測模型,在理論仿真與物理試驗測試之間,擴展一條新的性能預測方法,既提高性能測試試驗效率,又能提高仿真模擬計算的預測精度?;谛吞柈a(chǎn)品試驗時序大數(shù)據(jù),計算各項試驗參數(shù)和飛行器狀態(tài)參數(shù)之間的關系,完成對不同機器學習算法模型預測效果的分析,針對每類試驗參數(shù)優(yōu)選出預測精確最高的擬合訓練模型,以支撐在不同試驗場景中對飛行器多狀態(tài)參數(shù)綜合預測評估。

圖2 面向數(shù)據(jù)批處理的技術(shù)架構(gòu)設計[10]Fig.2 Technical architecture design for data batch processing[10]

圖3 面向數(shù)據(jù)流式處理的技術(shù)架構(gòu)設計Fig.3 Technical architecture design for data stream processing

在這一案例中,通過應用大數(shù)據(jù)分析技術(shù),基于試驗時序大數(shù)據(jù),實現(xiàn)部件技術(shù)狀態(tài)與遙測參數(shù)之間的聯(lián)系以及遙測參數(shù)之間相關性構(gòu)建,實現(xiàn)基于虛擬試驗的產(chǎn)品狀態(tài)預測評估,完善了試驗評估的技術(shù)手段,提升仿真準確率,協(xié)助縮減重復性的高耗資物理試驗,節(jié)約成本。

5 結(jié)論

在中國航天多年的復雜型號產(chǎn)品研制過程中,沉淀了大量數(shù)據(jù)資產(chǎn),同時,隨著產(chǎn)品數(shù)字化水平、數(shù)字化生產(chǎn)水平的大幅攀升,大量鮮活研制數(shù)據(jù)源源不斷產(chǎn)生,應用大數(shù)據(jù)技術(shù)激活數(shù)據(jù)資產(chǎn)、發(fā)掘數(shù)據(jù)價值的條件已然成熟。本文全面梳理了大數(shù)據(jù)的基本特征、大數(shù)據(jù)技術(shù)體系,并面向批、流兩類數(shù)據(jù)處理場景歸納了典型技術(shù)架構(gòu),結(jié)合建模仿真場景,展望了大數(shù)據(jù)技術(shù)在計算及建模仿真領域的應用前景,為數(shù)據(jù)治理工作打下堅實基礎。

猜你喜歡
批處理
就地取材用Iexpress命令封裝批處理
惡意批處理文件導致電腦黑屏、反復重啟、無響應的原因分析及應對思路
不裝軟件批處理為文件夾加鎖
批處理實現(xiàn)氣象數(shù)據(jù)定時分類存儲
“一片布”式零浪費服裝款式及圖案自動拼接設計
Photoshop照片批處理教學環(huán)節(jié)探究
借助批處理 讓Cortana變聰明
多幀CT圖像數(shù)據(jù)的測序數(shù)據(jù)挖掘與規(guī)律分析
關于批處理的研究與經(jīng)驗
批處理在高校計算機實驗室管理中的應用
石嘴山市| 南漳县| 类乌齐县| 溧阳市| 二连浩特市| 伊川县| 林州市| 静海县| 会宁县| 崇阳县| 沾益县| 晋中市| 万州区| 万荣县| 绥宁县| 南岸区| 水城县| 荔波县| 札达县| 容城县| 四平市| 石家庄市| 泰和县| 社旗县| 湛江市| 清流县| 扎赉特旗| 论坛| 呈贡县| 宜川县| 阳山县| 阳信县| 大兴区| 玉山县| 定西市| 岑溪市| 延庆县| 嵊州市| 南澳县| 成武县| 京山县|