王德政 汪紹飛 王梅
摘要:大數(shù)據(jù)已在各行業(yè)中落地應(yīng)用,從某種意義上說,已成為“隱身”基礎(chǔ)通用技術(shù)。一方面數(shù)據(jù)需要被更嚴(yán)密地組織與管理,才能切合各行業(yè)上層應(yīng)用的需要;另一方面大數(shù)據(jù)需要與人工智能(AI)、物聯(lián)網(wǎng)(IoT)等技術(shù)緊密結(jié)合,才能更好地為行業(yè)應(yīng)用挖掘其自身價值。大數(shù)據(jù)與數(shù)據(jù)治理、人工智能、物聯(lián)網(wǎng)等技術(shù)的融合,將促進(jìn)大數(shù)據(jù)技術(shù)的普及,為行業(yè)應(yīng)用的開發(fā)降低成本。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)治理;AI;IoT
1 大數(shù)據(jù)技術(shù)的發(fā)展趨勢
大數(shù)據(jù)已經(jīng)成為一種通用的基礎(chǔ)技術(shù)。作為基礎(chǔ)數(shù)據(jù)平臺,一方面數(shù)據(jù)需要被更嚴(yán)密地組織與管理,才能切合上層應(yīng)用的需要;另一方面大數(shù)據(jù)必須與各行業(yè)緊密結(jié)合,才能被深度挖掘出價值。
各行各業(yè)在數(shù)據(jù)組織與管理上普遍存在數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)質(zhì)量低、數(shù)據(jù)管理困難等挑戰(zhàn)。這些挑戰(zhàn)一方面需要通過管理手段來解決,另一方面也需要通過合理的技術(shù)手段進(jìn)行輔助。
大數(shù)據(jù)作為基礎(chǔ)技術(shù)與基礎(chǔ)平臺,必須與各個行業(yè)應(yīng)用相結(jié)合,在解決實際問題中創(chuàng)造價值。從行業(yè)角度看,幾乎所有的行業(yè)都可以結(jié)合大數(shù)據(jù)構(gòu)建更好的系統(tǒng)解決方案;從技術(shù)角度看,大數(shù)據(jù)與人工智能、物聯(lián)網(wǎng)之間有較為明顯的技術(shù)融合趨勢,未來這些領(lǐng)域?qū)⒁詳?shù)據(jù)為紐帶,一體化協(xié)同發(fā)展。
2 大數(shù)據(jù)治理技術(shù)的發(fā)展趨勢
大數(shù)據(jù)應(yīng)用在其組織與管理上遇到了很多困難與挑戰(zhàn):
(1)數(shù)據(jù)缺少業(yè)務(wù)定義,難以進(jìn)行業(yè)務(wù)分析;
(2)數(shù)據(jù)往往來自不同的系統(tǒng),缺乏統(tǒng)一的標(biāo)準(zhǔn),互通受阻;
(3)數(shù)據(jù)質(zhì)量參差不齊,其完整性、準(zhǔn)確性、一致性、時效性難以保證,分析結(jié)果的可信度大打折扣;
(4)數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)未能建立,跨業(yè)務(wù)、跨領(lǐng)域的分析難以開展;
(5)數(shù)據(jù)使用中安全與隱私保護(hù)不足,存在違反法律法規(guī)的風(fēng)險。
大數(shù)據(jù)要真正成為企業(yè)的核心資產(chǎn),其治理是必由之路。從2017年伊始,大數(shù)據(jù)治理已成為產(chǎn)業(yè)生態(tài)圈中的研發(fā)重點。不少企業(yè)正在積極地開展實踐,一般步驟為“建立組織架構(gòu)和規(guī)范→梳理應(yīng)用需求→梳理企業(yè)數(shù)據(jù)信息→引進(jìn)大數(shù)據(jù)治理技術(shù)平臺→治理數(shù)據(jù)”,治理后的數(shù)據(jù)成為企業(yè)資產(chǎn)為數(shù)據(jù)應(yīng)用與數(shù)據(jù)運營提供基礎(chǔ)。
大數(shù)據(jù)治理的最終目標(biāo)不僅僅是為了管理數(shù)據(jù),更是為了應(yīng)用數(shù)據(jù)。數(shù)據(jù)只有被使用不斷流通,才能最大限度地發(fā)揮其價值。因此大數(shù)據(jù)治理不能只關(guān)注數(shù)據(jù)本身,還要面向業(yè)務(wù)需求,根據(jù)用戶所需開展治理活動。大數(shù)據(jù)治理是一個系統(tǒng)工程,總體來看需要具備6方面的關(guān)鍵能力與技術(shù):
(1)統(tǒng)一元數(shù)據(jù)管理。元數(shù)據(jù)指“所有系統(tǒng)、文檔和流程中包含的所有數(shù)據(jù)的語境,是生數(shù)據(jù)的知識”[1],統(tǒng)一元數(shù)據(jù)管理已成為大數(shù)據(jù)治理的重要一環(huán),為大數(shù)據(jù)的質(zhì)量提升提供基礎(chǔ),使大數(shù)據(jù)的維護(hù)管理工作更加有效。
(2)數(shù)據(jù)標(biāo)準(zhǔn)管理。大數(shù)據(jù)治理要能夠有序開展,必須建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),為元數(shù)據(jù)的統(tǒng)一、數(shù)據(jù)的集成融合、數(shù)據(jù)的質(zhì)量提升等提供依據(jù)。
(3)大數(shù)據(jù)質(zhì)量管理。數(shù)據(jù)質(zhì)量是數(shù)據(jù)應(yīng)用的基礎(chǔ),通過大數(shù)據(jù)質(zhì)量管理工作,可以獲得干凈、可靠的數(shù)據(jù)。這是大數(shù)據(jù)治理的重要目標(biāo),也是發(fā)揮大數(shù)據(jù)價值的必要前提。
(4)主數(shù)據(jù)管理。主數(shù)據(jù)是跨系統(tǒng)、跨模塊、跨部門、跨地區(qū)、有高質(zhì)量要求、高時效要求、被各項業(yè)務(wù)反復(fù)使用的基礎(chǔ)性和敏感性數(shù)據(jù)。主數(shù)據(jù)是業(yè)務(wù)信息系統(tǒng)的神經(jīng)中樞,是業(yè)務(wù)運行和決策分析的基礎(chǔ),也被認(rèn)為是黃金數(shù)據(jù)[2]。通過對主數(shù)據(jù)的管理,保證了其完整性、一致性、精確性、及時性,這樣才能更好地支撐跨部門、跨應(yīng)用的數(shù)據(jù)融合的一些應(yīng)用需要。
(5)大數(shù)據(jù)集成[3]。大數(shù)據(jù)集成不僅僅是將數(shù)據(jù)在物理上集中存儲起來,還要依據(jù)數(shù)據(jù)標(biāo)準(zhǔn)、統(tǒng)一元數(shù)據(jù)的定義,將外部數(shù)據(jù)加工轉(zhuǎn)換為業(yè)務(wù)所需要的目標(biāo)數(shù)據(jù),建立數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)。
(6)大數(shù)據(jù)安全與隱私保護(hù)。數(shù)據(jù)信息化為人類生產(chǎn)和生活帶來便利的同時,也帶來前所未有的數(shù)據(jù)安全與隱私威脅,大到國家安全、企業(yè)經(jīng)營,小到個人隱私,都需要從不同的角度加強(qiáng)數(shù)據(jù)安全與隱私威脅。
通過大數(shù)據(jù)治理,獲得及時、準(zhǔn)確、可靠、安全脫敏后的高質(zhì)量數(shù)據(jù),可為大數(shù)據(jù)深入廣泛的應(yīng)用、企業(yè)的數(shù)據(jù)化轉(zhuǎn)型提供強(qiáng)有力的抓手。
3 大數(shù)據(jù)與AI協(xié)同的發(fā)展趨勢
人工智能(AI)在廣義上是指任何能夠讓計算機(jī)通過圖靈測試的方法和系統(tǒng);而狹義上則是指通過研究人類智能產(chǎn)生的方式來讓電腦模擬人的智能。
進(jìn)入21世紀(jì),隨著神經(jīng)網(wǎng)絡(luò)算法的不斷優(yōu)化,面向圖形處理器(GPU)的編程接口帶來了計算力的提升,這使得可以針對結(jié)構(gòu)更復(fù)雜(多層神經(jīng)元)的網(wǎng)絡(luò)高效完成訓(xùn)練。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)也因其復(fù)雜度和層數(shù)大幅度增加而改名為深度學(xué)習(xí)。我們可以把深度學(xué)習(xí)理解為以數(shù)據(jù)為基礎(chǔ)的復(fù)雜神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng),是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)模式驅(qū)動下的演進(jìn)和發(fā)展[4-5]。
Google在2016年將其戰(zhàn)略從“移動優(yōu)先”轉(zhuǎn)變?yōu)楝F(xiàn)在的“AI優(yōu)先”。在移動時代,通過其知識圖譜、自然語言處理、翻譯、語音識別、圖像識別、地圖等相關(guān)產(chǎn)品積累大量的數(shù)據(jù)和技術(shù),為今天Google的AI優(yōu)先戰(zhàn)略構(gòu)建堅實的基礎(chǔ)。所以,Google本質(zhì)上是一個以數(shù)據(jù)為基礎(chǔ)的公司,是一個大數(shù)據(jù)公司。
我們可以看到:隨著互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量迅速增加。云計算和大數(shù)據(jù)的興起,使得計算機(jī)存儲和處理數(shù)據(jù)的能力快速提升。從某種意義上說,大數(shù)據(jù)為AI提供數(shù)據(jù)處理能力,而AI為大數(shù)據(jù)提供應(yīng)用場景。例如:當(dāng)數(shù)據(jù)治理涉及跨多個系統(tǒng)與業(yè)務(wù)時,往往需要借助AI技術(shù)以提升其處理能力,才能滿足快速激增的海量數(shù)據(jù)以及快速發(fā)展的大數(shù)據(jù)應(yīng)用需要。
大數(shù)據(jù)與AI相互融合,已經(jīng)成為事實。AI技術(shù)通過大數(shù)據(jù),獲取突破性成果,而以AI技術(shù)為特征的大數(shù)據(jù)應(yīng)用則遍地開花,逐步滲透到各個行業(yè)和各個領(lǐng)域。我們面對的是一個以大數(shù)據(jù)應(yīng)用為標(biāo)志,以人工智能技術(shù)為特征的新時代。為客戶提供融合大數(shù)據(jù)平臺的AI解決方案是適應(yīng)當(dāng)前技術(shù)發(fā)展趨勢并且具備良好的市場需求的產(chǎn)品。
4 大數(shù)據(jù)與IoT協(xié)同的發(fā)展趨勢
物聯(lián)網(wǎng)本身不是新概念,在20世紀(jì)90年代就已被提出。最近,以物聯(lián)網(wǎng)為基礎(chǔ)的智慧生活、智慧城市、智慧地球等設(shè)想正在不斷成為現(xiàn)實,物聯(lián)網(wǎng)成為各技術(shù)巨頭競相布局的技術(shù)高地。
物聯(lián)網(wǎng)廣泛融合了大量的現(xiàn)有技術(shù),涉及到通信、大數(shù)據(jù)、人工智能、數(shù)據(jù)挖掘、云計算、自動化、電子、材料等眾多領(lǐng)域。其最核心的特性是連接與數(shù)據(jù):在連接方面,物聯(lián)網(wǎng)拓展了傳統(tǒng)通信網(wǎng)絡(luò)的功能和范圍,將其延伸到更為廣泛的物理世界;在數(shù)據(jù)方面,物聯(lián)網(wǎng)接入了種類繁多的海量設(shè)備,極大地拓展了網(wǎng)絡(luò)信息數(shù)據(jù)的來源渠道。據(jù)統(tǒng)計,新近全球創(chuàng)建、獲取和復(fù)制的數(shù)據(jù)總量中,20%來自物聯(lián)網(wǎng),而且增速最快。憑借越來越無處不在的連接、越來越豐富的數(shù)據(jù),物聯(lián)網(wǎng)正成為各類技術(shù)進(jìn)步的新動力和助推器[6]。
簡單的、局部的物聯(lián)網(wǎng)孤島應(yīng)用,其數(shù)據(jù)類型簡單、數(shù)據(jù)量小,很難形成規(guī)模和產(chǎn)業(yè)效應(yīng),影響力極其有限。而大數(shù)據(jù)存儲、大數(shù)據(jù)分析、云計算、人工智能等新興數(shù)據(jù)存儲和處理技術(shù)的出現(xiàn),滿足了物聯(lián)網(wǎng)的大數(shù)據(jù)存儲、智能化處理的要求,大大加速了物聯(lián)網(wǎng)的前進(jìn)步伐,加快了物聯(lián)網(wǎng)孤島應(yīng)用的融合。
在存儲方面,大數(shù)據(jù)擁有豐富的分布式云存儲系統(tǒng),可以滿足物聯(lián)網(wǎng)在大規(guī)模數(shù)據(jù)存儲方面的要求[7]。例如:Hadoop分布式文件系統(tǒng)(HDFS)、分布式列存儲系統(tǒng)(HBASE)、亞馬遜S3云存儲、微軟azure云存儲等。
在處理方面,面對不同的應(yīng)用場景,大數(shù)據(jù)提供了不同的大規(guī)模數(shù)據(jù)處理框架,可以實現(xiàn)對物聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)的離線和實時分析,發(fā)掘物聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)中更多潛在的價值,催生物聯(lián)網(wǎng)更多的應(yīng)用,如:MapReduce、Spark、Storm等。
在交換及共享方面,為解決物聯(lián)網(wǎng)應(yīng)用碎片化、孤島化的痛點,業(yè)界相關(guān)標(biāo)準(zhǔn)化組織正致力于對物聯(lián)網(wǎng)的數(shù)據(jù)模型和業(yè)務(wù)流程進(jìn)行規(guī)范化和標(biāo)準(zhǔn)化,如:開放移動聯(lián)盟(OMA)提出的輕量級機(jī)器到機(jī)器(LWM2M)架構(gòu);歐洲電信標(biāo)準(zhǔn)化協(xié)會(ETSI)發(fā)起的、由多個標(biāo)準(zhǔn)化組織共同成立的物聯(lián)網(wǎng)國際化標(biāo)組織oneM2M提供的oneM2M架構(gòu);由微軟、英特爾、三星、高通、思科等多家企業(yè)組成的開放連接基金會(OCF)提出的物聯(lián)網(wǎng)設(shè)備標(biāo)準(zhǔn)等。這些架構(gòu)和標(biāo)準(zhǔn)的提出,有力促進(jìn)了物聯(lián)網(wǎng)的發(fā)展[8]。
物聯(lián)網(wǎng)提供了廣泛海量的連接,可以獲得大規(guī)模的數(shù)據(jù);而大數(shù)據(jù)以及AI的相關(guān)技術(shù)提供了智能分析能力,包括機(jī)器學(xué)習(xí)以及深度學(xué)習(xí),可以用于分類、預(yù)測、自動決策以及視頻、圖像、語音的識別等。隨著物聯(lián)網(wǎng)采集數(shù)據(jù)的增多,智能化程度的提高,從這些數(shù)據(jù)中挖掘更多價值的需求就更加迫切,物聯(lián)網(wǎng)與大數(shù)據(jù)之間的技術(shù)融合將更加緊密。
5 結(jié)束語
一個技術(shù)的成熟,只有當(dāng)大眾意識不到其存在時,才算是真正成熟,例如:歷史上文字的發(fā)明、金屬冶煉的發(fā)明等。這些深刻改變?nèi)祟惿鐣募夹g(shù),在當(dāng)今社會或被“視而不見”,或被視為如砂石一般理所當(dāng)然存在的外部環(huán)境。
隨著市場應(yīng)用的深入,大數(shù)據(jù)與其他技術(shù)結(jié)合得越強(qiáng),其作為基礎(chǔ)技術(shù)的特征也就越顯著。或許在不久的將來,大數(shù)據(jù)將“無跡可尋”,但同時又無處不在。
參考文獻(xiàn)
[1] 麥考.元數(shù)據(jù)倉儲的構(gòu)建與管理[M]. 北京: 機(jī)械工業(yè)出版社, 2004
[2] 中國信息通信研究院. 數(shù)據(jù)資產(chǎn)管理實踐白皮書[C]//大數(shù)據(jù)產(chǎn)業(yè)峰會.北京: 中國信息通信研究院、數(shù)據(jù)中心聯(lián)盟, 2018
[3] 董欣. 大數(shù)據(jù)集成[M]. 北京: 機(jī)械工業(yè)出版社, 2017
[4] 孫運雷. 物聯(lián)網(wǎng)服務(wù)質(zhì)量動態(tài)保障方法研究[D]. 北京: 北京郵電大學(xué), 2014
[5] 鄧雪峰.設(shè)施農(nóng)業(yè)物聯(lián)網(wǎng)系統(tǒng)建模與模型驗證[D]. 北京: 中國農(nóng)業(yè)大學(xué), 2016
[6] 劉. 物聯(lián)網(wǎng)中多層/跨層接入管理關(guān)鍵技術(shù)[D]. 大連: 大連理工大學(xué), 2014
[7] 李開復(fù). 人工智能: 李開復(fù)談AI如何重塑個人、商業(yè)與社會的未來圖譜[M]. 北京:文化發(fā)展出版社,2017
[8] 吳軍.智能時代: 大數(shù)據(jù)與智能革命重新定義未來[J]. 榆林科技, 2017(1): 66