傅一平
如今,數(shù)據(jù)成為了一種“新石油”,但是如何挖掘其價值?在數(shù)據(jù)的生命周期中有很多階段,這就是企業(yè)需要采用一些方法和措施處理從數(shù)據(jù)收集到獲得見解的整個生命周期的原因。幾乎每個經(jīng)歷了數(shù)字化轉(zhuǎn)型的企業(yè)都在努力利用收集到的大量數(shù)據(jù),實際上,對于大多數(shù)企業(yè)來說,85 % ~ 95 %的數(shù)據(jù)從未得到充分利用,因此造成浪費。
數(shù)據(jù)的生命周期有許多階段,其中包括數(shù)據(jù)獲取、創(chuàng)建數(shù)據(jù)工程/數(shù)據(jù)集以賦予原始數(shù)據(jù)意義、大容量存儲數(shù)據(jù)以供進(jìn)一步使用和分析、創(chuàng)建數(shù)據(jù)庫以探索數(shù)據(jù),最后,還可以使用高級分析或機器學(xué)習(xí)從數(shù)據(jù)中提取見解,同時保持?jǐn)?shù)據(jù)安全和完全的合規(guī)性。許多企業(yè)面臨的挑戰(zhàn)是如何更好地組合這樣的系統(tǒng),同時保持合理的成本并最大程度地減少部署和運營的時間,以及如何以更具意義的方式呈現(xiàn)數(shù)據(jù),以便人們能夠從中獲得見解。
企業(yè)需要的是處理從數(shù)據(jù)的采集到分析整個數(shù)據(jù)生命周期的方法,同時還要保持開源的優(yōu)勢以及利用內(nèi)部部署或混合云計算的能力。數(shù)據(jù)倉庫可以處理存儲和交付,但他們不能提供完整的解決方案。許多組織已經(jīng)實現(xiàn)了數(shù)據(jù)云,無論是通過純粹的開源產(chǎn)品(如Apache Hadoop)還是商業(yè)產(chǎn)品(如Talend,Informatica,Amazon Redshift,IBM,SAP,Oracle等),但這并不能解決整個數(shù)據(jù)生命周期方面的挑戰(zhàn),通常會迫使企業(yè)使用許多可能難以集成的附加異構(gòu)產(chǎn)品。
盡管開源軟件/系統(tǒng)似乎非常有吸引力,尤其是從成本角度來看,但“自行開發(fā)”實施功能解決方案的方法通常充滿挑戰(zhàn),而其“免費”并不是真正的“免費”。通過選擇一個完整的解決方案,可以顯著減少全面運營的時間,同時也降低了持續(xù)運營和支持的復(fù)雜性。從長遠(yuǎn)來看,這種方法可以為企業(yè)部署節(jié)省大量的投資。根據(jù)調(diào)查,復(fù)雜性和集成挑戰(zhàn)會導(dǎo)致多達(dá)50 % ~ 65 %的企業(yè)系統(tǒng)達(dá)不到預(yù)期或全部失敗。此外,非優(yōu)化系統(tǒng)的持續(xù)維護(hù)成本會對運營預(yù)算造成重大影響,估計這些成本可能是完全集成的解決方案成本的2~5倍。
除了增加以及對多種技術(shù)和可用資源有更多的需求之外,還有一個問題是,導(dǎo)致洞察延遲,并且可能永遠(yuǎn)無法實現(xiàn)。而采用基于開源的解決方案要有效得多,它已經(jīng)創(chuàng)建了所有必要的集成,以構(gòu)建可以輕松快速實施并最終得到有效支持的完整系統(tǒng)。
作為更完整數(shù)據(jù)生命周期解決方案的一個例子,Cloudera公司創(chuàng)建了一個與其Cloudera數(shù)據(jù)平臺(CDP)集成的方法,不僅包括數(shù)據(jù)采集和存儲,還支持機器學(xué)習(xí)和縮短洞察時間,同時還包括一個配置文件驅(qū)動的分層數(shù)據(jù)安全方法。它將數(shù)據(jù)采集、數(shù)據(jù)流、數(shù)據(jù)工程、數(shù)據(jù)倉庫、數(shù)據(jù)庫和機器學(xué)習(xí)(ML)集成在一個可擴展的框架內(nèi),并允許根據(jù)需要從不斷擴大的合作伙伴生態(tài)系統(tǒng)中集成其他功能。它可以在內(nèi)部部署、混合云或公共云上工作,當(dāng)部署為云計算實現(xiàn)時,它實際上可以消除與單個組件部署相關(guān)的延遲,從而可能節(jié)省獲得數(shù)據(jù)洞察的時間。
這一點至關(guān)重要,因為這種延遲可能會面臨高昂的成本或重大損失。例如,欺詐檢測延遲幾分鐘或幾小時可能會導(dǎo)致巨大損失。根據(jù)美國銀行家協(xié)會發(fā)布的2019年存款賬戶欺詐調(diào)查報告,美國銀行領(lǐng)域在2018年阻止了針對存款賬戶高達(dá)223億美元的欺詐攻擊。雖然金融欺詐分析通常被認(rèn)為是此類數(shù)據(jù)分析系統(tǒng)的主要應(yīng)用,但這只是冰山一角。
對健康數(shù)據(jù)或趨勢的延遲分析可能會造成病毒在未被發(fā)現(xiàn)的情況下傳播,同時也會因為缺乏適當(dāng)?shù)脑\斷和后續(xù)治療措施而帶來挑戰(zhàn)。隨著醫(yī)療機構(gòu)越來越多地使用遠(yuǎn)程醫(yī)療會話程序,并越來越依賴遙感器監(jiān)測和動態(tài)的健康分析,準(zhǔn)確地收集數(shù)據(jù)至關(guān)重要,因為任何由于錯誤數(shù)據(jù)而導(dǎo)致的誤診都會給患者和醫(yī)療系統(tǒng)帶來重大損失。
研究表明,誤診損失的費用占到醫(yī)療總費用的30 %。美國2018年在醫(yī)療保健方面的支出約為3.6萬億美元,平均每人約支出11 000美元。為了使遠(yuǎn)程醫(yī)療系統(tǒng)發(fā)揮更廣泛的作用,就必須擁有更強大的數(shù)據(jù)生命周期解決方案,從而消除或至少在很大程度上減少誤診及其相關(guān)問題。此外,采用在不同組織間共享個人數(shù)據(jù)的方法,以便更好地評估趨勢并提供更精確的分析,這是加強數(shù)據(jù)生命周期管理過程至關(guān)重要的另一個原因,它可以保護(hù)機密性并滿足所有相關(guān)的法規(guī)遵從性問題。零售業(yè)、制造業(yè)、制藥業(yè)和運輸業(yè)等行業(yè)領(lǐng)域都將從這種數(shù)據(jù)生命周期管理方法中受益。
當(dāng)人們進(jìn)入一個數(shù)據(jù)驅(qū)動和數(shù)字化轉(zhuǎn)型的世界時,必須具有一個更具包容性的數(shù)據(jù)生命周期管理平臺。在許多企業(yè)中,缺乏及時的洞察力會造成重大的財務(wù)或物理損失。企業(yè)應(yīng)該采用一種平臺的方法來管理數(shù)據(jù)生命周期,這種方法不需要廣泛的內(nèi)部集成,也不需要延長部署周期,無論是對于大型跨企業(yè)項目,還是對于快速啟動的單個或小型團隊項目。為了實現(xiàn)這一目標(biāo),采用集成的數(shù)據(jù)生命周期平臺解決方案至關(guān)重要。