企業(yè)越發(fā)看重對商業(yè)數據的分析,開始接受以云、大數據得到分析即服務的模式,但企業(yè)面對眾多數據時不知道自己想要什么,或者自己想要的能否從海量數據中獲得。因為缺乏挖掘數據價值的能力,相當多的數據即便被生產、收集,還是白白浪費掉了。在Splunk總裁兼CEO Doug Merritt看來,如何利用這些數據,從中提取價值,才是企業(yè)要關心的問題。
M:一家IT公司有著眾多數據,它們來自服務器、防火墻、網絡以及移動App等產生的各種機器數據,但它們要么是非結構化的、要么結構化程度非常低。非結構數據的數量在極度膨脹,且種類越來越多,隨著IoT物聯(lián)網的發(fā)展,又增加了許多新的來源。這個行業(yè)遇到的一個挑戰(zhàn)是,需要在海量數據中提取結構以及意義。最被關心的是,如何從數據中獲取價值,獲取深度分析,獲取行動力以及智能?,F在有很多數據集,卻沒有產生價值。很多公司沒辦法理解海量數據。在全球范圍內,用戶對于私有云和公有云有著明確區(qū)分。75%的數據在自己的防火墻內,是第三方看不見的,其余25%是分享的。大部分人還是不愿意分享他們主要的數據。大家都想把控所有的數據,如何以一種經濟上可以承受的方式,建立合理的流程來存儲所有數據是另一個挑戰(zhàn)。
M:沒有意義和價值的數據是不存在的。我們會從別人覺得沒有用的垃圾數據中尋找價值。舉例來說,很多人認為日志文件(記錄在軟硬件運行時發(fā)生的事件的文件)是一種沒有用的數據,倘若我們能從中提取意義,就可以解決很多有意思的問題。比如按日志文件回溯,解決IT運營系統(tǒng)中宕機時間的問題,讓IT系統(tǒng)保持穩(wěn)定和良好的性能。對企業(yè)而言,想要成功,需要的不止是平臺,而是解決方案。所以我們的出發(fā)點要非常窄。譬如解決生產中的問題,就一定要實時地上傳數據,這樣才能及時作出判斷。
M:一般來說,就是有效地計算存儲數據,以提升存儲、處理數據的能力。無論結構化數據還是非結構化數據,隨著時間不斷增長,其價值也隨之改變,因此有熱數據、溫數據和冷數據之分。熱數據對企業(yè)非常重要,可以幫助決策、獲取洞見,其價值主要是在7天以內,發(fā)現安全或生產線上的問題。7天之后,數據會慢慢“冷卻”,主要用于分析,不再立即應用在運營上。我們會把變溫變冷的數據,轉移到下一個數據層級,往后面走的層級,對于性能要求沒有那么高,數據存儲成本也會更低。也就是說不要貪心,而是要把數據做價值區(qū)分,這對所有的行業(yè)都適用。
M:會是一個生態(tài)系統(tǒng)。遵循這樣一個策略,即幫助公司解決具體的問題,提供解決方案,比如個人識別信息,可能有一些公司專門做這樣的應用,同時數據平臺的擴展性會越來越好,而且使用便利。以我們的平臺為例,就已經有1500多個解決方案,對接全球各家公司。
M:數據領域正在真正走向機器學習、人工智能以及深度學習這3個非常重要的領域。已經有一些可視化的機器學習工具包投入使用,用戶通過拖拽、點擊就能夠完成數據操作。機器學習更是嵌入數據挖掘工具本身,讓這些應用可以有更高的有效性。比如,用一款數據安全產品甄別不好的用戶行為,就可以通過機器學習來做??梢酝ㄟ^尋找規(guī)律來甄別安全威脅是來自于內部,還是來自于外部,這些都可以基于機器學習來完成。(采訪:高松)