魏堅
摘要:現在很多行業(yè)對多項數據的分析是企業(yè)取得成功的一個強有力的支撐條件,如李克強總理在談到大數據分析時不斷的強調,經濟數據和目標的進一步調整,中小企業(yè)將面臨更大的壓力,互聯網金融除了解決便利性問題外,更重要的是如何圍繞特有的大數據資源展開對實體經濟的服務。
關鍵詞:大數據;數據的特征;分析運用
筆者最近看了一部好萊塢的勵志電影《點球成金》,是由布拉德·皮特主演的一部美國奧斯卡獲獎影片,所講述的是皮特扮演的棒球隊總經理利用計算機數據分析,對球隊進行了翻天覆地的改造,讓一家不起眼的小球隊能夠取得巨大的成功。在片中布拉德·皮特基于歷史數據,利用數據建模定量分析不同球員特點,合理搭配,重新組隊,并且打破傳統(tǒng)思維,通過分析比賽數據,尋找“性價比”最高球員,運用數據取得成功。
那么什么是大數據呢?對于“大數據”(Big data)研究機構Gartner給出了這樣的定義?!按髷祿笔切枰绿幚砟J讲拍芫哂懈鼜姷臎Q策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。在現在的信息成爆炸式的增長下,面對海量的數據,給我們帶來了思維上的革新:更多,更雜,更好。而大數據的4V特征更是值得我們去研究會。
第一,Volume 是對大數據在于數據結構上面的一個簡單的總結,它簡單的闡述了數據的單位換算和數據的不同結構,不同于傳統(tǒng)的數據結構,在現在的信息中,非結構數據的規(guī)模和增長速度遠遠超出了我們的預料,幾乎占據了總量的80%-90%,而且比結構化的數據增長量快10-15倍。
第二,Variety 這一塊體現了大數據的不同的數據結構以及其多樣性,很多不同的形式,比如圖片,音頻和其它復雜的形式,在大數據中,很多的結構是無序或沒有其固定的格式也沒有固定的語法和語義其模式也不明顯。
第三,Value 在信息爆炸的時代,大量無關的信息充斥著我們的互聯網,如何從這些信息當中剝離出有用的信息,就成了我們大數據要面對的問題,也因此出現了對于未來趨勢和可預測性分析的各種方法,如人工智能,搜索引擎和各種可行性算法。在這里,我們必須認識到,大數據分析不僅僅是一種技術,而是要產生生產價值,對于在大數據里去挖掘有用的信息,就好比在深海里去淘金,從海量數據中挖掘稀疏但珍貴的信息,價值的密度很低,也是大數據的一個重要的特征。
第四,Variety 主要是大數據的來源和處理的方式方法,對于大數據的來源,我們一般從互聯網,物聯網和企業(yè)的內外部去獲取,那么獲取后的數據如何去處理呢,在信息急速更迭的時代,我們在處理數據的時候一定要實時分析而不是批量式,要講究立竿見影的效果而不是事后諸葛亮,對于分析的數據要采取輸入,處理和丟棄,而且數據之間頻繁交互,比如游客在旅行途中上傳的圖片和日志,就與游客的位置、行程等信息有了很強的關聯性。
越來越多的行業(yè)已經認識到大數據的商業(yè)價值,像銀行這類的金融機構在對貸款、保險、發(fā)卡等多業(yè)務線數據集成分析、市場評估,新產品風險評估,股票等投資組合趨勢分析,來增加其市場份額,并且在一定程度上提高了客戶的忠誠度,既提高了銀行的整體收入,也降低了風險。對于零售產業(yè),可以在基于用戶的地理位置信息進行精準營銷,通過用戶的網絡社交習慣進行購買行為的分析,這樣既促進了用戶的購買熱情,也極大的順應了用戶的購買習慣,如某家商店是專門賣牛奶的,通過對用戶的購買行為分析得出在本店購買牛奶后又到了另外一家包子店去購買包子,且人數還不少,那么這家店鋪就可以考慮和包子鋪進行合作或者在店里增加賣包子的這個業(yè)務,使其利潤最大化。
企業(yè)在進行大數據分析架構時一般會采用以下幾個步驟:第一,在當前的數據里更加深挖并分析當前數據。第二,針對數據的多樣性和數據量進行結構化分析。第三,提高數據分析的速度。第四,保持現有的地位并發(fā)現新的模式。在這里美國的亞馬遜和塔吉特率先利用大數據來提高自身的競爭力,《紐約時報》的一篇報道曾引爆了整個美國:一天,一位美國父親氣勢洶洶的沖進了塔吉特的賣場,并大聲質問塔吉特的工作人員,為什么往她女兒的郵箱里發(fā)送帶有嬰兒用品的優(yōu)惠券,而他的女兒才讀高中,這讓他怒不可揭。
然而經過幾天后,他父親認識到他女兒真的懷孕了,因為他女兒在互聯網的搜索引擎上搜索的關鍵詞以及在社交網絡上的種種跡象和行為的軌跡,使得沃爾瑪捕捉到了她懷孕的信息。在沃爾瑪的數據分析模型里,許多孕婦在第2個妊娠期的開始會買許多大包裝的無香味護手霜;在懷孕的最初20周大量購買補充鈣、鎂、鋅的善存片之類的保健品。然后塔吉特經過25種的數據化模型分析在消費指數里建立了一個“懷孕指數分析”,通過這個指數的,塔吉特就會通過郵件和電話短信的方式給她們發(fā)送指定的優(yōu)惠券。
與塔吉特相比,亞馬遜在大數據分析上更加先進一布,亞馬遜 有一種“預測式發(fā)貨”的新專利,他們通過對用戶購買習慣和行為的數據的分析,可以在他們還沒有下單購物前,提前發(fā)出包裹。這項技術可以縮短發(fā)貨時間,從而降低消費者前往實體店的沖動。因為亞馬遜的大量數據表明,如果在網上購物的時候從下單到收貨之間的時間拖延的話可能會降低人們的購物意愿,導致他們放棄網上購物。所以亞馬遜根據自己的大數據模型分析,來了解和解析之前的訂單狀況,追蹤用戶的購物習慣,從而在他們提前下單前將包裹寄出,根據該專利文件,雖然包裹會提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹仍會暫存在快遞公司的轉運中心或卡車里。而亞馬遜的分析依據就是可能會參考之前的訂單、商品搜索記錄、愿望清單、購物車,甚至包括用戶的鼠標在某件商品上懸停的時間。
大數據正在改變我們的生活,它將所有依賴信息不對稱盈利的業(yè)務都將消失。也在顛覆一些傳統(tǒng)的行業(yè),帶來一場信息化的革命,正如一些專家所說:“大數據對政府、金融機構、企業(yè)來說,象空氣一樣不可或缺”。(作者單位:湖北省黃岡師范學院商學院)
參考文獻:
[1][美]伊恩·艾瑞斯(Ian Ayres) 著;宮相真 譯
[2]][美]伊森(Jean Paul Isson),哈里奧特(Jesse S.Harriott) 著;漆晨曦,劉斌 譯
[3][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶 著;盛楊燕,周濤 譯