国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)驅(qū)動(dòng)的互聯(lián)網(wǎng)時(shí)代

2014-01-14 07:41:22吳江
知識(shí)就是力量 2014年10期
關(guān)鍵詞:淘寶網(wǎng)數(shù)據(jù)量用戶

吳江

2014年9月的最后一周,阿里巴巴在紐約證券交易所(NYSE:BABA)正式上市,這是歷史最大規(guī)模的首次公開(kāi)募股(IPO),更標(biāo)志著互聯(lián)網(wǎng)進(jìn)入了一個(gè)新的時(shí)代 ,一個(gè)屬于中國(guó)本土互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)時(shí)代。

大數(shù)據(jù)的前世今生

大數(shù)據(jù)或稱海量數(shù)據(jù),指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理,并整理成為人類所能解讀的信息。在總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析,可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來(lái)察覺(jué)商業(yè)趨勢(shì),判定研究質(zhì)量,避免疾病擴(kuò)散,打擊犯罪或測(cè)定實(shí)時(shí)交通路況等。

大數(shù)據(jù)的定義看起來(lái)高高在上,事實(shí)上卻已經(jīng)和我們的日常生活息息相關(guān)。豆瓣音樂(lè)可以通過(guò)相似用戶群體的行為推斷出每個(gè)用戶最可能喜歡哪首歌,甚至喜歡看什么樣的電影。阿迪達(dá)斯可以通過(guò)其門店銷售數(shù)據(jù)的整合分析,更準(zhǔn)確地了解不同地域文化的消費(fèi)者對(duì)其產(chǎn)品款式的偏好,從而更智能地決定門店的庫(kù)存?zhèn)湄洸呗?。某婚戀網(wǎng)站更是正在試圖通過(guò)引入一款能夠識(shí)別相似臉的系統(tǒng),從用戶過(guò)往的選擇數(shù)據(jù)中總結(jié)歸納用戶喜歡何種臉型,讓用戶看到的異性推薦個(gè)個(gè)喜歡。淘寶網(wǎng)能夠預(yù)測(cè)每個(gè)用戶可能感興趣的商品是什么,由此可以生成對(duì)于每一個(gè)用戶的個(gè)性化推薦,這也就是大家經(jīng)常能看到的淘寶網(wǎng)側(cè)邊欄的商品推薦。通過(guò)更精確的分類商品信息的大數(shù)據(jù)分析,淘寶網(wǎng)更是可以回答很多一般人難以回答的有趣問(wèn)題,比如18歲的群體最喜歡什么顏色的T恤,或者南方人和北方人對(duì)于運(yùn)動(dòng)飲料的偏好有什么不同?

簡(jiǎn)單的用戶行為分析可能并不會(huì)產(chǎn)生太多的價(jià)值,而在一個(gè)極大規(guī)模上的用戶行為分析,往往可以從趨勢(shì)上得出非常有價(jià)值的預(yù)測(cè),在商業(yè)決策上尤其如此。以我們都知道的農(nóng)夫山泉礦泉水做一個(gè)例子,農(nóng)夫山泉想要獲得這樣一些市場(chǎng)數(shù)據(jù)幫助決策:超市里怎樣擺放水堆更能促進(jìn)銷售?什么年齡的消費(fèi)者在水堆前停留更久?他們一次購(gòu)買的量有多大?氣溫的變化讓購(gòu)買行為發(fā)生了哪些改變?競(jìng)爭(zhēng)對(duì)手的新包裝對(duì)銷售產(chǎn)生了怎樣的影響?這些問(wèn)題看似簡(jiǎn)單,卻很難做出有說(shuō)服力的準(zhǔn)確回答。

要回答這些問(wèn)題,需要收集大量的數(shù)據(jù)。來(lái)自農(nóng)夫山泉的業(yè)務(wù)員每天要來(lái)到當(dāng)?shù)爻信臄z10張照片:水怎么擺放、位置有什么變化、高度如何……一天要跑15個(gè)調(diào)研地點(diǎn),每天上傳150張照片,產(chǎn)生的數(shù)據(jù)量約為10M,這似乎并不是個(gè)大數(shù)字。而農(nóng)夫山泉在全國(guó)有10000個(gè)業(yè)務(wù)員,這樣每天的數(shù)據(jù)量就是100G,每月為3TB。雖然大家都清晰地知道,問(wèn)題實(shí)時(shí)的答案就在其中,但得出答案并不容易,這就需要大數(shù)據(jù)相關(guān)的技術(shù)做支持。

大數(shù)據(jù)的數(shù)學(xué)方法和技術(shù)革新

谷歌公司(Google)曾經(jīng)指出:“真正重要的不是我們可以做什么,而是我們能在什么樣的規(guī)模上做?!?/p>

如果你需要每天分析100行數(shù)據(jù),只需要有紙和筆就可以了。如果你需要每天分析100000行數(shù)據(jù),按照現(xiàn)代計(jì)算機(jī)的處理能力,你也僅僅需要一臺(tái)電腦,設(shè)計(jì)一個(gè)程序即可。但當(dāng)需要處理的數(shù)據(jù)級(jí)別到了1000000000這個(gè)級(jí)別(TB級(jí)別),一臺(tái)性能強(qiáng)大的服務(wù)器工作站恐怕已經(jīng)難以滿足你的需要了,特別是你需要實(shí)時(shí)或者接近實(shí)時(shí)的處理速度的時(shí)候。這樣的需求引領(lǐng)出了一個(gè)計(jì)算機(jī)與數(shù)值計(jì)算領(lǐng)域的熱點(diǎn)——分布式計(jì)算(Distributed Computing)。

分布式計(jì)算,即使用一個(gè)集群的計(jì)算機(jī)通過(guò)網(wǎng)絡(luò)連成系統(tǒng),把需要進(jìn)行大量計(jì)算的工程數(shù)據(jù)分區(qū)成小塊,由多臺(tái)計(jì)算機(jī)分別計(jì)算,在上傳運(yùn)算結(jié)果后,將結(jié)果統(tǒng)一合并得出數(shù)據(jù)結(jié)論的科學(xué)。如何將問(wèn)題進(jìn)行分割?如何均衡每個(gè)處理節(jié)點(diǎn)(即單個(gè)計(jì)算機(jī))的工作負(fù)荷?如何高效可靠地把單個(gè)節(jié)點(diǎn)的結(jié)果整合成最終的結(jié)果?為了從計(jì)算機(jī)硬件和軟件上解決這些問(wèn)題,多種多樣的計(jì)算模型和概念被設(shè)計(jì)出來(lái)。其中最有代表性的包括云計(jì)算、MapReduce(Hadoop)、虛擬化等等。而這股浪潮僅僅只能算剛剛開(kāi)始,如同馬云所說(shuō):我們正在從信息科技時(shí)代走向數(shù)據(jù)科技時(shí)代。

海量數(shù)據(jù)與互聯(lián)網(wǎng)新職業(yè)

玩轉(zhuǎn)大數(shù)據(jù),第一件重要的事情就是獲得海量的有價(jià)值的數(shù)據(jù)。而恰恰在這一點(diǎn)上,中國(guó)本土互聯(lián)網(wǎng)企業(yè)有著相當(dāng)?shù)膬?yōu)勢(shì)。中國(guó)人口眾多,經(jīng)濟(jì)活躍,有大量的互聯(lián)網(wǎng)用戶,用戶資源的豐富直接決定了用戶行為數(shù)據(jù)的豐富。淘寶網(wǎng)有著超過(guò)3億的注冊(cè)用戶,騰訊的注冊(cè)用戶數(shù)量早已超過(guò)10億,這些用戶數(shù)據(jù)本身無(wú)疑就是一座金礦。

阿里數(shù)據(jù)庫(kù)=40000個(gè)圖書館?

據(jù)報(bào)道,目前在阿里數(shù)據(jù)平臺(tái)事業(yè)部的服務(wù)器上,攢下了超過(guò)100PB已處理過(guò)的數(shù)據(jù)——也就是104857600GB。這相當(dāng)于40000個(gè)西雅圖中央圖書館,580億本藏書。

新一代的技術(shù)必然帶動(dòng)了新一代的技術(shù)人員需求。在大數(shù)據(jù)時(shí)代,“數(shù)據(jù)科學(xué)家”和“數(shù)據(jù)工程師”在硅谷已經(jīng)成為最炙手可熱的工作職位之一。相比傳統(tǒng)的軟件工程師,數(shù)據(jù)科學(xué)家更像是站在數(shù)學(xué)(統(tǒng)計(jì)學(xué))和計(jì)算機(jī)科學(xué)之間的群體,他們的日常工作既包括了軟件設(shè)計(jì)開(kāi)發(fā),又包括數(shù)據(jù)建模和統(tǒng)計(jì)分析,同時(shí)還要具備將數(shù)據(jù)處理范式轉(zhuǎn)化為可行的軟件解決方案的能力。本土互聯(lián)網(wǎng)企業(yè)也十分重視在數(shù)據(jù)科學(xué)上的人才儲(chǔ)備,在可預(yù)見(jiàn)的將來(lái),數(shù)據(jù)科學(xué)的從業(yè)者必將大受追捧。

(責(zé)任編輯/冷林蔚)

猜你喜歡
淘寶網(wǎng)數(shù)據(jù)量用戶
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
電子制作(2019年13期)2020-01-14 03:15:18
淺析淘寶網(wǎng)盈利模式的相關(guān)問(wèn)題
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
淘寶網(wǎng)司法拍賣的模式構(gòu)架
如何獲取一億海外用戶
宁远县| 常州市| 错那县| 屯留县| 阳高县| 白山市| 承德市| 苗栗市| 菏泽市| 天台县| 泾源县| 凤凰县| 古浪县| 常山县| 柳州市| 五河县| 咸丰县| 盐亭县| 石河子市| 常山县| 克拉玛依市| 抚远县| 民县| 宣恩县| 南丹县| 永平县| 永福县| 廊坊市| 博罗县| 宁化县| 白城市| 广州市| 铁岭县| 两当县| 襄垣县| 天长市| 蒙山县| 犍为县| 宜君县| 石柱| 温泉县|