国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

當(dāng)談?wù)摯髷?shù)據(jù)時(shí),我們談些什么

2012-04-29 00:44:03孫泠
IT經(jīng)理世界 2012年20期
關(guān)鍵詞:數(shù)據(jù)量結(jié)構(gòu)化監(jiān)控

孫泠

“大數(shù)據(jù)”的經(jīng)典定義是可以歸納為4個(gè)V:海量的數(shù)據(jù)規(guī)模(volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動(dòng)態(tài)的數(shù)據(jù)體系(velocity)、多樣的數(shù)據(jù)類型(variety)和巨大的數(shù)據(jù)價(jià)值(value)。

大數(shù)據(jù)首先要考慮的應(yīng)該是“大”——海量的數(shù)據(jù)規(guī)模。谷歌執(zhí)行董事長(zhǎng)艾瑞克.施密特曾說(shuō),現(xiàn)在全球每?jī)商焖鶆?chuàng)造的數(shù)據(jù)量等同于從人類文明至2003年間產(chǎn)生的數(shù)據(jù)量的總和。而具體到企業(yè)應(yīng)用領(lǐng)域,漫無(wú)邊際、浩如煙海的數(shù)據(jù)對(duì)企業(yè)并無(wú)意義,日立數(shù)據(jù)系統(tǒng)公司(HDS)副總裁兼CTO Hubert Yoshida表示,數(shù)據(jù)量的“大”是相對(duì)而言的概念,對(duì)于像SAP的HANA那樣的“內(nèi)存數(shù)據(jù)庫(kù)”來(lái)說(shuō),能把2 TB的數(shù)據(jù)用好就是勝利;而對(duì)于像谷歌這樣的搜索引擎,EB(1024×1024 TB)的數(shù)據(jù)量才能稱得上是大數(shù)據(jù)。

然而,海量數(shù)據(jù)的危機(jī)并不單純是數(shù)據(jù)量的爆炸性增長(zhǎng),它還牽涉到數(shù)據(jù)類型的改變。原來(lái)的數(shù)據(jù)都可以用二維表結(jié)構(gòu)存儲(chǔ)在數(shù)據(jù)庫(kù)中,如常用的Excel軟件所處理的數(shù)據(jù),稱之為結(jié)構(gòu)化數(shù)據(jù)。但是現(xiàn)在更多互聯(lián)網(wǎng)多媒體應(yīng)用的出現(xiàn),使諸如圖片、聲音和視頻等非結(jié)構(gòu)化數(shù)據(jù)占到了很大比重。有統(tǒng)計(jì)顯示,全世界結(jié)構(gòu)化數(shù)據(jù)年增長(zhǎng)率大概是32%,而非結(jié)構(gòu)化數(shù)據(jù)則是63%。2012年,非結(jié)構(gòu)化數(shù)據(jù)占有比例已經(jīng)達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的75%以上。而產(chǎn)生智慧的大數(shù)據(jù),往往是這些非結(jié)構(gòu)化數(shù)據(jù)。

“互聯(lián)網(wǎng)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)占比越來(lái)越大,約為大數(shù)據(jù)總?cè)萘康?5%,傳統(tǒng)行業(yè)的數(shù)據(jù)大概只有15%?!睂?duì)于百度這樣的互聯(lián)網(wǎng)公司,建立數(shù)據(jù)體系、研發(fā)消費(fèi)者畫像、品牌探針等基于大數(shù)據(jù)的應(yīng)用簡(jiǎn)直是天經(jīng)地義。百度副總裁王湛將百度的大數(shù)據(jù)策略描述為“數(shù)據(jù)+工具+應(yīng)用”,包括百度指數(shù)、司南、統(tǒng)計(jì)、搜索風(fēng)云榜和研究中心在內(nèi)的五大平臺(tái)數(shù)據(jù)已經(jīng)形成了一個(gè)數(shù)據(jù)集合體,全程記錄消費(fèi)者從需求、搜索、購(gòu)買,到使用和分享的整個(gè)歷程,對(duì)客戶進(jìn)行精準(zhǔn)營(yíng)銷。“通過(guò)5億消費(fèi)者的千億級(jí)行為數(shù)據(jù),百度構(gòu)建了搜索營(yíng)銷、無(wú)線推廣、聯(lián)盟受眾引擎、社交化營(yíng)銷、品牌洞察等多維度體系的百度商業(yè)產(chǎn)品藍(lán)圖?!?/p>

大數(shù)據(jù)帶來(lái)的挑戰(zhàn)還在于它的實(shí)時(shí)處理。在數(shù)據(jù)倉(cāng)庫(kù)誕生的第一天,一直就有一個(gè)話題——要把大查詢分解成小任務(wù),這些小任務(wù)由一臺(tái)臺(tái)的機(jī)器來(lái)完成?!拔覀兊囊笤谟冢蟽|條數(shù)據(jù)的分析能夠在5秒鐘內(nèi)完成。”中國(guó)民族證券信息技術(shù)部總經(jīng)理顏陽(yáng)表示。因?yàn)檫^(guò)往關(guān)聯(lián)性數(shù)據(jù)庫(kù)產(chǎn)品處理大量數(shù)據(jù)時(shí)的運(yùn)算速度都不快,Hadoop等加速數(shù)據(jù)查詢的分布式開源數(shù)據(jù)庫(kù)從邊緣走向主流;另外,數(shù)據(jù)存儲(chǔ)的廠商也不再拘泥于用傳統(tǒng)硬盤來(lái)存儲(chǔ)數(shù)據(jù),而嘗試使用快速閃存。

在商業(yè)社會(huì)中,“從數(shù)據(jù)中得到價(jià)值”一直都不是什么新鮮的東西,但是當(dāng)大數(shù)據(jù)時(shí)代到來(lái),經(jīng)濟(jì)的新增量逐漸顯露出來(lái)。盡管數(shù)據(jù)挖掘從“啤酒與尿布”開始做了幾十年,但是“大數(shù)據(jù)”與我們通常所說(shuō)的“數(shù)據(jù)”還是有顯著的不同。

花旗集團(tuán)今年聘請(qǐng)了一位名叫沃森的天才顧問(wèn),幫助其增強(qiáng)數(shù)字銀行業(yè)務(wù)。這位沃森還同時(shí)為包括WellPoint在內(nèi)的醫(yī)療服務(wù)公司提供咨詢,去年,他還在工作之余獲得了電視智力競(jìng)賽節(jié)目《危險(xiǎn)邊緣》的頭獎(jiǎng)。據(jù)沃森的朋友講,他還有其他不愿透露的企業(yè)職務(wù),年收入很快就會(huì)超過(guò)10億美元。這一天文數(shù)字的收入使他成為美國(guó)打工者中的超級(jí)精英……只不過(guò),沃森是一臺(tái)機(jī)器。

對(duì)數(shù)據(jù)進(jìn)行挖掘分析正在顛覆每一種類型的企業(yè)。位于紐約長(zhǎng)島的文藝復(fù)興科技公司(Renaissance Technologies)所管理的對(duì)沖基金,目前管理著150億美元的資產(chǎn)。這家公司或許是20年來(lái)業(yè)績(jī)最佳的對(duì)沖基金,而領(lǐng)導(dǎo)這家公司的是兩名來(lái)自IBM人工智能實(shí)驗(yàn)室的科學(xué)家,他們開發(fā)了許多數(shù)學(xué)模型用來(lái)進(jìn)行分析和交易,這些模型都是建立在海量數(shù)據(jù)基礎(chǔ)上的,具有可靠性并可進(jìn)行實(shí)際預(yù)測(cè),而最后的結(jié)果往往與他們預(yù)想的一樣。

瞧,當(dāng)我們?cè)谡務(wù)摯髷?shù)據(jù)的時(shí)候,我們最終談?wù)摰倪€是——錢。

8米長(zhǎng)虛擬鱷魚的大數(shù)據(jù)

今年夏天上映的《百萬(wàn)巨鱷》是國(guó)內(nèi)首部特效驚悚怪獸類型電影,片中的真正主角并不是嬌弱的大S,而是一條長(zhǎng)八米重達(dá)兩噸的巨型鱷魚,名叫“阿毛”。

“阿毛”是完全由特效制作產(chǎn)生,特效制作動(dòng)物的關(guān)鍵就在于質(zhì)感——皮膚的柔軟度、牙齒、眼神等細(xì)小部位的刻畫,稍有不慎就很容易露怯。為此,制作方北京歌亮傳媒有限公司召集了國(guó)內(nèi)最頂級(jí)的特效技術(shù)人員,花了3個(gè)月的時(shí)間為鱷魚形象做準(zhǔn)備。特效制作過(guò)程分為多個(gè)工種,如建模、燈光、材質(zhì)、渲染、動(dòng)畫、骨骼、肌肉動(dòng)力學(xué)、特效、毛發(fā)等。其中,水和毛發(fā)的制作被認(rèn)為是最難制作的特效種類的代表,但這也是電影《百萬(wàn)巨鱷》中運(yùn)用最多的部分。

傳統(tǒng)電影經(jīng)過(guò)前期策劃、拍攝以及后期調(diào)色、配音并加入音樂(lè)等幾個(gè)步驟后就可以上映了。但是拍攝一部需要特效制作的影片,前期拍攝與后期制作所需的時(shí)間通常是1:6,后期的特效制作成了一個(gè)十分關(guān)鍵的環(huán)節(jié)?!栋偃f(wàn)巨鱷》的拍攝和制作周期超過(guò)3年,其中大量的時(shí)間都花在了特效制作上,如何盡量縮短電影的制作周期,節(jié)省時(shí)間,以便更快獲得收益至關(guān)重要,而如此復(fù)雜的制作特效工作,需要多臺(tái)特效終端能夠及時(shí)、快速地處理大量影像數(shù)據(jù),在有限的工期內(nèi)高效地完成全片的特效制作工作,要求歌亮傳媒的存儲(chǔ)系統(tǒng)擁有更好的I/O處理能力和更高的數(shù)據(jù)吞吐量、更快的圖片渲染和下載速度,大幅減少數(shù)據(jù)量大造成的系統(tǒng)處理瓶頸,從而實(shí)現(xiàn)更適合海量影像文件處理的數(shù)據(jù)管理、虛擬化和數(shù)據(jù)保護(hù)。

最后,歌亮傳媒選擇的是參與了《阿凡達(dá)》、《功夫熊貓》、《哈利波特》系列以及《暮光之城》等后期制作的日立數(shù)據(jù)系統(tǒng)公司的大數(shù)據(jù)存儲(chǔ)平臺(tái)。僅2011年,使用該平臺(tái)的影視作品全年為全球影視產(chǎn)業(yè)貢獻(xiàn)了近40億美元的票房收入。

在影片的后期處理過(guò)程中,特效制作需要快速調(diào)用容量很大的圖片和影像素材等文件,因此特效師往往需要等待系統(tǒng)處理來(lái)搜索到想要的圖片,這段時(shí)間就成為對(duì)特效師工作無(wú)效的“純等待”時(shí)間。通過(guò)解決多用戶并發(fā)訪問(wèn)文件系統(tǒng)較慢的問(wèn)題,歌亮的整個(gè)系統(tǒng)的數(shù)據(jù)讀取速度得到了明顯提升——可以同時(shí)為多人提供優(yōu)越的讀寫服務(wù),散文件讀寫也更加流暢,特效師和相關(guān)工作人員直接獲得影像文件的速度提高30%~40%,大大提高了特效師們的創(chuàng)作效率,也不會(huì)讓一些即興的創(chuàng)作靈感因?yàn)閿?shù)據(jù)調(diào)用的等待而消失殆盡。同時(shí),通過(guò)多系統(tǒng)平臺(tái)的統(tǒng)一管理和權(quán)限設(shè)置,使得操作人員的誤操作減少,從另一個(gè)方向上提高了工作效率;得益于存儲(chǔ)系統(tǒng)的高可靠性,在讀取大量素材數(shù)據(jù)文件時(shí),能夠保障特效渲染工作長(zhǎng)期不間斷穩(wěn)定運(yùn)行,把浪費(fèi)的時(shí)間降到最低。

多方合力,為整個(gè)《百萬(wàn)巨鱷》特效制作工作的快速高質(zhì)完成提供了重要保障。所有的工作人員都能夠?qū)r(shí)間和金錢花在“刀刃”上,讓最終所產(chǎn)出作品的質(zhì)量得到了實(shí)質(zhì)性的提升,電影震撼力也大大加強(qiáng)。

“電子眼”的后端智慧

大數(shù)據(jù)對(duì)于視頻監(jiān)控行業(yè)不是個(gè)新鮮話題。

海康威視副總裁兼CTO蔣海青介紹,大數(shù)據(jù)技術(shù)已經(jīng)在一些地方政府主導(dǎo)的“智慧城市”項(xiàng)目中有了實(shí)施,“平安城市”視頻監(jiān)控應(yīng)用是項(xiàng)目的重要組成部分。

作為全球視頻監(jiān)控產(chǎn)品的領(lǐng)軍企業(yè),??低曉趪?guó)內(nèi)參與的“平安城市”應(yīng)用是視頻監(jiān)控領(lǐng)域規(guī)模最大、業(yè)務(wù)最復(fù)雜的系統(tǒng),其視頻接入規(guī)模從成千上萬(wàn)到十幾萬(wàn)、甚至幾十萬(wàn)都有,其中涉及了治安監(jiān)控、指揮通信、偵查破案、規(guī)范執(zhí)法、社會(huì)服務(wù)等多個(gè)分區(qū)領(lǐng)域,“而且現(xiàn)在視頻監(jiān)控所采集的視頻質(zhì)量也從標(biāo)清進(jìn)步到了高清的時(shí)代,因此大家可以想象一個(gè)大型‘平安城市項(xiàng)目所產(chǎn)生的數(shù)據(jù)信息量有多大?而視頻監(jiān)控所產(chǎn)生的數(shù)據(jù)無(wú)論在規(guī)模還是結(jié)構(gòu)上,都符合大數(shù)據(jù)的定義。”蔣海青表示。

“平安城市”視頻監(jiān)控采集到的海量數(shù)據(jù)也和其他種類的大數(shù)據(jù)一樣,只有進(jìn)行智能、高效處理才更具價(jià)值。蔣海青指出:“傳統(tǒng)的視頻監(jiān)控通常都需要人工監(jiān)控,可人一般對(duì)視頻只有20分鐘的有效監(jiān)控,之后注意力和關(guān)注點(diǎn)就下降了?!毕啾戎?,智能化的監(jiān)控技術(shù)不但不會(huì)像人一樣產(chǎn)生疲勞,能夠不間斷地運(yùn)行,而且它“還能從大量非結(jié)構(gòu)化的視頻數(shù)據(jù)中提取出有價(jià)值的信息,將視頻監(jiān)控的應(yīng)用范圍從過(guò)去和目前以事后查看為主,慢慢轉(zhuǎn)變?yōu)槭虑邦A(yù)警,這就可以為公安、交通等各行各業(yè)提供更為有效的業(yè)務(wù)信息支持。”

上述兩個(gè)特點(diǎn)決定了“平安城市”視頻監(jiān)控應(yīng)用需要大數(shù)據(jù)技術(shù)的支撐。“我們也曾經(jīng)想過(guò)用原有的關(guān)系型數(shù)據(jù)庫(kù)來(lái)承載相關(guān)的數(shù)據(jù)和應(yīng)用,但是關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)沒(méi)有辦法支持海量的、非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)?!笔Y海青稱,??低曌罱K選擇的是英特爾的Hadoop大數(shù)據(jù)平臺(tái)。

海康威視認(rèn)為應(yīng)用端需要的采集點(diǎn)很多、視頻通道非常大,因此“處理平臺(tái)不能是全集中式也不可能是全分布式,而應(yīng)該是兩者的結(jié)合”,而Hadoop的靈活性對(duì)此非常適用;??低曇贖adoop的數(shù)據(jù)管理和組織層上加入用于視頻數(shù)據(jù)的圖像處理、分析、分類技術(shù),基于語(yǔ)義的分布式視頻搜索技術(shù)來(lái)對(duì)它們進(jìn)行挖掘,英特爾的開放平臺(tái)也提供了充足的創(chuàng)新空間。這一方案目前已經(jīng)在海康威視參與部署的某些城市的智能交通監(jiān)控領(lǐng)域得到了應(yīng)用,它可以掌控城市交通攝像頭覆蓋區(qū)域中任一車輛的行駛狀態(tài)、運(yùn)行軌跡,分析出其是否違章行為或有潛在犯罪可能性,而且還能對(duì)海量交通信息進(jìn)行比對(duì)、分析和預(yù)測(cè),實(shí)現(xiàn)車輛布控、擁堵狀態(tài)服務(wù)、出行最優(yōu)路徑規(guī)劃、交通管理服務(wù)等功能。

未來(lái),??低曔€計(jì)劃將這一方案應(yīng)用于小微企業(yè)或個(gè)人用戶,例如將一些小店鋪、連鎖超市的視頻監(jiān)控通過(guò)云服務(wù)的方式整合起來(lái),通過(guò)分析其視頻監(jiān)控?cái)?shù)據(jù)提供潛在風(fēng)險(xiǎn)的預(yù)警?!斑@樣的系統(tǒng)是完全基于互聯(lián)網(wǎng)的平臺(tái),所以它的數(shù)據(jù)量可能比‘平安城市的規(guī)模還要大,數(shù)據(jù)的采集、分析、存儲(chǔ)及檢索的難度還要高?!笔Y海青稱。

3G上網(wǎng)“明白賬”

用微信聯(lián)系上一群好友,然后在手機(jī)上找到一家附近的特色餐廳,大家紛紛開著導(dǎo)航過(guò)去,上菜前低頭看微博,菜上了不吃先拍照分享,這就是一部分當(dāng)代都市人的真實(shí)生活寫照。

在智能手機(jī)走進(jìn)千家萬(wàn)戶,3G網(wǎng)絡(luò)普及,流量飛速增長(zhǎng)的今天,對(duì)于流量、上網(wǎng)記錄的投訴也同時(shí)以不可控制的速度遞增,甚至運(yùn)營(yíng)商也曾被消費(fèi)者以“欺詐”等名義起訴,類似于“您的智能手機(jī)可能進(jìn)行了系統(tǒng)或軟件的更新”等含糊的解答再也應(yīng)對(duì)不了消費(fèi)者的質(zhì)疑。為客戶提供上網(wǎng)記錄查詢并非我們想象的這么簡(jiǎn)單。

這個(gè)查詢系統(tǒng)需要提供海量級(jí)的數(shù)據(jù)應(yīng)用。今年上半年,我國(guó)移動(dòng)互聯(lián)網(wǎng)用戶已達(dá)3.88億,同期國(guó)內(nèi)某電信運(yùn)營(yíng)商月移動(dòng)上網(wǎng)記錄也增至上萬(wàn)億條之多,而且每半年時(shí)間其上網(wǎng)記錄數(shù)量都會(huì)成倍遞增。特別是移動(dòng)上網(wǎng)記錄擁有高容量、數(shù)據(jù)類型多樣化、持續(xù)不斷增長(zhǎng)刷新以及能夠從中挖掘出有價(jià)值的信息這四個(gè)基本特征,算是典型的“大數(shù)據(jù)”,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)根本無(wú)法應(yīng)對(duì)上網(wǎng)記錄的存儲(chǔ)、管理和處理重任。

有運(yùn)營(yíng)商已進(jìn)行過(guò)測(cè)試:當(dāng)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)承載百億條數(shù)據(jù)的時(shí)候,就已開始有心無(wú)力,一個(gè)查詢請(qǐng)求有可能幾個(gè)小時(shí)都不能返回結(jié)果。所以,針對(duì)大數(shù)據(jù)的一系列管理和處理技術(shù)也就成為了運(yùn)營(yíng)商構(gòu)建高效透明查詢系統(tǒng),樹立誠(chéng)信服務(wù)的關(guān)鍵技術(shù)。

國(guó)內(nèi)某3G服務(wù)的運(yùn)營(yíng)商近期就采用一套基于英特爾架構(gòu)的解決方案率先化解了這個(gè)難題。這套解決方案的核心硬件和軟件平臺(tái)分別是基于英特爾至強(qiáng)處理器的服務(wù)器,以及英特爾Hadoop發(fā)行版,后者可以為大數(shù)據(jù)提供分布式、橫向可擴(kuò)展的數(shù)據(jù)組織與管理功能,并將應(yīng)用負(fù)載分散到硬件系統(tǒng)的每個(gè)節(jié)點(diǎn)上。

最終,該運(yùn)營(yíng)商成功構(gòu)建了移動(dòng)用戶上網(wǎng)記錄查詢與分析支持系統(tǒng)。該系統(tǒng)使得相關(guān)記錄檢索速度達(dá)到了秒級(jí),即輸入任何一個(gè)城市的號(hào)碼,其詳細(xì)上網(wǎng)記錄會(huì)在1~2秒種的時(shí)候內(nèi)被檢索出來(lái);在用戶界面中輸入號(hào)碼后,瞬間就可以得到每天的流量記錄,詳細(xì)的網(wǎng)站地址,在什么位置上的網(wǎng),用的是什么網(wǎng)絡(luò)以及起始時(shí)間等等,用戶再有任何質(zhì)疑,運(yùn)營(yíng)商的客服人員都可以通過(guò)清晰明確地答復(fù),消除他的疑慮。

“因?yàn)橛辛舜髷?shù)據(jù),有了現(xiàn)在的這些技術(shù)支持,以前需要3-6個(gè)月才能查詢的記錄我們現(xiàn)在只需要幾分鐘,甚至更快?!边\(yùn)營(yíng)商負(fù)責(zé)人表示,“這些數(shù)據(jù)的挖掘分析還將為最終客戶的使用體驗(yàn)展現(xiàn)出更高的價(jià)值?!?/p>

猜你喜歡
數(shù)據(jù)量結(jié)構(gòu)化監(jiān)控
The Great Barrier Reef shows coral comeback
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
電子制作(2019年13期)2020-01-14 03:15:18
你被監(jiān)控了嗎?
Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
看監(jiān)控?cái)z像機(jī)的4K之道
黄龙县| 乌审旗| 太康县| 平度市| 井陉县| 龙山县| 华池县| 内乡县| 惠水县| 清水河县| 丹寨县| 霍城县| 鄂州市| 云阳县| 台北市| 三都| 永吉县| 阿荣旗| 读书| 古交市| 肃南| 兴安县| 珠海市| 宣城市| 育儿| 正安县| 信阳市| 开鲁县| 万盛区| 滨州市| 肥乡县| 富民县| 江西省| 乌什县| 绍兴市| 洪湖市| 普格县| 民和| 武乡县| 嘉义县| 天水市|