国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代數(shù)據(jù)處理過程中的風(fēng)險(xiǎn)控制

2019-07-16 20:08程龍
科技傳播 2019年10期
關(guān)鍵詞:黑天鵝

程龍

摘 要 文章通過分析現(xiàn)階段市場主流大數(shù)據(jù)處理方式,及該流程下易產(chǎn)生的數(shù)據(jù)失真原因和導(dǎo)致的后果,提出相應(yīng)的有針對性的處理方式,從而討論大數(shù)據(jù)處理過程中的風(fēng)險(xiǎn)控制可行性,并對未來用戶數(shù)據(jù)隱私保護(hù)時(shí)代和海量數(shù)據(jù)背景下如何增強(qiáng)數(shù)據(jù)有效性收集提出部分設(shè)想。

關(guān)鍵詞 大數(shù)據(jù)挖掘;黑天鵝;樣本免疫;血字?jǐn)?shù)據(jù)

中圖分類號 G2 文獻(xiàn)標(biāo)識碼 A 文章編號 1674-6708(2019)235-0120-02

1 大數(shù)據(jù)處理現(xiàn)狀

目前行業(yè)內(nèi)大數(shù)據(jù)常用的處理流程可以概括為四步,分別是數(shù)據(jù)采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)分析以及挖掘。

1.1 數(shù)據(jù)采集

大數(shù)據(jù)的采集是通過多個(gè)數(shù)據(jù)庫介質(zhì)來接收發(fā)自客戶端的數(shù)據(jù)(隨著智能手機(jī)的普及,App端口采集已經(jīng)成為主要來源),且數(shù)據(jù)采集者可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高訪問量在峰值時(shí)達(dá)到上百萬或千萬級別,如“天貓雙11”和春運(yùn)搶票以及各種網(wǎng)購平臺促銷時(shí)的“秒殺”活動,都要求采集端部署大量數(shù)據(jù)庫才能支撐,負(fù)載均衡和分片處理將是采集端設(shè)計(jì)的重點(diǎn)考量范圍。

1.2 導(dǎo)入預(yù)處理

很多業(yè)內(nèi)流行的做法是在采集端進(jìn)行前端數(shù)據(jù)導(dǎo)入的大型分布式匯總,且在分布式儲存群中進(jìn)行數(shù)據(jù)的清洗和和預(yù)處理,甚至嵌入流式計(jì)算步驟。此步驟要注意的是百兆、千兆每秒的數(shù)據(jù)量處理難度較大。

1.3 統(tǒng)計(jì)分析

傳統(tǒng)統(tǒng)計(jì)與分析的需求端運(yùn)用EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright。實(shí)際運(yùn)用過程中我們常遇到批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求,這點(diǎn)應(yīng)當(dāng)區(qū)分考慮,同時(shí)統(tǒng)計(jì)、分析步驟涉及到的數(shù)據(jù)量十分巨大,近年來隨著數(shù)據(jù)采集量的爆炸式增長,系統(tǒng)資源占用往往沒有上線,這點(diǎn)硬件布局時(shí)應(yīng)當(dāng)充分考慮。

1.4 挖掘

市場上目前挖掘方式,主要是在現(xiàn)有數(shù)據(jù)根據(jù)客戶需求進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測的效果,高級別數(shù)據(jù)分析的需求,也往往是基于初級算法的嵌套性疊加。往年典型算法有用于聚類的K-Means、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的Naive Bayes,使用工具有Python、Hadoop等,該過程的難點(diǎn)往往是精準(zhǔn)把握用戶數(shù)據(jù)需求,再基于需求的基礎(chǔ)之上進(jìn)行算法的調(diào)整。

2 大數(shù)據(jù)失真的危害及風(fēng)險(xiǎn)

在處理流程中,采集、導(dǎo)入預(yù)處理、統(tǒng)計(jì)分析,都可以通過預(yù)設(shè)數(shù)據(jù)庫完成。而真正用于企業(yè)營銷、戰(zhàn)略、市場分析的核心數(shù)據(jù)挖掘階段則是完全無法具體量化,可以說不同行業(yè)和不同市場階段有著截然不同的數(shù)據(jù)庫需求,如果我們挖掘和提煉數(shù)據(jù)的過程嚴(yán)重或者部分失效,則在數(shù)據(jù)分析的蝴蝶效應(yīng)之下得出的結(jié)果一定與事實(shí)情況是天壤之別。

2014年電影《黃金時(shí)代》和2018年電影《阿修羅》大數(shù)據(jù)端在票房和市場預(yù)測方面失算的案例充分說明大數(shù)據(jù)的推演失真所造成的結(jié)果是災(zāi)難性的。隨著“關(guān)系鏈和數(shù)據(jù)流應(yīng)成為企業(yè)估值的新核心指標(biāo)”這一把數(shù)據(jù)價(jià)值提升到前所未有的理論誕生。各中商業(yè)資本開始瘋狂的引入大數(shù)據(jù)概念,各種相對應(yīng)所謂的數(shù)據(jù)分析公司應(yīng)運(yùn)而生。然而大數(shù)據(jù)真的那么神奇嗎?是否真的可以像宣傳的那樣神奇到對目標(biāo)無孔不入地分析?據(jù)資料統(tǒng)計(jì)《黃金時(shí)代》在百發(fā)有戲的發(fā)布會上,百度大數(shù)據(jù)部產(chǎn)品規(guī)劃負(fù)責(zé)人祖崢介紹了百度票房預(yù)測產(chǎn)品,通過百度搜索數(shù)據(jù)、新浪微博數(shù)據(jù)以及10年來電影行業(yè)數(shù)據(jù)、同類電影數(shù)據(jù)等,以及電影受眾分析,預(yù)測《黃金時(shí)代》票房將在2億至2.3億之間。由此可見其數(shù)據(jù)挖掘階段的主要參數(shù)是“百度搜索”“新浪微博”“電影行業(yè)歷史數(shù)據(jù)”等存量數(shù)據(jù)指標(biāo),雖然算法筆者個(gè)人不得而知。但作為一個(gè)軟件行業(yè)從業(yè)人員從數(shù)據(jù)源的角度分析:首先百度搜索和新浪微博等支流平臺其收集的只是所謂關(guān)注度數(shù)據(jù),我們無法將關(guān)注真正轉(zhuǎn)化為票房;其次,中國電影在票房統(tǒng)計(jì)上有先天的缺陷,影院對票房的瞞報(bào)早已成為業(yè)內(nèi)的潛規(guī)則,而21世紀(jì)初我國才開始建立票房統(tǒng)計(jì)制度,其時(shí)間周期不過10年左右。最后受眾分析方面,發(fā)行方和百度數(shù)據(jù)利用所謂的問卷調(diào)查為依據(jù)樣本,推演出數(shù)據(jù)結(jié)果殊不知這樣的數(shù)據(jù)嚴(yán)重受制于“受眾免疫”現(xiàn)象。(受眾免疫:泛指調(diào)查樣本在已知條件下對調(diào)查行為采取的與實(shí)際不符的行為方式,其結(jié)果會產(chǎn)生調(diào)查數(shù)據(jù)折射)。

3 大數(shù)據(jù)處理過程中的風(fēng)險(xiǎn)控制步驟

大數(shù)據(jù)究其核心無外是用過去推斷未來?;蚴怯眠^去既定的已經(jīng)發(fā)生的同類事件推測未來與之相似事件的結(jié)果。其誕生就飽受爭議。

筆者認(rèn)為,合理控制數(shù)據(jù)采集和統(tǒng)計(jì)分析過程中的數(shù)據(jù)源精準(zhǔn)度是減小和控制大數(shù)據(jù)推斷結(jié)果風(fēng)險(xiǎn)的核心要素。

具體步驟為:

1)淡化模糊數(shù)據(jù)的收集,精確采集源重點(diǎn)收集血字?jǐn)?shù)據(jù)。

隨著互聯(lián)網(wǎng)技術(shù)的全面運(yùn)用,海量數(shù)據(jù)的產(chǎn)生已遠(yuǎn)遠(yuǎn)大于存儲介質(zhì)的容量,如果“大數(shù)據(jù)”的收集只是一味求“大”不求“精”,那么所收集的混沌數(shù)據(jù)將毫無意義,即:掌握了所有數(shù)據(jù)其實(shí)等于沒掌握數(shù)據(jù)。而血字?jǐn)?shù)據(jù)則不同,(所謂血字?jǐn)?shù)據(jù)是指反應(yīng)事物本身聯(lián)系無法掩飾和修飾的唯一性數(shù)據(jù)如:居民身份證號碼、銀行卡等級、衛(wèi)星定位點(diǎn)等等無法或者掩飾難度極大的數(shù)據(jù)。其得名于柯南道爾福爾摩斯系列小說中經(jīng)典故事“血字的研究”)。在法律和保護(hù)消費(fèi)者范圍內(nèi)合法收集關(guān)鍵數(shù)據(jù)可以直接提高大數(shù)據(jù)的采集精度和推斷廣度,在源頭上解決數(shù)據(jù)收集過程中巨量的采集和超高的服務(wù)器荷載。不但節(jié)約企業(yè)硬件成本而且還能直觀提高采集效率,減少決策過程中蝴蝶效應(yīng)的發(fā)生概率。

2)增強(qiáng)數(shù)據(jù)挖掘過程中的企業(yè)獨(dú)特性,引入先進(jìn)分析方法和現(xiàn)代統(tǒng)計(jì)學(xué)、概率分布矩陣經(jīng)驗(yàn)來降低數(shù)據(jù)挖掘過程中小概率事件的發(fā)生風(fēng)險(xiǎn)。

市場調(diào)查公司AC尼爾森發(fā)布的“尼爾森數(shù)據(jù)”就是獨(dú)特?cái)?shù)據(jù)挖掘的典范。即對數(shù)據(jù)采取“質(zhì)量控制”。未來大數(shù)據(jù)時(shí)代尤其是金融領(lǐng)域,面對相同的數(shù)據(jù)不同的處理方式和挖掘手法可能得出的結(jié)果完全不同。正如喬治·索羅斯在《金融煉金術(shù)》一書中提到:在認(rèn)識函數(shù)中,參與者的認(rèn)識依賴于情鏡;在參與函數(shù)中,情境受參與者認(rèn)知的影響。

3)提出控制預(yù)警方案以應(yīng)對大數(shù)據(jù)時(shí)代的“黑天鵝事件”。

大數(shù)據(jù)反對派的關(guān)鍵王牌就是黑天鵝現(xiàn)象,持此觀點(diǎn)者普遍認(rèn)為黑天鵝現(xiàn)象不可預(yù)知如“911事件”“印度洋海嘯”“日本核泄漏”等極端事件無法通過歷史所謂的大數(shù)據(jù)和經(jīng)驗(yàn)去預(yù)知,而其造成的巨大風(fēng)險(xiǎn)將會嚴(yán)重透支常規(guī)事件中企業(yè)所取得的利潤。簡言之就是大的災(zāi)難造成的損失可能使正常事件積累的財(cái)富一夜化為烏有。但他們恰恰忽略了歷史上發(fā)生的黑天鵝事件本身就是大數(shù)據(jù)分析的最好素材基礎(chǔ),正式因?yàn)槠洫?dú)特性和唯一性反而造就了上文所說的血字?jǐn)?shù)據(jù),黑天鵝事件的大數(shù)據(jù)分析往往能夠更為精準(zhǔn),究其原因很大程度上是因?yàn)槭录旧淼莫?dú)一無二。少數(shù)的黑天鵝事件幾乎能夠解釋這個(gè)世界中的所有事情,從思想的勝利到歷史事件的變遷,到我們的個(gè)人生活。我們無法避免黑天鵝事件的發(fā)生,但恰恰是對以往事件的分析和統(tǒng)計(jì)研究可以避免和減少未來新的黑天鵝事件帶來的損失。這一點(diǎn)恰恰是黑天鵝事件中風(fēng)險(xiǎn)控制的靈魂所在。

4 結(jié)論

倫敦皇家學(xué)院的David Hand教授講過一句話,“現(xiàn)在我們有了一些新的數(shù)據(jù)來源,但是沒有人想要數(shù)據(jù),人們要的是答案”。大數(shù)據(jù)已經(jīng)到來,但它并沒有帶來新的真理。現(xiàn)在的挑戰(zhàn)是要吸取統(tǒng)計(jì)學(xué)中老的教訓(xùn),在比以前大得多的數(shù)據(jù)規(guī)模下去解決新的問題、獲取新的答案。自2018年歐盟新的用戶隱私法規(guī)實(shí)施以來,用戶日益覺醒的隱私保護(hù)觀念和海量數(shù)據(jù)中的有效性處理,已經(jīng)成為了大數(shù)據(jù)采集、導(dǎo)入、預(yù)處理和統(tǒng)計(jì)分析環(huán)節(jié)中的重要瓶頸。對此在未來的數(shù)據(jù)分析采集中,我們應(yīng)當(dāng)避免目前階段我國主流數(shù)據(jù)收集收集公司統(tǒng)計(jì)學(xué)和市場調(diào)查般的海量堆砌數(shù)據(jù),再花大的精力進(jìn)行后期處理;這種方法在早期PC端用戶時(shí)代和智能手機(jī)崛起初期有明顯效果,那時(shí)數(shù)據(jù)生成量有限且用戶對個(gè)人敏感數(shù)據(jù)的保護(hù)性并不十分強(qiáng)烈,而今我國已經(jīng)成為世界上數(shù)量最多的移動端用戶保有量國家,且2020年5G時(shí)代將全面來臨,巨量的峰值數(shù)據(jù)和兆億般的系統(tǒng)資源占有量負(fù)載,現(xiàn)有海量數(shù)據(jù)收集篩選法將會無法適用。對此,我們必須布局未來,從思路上進(jìn)行有效數(shù)據(jù)的挖掘處理機(jī)制探索,并形成體系化的處理工作流和新型架構(gòu)理論,才能全面應(yīng)對未來大數(shù)據(jù)處理過程中的風(fēng)險(xiǎn)。

參考文獻(xiàn)

[1]肖風(fēng).投資革命[M].北京:中信出版社,2013.

[2]喬治·索羅斯.金融煉金術(shù)[M].??冢汉D铣霭嫔?,1999.

[3]納西姆·尼古拉斯 塔勒布.黑天鵝[M].北京:中信出版社,2009.

[4]徐子沛.大數(shù)據(jù)[M].桂林:廣西師范大學(xué)出版社,2015.

[5]比爾·施瑪澤.大數(shù)據(jù):從概念到運(yùn)營[M].北京:中信出版社,2016.

猜你喜歡
黑天鵝
黑天鵝的飼養(yǎng)、繁殖與人工育雛
黑天鵝
黑天鵝
黑天鵝格里布
除了“黑天鵝”“灰犀?!眲e忽視了“大白象”
ASCENDO 9.5.6高級定制私人影院 黑天鵝,戰(zhàn)斧系列
“灰犀牛”“黑天鵝”
小區(qū)里的黑天鵝
市場突遇黑天鵝機(jī)構(gòu) 繼續(xù)減倉
直視“黑天鵝”
高阳县| 吉木乃县| 汽车| 钦州市| 苍山县| 惠州市| 丰县| 昌乐县| 新余市| 博兴县| 泗洪县| 布尔津县| 泰和县| 收藏| 芦溪县| 旌德县| 吉水县| 蒙山县| 平塘县| 鹰潭市| 中卫市| 邵阳县| 东平县| 罗山县| 海盐县| 昌黎县| 黑山县| 集贤县| 东乌| 宝应县| 丽江市| 渑池县| 奉贤区| 平凉市| 襄樊市| 普定县| 英吉沙县| 资溪县| 日照市| 建阳市| 太仓市|