吳燕珍
摘要:大數(shù)據(jù)是當(dāng)今最熱門的研究項(xiàng)目,數(shù)據(jù)挖掘技術(shù)則是大數(shù)據(jù)分析的工具,該文從生活中常見的大數(shù)據(jù)進(jìn)行分析。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)分析
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)19-0014-02
當(dāng)今的世界是互聯(lián)網(wǎng)的世界,是大數(shù)據(jù)爆炸的時代,無論何時無論何地各行各業(yè)都有相關(guān)的大數(shù)據(jù)呈現(xiàn)出來,種種這些無一不在提醒我們已經(jīng)進(jìn)入大數(shù)據(jù)時代。
1 關(guān)于大數(shù)據(jù)
其實(shí)大數(shù)據(jù)并不僅僅指海量的數(shù)據(jù),把大型關(guān)系數(shù)據(jù)庫稱為大數(shù)據(jù)也有不對。大數(shù)據(jù)具有“高維、海量、實(shí)時”的特點(diǎn),就是說數(shù)據(jù)量大,數(shù)據(jù)源和數(shù)據(jù)的維度高,并且更新迅速的特點(diǎn)。而這些特點(diǎn)都是傳統(tǒng)方式難以應(yīng)對的,相關(guān)的技術(shù)就要升級,新的技術(shù)棧通常基于分布式架構(gòu)解決,而分布式架構(gòu)又帶來一致性、資源調(diào)度、性能優(yōu)化等多種問題,由此批處理、流計(jì)算、圖計(jì)算、即席查詢等方向都有發(fā)展。
大數(shù)據(jù)使用到的相關(guān)技術(shù)包括有數(shù)據(jù)采集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模塊預(yù)測和結(jié)果呈現(xiàn)等。傳統(tǒng)的數(shù)據(jù)挖掘就是在數(shù)據(jù)中尋找有價(jià)值的規(guī)律,這和現(xiàn)在熱炒的大數(shù)據(jù)在方向上是一致的??梢岳斫獬纱髷?shù)據(jù)是場景是問題,而數(shù)據(jù)挖掘是手段。大數(shù)據(jù)是包含數(shù)據(jù)挖掘的,兩者是息息相關(guān)的。
2 關(guān)于數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中挖掘出有價(jià)值的潛藏規(guī)律和知識。數(shù)據(jù)挖掘渴望完整而真實(shí)的原始數(shù)據(jù),去噪和樣本平衡很重要。數(shù)據(jù)挖掘的出發(fā)點(diǎn)是代替專家從大量的數(shù)據(jù)中挖掘出隱含的知識。實(shí)施過程涉及機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)、分布式存儲、分布式計(jì)算、可視化等,還需要掌握領(lǐng)域?qū)I(yè)知識。
數(shù)據(jù)挖掘的出現(xiàn)需要條件:海量的數(shù)據(jù);計(jì)算機(jī)技術(shù)大數(shù)據(jù)量的處理能力;計(jì)算機(jī)的存儲與運(yùn)算能力;交叉學(xué)科的發(fā)展。數(shù)據(jù)挖掘需要人工智能、數(shù)據(jù)庫、機(jī)器語言和統(tǒng)計(jì)分析知識等很多跨學(xué)科的知識。
3 在大數(shù)據(jù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
3.1超市中的應(yīng)用
沃爾瑪公司在歐洲的分店的有一個經(jīng)典的案例:沃爾瑪公司采用數(shù)據(jù)挖掘技術(shù)對歐洲店的一年的銷售數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)一個讓人驚訝的關(guān)聯(lián)結(jié)果:在居民區(qū)中紙尿布賣得好的店鋪啤酒也賣得很好。原因是歐洲的媽媽讓爸爸去超市買紙尿布時,爸爸通常都會順帶給自己買兩罐啤酒。因此紙尿布與啤酒一起銷售出去的機(jī)會是最多的。這是一個現(xiàn)代商場智能化信息分析系統(tǒng)發(fā)現(xiàn)的秘密。這個故事被公認(rèn)是商業(yè)領(lǐng)域數(shù)據(jù)挖掘的誕生。
通過類似的數(shù)據(jù)挖掘方法,發(fā)現(xiàn)商品與商品之間的關(guān)聯(lián)規(guī)則,在零售業(yè)更是應(yīng)用得爐火純青。在吉之島超市中,擺放壽司的地方總能看到芥末和醬油。超市里在牙膏的旁邊通常配備牙刷和剃須刀;洗發(fā)水的旁邊擺放香皂和浴巾;在水果店里蘋果的旁邊擺放香蕉;在市場中售賣活魚的檔口中也售賣姜、蔥、蕪荽,這樣一種商品的售賣可以促進(jìn)另一種商品的消費(fèi)。
3.2 公安系統(tǒng)執(zhí)法應(yīng)用
2018年4月,深圳交警結(jié)合視頻識別技術(shù),試點(diǎn)人工智能“刷臉”系統(tǒng),對交通違章行為進(jìn)行治理。人臉識別出違章者信息,5月1日上午9時,深圳市福田區(qū)國花路與桂花路交匯處,紅燈亮起時,一名身穿紅色工服的快遞員,因?yàn)殛J紅燈,被深圳實(shí)行“刷臉”執(zhí)法以來,開出第一張罰單。刷臉執(zhí)法系統(tǒng)主要通過視頻檢測到違章行為,深度學(xué)習(xí)人臉技術(shù),對人臉進(jìn)行實(shí)時提取和識別,自動儲存闖紅燈的人臉數(shù)據(jù),并通過實(shí)時搜索比對,通過數(shù)據(jù)對接手段,核實(shí)違章者身份。
目前人臉識別技術(shù)廣泛應(yīng)用在公安執(zhí)法系統(tǒng)中,警方只需將指定對象的臉部數(shù)據(jù)采集到公安系統(tǒng)數(shù)據(jù)庫中,那么只有該指定對象一出現(xiàn)在視頻中,系統(tǒng)就能精確地將識別出來。因此還被應(yīng)用于抓捕罪犯、尋人等。人臉識別技術(shù)的開發(fā)雖然需要借助其他技術(shù),但是其主要技術(shù)還是來自數(shù)據(jù)挖掘中的分類算法。
3.3 球隊(duì)布陣應(yīng)用
在2016年里約奧運(yùn)會,中國女排時隔12年再登頂,奪取了金牌。能在小組第四出線逆襲得到金牌,是難以想象的。這當(dāng)中郎平教練的得力指導(dǎo),隊(duì)員的艱苦訓(xùn)練技術(shù)提高,當(dāng)然很重要。然而,比賽時使用先進(jìn)的數(shù)據(jù)分析工具,才是獲勝的關(guān)鍵。我們在觀看每場排球比賽時,總能看到中方或外方的教練都拿著一個平面電腦在調(diào)兵遣將。
如何布陣以提升獲勝機(jī)會?當(dāng)前不管是排球或是足球比賽,這些球隊(duì)的教練都不約而同使用不同軟件公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件來優(yōu)化他們的戰(zhàn)術(shù)組合。教練可以用便攜式電腦或者平板電腦,隨時挖掘存儲在數(shù)據(jù)中心的服務(wù)器上的數(shù)據(jù)。對于過去一年甚至兩年中的每一場比賽,都按不同的事件被統(tǒng)計(jì)分類,如得分、助攻、失誤等等。時間標(biāo)記讓教練非常容易地通過搜索相應(yīng)球類比賽的錄像來理解統(tǒng)計(jì)發(fā)現(xiàn)的含義。例如:教練通過軟件分析發(fā)現(xiàn)本隊(duì)的A球員發(fā)球時,對方B球員如果不上場往往可以發(fā)球得分,因而會在對方B球員不在場時讓A出場發(fā)球,從而讓本隊(duì)得分幾率提高。
3.4 銀行應(yīng)用
銀行的主要功能除了儲蓄之外,就是貸款業(yè)務(wù)了。貸款是銀行最重要的業(yè)務(wù)之一,是通過賺取存取款利率之間的差價(jià)而獲取利潤。而貸款給誰?誰能如期還貸?因此信貸風(fēng)險(xiǎn)分析是非常重要的,這關(guān)系到銀行是否按時拿到還款,是否能賺到錢。銀行信貸風(fēng)險(xiǎn)包括正常、關(guān)注、次級、可疑和損失等風(fēng)險(xiǎn)。正常和關(guān)注這兩種風(fēng)險(xiǎn)對銀行信貸風(fēng)險(xiǎn)影響很小,一般情況下貸款人會按期償還本金和利息,貸款損失的概率較小。對于損失、可疑和次級這三種貸款風(fēng)險(xiǎn),銀行貸款就需要承擔(dān)很大的風(fēng)險(xiǎn)了。
銀行使用數(shù)據(jù)挖掘技術(shù)對貸款申請人的相關(guān)數(shù)據(jù)進(jìn)行分析,如貸款人年齡、收入、職業(yè)、貸款用途、貸款人及家庭經(jīng)濟(jì)情況、貸款金額和貸款期限進(jìn)行分類和篩選。建立信貸風(fēng)險(xiǎn)分析機(jī)制,提取分類規(guī)則并確定重要的決策屬性,選取最優(yōu)信貸評估模型對貸款申請人信用風(fēng)險(xiǎn)進(jìn)行分析、評估和預(yù)測,把信貸風(fēng)險(xiǎn)降至最低。
3.5 電子商務(wù)網(wǎng)站庫存預(yù)測
2017年的雙11購物節(jié),上海嘉定區(qū)朱橋鎮(zhèn)的劉先生從下單到收到快遞,共用時12分18秒。這是使用大數(shù)據(jù)分析,數(shù)據(jù)挖掘的結(jié)果。
了解客戶的實(shí)際需求以及潛在需求是電子商務(wù)網(wǎng)站的重點(diǎn)研究問題。結(jié)合用戶的瀏覽興趣、購買習(xí)慣和偏好、以及放入購物車的商品。通過數(shù)據(jù)挖掘,推測客戶的興趣偏好,預(yù)測他們的潛在購買可能,甚至可以準(zhǔn)確判斷出用戶的潛在需求。因此,商家就可以精準(zhǔn)地準(zhǔn)備貨物,不同的倉配點(diǎn)每種商品的庫存量都會根據(jù)挖掘結(jié)果備貨。從而可以做到從客戶下單到簽收,用時12分18秒就可以完成交易過程。由此可見,在大數(shù)據(jù)時代下,數(shù)據(jù)挖掘技術(shù)對于電子商務(wù)行業(yè)是極其重要的。
4 結(jié)束語
數(shù)據(jù)挖掘應(yīng)用在大數(shù)據(jù)時代非常廣泛,除了本文所提到的與生活息息相關(guān)的應(yīng)用外,還有一些用于高科技領(lǐng)域的大數(shù)據(jù)挖掘,甚至還會被犯罪分子用來作案。它就體現(xiàn)在我們的生活中,無論我們是否意識到它的存在。它已經(jīng)影響到我們?nèi)绾钨徫?、工作、搜索信息,甚至還會影響到我們的休閑、健康和安寧。
參考文獻(xiàn):
[1] Zhang Yue,Guo Shu-Li,Han Li-Na,Li Tie-Ling. Application and Exploration of Big Data Mining in Clinical Medicine.[J]. Chinese medical journal,2016,129(6).
[2] Yue Zhang,Shu-Li Guo,Li-Na Han,Tie-Ling Li. Application and Exploration of Big Data Mining in Clinical Medicine[J]. Chinese Medical Journal,2016,129(6).
[3] Gang Xin,Hui Yan. Study on the Optimization of Data Mining in Big Data[J]. Advanced Materials Research,2014,3326(989).
[4] Shabnam Shadroo,Amir Masoud Rahmani. Systematic survey of big data and data mining in internet of things[J]. Computer Networks,2018,139.
[5] SHI Guangren,ZHU Yixiang,MI Shiyun,MA Jinshan,WAN Jun. A Big Data Mining in Petroleum Exploration and Development[J]. Advances in Petroleum Exploration and Development,2014,7(2).
[6] 賈璐潔,張靖.數(shù)據(jù)挖掘在高校教務(wù)管理中的應(yīng)用[J].中國科技信息,2007(12).
[7] 趙軍,王曉.基于數(shù)據(jù)挖掘的第三方物流中心庫存需求預(yù)測模型[J].物流技術(shù),2014(33).