国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘作為交叉學(xué)科的特點(diǎn)

2017-04-20 14:32:34趙義軍商夢嬌
時(shí)代金融 2017年9期
關(guān)鍵詞:數(shù)據(jù)倉庫機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘

趙義軍+商夢嬌

【摘要】本文主要講述了數(shù)據(jù)挖掘的內(nèi)涵以及作為機(jī)器學(xué)習(xí),數(shù)據(jù)倉庫,統(tǒng)計(jì)學(xué),智能決策等多個學(xué)科的交叉學(xué)科的特點(diǎn)。

【關(guān)鍵詞】數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí) 數(shù)據(jù)倉庫 統(tǒng)計(jì)學(xué) 智能決策

20世紀(jì)90年代后期,信息技術(shù)、計(jì)算機(jī)以及網(wǎng)絡(luò)技術(shù)迅猛發(fā)展,人類社會從此邁進(jìn)了一個嶄新的數(shù)字時(shí)代。但是,精彩紛呈的數(shù)據(jù)也帶來了利用這些數(shù)據(jù)的煩惱,怎樣才能充分利用這些數(shù)據(jù),怎樣才能從中得到最有價(jià)值的信息,是我們共同的目標(biāo)和心愿,而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),則在很大程度上解決了這些問題,使大數(shù)據(jù)時(shí)代迎來了一個春天。

一、數(shù)據(jù)挖掘的內(nèi)涵

大多數(shù)人認(rèn)為,數(shù)據(jù)挖掘(data mining)的概念最早是由1995年Fayyad在知識發(fā)現(xiàn)會議上所提出來的,他認(rèn)為數(shù)據(jù)挖掘是一個自動或半自動化地從大量數(shù)據(jù)中發(fā)現(xiàn)有效的、有意義的、潛在有用的、易于理解的數(shù)據(jù)模型的復(fù)雜過程[1]。在實(shí)際問題的解決過程中,人們慢慢總結(jié)出數(shù)據(jù)挖掘的真正內(nèi)涵,那就是,數(shù)據(jù)挖掘是一項(xiàng)以發(fā)現(xiàn)數(shù)據(jù)中有價(jià)值的模式和規(guī)律為基本目標(biāo)的獨(dú)立的數(shù)據(jù)組織和協(xié)作的建模歷程。數(shù)據(jù)挖掘是為發(fā)現(xiàn)大規(guī)模數(shù)據(jù)中所隱藏的有意義的模式和規(guī)律而進(jìn)行的探索、實(shí)驗(yàn)和分析。數(shù)據(jù)挖掘是一門需要結(jié)合各行各業(yè)領(lǐng)域知識的交叉學(xué)科。

二、數(shù)據(jù)挖掘的特點(diǎn)

數(shù)據(jù)挖掘作為一種新型門類,自然有它自己獨(dú)特的特點(diǎn),但是它并不專屬于某一個學(xué)科門類,而是多種學(xué)科的交叉,相關(guān)的學(xué)科包括機(jī)器學(xué)習(xí),數(shù)據(jù)倉庫,統(tǒng)計(jì)學(xué),智能決策等多個學(xué)科,接下來文章將要講述數(shù)據(jù)挖掘作為一種交叉學(xué)科在各個學(xué)科中的應(yīng)用中所表現(xiàn)出來的特點(diǎn)。

(一)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)

當(dāng)數(shù)據(jù)挖掘在機(jī)器學(xué)習(xí)相結(jié)合時(shí)所體現(xiàn)出來的主要特點(diǎn)是強(qiáng)調(diào)數(shù)據(jù)的特點(diǎn)和分布,有嚴(yán)格的原則和方法。這個特點(diǎn)主要是在機(jī)器學(xué)習(xí)在大數(shù)據(jù)庫上的應(yīng)用上來體現(xiàn)的。

根據(jù)Tom Michael于1997年提出的定義,機(jī)器學(xué)習(xí)是面向任務(wù)解決的基于經(jīng)驗(yàn)提煉模型實(shí)現(xiàn)最優(yōu)解設(shè)計(jì)的計(jì)算機(jī)程序。從這個定義我們可看出所謂的機(jī)器學(xué)習(xí)的算法旨在存在經(jīng)驗(yàn)觀測的領(lǐng)域中提出解決工具來為缺乏理論模型作出指導(dǎo)。然而早期的機(jī)器學(xué)習(xí)并非是把原始的經(jīng)驗(yàn)觀測輸入,而輸入的是經(jīng)驗(yàn)中的規(guī)則,進(jìn)而學(xué)習(xí)算法就是基于規(guī)則分析的基礎(chǔ)上形成的。但是隨之而來的問題也出現(xiàn)了,隨著經(jīng)驗(yàn)觀測的量越來越大,要求學(xué)習(xí)算法不僅要分析規(guī)則,更要去理解有意義的規(guī)則,甚至還要去考慮經(jīng)驗(yàn)觀測的存儲格式問題,例如銷售業(yè)中各個銷售分店的位置定位問題,圖像庫中與指定圖片匹配的跟蹤問題,遺傳病在一個家庭中蔓延的基因等等,這些問題通常需要涉及大范圍而且多個角度的數(shù)據(jù)采集,由于諸類原因,伴隨產(chǎn)生了很多棘手的問題,比如信噪比較低,模式結(jié)構(gòu)不明等問題,這就需要人們從大量數(shù)據(jù)中通過建立模型認(rèn)識數(shù)據(jù)內(nèi)在結(jié)構(gòu)和規(guī)律的解決思慮和算法設(shè)計(jì)也納入到機(jī)器學(xué)習(xí)的研究范圍中,這時(shí)數(shù)據(jù)挖掘便開始發(fā)揮它的作用。機(jī)器學(xué)習(xí)的結(jié)果是產(chǎn)生新的處理數(shù)據(jù)的算法,機(jī)器學(xué)習(xí)在大數(shù)據(jù)庫上的應(yīng)用就是數(shù)據(jù)挖掘。任務(wù)、訓(xùn)練數(shù)據(jù)和實(shí)施性能是構(gòu)成機(jī)器學(xué)習(xí)的三個基本要素,而機(jī)器學(xué)習(xí)的結(jié)果就是產(chǎn)生新的智能處理數(shù)據(jù)的算法,顯然,這就是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)之間的內(nèi)在聯(lián)系。

一個機(jī)器學(xué)習(xí)的算法由5個方面構(gòu)成:

①任務(wù):算法的目標(biāo),簡要的如分類,類聚等;

②模型或模式的結(jié)構(gòu):線性回歸模型,高斯混合模型,圖模型等;

③得分函數(shù):評價(jià)模型或算法優(yōu)良性的函數(shù),比如敏感度,BIC等;

④達(dá)到最優(yōu)結(jié)果的途徑設(shè)計(jì):達(dá)到方法最優(yōu)的參數(shù)估計(jì)計(jì)算算法,最速下降,MCMC等;

⑤數(shù)據(jù)管理技術(shù):數(shù)據(jù)的保存、索引和提取、展現(xiàn)數(shù)據(jù)的方式,特別是數(shù)據(jù)量較大的時(shí)候存儲的設(shè)計(jì)等[2]。

由此可以看出,數(shù)據(jù)分析和機(jī)器學(xué)習(xí)之間既有聯(lián)系又有區(qū)別,機(jī)器學(xué)習(xí)產(chǎn)生的算法稱為“直升機(jī)型”程序,因?yàn)槠浜诵氖侨蝿?wù)和任務(wù)完成的質(zhì)量。這種算法的優(yōu)點(diǎn)是其算法具有很高的效率,可以突出問題的重點(diǎn),缺點(diǎn)是對數(shù)據(jù)特點(diǎn)的靈活性考慮不周,使算法很容易受到外界因素的干擾,其自主調(diào)節(jié)性能也就很弱。數(shù)據(jù)分析在機(jī)器學(xué)習(xí)中的應(yīng)用則很大程度上解決了諸類問題,因?yàn)閿?shù)據(jù)分析強(qiáng)調(diào)數(shù)據(jù)的特點(diǎn)和分布,并且有嚴(yán)格的原則和方法,強(qiáng)調(diào)建模過程和統(tǒng)計(jì)設(shè)計(jì),這時(shí)數(shù)據(jù)分析的優(yōu)勢和特點(diǎn)也就顯現(xiàn)出來。

(二)數(shù)據(jù)挖掘與數(shù)據(jù)倉庫

當(dāng)我們進(jìn)行數(shù)據(jù)挖掘技術(shù)時(shí)要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿出來,放到一個專門的數(shù)據(jù)庫或者數(shù)據(jù)集市中進(jìn)行數(shù)據(jù)挖掘,我把數(shù)據(jù)挖掘這個特點(diǎn)總結(jié)為間接性。

那為什么不能在數(shù)據(jù)倉庫上直接挖掘,非要先把數(shù)據(jù)放到另一個數(shù)據(jù)挖掘庫或者數(shù)據(jù)集市中去挖掘呢?到底能不能直接在數(shù)據(jù)倉庫上直接挖掘呢?答案是肯定的。首先來說,數(shù)據(jù)挖掘是可以直接在數(shù)據(jù)倉庫上進(jìn)行的,除此之外,如果直接在數(shù)據(jù)倉庫上挖掘的話,還有一定的好處,數(shù)據(jù)的不一致問題得到解決,因?yàn)閿?shù)據(jù)挖掘是首先要進(jìn)行數(shù)據(jù)清理工作,不但要對數(shù)據(jù)挖掘的數(shù)據(jù)進(jìn)行清理,而且還要對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行清理,因此可能會導(dǎo)致數(shù)據(jù)的不一致問題出現(xiàn),如果是在數(shù)據(jù)倉庫中直接挖掘的話,則避免了這一問題的出現(xiàn),如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時(shí)已經(jīng)進(jìn)行過清理工作,那么將數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫后就沒有必要在進(jìn)行一遍清理工作,而是在數(shù)據(jù)倉庫中直接進(jìn)行數(shù)據(jù)挖掘,這樣一來就避免數(shù)據(jù)不一致的現(xiàn)象,也省去了很多了時(shí)間,但是我們忽略了一個問題,那就是,沒考慮到數(shù)據(jù)倉庫的計(jì)算資源量的問題,當(dāng)一個數(shù)據(jù)倉庫的計(jì)算資源和充足的情況下,完全可以直接在數(shù)據(jù)倉庫上進(jìn)行數(shù)據(jù)挖掘,但是,如果數(shù)據(jù)倉庫的計(jì)算資源不充足,那數(shù)據(jù)挖掘工作則無法完成,這時(shí)就需要另外建立一個數(shù)據(jù)挖掘挖掘庫或者是數(shù)據(jù)集,這類問題則迎刃而解了。

(三)數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)

隨著社會的進(jìn)步,人們對生活和工作提出了越來越高的要求。很多時(shí)候需要人們?nèi)ソ⒛P蛠斫鉀Q較為棘手的問題,并且還要做出相對準(zhǔn)確的預(yù)測,數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)這兩門學(xué)科都是致力于模型發(fā)現(xiàn)和預(yù)測,在模型發(fā)現(xiàn)和預(yù)測方面,數(shù)據(jù)挖掘較統(tǒng)計(jì)學(xué)而言的顯著特點(diǎn)就是數(shù)據(jù)驅(qū)動。

與數(shù)據(jù)驅(qū)動相對的是經(jīng)驗(yàn)驅(qū)動,所謂經(jīng)驗(yàn)驅(qū)動強(qiáng)調(diào)先有設(shè)計(jì)然后通過數(shù)據(jù)來驗(yàn)證設(shè)計(jì)的合理性,統(tǒng)計(jì)學(xué)在應(yīng)用的過程中顯然是經(jīng)驗(yàn)驅(qū)動,在經(jīng)濟(jì)以及社會問題的研究中,統(tǒng)計(jì)模型常常以經(jīng)驗(yàn)驗(yàn)證和理論證據(jù)的角色起作用,而數(shù)據(jù)挖掘則不然,大數(shù)據(jù)分析需要的是建模過程,更強(qiáng)調(diào)的是數(shù)據(jù)驅(qū)動的分析。經(jīng)驗(yàn)驅(qū)動還是數(shù)據(jù)驅(qū)動可以作為數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)這兩個學(xué)科的基本區(qū)別。除此之外這兩門學(xué)科還有其他的不同點(diǎn),在處理問題的類型方面,傳統(tǒng)的統(tǒng)計(jì)學(xué)善于處理結(jié)構(gòu)化的問題,而數(shù)據(jù)挖掘則善于處理非結(jié)構(gòu)或者半結(jié)構(gòu)化的問題,傳統(tǒng)統(tǒng)計(jì)學(xué)所使用的主要方法論是估計(jì)與假設(shè)檢驗(yàn),而數(shù)據(jù)挖掘所使用的主要方法論是探索、推斷與評價(jià),下面來看看分析的目標(biāo)和數(shù)據(jù)來源方面,傳統(tǒng)的統(tǒng)計(jì)學(xué)是預(yù)先定義目標(biāo)變量,設(shè)計(jì)抽樣方案來收集數(shù)據(jù),而數(shù)據(jù)挖掘則是探索目標(biāo),與目標(biāo)分析結(jié)合觀測數(shù)據(jù),接下來看兩者收集的數(shù)據(jù)特征,傳統(tǒng)統(tǒng)計(jì)學(xué)收集來的數(shù)據(jù)集較小,具有同質(zhì)性,靜態(tài),主觀性強(qiáng)等特點(diǎn),而通過數(shù)據(jù)挖掘收集來的數(shù)據(jù)來源廣泛,數(shù)據(jù)量大,具有異質(zhì)性和動態(tài)的特點(diǎn),傳統(tǒng)統(tǒng)計(jì)學(xué)的分析類型確定,變量個數(shù)小,信噪比較強(qiáng),而數(shù)據(jù)挖掘的分析類型不確定,通過探索性分析來確定,變量個數(shù)很小,信噪比較弱。

現(xiàn)代統(tǒng)計(jì)學(xué)已經(jīng)將數(shù)據(jù)挖掘作為其中的核心內(nèi)容,高維變量建模問題、多模式建模問題、復(fù)雜網(wǎng)絡(luò)建模、非參數(shù)建模等技術(shù)發(fā)展很快,為數(shù)據(jù)挖掘源源不斷輸入新的血液。

(四)數(shù)據(jù)挖掘與智能決策

數(shù)據(jù)挖掘是以解決問題為導(dǎo)向的數(shù)據(jù)綜合利用技術(shù),而智能決策作為企業(yè)輔助決策的動能與數(shù)據(jù)挖掘相結(jié)合會促進(jìn)企業(yè)的有效發(fā)展,此時(shí)我把數(shù)據(jù)挖掘所體現(xiàn)出來的特點(diǎn)稱為可預(yù)測性。

在這個經(jīng)濟(jì)全球化的趨勢下,各行各業(yè)擁有者越來越多的機(jī)遇,同時(shí)也面臨著越來越多的挑戰(zhàn)。正在成長期的企業(yè)需要正確把握效率與發(fā)展的平衡,這就需要肩負(fù)重任的企業(yè)家有洞察新問題的能力和謀求新發(fā)展的戰(zhàn)略思考。于是在各大企業(yè)做決策時(shí)將會面臨著各種問題和困難,于是對他們提出了更高的要求,這時(shí)數(shù)據(jù)挖掘就起到了很大很重要的決定,它可以幫助人們做出盡可能正確的決定,給企業(yè)創(chuàng)造更大的利潤。數(shù)據(jù)挖掘與智能決策時(shí)如何相結(jié)合的呢?當(dāng)企業(yè)要做出重要決策時(shí),并不總是直接從原始的運(yùn)營數(shù)據(jù)中找出有用的信息,而是從原始數(shù)據(jù)中按照一定的順序,經(jīng)過加工、整理和分析即數(shù)據(jù)挖掘之后,從中提煉出更加清晰和有層次的信息,而這些信息往往是啟發(fā)企業(yè)延伸思考和最終形成明智穩(wěn)妥的密鑰。

常見的數(shù)據(jù)挖掘與智能決策相結(jié)合的案例如下:

第一,2015年,長虹啟動用戶標(biāo)簽管理系統(tǒng),深入洞察用戶行為、偏好以及產(chǎn)品訴求等各方面特征。用戶標(biāo)簽系統(tǒng)與400客服中心對接后,售后人員可提前了解用戶購買產(chǎn)品偏好等各方面信息,延保服務(wù)銷量增加了80%。

第二,德國寶馬汽車公司以大數(shù)據(jù)為基礎(chǔ)建設(shè),并大量借助與第三方供應(yīng)商。2016年4月寶馬又與微軟合作,希望借助微軟Azure云計(jì)算平臺以及微軟數(shù)據(jù)庫和機(jī)器學(xué)習(xí)功能,為寶馬用戶提供路況、導(dǎo)航等應(yīng)用,從而提高用戶體驗(yàn)。

第三,當(dāng)顧客向BELL公司投訴電話使用中的問題時(shí),該公司決定派怎樣的技術(shù)人員去解決這個問題,1991年主體解決方案是專家系統(tǒng)。1999年則利用數(shù)據(jù)挖掘創(chuàng)建匹配規(guī)則,學(xué)習(xí)得到的規(guī)則每年為BELL公司節(jié)約1000多萬美元,因?yàn)閷<蚁到y(tǒng)難以有效維護(hù),而學(xué)習(xí)得到的系統(tǒng)卻通過實(shí)例訓(xùn)練得到,因此降低了維護(hù)成本。

綜上所述,不管是在自然領(lǐng)域還是在社會領(lǐng)域,信息網(wǎng)絡(luò)技術(shù)已經(jīng)為我們締造了一個巨大而神秘的大數(shù)據(jù)世界,這就需要用我們的智慧來迎接這個大數(shù)據(jù)時(shí)代向我們發(fā)起的挑戰(zhàn),進(jìn)而激發(fā)了我們?nèi)祟悓ψ匀粚ι鐣母顚拥奶剿鳎⑶耶a(chǎn)生了由衷的敬畏之情,需要我們用寬廣的胸襟接受自然的考驗(yàn),這就是我們?yōu)槭裁匆M(jìn)行大數(shù)據(jù)分析的原因。

參考文獻(xiàn)

[1]Usama M.Fayyad,Ramasamy Uthurusamy(Eds.):Proceedings of the First International Conferenceon Knowledge[J].Discovery and Data Mining(KDD-95),Montreal,Cnnada,August 20-21,1995.

[2]王星.大數(shù)據(jù)分析:方法與應(yīng)用[M].北京:清華大學(xué)出版社,2013.

作者簡介:商夢嬌(1992-),女,漢族,山東德州人,山東科技大學(xué)在校研究生,研究方向:計(jì)算理論與數(shù)據(jù)處理。

猜你喜歡
數(shù)據(jù)倉庫機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
石阡县| 栾川县| 遂溪县| 荣昌县| 崇文区| 卓资县| 高清| 义乌市| 广东省| 蒙城县| 讷河市| 玛多县| 阜康市| 正蓝旗| 祁东县| 宁河县| 兴文县| 伊吾县| 仪征市| 桂平市| 香格里拉县| 江西省| 朔州市| 方城县| 罗山县| 焦作市| 凭祥市| 天台县| 阳高县| 景东| 曲麻莱县| 济宁市| 龙游县| 武定县| 德安县| 和政县| 九龙县| 汤阴县| 正安县| 江城| 靖边县|