王兆華
摘要:隨著全球化時(shí)代的到來,社會上各個(gè)領(lǐng)域的產(chǎn)業(yè)快速興起,產(chǎn)生了大量的數(shù)據(jù),因此信息量變得巨大。但是由于大數(shù)據(jù)的數(shù)量龐大,復(fù)雜多變,產(chǎn)生了許多問題,而只適用于處理小數(shù)據(jù)的機(jī)器學(xué)習(xí)模型卻不能處理這些問題,因此研究大數(shù)據(jù)下機(jī)器學(xué)習(xí)模型設(shè)計(jì)方法成為了社會的熱點(diǎn)話題。通過分析現(xiàn)階段機(jī)器學(xué)習(xí)存在的不足,探討基于大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)模型的設(shè)計(jì)方法。通過改進(jìn)機(jī)器學(xué)習(xí)模型解決各大企業(yè)因數(shù)據(jù)量過大產(chǎn)生的問題。
關(guān)鍵詞:大數(shù)據(jù);機(jī)器學(xué)習(xí);設(shè)計(jì)方法
中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)01-0197-02
20世紀(jì)70年代,信息化時(shí)代到來,許多產(chǎn)業(yè)隨之興起,每天都會產(chǎn)生龐大的數(shù)據(jù)信息。這些數(shù)據(jù)多而雜亂,但是每一條都極其重要,里面蘊(yùn)含著有價(jià)值的信息[1]。傳統(tǒng)數(shù)據(jù)分析通過人為事先安排好的方法分析數(shù)據(jù),從中發(fā)掘有價(jià)值的信息,而大數(shù)據(jù)分析就不會受到這一限制,它是直接從數(shù)量龐大,結(jié)構(gòu)復(fù)雜的數(shù)據(jù)中分析出有用的信息,從而使數(shù)據(jù)發(fā)揮最大的價(jià)值,但是這一過程相當(dāng)復(fù)雜,很難快速獲得信息,因此必須借助機(jī)器學(xué)習(xí)模型來完成。大數(shù)據(jù)技術(shù)的目標(biāo)實(shí)現(xiàn)與機(jī)器學(xué)習(xí)的發(fā)展必然密不可分[2]。個(gè)人可以在這個(gè)大數(shù)據(jù)庫中找到通往財(cái)富大道的途徑;企業(yè)可以在這個(gè)大數(shù)據(jù)庫中尋找商機(jī),在市場競爭中占盡優(yōu)勢,獲取豐厚的利潤;國家可以在這個(gè)大數(shù)據(jù)庫中尋找有用的線索,預(yù)防它國入侵,預(yù)測災(zāi)害的發(fā)生等。因此,為了社會方方面面的發(fā)展,機(jī)器模型的設(shè)計(jì)必不可少。
機(jī)器學(xué)習(xí)隸屬于人工智能的一個(gè)研究范圍,旨在讓計(jì)算機(jī)像人一樣能夠自主學(xué)習(xí),從而加快計(jì)算機(jī)處理數(shù)據(jù)的速度。1997年,卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)學(xué)院院長兼教授Mitchell T M認(rèn)為機(jī)器學(xué)習(xí)過程就是計(jì)算機(jī)以學(xué)到的經(jīng)驗(yàn)為基礎(chǔ),提升自身性能的過程[3]。機(jī)器學(xué)習(xí)的最終目的是從數(shù)據(jù)中獲取知識。機(jī)器學(xué)習(xí)模型設(shè)計(jì)一般由環(huán)境、學(xué)習(xí)元、知識庫和執(zhí)行元四部分組成,如圖1所示。
大數(shù)據(jù)以發(fā)掘數(shù)據(jù)中有價(jià)值的信息為己任,而機(jī)器學(xué)習(xí)是其中的重要手段。這種手段對于大數(shù)據(jù)分析來說是解決的重要途徑,大數(shù)據(jù)使機(jī)器學(xué)習(xí)算法更準(zhǔn)確,同時(shí)機(jī)器學(xué)習(xí)算法對內(nèi)存計(jì)算的速度要求也越來越高。所以大數(shù)據(jù)與機(jī)器學(xué)習(xí)相互制約,相互促進(jìn),彼此依靠。本文通過研究機(jī)器學(xué)習(xí)模型的設(shè)計(jì)方法來處理大數(shù)據(jù)。
1 支持向量機(jī)
1995年,Corinna Cortes和Vapnik創(chuàng)建了支持向量機(jī)(Support Vector Machine,SVM),它是新出現(xiàn)的一種機(jī)器學(xué)習(xí)模型,這種模型一出現(xiàn)就在這一領(lǐng)域掀起了巨大的浪潮,引起了人們的廣泛關(guān)注[4]。支持向量機(jī)機(jī)器學(xué)習(xí)模型是以VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ),樣本信息為基點(diǎn),在模型的復(fù)雜性和學(xué)習(xí)能力之間尋找最佳平衡點(diǎn), 以求達(dá)到最佳的效果。支持向量機(jī)這一學(xué)習(xí)模型常應(yīng)用在小樣本、非線性、高維模式識別、人臉檢測、機(jī)器翻譯等領(lǐng)域。
SVM是最新的也是應(yīng)用最廣的機(jī)器學(xué)習(xí)模型。例如對于線性可分的問題,SVM是要找到間隔最大的超平面將兩種不同的樣本分開,間隔最大的超平面具有最好的泛化能力,如圖2所示。
現(xiàn)在通過一個(gè)例子來解釋超平面的定義,x是權(quán)重向量,y是最優(yōu)超平面偏移,
a樣本到最優(yōu)超平面的距離為:
為超平面確定的判別函數(shù)。SVM可以將x和y之間的間距值最大化。然后通過解答對偶問題,從而得到x和y的數(shù)值,之后把核函數(shù)引入非線性可分的問題中。線性不可分是一種正?,F(xiàn)象,存在許多問題中,因?yàn)閷ε紗栴}的目標(biāo)函數(shù)是不確定的,因此不可能達(dá)到最優(yōu)化。要想解決這一問題,有兩種方法:軟間隔優(yōu)化,即放寬對輸入空間的限制,對于某些錯(cuò)誤可以選擇忽視。但是當(dāng)某些極度線性不可分問題出現(xiàn)時(shí)以及分類錯(cuò)誤過多無法解決時(shí),這種方法就不適用了。核技巧,即找到一個(gè)核函數(shù),將處在低維空間中的數(shù)據(jù)轉(zhuǎn)化到高維空間中,這樣數(shù)據(jù)就變得可分了,從而得到解決。這一方法也不能保證解決所有線性不可分問題,因此對于更復(fù)雜的線性不可分問題,要把兩種方法結(jié)合起來使用。
2 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(ANN),是模擬大腦運(yùn)轉(zhuǎn)過程的機(jī)器學(xué)習(xí)方法,簡稱神經(jīng)網(wǎng)絡(luò)。它是一種類似于數(shù)學(xué)統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)方法。根據(jù)圖3,人類建立了人工神經(jīng)網(wǎng)絡(luò)模型:[5]。
這個(gè)模型主要有三點(diǎn)優(yōu)勢:首先,能夠自主學(xué)習(xí)。例如,鍛煉人工神經(jīng)網(wǎng)絡(luò)進(jìn)行臉部識別的功能,把成千上萬張面部圖像和對應(yīng)的人物信息輸入到這個(gè)模型,神經(jīng)網(wǎng)絡(luò)就會逐漸學(xué)會這項(xiàng)技能。這項(xiàng)技能在預(yù)測方面發(fā)揮重要作用,可以幫助人們進(jìn)行災(zāi)難預(yù)測,風(fēng)險(xiǎn)預(yù)測等。其次,具有聯(lián)想存儲功能。這種功能需要通過人工神經(jīng)網(wǎng)絡(luò)的反饋系統(tǒng)實(shí)現(xiàn)。最后,能夠快速找到問題的最佳解決方法。但是要想找到最佳的解決方法,就要把所有的解決方式嘗試一遍,這需要很大的計(jì)算量,而利用神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模型就能把這種復(fù)雜問題簡單化,從而快速找到最佳方法。
人工神經(jīng)網(wǎng)絡(luò)有著支持向量機(jī)不具備的優(yōu)勢,它對非線性問題的處理能力更強(qiáng),適應(yīng)性更好,彌補(bǔ)了傳統(tǒng)機(jī)器學(xué)習(xí)在模式、語音識別、非結(jié)構(gòu)化信息處理方面存在的不足,使它應(yīng)用的范圍更廣,在神經(jīng)系統(tǒng)、模式識別、智能控制等領(lǐng)域都用到了這種機(jī)器學(xué)習(xí)模型。將神經(jīng)網(wǎng)絡(luò)和其他機(jī)器學(xué)習(xí)模型結(jié)合使用,在處理大數(shù)據(jù)信息方面更加有效,使人工智能向前邁進(jìn)了一大步,促進(jìn)了信息處理技術(shù)不斷發(fā)展。隨著信息化不斷發(fā)展,人工神經(jīng)網(wǎng)絡(luò)確定了新的發(fā)展方向,使它的運(yùn)行模式更加人性化,例如與模糊系統(tǒng)、遺傳算法、進(jìn)化機(jī)制等結(jié)合,就是其中一個(gè)研究方向,如果取得成功,對大數(shù)據(jù)的分析將會更加容易。把信息幾何與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合研究,為人工神經(jīng)網(wǎng)絡(luò)的理論研究開辟了新的途徑。人們對人工神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模型的研究更加深入,因此這一模型會應(yīng)用的范圍會越來越廣,但需要改進(jìn)的空間還是很大。其中把神經(jīng)網(wǎng)絡(luò)與其他技術(shù)的結(jié)合以及由此而來的混合方法和混合系統(tǒng),已經(jīng)成為主要研究的對象。但是由于它們都有各自的優(yōu)勢和缺陷,因此要把神經(jīng)網(wǎng)絡(luò)與其他技術(shù)相結(jié),首先要做到的就是取其精華,去其糟粕,繼而可以獲得更好的應(yīng)用效果,但是這也是最大的難點(diǎn)之一。但是,我們必須克服這一難點(diǎn),這是我們無法回避的。
3 機(jī)器學(xué)習(xí)模型的分類
大數(shù)據(jù)下機(jī)器學(xué)習(xí)模型有很多,支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)是兩種最重要的模型。根據(jù)算法,模型可以分為三大類。第一種,監(jiān)督學(xué)習(xí),是指計(jì)算機(jī)從大數(shù)據(jù)中提取相關(guān)信息,之后大數(shù)據(jù)再對信息進(jìn)行驗(yàn)證,并提供結(jié)果。這種模式的根本目的是讓計(jì)算機(jī)學(xué)通過這一過程,學(xué)到經(jīng)驗(yàn),然后去解決類似問題。神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)都是監(jiān)督學(xué)習(xí);第二種無監(jiān)督學(xué)習(xí),是指計(jì)算機(jī)在大數(shù)據(jù)中自主截取有用的信息。這種學(xué)習(xí)的目標(biāo)具有不確定性;第三種強(qiáng)化學(xué)習(xí),是指無大數(shù)據(jù)驗(yàn)證的情況下,計(jì)算機(jī)自主對信息進(jìn)行評估[6]。
4 結(jié)束語
綜上所述,本文對大數(shù)據(jù)分析下機(jī)器學(xué)習(xí)模型的兩種設(shè)計(jì)方法進(jìn)行了全面的闡述。支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)都是處理大數(shù)據(jù)的實(shí)用又有效的學(xué)習(xí)方法。通過這兩種方法可以在大數(shù)據(jù)中獲取對人們有用的信息,促進(jìn)人類社會的發(fā)展,乃至推動(dòng)人類社會文明的進(jìn)步。目前,大數(shù)據(jù)技術(shù)已在金融、電信、醫(yī)療等眾多行業(yè)和領(lǐng)域中得到廣泛應(yīng)用。但隨著社會的進(jìn)步,人們需要對機(jī)器學(xué)習(xí)進(jìn)行更深入的研究,以便應(yīng)對越來越龐大的數(shù)據(jù)信息。
參考文獻(xiàn):
[1] 孫存一,龔六堂.大數(shù)據(jù)思維下的利率定價(jià)研究——以機(jī)器學(xué)習(xí)為視角的實(shí)證分析[J].金融理論與實(shí)踐,2017,67(7):1-5.
[2] 吳啟暉,邱俊飛,丁國如.面向頻譜大數(shù)據(jù)處理的機(jī)器學(xué)習(xí)方法[J].數(shù)據(jù)采集與處理,2015,16(4):703-713.
[3] 徐倩漪,齊芳.基于機(jī)器學(xué)習(xí)的通信網(wǎng)絡(luò)非結(jié)構(gòu)化大數(shù)據(jù)分析算法研究[J].激光雜志,2016,37(10):125-128.
[4] 徐健鋒,許園,許元辰,等.基于語義理解和機(jī)器學(xué)習(xí)的混合的中文文本情感分類算法框架[J].計(jì)算機(jī)科學(xué),2015,42(6):61-66.
[5] 李力,林懿倫,曹東璞,等.平行學(xué)習(xí)—機(jī)器學(xué)習(xí)的一個(gè)新型理論框架[J].自動(dòng)化學(xué)報(bào),2017,43(1):1-8.
[6] 史金梅,夏偉.基于大數(shù)據(jù)分析的學(xué)生最優(yōu)選課方案模型的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2017,37(14):30-32.endprint