李成錄
(青海師范大學(xué) 青海 西寧 810008)
大數(shù)據(jù)概念自1980年被托夫勒提出后,其發(fā)展前景不斷擴(kuò)大,滲透到生活、工作、學(xué)習(xí)的方方面面。當(dāng)下,在信息技術(shù)的推動下,某些零散、碎片化的數(shù)據(jù)被搜集起來,逐漸凝聚為紛繁錯(cuò)亂的大數(shù)據(jù)。大數(shù)據(jù)的快速發(fā)展,給高新技術(shù)產(chǎn)業(yè)帶來豐厚的回報(bào),引起一大批實(shí)力雄厚企業(yè)的追捧。在2017年阿里巴巴、騰訊、京東等IT公司斥巨資從事大數(shù)據(jù)研究,從中享受到大數(shù)據(jù)賦予的金融回報(bào)。例如,滴滴打車、ofo共享單車、淘寶等,它們企業(yè)運(yùn)轉(zhuǎn)效率在大數(shù)據(jù)的推動下得到質(zhì)的提升。因此,研究大數(shù)據(jù)背景下的機(jī)器學(xué)習(xí)算法對國家、企業(yè)、社會發(fā)展都有較大的促進(jìn)作用,需要有適合的算法來滿足大數(shù)據(jù)時(shí)代的需求。本研究立足于當(dāng)下社會發(fā)展新形勢,為促進(jìn)社會更好發(fā)展做出重要推動力。
大數(shù)據(jù)(Big Data),是指在一定時(shí)間內(nèi)無法用常規(guī)數(shù)據(jù)處理軟件進(jìn)行分析管理的數(shù)據(jù)集合。它以超出用MB、GB的形式來存儲。在這種新型大數(shù)據(jù)背景下,需要有更好地?cái)?shù)據(jù)處理模式進(jìn)行數(shù)據(jù)運(yùn)算,才能從數(shù)據(jù)中形成更為科學(xué)的決策系統(tǒng)。被稱為大數(shù)據(jù)它具有不同于傳統(tǒng)數(shù)據(jù)的特點(diǎn),與其他數(shù)據(jù)有清晰的界限。首先,大數(shù)據(jù)最鮮明的特點(diǎn)為“大”,它凝聚著海量資料,從多個(gè)維度、多個(gè)方面、多類型進(jìn)行歸納匯總,形成一批難以用普通數(shù)據(jù)處理方法來解決的數(shù)據(jù);其次,傳輸速度快。大數(shù)據(jù)是由互聯(lián)的機(jī)器產(chǎn)生的,它們以秒、毫秒、微秒的形式瞬間形成,不斷去輸入、輸出來完成其基本功能;緊接著,數(shù)據(jù)類型多種多樣,數(shù)據(jù)分類難度較大。大數(shù)據(jù)已經(jīng)不能用傳統(tǒng)的分類方式進(jìn)行歸納,它們往往是非結(jié)構(gòu)化的,造成存儲、分析、探勘難度提升;最后,大數(shù)據(jù)具有真實(shí)性。在處理大數(shù)據(jù)時(shí),要從紛繁錯(cuò)亂的數(shù)據(jù)中剔除錯(cuò)誤數(shù)據(jù)、虛假數(shù)據(jù),保證大數(shù)據(jù)系統(tǒng)的真實(shí)客觀性。這樣,不僅可以降低據(jù)處理的難度,同時(shí)便于得出正確的應(yīng)對策略,讓大數(shù)據(jù)更好地為人服務(wù)。
機(jī)器學(xué)習(xí)是當(dāng)下處理大數(shù)據(jù)的重要途徑,它可以將多種優(yōu)勢凝聚起來,面對實(shí)際問題選擇最為合適的解決途徑。例如,在2017年AlphaGo對弈柯潔圍棋比賽中,以3比0的比分贏得了比賽,它正是機(jī)器學(xué)習(xí)的重要標(biāo)志。機(jī)器學(xué)習(xí)克服人為因素的局限性,通過神經(jīng)網(wǎng)絡(luò)、決策樹、深度學(xué)習(xí),對數(shù)據(jù)進(jìn)行科學(xué)有效地處理,全面提高數(shù)據(jù)的運(yùn)算效率。當(dāng)下,信息網(wǎng)絡(luò)、商業(yè)活動、調(diào)查統(tǒng)計(jì)都會產(chǎn)生海量數(shù)據(jù),這些數(shù)據(jù)以超出傳統(tǒng)的處理手段,迫切需要機(jī)器學(xué)習(xí)進(jìn)行解決。傳統(tǒng)機(jī)器學(xué)習(xí)面臨的問題為:首先,機(jī)器算法較為固定,讀取大數(shù)據(jù)困難突出;其次,自動學(xué)習(xí)推理能力較低,得到數(shù)據(jù)結(jié)論不夠科學(xué);最后,機(jī)器自我學(xué)習(xí)能力不足,不能迎合大數(shù)據(jù)對機(jī)器學(xué)習(xí)的需求。因此,探究出適合大數(shù)據(jù)背景下的機(jī)器學(xué)習(xí),對未來發(fā)展有著不可估量的社會效益。
分治算法在處理大數(shù)據(jù)上具有較好的優(yōu)勢,它可以被運(yùn)用與分布式計(jì)算和并行運(yùn)算。對大數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),樣本不同的數(shù)據(jù)對其影響比較顯著,不僅會徒增數(shù)據(jù)運(yùn)算量,同時(shí)還會制約著學(xué)習(xí)效率,不利于更好地對數(shù)據(jù)進(jìn)行分析判斷。而運(yùn)用分治算法后,它對原始樣本進(jìn)行預(yù)處理,將無效數(shù)據(jù)、冗余數(shù)據(jù)進(jìn)行剔除,形成能夠很好表示原始樣本的數(shù)據(jù)集合。這樣,機(jī)器學(xué)習(xí)的目標(biāo)更為明確,學(xué)習(xí)難度得到有效降低,有助于形成正確的判斷。在選擇代表性數(shù)據(jù)集合時(shí),通常采用的方法為壓縮近鄰法、約減法等等。它的原理就是要找到大數(shù)據(jù)所對應(yīng)的最小集合,通過一系列測試完成對子集的加工完善。此時(shí),他們找到的集合是可以代表全體樣本的,具有較高的科學(xué)性,從而為大數(shù)據(jù)分析提供可能。運(yùn)用分治算法首先要有符合要求的置信區(qū)間,在規(guī)定的區(qū)間內(nèi)進(jìn)行數(shù)據(jù)的篩選、剔除。例如,借助Bag ofLittle Bootstraps,它可以降低抽樣所帶來的數(shù)據(jù)錯(cuò)誤,從而提高數(shù)據(jù)預(yù)處理的準(zhǔn)確性。
聚類算法在數(shù)據(jù)挖掘和數(shù)據(jù)處理中是最常用的方法,它在處理大型數(shù)據(jù)上有較好的應(yīng)用效果。首先,聚類算法對大數(shù)據(jù)進(jìn)行類型劃分,將數(shù)據(jù)分為若干個(gè)子數(shù)據(jù)節(jié)點(diǎn)。在這時(shí),對各節(jié)點(diǎn)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)效率更高,更有針對性地完成數(shù)據(jù)處理。聚類算法在機(jī)器學(xué)習(xí)的具體方法可以歸納為三種。第一種,采用非迭代化數(shù)據(jù)擴(kuò)展。它利用模糊集概念,對數(shù)據(jù)進(jìn)行FCM均值聚類分析,快速準(zhǔn)確地將數(shù)據(jù)分離開來;第二種為連續(xù)擴(kuò)充子集合技術(shù);第三種為抽樣估計(jì)均值算法。這三種可以有效解決大數(shù)據(jù)在時(shí)間上、空間上、處理速度、運(yùn)轉(zhuǎn)效率的問題,達(dá)到對上至億萬的大數(shù)據(jù)分析。
傳統(tǒng)的機(jī)器學(xué)習(xí)在處理大數(shù)據(jù)上捉襟見肘,主要是由于各機(jī)器學(xué)習(xí)方法沒有做到并行化處理。單一數(shù)據(jù)處理機(jī)器不能獨(dú)立完成大數(shù)據(jù)處理,而是需要聯(lián)動各個(gè)數(shù)據(jù)處理部分,將其并行化運(yùn)轉(zhuǎn),從而達(dá)到對大數(shù)據(jù)的整體處理。它的思想就是將大數(shù)據(jù)“碎片化”,分成機(jī)器可以單純處理的數(shù)據(jù)模塊,最終通過綜合各個(gè)數(shù)據(jù)來達(dá)到對整體的把握。比如,在圖像處理平臺上,它正是利用并行算法,大大降低各數(shù)據(jù)處理的壓力,有效提升數(shù)據(jù)的運(yùn)算能力。并行算法需要與聚類算法、分治算法進(jìn)行有機(jī)統(tǒng)一,將三者算法融合在一起,讓大數(shù)據(jù)處理變得更為簡潔、輕松,同時(shí)也較好地保證機(jī)器學(xué)習(xí)的準(zhǔn)確性。
大數(shù)據(jù)作為當(dāng)下的熱門,需要有一套科學(xué)合理的機(jī)器學(xué)習(xí)算法來滿足社會需求,讓數(shù)據(jù)處理變得更具效率。針對大數(shù)據(jù)的各個(gè)特點(diǎn),通過運(yùn)用分布式計(jì)算、聚類算法、分治算法,讓數(shù)據(jù)變得更具條理,數(shù)據(jù)處理分析難度得到有效降低,大大提高機(jī)器學(xué)習(xí)的能力。因此,要想在大數(shù)據(jù)有所突破,就需要對傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行優(yōu)化升級,讓其在大數(shù)據(jù)時(shí)代迸發(fā)出強(qiáng)勁活力。
[1]吳睿智,馬致遠(yuǎn),羅光春,劉貴松,秦科.大數(shù)據(jù)融合、分析與價(jià)值[J].信息通信技術(shù),2016(06):123-130.
[2] Yang Y M,Wang X N,Yuan X F.Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness.IEEE Trans on Neural Networks and Learning Systems,2012,23(9):1498-1505.