陳強
摘要:隨著我國社會經(jīng)濟的不斷發(fā)展,信息時代的浪潮中催生出了大數(shù)據(jù)的一個概念,而隨著大數(shù)據(jù)而來就是計算機處理器的機器算法學習,本文主要介紹一下大數(shù)據(jù)背景下機器學習算法的探索。
關鍵詞:大數(shù)據(jù);機器學習;學習算法
0 引言
大數(shù)據(jù)主要是分為簡單的數(shù)據(jù)分析和智能的復雜性分析,而機器學習算法和數(shù)據(jù)收集分析都可以將大數(shù)據(jù)轉換為有效的關鍵知識,隨著機器信息處理量的不斷劇增,機器的算法也需要重新的學習,才能達到高效快速準確的計算目的。
1 大數(shù)據(jù)背景下機器學習算法的研究現(xiàn)狀
隨著大數(shù)據(jù)時代的來臨,國內(nèi)外知名企業(yè)都投入了一定的人力和物力進行機器算法的改進研究,主要有谷歌、FACEBOOK、微軟企業(yè)、百度集團、騰訊集團、阿里巴巴集團等等,主要是攻克大數(shù)據(jù)機器學習和人工智能處理系統(tǒng)這些領域,不斷的深化大數(shù)據(jù)處理背后的市場前景。在2014年國際舉行的計算機專家學者會議中提出了機器學習算術,以及智能計算應用系統(tǒng)的發(fā)展將成為今后的一個行業(yè)前進方向和研究熱點。
2 大數(shù)據(jù)背景下機器學習算法的創(chuàng)新
2.1 大數(shù)據(jù)的規(guī)模性實驗
在一些大規(guī)模的數(shù)據(jù)計算的時候都是需要運行穩(wěn)定的處理機器進行學習計算的,但是在進行實驗的時候,為了保障機器不受到數(shù)據(jù)信息的侵害,一般情況下,實驗人員都會采取一些虛擬計算機處理器群,這樣就可以建設資金的投入。在建立好之后實驗人員首先會使用一些較小的數(shù)據(jù)流進行測試算法的可行性,也就是說測試設計的算法能不能對特定的數(shù)據(jù)信息流進行快速準確的處理。
在這種情況下為了更好的比對傳統(tǒng)機器的算法和設計的算法在進行運營和數(shù)據(jù)分析的時候,出現(xiàn)了那些不穩(wěn)定的因素,為了確保設計算法的正確性和穩(wěn)定。還需要收集到更大一級規(guī)模的數(shù)據(jù)信息流并進行測試,將測試的結果和之間的結果進行對比,來分析該設計算法中還存在那些疏忽的地方,在今后的算法設計過程不斷的積累經(jīng)驗,提高大數(shù)據(jù)算法的機器學習效率。
2.2 超大規(guī)模的數(shù)據(jù)模型處理
上文說到進行數(shù)據(jù)信息處理的時候需要進行大規(guī)模的處理計算,但是在計算不成熟的時候,不易進行真實數(shù)據(jù)信息的處理,容易造成機器處理的問題。為了解決這個問題,工作人員設計了超大規(guī)模模型模擬處理的一種系統(tǒng)來進行測試。
首先因為數(shù)據(jù)的過于龐大在進行節(jié)點存儲的時候不能達到精準的效果,為了更加接近數(shù)據(jù)的計算實際情況,工作人員采取了大數(shù)據(jù)分布式節(jié)點控制的方式,來降低誤差的出現(xiàn),通過分布式的集體公差來確定數(shù)據(jù)分析的是否準確。但是由于大數(shù)據(jù)在進行分布式處理的時候,我們需要處理的結果和普通的數(shù)據(jù)結果有一定的出處,也就是術語中講到的高維稀疏情況的出現(xiàn),隨著該設計算法的不斷優(yōu)化更新,處理過程中還采取了異步無鎖算法對之前的設計進行改善更新,提高了該算法的實際應用性。最終經(jīng)過測試之后,我們發(fā)現(xiàn)利用了異步無鎖算法可以有效的減低數(shù)據(jù)信息在進行同步通信的過程中的開支,提高了機器計算的效率,給人們提供了更加可靠的數(shù)據(jù)信息分析報告。
2.3 超參數(shù)優(yōu)化處理
在進行小規(guī)模的機器學習算法的時候,我們可以采取網(wǎng)格搜索的一種先進技術來對該設計算法的超參數(shù)進行一定的優(yōu)化,經(jīng)過優(yōu)化后的數(shù)據(jù)參數(shù)在進行處理分析的時候就可以有效的提高處理器的運算速率。但是在小規(guī)模的數(shù)據(jù)機器算術學習的時候,這種算術還可以進行使用,需要投入的資金還不算太大。一旦進行超大規(guī)模的機器進行算法學習,那將產(chǎn)生非常的資金消耗是非常巨大的,并且隨著學習的過程中各級參數(shù)不停的變化,學習的時間和效率更加的緩慢。一種新的思路就是通過對模型參數(shù)在實驗階段進行反復的模擬測試,并且對算術自身設計的參數(shù)也進行反復的測試和訓練,經(jīng)過這樣對參數(shù)的反復修正,最終就可以得到該算法最佳的運算參數(shù),在進行機器學習的時候可以節(jié)省大量的陳本,并且大數(shù)據(jù)處理的速率和時間有了明顯的改變。
2.4 梯度下降法
在大數(shù)據(jù)算法學習的過程中主要是通過對傳統(tǒng)機器學習算法的程序進行一定的升級改造,就可以達到大數(shù)據(jù)處理的一種實際運算目的。在進行算法升級改造的過程中工作人員采取了監(jiān)督學習訓練的方法進行處理,在處理中可以明顯的發(fā)現(xiàn)通過梯度下降法在運用的時候有效的對機器學習效率提高了很多。在今后的優(yōu)化改進過程中通過針對性的牛頓法進行在線的處理,生成了在線的BFGS技術,在今后的小批量的梯度下降法和在線的BFGS技術的結合應用過程中將該算法的處理速率提高了很多。
2.5 樣本維度的分割
在進行大數(shù)據(jù)算法學習的過程中要對之前的計算處理技術進行升級改造,工作人員根據(jù)樣本的維度將大數(shù)據(jù)進行了有效的分割,并且根據(jù)特殊的維度數(shù)據(jù)信息將分割的數(shù)據(jù)信息,統(tǒng)一整合之后輸入到各個計算機的節(jié)點中,通過設計的算法來進行參數(shù)的更新和升級,在升級之后處理的效率明顯的提高了很多,并且根據(jù)樣本維度分割后的數(shù)據(jù)流就是兩個不同環(huán)境的處理情況,可以進行分開的處理很好的提高的大數(shù)據(jù)的處理速度。
3 結束語
在今后的大數(shù)據(jù)機器算法學習的時候,要根據(jù)實際數(shù)據(jù)的變化進行升級改造,從而提高系統(tǒng)的處理速率。
參考文獻
[1]李成錄.大數(shù)據(jù)背景下機器學習算法的綜述[J].信息記錄材料,2018,1905:4-5.
[2]王凌.大數(shù)據(jù)背景下的機器學習算法簡述[J].數(shù)字傳媒研究,2017,3405:59-60+66.