姜霽航
(南京信息工程大學,江蘇 南京 210044)
機器學習是人工智能的一個重點研究方向,書面上的意義是指計算機利用經(jīng)驗來改變系統(tǒng)自身性能的行為能力。人類自身具有學習能力,學習行為的背后擁有著十分復(fù)雜的處理能力,這種處理能力就是機器學習理論[1]。研究機器學習的主要方向是如何利用計算機來實現(xiàn)模擬人類的學習能力和整理獲取到的知識點,從而提高自身的能力??傊?,機器學習的最終結(jié)果是為了在大數(shù)據(jù)庫中獲取知識。
業(yè)界對大數(shù)據(jù)的特點進行了系統(tǒng)化歸納,由“4V”組成:數(shù)據(jù)量大(volume)、種類繁多(variety)、數(shù)據(jù)價值密度低(value)、實時處理數(shù)據(jù)(velocity)。正是因為上述的四個特點,大數(shù)據(jù)時代下的機器學習才更值得研究。當前,大數(shù)據(jù)時代成為一個熱門話題,所謂的“大數(shù)據(jù)”指的是數(shù)據(jù)繁多復(fù)雜、自然產(chǎn)生沒有規(guī)律以及不夠精準的數(shù)據(jù)。大數(shù)據(jù)帶給機器學習的難度不僅僅表現(xiàn)在數(shù)據(jù)量大而導(dǎo)致的計算困難,還因為需要從不同的地方獲取不同的數(shù)據(jù),由于這些數(shù)據(jù)都散亂地分布在不同的地方,而且數(shù)據(jù)與數(shù)據(jù)間還會有著某些關(guān)聯(lián),可是也不能滿足所有的條件,而且由于數(shù)據(jù)比較分散,我們無法將數(shù)據(jù)進行統(tǒng)一整理學習[2]。傳統(tǒng)的機器在學習理論知識和推算方法的時候都需要保證數(shù)據(jù)的獨立性,一旦這個條件無法滿足,機器學習模型和計算能力就無法發(fā)揮用處。
大數(shù)據(jù)除了給機器學習帶來計算方法上的問題之外,也會給機器學習帶來機會。當今社會,是處處都彰顯大數(shù)據(jù)信息的時代,一旦某個區(qū)域的信息量過大,數(shù)據(jù)空間就會變得密密麻麻的,如果將這些信息進行分類,就會得到有價值的信息。
受到信息化社會的影響,人類將如何實現(xiàn)機器學習,確保學習的科學性和合理性作為首要目標,于是,相關(guān)技術(shù)人員需要合理應(yīng)用技術(shù),加強機器學習手段,對機器學習有著更加明確的認知。
監(jiān)督學習主要是以提前設(shè)定的學習要求為基礎(chǔ),例如:數(shù)據(jù)按照精準度分類,避免數(shù)據(jù)出入較大。針對機器學習在學習模型時候的相關(guān)參數(shù)數(shù)據(jù),相關(guān)人員可以合理地使用科學手段,加上合理的計算方法進行調(diào)整,最后得到一個比較好的模型。在此基礎(chǔ)上,對數(shù)據(jù)比較新鮮的案例進行標記分類,進一步作出科學的判斷,從而計算出標記內(nèi)的概率分布。一般來說,模型學習主要分為:貝葉斯分類器、決策樹、邏輯思維回歸、神經(jīng)網(wǎng)絡(luò)以及支持向量機等等。因此,在整個學習的過程中,需要適度使用數(shù)據(jù)分析和數(shù)據(jù)優(yōu)化的功能。例如,在支持向量機里面對數(shù)據(jù)二次優(yōu)化處理,而神經(jīng)網(wǎng)絡(luò)不一樣,它所采用的是梯度優(yōu)化的方法。
什么叫無監(jiān)督學習,也就是說從大量的數(shù)據(jù)中沒有得到有用的信息。在將該項學習用于特征處理時,不用對監(jiān)督信息進行才處理,這與數(shù)據(jù)的密度息息相關(guān)。例如:在分散式的分布的數(shù)據(jù)中取樣分類,從而找到分布的規(guī)律和采集樣本的工作。該項學習主要表現(xiàn)在數(shù)據(jù)尋找工作上,在此過程中,面對不同的問題,數(shù)據(jù)所體現(xiàn)出來的含義存在差異[3]。開展無監(jiān)督學習常見的數(shù)據(jù)分析方法是聚類分析,一般來說,就是從數(shù)據(jù)本身的特點進行分類,讓復(fù)雜的數(shù)據(jù)形成多組。在具體的操作過程中,給數(shù)據(jù)值科學篩選相似度是極為關(guān)鍵的環(huán)節(jié),在此期間,還包括尋找數(shù)據(jù)的相似度以及數(shù)據(jù)之間距離的度量。
何為半監(jiān)督學習,指的就是新興的機器學習技術(shù)應(yīng)用在以往較為傳統(tǒng)的計算機的缺點上。通俗來說,就是傳統(tǒng)的計算機在處理數(shù)據(jù)的過程中,一般都會通過錯失某些數(shù)據(jù)來處理未被標記的數(shù)據(jù),該項措施最大的弊端就是容易丟失有效信息,該項學習手段也視為無監(jiān)督學習,而監(jiān)督學習是處理已經(jīng)標識出來的數(shù)據(jù)。所以,半監(jiān)督學習處于兩者之間,能夠有效地處理具體的標識數(shù)據(jù),同時處理未標識的數(shù)據(jù),重新整理分析,進而從未標識的數(shù)據(jù)中獲取到有利用的數(shù)據(jù),確保數(shù)據(jù)的最大使用率,避免造成數(shù)據(jù)的損失和浪費。尤其是在當今社會,信息時代的快速發(fā)展下,數(shù)據(jù)庫的信息量大到讓未標記的數(shù)據(jù)遠超出了標識數(shù)據(jù),如果不進行數(shù)據(jù)整理分類,將會損失了很多有效的數(shù)據(jù)信息。
強化學習,主要體現(xiàn)在智能學習方面,也就是以學習環(huán)境為基礎(chǔ),根據(jù)不同的反饋信息選擇不同的技術(shù)手段,從而完成學習任務(wù),在最大程度上優(yōu)化學習技術(shù)[4]。在此過程中,延遲和試錯搜索最為關(guān)鍵。以馬爾科夫決策理論的全過程為基礎(chǔ),是否智能取決于MDP模型知識的學習,從而更好地提高學習效率,MDP模型的學習主要是計算相關(guān)模型和無關(guān)模型兩個方法。
整合學習,顧名思義,就是將整個學習系統(tǒng)上不同的學習手段整合在一起,不斷優(yōu)化原先的學習系統(tǒng),揚長避短,堅固學習架構(gòu)。通俗來說,就是“團結(jié)就是力量”型學習手段。不管是人工操作,還是機器自動學習,都是工作開展的基礎(chǔ),獨立學習的系統(tǒng)內(nèi)部有著巨大的能量,但是還是不能與整合后的學習系統(tǒng)相比較。不同的機器下的使用學習,分析出來的數(shù)據(jù)不能夠跟上數(shù)據(jù)時代的潮流,不能應(yīng)對當下的數(shù)據(jù)問題,還能推動機器學習模擬人類的發(fā)展趨勢。
在機器學習期間,只有經(jīng)過有效的學習,才能得出更好的方案,讓機器學習能夠被廣泛應(yīng)用,從而完成相關(guān)工作。在此基礎(chǔ)上,泛化能力將成為機器學習未來發(fā)展的方向,同時也是較為常見的問題[5]。不管是何種行業(yè),在應(yīng)用機器學習的時候,都需要不斷提高機器學習的泛化能力。目前來說,支持向量機資深帶有極高效率、綜合數(shù)據(jù)能力強的特點,所以在一定的時間內(nèi),能夠快速綜合理論知識點。
信息時代的發(fā)展,不管是數(shù)據(jù)產(chǎn)生的速度還是數(shù)量,在一定程度上已經(jīng)最大化發(fā)展。當機器學習被用于不同崗位的時候,工作人員首先要考慮的是如何提高學習的效率問題,同時,還需要定期檢查機器學習的技術(shù)能力是否滿足當下的時代發(fā)展。在評估計算機計算速度的時候,主要是評估訓(xùn)練速度和預(yù)測速度,兩者看似毫無關(guān)聯(lián),實際上不可分割,前者指的是優(yōu)化數(shù)據(jù)從而獲得更好方案的速度;后者反之,在最佳方案上進行演算,從而提高計算速度,如果相關(guān)人員能夠高效地將兩者融合,定能在計算速度和最佳方案上爭取最短的使勁,為后續(xù)的機器學習提供有價值的參考資料。
對于機器用戶而言,機器都是在幕后開展計算工作,用戶只需要輸入對應(yīng)的參數(shù)指示,就可以獲得有用的信息,但是在這個過程中,如果缺乏對數(shù)據(jù)產(chǎn)生的原因和方法的認識,容易導(dǎo)致使用者在面對復(fù)雜繁多的信息時,降低機器的學習能力,導(dǎo)致用戶不能在遵循相關(guān)標準下解決問題。
在以往的機器學習過程中,都是將已經(jīng)標記出來的數(shù)據(jù)進行處理,但是隨著我國網(wǎng)絡(luò)科技的不斷進步,數(shù)據(jù)分析手段也在不斷創(chuàng)新,未被標記的數(shù)據(jù)容易給各個行業(yè)帶來一定的干擾和挑戰(zhàn)。例如:在醫(yī)學上,關(guān)于醫(yī)學影像的資料或者垃圾信息。同時,有些行業(yè)的噪音大,干擾信息比較多,容易受到不一致的垃圾數(shù)據(jù)的干擾,從而給相關(guān)從事人員帶來不好的影響。在機器學習的過程中,相關(guān)工作人員需要科學合理地應(yīng)用未標識數(shù)據(jù)在相關(guān)數(shù)據(jù)下能夠高效處理垃圾數(shù)據(jù),從而保證數(shù)據(jù)的使用率。
大數(shù)據(jù)時代下,利用機器學習計算分析大量繁瑣的數(shù)據(jù),那么,如何降低機器學習計算中的錯誤率是當前需要解決的問題。當各行各業(yè)和對應(yīng)學科出現(xiàn)失誤的時候,每個時代都有不同的數(shù)據(jù)忍耐度,就算是同一個行業(yè)或者同一個學科中的判斷失誤,所出現(xiàn)的數(shù)據(jù)價值都是存在一定差異的[6]。例如:當小偷入室搶劫的行為發(fā)生的時候,系統(tǒng)會誤以為是業(yè)主回家,反之,機器將業(yè)主回家的行為判定為是小偷入室搶劫等情況,雖然事情的一樣的,但是兩者產(chǎn)生的價值信息是有很大區(qū)別的。所以在我國以往的機器學習中,要綜合考慮同等事件下的同等價值問題,在以后的某個時間段里,需要高效地處理類似的這種敏感性價值問題。
在機器學習的時候,需要對機器學習進行深入分析,然后有效地提高泛化能力和學習速度,及時處理代價敏感問題將是未來機器學習的重要發(fā)展方向。基于大數(shù)據(jù)時代的機器學習順應(yīng)大數(shù)據(jù)時代發(fā)展的需求,推動了我國的經(jīng)濟水平發(fā)展和奠定了現(xiàn)代科技進步的良好基石,可以提高我國的國際競爭力,并在國際競爭中占據(jù)優(yōu)勢。