国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析稀疏優(yōu)化在機器學習中的應用

2019-09-24 02:00李董東
電腦知識與技術 2019年19期
關鍵詞:機器學習模型

李董東

摘要:Machine Learning翻譯過來即是機器學習簡稱ML,其是一門復雜的學科涉及的領域很廣泛且其算法理論也是相對復雜。什么叫作機器學習呢,從字面就可以看出是有計算機的參與,通過模擬學習人類的行為來達到實現(xiàn)人類行為的目的。稀疏優(yōu)化主要的目的就是將問題得到優(yōu)化,那么這一過程則是會有優(yōu)化模型的參與以及運用到一些相對應的算法。但是當前其過程涉及的一些理論知識以及算法一類的其實還是不那么成熟是需要繼續(xù)發(fā)展的。在近幾年中,稀疏優(yōu)化在很多的領域方面得到了應用,例如對信號,圖像的處理方面或者一些工程,金融中都有涉及,目前已經晉升到其領域中的一個很重要的分支。

關鍵詞:機器學習;模型;稀疏優(yōu)化

中圖分類號:TP3? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)19-0194-02

1 引言

機器學習帶有很重要的任務,為了確定其內在的一些特定規(guī)律,例如對數(shù)據(jù)進行觀測;目前機器學習的設計的方法很多同時也是相當?shù)年P鍵,其重點涉及了稀疏優(yōu)化模型。那么本文通過對其模型進行了優(yōu)化且將其運用到了機器學習的過程中,對其結構進行改建;同時也針對這種模型創(chuàng)新了新型算法來進行建立。

目前在機器學習的創(chuàng)建過程中有很多的問題需要關注,不僅僅是涉及算法的一些問題,同時也有些工程領域的東西涉及信號,圖像的處理,統(tǒng)計以及數(shù)據(jù)挖掘等。那么為了尋找針對稀疏解所涉及的優(yōu)化模型,算法等,我們有了稀疏優(yōu)化這種方式。稀疏是具備一種簡單結構不是單指很少的非零分量,通過其特性-稀疏性,一些專家能夠通過這種特性設計出更好的優(yōu)化算法來解決很多問題。

對于針對機器學習的重點問題是要有一個特定規(guī)律,這種規(guī)律是要有數(shù)據(jù)為依據(jù),這種規(guī)律往往是比較簡單的,所以為了對這種模型有更深入的了解,目前算法中涉及的稀疏解結構也是相當重要的。

2 用于機器學習的稀疏優(yōu)化模型及算法

文中涉及的疏優(yōu)化模型是非常抽象的結構。最近幾年來做過了很多這方面模型的研究且發(fā)現(xiàn)其中的典型模型都具備這種抽象結構,為了進一步了解,文章在后面會進一步讓我們了解多鐘類型的稀疏優(yōu)化模型,且其都是針對解決不同問題的情況創(chuàng)建出的,而且都是在原有的經典模型基礎上的演變或優(yōu)化得來的。目前經典款的也得到了很多的算法和軟件包,但是在某些問題中在某些模塊上還存在一些問題不能滿足要求;這篇文章中提到了一種新型的算法Splitting,這種算法是專門針對求解這一模型特別是PCA模型的通用軟件包。

2.1 用于機器學習的稀疏優(yōu)化模型的抽象結構

機器學習并不只是建立在計算機的基礎上的簡單行為操作其實更重要的是用來觀測數(shù)據(jù),這些數(shù)據(jù)是建立在用戶的基礎之上的,目的是找出一些規(guī)律,對用來說比較有興趣的規(guī)律,一般情況下使用某一函數(shù)或映射關系來表示出這一種規(guī)律,目前我們用字母f來表示這一種關系,那么在一定的數(shù)據(jù)的基礎下,這之間的關系可以以函數(shù)表示,如下:

[min V(f;Θ),]

其中。表示觀測數(shù)據(jù),[V(?)]是給定的極小化準則.本文所涉及的稀疏優(yōu)化模型中,[V(?)]均為某個損失泛函,表示映射f在觀測數(shù)據(jù)上的偏差.用戶觀測到的數(shù)據(jù)(稱之為樣本),其容量是有限的.在有限樣本上學習建立近似映射f的任務往往是一個不適定問題.因此,映射了應當限制在某一函數(shù)集合[Mt]上:

[min V(f;Θ),s.t.? f∈Mt]

其中參數(shù)[t≥0]控制集合[Mt]的大小.在稀疏優(yōu)化模型中,通常選取從使其具有某種簡單或特定的結構.

本節(jié)指出,近年來廣泛研究的幾種典型的稀疏優(yōu)化模型均具有如上面的模型所示的抽象結構,且極小準則[M(?)]均為某個度量下的經驗損失。

1)Lasso模型

在Lasso模型((1.1)中,[f∈Mt],[Mt]是由[Rn]上的線性函數(shù)[f(?)=x,?]構成的空間,其中系數(shù)向量x的所有分量絕對值加和不超過t.經驗損失[V?]是觀測點上的平方損失之和:[V(f;xi,yi)=12=i=1m(f(xi)-yi)2]。

對于Lasso模型的變形Group Lasso模型(它的函數(shù)空間[Mt]是由[Rn]上的線性函數(shù)[f(?)=x,?]構成的空間,使得線性系數(shù)x的[·1,2]范數(shù)不超過t。

2)矩陣秩極小化

在矩陣秩極小化模型中,函數(shù)[f∈Mt] ,[Mt]是由矩陣空間[Rp×q]上的線性函[f(?)=x,?]構成的空間,其中系數(shù)矩陣X的奇異值的加和不超過t.經驗損失V(.)是觀測點上的平方損失之和。

2.2 收斂性分析

這一節(jié)提到的對收斂性分析是建立在如下的假設中,具體如下:

假設1(唯一指標假設)。在任意迭代步k,僅有一個指標導致了步長條件,即[γk+,γk-,γk--]和[γk++]中僅有一個量達到了式確定的步長[γk],僅有[Ik1,Ik2]或[Ik3]中的一個指標使得步長條件成立.

假設2(非退化指標假設).在任意迭代步k,不存在中的指標滿足下列條件:

2.3 協(xié)同過濾數(shù)據(jù)的可預測性評估

目前在電子商務這個領域協(xié)同過濾這種方法是運用得最多的,其目的是為了協(xié)助客戶找到自己喜歡的產品,而且對于協(xié)同過濾來說,它帶有基本的任務,即是能夠參與到涉及用戶一商品矩陣中來且針對其未知的部分進行評分。對于大部分針對協(xié)同過濾這一塊的工作來說,很多的時候只是在研究改善其算法,但是由于受到一些限制,所以導致整個評分矩陣中存在一部分沒有辦法被預測。這篇文章中涉及的相關性是能夠改善這一問題的,且相關性的計算不是那么容易的,是建立在不同的社區(qū)之間,切涉及Lasso模型才能夠得到的。目前存在兩個概率,一是能夠精確預測以及二是難以預測這兩個點,其兩點都是相關性度量在進行評分時候的參考依據(jù)。

評估一個用戶一商品評分對的可預測程度涉及兩塊,第一參考先驗信息,其是跟這一好壞程度掛鉤的,當用戶能夠有好的算法推薦,且是好的數(shù)據(jù)點上,那么可以依靠協(xié)同過濾算法,且用戶一商品可以被準確預測的程度是可以通過這一“好的程度”來實現(xiàn)的。一個“好”的用戶一商品對含有足夠的相關的評分信息,因此預測的評分是可信的。一個“壞”的用戶一商品對缺少有關聯(lián)性的評分信息,這個是可以做出可靠預測的關鍵憑證,所以協(xié)同過濾算法得出的預測值是有待考察的尤其是針對這些用戶一商品對上面。其次,針對戶一商品對的信息不論其好壞程度其實對于協(xié)同過濾算法的設計或者是優(yōu)化都是有好處的。目前參考很多的實驗結果且是關于協(xié)同過濾算法,可以看出好的評分精度是更高的,遠勝于壞的評分的精度。這樣的研究考察是有益于設計出新的算法,針對評分數(shù)據(jù)的質量好換之分都是可以運用于不同的情況,可以運用不同的方法處理。

最近幾年,在協(xié)同過濾這個系統(tǒng)中也有引進雙聚類和圖模型,是用來刻畫研究偏相似性,是介于商品和用戶之間的這種關系,然而雙聚類方法確是具備一定的限制,緊緊適用于商品子集合和某些特定的用戶,對于某一個用戶一商品對可預測程度的度量確實不適用的。同時一些用戶商品也可能不適應于任何的一個分類的當中,即使是他們具備評分信息的充足性也是不被包含的。為了解決這一種的問題,我們需要利用圖模型來解決將其都包含到不同的類別中去。但是由于在同一個類別中用戶—商品都是應該對應同一個類,所以當涉及評分波動時,無論其幅度的大小,其可預測程度依舊是不太直觀的。

這篇文章中涉及了相關性這一詞,是用來闡述上文中提到的可被準確預測的程度,專門針對用戶一商品對之間的。相關性的值是會被某些因素所影響的,例如其過程中涉及的用戶以及社區(qū)。那么為了計算其之間的相關性需要涉及兩個部分,其一是用戶的性關系以及商品之間的。針對用戶之間的相關性,為了解決其問題建立了Lasso模型。為了計算商品的相關性可以通過[l1-]一范數(shù)的參與能夠了解到相關的信息,我們都知道用戶一商品和社區(qū)之間的關系是一對多,因此其高質量社區(qū)的確定是通過得到的極大化相關性的值來判斷出的。

2.4 從時間序列基因表達數(shù)據(jù)中推斷基因正則化網絡

GRN對于基因功能的研究是非常關鍵的方法之一,那么GRN到底是什么呢?GNR中文名即從時間序列基因表達數(shù)據(jù)中推斷基因正則化網絡。依據(jù)目前的手段方式只能從其數(shù)據(jù)中推斷出單個網絡,但是其網絡一般來說都是具備結構的,一般都是有很多個子網絡,而且各個子網絡之間都是具備關聯(lián)性的,在基因功能上都是層層關聯(lián)。目前本文中提到的方式即NCI也就是網絡和社區(qū)識別,我們這種方式是將社區(qū)結構信息結合在一起,通過基因表達出的數(shù)據(jù)來進行推理的。這種NCI方法中涉及的模型其實也是具備前面提到的稀疏結構,通過對此的運用使得其發(fā)展得到了推廣,目前正積極運用到基因正則化網絡之中。

目前DNA微陣列技術發(fā)展得相當迅猛,因此很容易產生出大量的針對事件序列基因的表達數(shù)據(jù),這能夠快速且有效的解決一些問題以及解出一些復雜的關系網絡。當前世界上已經有多重可以推斷出GRN的方式方法。例如布爾網絡是其中的一種,其存在兩種狀態(tài),on或者off,但是布爾邏輯規(guī)則才能判斷出基金的下一個時間狀態(tài)。貝葉斯網絡對于兩個基金之間關系的判斷是不一樣的,則是利用條件概率函數(shù)來進行推理的。這些不同的特性是有關鍵的作用的,尤其是當涉及有大規(guī)模的GRN的動態(tài)以及非線性性質的參與建模的情況時,結果就能受到影響更加的準確了。然而很多的也存在一些不能解決的問題,就例如貝葉斯網絡由于不能含有圈所以導致處理的時候效率大打折扣。但是目前也出現(xiàn)了解決方法,現(xiàn)有的COES即常微分模型就能解決這一問題。

其實當前很多的涉及大規(guī)模網絡中的一些基因關系的研究方法卻沒有很多,大部分其實都是針對小規(guī)模情況的研究。同時現(xiàn)有的一些傳統(tǒng)方法也是針對一些小規(guī)模網絡,并且現(xiàn)在針對大型的GRN也存在很多的挑戰(zhàn),尤其是現(xiàn)有的計算問題,其過程相當?shù)膹碗s而且整個過程也是相當?shù)暮馁M時間,因此一般情況下都會事先預設其具有稀疏性這一特性再來進行GRN建模,這樣做的目的是使其計算的復雜程度能夠有所降低。

參考文獻:

[1] 潘麗麗.稀疏約束優(yōu)化的最優(yōu)性理論與算法[D].北京交通大學,2017.

[2] 滕躍.稀疏離散優(yōu)化問題的數(shù)值解法[D].大連理工大學,2017.

[3] 閆曉斐.基于PET/CT的肺結節(jié)分割與良惡性診斷方法的研究[D].太原理工大學,2017.

[4] 黃金洪.基于稀疏優(yōu)化的超限學習機及應用研究[J].華南理工大學,2018(5).

【通聯(lián)編輯:代影】

猜你喜歡
機器學習模型
適用于BDS-3 PPP的隨機模型
p150Glued在帕金森病模型中的表達及分布
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
前綴字母為特征在維吾爾語文本情感分類中的研究
3D打印中的模型分割與打包
基于支持向量機的金融數(shù)據(jù)分析研究
FLUKA幾何模型到CAD幾何模型轉換方法初步研究