基于半監(jiān)督學習和特權信息的多任務算法研究

2023-01-31 11:28陳啟航

科學與信息化 2023年2期

陳啟航

廣東工業(yè)大學自動化學院研究生廣東廣州 510000

引言

多任務學習是機器學習領域中的一部分，相對于傳統(tǒng)的單任務學習，有其獨特的優(yōu)勢和應用場景。在現(xiàn)實很多的問題中，往往需要思考不同方面帶來的影響。單一的考慮一兩個任務太過于局限，并且相關任務之間的共性有助于特定任務的學習過程。而多任務學習恰恰能夠通過不同任務之間的聯(lián)系，找到數(shù)據(jù)的共性和特性，更好地提升分類器的性能。多任務學習方法主要是這兩類：共享相同的參數(shù)和共享隱藏的數(shù)據(jù)特征。目前來說，多任務學習廣泛應用在多個領域，比如醫(yī)療建模，圖像分類，自然語言研究和人工智能等[1-3]。

特權信息是一類帶有指導信息的數(shù)據(jù)，一般都是從訓練時獲得的。一般來說，附加數(shù)據(jù)比常規(guī)數(shù)據(jù)更具有信息性，能夠帶來更多的預測結果。因此，特權信息具有輔助學習的效果，作為模型學習的補充信息，可以用于學習更好的識別系統(tǒng)或者分類系統(tǒng)。現(xiàn)今許多領域的研究中，人們致力于尋找?guī)в刑貦嘈畔⒌臄?shù)據(jù)，用以增強各項對應任務的模型學習。實驗表明，加入特權信息的分類方法能夠提升模型的精度[4-6]。

半監(jiān)督學習是一種機器學習的方法，用于解決數(shù)據(jù)很多但帶標簽的數(shù)據(jù)較少的問題。在實驗中，很多目標函數(shù)都是需要使用帶標記的數(shù)據(jù)來預估的，但是往往能獲取到的標記實例是費時費力的。面對這種情況，如何將未標記數(shù)據(jù)和標記數(shù)據(jù)相結合成為一個至關重要的課題。因此。半監(jiān)督學習能夠利用較少的標記數(shù)據(jù)來進行標記，能夠有效提升數(shù)據(jù)的使用率，提升分類器的精度[7-8]。

當下很多研究方法都使用了多任務學習的方法，建立相關的模型方法，但是大多數(shù)方法都沒有考慮到特權信息和半監(jiān)督學習。因此，為了解決帶有半監(jiān)督學習和特權學習的多任務算法相關問題，本文提出一個基于半監(jiān)督學習和特權信息的多任務學習算法模型。

1 基本定義

本文基于多任務學習的方法，首先，我們設定任務數(shù)為T，同時加入特權信息的研究方法，我們設定數(shù)據(jù)集合為：

2 研究內(nèi)容

幾十年來，支持向量機一直被認為是數(shù)據(jù)學習的強大工具，因此支持向量機被廣泛應用于多種模型架構之中。根據(jù)支持向量機的基礎模型，很多學者提出了許許多多的框架，比如根據(jù)共同訓練風格框架下的互補原則，設計了MVL算法等等。支持向量機本質(zhì)上是一種二類分類模型，可以理解為特征空間上的間隔最大的線性分類器，其學習策略便是間隔最大化，最終可轉化為一個凸二次規(guī)劃問題的求解。相對于其他的分類方法，比如決策樹，貝葉斯分類等，支持向量機能夠體現(xiàn)出更好的分類性能，而且能夠解決高維度的分類問題。因此，本文把支持向量機當作基本的分類方法，建立多任務學習的模型。因此，建立一個基于半監(jiān)督學習和特權信息多任務學習算法模型，如下：

接著對公式進行求解。先把問題轉變?yōu)橐粋€對偶問題，因此引入拉格朗日乘子進行計算，然后利用對偶形式進行求解優(yōu)化得到和，再通過KKT(Karush-Kuhn-Tucker)條件求出bt，因此第t個任務中，樣本的正負可以由以下方式確定：

3 實驗結果

為了驗證模型的準確性，選取了3個數(shù)據(jù)集合進行實驗，以精度來作為評判標準。所選取的3個集合分別為MNIST數(shù)據(jù)集和NUS-WIDE數(shù)據(jù)集，設置如表1。

表1 數(shù)據(jù)集設置

MNIST數(shù)據(jù)集是一個巨大的手寫數(shù)字圖像庫，一共有65000個實例，包含了數(shù)字‘0’-‘9’的各類手寫圖片。在實驗中，將數(shù)字圖片‘2’，‘4’設置為正類，其他數(shù)字圖像自然默認設置為負類。同時，從HOG描述符獲取的信息當作輔助信息。

NUS-WIDE是一個由網(wǎng)頁圖片和對應標記組成的數(shù)據(jù)集，一共有2萬多實例圖片，實驗中選取其中的3個子集進行試驗。我們將機場，熊，海灘設置為正類，其他的部分默認設置為負類。同時，我們從每一個圖像文本里面提取一個多維的詞頻特征作為特權信息。

針對本方法的方法對照，選取了多任務學習和特權學習相關的學習方法進行性能比較，以此來說明本方法的有效性。選取的方法中，PSVM-2V、L2-SVM[9-10]是特權信息的學習方法，具有良好的泛化能力，誤差范圍很小。OMTRSL[11]和LSSMTC[12]是多任務聚類的學習方法，能夠挖掘數(shù)據(jù)之間不易發(fā)現(xiàn)的結構，找到數(shù)據(jù)分組的依據(jù)。

在實驗中，核函數(shù)采用高斯核，并且對相關參數(shù)進行設定。在L2-SVM方法中，設定函數(shù)中的下降指數(shù)，建立梯度下降函數(shù)，更改對偶形式，轉變?yōu)楦唵蔚膬?yōu)化問題。在LSSMTC方法中，設定任務數(shù)為T，設置懲罰因子為u，并且從數(shù)據(jù)集合中選擇對應的取值范圍。對于其他的方法，在每個最佳參數(shù)設置下重復20次，對照每一個任務的標準值進行參數(shù)調(diào)整，使得u值能夠在一個允許的范圍內(nèi)變化。實驗結果表2。

表2 實驗結果

由實驗結果可知，本文提出的方法有更好的分類性能。相對于PSVM-2V和L2-SVM，多任務協(xié)同學習的不僅能共享同一參數(shù)的數(shù)據(jù)，還能參考不同任務之間的個性參數(shù)，能夠切實提升分類器的性能。相對于OMTRSL和LSSMTC，在不同任務之間加入特權信息，能夠輔助模型更好的提升分類器的性能?？傊瑢嶒炛械慕Y果說明，在基于多任務學習的模型框架下，加入特權信息，能夠提升分類器的精度，并且優(yōu)于其他的分類方法。

同時，對本文提出的方法進行了收斂性的分析。從表1中，選取從MNIST數(shù)據(jù)集生成的Dataset2，Dataset4，從NUSWIDE數(shù)據(jù)集中選取Dataset5，Dataset8，作為收斂性分析的數(shù)據(jù)組。由實驗結果可得知，在迭代次數(shù)為50次以下時，誤差數(shù)值在急速下降。當?shù)螖?shù)的范圍在50~65之間時，誤差數(shù)值趨于穩(wěn)定，最終在65次左右達到收斂。由此可以得出，基于上述的數(shù)據(jù)集中，本文提出的方法是收斂的，并且是有良好的分類性能。

4 結束語

本文研究了多任務學習的基本思想和方法，同時充分考慮到特權信息和半監(jiān)督學習，由此提出了基于半監(jiān)督學習和特權信息的多任務學習算法模型。該模型能夠自動學習不同任務之間的參數(shù)，構造相似矩陣來學習任務之間的相關性。同時，選取不同的數(shù)據(jù)集，進行恰當?shù)姆纸M實驗和對照實驗，并且證明了模型的收斂性。這表明，本文提出的算法是優(yōu)于大多數(shù)現(xiàn)有的算法，體現(xiàn)出更好的分類性能。對于未來的展望，希望針對輔助信息的多維度進行探究，為提升分類精度而考慮更多方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于半監(jiān)督學習和特權信息的多任務算法研究

引言

1 基本定義

2 研究內(nèi)容

3 實驗結果

4 結束語