徐曉祥 李凡長 張 莉 張 召
(蘇州大學計算機科學與技術學院 江蘇蘇州 215006) (蘇州大學機器學習與類腦計算國際合作聯(lián)合實驗室 江蘇蘇州 215006)
(20154027004@stu.suda.edu.cn)
范疇表示機器學習算法
徐曉祥 李凡長 張 莉 張 召
(蘇州大學計算機科學與技術學院 江蘇蘇州 215006) (蘇州大學機器學習與類腦計算國際合作聯(lián)合實驗室 江蘇蘇州 215006)
(20154027004@stu.suda.edu.cn)
長期以來,人們認為表示問題是機器學習領域的瓶頸問題之一.機器學習方法的性能在很大程度上依賴于數(shù)據(jù)表示的選擇.數(shù)據(jù)表示領域的主要問題是如何更好地學習到有意義和有用的數(shù)據(jù)表示.寬泛來看數(shù)據(jù)表示領域有深度學習、特征學習、度量學習、成分建模、結構化預測和強化學習等.這些技術應用的范圍也非常廣泛,包括圖像、語音識別和文字理解等.因此,研究機器學習表示方法是一件長期且具有探索意義的工作.基于此,利用范疇理論來研究機器學習方法的表示,提出了范疇表示機器學習方法的基本概念.對決策樹、支持向量機、深度神經(jīng)網(wǎng)絡等方法進行研究分析,提出了范疇表示分類算法、范疇表示決策樹算法、切片范疇表示主成分分析和支持向量機算法、范疇函子表示深度學習方法,給出相應的理論證明及可行性分析.并對這5種算法做了深入分析,找到了主成分分析和支持向量機之間的本質聯(lián)系,最后通過仿真實驗論證范疇表示方法的可行性.
范疇表示;機器學習;機器學習表示;范疇表示學習;范疇表示學習算法
眾所周知,機器學習方法的性能很大程度上依賴于數(shù)據(jù)的表示.表示作為機器學習基本問題之一,一直倍受研究者的關注.表示學習領域的發(fā)展速度決定更好的數(shù)據(jù)表示出現(xiàn)的時間.表示具有廣泛的應用領域,主要涉及深度學習[1-3]、特征學習[4-5]、度量學習[6]、核學習[7]、成分模型[8-9]、非線性結構預測[10-11]、非凸優(yōu)化問題[12-13]等.在2013—2015年舉辦的學習表示國際會議[14-23]上出現(xiàn)了許多為解決這一問題的思路與方法.這些方法僅是從某類學習方法出發(fā)探討表示問題,而沒有給出具有普遍意義的表示方式.如文獻[1]從深度學習角度研究文本識別,文獻[7]用基于高斯核密度的貝葉斯網(wǎng)絡做分類等.并不是從整體普遍的角度來考慮,就分類而言,我們考慮所有的分類算法,如何尋找這些算法的相同點、相異點;尋找到了又如何表達,又如何利用這些相同點、相異點來提高算法效率或者尋找新的算法.為此本文利用范疇理論來研究機器學習方法的一般表示,將現(xiàn)有的以及可能有的機器學習方法包含進范疇表示學習的框架里來給出理論證明,并在文中對幾種機器學習方法做了比較詳細的研究分析.
綜上所述,本文用范疇理論來描述機器學習方法的表示問題有兩大優(yōu)勢:1)機器學習表示問題可以轉換成輸入輸出以及它們的關系問題來解決,這符合了范疇的基本思想;2)范疇理論是一個強大且富有兼容性的數(shù)學理論,可以將我們現(xiàn)有的以及將有的機器學習方法都用范疇表示,從而進一步利用范疇良好的數(shù)學性質來建立機器學習表示理論體系.
為了便于理解范疇表示學習理論框架,在此給出范疇的基本概念.
1) 一族對象(object)obj,包括樣例和實例;
例1. 以集合A={1,2,3},B={a,b,c}為對象,
Table 1 Example of Category表1 范疇實例
根據(jù)機器學習方法的一般定義:F:X→Y,其中,F(xiàn)表示機器學習方法,X表示樣例集合,Y表示實例集合.結合范疇的基本概念,下面給出機器學習方法范疇(categoryofmachinelearningalgorithm,CMLA)的定義.
1) 對象族obj;
定理1. 機器學習方法范疇表示定理(category representation of machine learning algorithm,CRMLA):機器學習方法構成一個范疇.即機器學習方法可用范疇表示.
證畢.
已知集合:C={y1,y2,…,yn}和I={x1,x2,…,xm,…},確定映射規(guī)則y=f(x),使得任意xi∈I有且僅有一個yi∈C使得yi=f(xi)成立(這里不考慮模糊數(shù)學里的模糊集情況).其中,C叫作類別集合,其中每一個元素是一個類別;而I叫作項集合,其中每一個元素是一個待分類項;f叫作分類器.分類算法的任務就是構造分類器f.這就是分類算法的基本思路.
定義3. 分類算法范疇.由2部分組成:
1) 對象族obj={C′,I,…}.其中C′為對應的xi的集合(在實際操作中一般C=C′).
說明:1)這里的對象是分類算法中的各種類別集合與項集合,所有的對象組成對象族;2)態(tài)射是對應的分類構成的集合.
證明. 顯然存在單位態(tài)射,由定義3可知對于任意xi∈I有且僅有一個yi∈C′從而可知:1)每對不同對象之間的態(tài)射是不相交的;2)所有態(tài)射都為滿射,從而滿足復合運算率以及結合律.
證畢.
算法1. 范疇表示樸素貝葉斯分類算法.
輸入:訓練數(shù)據(jù)X=(x1,x2,…,xn)、類別信息Y=(y1,y2,…,ym)、測試數(shù)據(jù)x;
輸出:類別信息y.
步驟1. 計算每個類別條件下各個特征屬性劃分的頻率:P(x1|y1),P(x2|y1),…,P(xn|y1);P(x1|y2),P(x2|y2),…,P(xn|y2);…;P(x1|ym),P(x2|ym),…,P(xn|ym);
步驟2. 計算訓練樣本中每個類別的頻率:
P(x|yi)P(yi)=
P(x1|yi)P(x2|yi)…P(xn|yi)P(yi);
步驟3. y=yi:max(P(x|yi)P(yi)).
結合分類算法范疇以及樸素貝葉斯分類算法,我們不難發(fā)現(xiàn),設f =yi:max(P(x|yi)P(yi)),那么定義樸素貝葉斯算法范疇.在樸素貝葉斯算法范疇中,對象為訓練數(shù)據(jù)X、類別信息Y,那么f:X→Y就是樸素貝葉斯算法范疇的一個態(tài)射.
算法2. 范疇表示決策樹算法.
輸入:E=D1×D2×…×Dm是m維有窮向量空間,其中Di是有窮離散符號集,E中的元素e=(v1,v2,…,vm)叫作例子,其中vj∈Dj,j=1,2,…,m.設PE和NE是E的2個子集,分別叫作正例集和反例集,向量空間E中的PE和NE的大小分別定義為p和n;
輸出:決策樹 T.
步驟2. 以屬性A作為決策樹的根所需的期望信息:
其中pi和ni分別是Ei的正實例和負實例的值;
步驟3. 以A為根的信息增益:
Gain(S,A)=Entrop(S)-Entrop(Si,A);
步驟4. 選擇使Gain(S,A)最大的屬性A*,即 Entrop(Si,A)最小,作為根節(jié)點;
步驟5. 對A*的不同取值對應的E的k個子集Ei,遞歸調用步驟1~4過程生成A*的子節(jié)點B1,B2,…,Bk,最終生成決策樹.
對比算法1與算法2,我們不難發(fā)現(xiàn),最終生成的決策樹是決策樹算法范疇中的一個態(tài)射,并且定義也類似,在此就不進行贅述.但是我們發(fā)現(xiàn):如果在解決同一問題時,那么分別由樸素貝葉斯算法生成的態(tài)射和決策樹方法生成的態(tài)射都屬于同一訓練數(shù)據(jù)到類別信息映射集合的一個元素,但是明顯可以發(fā)現(xiàn)決策樹算法的態(tài)射比樸素貝葉斯分類算法的態(tài)射要復雜得多.這就體現(xiàn)了范疇表示算法的多樣性.
算法3. 范疇表示支持向量機算法.
輸入:訓練數(shù)據(jù)X=(x1,x2,…,xm)、類別信息Y=(y1,y2,…,yn)、測試數(shù)據(jù)x;
輸出:決策函數(shù)g.
在此僅從宏觀的分類算法角度來研究支持向量機算法的范疇表示,第3節(jié)還會從本質核心的角度來研究,所以僅展示算法的輸入輸出,具體過程在第3節(jié)闡述.
之前已經(jīng)講述了2個算法實例,舉這2個算法是為了說明范疇表示學習方法的多樣性.在此給出第3個算法實例的原因是與第3節(jié)用切片范疇表示支持向量機算法做對比,更進一步說明范疇表示學習方法的多樣性.由于已經(jīng)給出了2個算法實例,在此用一句話簡略說明支持向量機算法范疇:以訓練數(shù)據(jù)X和類別信息Y作為對象,以決策函數(shù)g:X→Y作為其態(tài)射的范疇.縱觀這3個算法實例,我們可以發(fā)現(xiàn)范疇表示學習方法十分簡潔精煉,但又可以說明問題.
為了說明如何用切片范疇表示主成分分析(principal component analysis, PCA)和支持向量機(support vector machine, SVM)算法,在此給出切片范疇的基本概念.
Fig. 1 Slice category over B圖1 B上切片范疇
例2. 對象A={a,b,c},B={1,2,3},C={●,■,▲}對應態(tài)射和切片范疇如圖2所示:
f:abc123
morphismg: B→C:
g:■●▲123
SliceCategoryoverB h:A→C:
h:abc■●▲
CosliceCategoryunderB h′:C→A:
h′:■●▲abc
Fig. 2 Morphism and slice category
圖2 態(tài)射和切片范疇
主成分分析是一種統(tǒng)計分析方法,它可以從多元事物中解析出主要影響因素,主成分分析的目的是將高維數(shù)據(jù)投影到較低維空間.
算法4. 主成分分析.
輸入:原始數(shù)據(jù)——n行m列矩陣X;
輸出:降維數(shù)據(jù)——k行m列矩陣Z.
步驟2. 求出協(xié)方差矩陣W=1及協(xié)方差矩陣的特征λ值和對應的特征向量;
步驟3. 將特征向量按對應特征值大小從上到下按行排列成矩陣W′,取前k行組成矩陣P,Z=PX即為降維到k維后的數(shù)據(jù).
支持向量機是一個有監(jiān)督的學習模型,通常用來進行模式識別、分類以及回歸分析.
算法5. 支持向量機.
輸入:訓練數(shù)據(jù)X=(x1,x2,…,xn)、類別信息Y=(y1,y2,…,ym)、測試數(shù)據(jù)x;
輸出:決策函數(shù)g=wx+b.
步驟1. 原規(guī)劃max1‖w‖,使得yi(wTxi+b)≥1,其中i=1,2,…,n,即min‖w‖22 使得yi(wTxi+b)≥1,其中i=1,2,…,n;
步驟2. 拉格朗日對偶L(w,b,a)=‖w‖22-其中a=(a1,a2,…,an)為拉格朗日參數(shù);
步驟3. 由拉格朗日對偶求出ai,從而:
其中,ψ(x)是核函數(shù).
SVM與PCA算法的本質核心都是將數(shù)據(jù)投影到其他空間,然后利用其他空間的特性來進行處理.但是SVM與PCA不同的是:1)SVM尋找的空間不是低維空間而是高維甚至無限維空間,無法輕易直觀地對數(shù)據(jù)進行表示;2)在PCA中f和g都是不知道具體表達式的,但在SVM中g是已表達的.下面給出切片范疇表示PCAamp;SVM算法示意圖,如圖3所示:
Fig. 3 Slice category representation of PCAamp;SVM圖3 切片范疇表示PCAamp;SVM算法
為了說明如何用范疇函子表示Deep Learning算法,在此給出范疇函子的基本概念.
objn→obju:A|→F(A),
morn→moru:f|→F(f),
滿足dom(F(f))=F(dom(f)),cod(F(f))=F(cod(f)),F(xiàn)(IA)=IF(A).并且若dom(g)=cod(f),則F(g f)=F(g)F(f).其中,dom為定義域,cod為值域.
DeepLearning算法常見有3種類型:有監(jiān)督深度學習、無監(jiān)督深度學習和混合深度學習.監(jiān)督學習主要用于處理回歸和分類問題;無監(jiān)督學習主要用于處理聚類和密度估計問題;混合深度網(wǎng)絡則綜合了前2種方式.為了呼應第2節(jié),在此僅以有監(jiān)督深度學習中的分類算法為例.
算法6. 深度學習算法.
輸入:訓練數(shù)據(jù)X={x1,x2,…,xn}、標簽數(shù)據(jù)Y={y1,y2,…,ym}、測試樣本x、k層深度網(wǎng)絡;
輸出:樣本標簽 y.
步驟1. 預訓練,通過最小化損失函數(shù):
J(W,b)=1(2m)×‖h(xi)-xi‖2+
γ2×‖W‖2,
求得W,b,其中xi表示第i個樣本,γ為超參數(shù),
步驟2. 通過最小化交叉熵函數(shù),對W,b進行微調J(W)=-1其中
步驟3. 求出屬于第i類的概率Pi:
從而y=yi:max Pi.
本文進行實驗仿真的目的是為了驗證范疇表示機器學習方法的可行性,第2~4節(jié)中我們對決策樹算法、支持向量機算法、深度學習方法進行了理論闡述以及證明.在本節(jié)主要針對這3個算法進行可行性驗證.
5.1決策樹算法實驗仿真
在第2節(jié)中我們將決策樹算法進行了范疇表示,下面就從范疇表示角度進行計算驗證算法的可行性.表2為10位志愿者的房產(chǎn)、婚姻、收入、債務情況.我們將以此為例,通過房產(chǎn)、婚姻、收入來預測能否還清債務,并預測第11位志愿者(無房產(chǎn)、單身、收入5.5萬元)的債務情況.
Table 2 Situation of Volunteers表2 志愿者情況
由第2節(jié)決策樹范疇中的態(tài)射構造方法我們可以計算(不妨將收入分為大于等于8和小于8這2類):
Entrop(S)=-0.3 lb 0.3-0.7 lb 0.7=0.811.
Entrop(PropertyY)=0,
Entrop(PropertyN)=0.985.
Entrop(MarriageSingle)=1,
Entrop(MarriageMarried)=0,
Entrop(MarriageDivorce)=1.
Entrop(Income≥8)=0.985,
Entrop(Incomelt;8)=0.
Entrop(S,Property)=
0.3×0+0.7×0.985=0.69,
Entrop(S,Marriage)=
0.4×0+0.4×0+0.2×1=0.6,
Entrop(S,Income)=0.7×0.985+0.3×0=0.69.
Gain(S,Property)=0.811-0.69=0.121,
Gain(S,Marriage)=0.811-0.6=0.211,
Gain(S,Income)=0.811-0.69=0.121.
從而我們的根節(jié)點就是婚姻,重復此過程得到其他分支節(jié)點及葉子節(jié)點,得到最終態(tài)射f如圖4所示:
Fig. 4 The morphism f圖4 態(tài)射f
從而我們的預測第11位志愿者的債務情況為Y(圖4中虛線箭頭).
5.2SVM算法實驗仿真
在第3節(jié)中我們將SVM算法進行了范疇表示,下面就從范疇表示角度進行計算驗證算法的可行性.實驗從人工數(shù)據(jù)集和ORL人臉數(shù)據(jù)集上進行驗證.
人工數(shù)據(jù)集(采用線性核)采用服從高斯分布的2組點,分別以(0,0)(2.5,2.5)為中心且標準差為1的2組點,每組100個,進行10次實驗取平均準確率為96.57%.其中單次實驗效果如圖5所示:
Fig. 5 Experimental results on artificial data sets圖5 人工數(shù)據(jù)集實驗效果
ORL人臉數(shù)據(jù)集(采用高斯核) 包含400幅人臉圖像(40人×10),其中每幅圖像大小為112×92.其中一半測試一半訓練,高斯核參數(shù)選取(0.01,128).多分類構建39×40/2個分類器投票決定類別,10次實驗平均準確率為93.68%.
由這2組實驗不僅驗證范疇表示機器學習方法的可行性,同時第1組實驗又構成了第2節(jié)范疇表示分類算法的一個例子,第1組實驗驗證了切片范疇表示SVM算法的可行性.結合第1,2組實驗發(fā)現(xiàn)SVM可用范疇理論來表示體現(xiàn)了范疇表示機器學習方法的多樣性.
5.3神經(jīng)網(wǎng)絡算法實驗仿真
MNIST數(shù)據(jù)集[24]是由0~9的手寫體數(shù)字組成(即10類數(shù)據(jù)),包含了60 000張訓練圖像和10 000張測試圖像,每張圖像為28×28的灰度圖,圖6給出了MNIST數(shù)據(jù)集的一些示例樣本.圖7為在手寫體數(shù)據(jù)集上196個隱單元的可視化效果.
Fig. 6 Sample for handwritten data set圖6 手寫體數(shù)據(jù)集的示例樣本
Fig. 7 Visualization of 196 hidden units on handwritten data set圖7 在手寫體數(shù)據(jù)集上196個隱單元的可視化效果
COIL數(shù)據(jù)集[25]包含的樣本為日常生活中的一些瓶子、罐子以及盒子之類的物體.該數(shù)據(jù)集有7 200張灰度圖像,共100類數(shù)據(jù),每個類別72張圖像,每張圖像的大小為32×32.圖8給出了該數(shù)據(jù)集的一些示例樣本,有100個樣本,分別屬于不同的類別.圖9 COIL數(shù)據(jù)集上訓練所得196個隱單元的可視化效果我們從每個類別中隨機地挑選出50張圖像,共計5 000張圖像作為訓練集,剩余的1 200張圖像作為測試集.實驗中,MNIST和COIL數(shù)據(jù)均被歸一化到了[0,1]之間.
Fig. 8 Sample for COIL data set圖8 COIL數(shù)據(jù)集的示例樣本
Fig. 9 Visualization of 196 hidden units on COIL data set圖9 COIL數(shù)據(jù)集上訓練所得196個隱單元的可視化效果
本次實驗在2個數(shù)據(jù)集上分別采用深度學習方法,網(wǎng)絡的隱單元數(shù)均被設為196.MNIST訓練樣本被隨機劃分成600批,每批100個樣本;COIL訓練樣本被隨機劃分成50批,每批100個樣本(每一類包含一個數(shù)據(jù)).最后通過softmax分類器對測試數(shù)據(jù)進行分類10次實驗求平均準確率:在MNIST數(shù)據(jù)集上為93.03%,在COIL數(shù)據(jù)集上為98.08%.這不僅驗證了范疇表示方法的可行性,同時由可視化效果(圖7和圖9)可以發(fā)現(xiàn)范疇表示方法十分符合人類認知習慣.
本文提出了一種機器學習表示新方法,即范疇表示機器學習方法,并且結合多種機器學習方法來實例驗證了機器學習方法表示針對統(tǒng)一性問題的一種可能解法.這種方法包容了所有的機器學習方法,并能對部分方法的本質原理給出依據(jù).因此,本文的創(chuàng)新點主要體現(xiàn)在:
1) 機器學習方法可用范疇表示.不同算法可用同一范疇表示,同一算法可用不同范疇理論表示.這體現(xiàn)了范疇表示機器學習方法的統(tǒng)一性和多樣性.
2) 范疇表示機器學習方法能夠從表面以及本質上看清算法,同時能夠尋找符合人們的認知習慣的表示特征.
范疇表示學習剛剛開始,還有許多工作要做.例如范疇表示學習的拓撲問題、范疇表示學習的流形問題、范疇表示學習的優(yōu)化問題等.
[1]Belharbi S, Chatelain C, Herault R, et al. Deep structured output learning for unconstrained text recognition[OL]. 2015 [2016-02-06] . https:arxiv.orgpdf1412.5903.pdf
[2]Mao Junhua, Xu Wei, Yang Yi, et al. Deep captioning with multimodal recurrent neural networks[OL]. 2014[2016-02-06] . https:arxiv.orgpdf1412.6632v3.pdf
[3]Goodfellow I J, Vinyals O, Saxe A M. Qualitatively characterizing neural network optimization problems[OL]. 2014 [2016-02-06]. https:arxiv.orgpdf1412.6544.pdf
[4]Liu Tong, Si Yunjuan, Wen Dunwei, et al. Dictionary learning for VQ feature extraction in ECG beats classification[J]. Expert Systems with Applications, 2016, 53: 129-137
[5]Tao Chao, Pan Hongbo, Li Yansheng, et al. Unsupervised spectral-spatial feature learning with stacked sparse autoencoder for hyperspectral imagery classification[J]. IEEE Geoscience amp; Remote Sensing Letters, 2015, 12(12): 2438-2442
[6]Wang Wei, Hu Baogang, Wang Zengfu. Efficient and scalable information geometry metric learning[C]Proc of the 13th IEEE Int Conf on Data Mining. Los Alamitos, CA: IEEE Computer Society, 2013: 1217-1222
[7]Wang Shuangcheng, Gao Rui, Wang Limin. Bayesian network classifiers based on Gaussian kernel density[J]. Expert Systems with Applications, 2016, 51(C): 207-217
[8]Crouzen P, Hermanns H. Aggregation ordering for massively compositional models[C]Proc of the 10th Int Conf on Application of Concurrency to System Design. Los Alamitos, CA: IEEE Computer Society, 2010: 171-180
[9]Virtanen T, Gemmeke J F, Raj B, et al. Compositional models for audio processing: Uncovering the structure of sound mixtures[J]. IEEE Signal Processing Magazine, 2015, 32(2): 125-144
[10]Michel O, Hero A. Tree structured non-linear signal modeling and prediction[J]. IEEE Trans on Signal Processing, 1995, 3(2): 267-270
[11]Patel M, Shah H. Protein secondary structure prediction using support vector machines[C]Proc of the 1st Int Conf on Machine Intelligence and Research Advancement. Piscataway, NJ: IEEE, 2013: 233-244
[12]Parks D, Truszczynski M. Routing non-convex grids without holes[C]Proc of the 1st Great Lakes Symp on IEEE. Piscataway, NJ: IEEE, 1991: 157-162
[13]Ding Yin, Selesnick I W. Artifact-free wavelet denoising : Non-convex sparse regularization, convex optimization[J]. IEEE Signal Processing Letters, 2015, 22(9): 1364-1368
[14]Bribiesca E, Bribiesca-Contreras G. 2D tree object represen-tation via the slope chain code[J]. Pattern Recognition, 2014, 47(10): 3242-3253
[15]Chen Lichi, Hsieh J W, Yan Yilin, et al. Vehicle make and model recognition using sparse representation and symmetrical SURFs[J]. Pattern Recognition, 2013, 48(6): 1143-1148
[16]Fraz M, Edirisinghe E A, Sarfraz M S. Mid-level represen-tation based lexicon for vehicle make and model recognition[C]Proc of the 22nd Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2014: 393-398
[17]Liu Haifeng, Yang Zheng, Yang Ji, et al. Local coordinate concept factorization for image representation[J]. IEEE Trans on Neural Networks amp; Learning Systems, 2014, 25(25): 1071-1082
[18]Healy M J. Category theory applied to neural modeling and graphical representations[C]Proc of the 1st Int Joint Conf on Neural Networks. Piscataway, NJ: IEEE, 2000: 30-45
[19]Jadoon W, Zhang Haixian. Locality features encoding in regularized linear representation learning for face recognition[C]Proc of the 2nd Int Conf on Frontiers of Information Technology. Los Alamitos, CA: IEEE Computer Society, 2013: 189-194
[20]Lei Hao, Mei Kuizhi, Zheng Nanning, et al. Learning group-based dictionaries for discriminative image represen-tation[J]. Pattern Recognition, 2014, 47(2): 899-913
[21]Lemus E, Bribiesca E, Garduo E. Representation of enclosing surfaces from simple voxelized objects by means of a chain code[J]. Pattern Recognition, 2014, 47(4): 1721-1730
[22]Liang Yan, Lai Jianhuang, Yuen P C, et al. Face hallucination with imprecise-alignment using iterative sparse representation[J]. Pattern Recognition, 2014, 47(10): 3327-3342
[23]Wang Lingfeng, Yan Hongping. Visual tracking via kernel sparse representation with multikernel fusion[J]. IEEE Trans on Circuits amp; Systems for Video Technology, 2014, 24(7): 1132-1141
[24]Lecun Y, Bottou L, Bengio Y, et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324
[25]Nene S A, Nayar S K, Murase H. Columbia object image library (COIL-100), CUCS-006-96[R]. New York: Department of Computer Science, Columbia University, 1996
XuXiaoxiang, born in 1991. Doctoral candidate. His main research interests include Lie group machine learning, category theory and homology theory.
LiFanzhang, born in 1964. Professor and PhD supervisor. Senior member of CCF. His main research interests include Lie group machine learning and dynamic fuzzy logic.
ZhangLi, born in 1975. Professor and PhD supervisor. Senior member of CCF. His main research interests include pattern recognition, machine learning and image processing (zhangliml@suda.edu.cn).
ZhangZhao, born in 1984. Professor and Master supervisor. Senior member of CCF. His main research interests include pattern recognition, machine learning, data mining and computer vision (cszzhang@suda.edu.cn).
TheCategoryRepresentationofMachineLearningAlgorithm
Xu Xiaoxiang, Li Fanzhang, Zhang Li, and Zhang Zhao
(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006) (Joint International Research Laboratory of Machine Learning and Neuromorphic Computing, Soochow University, Suzhou, Jiangsu 215006)
For a long time, it is thought that the representation is one of the bottleneck problems in the field of machine learning. The performance of machine learning methods is heavily dependent on the choice of data representation. The rapidly developing field of representation learning is concerned with questions surrounding how we can best learn meaningful and useful representations of data. We take a broad view of the field and include topics such as deep learning, feature learning, metric learning, compositional modeling, structured prediction, reinforcement learning, etc. The range of domains to which these techniques apply is also very broad, from vision to speech recognition, text understanding, etc. Thus, the research on new representation methods for machine learning is a piece of work which is long-term, explorative and meaningful. Based on this, we propose several basic concepts of category representation of machine learning methods via the category theory. We analyze the decision tree, support vector machine, principal component analysis and deep neural network with category representation and give the corresponding category representation for each algorithms: the category representation of decision tree, slice category representation of support vector machine, and functor representation of the neural network. We also give the corresponding theoretical proof and feasibility analysis. According to further reach of category representation of machine learning algorithms, we find the essential relationship between support vector machine and principal component analysis. Finally, we confirm the feasibility of the category representation method using the simulation experiments.
category representation; machine learning; representation of machine learning; category representation learning; category representation learning algorithm
2016-05-24;
2017-04-07
國家自然科學基金項目(61373093,61402310,61672364,61672365);蘇州大學東吳學者計劃項目;江蘇省普通高校研究生科研創(chuàng)新計劃項目
This work was supported by the National Natural Science Foundation of China (61373093, 61402310, 61672364, 61672365), the Soochow Scholar Program of Soochow University, and the Graduate Innovation and Practice Program of Colleges and Universities in Jiangsu Province.
李凡長(lfz@suda.edu.cn)
TP391