趙 權(quán),耿 新+
1.東南大學(xué) 計算機(jī)網(wǎng)絡(luò)和信息集成教育部重點實驗室,南京 211189
2.東南大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,南京 211189
標(biāo)記分布學(xué)習(xí)中目標(biāo)函數(shù)的選擇*
趙 權(quán)1,2,耿 新1,2+
1.東南大學(xué) 計算機(jī)網(wǎng)絡(luò)和信息集成教育部重點實驗室,南京 211189
2.東南大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,南京 211189
標(biāo)記分布學(xué)習(xí);最大熵模型;擬牛頓法;目標(biāo)函數(shù)選擇
標(biāo)記多義性問題是目前機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的熱門研究方向。目前已有兩種比較成熟的學(xué)習(xí)范式,分別是單標(biāo)記學(xué)習(xí)(single-label learning)和多標(biāo)記學(xué)習(xí)[1]multi-label learning)。多標(biāo)記學(xué)習(xí)是對單標(biāo)記學(xué)習(xí)的拓展。通過大量的研究和實驗[2-8]表明,多標(biāo)記學(xué)習(xí)是一種有效且應(yīng)用場景廣泛的學(xué)習(xí)范式。
多標(biāo)記學(xué)習(xí)仍有可以拓展的地方。多標(biāo)記學(xué)習(xí)雖然對于一個示例允許標(biāo)上多個標(biāo)記,拓展了單標(biāo)記學(xué)習(xí),但是仍有一些問題是不太適合用多標(biāo)記學(xué)習(xí)解決的。例如,后面的實驗中提到的人類基因數(shù)據(jù)集,這個數(shù)據(jù)中每個基因示例上不是若干個標(biāo)記,而是一個標(biāo)記分布。一個標(biāo)記分布中每個標(biāo)記通過一個0到1之間的值表示對示例的描述程度。對于這類數(shù)據(jù)集,不僅希望預(yù)測新示例的正確標(biāo)記,還希望預(yù)測每一個標(biāo)記對示例的描述程度。多標(biāo)記學(xué)習(xí)不容易直接求解這類問題。因此,為了解決這類問題,Geng等人[9]拓展了多標(biāo)記學(xué)習(xí),提出了標(biāo)記分布學(xué)習(xí)(label distribution learning)范式。與多標(biāo)記學(xué)習(xí)輸出一個標(biāo)記集合不同,標(biāo)記分布學(xué)習(xí)輸出的是一個標(biāo)記分布,分布中的每個分量表示對應(yīng)標(biāo)記對示例的描述程度。標(biāo)記分布學(xué)習(xí)是一種適用場景更廣的學(xué)習(xí)范式,能夠解決更多的標(biāo)記多義性問題。相關(guān)的研究成果[9-15]也說明了這一點。
目前,已有一些標(biāo)記分布學(xué)習(xí)算法[9-15]被提出來。這些算法的設(shè)計策略主要分為以下3類:(1)將標(biāo)記分布學(xué)習(xí)問題轉(zhuǎn)換為單標(biāo)記學(xué)習(xí)等問題進(jìn)行求解。(2)對現(xiàn)有的算法(例如k近鄰、神經(jīng)網(wǎng)絡(luò)等算法)進(jìn)行調(diào)整和拓展以解決標(biāo)記分布學(xué)習(xí)問題。(3)直接匹配標(biāo)記分布學(xué)習(xí),設(shè)計專門的算法。相關(guān)的研究成果[9]表明,在這3種策略中,第三種直接針對標(biāo)記分布學(xué)習(xí)設(shè)計專門算法的策略是效果最好的?;谶@一點,對第三種策略進(jìn)行分析,泛化出一種框架,并對泛化框架中的某些組成部分進(jìn)行深入研究,將有可能提升用第三種策略設(shè)計出的標(biāo)記分布學(xué)習(xí)算法的效果。因此,本文提出一種泛化框架,并著重研究框架中的目標(biāo)函數(shù)部分對算法預(yù)測效果的影響。
本文的主要貢獻(xiàn)有以下幾點:首先針對較為有效的標(biāo)記分布學(xué)習(xí)算法設(shè)計策略,泛化出一種算法設(shè)計框架。其次,根據(jù)標(biāo)記分布學(xué)習(xí)的特點,選取若干較具代表性的距離(度量兩個分布間的不相似程度的函數(shù))進(jìn)行研究。基于5個真實標(biāo)記分布數(shù)據(jù)集的實驗結(jié)果,本文分析了選取不同距離作為泛化框架中的目標(biāo)函數(shù)對算法預(yù)測效果的影響。最后,提出了若干選擇目標(biāo)函數(shù)的建議。
本文組織結(jié)構(gòu)如下:第2章簡要介紹標(biāo)記分布學(xué)習(xí)。第3章針對上述提到的第三種標(biāo)記分布算法設(shè)計策略,泛化出一種算法設(shè)計框架,然后根據(jù)一定的策略選取若干具有代表性的距離,并使用這些距離特化出若干個標(biāo)記分布學(xué)習(xí)算法。第4章在5個真實的標(biāo)記分布數(shù)據(jù)集上進(jìn)行實驗,比較這些特化算法的預(yù)測效果;基于實驗結(jié)果,分析選擇不同距離作為目標(biāo)函數(shù)對特化算法預(yù)測效果的影響,并給出相應(yīng)的結(jié)論和建議。第5章總結(jié)全文。
標(biāo)記分布學(xué)習(xí)是對多標(biāo)記學(xué)習(xí)的拓展。在多標(biāo)記學(xué)習(xí)中,對于一個新示例,會輸出一個預(yù)測標(biāo)記集合。因此,對于一個標(biāo)記,多標(biāo)記學(xué)習(xí)的輸出只有0(表示不是正確標(biāo)記)和1(表示是正確標(biāo)記)兩種結(jié)果。假設(shè)共有n個標(biāo)記,則多標(biāo)記學(xué)習(xí)不同的輸出總數(shù)是2n-1個,而單標(biāo)記學(xué)習(xí)的輸出總數(shù)是n個。單從輸出總數(shù)上就可以直觀地發(fā)現(xiàn)多標(biāo)記學(xué)習(xí)對示例具有更豐富的標(biāo)記表示。圖1形象地說明了這一點。圖1表示的是在只有兩個標(biāo)記情況下的典型學(xué)習(xí)問題中,3種學(xué)習(xí)范式的特征空間決策域。其中,單標(biāo)記學(xué)習(xí)可能的標(biāo)記表示只有兩種,紅色色塊對應(yīng)標(biāo)記1的決策域,黃色則對應(yīng)標(biāo)記2。而多標(biāo)記學(xué)習(xí)則有3種,除了單標(biāo)記學(xué)習(xí)輸出的兩種表示外,還有同時輸出標(biāo)記1和標(biāo)記2(中間的橙色色塊)。標(biāo)記分布學(xué)習(xí)的標(biāo)記表示則有無窮多種,圖1中每一個點都代表一個標(biāo)記分布的決策域。直觀上這是一種從離散值表示到連續(xù)值表示的拓展。標(biāo)記分布學(xué)習(xí)不再是輸出一個標(biāo)記的集合,而是輸出一個標(biāo)記分布。下面將正式給出這種輸出的形式化表示。
Fig.1 Decision regions of 3 learning paradigms for a learning problem with two labels圖1 兩標(biāo)記的學(xué)習(xí)問題中3種學(xué)習(xí)范式的特征空間決策域
對于數(shù)據(jù)集中的第i個示例,用xi來表示。第i個示例對應(yīng)的標(biāo)記分布,用Di來表示。Di可以表示為,其中n表示一共有n個標(biāo)記。表示第 j個標(biāo)記對示例i的描述程度(簡稱描述度),其值為0到1之間的實數(shù),值越大,表示越能描述第i個示例,并且滿足,表示所有標(biāo)記共同完備地描述一個示例。
單標(biāo)記學(xué)習(xí)和多標(biāo)記學(xué)習(xí)都可以看成是標(biāo)記分布學(xué)習(xí)的特例。如圖2所示,對于單標(biāo)記學(xué)習(xí),可以通過將示例的真實標(biāo)記的描述度設(shè)為1,而其他標(biāo)記的描述度設(shè)為0的方式,將單標(biāo)記輸出轉(zhuǎn)換為標(biāo)記分布輸出。同樣的,在多標(biāo)記學(xué)習(xí)中,假設(shè)一個示例有兩個正確的標(biāo)記,可以將這兩個標(biāo)記的描述度都設(shè)為0.5,其他標(biāo)記的描述度設(shè)為0。這樣就可以把標(biāo)記集合轉(zhuǎn)換為標(biāo)記分布了。通過上述方式可以將單標(biāo)記學(xué)習(xí)和多標(biāo)記學(xué)習(xí)問題都轉(zhuǎn)換為標(biāo)記分布學(xué)習(xí)問題。這說明標(biāo)記分布學(xué)習(xí)的泛化程度更高,具有更多的適用場景。
3.1 基于專門算法設(shè)計策略的泛化框架
目前針對標(biāo)記分布學(xué)習(xí),設(shè)計算法的策略主要有以下3種:
Fig.2 Label distribution of 3 learning paradigms圖2 3種學(xué)習(xí)范式對應(yīng)的標(biāo)記分布
第一種策略是問題轉(zhuǎn)換。這種策略首先將標(biāo)記分布學(xué)習(xí)問題轉(zhuǎn)換為單標(biāo)記學(xué)習(xí)等問題后,再利用相應(yīng)范式中已有的算法進(jìn)行求解,然后將輸出結(jié)果轉(zhuǎn)換為標(biāo)記分布。例如:PT-SVM(problem transformation support vector machine)算法[9]就是先通過重采樣,將標(biāo)記分布數(shù)據(jù)集轉(zhuǎn)換為單標(biāo)記數(shù)據(jù)集;然后在單標(biāo)記數(shù)據(jù)集上訓(xùn)練單標(biāo)記支持向量機(jī)(support vector machine,SVM)分類器;最后將分類器輸出的結(jié)果轉(zhuǎn)換為標(biāo)記分布。顯然這類算法并不是直接求解標(biāo)記分布學(xué)習(xí)問題,而是將問題轉(zhuǎn)換為其他范式的學(xué)習(xí)問題后再求解,求解后還需要將其他范式的輸出轉(zhuǎn)換為標(biāo)記分布。兩次轉(zhuǎn)換過程有可能丟失部分原來標(biāo)記分布中包含的信息。例如:在重采樣過程中,以標(biāo)記的描述度為權(quán)重進(jìn)行采樣。描述度越高的標(biāo)記,在采樣后得到的單標(biāo)記示例越多。對于一些描述度較低的標(biāo)記,會采樣到比較少的單標(biāo)記示例,甚至有可能沒有訓(xùn)練示例出現(xiàn)在單標(biāo)記訓(xùn)練集中,這就丟失了標(biāo)記分布的部分信息。同時這種非直接的算法把一個標(biāo)記分布整體分拆成多個單標(biāo)記問題求解,忽略了標(biāo)記之間的相關(guān)關(guān)系,這可能導(dǎo)致算法的效果不理想。
第二種設(shè)計策略是算法調(diào)整。這種設(shè)計策略沒有將標(biāo)記分布學(xué)習(xí)問題轉(zhuǎn)換成其他學(xué)習(xí)范式問題后再進(jìn)行求解,而是首先尋找一些可以解決多變量回歸問題的算法,然后對這些算法進(jìn)行調(diào)整來解決標(biāo)記分布學(xué)習(xí)問題。例如:LDSVR(label distribution support vector regressor)算法[15]就是先將標(biāo)記分布數(shù)據(jù)集當(dāng)成多變量回歸數(shù)據(jù)集來訓(xùn)練支持向量機(jī)得到一個多變量回歸器,再將這個回歸器的輸出調(diào)整為一個標(biāo)記分布。這種設(shè)計策略雖然沒有問題轉(zhuǎn)換的過程,不會出現(xiàn)信息丟失和忽略標(biāo)記間相關(guān)性的問題,但是這種設(shè)計策略仍存在導(dǎo)致算法效果不佳的因素。多變量回歸和標(biāo)記分布學(xué)習(xí)本質(zhì)上還是有區(qū)別的。標(biāo)記分布本質(zhì)上是一個描述度分布,所有標(biāo)記對示例的描述具有完備性,也就是說所有標(biāo)記的描述度的和為1,且每個標(biāo)記描述度的值為0到1之間。顯然,一個標(biāo)記分布可以認(rèn)為是一個多變量,但是一個多變量不一定就是一個分布。有一些多變量回歸相關(guān)的算法是不能保證輸出一個分布的,例如LDSVR算法的輸出就不一定是一個分布,需要對輸出進(jìn)行調(diào)整后轉(zhuǎn)換為一個分布。這個調(diào)整過程就有可能影響算法的效果。
第三種策略是針對標(biāo)記分布學(xué)習(xí)設(shè)計專門的算法。這種策略沒有問題轉(zhuǎn)換過程,直接求解標(biāo)記分布學(xué)習(xí)問題。而且和第二種策略不同,使用第三種策略設(shè)計的算法的輸出模型可以直接輸出標(biāo)記分布。因此,這種直接設(shè)計專門算法的策略,不存在問題轉(zhuǎn)換過程中的信息丟失問題和對輸出結(jié)果進(jìn)行轉(zhuǎn)換導(dǎo)致算法效果受影響的問題。相關(guān)研究[9]也表明,用第三種策略設(shè)計的算法效果要好于第一、第二種策略設(shè)計的算法。因此本文將針對第三種算法設(shè)計策略,提出一種泛化標(biāo)記分布學(xué)習(xí)算法設(shè)計框架,并對框架中的目標(biāo)函數(shù)部分做深入研究,以分析選擇不同距離作為目標(biāo)函數(shù)對算法預(yù)測效果的影響。
針對第三種算法設(shè)計策略可以泛化出一種標(biāo)記分布學(xué)習(xí)算法設(shè)計框架。仔細(xì)分析第三種算法設(shè)計策略,發(fā)現(xiàn)以這種策略設(shè)計的算法由輸出模型、優(yōu)化方法和目標(biāo)函數(shù)三部分組成。因此,本文提出的泛化框架也主要由這三部分組成。這里的輸出模型指的是能夠直接輸出標(biāo)記分布的輸出模型,而不像LDSVR算法那樣還要對算法的原始輸出做調(diào)整才能得到標(biāo)記分布。用第三種策略設(shè)計的算法都可以統(tǒng)一到這個泛化框架中,只不過對應(yīng)的泛化框架中的三部分不相同。以IIS-LLD和BFGS-LLD算法[9]為例,雖然是兩種不同的算法,但是都可以統(tǒng)一到本文所提的泛化標(biāo)記分布學(xué)習(xí)框架中。這兩種算法在框架中使用的輸出模型都是最大熵模型(maximum entropy model)[16],使用的目標(biāo)函數(shù)都是Kullback Leibler散度。不同的是優(yōu)化方法,IIS-LLD算法使用的優(yōu)化方法是改進(jìn)的迭代尺度法(improved iterative scaling,IIS)[17],而BFGS-LLD算法使用的優(yōu)化方法是擬牛頓法中的BFGS算法[18]。在這個泛化標(biāo)記分布學(xué)習(xí)框架中,通過組合不同的輸出模型、目標(biāo)函數(shù)及優(yōu)化方法可以設(shè)計出不同的標(biāo)記分布學(xué)習(xí)算法。對框架中三部分的改進(jìn)都有可能提升算法的效果。
已有的研究在設(shè)計算法時都主要關(guān)注輸出模型和優(yōu)化方法的選擇和設(shè)計,關(guān)于目標(biāo)函數(shù)的研究則相對少些。但是作為框架中的重要組成部分,對目標(biāo)函數(shù)選擇方法的改進(jìn)也能提升算法效果。在使用泛化標(biāo)記分布學(xué)習(xí)框架設(shè)計算法時,如何選擇目標(biāo)函數(shù)的距離是一個十分有價值的問題。因此,基于這個動機(jī),本文將主要關(guān)注用不同距離作為目標(biāo)函數(shù)對算法預(yù)測效果的影響。
3.2 代表性距離的選取
在泛化標(biāo)記分布學(xué)習(xí)框架中,輸出模型的輸出是一個標(biāo)記分布,數(shù)據(jù)集中每個示例對應(yīng)的也是一個標(biāo)記分布。因此,標(biāo)記分布學(xué)習(xí)中的目標(biāo)函數(shù)必須是能夠度量兩個分布間不相似程度的距離或相似度。
為了表述方便,本文將距離和相似度統(tǒng)稱為距離??梢杂脕矶攘績蓚€分布間不相似程度的距離有很多,文獻(xiàn)[19]對41種距離進(jìn)行了語法和語義上的系統(tǒng)研究。本文基于這些系統(tǒng)研究的結(jié)果,將選取若干具有代表性的距離作為泛化標(biāo)記分布學(xué)習(xí)框架中的目標(biāo)函數(shù)。為了分析41個距離間的相關(guān)性,文獻(xiàn)[19]使用agglomerative single linkage clustering算法[20]進(jìn)行了30次獨立的相關(guān)性分析實驗,最終得到的結(jié)果如圖3所示。圖3中橫坐標(biāo)表示兩個距離間的相關(guān)程度,數(shù)值越大表示越不相關(guān)??v坐標(biāo)則代表不同的距離。橫坐標(biāo)對應(yīng)的不同樹狀圖分支表示的是用對應(yīng)的橫坐標(biāo)數(shù)值做聚類分析后得到的不同聚類類別。例如:用0.40這個數(shù)值進(jìn)行聚類分析后,可以將所有距離分成兩個類別,反映到圖3中,就是對應(yīng)的兩個樹狀圖分支。逐漸減小橫坐標(biāo)的數(shù)值繼續(xù)進(jìn)行聚類分析,可以對樹狀圖的分支進(jìn)行不斷的細(xì)分,最后便得到了距離相關(guān)性聚類樹狀圖(如圖3)。
圖3中的每個樹狀圖分支都可以認(rèn)為是一個距離類別,橫坐標(biāo)數(shù)值取得越小,劃分得越精細(xì),反之則越粗糙。因此,為了盡可能全面地研究用不同距離作為目標(biāo)函數(shù)對標(biāo)記分布學(xué)習(xí)算法預(yù)測效果的影響,如圖3所示,在橫坐標(biāo)較小值0.05處做橫坐標(biāo)的垂直線,將距離劃分為12個類別,并在每個類別中選取一個距離作為這個類別的代表。
在選取距離時,本文會按照以下準(zhǔn)則剔除掉一些不合適的距離。(1)當(dāng)預(yù)測分布和真實分布完全一致時,所選距離的計算結(jié)果必須達(dá)到最小值(相似度則達(dá)到最大值),如果不滿足則剔除。例如:圖3的2號分支中的Inner Product在計算兩個相同分布的相似度值時就不一定能達(dá)到最大值,因此在選擇代表性距離時就剔除它。(2)距離的表達(dá)式還必須是連續(xù)的,如果不連續(xù)則剔除。例如:3號分支中的Chebyshev就不是連續(xù)的,選擇時也剔除這個距離。(3)在距離的公式中不允許出現(xiàn)除于0的情況,由于本文使用的標(biāo)記分布輸出模型是最大熵模型,這種輸出模型不會輸出值為0的分量。在執(zhí)行這條準(zhǔn)則時,只需考慮示例的真實分布中有值為0的分量存在的情況。按照這條準(zhǔn)則,第4、9及11號分支都被剔除。執(zhí)行上述準(zhǔn)則剔除掉部分距離后,還剩7個分支。需要在這7個分支中分別選出7個代表性距離。
Fig.3 Selected typical distances and cluster hierarchical tree of different distances圖3 距離相關(guān)性聚類樹狀圖和所選取的代表性距離
在7個分支中選擇代表性距離時,如果分支中的距離只有一個,則直接選取。如果有多個,則先按照上面提到的3個準(zhǔn)則剔除掉部分不合適的距離后,再通過以下過程選取代表距離。首先某些距離在度量兩個分布的不相似程度時是線性等價的。例如:12號分支中的S?rensen和City block,這兩個距離在度量兩個分布的不相似程度時,通過S?rensen距離公式計算得到的值相當(dāng)于通過City block距離公式計算得到的值乘上0.5。對于這種情況,本文選擇形式最簡單的距離代表這一類線性等價的距離。接著,如果還是存在不止一個距離,則選擇比較常用和經(jīng)典的距離作為代表。例如:8號分支中的Kullback Leibler散度。通過上述過程,如圖3所示,本文最后選出了7個代表距離。表1給出了這7個距離的名稱和形式。在表1中示例的真實標(biāo)記分布用D={d1,d2,…,dc}表示,輸出模型輸出的預(yù)測標(biāo)記分布用表示。
Table 1 Name and calculation formula of 7 typical distances表1 7個代表性距離的名稱和計算公式
3.3 模型和優(yōu)化方法
本文接下來將介紹實驗中使用的標(biāo)記分布輸出模型和優(yōu)化方法。由于本文主要關(guān)注的是泛化標(biāo)記分布學(xué)習(xí)框架中的目標(biāo)函數(shù)部分,為了排除選擇不同輸出模型和優(yōu)化方法造成的干擾,實驗部分將使用相同的輸出模型和優(yōu)化方法。
實驗部分使用的標(biāo)記分布輸出模型是最大熵模型[9,16]。假設(shè)一個示例的特征向量用x表示,則最大熵模型輸出的第i個標(biāo)記的預(yù)測描述度可以表示為如下形式:
其中,c表示一共有c個標(biāo)記;θj,k是需要學(xué)習(xí)的模型參數(shù),和第 j個標(biāo)記及示例特征向量的第k個分量相對應(yīng),假設(shè)特征向量有K維,則共有c×K個模型參數(shù);gk(x)表示的是特征向量的第k個分量。
實驗部分使用的優(yōu)化方法是擬牛頓法中的BFGS算法[18]。用牛頓法進(jìn)行優(yōu)化時,需要求目標(biāo)函數(shù)的二階導(dǎo)數(shù)矩陣Hessian矩陣的逆矩陣。這個過程不僅是一個計算十分耗時的過程,而且不一定能保證Hessian矩陣是可逆的。擬牛頓法為了解決這個問題,對Hessian矩陣的逆矩陣進(jìn)行了近似,不同的近似方法得到不同的擬牛頓法,BFGS算法便是其中的一種擬牛頓法。文獻(xiàn)[9]給出了BFGS的近似方法和優(yōu)化過程。對于Canberra和City block距離中不可導(dǎo)的點,使用次梯度作為替代進(jìn)行梯度下降[21]。
4.1 算法預(yù)測效果評價指標(biāo)
為了研究評價指標(biāo)和目標(biāo)函數(shù)間的關(guān)系,本文將7個代表性距離同時作為目標(biāo)函數(shù)和特化算法預(yù)測效果的評價指標(biāo)。文獻(xiàn)[19]把41個距離按照其計算公式的語法特點分成了8個語義家族。觀察7個代表距離所屬的家族,可以發(fā)現(xiàn)它們來自4個不同的語法家族。因此,無論在不相關(guān)性方面,還是在語法特點方面,這7個距離都具有一定的多樣性和廣泛的代表性,能在一定程度上從不同方面評價一個特化算法預(yù)測效果的好壞。
4.2 數(shù)據(jù)集
本文在5個真實標(biāo)記分布數(shù)據(jù)集上進(jìn)行實驗,表2給出了這些數(shù)據(jù)集的基本信息。
Table 2 5 real label distribution learning datasets表2 5個真實標(biāo)記分布學(xué)習(xí)數(shù)據(jù)集
1號數(shù)據(jù)集是人類基因數(shù)據(jù)集,每個示例代表一種人類基因。文獻(xiàn)[22]給出了基因特征的提取方法。通過對一種基因在68種疾病中的基因表達(dá)強度進(jìn)行歸一化,可以得到示例的標(biāo)記分布。
2號數(shù)據(jù)集是自然場景數(shù)據(jù)集。數(shù)據(jù)集中每個示例代表一幅自然場景圖片,示例的特征使用文獻(xiàn)[21]的方法得到。每個示例原本對應(yīng)的是具有9個標(biāo)記的排序集合(由10個人給出的排序),排序的依據(jù)是標(biāo)記和圖片的相關(guān)程度。通過文獻(xiàn)[23]的方法可以將排序集合轉(zhuǎn)換為標(biāo)記分布。
3號和4號數(shù)據(jù)集是兩個人類表情數(shù)據(jù)集JAFFE[24]和BU_3DFE[25]。示例的特征是使用文獻(xiàn)[25]的方法處理得到的。一共有6個標(biāo)記,代表6種人類的表情分別是開心、難過、驚訝、害怕、生氣及厭惡。示例的標(biāo)記分布是通過以下過程得到的。首先請多個不同的人根據(jù)圖片中的人臉表情對6種表情進(jìn)行打分,分?jǐn)?shù)分成5個級別,級別越高,對應(yīng)表情越符合圖片中的人臉表情。最后對分?jǐn)?shù)進(jìn)行歸一化得到標(biāo)記分布。
5號數(shù)據(jù)集是一個電影評分?jǐn)?shù)據(jù)集。數(shù)據(jù)集的每個示例代表一部電影。一個示例的特征是根據(jù)電影的類別、導(dǎo)演、主演及預(yù)算等信息生成的特征向量。一部電影的評分有5個級別,相當(dāng)于有5個標(biāo)記。將每個級別的評分人數(shù)占總評分人數(shù)的比例作為對應(yīng)標(biāo)記的描述度,則可以生成一個標(biāo)記分布。
4.3 實驗方法
本文用所選的7個代表距離作為目標(biāo)函數(shù),以最大熵模型作為標(biāo)記分布輸出模型,優(yōu)化方法使用BFGS算法,對泛化標(biāo)記分布學(xué)習(xí)框架進(jìn)行特化,得到7種具體算法。為了簡便,采用目標(biāo)函數(shù)所用的距離名稱代表對應(yīng)的算法。為了比較這些算法的預(yù)測效果,在5個真實標(biāo)記分布數(shù)據(jù)集上進(jìn)行實驗。實驗過程采用十倍交叉驗證。如前面提到的一樣,7個代表距離同時作為評價指標(biāo),實驗結(jié)束后會得到每種算法7種評價指標(biāo)各自的平均值和標(biāo)準(zhǔn)差,通過平均值和標(biāo)準(zhǔn)差可以對7種算法進(jìn)行排序。對5個數(shù)據(jù)集的實驗結(jié)果進(jìn)行匯總后,可以得到一個具有統(tǒng)計意義的實驗結(jié)果,本文將對實驗結(jié)果進(jìn)行觀察和分析。
4.4 實驗結(jié)果與分析
表3~表7分別給出了5個數(shù)據(jù)集的實驗結(jié)果。表格中的每一行對應(yīng)一種算法的實驗結(jié)果,每一列對應(yīng)一種評價指標(biāo)的實驗結(jié)果。為了簡便,表格中距離的名稱使用了簡寫,簡寫和全稱的對應(yīng)關(guān)系為:KL對應(yīng)Kullback Leibler,Pear對應(yīng)Pearson,Dive對應(yīng)Divergence,Canb對應(yīng)Canberra,Kdiv對應(yīng)K divergence,SE對應(yīng)Squared Euclidean,CB對應(yīng)City block。表中的實驗結(jié)果形式為:平均值±標(biāo)準(zhǔn)差。表中7個評價指標(biāo)均為距離,數(shù)值越小表示預(yù)測效果越好。每個實驗結(jié)果后面有一個括號括起的數(shù)字,代表對應(yīng)算法在對應(yīng)評價指標(biāo)上的表現(xiàn)排名,表現(xiàn)越好排名越靠前。例如在表3中,K divergence算法的Kullback Leibler評價指標(biāo)平均值是7個算法中最小的,則對應(yīng)的括號里的數(shù)字為1,表示其表現(xiàn)最好。每個表格的最后一列給出的是平均排名,表示一個算法在7個評價指標(biāo)上的排名的平均值。為了方便觀察排名最好的算法,每張表中把每個評價指標(biāo)上排名第一的實驗結(jié)果加黑。平均排名最好的算法和其平均排名也加黑。
Table 3 Experimental results on SBU_3DFE dataset表3 SBU_3DFE數(shù)據(jù)集實驗結(jié)果
Table 4 Experimental results on SJAFFE dataset表4 SJAFFE數(shù)據(jù)集實驗結(jié)果
Table 5 Experimental results on Movie dataset表5 Movie數(shù)據(jù)集實驗結(jié)果
Table 6 Experimental results on Natural Scene dataset表6 Natural Scene數(shù)據(jù)集實驗結(jié)果
Table 7 Experimental results on Human Gene dataset表7 Human Gene數(shù)據(jù)集實驗結(jié)果
在表6給出的Natural Scene數(shù)據(jù)集的實驗結(jié)果中,觀察Pear評價指標(biāo)列中的數(shù)據(jù),可以發(fā)現(xiàn)一些比較大的數(shù)值,例如Canberra算法的數(shù)值達(dá)到了1 000以上。這些較大的數(shù)值和同一列中的其他數(shù)值在數(shù)量級上并不統(tǒng)一。而其他評價指標(biāo)列中的數(shù)值在數(shù)量級上是比較統(tǒng)一的。出現(xiàn)這種現(xiàn)象并不是實驗和算法本身的問題,而是與數(shù)據(jù)集及Pearson距離公式的特點有關(guān)系。Natural Scene數(shù)據(jù)集示例的真實標(biāo)記分布中出現(xiàn)了大量描述度接近于0的分量,使得訓(xùn)練完后的最大熵模型,對于新示例傾向于輸出包含較多的描述度接近于0的分量的標(biāo)記分布。Pearson距離公式(如表1所示)用預(yù)測描述度做分母,當(dāng)預(yù)測描述度較接近于0,且真實描述度較大時,就相當(dāng)于用真實描述度的平方除以預(yù)測描述度。因此,當(dāng)真實分布中和預(yù)測分布中那些描述度接近于0的分量對應(yīng)的描述度較大時(由于真實分布中會出現(xiàn)很多描述度接近于0的分量,加上所有分量的描述度和為1,因此會出現(xiàn)一些描述度比較大的分量),用Pearson距離公式計算出的值就會比較大。這說明Pearson距離對分布中包含較多描述度接近于0的分量的數(shù)據(jù)集的測試結(jié)果變化起伏較大。
雖然在Natural Scene數(shù)據(jù)集中Canberra算法在Pear指標(biāo)上的表現(xiàn)并不理想,但是其在Dive和Canb兩個指標(biāo)上的表現(xiàn)卻不錯。類似的情況在所提供的實驗結(jié)果中是普遍存在的。這一現(xiàn)象說明,和多標(biāo)記學(xué)習(xí)一樣,評價一個標(biāo)記分布學(xué)習(xí)算法預(yù)測效果的好壞不能單純只看一項指標(biāo),需要用不同的指標(biāo)從不同的側(cè)面進(jìn)行反映。
仔細(xì)觀察5個數(shù)據(jù)集的實驗結(jié)果可以發(fā)現(xiàn),在某些指標(biāo)上,兩個排名相鄰的算法的指標(biāo)平均值比較接近。例如:在Human Gene數(shù)據(jù)集中,K divergence算法和Kullback Leibler算法的KL評價指標(biāo)平均值就十分接近(和標(biāo)準(zhǔn)差的數(shù)量級不匹配)。雖然存在這種現(xiàn)象,但是選擇不同的距離作為目標(biāo)函數(shù)并非對算法的預(yù)測效果沒有影響。例如:在Human Gene數(shù)據(jù)集中K divergence算法和Kullback Leibler算法的KL評價指標(biāo)平均值雖然比較接近,但是在0.05的顯著性水平條件下,對在十倍交叉驗證過程中得到的10次實驗結(jié)果進(jìn)行T檢驗,能夠得出兩個算法在KL評價指標(biāo)上存在顯著性差異的結(jié)論。這說明選擇不同距離作為目標(biāo)函數(shù)對算法的預(yù)測效果還是有影響的。
觀察5個數(shù)據(jù)集的實驗結(jié)果可以發(fā)現(xiàn),K divergence和Kullback Leibler兩個算法的平均排名一般情況下都會好于其他算法,尤其是K divergence算法在5個數(shù)據(jù)集中的平均排名都是最好的。本文將5個數(shù)據(jù)集的實驗結(jié)果匯總成表8。表8的每一行對應(yīng)一種算法,每一列對應(yīng)一種評價指標(biāo)。表8中的數(shù)字表示一個算法在5個數(shù)據(jù)集中排名的平均值。最后一列給出的是一個算法的7個指標(biāo)的平均排名(對應(yīng)5個數(shù)據(jù)集)的平均值。為了更加直觀地對比不同算法的預(yù)測效果,本文將表8中的排名轉(zhuǎn)換為灰度表示,如圖4所示。圖4中色塊的灰度和表8中的平均排名相對應(yīng),色塊越白表示排名越靠前,反之則越靠后。通過表8和圖4可以看出,在統(tǒng)計意義上K divergence和Kullback Leibler兩個算法的效果是最好的。通過表1分析7個代表距離計算公式上的特點,可以發(fā)現(xiàn)這7個代表距離大致可以分為兩類:第一類距離是基于真實描述度和預(yù)測描述度的比值的對數(shù)來度量兩個分布的不相似程度,這類距離有K divergence和Kullback Leibler。第二類距離是基于真實描述度和預(yù)測描述度的差來度量兩個分布的不相似程度,這類距離包括除兩個第一類距離外的剩余5個距離。兩類距離度量不相似程度的基本方法不同,導(dǎo)致了以其為目標(biāo)函數(shù)的標(biāo)記分布學(xué)習(xí)算法的預(yù)測效果不同。以第二類距離為目標(biāo)函數(shù)的算法,會傾向于學(xué)習(xí)描述度高的標(biāo)記。這是因為減少描述度高的標(biāo)記的預(yù)測誤差將能減少更多第二類距離的值。以第二類距離為目標(biāo)函數(shù)的算法的這種學(xué)習(xí)傾向會導(dǎo)致在訓(xùn)練過程中忽略對描述度低的標(biāo)記的學(xué)習(xí),這顯然是不合適的。在標(biāo)記分布學(xué)習(xí)問題中,希望預(yù)測的是一個整體的標(biāo)記分布,而不是只單純預(yù)測描述度高的標(biāo)記。第一類距離則不會出現(xiàn)這種問題。雖然第一類距離以標(biāo)記的真實描述度為權(quán)重,也傾向于學(xué)習(xí)描述度大的標(biāo)記,但是通過求比值的對數(shù)的方式,減小描述度小的標(biāo)記的預(yù)測誤差仍能較為明顯地減小第一類距離的值,使得這種傾向控制在合理范圍內(nèi)。
Table 8 Summary of average rank of 7 algorithms表8 7個算法的平均排名匯總
Fig.4 Gray scale image of average rank of 7 algorithms圖4 7個算法平均排名灰度圖
在第一類距離中,K divergence算法的效果要優(yōu)于Kullback Leibler算法。圖5展示的是K divergence和Kullback Leibler距離的變化曲線,其中綠色實線表示K divergence距離,紅色虛線表示Kullback Leibler距離。以一個只有兩個標(biāo)記的標(biāo)記分布{0.5, 0.5}為真實分布。通過將一個標(biāo)記的描述度在0.01到0.99的范圍內(nèi)按0.01的步長連續(xù)變化,可以得到一個預(yù)測分布集合。通過計算真實分布和預(yù)測分布集合的距離值得到圖5中的變化曲線。圖5的縱坐標(biāo)代表距離的值,橫坐標(biāo)表示預(yù)測分布中一個標(biāo)記的描述度。通過圖5不難發(fā)現(xiàn),在預(yù)測較不準(zhǔn)確的情況下(圖5中曲線的兩端部分),K divergence距離的變化曲線更加平坦。當(dāng)預(yù)測較為準(zhǔn)確時(圖5中曲線的中間部分),兩個距離的變化曲線是十分相似的,這一點通過表1中兩者的計算公式也可以看出來。以上兩點說明,當(dāng)快接近于最優(yōu)參數(shù)值時,兩個距離的變化曲面是近似等價的,以兩個距離作為目標(biāo)函數(shù)的標(biāo)記分布學(xué)習(xí)算法都能找到相似的最優(yōu)參數(shù)。而當(dāng)處于極端情況時,K divergence距離平坦的變化曲線意味著以模型參數(shù)為自變量形成的局部最優(yōu)曲面深度會較淺,當(dāng)算法陷入局部最優(yōu)值后能更容易地迭代出來。這就是K divergence算法預(yù)測效果比Kullback Leibler算法預(yù)測效果好的原因。
Fig.5 Changing curves of K divergence and Kullbacd Leibler圖5 K divergence和Kullback Leibler距離變化曲線
分別觀察表8中的每一列數(shù)據(jù)還可以發(fā)現(xiàn),在每個評價指標(biāo)上表現(xiàn)最好或次好的算法一般都是用和該評價指標(biāo)相同的距離作為目標(biāo)函數(shù)的算法。例如:Divergence算法在Dive評價指標(biāo)上的平均排名是除K divergence算法外最好的。繼續(xù)觀察每一行還可以發(fā)現(xiàn),在7個評價指標(biāo)中,一個算法平均排名最靠前的評價指標(biāo)一般都是這種算法用來作目標(biāo)函數(shù)的距離所對應(yīng)的指標(biāo)。把表8每一行中最靠前的平均排名加黑,可以發(fā)現(xiàn)表8基本呈現(xiàn)出一條對角線。從圖4中則可以觀察到,對角線上的色塊要相對偏白。這說明以某個距離作為目標(biāo)函數(shù)的算法傾向于優(yōu)化這個距離。反過來也可以說明,在某些情況下,想要使預(yù)測的標(biāo)記分布在某個距離上表現(xiàn)最好,可以使用這個距離作為目標(biāo)函數(shù)來特化泛化框架設(shè)計算法。例如:在表6中觀察Pear評價指標(biāo)對應(yīng)的列,可以發(fā)現(xiàn)Pearson算法的效果是最好的,說明以Pearson距離為目標(biāo)函數(shù)的算法能比其他算法更好地優(yōu)化Pearson距離。
4.5 選取合適的目標(biāo)函數(shù)
基于以上的分析,對于在通過泛化標(biāo)記分布學(xué)習(xí)框架設(shè)計算法的過程中如何選擇目標(biāo)函數(shù),本文提出以下幾點建議:一個算法輸出的標(biāo)記分布預(yù)測效果怎樣,從表3到表8的實驗結(jié)果和前面的分析可以看出,是不能只用單一的評價指標(biāo)來評價的。不同的評價指標(biāo)從不同的側(cè)面反映一個算法的預(yù)測效果。例如:前面提到的第二類距離,受描述度大的標(biāo)記影響較大,傾向于反映描述度大的標(biāo)記的預(yù)測效果。而第一類距離則從整體的分布反映一個算法的預(yù)測效果。因此在選擇目標(biāo)函數(shù)時,首先需要確定更關(guān)注算法哪方面的預(yù)測效果。如果希望算法能更好地預(yù)測描述度大的標(biāo)記的描述度,則可以用第二類距離作為預(yù)測效果的評價指標(biāo),并且選擇第二類距離中的距離作為目標(biāo)函數(shù)。例如:在Natural Scene數(shù)據(jù)集中,存在不少包含大量值接近于0的分量的標(biāo)記分布,在這些標(biāo)記分布中只有少數(shù)幾個標(biāo)記的描述度較大,而其他標(biāo)記的描述度則十分接近于0。此時,可以只關(guān)注對這些描述度大的標(biāo)記的預(yù)測效果,因此選用Pear指標(biāo)作為預(yù)測效果的評價指標(biāo)。同時,如表6中Pear列的數(shù)據(jù)所示,Pearson算法在Pear評價指標(biāo)上的效果是最好的,因此可以同時選擇Pearson距離作為目標(biāo)函數(shù)。如果關(guān)注的是算法的綜合性能,希望算法既給予描述度高的標(biāo)記較大的學(xué)習(xí)權(quán)重,同時又兼顧對描述度小的標(biāo)記的學(xué)習(xí),則可以考慮使用第一類距離作為目標(biāo)函數(shù)。通過實驗和分析,本文發(fā)現(xiàn)以K divergence作為目標(biāo)函數(shù)能獲得更好的綜合表現(xiàn),因此在第一類距離中,本文更推薦使用K divergence距離。
本文針對一種較為有效的標(biāo)記分布學(xué)習(xí)算法設(shè)計策略,提出了一種泛化標(biāo)記分布學(xué)習(xí)框架。這個泛化框架主要由輸出模型、目標(biāo)函數(shù)和優(yōu)化方法三部分組成。通過三部分的不同組合,可以特化出不同的標(biāo)記分布學(xué)習(xí)算法。然后,本文以目標(biāo)函數(shù)部分為研究對象,通過在5個真實標(biāo)記分布數(shù)據(jù)集上進(jìn)行實驗,分析了目標(biāo)函數(shù)和評價指標(biāo)間的關(guān)系,及以不同的距離作為目標(biāo)函數(shù)對算法預(yù)測效果的影響。最后,本文基于這些分析,就在使用泛化標(biāo)記分布學(xué)習(xí)框架設(shè)計算法時如何選擇目標(biāo)函數(shù)這一問題,提出了一些建議。本文對于泛化框架中的輸出模型和優(yōu)化方法兩部分并未進(jìn)行深入研究,這兩部分的設(shè)計對一個標(biāo)記分布學(xué)習(xí)算法來說是十分重要的,因此有待進(jìn)一步的研究。
[1]Tsoumakas G,Katakis I.Multi-label classification:an overview[J].International Journal of Data Warehousing and Mining,2007,3(3):1-13.
[2]Tsoumakas G,Zhang Minling,Zhou Zhihua.Tutorial on learning from multi-label data[C]//Proceedings of the 2009 European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases,Bled,Slovenia, Sep 7-11,2009.Berlin,Heidelberg:Springer,2009.
[3]Read J,Pfahringer B,Holmes G,et al.Classifier chains for multi-label classification[J].Machine Learning,2011,85(3): 333-359.
[4]Hüllermeier E,Fürnkranz J,Cheng W,et al.Label ranking by learning pairwise preferences[J].Artificial Intelligence, 2008,172(16):1897-1916.
[5]Read J,Pfahringer B,Holmes G.Multi-label classification using ensembles of pruned sets[C]//Proceedings of the 8th IEEE International Conference on Data Mining,Pisa,Italy, Dec 15-19,2008.Washington:IEEE Computer Society,2008: 995-1000.
[6]Cheng Weiwei,Hüllermeier E.Combining instance-based learning and logistic regression for multilabel classification [J].Machine Learning,2009,76(2):211-225.
[7]Clare A,King R D.Knowledge discovery in multi-label phenotype data[C]//LNCS 2168:Proceedings of the 5th European Conference on Principles of Data Mining and Knowledge Discovery,Freiburg,Germany,Sep 3-5,2001.Berlin, Heidelberg:Springer,2001:42-53.
[8]Sapozhnikova E P.ART-based neural networks for multi-label classification[C]//Proceedings of the 8th International Symposium on Intelligent Data Analysis,Lyon,France,Aug 31-Sep 2,2009.Berlin,Heidelberg:Springer,2009:167-177.
[9]Geng Xin,Ji Rongzi.Label distribution learning[C]//Proceedings of the 13th International Conference on Data Mining Workshops,Dallas,USA,Dec 7-10,2013.Washington:IEEE Computer Society,2013:377-383.
[10]Zhang Zhaoxiang,Wang Mo,Geng Xin.Crowd counting inpublic video surveillance by label distribution learning[J]. Neurocomputing,2015,166(C):151-163.
[11]Geng Xin,Yin Chao,Zhou Zhihua.Facial age estimation by learning from label distributions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35 (10):2401-2412.
[12]Geng Xin,Xia Yu.Head pose estimation based on multivariate label distribution[C]//Proceedings of the 2014 IEEE International Conference on Computer Vision and Pattern Recognition,Columbus,USA,Jun 23-28,2014.Washington:IEEE Computer Society,2014:1837-1842.
[13]Geng Xin,Wang Qin,Xia Yu.Facial age estimation by adaptive label distribution learning[C]//Proceedings of the 22nd International Conference on Pattern Recognition,Stockholm,Sweden,Aug 24-28,2014.Washington:IEEE Computer Society,2014:4465-4470.
[14]Geng Xin,Smith-Miles K,Zhou Zhihua.Facial age estimation by learning from label distributions[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence,Atlanta, USA,Jul 11-15,2010.Menlo Park,USA:AAAI,2010:451-456.
[15]Geng Xin,Hou Peng.Pre-release prediction of crowd opinion on movies by label distribution learning[C]//Proceedings of the 2015 International Joint Conference on Artificial Intelligence,Buenos Aires,Argentina,Jul 25-31,2015. San Francisco,USA:Morgan Kaufmann,2015:3511-3517.
[16]Berger A L,Pietra V J D,Pietra S A D.A maximum entropy approach to natural language processing[J].Computational Linguistics,2002,22(1):39-71.
[17]Pietra S D,Pietra V D,Lafferty J.Inducing features of random fields[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(4):380-393.
[18]Nocedal J,Wright S.Numerical optimization[M].2nd ed. New York:Springer,2006.
[19]Cha S H.Comprehensive survey on distance/similarity measures between probability density functions[J].International Journal of Mathematical Models and Methods in Applied Sciences,2007,1(4):300-307.
[20]Duda R O,Hart P E,Stork D G.Pattern classification[M]. New York:John Wiley&Sons,2012.
[21]Liu Jun,Yuan Lei,Ye Jieping.An efficient algorithm for a class of fused Lasso problems[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Washington,Jul 25-28,2010. New York:ACM,2010:323-332.
[22]Yu Jiafeng,Jiang Dongke,Xiao Ke,et al.Discriminate the falsely predicted protein-coding genes in aeropyrum pernix K1 genome based on graphical representation[J].Match Communications in Mathematical and in Computer Chemistry, 2012,67(3):845-866.
[23]Geng Xin,Luo Longrun.Multilabel ranking with inconsistent rankers[C]//Proceedings of the 2014 IEEE International Conference on Computer Vision and Pattern Recognition, Columbus,USA,Jun 23-28,2014.Washington:IEEE Computer Society,2014:3742-3747.
[24]Lyons M,Akamatsu S,Kamachi M,et al.Coding facial expressions with gabor wavelets[C]//Proceedings of the 1998 IEEE International Conference on Automatic Face and Gesture Recognition,Nara,Japan,Apr 14-16,1998.Washington: IEEE Computer Society,1998:200-205.
[25]Yin Lijun,Wei Xiaozhou,Sun Yi,et al.A 3D facial expression database for facial behavior research[C]//Proceedings of the 10th IEEE International Conference on Automatic Face and Gesture Recognition,Southampton,UK,Apr 10-12,2006.Washington:IEEE Computer Society,2006:211-216.
ZHAO Quan was born in 1990.He is an M.S.candidate at School of Computer Science and Engineering,Southeast University.His research interests include data mining and machine learning.
趙權(quán)(1990—),男,海南東方人,東南大學(xué)計算機(jī)科學(xué)與工程學(xué)院碩士研究生,主要研究領(lǐng)域為數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)。
GENG Xin received the M.S degree from Nanjing University in 2004,the Ph.D.degree from Deakin University of Australia in 2008.Now he a professor and vice dean at School of Computer Science and Engineering,Southeast University,and the member of CCF.His research interests include pattern recognition,machine learning and computer vision.He has published over 40 refereed papers and holds 4 patents in these areas.
耿新,2004年于南京大學(xué)計算機(jī)科學(xué)與技術(shù)系獲得碩士學(xué)位,2008年于澳大利亞Deakin大學(xué)獲得博士學(xué)位,現(xiàn)為東南大學(xué)計算機(jī)科學(xué)與工程學(xué)院教授、副院長,CCF會員,主要研究領(lǐng)域為模式識別,機(jī)器學(xué)習(xí),計算機(jī)視覺。發(fā)表學(xué)術(shù)論文40余篇,獲得4項授權(quán)發(fā)明專利。
Selection of Target Function in Label Distribution Learning*
ZHAO Quan1,2,GENG Xin1,2+
1.Key Laboratory of Computer Network and Information Integration(Southeast University),Ministry of Education, Nanjing 211189,China
2.School of Computer Science and Engineering,Southeast University,Nanjing 211189,China
+Corresponding author:E-mail:xgeng@seu.edu.cn
ZHAO Quan,GENG Xin.Selection of target function in label distribution learning.Journal of Frontiers of Computer Science and Technology,2017,11(5):708-719.
Label distribution learning is a new machine learning paradigm proposed in recent years.In theory,this paradigm can be seen as a generalization of multi-label learning paradigm.Previous studies show that label distribution learning paradigm is an effective learning paradigm.It can solve some label ambiguity problems effectively. For label distribution learning,a number of special algorithms which have good prediction effect have been proposed.For these special algorithms,this paper proposes a generalization frame of label distribution learning.In this learning frame,a special algorithm consists of three parts,they are target function,output model and optimization algorithm.This paper studies the part of target function in this generalization frame.In order to study the relationship between prediction effect of a label distribution learning algorithm and different target functions,this paper selects 7 representative distances.Based on the characteristics of each distance and experiment results of 5 real label distribution learning datasets,this paper proposes some suggestions how to choose a target function.
label distribution learning;maximum entropy model;quasi-Newton method;selection of target functions
10.3778/j.issn.1673-9418.1603051
A
:TP391
*The National Natural Science Foundation of China under Grant Nos.61273300,61232007(國家自然科學(xué)基金);the Natural Science Funds for DistinguishedYoung Scholar of Jiangsu Province under Grant No.BK20140022(江蘇省自然科學(xué)基金杰出青年基金項目).
Received 2016-03,Accepted 2016-05.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-05-13,http://www.cnki.net/kcms/detail/11.5602.TP.20160513.1434.006.html
摘 要:標(biāo)記分布學(xué)習(xí)是近年提出的一種新的機(jī)器學(xué)習(xí)范式。從理論上來說,這一范式可以看作是對多標(biāo)記學(xué)習(xí)的泛化。已有的研究表明標(biāo)記分布學(xué)習(xí)是一種有效的學(xué)習(xí)范式,能夠很好地解決某些標(biāo)記多義性問題。針對標(biāo)記分布學(xué)習(xí),已有一些預(yù)測效果不錯的專門算法被提出來。針對這些專門的標(biāo)記分布學(xué)習(xí)算法提出了一種泛化標(biāo)記分布學(xué)習(xí)框架。在這個框架中,一個專門的標(biāo)記分布學(xué)習(xí)算法由目標(biāo)函數(shù)、輸出模型和優(yōu)化方法三部分組成。針對這個泛化框架中的目標(biāo)函數(shù)部分展開研究。為了研究選擇不同的距離作為目標(biāo)函數(shù)對標(biāo)記分布學(xué)習(xí)算法預(yù)測效果的影響,選取7個代表性距離作為研究對象。通過對5個真實標(biāo)記分布數(shù)據(jù)集上的實驗結(jié)果進(jìn)行分析,結(jié)合每個距離的特點,提出了一些選取目標(biāo)函數(shù)的具體建議。