武永成
(荊楚理工學(xué)院計(jì)算機(jī)工程學(xué)院,湖北 荊門(mén) 448000)
機(jī)器學(xué)習(xí)是人工智能的核心研究領(lǐng)域之一,其最初的研究動(dòng)機(jī)是為了讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力,以便實(shí)現(xiàn)人工智能。在機(jī)器學(xué)習(xí)的各種風(fēng)范中,傳統(tǒng)的監(jiān)督學(xué)習(xí)算法(Supervised Learning)為了獲得高的準(zhǔn)確性,要求大量的已標(biāo)記(labeled)的數(shù)據(jù)。當(dāng)這種已標(biāo)記的數(shù)據(jù)不足時(shí),該學(xué)習(xí)算法的準(zhǔn)確性也會(huì)隨之降低。但是給數(shù)據(jù)加上標(biāo)記(labeling)是一個(gè)困難、昂貴和耗時(shí)的工作,它要求有經(jīng)驗(yàn)的專(zhuān)家對(duì)數(shù)據(jù)進(jìn)行一一的判讀和做標(biāo)記。例如在計(jì)算機(jī)輔助醫(yī)學(xué)圖像分析中,可以從醫(yī)院獲得大量的醫(yī)學(xué)圖像作為訓(xùn)練實(shí)例,但如果要求醫(yī)學(xué)專(zhuān)家把這些圖像中的病灶都標(biāo)識(shí)出來(lái),則往往是不現(xiàn)實(shí)的。
事實(shí)上,真實(shí)世界的許多問(wèn)題中通常存在大量的未標(biāo)記實(shí)例,有標(biāo)記的實(shí)例則比較少。因而在很多實(shí)際數(shù)據(jù)集合中,未標(biāo)記實(shí)例的數(shù)量遠(yuǎn)大于已標(biāo)記實(shí)例的數(shù)量。如果只使用少量已標(biāo)記實(shí)例,那么有監(jiān)督學(xué)習(xí)訓(xùn)練得到的學(xué)習(xí)模型不具有很好的泛化能力,同時(shí)造成大量未標(biāo)記實(shí)例的浪費(fèi);如果只使用大量未標(biāo)記實(shí)例,那么無(wú)監(jiān)督學(xué)習(xí)(Non-supervised Learning)將會(huì)忽略已標(biāo)記實(shí)例的價(jià)值。因此,研究如何綜合利用少量已標(biāo)記實(shí)例和大量的未標(biāo)記實(shí)例來(lái)提高學(xué)習(xí)性能的半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)和主動(dòng)學(xué)習(xí)(Active Learning)算法,已成為當(dāng)前機(jī)器學(xué)習(xí)和模式識(shí)別的重要研究領(lǐng)域之一[1]。
半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)都是利用少量有標(biāo)記數(shù)據(jù)和大量無(wú)標(biāo)記數(shù)據(jù),它們的主要區(qū)別在于:半監(jiān)督學(xué)習(xí)在學(xué)習(xí)的過(guò)程中不需人為的干預(yù),而主動(dòng)學(xué)習(xí)在學(xué)習(xí)的過(guò)程中,會(huì)向一個(gè)“神諭”(Oracle,通常是某領(lǐng)域?qū)<?來(lái)咨詢(xún),以確定某個(gè)未標(biāo)記數(shù)據(jù)到底屬于什么類(lèi)型,即對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記。它的主要目的是在查詢(xún)次數(shù)盡可能少的情況下,構(gòu)造一個(gè)更強(qiáng)的學(xué)習(xí)模型。
在許多機(jī)器學(xué)習(xí)任務(wù)中,數(shù)據(jù)只有一個(gè)視圖(View),即一個(gè)特征集(Feature Set),每一個(gè)實(shí)例(Instance)只由一個(gè)特征向量(Feature Vector)來(lái)描述。但現(xiàn)實(shí)世界中,也存在一些任務(wù)是由多視圖來(lái)描述的。例如:一個(gè)網(wǎng)頁(yè)能根據(jù)網(wǎng)頁(yè)上的主要內(nèi)容進(jìn)行分類(lèi),形成第一個(gè)視圖;也可根據(jù)指向該網(wǎng)頁(yè)的錨點(diǎn)(Anchor)的文本內(nèi)容來(lái)進(jìn)行分類(lèi),形成第二個(gè)視圖。對(duì)于多媒體數(shù)據(jù),則可從該多媒體數(shù)據(jù)的文本信息、圖像信息和聲音信息3個(gè)方面分別進(jìn)行描述,即形成3個(gè)不同的視圖。
半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí),最初是建立在單視圖數(shù)據(jù)上的,但最近的研究表明對(duì)多視圖數(shù)據(jù),它們也能產(chǎn)生很好效果。本文綜述了多視圖數(shù)據(jù)上半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)的最近研究進(jìn)展。
在主流的半監(jiān)督學(xué)習(xí)算法中,基于差異性的方法是當(dāng)前的一個(gè)研究熱點(diǎn)[2]。這種方法訓(xùn)練多個(gè)學(xué)習(xí)器,然后利用這多個(gè)學(xué)習(xí)器之間的差異,相互學(xué)習(xí),提高學(xué)習(xí)能力。其中最具代表性的是協(xié)同訓(xùn)練算法(Co-training),它最早由美國(guó)卡耐基-梅隆大學(xué)的A.Blum和T.Mitchell提出[3]。他們假設(shè)數(shù)據(jù)集有兩個(gè)充分冗余(Sufficient and Redundant)的視圖(View)。A.Blum和T.Mitchell的算法在兩個(gè)視圖上利用有標(biāo)記實(shí)例分別訓(xùn)練出一個(gè)分類(lèi)器,然后在協(xié)同訓(xùn)練過(guò)程中,每個(gè)分類(lèi)器從未標(biāo)記實(shí)例中挑選出若干置信度較高的示例進(jìn)行標(biāo)記,并把標(biāo)記后的實(shí)例加入到另一個(gè)分類(lèi)器的訓(xùn)練集中,以便對(duì)方利用這些新標(biāo)記的實(shí)例進(jìn)行更新。協(xié)同訓(xùn)練的目的是通過(guò)相互提供未知的信息,使得兩個(gè)分類(lèi)器的準(zhǔn)確性都得以提高。
協(xié)同訓(xùn)練簡(jiǎn)單有效,在其基礎(chǔ)上,一些變種算法和應(yīng)用相繼產(chǎn)生[2]。A.Blum 和 T.Mitchell[3]從理論上證明,如果兩個(gè)視圖是充分和冗余的(每個(gè)視圖單獨(dú)就可構(gòu)造一個(gè)學(xué)習(xí)器;在給定類(lèi)型標(biāo)簽的情況下,兩個(gè)視圖是條件獨(dú)立的,即一個(gè)視圖的存在與另一個(gè)視圖無(wú)關(guān)),則一個(gè)相對(duì)較弱的學(xué)習(xí)器的分類(lèi)能力,在利用無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行協(xié)同訓(xùn)練后,將大大得到提升。
在實(shí)際應(yīng)用中,兩個(gè)視圖是充分冗余的條件往往很難具備,研究者努力去發(fā)現(xiàn)較為寬松的條件。Abney[4]指出,兩個(gè)視圖沒(méi)有必要相互條件獨(dú)立。如果存在一個(gè)較弱的相互依賴(lài)關(guān)系,對(duì)于協(xié)同訓(xùn)練來(lái)說(shuō),也能達(dá)到最初的效果。Wang和 Zhou[5]表明,對(duì)于PAC學(xué)習(xí)器,協(xié)同訓(xùn)練的關(guān)鍵是兩個(gè)學(xué)習(xí)器之間存在較大的差異,至于這種差異是從兩個(gè)視圖中學(xué)習(xí)得到,還是通過(guò)別的渠道得到并不重要。這為單視圖協(xié)同訓(xùn)練提供了理論支持,在單視圖上可以通過(guò)采用不同的學(xué)習(xí)算法[6],得到兩個(gè)不同的學(xué)習(xí)器,然后和多視圖協(xié)同訓(xùn)練一樣,利用兩個(gè)學(xué)習(xí)器之間的差異性,進(jìn)一步提高預(yù)測(cè)(如分類(lèi):Classification)的準(zhǔn)確性。
視圖分割(View Split),即將一個(gè)單視圖分割成多視圖,從而可以利用多視圖的相關(guān)學(xué)習(xí)算法。文獻(xiàn)[7]表明,對(duì)于有很多冗余特征(Feature)的數(shù)據(jù),例如文本數(shù)據(jù),一個(gè)隨機(jī)的視圖分割,就可滿(mǎn)足標(biāo)準(zhǔn)協(xié)同訓(xùn)練算法的要求。但在多數(shù)情況下,該方法行不通。Du等[8]實(shí)驗(yàn)表明,在沒(méi)有充足的已標(biāo)記數(shù)據(jù)的情況下,視圖分割很難達(dá)到要求。
雖然多視圖對(duì)于協(xié)同訓(xùn)練來(lái)說(shuō)不是必需的,但當(dāng)有多視圖數(shù)據(jù)時(shí),往往能產(chǎn)生驚人的效果。Zhou等[9]指出,在充分冗余的多視圖上,由于視圖間蘊(yùn)含著有用的信息,即使只用一個(gè)有標(biāo)記的數(shù)據(jù),也可進(jìn)行有效的半監(jiān)督學(xué)習(xí)。
許多以前的多視圖學(xué)習(xí)算法主要關(guān)注的是兩個(gè)視圖,可能是因?yàn)閷?shí)際應(yīng)用中擁有多視圖的數(shù)據(jù)較少。但隨著多媒體數(shù)據(jù)分析需求的逐步增加,多視圖的多媒體數(shù)據(jù)變得越為普遍。如何將以前基于兩個(gè)視圖的學(xué)習(xí)算法擴(kuò)展到基于多個(gè)視圖,也是一個(gè)重要研究方向,Tri-training[10]和 Co-forest[11]雖是基于單視圖、多分類(lèi)器的半監(jiān)督學(xué)習(xí)算法,但對(duì)多視圖學(xué)習(xí),提供了很好的思路,應(yīng)能方便地進(jìn)行擴(kuò)展。
主動(dòng)學(xué)習(xí)通常是向領(lǐng)域?qū)<易稍?xún)那些有代表性的[12]、信息量豐富的[13]未標(biāo)記數(shù)據(jù)的類(lèi)型標(biāo)記(the Class Label)。文獻(xiàn)[14]提出了一些原則。主動(dòng)學(xué)習(xí)方法是采用迭代的方式從訓(xùn)練樣本集中選擇相對(duì)于分類(lèi)器最有價(jià)值樣本,然后重新訓(xùn)練分類(lèi)器。在每次迭代選擇中,那些可以彌補(bǔ)歷史分類(lèi)信息不足的樣本,在下一次訓(xùn)練中對(duì)于分類(lèi)器最有價(jià)值。Co-testing[15]是一個(gè)簡(jiǎn)單但有效的多視圖主動(dòng)學(xué)習(xí)算法,它從每個(gè)視圖訓(xùn)練得到一個(gè)分類(lèi)器(Classifier),利用這兩個(gè)分類(lèi)器對(duì)那些未標(biāo)記的數(shù)據(jù)進(jìn)行分類(lèi),然后選出兩個(gè)分類(lèi)器意見(jiàn)最不相同的未標(biāo)記實(shí)例(Unlabeled Instance)去向領(lǐng)域?qū)<易稍?xún)。這種方法的思想是:兩個(gè)分類(lèi)器意見(jiàn)最不相同的未標(biāo)記實(shí)例,就是最具代表性、信息量最大的實(shí)例,就是最需要咨詢(xún)的實(shí)例,這樣能使分類(lèi)器快速收斂,并保證有效性。
主動(dòng)學(xué)習(xí)環(huán)境分為兩種:可實(shí)行主動(dòng)學(xué)習(xí)環(huán)境(Realizable Active Learning)和不可實(shí)行主動(dòng)學(xué)習(xí)環(huán)境(Non-realizable Active Learning)。在可實(shí)行主動(dòng)學(xué)習(xí)的環(huán)境下,分類(lèi)器能將數(shù)據(jù)很好地進(jìn)行分類(lèi),而在不可實(shí)行主動(dòng)學(xué)習(xí)的環(huán)境下,分類(lèi)器則由于噪音的緣故,不能將數(shù)據(jù)很好地分類(lèi)。在可實(shí)行主動(dòng)學(xué)習(xí)環(huán)境下,許多研究表明,通過(guò)主動(dòng)學(xué)習(xí),可指數(shù)倍地提高樣本的復(fù)雜性。Wang和Zhou[16]指出,對(duì)于可實(shí)行主動(dòng)學(xué)習(xí)環(huán)境,通過(guò)多視圖主動(dòng)學(xué)習(xí),也能顯著地提高樣本的復(fù)雜性。對(duì)于不可實(shí)行主動(dòng)學(xué)習(xí)環(huán)境,Tsybakov噪音模式變得越來(lái)越重要[17],因?yàn)樵谝欢ǖ腡sybakov噪音模式下,主動(dòng)學(xué)習(xí)的效果也很好;反之,則效果不好。
組合多視圖主動(dòng)學(xué)習(xí)和多視圖半監(jiān)督學(xué)習(xí)并不困難。如,Muslea等[17]在 Co-testing中組合了 Co-EM[18]。它首先利用Co-EM在兩個(gè)視圖上進(jìn)行半監(jiān)督學(xué)習(xí),得到兩個(gè)分類(lèi)器,利用這兩個(gè)分類(lèi)器對(duì)無(wú)標(biāo)記數(shù)據(jù)進(jìn)行分類(lèi),分類(lèi)結(jié)果差異最大的實(shí)例,則提交給Co-testing進(jìn)行主動(dòng)學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明這種方法優(yōu)于單純的單監(jiān)督算法。Zhou等[19]提出了一種單視圖主動(dòng)半監(jiān)督學(xué)習(xí)方法,用來(lái)進(jìn)行基于內(nèi)容的圖像檢索(Content-based Image Retrieval,CBIR)。他們首先采用不同的參數(shù)配置,利用有標(biāo)記的圖像產(chǎn)生兩個(gè)不同的分類(lèi)器。每個(gè)分類(lèi)器對(duì)圖像數(shù)據(jù)庫(kù)內(nèi)的無(wú)標(biāo)記圖像進(jìn)行分類(lèi)并排序(Ranking),然后將那些置信度(Confidence)高、但分類(lèi)不一致的實(shí)例(就是最具代表性、信息量最大的實(shí)例,最需要咨詢(xún)的實(shí)例)傳給另一個(gè)分類(lèi)器。兩個(gè)分類(lèi)器都得到更新,并重復(fù)以上步驟,直到結(jié)束條件。理論上,Wang和Zhou證明,相對(duì)純半監(jiān)督學(xué)習(xí)而言,多視圖主動(dòng)半監(jiān)督學(xué)習(xí)能指數(shù)倍地提高樣本的復(fù)雜度。
多視圖無(wú)標(biāo)記數(shù)據(jù)的機(jī)器學(xué)習(xí)的研究方面已經(jīng)取得了一些成就,但還面臨一些需解決的問(wèn)題,需深入進(jìn)行研究,如:
(1)半監(jiān)督學(xué)習(xí)協(xié)同訓(xùn)練過(guò)程中,隨著訓(xùn)練不斷進(jìn)行,自動(dòng)標(biāo)記的示例中的噪音會(huì)不斷積累,其負(fù)作用會(huì)越來(lái)越大。如何發(fā)現(xiàn)和處理這些噪音數(shù)據(jù),將是一個(gè)挑戰(zhàn)性的問(wèn)題。
(2)雖然多視圖無(wú)標(biāo)記數(shù)據(jù)對(duì)圖像檢索提供了一個(gè)令人鼓舞的新的方向,但實(shí)際效果還遠(yuǎn)遠(yuǎn)不能讓使用者滿(mǎn)意,還有很長(zhǎng)的路要走。
本文總結(jié)了近年來(lái)多視圖無(wú)標(biāo)記數(shù)據(jù)的機(jī)器學(xué)習(xí)算法的研究現(xiàn)狀,并闡述了需進(jìn)一步研究的問(wèn)題和方向。由此可知,多視圖無(wú)標(biāo)記數(shù)據(jù)的機(jī)器學(xué)習(xí)的理論研究和應(yīng)用探討在未來(lái)的一段時(shí)間仍然是機(jī)器學(xué)習(xí)研究的重點(diǎn)和熱點(diǎn)之一。這些研究對(duì)于人們理解機(jī)器的學(xué)習(xí)機(jī)理以及解決實(shí)際應(yīng)用問(wèn)題等都具有重要的理論價(jià)值和現(xiàn)實(shí)意義。
[1] 周志華,王玨.機(jī)器學(xué)習(xí)及其應(yīng)用[M].北京:清華大學(xué)出版社,2007:259-275.
[2] Zhou Z-H,Li M.Semi-supervised learning by disagreement[J].Knowledge and Information Systems,2010,24(3):415-439.
[3] Blum A,Mitchell T.Combining labeled and unlabeled data with co-training[C]//Proc.of the 11th Annual Conf.on Computational Learning Theory.1998:92-100.
[4] Abney S.Bootstrapping[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.Philadelphia,PA,2002:360-367.
[5] WangW,Zhou Z-H.Analyzing co-training style algorithms[C]//Proceedings of the 18th European Conference on Machine Learning.2007:454-465.
[6] Goldman S,Zhou Y.Enhancing supervised learning with unlabeled data[C]//Proceedings of the 17th International Conference on Machine Learning.2000:327-334.
[7] Nigam K,Ghani R.Analyzing the effectiveness and applicability of co-training[C]//Proceedings of the 9th ACM International Conference on Information and Knowledge Management.2000:86-93.
[8] Du J,Ling C X,Zhou Z-H.When does co-training work in real data?[J].IEEE Transactions on Knowledge and Data Engineering,2010,23(5):788-799.
[9] Zhou Z-H,Zhan D-C,Yang Q.Semi-supervised learning with very few labeled training examples[C]//Proceedings of the 22nd AAAI Conference on Artificial Intelligence.2007:675-680.
[10]Zhou Z-H,Li M.Tri-training:Exploiting unlabeled data using three classifiers[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(11):1529-1541.
[11] Li M,Zhou Z-H.Improve computer-aided diagnosis with machine learning techniques using undiagnosed samples[J].IEEE Trans.on Systems,Man and Cybernetics-Part A:Systems and Humans,2007,37(6):1088-1098.
[12]Dasgupta S,Hsu D.Hierarchical sampling for active learning[C]//Proceedings of the 25th International Conference on Machine Learning.2008:208-215.
[13] Tong S,Chang E.Support vector machine active learning for image retrieval[C]//Proceedings of the 9th ACM International Conference on Multimedia.2001:107-118.
[14] Huang S-J,Jin R,Zhou Z-H.Active learning by querying informative and representative examples[C]//Proceedings of NIPS.2010:892-900.
[15] Muslea I,Minton S,Knoblock C A.Selective sampling with redundant views[C]//Proceedings of the 17th National Conference on Artificial Intelligence.2000:621-626.
[16]WangW,Zhou Z-H.Onmulti-view active learning and the combination with semi-supervised learning[C]//Proceedings of the 25th International Conference on Machine Learning.2008:1152-1159.
[17] Tsybakov A.Optimal aggregation of classifiers in statistical learning[J].Annals of Statistics,2004,32(1):135-166.
[18] Muslea I,Minton S,Knoblock CA.Active+semi-supervised learning=robustmulti-view learning[C]//Proceedings of the 19th International Conference on Machine Learning.2002:435-442.
[19] Zhou Z-H,Chen K-J,Dai H-B.Enhancing relevance feedback in image retrieval using unlabeled data[J].ACM Transactions on Information Systems,2006,24(2):219-244.