国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

半監(jiān)督多視圖學(xué)習(xí)在大數(shù)據(jù)分析中的應(yīng)用探討

2015-11-04 01:05:57藍(lán)超饒泓浣軍
中興通訊技術(shù) 2015年5期
關(guān)鍵詞:大數(shù)據(jù)

藍(lán)超饒+泓浣軍

中圖分類(lèi)號(hào):TN929.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1009-6868 (2015) 05-0032-003

摘要:半監(jiān)督多視圖學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域一種極具潛力的大數(shù)據(jù)處理和分析方法,該方法能有效處理異構(gòu)和半監(jiān)督數(shù)據(jù),并能方便地在線(xiàn)化和并行化,適合處理海量數(shù)據(jù)。該方法在大數(shù)據(jù)時(shí)代的應(yīng)用前景值得研究人員和業(yè)界關(guān)注。指出未來(lái)需要通過(guò)引入其他領(lǐng)域新的研究技術(shù)和成果,不斷豐富和完善半監(jiān)督多視圖學(xué)習(xí)的理論體系和算法設(shè)計(jì),并在實(shí)驗(yàn)和實(shí)踐中不斷檢驗(yàn)和探索。

關(guān)鍵詞:半監(jiān)督;多視圖;大數(shù)據(jù);并行化

Abstract:This paper introduces a promising machine-learning paradigm called semi-supervised multi-view learning. With this paradigm, information is extracted from heterogeneous and semi-supervised data sets. Lately, multi-view learning has been scaled up online and through parallelization to deal with emerging big data challenges. Due to its successful application in many research domains and the fact that it has been explored and used by leading companies, multi-view learning may have a future in the big-data era as a major data analytic technique. New research techniques should be introduced into this area to improve the theoretical system and algorithm design of semi-supervised multi-view learning.

Key words: semi-supervised; multi-view; big data; parallelization

機(jī)器學(xué)習(xí)已成為產(chǎn)業(yè)界大數(shù)據(jù)分析的主流工具。在2015年北京全球軟件開(kāi)發(fā)大會(huì)上,基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘?qū)n}討論得到了業(yè)界廣泛參與,如百度、搜狗、阿里巴巴、京東、美團(tuán)、猿題庫(kù)等著名企業(yè)參與了該專(zhuān)題的討論。當(dāng)前,機(jī)器學(xué)習(xí)在產(chǎn)業(yè)界的推廣正處于白熱化階段。與此同時(shí),如何結(jié)合大數(shù)據(jù)的特點(diǎn),選擇恰當(dāng)?shù)膶W(xué)習(xí)方法仍是值得探討的問(wèn)題。

從數(shù)據(jù)角度而言,大數(shù)據(jù)之“大”并不僅限于容量,也指數(shù)據(jù)類(lèi)型多和收發(fā)速度快,三者統(tǒng)稱(chēng)為大數(shù)據(jù)的“3V”特征[1]。因此,若想迅速有效地處理和分析大數(shù)據(jù),不僅需要從數(shù)據(jù)庫(kù)和計(jì)算機(jī)體系結(jié)構(gòu)等入手(如IBM的Hadoop,微軟的大數(shù)據(jù)生態(tài)系統(tǒng)),更需選擇合適的數(shù)據(jù)分析方法,才能充分挖掘海量數(shù)據(jù)中潛在的信息和價(jià)值。

除了3V,大數(shù)據(jù)普遍存在卻鮮有討論的另一特征是半監(jiān)督性。在傳統(tǒng)機(jī)器學(xué)習(xí)中,用于訓(xùn)練分類(lèi)系統(tǒng)的數(shù)據(jù)大多是有監(jiān)督的,即數(shù)據(jù)的實(shí)際分類(lèi)已知。然而,許多應(yīng)用問(wèn)題如自然語(yǔ)言處理,大部分?jǐn)?shù)據(jù)都不知道實(shí)際分類(lèi),這類(lèi)數(shù)據(jù)稱(chēng)為無(wú)監(jiān)督數(shù)據(jù)。如何有效利用無(wú)監(jiān)督數(shù)據(jù),使其幫助有監(jiān)督數(shù)據(jù)一起訓(xùn)練分類(lèi)系統(tǒng),是半監(jiān)督學(xué)習(xí)[2]研究的核心問(wèn)題。隨著大數(shù)據(jù)時(shí)代的到來(lái),大量無(wú)監(jiān)督數(shù)據(jù)將被采集,導(dǎo)致越來(lái)越多應(yīng)用問(wèn)題演變成大規(guī)模的半監(jiān)督學(xué)習(xí)問(wèn)題。

大規(guī)模半監(jiān)督學(xué)習(xí)在學(xué)術(shù)界的探討可追述到2005年Delalleau提出的高效無(wú)參歸納法[3]。在該論文中,作者提出將用于構(gòu)造核矩陣的(無(wú)監(jiān)督)數(shù)據(jù)集進(jìn)行下采樣,減小核矩陣大小,從而提高算法的存儲(chǔ)和計(jì)算效率。在此思想基礎(chǔ)上衍生出來(lái)的工作有很多,其中以大規(guī)?;诤嘶蚧趫D的半監(jiān)督學(xué)習(xí)方法為主。除了數(shù)據(jù)下采樣,也有研究員通過(guò)構(gòu)造混合分布模型以減小參數(shù)估計(jì)的計(jì)算復(fù)雜度。此外,半監(jiān)督學(xué)習(xí)的大規(guī)模化也可通過(guò)提高優(yōu)化算法效率或并行程度來(lái)實(shí)現(xiàn)。

盡管有著近十年的研究歷史,目前大部分的大規(guī)模半監(jiān)督學(xué)習(xí)方法仍具有局限性。一方面,它們大都基于傳統(tǒng)的單視圖機(jī)器學(xué)習(xí)方法,忽略了大數(shù)據(jù)的異構(gòu)性,容易導(dǎo)致信息丟失;另一方面,規(guī)?;惴ǖ牟呗暂^為傳統(tǒng),如下采樣或加速優(yōu)化,無(wú)法有效滿(mǎn)足大數(shù)據(jù)帶來(lái)的新的挑戰(zhàn),如數(shù)據(jù)的在線(xiàn)化和分布化等。

文章結(jié)合大數(shù)據(jù)的特點(diǎn)介紹機(jī)器學(xué)習(xí)領(lǐng)域的一種新興的半監(jiān)督學(xué)習(xí)方法——多視圖學(xué)習(xí)。它不僅在許多研究領(lǐng)域已得到成功應(yīng)用,更因具備有效利用無(wú)監(jiān)督異構(gòu)數(shù)據(jù)的能力和迅速發(fā)展的大規(guī)模化算法,有望成為大數(shù)據(jù)時(shí)代最具潛力的數(shù)據(jù)分析工具之一。

1多視圖學(xué)習(xí)優(yōu)點(diǎn)多

1.1多視圖學(xué)習(xí)及其優(yōu)點(diǎn)

多視圖學(xué)習(xí)[4]是指專(zhuān)門(mén)針對(duì)多視圖數(shù)據(jù)而進(jìn)行建模和學(xué)習(xí)。其中,多視圖數(shù)據(jù)是指由多組(往往具有不同意義的)特征進(jìn)行描述的數(shù)據(jù),而每一組特征稱(chēng)為一個(gè)視圖。多視圖學(xué)習(xí)的主要思想是基于無(wú)監(jiān)督數(shù)據(jù)的視圖一致性,即分類(lèi)器在同一無(wú)監(jiān)督數(shù)據(jù)不同視圖下的分類(lèi)結(jié)果應(yīng)基本一致。將此約束加入學(xué)習(xí)法則,多視圖學(xué)習(xí)便能巧妙利用無(wú)監(jiān)督數(shù)據(jù)幫助分類(lèi)器的訓(xùn)練。

多視圖學(xué)習(xí)的一個(gè)顯著優(yōu)點(diǎn)是緩解過(guò)學(xué)習(xí)問(wèn)題,即由于模型過(guò)于復(fù)雜而將數(shù)據(jù)噪聲也學(xué)入分類(lèi)法則的現(xiàn)象。傳統(tǒng)的機(jī)器學(xué)習(xí)方法大多將數(shù)據(jù)的所有視圖堆砌成一個(gè)高維的單視圖數(shù)據(jù),進(jìn)行建模和學(xué)習(xí)。此時(shí),如果視圖間存在冗余信息,為高維數(shù)據(jù)所建的模型將比實(shí)際需求更為復(fù)雜,容易導(dǎo)致過(guò)學(xué)習(xí)。而多視圖學(xué)習(xí)則為每個(gè)視圖分別建模,有效降低了模型復(fù)雜度。

多視圖學(xué)習(xí)的另一優(yōu)點(diǎn)是提升數(shù)據(jù)的總體分類(lèi)能力。當(dāng)數(shù)據(jù)特征所蘊(yùn)含的分類(lèi)信息總體較弱時(shí),可將特征集拆分成多個(gè)視圖進(jìn)行多視圖學(xué)習(xí)[5]。通過(guò)各視圖的弱分類(lèi)器協(xié)同訓(xùn)練,達(dá)到各視圖“單獨(dú)學(xué)習(xí)弱,集成學(xué)習(xí)強(qiáng)”的目的。endprint

另外,多視圖學(xué)習(xí)還能有效處理異構(gòu)數(shù)據(jù)[6]。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的異構(gòu)性越來(lái)越強(qiáng)。比如,客服中心為了提高工作效率,需要根據(jù)來(lái)電客戶(hù)的個(gè)人信息和語(yǔ)音信息對(duì)其來(lái)電目的進(jìn)行快速預(yù)測(cè)。這里,用戶(hù)的個(gè)人信息是靜態(tài)文本數(shù)據(jù),而語(yǔ)音信息則是動(dòng)態(tài)時(shí)序數(shù)據(jù),兩者不僅數(shù)據(jù)類(lèi)型不同,也往往服從不同的后驗(yàn)(預(yù)測(cè))概率分布。強(qiáng)行統(tǒng)一或堆砌兩類(lèi)特征不僅給建模帶來(lái)困難,也容易導(dǎo)致信息丟失,失去大數(shù)據(jù)分析的優(yōu)勢(shì)。多視圖學(xué)習(xí)則允許各視圖分別選擇合適的分類(lèi)器,再通過(guò)協(xié)同訓(xùn)練提高視圖整體的分類(lèi)能力。

1.2 多視圖學(xué)習(xí)的理論研究

多視圖學(xué)習(xí)的理論分析主要基于其分類(lèi)器的泛化誤差。一個(gè)分類(lèi)器的泛化誤差是其在指定數(shù)據(jù)分布下,錯(cuò)分?jǐn)?shù)據(jù)的概率。許多理論研究證明:多視圖中的協(xié)同學(xué)習(xí)方法在滿(mǎn)足條件時(shí),分類(lèi)器的泛化誤差將以極大的概率收斂到極小的范圍之內(nèi)。

多視圖學(xué)習(xí)的早期理論分析基于兩個(gè)假設(shè)[7]:視圖充分性,即每個(gè)視圖能分別提供充分的(但不必很強(qiáng))分類(lèi)信息。該假設(shè)在大數(shù)據(jù)中較容易被滿(mǎn)足;各視圖間條件獨(dú)立,即給定數(shù)據(jù)分類(lèi),其各視圖間統(tǒng)計(jì)獨(dú)立。

多視圖學(xué)習(xí)另一個(gè)理論研究是其樣本復(fù)雜度。樣本復(fù)雜度指通過(guò)多少數(shù)據(jù)的訓(xùn)練就能保證分類(lèi)器收斂到預(yù)期的泛化誤差。目前,多視圖學(xué)習(xí)的樣本復(fù)雜度分析主要集中于主動(dòng)學(xué)習(xí),即選取哪些無(wú)監(jiān)督數(shù)據(jù)進(jìn)行人工分類(lèi),才能使分類(lèi)器的訓(xùn)練最快收斂。在此問(wèn)題中,有監(jiān)督數(shù)據(jù)的樣本復(fù)雜度被證明與泛化誤差的倒數(shù)成log比[8],而無(wú)監(jiān)督數(shù)據(jù)樣本復(fù)雜度則與泛化誤差的倒數(shù)成正比[9]。在大數(shù)據(jù)時(shí)代,無(wú)監(jiān)督數(shù)據(jù)的容量常常遠(yuǎn)大于有監(jiān)督數(shù)據(jù),是計(jì)算機(jī)的存儲(chǔ)和計(jì)算的主要負(fù)擔(dān)。因此,提高無(wú)監(jiān)督數(shù)據(jù)的樣本復(fù)雜度的效率是值得關(guān)注的問(wèn)題。

1.3 多視圖學(xué)習(xí)的常見(jiàn)算法及

大規(guī)?;惴?/p>

大部分多視圖算法為每個(gè)視圖分別建立分類(lèi)器,基于協(xié)同訓(xùn)練方式的不同,有兩種主要的多視圖算法:一是基于迭代的協(xié)同訓(xùn)練算法[7],另一個(gè)是基于協(xié)同正則化的算法[10]?;诘膮f(xié)同訓(xùn)練算法的每個(gè)回合由一個(gè)視圖的分類(lèi)器標(biāo)注一部分無(wú)監(jiān)督數(shù)據(jù)的類(lèi)別,并將它們加入有監(jiān)督數(shù)據(jù)集,一起重新訓(xùn)練其他視圖的分類(lèi)器,以達(dá)到視圖一致,提高視圖總體的分類(lèi)能力。這類(lèi)算法直觀有效,也較容易處理異構(gòu)數(shù)據(jù),但因其迭代的訓(xùn)練方式,學(xué)習(xí)效率相對(duì)較低;基于協(xié)同正則化的算法為所有視圖的分類(lèi)器統(tǒng)一建立一個(gè)目標(biāo)函數(shù),通過(guò)特定約束條件達(dá)到視圖一致,并一次性地訓(xùn)練完所有分類(lèi)器。該類(lèi)方法避免了迭代訓(xùn)練,計(jì)算效率往往更高。

為各視圖分別建模能最大程度保留視圖的個(gè)性特征,但對(duì)視圖一致性的要求也更高。當(dāng)一致性不能被較好滿(mǎn)足時(shí),該類(lèi)算法的效果會(huì)有所下降[11]。另一類(lèi)多視圖學(xué)習(xí)算法則側(cè)重于將多個(gè)視圖進(jìn)行有機(jī)融合成單視圖,再進(jìn)行單視圖學(xué)習(xí)[12]。這類(lèi)算法有利于提高特征的魯棒性和泛化能力,不同于簡(jiǎn)單的堆砌視圖,但也具有丟失視圖個(gè)性特征的風(fēng)險(xiǎn)。為此,有學(xué)者提出同時(shí)學(xué)習(xí)視圖的共性特征和個(gè)性特征[13]。

除了改良傳統(tǒng)算法,多視圖學(xué)習(xí)也正沿著在線(xiàn)化和并行化的方向發(fā)展,以迎接大數(shù)據(jù)的新挑戰(zhàn)。在線(xiàn)多視圖學(xué)習(xí)假設(shè)訓(xùn)練數(shù)據(jù)分批,依次呈現(xiàn)給分類(lèi)器進(jìn)行學(xué)習(xí)。此時(shí),如何為分類(lèi)器設(shè)計(jì)高效的更新算法,是在線(xiàn)多視圖學(xué)習(xí)的研究問(wèn)題。目前研究的主流算法是基于協(xié)同正則化的算法,而其在線(xiàn)化的主要策略是通過(guò)引入隨機(jī)梯度下降法,實(shí)現(xiàn)目標(biāo)函數(shù)的在線(xiàn)優(yōu)化[14]。該策略的優(yōu)點(diǎn)是計(jì)算速度快,存儲(chǔ)空間小,但對(duì)學(xué)習(xí)參數(shù)的敏感性較高。

目前的并行多視圖學(xué)習(xí)研究主要基于MapReduce的框架。如愛(ài)立信研究院提出[15]將不同數(shù)據(jù)的不同視圖被分配到不同計(jì)算單元進(jìn)行計(jì)算,以提高計(jì)算效率。但由于視圖一致性的要求,不同計(jì)算單元間往往需要頻繁通信,這成為系統(tǒng)效率的決定性瓶頸,也是當(dāng)前分布式機(jī)器學(xué)習(xí)的一個(gè)研究熱點(diǎn)。并行或分布式多視圖學(xué)習(xí)中通信量如何增長(zhǎng)?有哪些影響因素?如何設(shè)計(jì)低通信量的高效算法?這些都是大規(guī)模多視圖學(xué)習(xí)需要探索的問(wèn)題。

2 多視圖學(xué)習(xí)應(yīng)用廣

多視圖學(xué)習(xí)在許多研究領(lǐng)域都已獲得成功應(yīng)用,包括網(wǎng)頁(yè)分類(lèi)、自然語(yǔ)言處理,計(jì)算機(jī)視覺(jué)、醫(yī)療診斷、藥物分析和化學(xué)分析。在網(wǎng)頁(yè)分類(lèi)中,每個(gè)網(wǎng)頁(yè)的內(nèi)容和鏈表可表示為兩個(gè)視圖;在文本分類(lèi)中,同一文本的不同語(yǔ)言版本可表示為不同視圖;在用戶(hù)決策識(shí)別系統(tǒng)中,用戶(hù)的語(yǔ)音和姿勢(shì)可表示成兩個(gè)視圖;在圖像檢索和標(biāo)識(shí)中,圖像本身和周邊的文本信息可表示成兩種視圖。即使在一些數(shù)據(jù)并不自然展示出多個(gè)視圖的問(wèn)題中,也可通過(guò)從單視圖中提取多個(gè)視圖進(jìn)行多視圖學(xué)習(xí),以充分發(fā)揮多視圖學(xué)習(xí)的優(yōu)勢(shì)。

多視圖學(xué)習(xí)在工業(yè)界也被積極探索和推廣,涉及領(lǐng)域包括機(jī)器翻譯、情感預(yù)測(cè)、圖像檢索和推薦系統(tǒng)等。在微軟研究的機(jī)器翻譯中[16],測(cè)試文章在不同解碼器下的譯文被視作不同視圖下的準(zhǔn)參考譯文加入訓(xùn)練集參與翻譯器的特征權(quán)重的訓(xùn)練,從而使翻譯器更全面的適應(yīng)測(cè)試集領(lǐng)域的文章的特點(diǎn),達(dá)到領(lǐng)域自適應(yīng)的目的。

3 結(jié)束語(yǔ)

半監(jiān)督多視圖學(xué)習(xí)是大數(shù)據(jù)時(shí)代極具潛力的分析工具。其在許多研究領(lǐng)域已獲得成功應(yīng)用,并在工業(yè)界被積極推廣。但同時(shí)也需指出,大數(shù)據(jù)的大容量、分布式和在線(xiàn)化等特征為半監(jiān)督多視圖學(xué)習(xí)帶來(lái)了新的挑戰(zhàn)。比如,如何有效降低無(wú)監(jiān)督數(shù)據(jù)的樣本復(fù)雜度,如何降低分布式視圖間的通信量等。要解決這些問(wèn)題,需要通過(guò)引入其它領(lǐng)域新的研究技術(shù)和成果,不斷豐富和完善半監(jiān)督多視圖學(xué)習(xí)的理論體系和算法設(shè)計(jì),并在實(shí)驗(yàn)和實(shí)踐中不斷檢驗(yàn)和探索。endprint

猜你喜歡
大數(shù)據(jù)
基于在線(xiàn)教育的大數(shù)據(jù)研究
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
基于大數(shù)據(jù)的小微電商授信評(píng)估研究
大數(shù)據(jù)時(shí)代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶(hù)端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
东阿县| 大竹县| 玉环县| 康平县| 屯昌县| 平塘县| 雷州市| 泰州市| 陆河县| 旬阳县| 邓州市| 吴川市| 西林县| 达尔| 葵青区| 万盛区| 布尔津县| 昭苏县| 延庆县| 泰州市| 罗源县| 林西县| 法库县| 华亭县| 聂荣县| 南江县| 景德镇市| 大丰市| 五原县| 青铜峡市| 马龙县| 济南市| 康马县| 胶州市| 南充市| 汾阳市| 石台县| 阳新县| 洱源县| 游戏| 稷山县|