黃裕
摘要:針對數(shù)字化信息復(fù)雜度帶來的海量多視角數(shù)據(jù)問題,并考慮到在大量的多視角數(shù)據(jù)的獲取過程中,由于收集的難度、高額成本或設(shè)備故障等情況,往往會導(dǎo)致多視角數(shù)據(jù)出現(xiàn)視角缺失。提出了一種基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全方法,采用離線核回歸模型學(xué)習(xí)和在線多視角缺失數(shù)據(jù)補(bǔ)全構(gòu)建了算法框架,通過引入高斯核核函數(shù)的方式,建立視角間的非線性回歸模型,結(jié)合訓(xùn)練數(shù)據(jù)的線性組合來表示回歸系數(shù)的最優(yōu)解,以完成挖掘多視角數(shù)據(jù)間的互補(bǔ)相關(guān)性,有效實(shí)現(xiàn)缺失視角的補(bǔ)全。最后通過模擬三類數(shù)據(jù)集來驗(yàn)證基于多視角缺失補(bǔ)全算法的性能。
關(guān)鍵詞:機(jī)器學(xué)習(xí);多視角數(shù)據(jù);視角缺失;核回歸;核函數(shù)
中圖分類號:TP391.6
文獻(xiàn)標(biāo)識碼:A
0 引言
近年來,隨著在圖像、醫(yī)療保健、社交網(wǎng)絡(luò)、傳感器網(wǎng)絡(luò)、多感知設(shè)備等數(shù)字化信息建設(shè)的快速發(fā)展,多視角數(shù)據(jù)(Multi-view Data)[1]的產(chǎn)生和收集變得更加方便和容易。所謂多視角數(shù)據(jù)是指[2],對于同一個(gè)語義對象,從不同角度、層面觀察可以形成不同視角的數(shù)據(jù)、不同維度的特征集,或從多個(gè)源頭得到的數(shù)據(jù)集。例如:醫(yī)學(xué)診療中,可以利用核磁共振(MRD、正電子成像技術(shù)(PED、或其它生物標(biāo)記(如CSD對阿茲海默病(Alzheimer)進(jìn)行綜合診斷、對數(shù)字圖像利用不同技術(shù)手段提取的多種特征等等[3]。研究如何合理利用針對同一對象廣泛存在的多個(gè)視角信息,實(shí)現(xiàn)對由多視角所刻畫的對象的深度分析與理解,已成為當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)[4]。這類以面向多視角數(shù)據(jù)為研究對象的機(jī)器學(xué)習(xí)方法目前己被普遍接受為一種新的學(xué)習(xí)方式,即多視角學(xué)習(xí)(Multi-view-Leaming,MVD[5]。
在面臨著多視角數(shù)據(jù)視角全部屬性缺失時(shí),簡單地將不同視角串聯(lián),利用傳統(tǒng)單視角數(shù)據(jù)缺失補(bǔ)全方法進(jìn)行補(bǔ)全,并沒有從多視角數(shù)據(jù)間具有的互補(bǔ)性考慮。通常多視角數(shù)據(jù)能夠?qū)ν粋€(gè)語義對象進(jìn)行細(xì)致的描述,其本質(zhì)在于多視角數(shù)據(jù)間具有較強(qiáng)的互補(bǔ)信息。由此挖掘多視角數(shù)據(jù)間的互補(bǔ)性,有利于提高對語義對象的理解。由于不同視角數(shù)據(jù)橫跨異構(gòu)空間,視角間并沒有顯示的對應(yīng)關(guān)系,為此本文提出了一種基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全方法,該方法通過引入核函數(shù),建立視角間的非線性回歸模型,挖掘多視角數(shù)據(jù)間的互補(bǔ)相關(guān)性,有效實(shí)現(xiàn)缺失視角的補(bǔ)全。
1 算法框架
圖l所示為本文提出的基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全框架圖。其主要由兩部分組成:
(1)離線核回歸模型學(xué)習(xí):針對多視角訓(xùn)練訓(xùn)練樣本X與Y,通過核函數(shù),建立多視角數(shù)據(jù)視角間非線性回歸模型,獲得最優(yōu)回歸系數(shù)W*。
(2)在線多視角缺失數(shù)據(jù)補(bǔ)全:針對多視角缺失數(shù)據(jù){x,yα},基于上述離線所建立的核回歸模型,實(shí)現(xiàn)多視角缺失數(shù)據(jù)的補(bǔ)全。
2 多視角數(shù)據(jù)缺失補(bǔ)全的核回歸
2.1 核方法
在離線核回歸模型學(xué)習(xí)中,需通過核方法建立多視角數(shù)據(jù)間的非線性回歸模型,實(shí)現(xiàn)缺失視角數(shù)據(jù)的補(bǔ)全,在此本文首先介紹核方法。
核方法(Kernel Method)[6]是解決非線性模式分析問題的一種有效途徑,其核心思想是:首先,通過某種非線性映射函數(shù)φ將原始數(shù)據(jù)x嵌入到合適的高維特征空間H;然后,利用通用的線性學(xué)習(xí)器[7]在這個(gè)新的高維特征空間中分析和處理模式。此時(shí)這個(gè)高維特征空間中的線性學(xué)習(xí)器相當(dāng)于原空間是非線性的,即對原空間中的數(shù)據(jù)進(jìn)行了非線性分析和處理。
而通常在處理非線性問題過程中的一項(xiàng)關(guān)鍵技術(shù)是核技巧(Kernel Trick)[8],即將輸入樣本對在高維特征空間內(nèi)的點(diǎn)積運(yùn)算可替換成關(guān)于輸入樣本對的函數(shù)k(x(i),y(i)),這里的函數(shù)k(x(i),y(i))就
2.2 模型學(xué)習(xí)
由于視角yc屬性值完全缺失時(shí),簡單地將不同視角串聯(lián),利用傳統(tǒng)單視角數(shù)據(jù)缺失補(bǔ)全方法進(jìn)行補(bǔ)全,并沒有從多視角數(shù)據(jù)間具有的互補(bǔ)性考慮。同時(shí)由于不同視角數(shù)據(jù)橫跨異構(gòu)空間,多視角數(shù)據(jù)并沒有顯示的對應(yīng)關(guān)系,為此,本文引入核函數(shù)建立視角間非線性關(guān)系模型[12]。其模型的核函數(shù)本質(zhì)上描述了同一語義對象橫跨異構(gòu)空間內(nèi)數(shù)據(jù)的互補(bǔ)相關(guān)性。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集說明
采用NASA數(shù)據(jù)集、電影評分?jǐn)?shù)據(jù)集和路透社(Reuters)數(shù)據(jù)集來驗(yàn)證基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全方法的性能。
3.1.1 NASA數(shù)據(jù)集
該數(shù)據(jù)庫是美國宇航局蘭利研究中心大氣科學(xué)數(shù)據(jù)中心所提供[14]。該數(shù)據(jù)集是通過衛(wèi)星采集整理的中美洲區(qū)域(由24×24經(jīng)緯度網(wǎng)格所覆蓋的區(qū)域)的氣象數(shù)據(jù),包括溫度(表面和空氣),臭氧,空氣壓力和云量(低,中和高)等7個(gè)指標(biāo)的觀察值,其中上述觀測數(shù)據(jù)均為1995年1月至2000年12月的每月平均值,一共72條氣象記錄。如表l所示,本文選取同一經(jīng)度(113.8W)下的兩個(gè)不同緯度(36.2N、33.8N)所采集的數(shù)據(jù)構(gòu)成多視角數(shù)據(jù)集NASA_W驗(yàn)證本文基于核回歸視角缺失補(bǔ)全算法的補(bǔ)全性能。
3.1.2 電影評分?jǐn)?shù)據(jù)集
該數(shù)據(jù)集是由業(yè)內(nèi)專業(yè)人士和觀眾分別對30個(gè)電視節(jié)目所作的平均評分?jǐn)?shù)據(jù)庫[15]。觀眾評分來自低學(xué)歷、高學(xué)歷和網(wǎng)絡(luò)調(diào)查三種,而業(yè)內(nèi)專業(yè)人士評分來自包括演員和導(dǎo)演在內(nèi)的藝術(shù)家、發(fā)行與業(yè)內(nèi)各部門主管三種。如表2所示,針對該數(shù)據(jù)庫,本文選取觀眾評分作為視角X,專家評分作為視角Y來構(gòu)造Movie_l多視角數(shù)據(jù)集驗(yàn)證本文基于核回歸視角缺失補(bǔ)全算法的補(bǔ)全性能。
3.1.3路透社數(shù)據(jù)集
路透社(Reuters)數(shù)據(jù)庫是1987年路透通訊社的文檔數(shù)據(jù)集,包含135個(gè)類別,一共21578個(gè)文檔,對每個(gè)文檔分別提取96維和100維的特征數(shù)據(jù)形成兩個(gè)視角的描述。本文選取其中10類共7757個(gè)文檔進(jìn)行實(shí)驗(yàn),如表3所示,本文通過兩個(gè)特征數(shù)據(jù)集構(gòu)造多視角數(shù)據(jù)集Reuters_l驗(yàn)證本文基于核回歸視角缺失補(bǔ)全算法的補(bǔ)全性能。
3.3 多視角缺失數(shù)據(jù)補(bǔ)全性能分析
3.3.1 NASA數(shù)據(jù)集的視角缺失補(bǔ)全性能分析
針對NASA時(shí)間序列數(shù)據(jù)集所構(gòu)造的多視角數(shù)據(jù)集NASAW,從時(shí)間序列樣本中選擇整個(gè)時(shí)間段的前800/0的樣本作為訓(xùn)練集,后20%的樣本作為測試集,記為[80%,20%]。同理,還可構(gòu)造[85%,15%]、[90%,10%]、[95%,5%]、[98%,2%]等實(shí)驗(yàn)數(shù)據(jù)進(jìn)行補(bǔ)全實(shí)驗(yàn)。
為驗(yàn)證基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全性能,本章設(shè)置測試樣本{x,yc)的視角數(shù)據(jù)為完全缺失,即缺失視角缺失部分的比例設(shè)為(s -l)/s=100%。
從圖2中可以看出,與其他的算法相比,本文基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全算法取得最優(yōu)補(bǔ)全性能,證明了利用多視角數(shù)據(jù)視角間的互補(bǔ)相關(guān)性可有效提高數(shù)據(jù)缺失補(bǔ)全性能。
3.3.2 電影評分?jǐn)?shù)據(jù)集的視角缺失補(bǔ)全性能分析
針對電影評分?jǐn)?shù)據(jù)庫所構(gòu)造的多視角數(shù)據(jù)集Movie_ 1,從樣本中隨機(jī)選擇70%的樣本作為訓(xùn)練集,剩余30%的樣本作為測試集,即[70%,30%]。同時(shí),本實(shí)驗(yàn)還構(gòu)造[80%,20%]、[90%,10%]等實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
在電影評分?jǐn)?shù)據(jù)庫構(gòu)造的多視角數(shù)據(jù)集Movie l上,不同算法在缺失視角缺失部分的比例為(s - l)/s=100%的補(bǔ)全性能對比如圖3所示。
從圖3中可看出本文基于核回歸視角缺失補(bǔ)全算法的明顯優(yōu)勢,證明非線性模型可有效捕捉多視角數(shù)據(jù)間的相關(guān)互補(bǔ)性,可進(jìn)一步增強(qiáng)數(shù)據(jù)缺失補(bǔ)全性能。
3.3.3 路透社數(shù)據(jù)集的視角缺失補(bǔ)全性能分析
針對路透社數(shù)據(jù)庫所構(gòu)造的多視角數(shù)據(jù)集Reuters_l,本實(shí)驗(yàn)構(gòu)造[70%,30%、[80%,20%]、[90%,10%]等實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
在路透社數(shù)據(jù)庫構(gòu)造的多視角數(shù)據(jù)集Reuters 1上,不同算法在缺失視角缺失部分的比例為(s -l)/s=100%的補(bǔ)全性能對比如圖4所示。
從圖4中可以看出本文提出的基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全算法的補(bǔ)全性能優(yōu)于其他方法,這也間接證明傳統(tǒng)的單視角數(shù)據(jù)缺失補(bǔ)全方法并不能很好地處理多視角缺失數(shù)據(jù)問題。
從上述針對NASA數(shù)據(jù)集、電影評分?jǐn)?shù)據(jù)集以及路透社數(shù)據(jù)集視角缺失補(bǔ)全的實(shí)驗(yàn)可以看出,本文基于核回歸補(bǔ)全算法明顯優(yōu)于其他算法的補(bǔ)全性能。由于多視角數(shù)據(jù)間的異構(gòu)性,使得多視角數(shù)據(jù)間的近鄰不具有可逆性,使得KNN方法的補(bǔ)全性能較差。在SVD缺失數(shù)據(jù)補(bǔ)全中,由于奇異值分解需要完整的矩陣,因此在補(bǔ)全缺失數(shù)據(jù)時(shí),需對矩陣缺失的元素預(yù)填充為0值,進(jìn)而通過矩陣分解實(shí)現(xiàn)缺失數(shù)據(jù)的補(bǔ)全,然而,這時(shí)補(bǔ)全的值更為接近0值,使得補(bǔ)全的性能較差。在NMF缺失數(shù)據(jù)補(bǔ)全中,由于進(jìn)行非負(fù)矩陣分解,要求矩陣的元素均為非負(fù)數(shù)值,因此針對含有負(fù)值數(shù)據(jù)的數(shù)據(jù)集,例如路透社數(shù)據(jù)庫,該方法將無法進(jìn)行;同時(shí),針對視角數(shù)據(jù)完全缺失時(shí),由于多視角數(shù)據(jù)視角間的異構(gòu)性,簡單的將視角串聯(lián)并分解補(bǔ)全,最終導(dǎo)致補(bǔ)全性能較差。和其他單視角補(bǔ)全方法相比,本文基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全算法通過利用多視角數(shù)據(jù)間的互補(bǔ)性建立非線性回歸模型有效增強(qiáng)補(bǔ)全性能。本文基于核回歸補(bǔ)全算法針對時(shí)間序列數(shù)據(jù)庫,還可通過對未來時(shí)刻的缺失數(shù)據(jù)補(bǔ)全進(jìn)行預(yù)測,例如在NASA數(shù)據(jù)庫上的補(bǔ)全實(shí)驗(yàn)。
3.4 模型參數(shù)的影響
本文基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全實(shí)驗(yàn)主要由以下參數(shù)影響補(bǔ)全性能:核回歸的正則參數(shù)A、高斯核函數(shù)的寬度σ。
以NASA_W多視角數(shù)據(jù)集為例,在基于核回歸補(bǔ)全的實(shí)驗(yàn)中,當(dāng)高斯核函數(shù)寬度σ=5時(shí),回歸正則參數(shù)λ對補(bǔ)全性能的影響如圖2所示。當(dāng)回歸正則參數(shù)λ= 0.1時(shí),高斯核函數(shù)寬度σ對補(bǔ)全性能的影響如圖5所示。
圖5表明,λ取值在0.1左右時(shí),取得最優(yōu)補(bǔ)全性能。當(dāng)λ取值過大或過小時(shí)都會降低核回歸補(bǔ)全算法的性能。圖6表明,σ取值在5左右時(shí),取得最優(yōu)補(bǔ)全性能,若σ取值過大或過小會導(dǎo)致補(bǔ)全性能較差。
4 結(jié)論
針對視角完全缺失的多視角數(shù)據(jù),提出了基于核回歸的多視角數(shù)據(jù)缺失補(bǔ)全方法。方法通過引入核函數(shù),建立視角間的非線性回歸模型,挖掘多視角數(shù)據(jù)間的互補(bǔ)相關(guān)性,有效實(shí)現(xiàn)缺失視角的補(bǔ)全。
參考文獻(xiàn)
[1]馮昌,廖士中,大規(guī)模核方法的隨機(jī)假設(shè)空間方法[J],計(jì)算機(jī)科學(xué)與探索,2017,(03):1-9.
[2]劉正,張國印,陳志遠(yuǎn),基于特征加權(quán)和非負(fù)矩陣分解的多視角聚類算法[J].電子學(xué)報(bào),2016,(03):535-540.
[3]劉望舒,陳翔,顧慶,等,一種面向軟件缺陷預(yù)測的可容忍噪聲的特征選擇框架[J].計(jì)算機(jī)學(xué)報(bào),2016,(39):1-16.
[4]楊金鴻,鄧廷權(quán).基于距離度量學(xué)習(xí)的半監(jiān)督多視角譜聚類算法[J].四川大學(xué)學(xué)報(bào):工程科學(xué)版,2016,(ol):146-151.
[5]孫瑞麗,陳盛雙,李石君,改進(jìn)SVM算法的電商行業(yè)競爭對手識別[J],河南科技大學(xué)學(xué)報(bào):自然科學(xué)版,2016,(O1):46-50+7.
[6]張丹丹,鄧趙紅,王士同.面向多視角數(shù)據(jù)的極大熵聚類算法[J].計(jì)算機(jī)科學(xué)與探索,2016,(04):554-564.
[7]王偉,任建華,劉曉帥,等,基于混合隸屬度的模糊簡約雙支持向量機(jī)研究[J].計(jì)算機(jī)工程與應(yīng)用,2015,(10):36-41.
[8]劉春燕,王堅(jiān),基于幾何聚類指紋庫的約束KNN室內(nèi)定位模型[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2014,(ll):1287-1292.
[9]譚姍姍,張培倩,李再興,基于迭代加權(quán)回歸的推薦算法[J].數(shù)學(xué)理論與應(yīng)用,2014,(03):38-47.
[10]劉中健,趙知?jiǎng)?,尚俊?快速NMF盲源分離算法[J].信號處理,2014,(06):699-705.
[11]王懷宇,李景麗.網(wǎng)絡(luò)海量數(shù)據(jù)中隱私泄露檢測方法仿真[J].計(jì)算機(jī)仿真,2014,(06):429-432.
[12]盧煒良,江開勇,林俊義.無編碼全局控制點(diǎn)多視角三維數(shù)據(jù)拼接[J].光電工程,2014,(05):57-62.
[13]黃煒,劉坤.面向信息特征模式識別的核方法研究綜述[J].現(xiàn)代情報(bào),2014,(03):168-176.
[14]俞翔,朱岱寅,張勁東,等,基于設(shè)計(jì)結(jié)構(gòu)化Gram矩陣的ISAR運(yùn)動(dòng)補(bǔ)償方法[J].電子學(xué)報(bào),2014,(03):452-461.
[15]俞曉群,馬翱慧.基于Kriging空間插補(bǔ)海表葉綠素遙感缺失數(shù)據(jù)的研究[J].測繪通報(bào),2013,(12):47-50.
[16]毛金蓮,自適應(yīng)多視角學(xué)習(xí)及其在圖像分類中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2013,(07):1955-1959.
[17]陳中杰,蔡勇,蔣剛.復(fù)高斯小波核函數(shù)的支持向量機(jī)研究[J].計(jì)算機(jī)應(yīng)用研究,2012,(09):3263-3265.
[18]閆鵬程,孫華剛,毛向東,等.基于EMD與SVD的齒輪箱分形診斷方法研究[J].電子測量與儀器學(xué)報(bào),2012,(05):404- 412.
[19]汪廷華,陳峻婷.核函數(shù)的選擇研究綜述[J],計(jì)算機(jī)工程與設(shè)計(jì),2012, (03):1181-1186.