多粒度融合驅(qū)動(dòng)的超多視圖分類方法

2022-08-12 13:29梁新彥錢(qián)宇華

計(jì)算機(jī)研究與發(fā)展 2022年8期

梁新彥錢(qián)宇華郭倩黃琴

(山西大學(xué)大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院太原 030006) (山西省機(jī)器視覺(jué)與數(shù)據(jù)挖掘工程研究中心太原 030006)

迅猛發(fā)展的表征學(xué)習(xí)技術(shù)和特征提取技術(shù)使得研究人員可以方便、容易地提取到數(shù)據(jù)不同視角的特征表示，進(jìn)而可以更全面地認(rèn)識(shí)數(shù)據(jù)、分析數(shù)據(jù)和管理數(shù)據(jù).例如1張圖片可以用尺度不變特征轉(zhuǎn)換(scale invariant feature transform, SIFT)、局部二值模式(local binary pattern, LBP)、方向梯度直方圖(histogram of direction gradient, HOG)等不同類型的特征描述；一段文本可以用漢語(yǔ)、英文、德文等語(yǔ)言描述；一段音頻可以用梅爾倒譜系數(shù)(mel frequency vepstrum voefficient, MFCC)、語(yǔ)譜圖(spectrogram)、過(guò)零率等不同類型的特征描述.

與單一視圖特征相比，多視圖數(shù)據(jù)可以提供更豐富、更多樣的特征信息.在多視圖數(shù)據(jù)的加持下，許多學(xué)習(xí)方法的性能得到了進(jìn)一步的提升，如多視圖分類[1-3]、多視圖聚類[4-6]、多視圖度量學(xué)習(xí)[7-9]、特征選擇[10-12].此外，大量的應(yīng)用也得到了進(jìn)一步提升[13-15].其中，多視圖分類方法由于廣泛的應(yīng)用場(chǎng)景，得到了越來(lái)越多學(xué)者的關(guān)注.

在多視圖分類任務(wù)中，融合算子起著非常重要的作用[16]，因此設(shè)計(jì)有效的融合算子是這個(gè)研究領(lǐng)域的熱點(diǎn)研究之一.早期的研究常常依據(jù)多視圖分類方法中融合發(fā)生的階段將其分為3類：早期融合、中期融合和后期融合.

本文的關(guān)注點(diǎn)也是融合算子.與現(xiàn)有工作的區(qū)別是本文研究如何更好地使用融合算子，而不是設(shè)計(jì)融合算子.為了我們的研究目的，本文依據(jù)多視圖分類方法所使用的融合算子類型將其分為2類：基本融合算子和高級(jí)融合算子.

基本融合算子主要包括逐元素加、逐元素乘、逐元素平均、逐元素最大以及級(jí)聯(lián).其中，4個(gè)逐元素算子要求待融合的視圖特征維度相同；級(jí)聯(lián)會(huì)造成融合特征維度急劇增大.相比于高級(jí)融合算子，使用上述簡(jiǎn)單算子不會(huì)給模型帶來(lái)額外的參數(shù)，同時(shí)，性能表現(xiàn)尚可.這些優(yōu)勢(shì)使得這些基本融合算子一直非常受歡迎，至今它們?nèi)匀槐淮罅康难芯抗ぷ魉捎肹17-20].

高級(jí)融合算子主要包括基于雙向性和基于張量2種融合算子，其可以建模更多、更復(fù)雜的特征交互，其產(chǎn)生的融合向量表達(dá)能力趨向于更強(qiáng).然而，由于這2類融合算子都是基于向量外積被提出的，導(dǎo)致基于它們實(shí)現(xiàn)的早期方法面臨融合向量維度災(zāi)難問(wèn)題.如圖1所示，隨著視圖個(gè)數(shù)的增加，每個(gè)視圖的特征維度急劇下降.例如，即使融合向量維度空間設(shè)置為100 000，對(duì)于包含5個(gè)視圖特征的任務(wù)，在融合前，每個(gè)視圖特征必須被壓縮到10維，這必定會(huì)造成信息的嚴(yán)重缺失.因此，這些高級(jí)融合算子幾乎只在視圖個(gè)數(shù)較少的場(chǎng)景中被使用.例如，情感分析(3個(gè)視圖)[21]、細(xì)粒度圖像識(shí)別(2個(gè)視圖)[22]、視覺(jué)問(wèn)答(2個(gè)視圖)[23-24].然而，在實(shí)際應(yīng)用中，存在許多包含超多視圖(視圖個(gè)數(shù)大于3時(shí)稱為超多視圖)的場(chǎng)景.比如，在文獻(xiàn)[25]分析的多語(yǔ)言分類任務(wù)中，每個(gè)文本被5種語(yǔ)言視圖特征描述；在文獻(xiàn)[15，26，27]的圖像識(shí)別任務(wù)中，每張圖片分別被10個(gè)視圖特征、7個(gè)視圖特征和6個(gè)視圖特征描述.盡管基于高級(jí)融合算子多視圖學(xué)習(xí)方法在包含3個(gè)及以下視圖任務(wù)上取得極大成功，然而當(dāng)視圖個(gè)數(shù)較多時(shí)，它們的表現(xiàn)有待提升.

Fig. 1 Relation between the dimension of fused vector and dimension of views圖1 融合向量維度和每個(gè)視圖特征維度間的關(guān)系

總的來(lái)說(shuō)，現(xiàn)有方法中存在2個(gè)問(wèn)題：

1) 如圖1所示，由于張量的融合算子導(dǎo)致融合向量維度災(zāi)難問(wèn)題，導(dǎo)致基于它的方法難以推廣到包含更多視圖的應(yīng)用中.

2) 如圖2(a)所示，現(xiàn)有多視圖分類方法趨于使用某種融合算子直接作用于全部視圖特征，一次得到最終的融合向量.當(dāng)視圖數(shù)量較多時(shí)，這種策略對(duì)于有效建模不同視圖的關(guān)系較困難.

Fig. 2 Difference between existing methods and our method圖2 現(xiàn)有方法與本文方法的差異

人類的多粒度認(rèn)知能力是求解復(fù)雜問(wèn)題、分析復(fù)雜數(shù)據(jù)的一種有效策略，為我們從多視角、多層次建模數(shù)據(jù)提供了一個(gè)新的視角和方法.多粒度粗糙建模[28]是對(duì)人類多粒度認(rèn)知能力的一種有效模擬實(shí)現(xiàn)，借助于它，我們可以靈活地在不同粒度水平上管理、分析、認(rèn)識(shí)數(shù)據(jù).特別地，當(dāng)對(duì)數(shù)據(jù)認(rèn)識(shí)不足時(shí)，我們可以在一個(gè)較粗粒度水平下分析數(shù)據(jù)；隨著對(duì)數(shù)據(jù)的了解，可以在一個(gè)更細(xì)粒度水平下處理數(shù)據(jù).圖3展示了在多粒度建模背景下7種生物從2個(gè)視角和3個(gè)層次進(jìn)行分類的示意圖.其中，平面AOB和BOC分別表示分類7種生物的一個(gè)視角，藍(lán)色、橙色和黃色分別表示分類7種生物的一個(gè)層次，其具體語(yǔ)義如圖3(a)所示.每個(gè)視角、層次下的分類結(jié)果對(duì)應(yīng)于粒度建模理論中的1個(gè)粒結(jié)構(gòu)，顯然本例中共包含6個(gè)粒結(jié)構(gòu)，如圖3(b)所示.在同一視角下，不同層次下構(gòu)建的粒結(jié)構(gòu)具有偏序關(guān)系；同一層次下，不同視角下構(gòu)建的粒結(jié)構(gòu)間通常不具有偏序關(guān)系.顯然，多粒度建模是一種比多視角和多層次更一般的建模理論，多視角和多層次都是它的特殊情況.

受多粒度思想的啟發(fā)，本文提出一種基于多粒度融合的超多視圖分類方法.正如圖2所示，與使用1個(gè)融合算子直接作用于全部視圖特征融合得到最終的融合向量的方法不同，本文所提方法在3個(gè)粒度水平上，由易到難分層實(shí)現(xiàn)多視圖特征融合.具體來(lái)說(shuō)，本文方法首先建模任意2個(gè)視圖對(duì)之間的關(guān)系；然后，基于成對(duì)關(guān)系結(jié)果，建模每個(gè)視圖與其他全部視圖的關(guān)系；最后，基于每個(gè)視圖與其他全部視圖的關(guān)系結(jié)果，建模全部視圖間的關(guān)系.

本文工作的主要貢獻(xiàn)包括3個(gè)方面：

1) 將多粒度建模思想引入到多視圖機(jī)器學(xué)習(xí)中，提出一種多視圖數(shù)據(jù)的多粒度空間構(gòu)造方法；

2) 基于構(gòu)造的多視圖多粒度空間，提出了一種多粒度融合方法(multi-granulation fusion method, MGF)，該方法從視圖對(duì)、每個(gè)視圖和其他全部視圖與全部視圖3個(gè)粒度水平上由易到難分層實(shí)現(xiàn)多視圖特征融合；

3) 在4個(gè)超多視圖數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明MGF方法可以有效融合更多的視圖，驗(yàn)證了本文方法的有效性.

1 相關(guān)工作

1.1 多粒度建模

人類的多粒度認(rèn)知能力是求解復(fù)雜問(wèn)題、分析復(fù)雜數(shù)據(jù)的一種有效策略[29].多粒度認(rèn)知為我們從多視角、多層次、多粒度建模數(shù)據(jù)提供了一個(gè)新的視角和方法.借助于它，我們可以靈活地在不同粒度水平上管理、分析、認(rèn)識(shí)數(shù)據(jù).由于多粒度思想的普適性，目前，它已經(jīng)被成功應(yīng)用于不同領(lǐng)域.通常，不同領(lǐng)域有其特有的多粒度空間構(gòu)造方法.比如，在粒計(jì)算領(lǐng)域，可以通過(guò)同時(shí)使用諸如等價(jià)關(guān)系、鄰域關(guān)系、相容關(guān)系等多種二元關(guān)系來(lái)構(gòu)造特征空間的多粒度結(jié)構(gòu)；在計(jì)算機(jī)視覺(jué)領(lǐng)域，空間金字塔、多尺度等技術(shù)可用于獲取圖片的多粒度結(jié)構(gòu)；在自然語(yǔ)言處理領(lǐng)域，可以分別從字符、詞、句子、段落等表示來(lái)構(gòu)造語(yǔ)言的多粒度結(jié)構(gòu)；在語(yǔ)音處理領(lǐng)域，可以使用不同采樣率獲取的音頻構(gòu)造其多粒度結(jié)構(gòu).事實(shí)上，對(duì)于不同領(lǐng)域，一個(gè)通用的獲取多粒度空間的方法是基于數(shù)據(jù)的多個(gè)視圖表示，通過(guò)將每個(gè)視圖看作數(shù)據(jù)的一個(gè)粒度.可見(jiàn)多視圖特征是數(shù)據(jù)的一個(gè)典型多粒度表示.本文的目的是通過(guò)重新分組現(xiàn)有的特征組來(lái)構(gòu)造一個(gè)有效的多粒度融合空間，融合發(fā)生在每個(gè)粒度空間，以達(dá)到更有效的多視圖融合.

1.2 多視圖分類

給定一個(gè)多視圖數(shù)據(jù)集，其中每個(gè)樣本同時(shí)被多個(gè)特征集V={v1,v2,…,vm}所描述，其中，vi表示第i個(gè)視圖的特征集，m表示視圖個(gè)數(shù).基于多視圖數(shù)據(jù)學(xué)習(xí)的分類任務(wù)稱為多視圖分類.其旨在通過(guò)融合多個(gè)視圖的信息來(lái)提升模型的分類性能.不同視圖的融合過(guò)程可以簡(jiǎn)單形式化為

c=f(g1(v1),g2(v2),…,gm(vm)),

(1)

其中，f表示一個(gè)融合算子，例如逐元素加，級(jí)聯(lián)，張量乘積；gi表示對(duì)每個(gè)視圖的映射函數(shù)，比如，當(dāng)f為逐元素加時(shí)，gi可以將不同維度的視圖特征映射為相同維度大小，以便f可以有效工作.

依據(jù)融合視圖過(guò)程中所使用的融合算子f類型，大致分為2類：基于簡(jiǎn)單融合算子的方法和基于先進(jìn)融合算子的方法.

1) 基本融合算子

基本融合算子包括逐元素加、逐元素乘、逐元素平均、逐元素最大以及級(jí)聯(lián).它們可以形式化表示為

① 逐元素加：c=v1+v2+…+v|V|；

② 逐元素乘：c=v1°v2°…°v|V|;

③ 逐元素平均：c= (v1+v2+…+v|V|)/|V|;

④ 逐元素最大：c=max(v1,v2,…,v|V|);

⑤ 級(jí)聯(lián)：c=[v1,v2,…,v|V|].

由于基本融合算子具有融合維度緊湊(逐元素運(yùn)算融合向量維度不會(huì)增大，級(jí)聯(lián)運(yùn)算融合向量維度線性增大)，計(jì)算代價(jià)較小等優(yōu)勢(shì)而被廣泛使用.例如，Wang等人[17]提出了ARTNets用于分類視頻，該方法通過(guò)級(jí)聯(lián)融合算子融合不同視圖的特征，然后，將級(jí)聯(lián)的特征向量輸入到一個(gè)分類器中.但這類方法在建模特征交互方面的能力不強(qiáng).

2) 高級(jí)融合算子

為了增強(qiáng)特征間的交互作用，雙向性融合算子和張量融合算子被引進(jìn)到多視圖機(jī)器學(xué)習(xí)中.

① 基于雙向性融合方法.雙向性聚合算子通過(guò)使用外積運(yùn)算來(lái)建模不同視圖間的關(guān)系.Kim等人[23]提出了多模態(tài)低秩雙向性聚合(multi-modal low-rank bilinear pooling, MLB).該方法首先將每個(gè)視圖映射到一個(gè)低維空間，然后使用逐元素乘算子來(lái)聚合全部的低維向量，最后通過(guò)一個(gè)低秩矩陣來(lái)將聚合的向量映射為最終的融合向量.這個(gè)過(guò)程可形式化為

(2)

進(jìn)一步，Yu等人[24]通過(guò)引入一個(gè)和聚合函數(shù)來(lái)增強(qiáng)MLB融合向量的表達(dá)能力.這個(gè)過(guò)程被形式化為

(3)

其中，SumPool(x,k)表示和聚合函數(shù)，它通過(guò)一個(gè)大小為k的非重疊的窗口來(lái)聚合x(chóng)中元素.

② 基于張量融合方法.代表性的工作包括:張量融合網(wǎng)絡(luò)(tensor fusion network, TFN)[30]、低秩多模態(tài)融合(low-rank multi-modal fusion, LMF)[31]和多項(xiàng)式張量聚合(polynomial tensor pooling, PTP)[21].

TFN融合不同的視圖：

(4)

其中，?表示克羅內(nèi)克積，W∈(m1+1)×(m2+1)×…×(m|V|+1).當(dāng)視圖個(gè)數(shù)|V|很多時(shí)，W是一個(gè)非常高維的參數(shù)張量，這導(dǎo)致TFN訓(xùn)練需要非常大的內(nèi)存開(kāi)銷，有時(shí)甚至由于內(nèi)存限制不能被訓(xùn)練.

為緩解W造成的維度災(zāi)難問(wèn)題，Liu等人[31]提出了低秩多視圖融合方法，這個(gè)過(guò)程可以形式化為

(5)

注意到LMF最多可以考慮不同視圖特征的二階交互，Hou等人[21]提出了一個(gè)可以建模P階特征交互的多項(xiàng)式張量融合方法，這個(gè)過(guò)程可以形式化為

(6)

其中，f=[v1,v2,…,v|V|]，P表示建模特征的階數(shù).

2 多粒度融合驅(qū)動(dòng)的多視圖分類方法

2.1 框架概述

為了實(shí)現(xiàn)超多視圖的融合，本文提出了一種多粒度融合驅(qū)動(dòng)的多視圖分類方法(multi-granulation fusion method, MGF),模型框架如圖4所示.

Fig. 4 Model architecture圖4 模型架構(gòu)圖

本節(jié)我們將詳細(xì)介紹本文提出MGF方法.如圖4所示，MGF方法由3個(gè)模塊組成：多視圖特征提取、多粒度融合空間構(gòu)造及融合和決策.下面，將依次介紹每個(gè)模塊的功能及工作原理.

2.2 多視圖特征提取

如圖4所示，多視圖特征提取模塊主要目的是借助于不同的特征提取器，如SIFT，HOG，CNNs提取圖片、文本等數(shù)據(jù)的不同類型特征.提取的多視圖特征將被輸入到基于多粒度的多視圖特征融合模塊中用于后續(xù)的融合.為了消除特征提取給實(shí)驗(yàn)結(jié)果帶來(lái)的影響，本文實(shí)驗(yàn)使用了4個(gè)提供了多視圖特征的超多視圖數(shù)據(jù)集用于比較研究.

2.3 多粒度融合空間構(gòu)造及融合

基于多粒度的多視圖特征融合模塊是MGF方法的核心.該模塊的主要目的是在不同粒度水平上對(duì)視圖特征進(jìn)行逐層融合.該模塊學(xué)習(xí)人類在求解復(fù)雜問(wèn)題時(shí)所采用的多粒度認(rèn)知行為——將原問(wèn)題分層求解，不同粒度之間互相關(guān)聯(lián)，且不同粒度之間可以自由轉(zhuǎn)換——將現(xiàn)有方法采用的直接融合全部視圖的策略改為分層融合策略以實(shí)現(xiàn)更有效的視圖融合.當(dāng)視圖個(gè)數(shù)較少時(shí)，視圖間的關(guān)系更容易建模，此時(shí)，有大量的融合算子可供選擇.因此，基于分而治之的思想，我們將全部視圖的融合分解為3部分視圖融合，本文構(gòu)造了一個(gè)具有分層結(jié)構(gòu)的3粒度融合空間.如圖5所示，這個(gè)融合空間依次從視圖對(duì)、當(dāng)前視圖和其他視圖與全部視圖3個(gè)視角構(gòu)造粒度空間，在這3個(gè)不同粒度水平上可以對(duì)視圖特征進(jìn)行由簡(jiǎn)到易分層融合.多粒度融合空間構(gòu)造的核心思想為：當(dāng)前層的融合空間考慮的對(duì)象要比后一層簡(jiǎn)單，且通過(guò)融合算子可以轉(zhuǎn)化到下一層的融合空間；當(dāng)前層的融合依賴于前一層的融合結(jié)果.

Fig. 5 A three granularity space for multi-view fusion圖5 多視圖融合的一個(gè)3粒度空間

具體地說(shuō)，給定1個(gè)多視圖特征集合V={v1,v2,…,v|V|}，其中，vi表示第i個(gè)視圖的特征，|V|表示視圖個(gè)數(shù).首先，在第1個(gè)粒度上，MGF考慮所有視圖對(duì)(vi，vj)之間的融合，相比于直接建模全部視圖之間的關(guān)系，建模視圖對(duì)之間的關(guān)系更容易；其次，在第2個(gè)粒度上，MGF通過(guò)逐元素加融合算子建模每個(gè)視圖vi與其他視圖v1,v2,…,v|V|之間的關(guān)系oi；最后，在第3個(gè)粒度上，使用逐元素加融合算子建模全部視圖o1,o2,…,o|V|間的關(guān)系.其中，n為樣本總數(shù).

基于多粒度的多視圖特征融合和決策模塊包括4個(gè)步驟：

步驟1.在粒度1(視圖對(duì))水平下，按照式(7)融合每一對(duì)視圖(vi，vj).

vij=gθ(f(vi,vj)).

(7)

步驟2.在粒度2(每個(gè)視圖與其他全部視圖粒度)水平下，利用在粒度1水平下得到的視圖對(duì)融合結(jié)果，首先使用逐元素加聚合視圖i與其他視圖，得到它們間的融合結(jié)果ui:

ui=vi1+vi2+…+vi|V|,

(8)

然后，使用函數(shù)hθ對(duì)聚合結(jié)果ui進(jìn)行深度融合:

oi=hθ(ui).

(9)

步驟3.在粒度3(全部視圖粒度)水平下，使用逐元素加融合算子聚合在粒度2水平下得到的每個(gè)視圖與其他視圖間融合的結(jié)果，得到視圖v1,v2,…,v|V|最終的融合結(jié)果c:

c=o1+o2+…+o|V|,

(10)

由于參與融合的oi較多，融合結(jié)果c的變化范圍也很大，因此，將c進(jìn)行規(guī)范化操作.

步驟4.規(guī)范化c:

(11)

(12)

其中，sgn表示符號(hào)位函數(shù).式(11)表示冪律歸一化(power-law normalization)；式(12)表示L2范數(shù)歸一化(L2 normalization)，在多模態(tài)數(shù)據(jù)融合過(guò)程中，這2個(gè)公式常被聯(lián)合用于緩解融合向量波動(dòng)值范圍較大的情況.

2.4 決策

如圖4所示，分類模塊的目的是將融合向量映射到?jīng)Q策空間，對(duì)多視圖數(shù)據(jù)完成分類.使用1個(gè)全連接層(fully-connected layer,FC)和softmax函數(shù)將融合向量c映射到1個(gè)概率向量，得到每個(gè)樣本屬于每類的概率.也即：

(13)

其中，softmax函數(shù)定義為

(14)

其中，z=FC(c)是1個(gè)長(zhǎng)度為k的向量，k為類別數(shù).

MGF通過(guò)隨機(jī)梯度下降法進(jìn)行優(yōu)化求解，定義的交叉熵作為損失函數(shù):

(15)

其中，n為樣本總數(shù).

對(duì)于MGF需要說(shuō)明3點(diǎn)：

1) 在粒度1水平下，視圖對(duì)間的融合較容易，因此，用于視圖對(duì)間的融合算子f的選擇較多，理論上，現(xiàn)有的融合算子都可以使用.

2) 在粒度2和粒度3水平下，待融合的向量較多，不宜選擇產(chǎn)生額外參數(shù)的融合算子.因此本文使用逐元素加融合算子.

3) 在粒度1和粒度2中使用的深度融合函數(shù)gθ和hθ作用的對(duì)象為融合后的向量，對(duì)其進(jìn)一步的融合帶來(lái)很少的參數(shù).本文中，它們通過(guò)1個(gè)多層感知機(jī)來(lái)實(shí)現(xiàn).

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

本文所有方法使用Tensorflow實(shí)現(xiàn).計(jì)算環(huán)境是Ubuntu 16.04.4，512GB DDR4 RDIMM，2X 40-Core Intel?Xeon?CPU E5-2698 v4 @2.20 GHz, NVIDIA Tesla P100,顯存16 GB.

所有模型采用相同的訓(xùn)練設(shè)置.具體來(lái)說(shuō)，使用Adam優(yōu)化器，其學(xué)習(xí)率設(shè)置為0.001.每個(gè)模型訓(xùn)練100輪(epoch)，如果一個(gè)模型的性能在10個(gè)epoch內(nèi)沒(méi)有提升則訓(xùn)練結(jié)束.

3.2 數(shù)據(jù)集

本文實(shí)驗(yàn)使用4個(gè)超多視圖基準(zhǔn)數(shù)據(jù)集：Chekbook-10k(CB)[15]，Ainimal with Attributes(AWA)[26]，NUS-WIDE(NUS)[27]和Reuters[25]，它們的統(tǒng)計(jì)信息如表1 所示.

Table 1 Statistic Information of Datasets表1 數(shù)據(jù)集統(tǒng)計(jì)信息

CB[15]是1個(gè)化學(xué)結(jié)構(gòu)識(shí)別的多視圖數(shù)據(jù)集，包含10萬(wàn)張化學(xué)結(jié)構(gòu)圖片，屬于10 000類，每類包含10張圖片，每張圖片由10個(gè)深度特征描述.

AWA[26]是一個(gè)包含50種動(dòng)物的多視圖數(shù)據(jù)集，包含30 475張動(dòng)物圖片，每張圖片由7個(gè)視圖特征描述.

NUS[27]由23 438張圖片組成，每張圖片由6個(gè)圖片相關(guān)的視圖特征和1個(gè)文本相關(guān)的視圖特征描述，它們被分成10類.

Reuters[25]是一個(gè)包含111 740條文本，每條文本由5種語(yǔ)言描述的多視圖文本分類數(shù)據(jù)集.

各個(gè)數(shù)據(jù)的各個(gè)視圖的分類性能如圖6所示.從圖6可以看出，CB和Reuters數(shù)據(jù)集中每個(gè)視圖性能都可以獲得較好的性能，AWA中深度特征性能要遠(yuǎn)遠(yuǎn)好于其他手工特征，NUS中語(yǔ)義特征tags1k遠(yuǎn)遠(yuǎn)好于其他手工特征.

Fig. 6 Experimental results for single view on four datasets圖6 4個(gè)數(shù)據(jù)集上單視圖實(shí)驗(yàn)結(jié)果

為減少數(shù)據(jù)集劃分與模型訓(xùn)練隨機(jī)性帶來(lái)的影響，所有數(shù)據(jù)集按照8∶2(訓(xùn)練集:測(cè)試集)的比例隨機(jī)劃分5次.每個(gè)方法在5個(gè)劃分?jǐn)?shù)據(jù)集上的平均性能和標(biāo)準(zhǔn)差將被報(bào)告.

3.3 比較方法

本文方法分別與14個(gè)多視圖方法進(jìn)行比較研究，包括3個(gè)集成學(xué)習(xí)方法、5個(gè)多視圖基線方法和6個(gè)最先進(jìn)的多視圖方法.

1) 3個(gè)集成學(xué)習(xí)方法

① Best.使用每個(gè)視圖訓(xùn)練1個(gè)模型，選擇性能最好的模型作為最終融合模型.

② SSV(simple soft voting).使用每個(gè)視圖訓(xùn)練一個(gè)模型，簡(jiǎn)單平均全部模型的概率輸出結(jié)果作為最終的融合結(jié)果.

③ MR(maximum rule).使用每個(gè)視圖訓(xùn)練一個(gè)模型，選擇全部模型中最高置信度值的輸出結(jié)果作為最終的融合結(jié)果.

2) 5個(gè)多視圖分類基線方法：逐元素加(Addition)、逐元素平均(Average)、逐元素最大(Max)、逐元素乘(Multiplication)和級(jí)聯(lián)(Concatenation)

3) 6個(gè)最先進(jìn)的多視圖分類方法

① MLB[23].它是基于雙線性聚合的方法，通過(guò)|V|+1個(gè)矩陣乘積運(yùn)算近似|V|個(gè)向量的外積運(yùn)算來(lái)緩解融合向量維度災(zāi)難問(wèn)題.超參數(shù)m被設(shè)置為128，d依次從{64，128，256，512}取值.

② MFB[24].它是MLB一個(gè)增強(qiáng)方法，在MLB使用|V|個(gè)矩陣將每個(gè)視圖特征映射到低維空間后，通過(guò)引用一個(gè)帶有無(wú)重疊一維窗口的和聚合函數(shù)來(lái)提升每個(gè)映射向量的表達(dá)能力，然后再使用逐元素乘積融合算子聚合它們.超參數(shù)m設(shè)置為128，k依次從{1,2,3,4,5}取值.

③ TFN[28].首先將每個(gè)視圖特征與常數(shù)“1”進(jìn)行拼接，然后使用外積依次融合每一個(gè)拼接后的視圖特征.用這種方式顯示建模單視圖、2個(gè)視圖，…，|V|個(gè)視圖之間的交互.超參數(shù)m設(shè)置為128，mi依次從{2,4,6,8}取值.

④ LMF[30]. 它通過(guò)帶有視圖私有的因子的低秩多模態(tài)完成視圖融合.m設(shè)置為128，mi設(shè)置為128，r依次從{2,4,6,8}取值.

⑤ PTP[21].不同于其他直接使用外積融合不同的視圖特征，PTP先級(jí)聯(lián)全部視圖特征，然后計(jì)算級(jí)聯(lián)向量的張量積.超參數(shù)m設(shè)置為128，mi依次從{16,32,64}取值，p依次從{1,2,3}取值.

⑥ EmbraceNet[32].它是一個(gè)對(duì)缺失視圖數(shù)據(jù)魯棒的方法.首先將不同視圖映射到相同維度的向量，然后，隨機(jī)選擇一個(gè)視圖中第i位置的元素作為融合向量第i位置的值.重復(fù)該過(guò)程，選擇出融合向量的全部位置的值.在實(shí)驗(yàn)中，每個(gè)視圖被選擇的概率值p設(shè)置為1/|V|.

3.4 評(píng)價(jià)指標(biāo)

本文使用準(zhǔn)確度(Acc)和卡帕(Kappa)這2個(gè)指標(biāo)來(lái)評(píng)價(jià)方法的性能.

Acc是分類任務(wù)常用的指標(biāo)，然而對(duì)于樣本不平衡、噪聲干擾的數(shù)據(jù)集，分類方法易出現(xiàn)隨機(jī)一致性問(wèn)題[33].此時(shí)，準(zhǔn)確度指標(biāo)不能真實(shí)反映出方法的性能.因此，本文也采用了更公平的kappa指標(biāo).這2個(gè)指標(biāo)的定義可以基于表2的混淆矩陣誘導(dǎo)出.

Acc的定義為

Table 2 Confusion Matrix表2 混淆矩陣

(16)

Kappa指標(biāo)的定義為

(17)

這2個(gè)評(píng)價(jià)指標(biāo)的值越大，方法性能越好.

3.5 實(shí)驗(yàn)結(jié)果及分析

本文所提方法與14種對(duì)比方法在4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3和表4所示.其中，最好的結(jié)果使用粗體標(biāo)記，+，=，-分別表示在成對(duì)t-test下MGF在95%的置信水平顯著好于、持平和差于對(duì)應(yīng)的比較方法.

實(shí)驗(yàn)結(jié)果如表3和表4所示，在CB，AWA和NUS數(shù)據(jù)集上，MGF排在第1名，在準(zhǔn)確度指標(biāo)上比第2名分別高2.56%，1.08%和0.33%；在kappa指標(biāo)上分別高2.56%，1.11%和0.34%.在Reuters數(shù)據(jù)集上，MGF方法排在第2名，在準(zhǔn)確度和Kappa指標(biāo)上比第3名分別高1.80%和2.15%.在Reuters數(shù)據(jù)集，SSV 表現(xiàn)優(yōu)于MGF，這主要是由于它們的訓(xùn)練策略.具體來(lái)說(shuō)，相比于其他數(shù)據(jù)集，Reuters數(shù)據(jù)集的每個(gè)視圖特征維度極大，最小維度為11 547，最大維度為34 279. SSV首先在每個(gè)視圖上單獨(dú)訓(xùn)練一個(gè)模型，然后平均|V|個(gè)模型的分類概率值作為融合模型的得分概率.然而，MGF需全部視圖特征都參與訓(xùn)練，高維的視圖特征給模型帶來(lái)了大量的參數(shù)，導(dǎo)致模型訓(xùn)練困難.然而，方法MGF仍然取得了采用同類融合策略方法中的第1名.此外，就平均準(zhǔn)確度指標(biāo)而言，MGF取得84.68%，排名第1，比排在第2名的MFB方法高1.67%.再者，根據(jù)成對(duì)t-test，MGF在112個(gè)不同實(shí)驗(yàn)設(shè)置下(14個(gè)對(duì)比方法、2個(gè)評(píng)價(jià)指標(biāo)、4個(gè)數(shù)據(jù)集)，在95%的置信水平顯著好于對(duì)比方法的次數(shù)為106，持平次數(shù)為4，差于對(duì)比方法的次數(shù)為2.這些結(jié)果清晰表明本文提出的MGF方法的性能統(tǒng)計(jì)上優(yōu)于對(duì)比方法，證明多粒度融合策略在多視圖分類任務(wù)上確實(shí)有用.

Table 3 Accuracy Results (Mean±Standard Deviation) Among Different Comparative Methods on Four Datasets表3 不同方法在4個(gè)數(shù)據(jù)集上的準(zhǔn)確度比較(均值±標(biāo)準(zhǔn)差)

Table 4 Kappa Results (Mean±Standard Deviation) Among Different Comparative Methods on Four Fatasets表4 不同方法在4個(gè)數(shù)據(jù)集上的Kappa值比較(均值±標(biāo)準(zhǔn)差)

此外，在視圖個(gè)數(shù)較大的場(chǎng)景下，采用高級(jí)融合算子的方法無(wú)法獲得理想結(jié)果.它們的性能甚至比采用簡(jiǎn)單融合算子的方法還差，這主要是因?yàn)楹?jiǎn)單融合算子(級(jí)聯(lián)除外)不會(huì)引入額外參數(shù)，然而，高級(jí)融合算子會(huì)引入額外的參數(shù)，且參數(shù)量會(huì)隨著視圖個(gè)數(shù)的增加而增大，增大了這些模型過(guò)擬合的風(fēng)險(xiǎn).

為了從統(tǒng)計(jì)上驗(yàn)證MGF的有效性，基于表3和4實(shí)驗(yàn)數(shù)據(jù)，通過(guò)統(tǒng)計(jì)每個(gè)方法顯著性優(yōu)于與顯著性差于其他方法的次數(shù)之間的差值來(lái)分析每個(gè)方法的統(tǒng)計(jì)性能[34].具體地說(shuō)，給定2個(gè)方法a和b，假設(shè)它們分別在同一數(shù)據(jù)集上運(yùn)行n次， 2個(gè)方法n次實(shí)驗(yàn)結(jié)果的均值分別表示為μa與μb，方差分別表示為σa與σb.如果滿足：

(18)

那么方法a顯著性優(yōu)于方法b，否則方法a顯著性差于方法b.

如圖7所示，方法MGF的條形圖最高，表明它的性能顯著性優(yōu)于其他對(duì)比方法.此外，注意到TFN方法的負(fù)半軸最高，表明其性能顯著性差于其他方法，這進(jìn)一步驗(yàn)證了視圖維度的過(guò)度壓縮會(huì)導(dǎo)致性能的嚴(yán)重退化.因此，那些會(huì)導(dǎo)致融合向量維度急劇增大的方法不適用于視圖個(gè)數(shù)過(guò)多的情景.

Fig. 7 Significant difference comparison of Acc and Kappa圖7 ACC和Kappa顯著性差異比較

總體來(lái)說(shuō)，大量的實(shí)驗(yàn)驗(yàn)證了方法MGF的有效性.這些結(jié)果表明，分層融合策略確實(shí)可行.

與其他對(duì)比方法相比，MGF方法由于采用在多個(gè)粒度下對(duì)視圖信息進(jìn)行融合的策略，導(dǎo)致其會(huì)引入額外的學(xué)習(xí)參數(shù).因此，我們分析、比較了所有方法的可學(xué)習(xí)參數(shù)量和訓(xùn)練時(shí)間，實(shí)驗(yàn)結(jié)果如圖8所示.從中可以發(fā)現(xiàn)，在4個(gè)數(shù)據(jù)集上，逐元素加(addition)和級(jí)聯(lián)(concat)方法學(xué)習(xí)參數(shù)量和訓(xùn)練時(shí)間都是較少的.雖然MGF的學(xué)習(xí)參數(shù)量和訓(xùn)練時(shí)間比基于逐元素加(addition)和級(jí)聯(lián)(concat)算子的多視圖方法要多和長(zhǎng).但是，由于它只使用這2種融合算子，與一些基于張量的融合算子方法如TFB相比，它的學(xué)習(xí)參數(shù)量和訓(xùn)練時(shí)間都是可接受的.

Fig. 8 Comparison of parameters and training time among different methods圖8 不同方法的學(xué)習(xí)參數(shù)和訓(xùn)練時(shí)間對(duì)比情況

3.6 進(jìn)一步分析

本節(jié)旨在研究融合維度大小和不同粒度層中融合算子的選擇對(duì)MGF方法的影響.

1) 融合維度影響分析

本實(shí)驗(yàn)對(duì)融合維度設(shè)置為64，128，256及512的MGF方法的實(shí)驗(yàn)性能進(jìn)行比較，實(shí)驗(yàn)結(jié)果如圖9所示，從中可以看出：對(duì)于數(shù)據(jù)集CB和NUS，隨著融合維度增大，MGF的準(zhǔn)確度增加.例如在CB數(shù)據(jù)集上，融合維度512的MGF要比64的MGF的準(zhǔn)確度值提高了91.96%-87.95%=4.01%，在AWA和Reuters數(shù)據(jù)集上，準(zhǔn)確度值隨融合維度的增大變化較小，圖9(b)和(d)出現(xiàn)的波動(dòng)可能是隨機(jī)性造成的，例如對(duì)于AWA數(shù)據(jù)，當(dāng)融入維度由128變?yōu)?56時(shí)，MGF模型性能提高了89.82%-89.71%=0.11%，而當(dāng)融入維度由256變?yōu)?12時(shí)，性能下降了89.82%-89.65%=0.17%.上述實(shí)驗(yàn)結(jié)果表明不同的數(shù)據(jù)集對(duì)于融合維度的敏感性是不同的，因此使用交叉驗(yàn)證選擇合適的融合維度值是一個(gè)不錯(cuò)的策略.

Fig. 9 Change of accuracy with the dimension of fused vector圖9 Acc隨融合維度取值的變化情況

2) 融合算子影響分析

本部分旨在研究在不同粒度層上融合算子的選擇對(duì)MGF方法的影響，實(shí)驗(yàn)結(jié)果如圖10所示.

Fig. 10 The relation between fusion operator adopted by the first, second and third granularities and accuracy圖10 粒度層1，2，3所采用融合算子與分類準(zhǔn)確度之間的關(guān)系

實(shí)驗(yàn)設(shè)置：融合維度設(shè)置為64，選擇Addition，Mul，Max，Average和Concat這5種基本融合算子用于實(shí)驗(yàn)比較.MGF方法包含3個(gè)粒度層，每個(gè)粒度層可從5種融合算子任取一種，共125種情況，為了緩解隨機(jī)性對(duì)實(shí)驗(yàn)結(jié)果的影響，每種參數(shù)組合的MGF方法都運(yùn)行5次，報(bào)告5次結(jié)果的均值，因此MGF方法需在每個(gè)數(shù)據(jù)集上運(yùn)行625次.為了緩解參數(shù)組合太多的問(wèn)題，采用“固定變量法”策略，即改變一個(gè)粒度層中的融合算子，固定其他粒度層中的融合算子.實(shí)驗(yàn)分為3組：①粒度1改變，粒度2和3固定選取Addition融合算子；②粒度2改變，粒度1和3固定選取Addition融合算子；③粒度3改變，粒度1和2固定選取Addition融合算子.實(shí)驗(yàn)結(jié)果如圖10所示，其中每個(gè)子圖橫坐標(biāo)軸上粒度1、粒度2和粒度3分別對(duì)應(yīng)上述3組實(shí)驗(yàn).

從圖10中可知：①M(fèi)ul算子對(duì)MGF的性能影響最大，特別是涉及的待融合元素較多時(shí)，比如當(dāng)MGF中粒度層2，3采用Mul時(shí)，其分類性能幾乎為0.這是由于當(dāng)融合視圖數(shù)量是10時(shí)，1個(gè)標(biāo)量需要與其他9個(gè)標(biāo)量進(jìn)行9次乘法運(yùn)算，這將導(dǎo)致信息消失或者彌散，進(jìn)而引起模型訓(xùn)練崩塌.②Addition融合算子在4個(gè)數(shù)據(jù)集、3個(gè)粒度層上都表現(xiàn)出了有競(jìng)爭(zhēng)力的性能，這反映了加運(yùn)算可以增強(qiáng)信號(hào)，這也與文獻(xiàn)[15]中對(duì)EDF搜索發(fā)現(xiàn)的融合網(wǎng)絡(luò)中所使用融合算子的頻次統(tǒng)計(jì)結(jié)論一致.

4 結(jié)束語(yǔ)

針對(duì)超多視圖分類場(chǎng)景問(wèn)題，本文提出了一種多粒度融合的超多視圖分類方法.該方法從3個(gè)粒度，由簡(jiǎn)單到難，分層建模視圖對(duì)，每個(gè)視圖與其他視圖之間，全部視圖之間關(guān)系.在4個(gè)代表性數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果展示了本文提出方法的有效性，表明了在不同粒度水平進(jìn)行多視圖特征融合策略具有一定的優(yōu)勢(shì).

粒度空間的構(gòu)造不是唯一的，不同融合粒度的構(gòu)建方式多種多樣.在接下來(lái)的研究中，構(gòu)建更加有效的融合粒度空間是一個(gè)值得研究的重要科學(xué)問(wèn)題.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡