国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

模型參數(shù)自適應(yīng)遷移的多源域適應(yīng)

2019-08-13 09:26:29余歡歡魏文戈
關(guān)鍵詞:隱私保護(hù)聚類(lèi)

余歡歡 魏文戈

摘? ?要:在新領(lǐng)域中,常常存在樣本不充分或標(biāo)記不足的問(wèn)題。針對(duì)此問(wèn)題,人們提出了域適應(yīng),該方法利用相關(guān)領(lǐng)域(源域)的知識(shí)來(lái)提高當(dāng)前領(lǐng)域(目標(biāo)域)學(xué)習(xí)性能。單個(gè)源域的知識(shí)往往不充分且類(lèi)別完全相同的多個(gè)源域難以滿足,同時(shí)域之間存在漂移問(wèn)題。而現(xiàn)有的多源域適應(yīng)模型難以解決類(lèi)別不完全一致的問(wèn)題,因此給多源域適應(yīng)帶來(lái)了較大的挑戰(zhàn)。為此提出了一種基于模型參數(shù)自適應(yīng)遷移的方法(Adaptive Transfer for ModelParameter,ATMP),通過(guò)對(duì)每個(gè)源域的模型參數(shù)進(jìn)行私有和公有模型參數(shù)字典學(xué)習(xí),同時(shí)將多個(gè)源域中所學(xué)的模型參數(shù)字典作為目標(biāo)域的模型參數(shù)字典,然后通過(guò)對(duì)字典系數(shù)的行稀疏約束實(shí)現(xiàn)源域和目標(biāo)域模型參數(shù)的自適應(yīng)選擇。除此之外,該方法遷移的是模型參數(shù)而不是數(shù)據(jù)本身,因此有效實(shí)現(xiàn)了對(duì)源域數(shù)據(jù)的隱私保護(hù)。經(jīng)過(guò)一系列實(shí)驗(yàn)表明,在相關(guān)數(shù)據(jù)集上的實(shí)驗(yàn)顯示了本文所提方法在聚類(lèi)性能上的顯著有效性。

關(guān)鍵詞:多源域適應(yīng);模型參數(shù)自適應(yīng)遷移;隱私保護(hù);聚類(lèi)

中圖分類(lèi)號(hào):TP391 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

Model Parameter Transfer Adaptively for Multi-source Domain Adaptation

YU Huan-huan WEI Wen-ge

(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing,Jiangsu 211106,China)

Abstract:In new fields,there is often the problem of insufficient samples or labels. For this problem,domain adaptation(DA) has been proposed,which uses the knowledge of the related domain (source domain) to improve the learning performance of the current domain (target domain). The knowledge of a single source domain is often insufficient and multiple source domains with identical categories are difficult to satisfy,and there is a shift problem between domains. However,the existing multi-source TL model is hard to solve the problem of sharing inconsistent categories,which brings a great challenge for multi-source TL. Aiming at this problem,an adaptive transfer for model parameter method has been proposed,which can learn the private and public model parameter dictionary in each source domain. The model parameter dictionary learned in the source domains are used as the target ones,and then the model parameter of source domains and target domain are selected adaptively by the row sparse constraint of the dictionary coefficients. In addition,the method can also be directly used for TL of privacy protection due to the fact that the knowledge is transferred just via the model parameters rather than data itself. After a series of experiments,the experiments on the relevant datasets show the significant effectiveness of the proposed method in clustering performance.

Key words:multi-source domain adaptation;model parameter transfer adaptively;privacy protection;clustering

在傳統(tǒng)的機(jī)器學(xué)習(xí)中,通常假設(shè)訓(xùn)練數(shù)據(jù)(稱(chēng)為源域)和測(cè)試數(shù)據(jù)(稱(chēng)為目標(biāo)域)獨(dú)立同分布,但在現(xiàn)實(shí)場(chǎng)景中,由于不同的因素,比如視角,展現(xiàn)模式的區(qū)別等,這些因素都可能導(dǎo)致該假設(shè)難以滿足。因此,學(xué)者們提出了域適應(yīng),通過(guò)遷移源域的知識(shí)到目標(biāo)域來(lái)避免源域和目標(biāo)域數(shù)據(jù)分布不一致的問(wèn)題。目前域適應(yīng)主要包括單源域到單目標(biāo)域知識(shí)的遷移,多源域到單目標(biāo)域知識(shí)的遷移。在多源域的場(chǎng)景中,與目標(biāo)域相關(guān)的多個(gè)源域的類(lèi)別不完全一致的問(wèn)題給多源域適應(yīng)帶來(lái)了較大的挑戰(zhàn)。針對(duì)這一問(wèn)題,提出了一種基于模型參數(shù)自適應(yīng)遷移的方法(Adaptive Transfer for Model Parameter),在傳統(tǒng)的聚類(lèi)方法上,創(chuàng)新性地實(shí)現(xiàn)了源域和目標(biāo)域模型參數(shù)的自適應(yīng)選擇,從而避免了源域知識(shí)到目標(biāo)域知識(shí)的直接遷移。

主要貢獻(xiàn)如下:

1)借助源域的知識(shí),從模型參數(shù)字典的角度,對(duì)每個(gè)源域的模型參數(shù)進(jìn)行私有和公有模型參數(shù)字典學(xué)習(xí),同時(shí)將多個(gè)源域中所學(xué)的模型參數(shù)字典作為目標(biāo)域的模型參數(shù)字典,并通過(guò)稀疏約束進(jìn)行各域權(quán)重的適應(yīng)性選擇,從而實(shí)現(xiàn)域適應(yīng)并提高目標(biāo)域的聚類(lèi)性能;

2)為現(xiàn)有參數(shù)遷移方法提供一個(gè)更大的靈活

框架,克服了現(xiàn)有參數(shù)遷移方法無(wú)法適應(yīng)性選擇參數(shù)的缺陷,同時(shí)實(shí)現(xiàn)了對(duì)源域數(shù)據(jù)的隱私保護(hù);

3)通過(guò)在真實(shí)數(shù)據(jù)集上與相關(guān)算法的比較,驗(yàn)證了本方法在聚類(lèi)性能上的顯著有效性。

1? ?相關(guān)工作

域適應(yīng)[1]是機(jī)器學(xué)習(xí)領(lǐng)域的重要研究之一,近幾年廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)[2],自然語(yǔ)言[3]和生物信息[4]等領(lǐng)域。

根據(jù)源域個(gè)數(shù),可將域適應(yīng)劃分為單源域適應(yīng)和多源域適應(yīng)。其中,對(duì)于單源域適應(yīng)的研究最多,主要包括參數(shù)遷移和非參數(shù)遷移的方法。參數(shù)遷移是通過(guò)參數(shù)傳遞實(shí)現(xiàn)知識(shí)遷移。文獻(xiàn)[5]利用共享模型參數(shù)w0實(shí)現(xiàn)域間“連接”,側(cè)重于共享模型參數(shù)的直接遷移;文獻(xiàn)[6][7]分別在神經(jīng)網(wǎng)絡(luò)的模型上通過(guò)參數(shù)微調(diào)和變換實(shí)現(xiàn)知識(shí)參數(shù)遷移。而非參數(shù)遷移可分為基于實(shí)例和基于特征的方法,前者受重要性加權(quán)的啟發(fā),將源域有標(biāo)記樣本重加權(quán)后用于目標(biāo)域;后者試圖尋找一個(gè)“好的”轉(zhuǎn)換矩陣來(lái)減小域間的差異。文獻(xiàn)[8]采用核均值匹配(KernelMeanMatching,KMM)直接學(xué)習(xí)權(quán)重 ,實(shí)現(xiàn)了知識(shí)遷移;文獻(xiàn)[9][10]分別提出了子空間對(duì)齊(SubspaceAlignment,SA)和相關(guān)性對(duì)齊(CorrelationAlignment,CORAL)的方法,通過(guò)對(duì)齊的方式學(xué)習(xí)一個(gè)源域到目標(biāo)域的轉(zhuǎn)換矩陣,從而減小域間的差異。

由于單源遷移存在信息不足的問(wèn)題,因此,多源域適應(yīng)逐漸備受關(guān)注。文獻(xiàn)[11][12]針對(duì)一般的多源遷移場(chǎng)景,即每個(gè)源域和目標(biāo)域的類(lèi)別完全相同,然后分別采用實(shí)例遷移和特征遷移的方法解決域漂移的問(wèn)題;文獻(xiàn)[13]針對(duì)源域類(lèi)別不完全相同的場(chǎng)景采用了特征遷移的方式實(shí)現(xiàn)了遷移。

綜上所述,目前大部分域適應(yīng)僅面向單域之間和類(lèi)別完全相同的多域到單域問(wèn)題,而對(duì)于源域類(lèi)別不完全共享的域適應(yīng)研究相對(duì)較少。為了彌補(bǔ)現(xiàn)有方法的不足并擴(kuò)展域適應(yīng)的應(yīng)用范圍。本文提出了一種參數(shù)自適應(yīng)遷移的多源域適應(yīng)方法(ATMP)。

2? ?模型參數(shù)自適應(yīng)遷移的方法(ATMP)

在本節(jié)中,針對(duì)多個(gè)源域類(lèi)別不完全共享的場(chǎng)景,我們提出了一種基于模型參數(shù)自適應(yīng)遷移的方法。

2.1? ?ATMP算法設(shè)計(jì)

對(duì)于式(1),第一項(xiàng)和第二項(xiàng)為原始的 SLMC 算法;第三項(xiàng)和第五項(xiàng)為模型參數(shù)字典的學(xué)習(xí),實(shí)現(xiàn)了源域到目標(biāo)域知識(shí)的遷移;其他兩項(xiàng)為字典系數(shù)的約束,并通過(guò)行稀疏約束實(shí)現(xiàn)了選擇性域適應(yīng)。

2.2? ?ATMP算法優(yōu)化

3? ?實(shí)驗(yàn)分析

實(shí)驗(yàn)中,以O(shè)ffice+Caltech和PIE數(shù)據(jù)集為主,分別為目標(biāo)識(shí)別和人臉識(shí)別數(shù)據(jù)集。

由于多個(gè)源域共享不完全相同的類(lèi)別,因此,我們以共享類(lèi)別數(shù)3為例,分別對(duì)2、3、4個(gè)源域進(jìn)行實(shí)驗(yàn)類(lèi)比。

對(duì)于TSC[16]、STC[17]和TFCM[18],針對(duì)的是單源之間的的遷移。因此,為了實(shí)現(xiàn)多源的遷移,我們將多個(gè)源域的數(shù)據(jù)融合后作為單個(gè)源域。同時(shí),本文針對(duì)的是無(wú)標(biāo)記小樣本問(wèn)題,且原始樣本數(shù)過(guò)多,故我們從對(duì)應(yīng)類(lèi)中隨機(jī)刪除部分?jǐn)?shù)據(jù)。此外,對(duì)于源域的類(lèi)別做不完全共享的處理,即刪除部分類(lèi)別的數(shù)據(jù),使得源域類(lèi)別不完全相同,并且保證這些源域類(lèi)別的并集與目標(biāo)域相同。

通過(guò)以上處理,分別在2個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行算法比較,得到表2、表3和表4,并據(jù)此得出以下結(jié)論:

(1)在2個(gè)源域、3個(gè)源域和4個(gè)源域的數(shù)據(jù)集上,ATMP基本優(yōu)于其他算法,主要得益于源域和目標(biāo)域間模型參數(shù)字典的連接及其自適應(yīng)選擇。

(2)通過(guò)對(duì)比發(fā)現(xiàn),隨著源域個(gè)數(shù)的增加,目標(biāo)域的聚類(lèi)性能越好,基本上每增加一個(gè)域,目標(biāo)域的性能可以提高2%左右,主要是因?yàn)橛虻脑黾邮沟迷从蛩岣叩闹R(shí)也增加。

4? ?結(jié)? ?論

目前針對(duì)多源域適應(yīng)的研究較少。由于現(xiàn)實(shí)場(chǎng)景中難以發(fā)現(xiàn)類(lèi)別完全相同的多個(gè)源域,且源域之間存在著漂移問(wèn)題,而現(xiàn)有算法關(guān)注的都是源域類(lèi)別完全相同的場(chǎng)景,難以適用于現(xiàn)實(shí)場(chǎng)景。針對(duì)這一問(wèn)題,提出了模型參數(shù)自適應(yīng)遷移的方法(ATMP),通過(guò)模型參數(shù)字典的遷移和模型參數(shù)的自適應(yīng)選擇,實(shí)現(xiàn)了源域到目標(biāo)域知識(shí)的遷移。除此以外,該方法遷移的模型參數(shù)而非數(shù)據(jù)本身,因此有效實(shí)現(xiàn)了對(duì)源域數(shù)據(jù)的隱私保護(hù),并通過(guò)一系列實(shí)驗(yàn)表明了ATMP算法的顯著有效性。

參考文獻(xiàn)

[1]? ?PAN S J,YANG Q. A survey on transfer learning[J]. IEEE? Transactions on knowledge and data engineering,2010,22(10):1345—1359.

[2]? ?SOHN K,LIU S,ZHONG G,et al. Unsupervised domain adaptation for face recognition in unlabeled videos[J]. arXivpreprintarXiv:1708.02191,2017.

[3]? ?BLITZER J,MCDONALD R,PEREIRA F. Domain adaptation with structural correspondence learning[C]. Proceedings of the 2006 conference on empirical methods in natural language processing. Association for Computational Linguistics,2006:120—128.

[4]? ? KAMNITSAS K,BAUMGARTNER C,LEDIG C,et al. Unsupervised domain adaptation in brain lesion segmentation with adversarial networks[C]// International Conference on Information Processing in Medical Imaging. Springer,Cham,2017:597—609

[5]? ? SCHWAIGHOFER A,TRESP V,YU K. Learning Gaussian process kernels via hierarchical Bayes[C]// Advances in Neural Information Processing Systems. 2005:1209—1216.

[6]? ?YOSINSKI J,CLUNE J,BENGIO Y,et al. How transferable are features in deep neural networks[C].Advances in Neural Information Processing Systems. 2014:3320—3328.

[7]? ? 許夙暉,慕曉冬,柴棟,等. 基于極限學(xué)習(xí)機(jī)參數(shù)遷移的域適應(yīng)算法[J]. 自動(dòng)化學(xué)報(bào),2018,44(2):311—317.

[8]? ? HUANG J,GRETTON A,BORGWARDT,et al. Correcting sample selection bias by unlabeled data[C]. Advances in Neural Information Processing Systems. 2007:601—608.

[9]? ? FERNANDO B,HABRARD A,SEBBAN M,et al. Unsupervised visual domain adaptation using subspace alignment[C].Proceedings of the IEEE International Conference on Computer Vision. 2013:2960—2967.

[10]? SUN B,F(xiàn)ENG J,SAENKO K. Return of frustratingly easy domain adaptation[C]. AAAI. 2016,6(7):8.

[11]? SUN Q,CHATTOPADHYAY R,PANCHANATHAN S,et al. A two-stage weighting framework for multisource domain adaptation[C].Advances in Neural Information Processing Systems. 2011:505—513.

[12]? LIU H,SHAO M,and FU Y. Structure-preserved multisource domain adaptation[C]. 2016 IEEE 16th International Conference on. Data Mining(ICDM).IEEE,2016:1059—1064.

[13]? XU R,CHEN Z,ZUO W,et al. Deep cocktail network: multi-source unsupervised domain adaptation with category shift[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3964—3973.

[14]? TSENGP. Convergence of a block coordinate descent method for nondifferentiable minimization[J]. Journal of Optimization Theory and Applications,2001,109(3):475-494.

[15]? WANG Y,CHEN S. Soft large margin clustering[J]. Information Sciences,2013,232:116—129.

[16]? JIANG W,CHUNG F. Transfer spectral clustering[C].Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer,Berlin,Heidelberg,2012:789—803.

[17]? DAI W,YANG Q,XUE G R,et al. Self-taught clustering[C]. Proceedings of the 25th international conference on Machine learning. ACM,2008:200207.

[18]? DENG Z,JIANG Y,CHUNG F L,et al. Transfer prototype-based fuzzy clustering[J]. IEEE Transactions on Fuzzy Systems,2016,24(5):12101232.

猜你喜歡
隱私保護(hù)聚類(lèi)
基于K-means聚類(lèi)的車(chē)-地?zé)o線通信場(chǎng)強(qiáng)研究
基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
基于層次和節(jié)點(diǎn)功率控制的源位置隱私保護(hù)策略研究
關(guān)聯(lián)規(guī)則隱藏算法綜述
大數(shù)據(jù)環(huán)境下用戶信息隱私泄露成因分析和保護(hù)對(duì)策
大數(shù)據(jù)安全與隱私保護(hù)的必要性及措施
條紋顏色分離與聚類(lèi)
社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護(hù)研究綜述
大數(shù)據(jù)時(shí)代的隱私保護(hù)關(guān)鍵技術(shù)研究
基于Spark平臺(tái)的K-means聚類(lèi)算法改進(jìn)及并行化實(shí)現(xiàn)
杂多县| 调兵山市| 平罗县| 黄平县| 资兴市| 崇仁县| 广昌县| 呼伦贝尔市| 黎城县| 涞源县| 宣威市| 陵川县| 彰武县| 双峰县| 榕江县| 石泉县| 邢台县| 苏尼特右旗| 邵东县| 修文县| 宕昌县| 石泉县| 湖北省| 邹城市| 通山县| 瓦房店市| 大埔区| 美姑县| 平原县| 中阳县| 遵义市| 卢龙县| 西林县| 辽源市| 安陆市| 长白| 靖西县| 湘阴县| 高青县| 昌邑市| 宜章县|