機(jī)器學(xué)習(xí)中的負(fù)遷移探討

2010-10-09 07:52:22吳伊萍

赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版 2010年8期

關(guān)鍵詞：多任務(wù)貝葉斯度量

吳伊萍

（泉州師范學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，福建泉州 362000）

機(jī)器學(xué)習(xí)中的負(fù)遷移探討

吳伊萍

（泉州師范學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，福建泉州 362000）

傳統(tǒng)的機(jī)器學(xué)習(xí)側(cè)重于研究單一任務(wù)，假設(shè)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)服從同樣的概率分布，然而實(shí)際中這一條件往往無(wú)法滿(mǎn)足，且對(duì)于不同任務(wù)的研究較少，這些就需要遷移學(xué)習(xí).它可以從現(xiàn)有的任務(wù)中學(xué)習(xí)知識(shí)和技能用于將來(lái)的任務(wù).然而使用遷移學(xué)習(xí)則要承擔(dān)負(fù)遷移的風(fēng)險(xiǎn).本文介紹在增強(qiáng)學(xué)習(xí)、多任務(wù)學(xué)習(xí)和歸納學(xué)習(xí)中避免負(fù)遷移的方法.

遷移學(xué)習(xí)；避免負(fù)遷移；任務(wù)相關(guān)；綜述

1 引言

漢語(yǔ)拼音的學(xué)習(xí)有助于學(xué)習(xí)英語(yǔ)發(fā)音；英語(yǔ)的學(xué)習(xí)有助于學(xué)習(xí)法語(yǔ)；練短跑有助于提高三級(jí)跳成績(jī)等.人們很早就懂得運(yùn)用已掌握的知識(shí)和技能學(xué)習(xí)新任務(wù).不同人的學(xué)習(xí)能力不同，隨著知識(shí)的積累，一般成人的學(xué)習(xí)能力比小孩高.而提高機(jī)器的學(xué)習(xí)能力則要使機(jī)器學(xué)習(xí)的能力不斷提高，繼承和發(fā)展過(guò)去已掌握的知識(shí)和技能，實(shí)現(xiàn)增量學(xué)習(xí).但正如Porter和Duncan[1]的研究發(fā)現(xiàn)在A到B之間遷移有效，但A到BR之間就有害，及“一朝被蛇咬，十年怕井繩”.這些都表明負(fù)遷移的存在及其危害.

目前遷移學(xué)習(xí)在機(jī)器學(xué)習(xí)的一些領(lǐng)域，如神經(jīng)網(wǎng)絡(luò)、層次貝葉斯、增強(qiáng)學(xué)習(xí)、多任務(wù)學(xué)習(xí)和歸納學(xué)習(xí)的研究已經(jīng)取得了一定的進(jìn)展.為了促進(jìn)遷移學(xué)習(xí)在其他機(jī)器學(xué)習(xí)上的推廣，預(yù)防負(fù)遷移，這篇文章我們討論負(fù)遷移及其預(yù)防機(jī)制.主要討論其在增強(qiáng)學(xué)習(xí)、多任務(wù)學(xué)習(xí)和歸納學(xué)習(xí)上的避免方法.

2 概要

2.1 遷移學(xué)習(xí)和負(fù)遷移研究現(xiàn)狀

遷移學(xué)習(xí)來(lái)源于認(rèn)知科學(xué)[25]，人們利用已掌握的經(jīng)驗(yàn)知識(shí)學(xué)習(xí)新事物，它包括行為遷移和知識(shí)遷移.在機(jī)器學(xué)習(xí)領(lǐng)域，不同時(shí)期由于不同的研究對(duì)象人們提出了不同名稱(chēng)的遷移學(xué)習(xí).1995年，NIPS-95工作室提出“學(xué)會(huì)學(xué)習(xí)（learning to learn）”[23]；Caruana“多任務(wù)學(xué)習(xí) (Multi-task learning)”[18]；Raina“自學(xué)習(xí)（self-taught leaning）”[24]等.有些人提出了一些遷移學(xué)習(xí)研究的統(tǒng)一框架，如戴文淵——特征遷移[4]等.目前從事遷移學(xué)習(xí)的研究機(jī)構(gòu)有香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系，美國(guó)威斯康星大學(xué)（University of Wisconsin，USA）機(jī)器學(xué)習(xí)實(shí)驗(yàn)室，加利福尼亞伯克利分校和麻省理工學(xué)院等.在近幾年的頂級(jí)國(guó)際會(huì)議上，如ICML，ECML/ PKDD，KDD，IJCAI等和遷移學(xué)習(xí)相關(guān)的文章有不少，可參見(jiàn)香港科大的網(wǎng)頁(yè)[3].隨著認(rèn)知心理學(xué)等相關(guān)學(xué)科的發(fā)展，在未來(lái)的一段時(shí)間里，遷移學(xué)習(xí)將成為機(jī)器學(xué)習(xí)和人工智能研究領(lǐng)域的主要方向.

負(fù)遷移是遷移學(xué)習(xí)過(guò)程中不可回避的問(wèn)題.如會(huì)開(kāi)小汽車(chē)后學(xué)習(xí)開(kāi)大卡車(chē)就比較容易，但會(huì)騎自行車(chē)就要學(xué)開(kāi)大卡車(chē)就很困難.雖然都是車(chē)，由于大卡車(chē)和小汽車(chē)的結(jié)構(gòu)、發(fā)動(dòng)和駕駛原理相似，但和自行車(chē)相差甚遠(yuǎn).同樣學(xué)習(xí)系統(tǒng)在一個(gè)新的場(chǎng)景中，如果套用原有場(chǎng)景的方法一味蠻干則會(huì)降低學(xué)習(xí)質(zhì)量.

2.2 相關(guān)概念定義

遷移學(xué)習(xí)的概念目前沒(méi)有嚴(yán)格統(tǒng)一的定義，按照NIPS2005對(duì)遷移學(xué)習(xí)的定義進(jìn)行描述.“Transfer Learning emphasizes the transfer ofknowledge across domains,tasks,and distributions that are similar but not the same.”遷移學(xué)習(xí)強(qiáng)調(diào)的是在相似但不同的領(lǐng)域、任務(wù)和分布之間知識(shí)的遷移.

源任務(wù)指機(jī)器已掌握的相對(duì)于新任務(wù)不同的數(shù)據(jù)集.

目標(biāo)任務(wù)指機(jī)器要學(xué)習(xí)的新任務(wù)的數(shù)據(jù)集.

負(fù)遷移，在機(jī)器學(xué)習(xí)領(lǐng)域還沒(méi)有給出嚴(yán)格的定義.在此，我們定義為：舊的知識(shí)或經(jīng)驗(yàn)阻礙或干擾新任務(wù)的學(xué)習(xí).

3 避免負(fù)遷移的途徑

遷移學(xué)習(xí)的三個(gè)要素是：What to transfer；How to transfer；When to transfer，即遷移什么，怎樣遷移和什么時(shí)候遷移.人們從縱多的經(jīng)驗(yàn)知識(shí)中選擇適合于新任務(wù)的知識(shí)，要能在合適的時(shí)間用合適的方法遷移挑選的舊知識(shí)于新知識(shí)中.遷移的內(nèi)容從認(rèn)知科學(xué)的角度包括知識(shí)和行為；遷移的方法Robins[25]指“analogy，skill transfer and metaphor”——類(lèi)推，行為遷移和比喻.這對(duì)于人來(lái)說(shuō)尚且不易，更不要說(shuō)是機(jī)器.在機(jī)器進(jìn)行遷移學(xué)習(xí)的過(guò)程中，如果候選任務(wù)選擇不當(dāng)或遷移的內(nèi)容不當(dāng)或遷移時(shí)機(jī)不當(dāng)都會(huì)造成負(fù)遷移.在避免負(fù)遷移的研究中仍有許多問(wèn)題值得探討，在此按照以下三方面討論：（1）排除有害信息（2）度量任務(wù)相似度（3）選擇源任務(wù).

Table1:Approaches to avoid negative transfer

Table2：Different settings of negative transfer

3.1 排除有害信息

排除有害信息是避免負(fù)遷移的重要方法之一.對(duì)于相似度極高的源目標(biāo)任務(wù)，學(xué)習(xí)系統(tǒng)可能忽略目標(biāo)任務(wù)的特定屬性，進(jìn)行簡(jiǎn)單的模仿，由此降低系統(tǒng)的性能.在增強(qiáng)學(xué)習(xí)中，存在多系統(tǒng)或多任務(wù)交互的情況，代理遷移先前學(xué)習(xí)的知識(shí)如策略或Q值時(shí)，可能采用原有單一系統(tǒng)的方法，這樣就會(huì)造成負(fù)遷移.在交互任務(wù)中，學(xué)習(xí)系統(tǒng)要能夠排除來(lái)自于自身環(huán)境或外來(lái)任務(wù)的干擾或有害的信息，才能進(jìn)行有效地遷移學(xué)習(xí).

對(duì)于相似度極高的兩個(gè)任務(wù)，遷移學(xué)習(xí)有時(shí)會(huì)阻礙學(xué)習(xí)系統(tǒng)的性能，Rosenstein和Marx[8]給出了使用目標(biāo)任務(wù)中的少量數(shù)據(jù)來(lái)檢測(cè)和避免負(fù)遷移的方法.他們提出層次樸素貝葉斯方法，在假設(shè)兩個(gè)任務(wù)具有相同的超驗(yàn)分布，未知的均值和小方差，計(jì)算小樣本的后驗(yàn)概率.樸素貝葉斯和分層體制結(jié)合，用來(lái)檢測(cè)和避免負(fù)遷移，簡(jiǎn)潔有效地判斷是否進(jìn)行遷移.不足在于，他們?yōu)檫m應(yīng)Dirichlet分布為所有用戶(hù)設(shè)置一個(gè)共享參數(shù)，但Dirichlet分布不適用于任意的雙峰分布，該模型無(wú)法處理多于一個(gè)任務(wù)的聚類(lèi).Roy和Kaelbling[28]提出Dirichlet過(guò)程混合模型，解決了這一問(wèn)題.

在大規(guī)模順序決策問(wèn)題上，增強(qiáng)學(xué)習(xí)的解決方法之一是關(guān)系強(qiáng)化學(xué)習(xí).學(xué)習(xí)系統(tǒng)通過(guò)代理與環(huán)境中的其它系統(tǒng)交互.但對(duì)于復(fù)雜的場(chǎng)景代理要選擇一個(gè)最優(yōu)策略也是很困難的.Croonenborghs等人[16]試圖在關(guān)系強(qiáng)化學(xué)習(xí)中學(xué)習(xí)關(guān)系抉擇（relational options）進(jìn)行歸納遷移.他們構(gòu)造一個(gè)擴(kuò)展的抉擇框架用于分層關(guān)系抽?。╤ierarchical relational abstractions）來(lái)學(xué)習(xí)相似但不同的域.他們按照行為的形式遷移知識(shí)，將這些行為表示成關(guān)系抉擇，并設(shè)定初始和結(jié)束條件及策略.顯然，用Q函數(shù)（Q-function）代替最優(yōu)策略表示上容易多，只要確定“狀態(tài)——?jiǎng)幼鳌毙蛄星蟪鯭值（Q-value），構(gòu)造決策樹(shù)就能確定下一步的動(dòng)作.

Torrey等[19，20]提出征求建議來(lái)決定遷移源任務(wù)中的知識(shí)到目標(biāo)任務(wù)中的方法.通過(guò)征求建議，遷移了共同知識(shí)，摒棄了不合理知識(shí)對(duì)目標(biāo)任務(wù)的干擾.文中涉及的系統(tǒng)使用歸納邏輯程序涉及來(lái)分析源任務(wù)中的技能，根據(jù)遷移規(guī)則來(lái)決定采取什么行為.

3.2 度量任務(wù)相似度

任務(wù)或域的相似性度量是一個(gè)很難的問(wèn)題，辨別新舊任務(wù)或域之間的相似點(diǎn)和相似程度，以確定是否進(jìn)行遷移及遷移什么.針對(duì)不同的域和任務(wù)，人們提出了各種嘗試，經(jīng)過(guò)十幾年的研究，任務(wù)相似度的度量有了一定的進(jìn)展.Silver等人[26]，1996年，提出了基于相似度度量地使用動(dòng)態(tài)學(xué)習(xí)比率的任務(wù)知識(shí)的并行遷移.

Thrun和O’Sullivan等[13]為我們介紹了任務(wù)聚類(lèi)的算法，幫助我們識(shí)別內(nèi)在相關(guān)的任務(wù).它有助于在多任務(wù)學(xué)習(xí)時(shí)，規(guī)避不相關(guān)任務(wù)帶來(lái)的風(fēng)險(xiǎn)和潛在的誤導(dǎo)，增強(qiáng)學(xué)習(xí)系統(tǒng)的魯棒性.在同一個(gè)聚類(lèi)中，如果從任務(wù)N遷移的知識(shí)越有助于改善學(xué)習(xí)系統(tǒng)學(xué)習(xí)任務(wù)M，則說(shuō)明這兩個(gè)任務(wù)越相關(guān).任務(wù)聚類(lèi)算法共三步：（1）對(duì)于每一組任務(wù)N和M：計(jì)算從任務(wù)M遷移的知識(shí)對(duì)任務(wù)N的性能增益；（2）在每個(gè)任務(wù)聚類(lèi)中最大化性能增益，將所有任務(wù)安排在一個(gè)更小的聚類(lèi)中；（3）如果一個(gè)新任務(wù)來(lái)臨，決定最相似的聚類(lèi).從該類(lèi)的某任務(wù)中選擇性地遷移知識(shí).對(duì)于每個(gè)新遇到的新任務(wù)，通過(guò)任務(wù)聚類(lèi)算法，找到其所在聚類(lèi)，根據(jù)該聚類(lèi)的特征學(xué)習(xí)新任務(wù)，有效地實(shí)現(xiàn)知識(shí)和技能的遷移.[10]Bakker等人也在貝葉斯的多任務(wù)學(xué)習(xí)上進(jìn)行任務(wù)聚類(lèi)和控制來(lái)避免負(fù)遷移.

多任務(wù)學(xué)習(xí)是同時(shí)學(xué)習(xí)相關(guān)的任務(wù)，遷移學(xué)習(xí)是先學(xué)習(xí)一個(gè)相似但不同的源任務(wù)再將源任務(wù)中的知識(shí)遷移到目標(biāo)任務(wù).Ben-David和Schuler[9]在多任務(wù)學(xué)習(xí)中研究具有共同特征的相關(guān)任務(wù)集，并提出了針對(duì)相關(guān)任務(wù)的數(shù)據(jù)生成框模型及誤差界限.根據(jù)數(shù)據(jù)生成模型，學(xué)習(xí)者可以計(jì)算任務(wù)屬性值.如果任務(wù)P和T之間對(duì)于任意屬性Tri有P（Tri）=T（F（Tri）），則稱(chēng)任務(wù)P和T滿(mǎn)足函數(shù)F相似，則這兩個(gè)任務(wù)稱(chēng)為相關(guān)任務(wù).這為任務(wù)相關(guān)又提供了一種改進(jìn)的度量方法.不足之處在于，要找到函數(shù)F不易.

Carroll和Seppi[17]，2005年在增強(qiáng)學(xué)習(xí)任務(wù)庫(kù)中，根據(jù)遷移方法的不同提出了任務(wù)相似性的度量的指標(biāo)，包括時(shí)間、策略覆蓋、Q值和獎(jiǎng)賞結(jié)構(gòu)分別用dT,dP,dQ,和dR表示.

Mahmud和Ray[6]從貝葉斯的角度來(lái)逼近計(jì)算任務(wù)相似度.他們使用條件Kolmogorov復(fù)雜性的假設(shè)，巧妙地解決了任務(wù)相似度地度量.條件的Kolmogorov復(fù)雜性的輸入變量是h’，輸出變量是h，其概率分布式K(h|h’)，用來(lái)衡量輸入對(duì)輸出的積極信息.對(duì)于目標(biāo)任務(wù)，它的先驗(yàn)概率來(lái)自于源任務(wù)的學(xué)習(xí)，因此計(jì)算每個(gè)候選項(xiàng)的概率P（·|h’）=2-K(·|h’)，從而決定目標(biāo)任務(wù)要從源任務(wù)重遷移適當(dāng)?shù)男畔⒘?該方法的特點(diǎn)是一先驗(yàn)概率的計(jì)算容易；二能達(dá)到預(yù)先的目的——合理的遷移先驗(yàn)知識(shí)比不遷移先驗(yàn)知識(shí)的好.

3.3 選擇源任務(wù)

遷移的知識(shí)各種各樣，如增強(qiáng)學(xué)習(xí)中的值函數(shù)或啟發(fā)式信息或關(guān)系.學(xué)習(xí)系統(tǒng)在遇到新任務(wù)時(shí)，存在某個(gè)遷移的知識(shí)點(diǎn)上有多個(gè)候選任務(wù)同時(shí)可以進(jìn)行遷移.如果學(xué)習(xí)系統(tǒng)沒(méi)有篩選候選任務(wù)，可能因此造成負(fù)遷移.

當(dāng)面對(duì)多任務(wù)時(shí)，增強(qiáng)學(xué)習(xí)中代理做出正確的抉擇很困難.Talvitie等人[21]使用直接的方法——基于Markov過(guò)程理論的隨機(jī)動(dòng)態(tài)系統(tǒng)的最優(yōu)決策過(guò)程（Markov Decision Process，MDP）來(lái)遷移.首先，對(duì)于每個(gè)候選項(xiàng)，在目標(biāo)任務(wù)上在固定的時(shí)間內(nèi)運(yùn)行MDP并按照它們的性能排序；其次，從前一次的排序結(jié)果中選出最優(yōu)策略繼續(xù)執(zhí)行；比較第i次與第i+1次的最優(yōu)策略，如果第i+1次比第i次來(lái)得差，則結(jié)束.對(duì)于問(wèn)題規(guī)模大的情況，該方法盡管費(fèi)時(shí)，但簡(jiǎn)單實(shí)用.此外，MDP具備完善的理論和評(píng)估指標(biāo).

在計(jì)算機(jī)和數(shù)學(xué)領(lǐng)域，圖是構(gòu)建實(shí)體關(guān)系的工具.Kuhlmann和Stone[22]、Dai等人[4]和Eaton等人[7]在遷移學(xué)習(xí)的研究上葉提出構(gòu)造圖來(lái)表示任務(wù)和規(guī)則.他們都提出基于來(lái)實(shí)現(xiàn)學(xué)習(xí)的遷移，但實(shí)現(xiàn)上卻有所不同.Kuhlmann和Stone[22]是尋求同構(gòu)空間中的匹配，描述的是規(guī)則圖.節(jié)點(diǎn)代表一條規(guī)則中的邏輯語(yǔ)句、相關(guān)語(yǔ)句、常量和變量.順序邊連接的時(shí)連續(xù)的變量，為約束添加邊描述其前后因.通過(guò)計(jì)算目標(biāo)任務(wù)和舊任務(wù)的規(guī)則圖是否同構(gòu)，尋找同構(gòu)的舊任務(wù)進(jìn)行值函數(shù)遷移.

Dai等人[4]提出針對(duì)遷移學(xué)習(xí)的統(tǒng)一框架，描述的是任務(wù)圖.實(shí)例、特征和標(biāo)簽作為節(jié)點(diǎn)，邊連接目標(biāo)任務(wù)和輔助數(shù)據(jù).通過(guò)學(xué)習(xí)任務(wù)圖的頻譜可以獲取其所有節(jié)點(diǎn)的特征空間表示.作者還提出了“特征聚類(lèi)：用于遷移學(xué)習(xí)的統(tǒng)一框架”算法，用于進(jìn)行目標(biāo)聚類(lèi)任務(wù).特征遷移框架可以有效地解決跨域?qū)W習(xí)、跨分類(lèi)學(xué)習(xí)、自學(xué)習(xí)三類(lèi)典型的遷移學(xué)習(xí)問(wèn)題.

Eaton等人[7]對(duì)候選任務(wù)間的遷移關(guān)系建模，通過(guò)在一個(gè)圖中嵌入已學(xué)的源模型集合用于遷移性的度量.遷移到一個(gè)新的問(wèn)題，通過(guò)把這個(gè)問(wèn)題映射成一個(gè)圖.在這個(gè)圖上學(xué)習(xí)一個(gè)函數(shù)，自動(dòng)確定轉(zhuǎn)移到新任務(wù)的參數(shù).該方法類(lèi)似于歸納遷移，沿著流形獲取任務(wù)間的遷關(guān)系.它直接對(duì)候選源任務(wù)間的關(guān)系建模，可以確保從多個(gè)候選任務(wù)中自動(dòng)選擇相關(guān)信息遷移，避免人工選擇源任務(wù)帶來(lái)的負(fù)遷移.

4 結(jié)束語(yǔ)

遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的重要研究方向，負(fù)遷移是遷移學(xué)習(xí)過(guò)程中必須面對(duì)的問(wèn)題.遷移學(xué)習(xí)在增強(qiáng)學(xué)習(xí)、多任務(wù)學(xué)習(xí)、貝葉斯學(xué)習(xí)和歸納學(xué)習(xí)的研究已開(kāi)展一段時(shí)間，這篇文章從三個(gè)方面介紹了它們避免負(fù)遷移的途徑——排除有害信息、度量任務(wù)相似度和選擇源任務(wù).希望通過(guò)對(duì)負(fù)遷移避免方法的探討，有助于機(jī)器學(xué)習(xí)領(lǐng)域其他學(xué)習(xí)的遷移.此外，任務(wù)或域映射是與負(fù)遷移密切相關(guān)的問(wèn)題，映射技術(shù)的提高有助于避免負(fù)遷移，是今后研究的一個(gè)方向.

〔1〕LW Porter,CP Duncan Negative Transfer in VerbalLearning [J].JournalofExperimental Psychology,1953.

〔2〕Sinno J.Pan,Qiang Yang.A Survey on Transfer Learning[C].IEEE Transactions on Knowledge and Data Engineering,2009,Vol.99,No.1.

〔3〕http://www.cse.ust.hk/～sinnopan/conferenceTL. htm.

〔4〕Wenyuan Dai,Gui-Rong Xue，Qiang Yang，Yong Yu,EigenTransfer:A Uni?ed Framework for Transfer Learning[C].Proceedings of the 26th International Conference on Machine Learning, 2009.

〔5〕Z.Marx, M.T.Rosenstein, L.P.Kaelbling,and T.G.Dietterich.Transfer learning with an ensemble of background tasks[C].In NIPS Workshop on Transfer Learning,2005.

〔6〕M.M.H.Mahmud and S.R.Ray.Transfer learning using kolmogorov complexity:Basic theory and empirical evaluations[C].Proceedings of Cambridge,MA:MIT Press,2008.985–992.

〔7〕E.Eaton,M.desJardins,and T.Lane.Modeling transfer relationships between learning tasks for improved inductive transfer[C].In Machine Learning and Knowledge Discovery in Databases,European Conference,2008.

〔8〕M.T.Rosenstein,Z.Marx,and L.P.Kaelbling.To transfer or not to transfer[C].In a NIPS-05Workshop on Inductive Transfer:10Years Later,December 2005.

〔9〕S.Ben-David and R.Schuller.Exploiting task relatedness for multiple task learning[C].In Proceedings of the Sixteenth Annual Conference on Learning Theory.San Francisco: Morgan Kaufmann,2003.825–830.

〔10〕B.Bakker and T.Heskes.Task clustering and gating for Bayesian multitask learning [J]. Journal of Machine Learning Reserch,vol.4. pp.83-99，2003.

〔11〕A.Argyriou,A.Maurer,and M.Ponti.An algorithm for transfer learning in a heterogeneous environment[C].Proceedings of Machine Learning and Knowledge Discovery in Databases,European Conference[C].ECML/PKDD,2008,ser. Lecture Notes in Computer Science.Antwerp, Belgium:springer,September 2008,pp.71–85.

〔12〕Jonathan Baxter.A model of inductive bias learning [J].Journal of Artificial Intelligence Research,12:149–198,2000.

〔13〕Sebastian Thrun,Joseph O’Sullivan.Clustering Learning Tasks and The Selective Cross-Task Transfer of Knowledge[M].1995.In S.Thrun and L.Y.Pratt (eds),editors,Learning To Learn, chapter 10.Kluwer Academic Publisher,1998.

〔14〕L.Torrey and J.Shavlik.Transfer Learning [M].In E.Soria,J.Martin,R.Magdalena, M.Martinez and A.Serrano,editors,Handbook of Research on Machine Learning Applications,IGI Global 2009.PP242-261.

〔15〕Matthew E.Taylor,PeterStone.Transfer Learning in Reinforcement Learning Domains: A Survey[J].Journal of Machine Learning Research,10(2009).PP.1633-1685.

〔16〕T.Croonenborghs,K.Driessens,andM.Bruynooghe. Learning relational skills for inductive transfer in relational reinforcement learning[C].In International Conference on Inductive Logic Programming，2007.

〔17〕C.Carroll and K.Seppi.Task similarity measuresfortransferin reinforcementlearning task libraries[C].In IEEE International Joint Conference on Neural Net-works,2005.

〔18〕R.Caruana.Multi-task learning[J].Machine Learning.1997,28(1)：141-75.

〔19〕L.Torrey,T.Walker,J.Shavlik,and R.Maclin [C].Using Advice to Transfer Knowledge Acquired in One Reinforcement Learning Task to Another.Proceedings of the 16th European Conference on Machine Learning,2005.

〔20〕L.Torrey,J.Shavlik,T.Walker,and R.Maclin. Relational Skill Transfer via Advice Taking[C]. ICML Workshop on StructuralKnowledge Transfer for Machine Learning,2006.

〔21〕E.Talvitie and S.Singh.An expertsalgorithm for transfer learning[C].In International Joint Conference on Artificial Intelligence,2007.

〔22〕G.Kuhlmann and P.Stone.Graph-based domain mapping for transfer learning in general games[C].In European Conference on Machine Learning,2007.

〔23〕http://www-2.cs.cmu.edu/Groups/NIPS/NIPS95/

〔24〕Rajat Raina，Alexis Battle，Honglak Lee，Benjamin Packer and Andrew Y.Ng.Self-taught Learning:TransferLearning from Unlabeled Data[C].ICML2007.

〔25〕Anthony Robins.Transfer in Cognition [J]. Connection Scinece,Vol.8,No.2,1996.

〔26〕Daniel L.Silver,Robert E.Mercer.The Parallel Transfer of Task Knowledge Using Dynamic Learning Rates Based on a measure of Relatedness [J].Connection Science,Vol.8, No.2,1996.

〔27〕http://multitask.cs.berkeley.edu/.

〔28〕Daniel M.Roy and Leslie P.Kaelbling.Efficient Bayesian Task-Level Transfer Learning[C].Proceedings of the Twentieth International Joint Conference on Artificial Intelligence，2007.

TP274.1

1673-260X（2010）08-0039-04

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

機(jī)器學(xué)習(xí)中的負(fù)遷移探討

1 引言

2 概要

3 避免負(fù)遷移的途徑

4 結(jié)束語(yǔ)