吳伊萍
(泉州師范學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 泉州 362000)
機(jī)器學(xué)習(xí)中的負(fù)遷移探討
吳伊萍
(泉州師范學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 泉州 362000)
傳統(tǒng)的機(jī)器學(xué)習(xí)側(cè)重于研究單一任務(wù),假設(shè)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)服從同樣的概率分布,然而實(shí)際中這一條件往往無(wú)法滿(mǎn)足,且對(duì)于不同任務(wù)的研究較少,這些就需要遷移學(xué)習(xí).它可以從現(xiàn)有的任務(wù)中學(xué)習(xí)知識(shí)和技能用于將來(lái)的任務(wù).然而使用遷移學(xué)習(xí)則要承擔(dān)負(fù)遷移的風(fēng)險(xiǎn).本文介紹在增強(qiáng)學(xué)習(xí)、多任務(wù)學(xué)習(xí)和歸納學(xué)習(xí)中避免負(fù)遷移的方法.
遷移學(xué)習(xí);避免負(fù)遷移;任務(wù)相關(guān);綜述
漢語(yǔ)拼音的學(xué)習(xí)有助于學(xué)習(xí)英語(yǔ)發(fā)音;英語(yǔ)的學(xué)習(xí)有助于學(xué)習(xí)法語(yǔ);練短跑有助于提高三級(jí)跳成績(jī)等.人們很早就懂得運(yùn)用已掌握的知識(shí)和技能學(xué)習(xí)新任務(wù).不同人的學(xué)習(xí)能力不同,隨著知識(shí)的積累,一般成人的學(xué)習(xí)能力比小孩高.而提高機(jī)器的學(xué)習(xí)能力則要使機(jī)器學(xué)習(xí)的能力不斷提高,繼承和發(fā)展過(guò)去已掌握的知識(shí)和技能,實(shí)現(xiàn)增量學(xué)習(xí).但正如Porter和Duncan[1]的研究發(fā)現(xiàn)在A到B之間遷移有效,但A到BR之間就有害,及“一朝被蛇咬,十年怕井繩”.這些都表明負(fù)遷移的存在及其危害.
目前遷移學(xué)習(xí)在機(jī)器學(xué)習(xí)的一些領(lǐng)域,如神經(jīng)網(wǎng)絡(luò)、層次貝葉斯、增強(qiáng)學(xué)習(xí)、多任務(wù)學(xué)習(xí)和歸納學(xué)習(xí)的研究已經(jīng)取得了一定的進(jìn)展.為了促進(jìn)遷移學(xué)習(xí)在其他機(jī)器學(xué)習(xí)上的推廣,預(yù)防負(fù)遷移,這篇文章我們討論負(fù)遷移及其預(yù)防機(jī)制.主要討論其在增強(qiáng)學(xué)習(xí)、多任務(wù)學(xué)習(xí)和歸納學(xué)習(xí)上的避免方法.
2.1 遷移學(xué)習(xí)和負(fù)遷移研究現(xiàn)狀
遷移學(xué)習(xí)來(lái)源于認(rèn)知科學(xué)[25],人們利用已掌握的經(jīng)驗(yàn)知識(shí)學(xué)習(xí)新事物,它包括行為遷移和知識(shí)遷移.在機(jī)器學(xué)習(xí)領(lǐng)域,不同時(shí)期由于不同的研究對(duì)象人們提出了不同名稱(chēng)的遷移學(xué)習(xí).1995年,NIPS-95工作室提出“學(xué)會(huì)學(xué)習(xí)(learning to learn)”[23];Caruana“多任務(wù)學(xué)習(xí) (Multi-task learning)”[18];Raina“自學(xué)習(xí)(self-taught leaning)”[24]等.有些人提出了一些遷移學(xué)習(xí)研究的統(tǒng)一框架,如戴文淵——特征遷移[4]等.目前從事遷移學(xué)習(xí)的研究機(jī)構(gòu)有香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系,美國(guó)威斯康星大學(xué)(University of Wisconsin,USA)機(jī)器學(xué)習(xí)實(shí)驗(yàn)室,加利福尼亞伯克利分校和麻省理工學(xué)院等.在近幾年的頂級(jí)國(guó)際會(huì)議上,如ICML,ECML/ PKDD,KDD,IJCAI等和遷移學(xué)習(xí)相關(guān)的文章有不少,可參見(jiàn)香港科大的網(wǎng)頁(yè)[3].隨著認(rèn)知心理學(xué)等相關(guān)學(xué)科的發(fā)展,在未來(lái)的一段時(shí)間里,遷移學(xué)習(xí)將成為機(jī)器學(xué)習(xí)和人工智能研究領(lǐng)域的主要方向.
負(fù)遷移是遷移學(xué)習(xí)過(guò)程中不可回避的問(wèn)題.如會(huì)開(kāi)小汽車(chē)后學(xué)習(xí)開(kāi)大卡車(chē)就比較容易,但會(huì)騎自行車(chē)就要學(xué)開(kāi)大卡車(chē)就很困難.雖然都是車(chē),由于大卡車(chē)和小汽車(chē)的結(jié)構(gòu)、發(fā)動(dòng)和駕駛原理相似,但和自行車(chē)相差甚遠(yuǎn).同樣學(xué)習(xí)系統(tǒng)在一個(gè)新的場(chǎng)景中,如果套用原有場(chǎng)景的方法一味蠻干則會(huì)降低學(xué)習(xí)質(zhì)量.
2.2 相關(guān)概念定義
遷移學(xué)習(xí)的概念目前沒(méi)有嚴(yán)格統(tǒng)一的定義,按照NIPS2005對(duì)遷移學(xué)習(xí)的定義進(jìn)行描述.“Transfer Learning emphasizes the transfer ofknowledge across domains,tasks,and distributions that are similar but not the same.”遷移學(xué)習(xí)強(qiáng)調(diào)的是在相似但不同的領(lǐng)域、任務(wù)和分布之間知識(shí)的遷移.
源任務(wù)指機(jī)器已掌握的相對(duì)于新任務(wù)不同的數(shù)據(jù)集.
目標(biāo)任務(wù)指機(jī)器要學(xué)習(xí)的新任務(wù)的數(shù)據(jù)集.
負(fù)遷移,在機(jī)器學(xué)習(xí)領(lǐng)域還沒(méi)有給出嚴(yán)格的定義.在此,我們定義為:舊的知識(shí)或經(jīng)驗(yàn)阻礙或干擾新任務(wù)的學(xué)習(xí).
遷移學(xué)習(xí)的三個(gè)要素是:What to transfer;How to transfer;When to transfer,即遷移什么,怎樣遷移和什么時(shí)候遷移.人們從縱多的經(jīng)驗(yàn)知識(shí)中選擇適合于新任務(wù)的知識(shí),要能在合適的時(shí)間用合適的方法遷移挑選的舊知識(shí)于新知識(shí)中.遷移的內(nèi)容從認(rèn)知科學(xué)的角度包括知識(shí)和行為;遷移的方法Robins[25]指“analogy,skill transfer and metaphor”——類(lèi)推,行為遷移和比喻.這對(duì)于人來(lái)說(shuō)尚且不易,更不要說(shuō)是機(jī)器.在機(jī)器進(jìn)行遷移學(xué)習(xí)的過(guò)程中,如果候選任務(wù)選擇不當(dāng)或遷移的內(nèi)容不當(dāng)或遷移時(shí)機(jī)不當(dāng)都會(huì)造成負(fù)遷移.在避免負(fù)遷移的研究中仍有許多問(wèn)題值得探討,在此按照以下三方面討論:(1)排除有害信息(2)度量任務(wù)相似度(3)選擇源任務(wù).
Table1:Approaches to avoid negative transfer
Table2:Different settings of negative transfer
3.1 排除有害信息
排除有害信息是避免負(fù)遷移的重要方法之一.對(duì)于相似度極高的源目標(biāo)任務(wù),學(xué)習(xí)系統(tǒng)可能忽略目標(biāo)任務(wù)的特定屬性,進(jìn)行簡(jiǎn)單的模仿,由此降低系統(tǒng)的性能.在增強(qiáng)學(xué)習(xí)中,存在多系統(tǒng)或多任務(wù)交互的情況,代理遷移先前學(xué)習(xí)的知識(shí)如策略或Q值時(shí),可能采用原有單一系統(tǒng)的方法,這樣就會(huì)造成負(fù)遷移.在交互任務(wù)中,學(xué)習(xí)系統(tǒng)要能夠排除來(lái)自于自身環(huán)境或外來(lái)任務(wù)的干擾或有害的信息,才能進(jìn)行有效地遷移學(xué)習(xí).
對(duì)于相似度極高的兩個(gè)任務(wù),遷移學(xué)習(xí)有時(shí)會(huì)阻礙學(xué)習(xí)系統(tǒng)的性能,Rosenstein和Marx[8]給出了使用目標(biāo)任務(wù)中的少量數(shù)據(jù)來(lái)檢測(cè)和避免負(fù)遷移的方法.他們提出層次樸素貝葉斯方法,在假設(shè)兩個(gè)任務(wù)具有相同的超驗(yàn)分布,未知的均值和小方差,計(jì)算小樣本的后驗(yàn)概率.樸素貝葉斯和分層體制結(jié)合,用來(lái)檢測(cè)和避免負(fù)遷移,簡(jiǎn)潔有效地判斷是否進(jìn)行遷移.不足在于,他們?yōu)檫m應(yīng)Dirichlet分布為所有用戶(hù)設(shè)置一個(gè)共享參數(shù),但Dirichlet分布不適用于任意的雙峰分布,該模型無(wú)法處理多于一個(gè)任務(wù)的聚類(lèi).Roy和Kaelbling[28]提出Dirichlet過(guò)程混合模型,解決了這一問(wèn)題.
在大規(guī)模順序決策問(wèn)題上,增強(qiáng)學(xué)習(xí)的解決方法之一是關(guān)系強(qiáng)化學(xué)習(xí).學(xué)習(xí)系統(tǒng)通過(guò)代理與環(huán)境中的其它系統(tǒng)交互.但對(duì)于復(fù)雜的場(chǎng)景代理要選擇一個(gè)最優(yōu)策略也是很困難的.Croonenborghs等人[16]試圖在關(guān)系強(qiáng)化學(xué)習(xí)中學(xué)習(xí)關(guān)系抉擇(relational options)進(jìn)行歸納遷移.他們構(gòu)造一個(gè)擴(kuò)展的抉擇框架用于分層關(guān)系抽?。╤ierarchical relational abstractions)來(lái)學(xué)習(xí)相似但不同的域.他們按照行為的形式遷移知識(shí),將這些行為表示成關(guān)系抉擇,并設(shè)定初始和結(jié)束條件及策略.顯然,用Q函數(shù)(Q-function)代替最優(yōu)策略表示上容易多,只要確定“狀態(tài)——?jiǎng)幼鳌毙蛄星蟪鯭值(Q-value),構(gòu)造決策樹(shù)就能確定下一步的動(dòng)作.
Torrey等[19,20]提出征求建議來(lái)決定遷移源任務(wù)中的知識(shí)到目標(biāo)任務(wù)中的方法.通過(guò)征求建議,遷移了共同知識(shí),摒棄了不合理知識(shí)對(duì)目標(biāo)任務(wù)的干擾.文中涉及的系統(tǒng)使用歸納邏輯程序涉及來(lái)分析源任務(wù)中的技能,根據(jù)遷移規(guī)則來(lái)決定采取什么行為.
3.2 度量任務(wù)相似度
任務(wù)或域的相似性度量是一個(gè)很難的問(wèn)題,辨別新舊任務(wù)或域之間的相似點(diǎn)和相似程度,以確定是否進(jìn)行遷移及遷移什么.針對(duì)不同的域和任務(wù),人們提出了各種嘗試,經(jīng)過(guò)十幾年的研究,任務(wù)相似度的度量有了一定的進(jìn)展.Silver等人[26],1996年,提出了基于相似度度量地使用動(dòng)態(tài)學(xué)習(xí)比率的任務(wù)知識(shí)的并行遷移.
Thrun和O’Sullivan等[13]為我們介紹了任務(wù)聚類(lèi)的算法,幫助我們識(shí)別內(nèi)在相關(guān)的任務(wù).它有助于在多任務(wù)學(xué)習(xí)時(shí),規(guī)避不相關(guān)任務(wù)帶來(lái)的風(fēng)險(xiǎn)和潛在的誤導(dǎo),增強(qiáng)學(xué)習(xí)系統(tǒng)的魯棒性.在同一個(gè)聚類(lèi)中,如果從任務(wù)N遷移的知識(shí)越有助于改善學(xué)習(xí)系統(tǒng)學(xué)習(xí)任務(wù)M,則說(shuō)明這兩個(gè)任務(wù)越相關(guān).任務(wù)聚類(lèi)算法共三步:(1)對(duì)于每一組任務(wù)N和M:計(jì)算從任務(wù)M遷移的知識(shí)對(duì)任務(wù)N的性能增益;(2)在每個(gè)任務(wù)聚類(lèi)中最大化性能增益,將所有任務(wù)安排在一個(gè)更小的聚類(lèi)中;(3)如果一個(gè)新任務(wù)來(lái)臨,決定最相似的聚類(lèi).從該類(lèi)的某任務(wù)中選擇性地遷移知識(shí).對(duì)于每個(gè)新遇到的新任務(wù),通過(guò)任務(wù)聚類(lèi)算法,找到其所在聚類(lèi),根據(jù)該聚類(lèi)的特征學(xué)習(xí)新任務(wù),有效地實(shí)現(xiàn)知識(shí)和技能的遷移.[10]Bakker等人也在貝葉斯的多任務(wù)學(xué)習(xí)上進(jìn)行任務(wù)聚類(lèi)和控制來(lái)避免負(fù)遷移.
多任務(wù)學(xué)習(xí)是同時(shí)學(xué)習(xí)相關(guān)的任務(wù),遷移學(xué)習(xí)是先學(xué)習(xí)一個(gè)相似但不同的源任務(wù)再將源任務(wù)中的知識(shí)遷移到目標(biāo)任務(wù).Ben-David和Schuler[9]在多任務(wù)學(xué)習(xí)中研究具有共同特征的相關(guān)任務(wù)集,并提出了針對(duì)相關(guān)任務(wù)的數(shù)據(jù)生成框模型及誤差界限.根據(jù)數(shù)據(jù)生成模型,學(xué)習(xí)者可以計(jì)算任務(wù)屬性值.如果任務(wù)P和T之間對(duì)于任意屬性Tri有P(Tri)=T(F(Tri)),則稱(chēng)任務(wù)P和T滿(mǎn)足函數(shù)F相似,則這兩個(gè)任務(wù)稱(chēng)為相關(guān)任務(wù).這為任務(wù)相關(guān)又提供了一種改進(jìn)的度量方法.不足之處在于,要找到函數(shù)F不易.
Carroll和Seppi[17],2005年在增強(qiáng)學(xué)習(xí)任務(wù)庫(kù)中,根據(jù)遷移方法的不同提出了任務(wù)相似性的度量的指標(biāo),包括時(shí)間、策略覆蓋、Q值和獎(jiǎng)賞結(jié)構(gòu)分別用dT,dP,dQ,和dR表示.
Mahmud和Ray[6]從貝葉斯的角度來(lái)逼近計(jì)算任務(wù)相似度.他們使用條件Kolmogorov復(fù)雜性的假設(shè),巧妙地解決了任務(wù)相似度地度量.條件的Kolmogorov復(fù)雜性的輸入變量是h’,輸出變量是h,其概率分布式K(h|h’),用來(lái)衡量輸入對(duì)輸出的積極信息.對(duì)于目標(biāo)任務(wù),它的先驗(yàn)概率來(lái)自于源任務(wù)的學(xué)習(xí),因此計(jì)算每個(gè)候選項(xiàng)的概率P(·|h’)=2-K(·|h’),從而決定目標(biāo)任務(wù)要從源任務(wù)重遷移適當(dāng)?shù)男畔⒘?該方法的特點(diǎn)是一先驗(yàn)概率的計(jì)算容易;二能達(dá)到預(yù)先的目的——合理的遷移先驗(yàn)知識(shí)比不遷移先驗(yàn)知識(shí)的好.
3.3 選擇源任務(wù)
遷移的知識(shí)各種各樣,如增強(qiáng)學(xué)習(xí)中的值函數(shù)或啟發(fā)式信息或關(guān)系.學(xué)習(xí)系統(tǒng)在遇到新任務(wù)時(shí),存在某個(gè)遷移的知識(shí)點(diǎn)上有多個(gè)候選任務(wù)同時(shí)可以進(jìn)行遷移.如果學(xué)習(xí)系統(tǒng)沒(méi)有篩選候選任務(wù),可能因此造成負(fù)遷移.
當(dāng)面對(duì)多任務(wù)時(shí),增強(qiáng)學(xué)習(xí)中代理做出正確的抉擇很困難.Talvitie等人[21]使用直接的方法——基于Markov過(guò)程理論的隨機(jī)動(dòng)態(tài)系統(tǒng)的最優(yōu)決策過(guò)程(Markov Decision Process,MDP)來(lái)遷移.首先,對(duì)于每個(gè)候選項(xiàng),在目標(biāo)任務(wù)上在固定的時(shí)間內(nèi)運(yùn)行MDP并按照它們的性能排序;其次,從前一次的排序結(jié)果中選出最優(yōu)策略繼續(xù)執(zhí)行;比較第i次與第i+1次的最優(yōu)策略,如果第i+1次比第i次來(lái)得差,則結(jié)束.對(duì)于問(wèn)題規(guī)模大的情況,該方法盡管費(fèi)時(shí),但簡(jiǎn)單實(shí)用.此外,MDP具備完善的理論和評(píng)估指標(biāo).
在計(jì)算機(jī)和數(shù)學(xué)領(lǐng)域,圖是構(gòu)建實(shí)體關(guān)系的工具.Kuhlmann和Stone[22]、Dai等人[4]和Eaton等人[7]在遷移學(xué)習(xí)的研究上葉提出構(gòu)造圖來(lái)表示任務(wù)和規(guī)則.他們都提出基于來(lái)實(shí)現(xiàn)學(xué)習(xí)的遷移,但實(shí)現(xiàn)上卻有所不同.Kuhlmann和Stone[22]是尋求同構(gòu)空間中的匹配,描述的是規(guī)則圖.節(jié)點(diǎn)代表一條規(guī)則中的邏輯語(yǔ)句、相關(guān)語(yǔ)句、常量和變量.順序邊連接的時(shí)連續(xù)的變量,為約束添加邊描述其前后因.通過(guò)計(jì)算目標(biāo)任務(wù)和舊任務(wù)的規(guī)則圖是否同構(gòu),尋找同構(gòu)的舊任務(wù)進(jìn)行值函數(shù)遷移.
Dai等人[4]提出針對(duì)遷移學(xué)習(xí)的統(tǒng)一框架,描述的是任務(wù)圖.實(shí)例、特征和標(biāo)簽作為節(jié)點(diǎn),邊連接目標(biāo)任務(wù)和輔助數(shù)據(jù).通過(guò)學(xué)習(xí)任務(wù)圖的頻譜可以獲取其所有節(jié)點(diǎn)的特征空間表示.作者還提出了“特征聚類(lèi):用于遷移學(xué)習(xí)的統(tǒng)一框架”算法,用于進(jìn)行目標(biāo)聚類(lèi)任務(wù).特征遷移框架可以有效地解決跨域?qū)W習(xí)、跨分類(lèi)學(xué)習(xí)、自學(xué)習(xí)三類(lèi)典型的遷移學(xué)習(xí)問(wèn)題.
Eaton等人[7]對(duì)候選任務(wù)間的遷移關(guān)系建模,通過(guò)在一個(gè)圖中嵌入已學(xué)的源模型集合用于遷移性的度量.遷移到一個(gè)新的問(wèn)題,通過(guò)把這個(gè)問(wèn)題映射成一個(gè)圖.在這個(gè)圖上學(xué)習(xí)一個(gè)函數(shù),自動(dòng)確定轉(zhuǎn)移到新任務(wù)的參數(shù).該方法類(lèi)似于歸納遷移,沿著流形獲取任務(wù)間的遷關(guān)系.它直接對(duì)候選源任務(wù)間的關(guān)系建模,可以確保從多個(gè)候選任務(wù)中自動(dòng)選擇相關(guān)信息遷移,避免人工選擇源任務(wù)帶來(lái)的負(fù)遷移.
遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的重要研究方向,負(fù)遷移是遷移學(xué)習(xí)過(guò)程中必須面對(duì)的問(wèn)題.遷移學(xué)習(xí)在增強(qiáng)學(xué)習(xí)、多任務(wù)學(xué)習(xí)、貝葉斯學(xué)習(xí)和歸納學(xué)習(xí)的研究已開(kāi)展一段時(shí)間,這篇文章從三個(gè)方面介紹了它們避免負(fù)遷移的途徑——排除有害信息、度量任務(wù)相似度和選擇源任務(wù).希望通過(guò)對(duì)負(fù)遷移避免方法的探討,有助于機(jī)器學(xué)習(xí)領(lǐng)域其他學(xué)習(xí)的遷移.此外,任務(wù)或域映射是與負(fù)遷移密切相關(guān)的問(wèn)題,映射技術(shù)的提高有助于避免負(fù)遷移,是今后研究的一個(gè)方向.
〔1〕LW Porter,CP Duncan Negative Transfer in VerbalLearning [J].JournalofExperimental Psychology,1953.
〔2〕Sinno J.Pan,Qiang Yang.A Survey on Transfer Learning[C].IEEE Transactions on Knowledge and Data Engineering,2009,Vol.99,No.1.
〔3〕http://www.cse.ust.hk/~sinnopan/conferenceTL. htm.
〔4〕Wenyuan Dai,Gui-Rong Xue,Qiang Yang,Yong Yu,EigenTransfer:A Uni?ed Framework for Transfer Learning[C].Proceedings of the 26th International Conference on Machine Learning, 2009.
〔5〕Z.Marx, M.T.Rosenstein, L.P.Kaelbling,and T.G.Dietterich.Transfer learning with an ensemble of background tasks[C].In NIPS Workshop on Transfer Learning,2005.
〔6〕M.M.H.Mahmud and S.R.Ray.Transfer learning using kolmogorov complexity:Basic theory and empirical evaluations[C].Proceedings of Cambridge,MA:MIT Press,2008.985–992.
〔7〕E.Eaton,M.desJardins,and T.Lane.Modeling transfer relationships between learning tasks for improved inductive transfer[C].In Machine Learning and Knowledge Discovery in Databases,European Conference,2008.
〔8〕M.T.Rosenstein,Z.Marx,and L.P.Kaelbling.To transfer or not to transfer[C].In a NIPS-05Workshop on Inductive Transfer:10Years Later,December 2005.
〔9〕S.Ben-David and R.Schuller.Exploiting task relatedness for multiple task learning[C].In Proceedings of the Sixteenth Annual Conference on Learning Theory.San Francisco: Morgan Kaufmann,2003.825–830.
〔10〕B.Bakker and T.Heskes.Task clustering and gating for Bayesian multitask learning [J]. Journal of Machine Learning Reserch,vol.4. pp.83-99,2003.
〔11〕A.Argyriou,A.Maurer,and M.Ponti.An algorithm for transfer learning in a heterogeneous environment[C].Proceedings of Machine Learning and Knowledge Discovery in Databases,European Conference[C].ECML/PKDD,2008,ser. Lecture Notes in Computer Science.Antwerp, Belgium:springer,September 2008,pp.71–85.
〔12〕Jonathan Baxter.A model of inductive bias learning [J].Journal of Artificial Intelligence Research,12:149–198,2000.
〔13〕Sebastian Thrun,Joseph O’Sullivan.Clustering Learning Tasks and The Selective Cross-Task Transfer of Knowledge[M].1995.In S.Thrun and L.Y.Pratt (eds),editors,Learning To Learn, chapter 10.Kluwer Academic Publisher,1998.
〔14〕L.Torrey and J.Shavlik.Transfer Learning [M].In E.Soria,J.Martin,R.Magdalena, M.Martinez and A.Serrano,editors,Handbook of Research on Machine Learning Applications,IGI Global 2009.PP242-261.
〔15〕Matthew E.Taylor,PeterStone.Transfer Learning in Reinforcement Learning Domains: A Survey[J].Journal of Machine Learning Research,10(2009).PP.1633-1685.
〔16〕T.Croonenborghs,K.Driessens,andM.Bruynooghe. Learning relational skills for inductive transfer in relational reinforcement learning[C].In International Conference on Inductive Logic Programming,2007.
〔17〕C.Carroll and K.Seppi.Task similarity measuresfortransferin reinforcementlearning task libraries[C].In IEEE International Joint Conference on Neural Net-works,2005.
〔18〕R.Caruana.Multi-task learning[J].Machine Learning.1997,28(1):141-75.
〔19〕L.Torrey,T.Walker,J.Shavlik,and R.Maclin [C].Using Advice to Transfer Knowledge Acquired in One Reinforcement Learning Task to Another.Proceedings of the 16th European Conference on Machine Learning,2005.
〔20〕L.Torrey,J.Shavlik,T.Walker,and R.Maclin. Relational Skill Transfer via Advice Taking[C]. ICML Workshop on StructuralKnowledge Transfer for Machine Learning,2006.
〔21〕E.Talvitie and S.Singh.An expertsalgorithm for transfer learning[C].In International Joint Conference on Artificial Intelligence,2007.
〔22〕G.Kuhlmann and P.Stone.Graph-based domain mapping for transfer learning in general games[C].In European Conference on Machine Learning,2007.
〔23〕http://www-2.cs.cmu.edu/Groups/NIPS/NIPS95/
〔24〕Rajat Raina,Alexis Battle,Honglak Lee,Benjamin Packer and Andrew Y.Ng.Self-taught Learning:TransferLearning from Unlabeled Data[C].ICML2007.
〔25〕Anthony Robins.Transfer in Cognition [J]. Connection Scinece,Vol.8,No.2,1996.
〔26〕Daniel L.Silver,Robert E.Mercer.The Parallel Transfer of Task Knowledge Using Dynamic Learning Rates Based on a measure of Relatedness [J].Connection Science,Vol.8, No.2,1996.
〔27〕http://multitask.cs.berkeley.edu/.
〔28〕Daniel M.Roy and Leslie P.Kaelbling.Efficient Bayesian Task-Level Transfer Learning[C].Proceedings of the Twentieth International Joint Conference on Artificial Intelligence,2007.
TP274.1
A
1673-260X(2010)08-0039-04