国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自動(dòng)化特征工程綜述

2023-04-19 06:39:00吳勇宣謝志偉石勝飛
關(guān)鍵詞:特征選擇特征性能

吳勇宣, 韓 珣, 謝志偉, 石勝飛

(1 哈爾濱工業(yè)大學(xué) 計(jì)算學(xué)部, 哈爾濱 150001; 2 四川警察學(xué)院 智能警務(wù)四川省重點(diǎn)實(shí)驗(yàn)室, 四川 瀘州 646000;3 黑龍江農(nóng)墾職業(yè)學(xué)院, 哈爾濱 150025)

0 引 言

伴隨著多種多樣的數(shù)據(jù)采集方式的發(fā)展與使用,海量數(shù)據(jù)的產(chǎn)生速度正在加快。 近年來,機(jī)器學(xué)習(xí)發(fā)展迅速,就需要基于機(jī)器學(xué)習(xí)的數(shù)據(jù)模型來分析和預(yù)測(cè)科研和工業(yè)領(lǐng)域中的大批量數(shù)據(jù)。 在預(yù)測(cè)模型中,特征工程是機(jī)器學(xué)習(xí)的一個(gè)極具挑戰(zhàn)性的研究方向,對(duì)于提高模型準(zhǔn)確性起著至關(guān)重要的作用[1]。 特征工程是將已給定的學(xué)習(xí)任務(wù)中的原始特征空間轉(zhuǎn)換來提高模型的性能,在圖像[2]、音頻[3]和廣告[4]等許多領(lǐng)域都得到了廣泛應(yīng)用。 但是,在特征工程中的應(yīng)用實(shí)踐中,面臨著很多問題,具體闡釋如下:

(1)時(shí)間花銷大:在機(jī)器學(xué)習(xí)任務(wù)模型中,傳統(tǒng)特征工程常常會(huì)占用超過一半的時(shí)間和計(jì)算資源。

(2)需要領(lǐng)域經(jīng)驗(yàn):在特定領(lǐng)域,需要人工把領(lǐng)域經(jīng)驗(yàn)添加到特征空間中,工作量大且不可擴(kuò)展。

(3)任務(wù)需求量大:機(jī)器學(xué)習(xí)模型的爆發(fā)性增量需求,使得特征工程任務(wù)量變大,再由人工參與所有特征工程任務(wù)跡近不可能。

因此,特征工程的自動(dòng)化應(yīng)運(yùn)而生,自動(dòng)化特征工程(Automated Feature Engineering)是自動(dòng)化機(jī)器學(xué)習(xí)(Automated Machine Learning)[5]中的一個(gè)重要方向,其目的在于無需使用領(lǐng)域知識(shí)以及人工參與的情況下,就能自動(dòng)生成高質(zhì)量的特征來提高數(shù)據(jù)模型的性能。 自動(dòng)化特征工程可實(shí)現(xiàn)機(jī)器學(xué)習(xí)任務(wù)流程的部分自動(dòng)化,改善可操作性,且省去大量人工參與時(shí)間,從而提高效率。

在時(shí)間維度上,早期的自動(dòng)化特征工程研究雖然未能創(chuàng)建一個(gè)實(shí)現(xiàn)多元化測(cè)量與評(píng)估的框架,但也在眾多分支領(lǐng)域上取得了不小的進(jìn)展[6-15]。 近年來,陸續(xù)涌現(xiàn)出許多自動(dòng)化特征工程框架[16-23],能夠?yàn)闄C(jī)器學(xué)習(xí)模型目標(biāo)行為的捕捉預(yù)測(cè)和預(yù)測(cè)性能的提升提供了基礎(chǔ)數(shù)據(jù),也使得工業(yè)問題的決策流程變得更為順暢高效[24-31],還為特征工程的一些問題給出了標(biāo)準(zhǔn)化的執(zhí)行步驟[32-36],不僅降低了任務(wù)的計(jì)算資源消耗、而且省去了人工添加特征。 本文主要圍繞自動(dòng)化特征工程中3 種方案,分別是:基于擴(kuò)張縮減(Expansion-reduction)的策略,以進(jìn)化為中心(Evolution -centric) 的策略和性能引導(dǎo)搜索(Performance-based exploration)的策略。 對(duì)此擬展開研究論述如下。

1 基于擴(kuò)張縮減的策略

特征生成的方法之一是把所有轉(zhuǎn)換簡(jiǎn)單地應(yīng)用于所有的數(shù)據(jù),并對(duì)所有生成的特征空間進(jìn)行求和,這將導(dǎo)致特征空間生成大量特征,雖然其中一部分特征可以對(duì)任務(wù)目標(biāo)有效果提升作用,但是訓(xùn)練模型若要使用這種龐大的特征空間去進(jìn)行訓(xùn)練卻極為困難。 基于此,就可應(yīng)用特征選擇方法來篩選特征空間,該方法則稱為擴(kuò)張縮減法。 擴(kuò)張縮減的設(shè)計(jì)結(jié)構(gòu)如圖1 所示。

圖1 擴(kuò)張縮減結(jié)構(gòu)圖Fig. 1 The expansion-reduction architecture

該方法的早期經(jīng)典模型有FICUS[37],模型的擴(kuò)張過程是通過定義運(yùn)算函數(shù)(加法、減法、乘法和除法等)來形成潛在特征空間,縮減過程將使用信息增益引導(dǎo)波束搜索。 早期的擴(kuò)張縮減模型只能生成相對(duì)簡(jiǎn)單的新特征,并不能生成高階特征組合,這也限制了后續(xù)機(jī)器學(xué)習(xí)模型任務(wù)的性能。

大多數(shù)的擴(kuò)張縮減模型采用預(yù)定義的運(yùn)算函數(shù)生 成 特 征。 Kanter 等 人[38]提 出 Deep Feature Synthesis(DFS),DFS 的擴(kuò)張過程是使用一組預(yù)定義的運(yùn)算函數(shù),用于連接表和構(gòu)建新特征,縮減過程是使用截?cái)嗥娈愔捣纸猓═runcated SVD)進(jìn)行特征選擇。 該模型的不足即在于預(yù)定義的函數(shù)會(huì)用到所有的原始特征空間,因此模型計(jì)算時(shí)間相對(duì)較長(zhǎng)。 此后,DAFEE[39]對(duì)DFS 方法進(jìn)行了改進(jìn)。 在擴(kuò)張過程中,對(duì)實(shí)體之間的關(guān)系做連接合并等操作,如此一來則改善了DFS 不能生成部分復(fù)雜特征的弊端。

在擴(kuò)張縮減方法中,雖然大多數(shù)方法試圖通過構(gòu)造運(yùn)算函數(shù)和算子來生成優(yōu)質(zhì)特征,但近年來已有研究工作實(shí)現(xiàn)了通過分析特征間關(guān)系來生成特征。

AutoLearn[40]的擴(kuò)張過程是通過回歸分析特征對(duì)來生成相關(guān)特征,縮減過程是通過穩(wěn)定性搜索(Stability Based Selection)和信息增益算法篩選特征空間,該模型的局限性是回歸擬合未能考慮類別信息、即沒能挖掘不同類別中2 個(gè)特征間的不同關(guān)系。LBR[41]則對(duì)AutoLearn 進(jìn)行了改進(jìn)。 LBR 的擴(kuò)張過程是在回歸擬合特征對(duì)前,基于標(biāo)簽對(duì)特征進(jìn)行了分類、且一并考慮到特征對(duì)的類別信息,在縮減過程中, 使 用 最 大 信 息 系 數(shù)( Maximal Information Coefficient)進(jìn)行特征篩選,卻仍不能避免回歸擬合過程計(jì)算資源開銷過大的缺陷。

擴(kuò)張縮減法的特征生成方式總體上是構(gòu)建運(yùn)算函數(shù)或者回歸分析特征。 這些方式實(shí)現(xiàn)起來相對(duì)容易,代價(jià)是很難學(xué)習(xí)到不同的轉(zhuǎn)換方式去生成特征,同時(shí)因?yàn)樘卣鲾?shù)量的超線性復(fù)雜度,幾乎不可能去遞歸擴(kuò)張縮減模型。 所以擴(kuò)張縮減模型的性能優(yōu)劣也嚴(yán)重依賴于特征選擇模塊。 因此擴(kuò)張縮減模型在可伸縮性的層次上較為極端。

2 以進(jìn)化為中心的策略

和擴(kuò)張縮減方法相比,一次生成一個(gè)新特征,而后進(jìn)行訓(xùn)練和評(píng)估,由此確定新特征是否值得保留,這種方法叫做以進(jìn)化為中心法。 以進(jìn)化為中心的設(shè)計(jì)結(jié)構(gòu)如圖2 所示。 該方法雖比擴(kuò)張縮減方法更具有拓展性,但是在效率上卻更慢,因?yàn)榉椒ㄖ猩婕暗侥P偷挠?xùn)練和評(píng)估,以及可以生成的整個(gè)特征空間。而且由于生成特征的實(shí)踐成本并不低,使得該方法只有在未添加深度變換的情況才具有可行性。

圖2 以進(jìn)化為中心結(jié)構(gòu)圖Fig. 2 The evolution-centric architecture

該方法的早期模型有FEADIS[42]。 通過使用預(yù)定義的運(yùn)算函數(shù)生成潛在的特征空間,再使用貪婪算法從潛在的特征空間中隨機(jī)地選擇特征來做進(jìn)化,此后反復(fù)迭代,直到模型的性能不再提升為止。該方法的不足是多輪迭代需要耗費(fèi)大量的時(shí)間和計(jì)算資源。

以進(jìn)化為中心模型同樣有以預(yù)定義的運(yùn)算函數(shù)和算子生成特征的方法。 ExploreKit[43]模型提出一項(xiàng)使用可擴(kuò)展的多階算子生成特征和多維度信息排序以及迭代評(píng)估的框架,模型的特征生成部分是使用當(dāng)前特征空間的多階算子組合來生成大量候選特征,進(jìn)化過程是利用多維度指標(biāo)對(duì)特征排序逐一進(jìn)行評(píng)估。 該模型的重要性就在于該框架能學(xué)習(xí)到基于分類目標(biāo)的、從特征分布到特征工程方式的蘊(yùn)含經(jīng)驗(yàn)的多分類器。

同時(shí),神經(jīng)網(wǎng)絡(luò)也可以用來生成和進(jìn)化特征空間。 LFE[44]提出基于多層感知機(jī)分類器的自動(dòng)化特征工程模型。 LFE 可以從過去的經(jīng)驗(yàn)中學(xué)習(xí)轉(zhuǎn)換方法的有效性,考查所有特征組合的隨機(jī)樣本為,每個(gè)組合找到范例,并進(jìn)化出最有用的特征。 該方法的不足之處主要表現(xiàn)在只能適用于分類數(shù)據(jù)集中。

以進(jìn)化為中心的方法中,也有實(shí)現(xiàn)分析特征間關(guān)系 的 研 究 成 果。 SAFE[45]的 特 征 生 成 采 用XGBoost 去挖掘特征之間的關(guān)系,利用信息增益比過濾特征組合,并使用預(yù)定義的算子生成特征,進(jìn)化部分采用皮爾森系數(shù)和平均增益來篩選特征,選擇良好特征去做迭代進(jìn)化。 該方法的分布式計(jì)算優(yōu)化可以緩解以進(jìn)化為中心的迭代時(shí)間消耗。

以進(jìn)化為中心的生成特征方式與擴(kuò)張縮減策略大致相似,而有關(guān)特征選擇的方式卻并不相同。 迭代處理雖然可以讓模型表現(xiàn)得更加優(yōu)秀,但相伴而生所帶來的時(shí)空復(fù)雜度和過擬合問題也不容忽視。因此以進(jìn)化為中心在復(fù)雜度的問題上較為極端。

3 性能引導(dǎo)搜索的策略

到目前為止,已經(jīng)討論了自動(dòng)化特征工程的2種方法,這2 種方法在生成新特征的數(shù)量和所需時(shí)間形成較大的對(duì)比,且由于2 種方法各自的局限性,都會(huì)面臨一定的性能瓶頸。 此外,上述2 種方法往往很難生成復(fù)雜的特征變換,這往往直接關(guān)系著新特征的質(zhì)量。 近年來,針對(duì)這些問題,又研發(fā)提出了性能引導(dǎo)搜索的策略。

性能引導(dǎo)搜索的基礎(chǔ)框架[46]是使用有向無環(huán)圖(DAG)的層次結(jié)構(gòu),也可以稱作變換圖。 該框架的作用是對(duì)給定的數(shù)據(jù)集通過變換圖系統(tǒng)地枚舉自動(dòng)化特征工程的方法,轉(zhuǎn)換圖的節(jié)點(diǎn)表示通過對(duì)數(shù)據(jù)集應(yīng)用變換函數(shù)來獲得不同形式的數(shù)據(jù)集,數(shù)據(jù)集轉(zhuǎn)換的過程就是把所有的轉(zhuǎn)換函數(shù)應(yīng)用于全部可能特征,同時(shí)生成多個(gè)附加特征,基于此再對(duì)可選特征進(jìn)行選擇和訓(xùn)練評(píng)估。

因此,性能引導(dǎo)搜索框架通過每個(gè)轉(zhuǎn)換函數(shù)批量創(chuàng)建新特征,這在一定程度上可以視作就是擴(kuò)張縮減和以進(jìn)化為中心這2 種方法的中間體,避免了因極端策略導(dǎo)致的后果。 性能引導(dǎo)搜索的核心思想在于:完整的轉(zhuǎn)換圖本身將包含欲求解問題的全局解,但遍歷全圖的做法并不可取,因此框架將會(huì)選擇搜索精度的最高點(diǎn)。 RAAF[47]在探索方法上進(jìn)行了優(yōu)化,使用了模擬退火法啟發(fā)式的探索,從而優(yōu)化了性能引導(dǎo)搜索可能導(dǎo)致的過擬合結(jié)果。

性能引導(dǎo)搜索框架的重點(diǎn)不僅在于構(gòu)建轉(zhuǎn)換圖,還在于圖的搜索策略。 強(qiáng)化學(xué)習(xí)搜索策略可以依靠經(jīng)驗(yàn)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)優(yōu)化探索策略[48]。 把自動(dòng)化特征工程任務(wù)轉(zhuǎn)化為異構(gòu)轉(zhuǎn)換圖(HTG)的優(yōu)化問題,并在HTG 上使用了Q 學(xué)習(xí)來支持特征工程細(xì)粒度的高效探索,該方法還能將已有數(shù)據(jù)集的知識(shí)應(yīng)用到新的數(shù)據(jù)集上。 這種探索方式,會(huì)持續(xù)監(jiān)控在給定的轉(zhuǎn)換圖上應(yīng)用每個(gè)轉(zhuǎn)換操作所產(chǎn)生的性能改進(jìn)的獎(jiǎng)勵(lì),學(xué)習(xí)一種策略來優(yōu)化這種獎(jiǎng)勵(lì),而策略也相當(dāng)于行動(dòng)效用函數(shù)。 在優(yōu)化獎(jiǎng)勵(lì)的過程中,通過探查到行動(dòng)的及時(shí)回報(bào)來學(xué)習(xí)這種行動(dòng)效用函數(shù)。 CAFEM[49]在特征轉(zhuǎn)換圖的基礎(chǔ)上,使用了雙深度Q 學(xué)習(xí)(DDQN)的方法來做進(jìn)一步探索,通過深度神經(jīng)網(wǎng)絡(luò)估計(jì)狀態(tài)動(dòng)作值以及貪婪的方法獲取接下來的動(dòng)作。

性能引導(dǎo)搜索的重點(diǎn)則在于探索策略的訓(xùn)練。因?yàn)橥暾淖儞Q圖是包含問題的全局解,但同時(shí)也是無界的。 探索策略直接決定最終模型的復(fù)雜度和特征質(zhì)量。 目前的強(qiáng)化學(xué)習(xí)探索方式主要是Q 學(xué)習(xí)。 Q 學(xué)習(xí)在缺乏明確探索行為的情況下可以不斷學(xué)習(xí)其他算法。 這種方式也稱為學(xué)會(huì)學(xué)習(xí)(learning to learn)或者元學(xué)習(xí)(meta-learning)[50]。

4 自動(dòng)化特征工程研究評(píng)析

自動(dòng)化特征工程在計(jì)算和決策方面都具有較強(qiáng)的挑戰(zhàn)性,不僅因?yàn)榭梢詷?gòu)造的預(yù)選特征數(shù)量是無限的,而且也因?yàn)橐獙?duì)每個(gè)新特征進(jìn)行訓(xùn)練和驗(yàn)證,這是代價(jià)非常昂貴的步驟,也是目前很多模型亟待解決的焦點(diǎn)問題。 由于代價(jià)昂貴,則只能設(shè)置一定的閾值就停止訓(xùn)練,而無法達(dá)到模型的性能上限。 即使在中等規(guī)模的數(shù)據(jù)集上,常規(guī)的以進(jìn)化為中心的自動(dòng)化特征工程模型都要幾天的時(shí)間才能完成。 更大的問題是,從一個(gè)評(píng)估試驗(yàn)到另一個(gè)評(píng)估試驗(yàn)的結(jié)果基本沒有可重用性。 以擴(kuò)張縮減的方法雖然可以避免多輪迭代,但是這種減少執(zhí)行次數(shù)來訓(xùn)練驗(yàn)證嘗試的方式本身就會(huì)存在可擴(kuò)展性的問題和速度瓶頸。

近兩年的自動(dòng)化特征工程的研究聚焦于性能引導(dǎo)搜索的策略,盡管此策略已經(jīng)展現(xiàn)出在可擴(kuò)展性和特征質(zhì)量方面的長(zhǎng)足優(yōu)勢(shì),但卻依然難以避免源于性能驅(qū)動(dòng)所導(dǎo)致的過擬合、以及隨即帶來的泛化問題。 由于現(xiàn)如今的數(shù)據(jù)量在不斷增加,對(duì)時(shí)間和空間的復(fù)雜性的要求很高,同時(shí)業(yè)務(wù)的快速變化也對(duì)模型的靈活性和擴(kuò)展性提出了更高的要求,因此,自動(dòng)化特征工程還面臨著如下挑戰(zhàn):

(1)適用性:自動(dòng)化特征工程的工具需要讓非專家更方便地使用,因此,最終的模型應(yīng)該是具備優(yōu)良的用戶友好性。 此外,自動(dòng)化特征工程的算法性能不應(yīng)依賴大量的超參數(shù)優(yōu)化,而應(yīng)使算法能夠適配更多的數(shù)據(jù)集。

(2)高性能:考慮到自動(dòng)化特征工程模型在特征生成和特征選擇的過程中,時(shí)空復(fù)雜度很高,特征維數(shù)也較多,因此實(shí)現(xiàn)算法分布式計(jì)算來提高模型性能是必要、且重要的,這就使得在模型的特征生成和特征選擇部分要做到并行計(jì)算。

(3)解釋性:自動(dòng)化特征工程模型在實(shí)際的應(yīng)用中,高效益的新特征需要有可解釋性[51],而不是直接使用深度學(xué)習(xí)隱式的構(gòu)建特征,從而容易導(dǎo)致過擬合。

5 結(jié)束語

本文針對(duì)自動(dòng)化特征工程進(jìn)行探討研究。 首先介紹了自動(dòng)化特征工程的背景,接著根據(jù)自動(dòng)化特征工程的不同發(fā)展方向進(jìn)行了綜合論述,最后針對(duì)自動(dòng)化特征工程發(fā)展做了研究簡(jiǎn)析。 對(duì)于了解自動(dòng)化特征工程的發(fā)展脈絡(luò)有著一定借鑒和參考價(jià)值。

猜你喜歡
特征選擇特征性能
如何表達(dá)“特征”
提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
聯(lián)合互信息水下目標(biāo)特征選擇算法
Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
強(qiáng)韌化PBT/PC共混物的制備與性能
RDX/POLY(BAMO-AMMO)基發(fā)射藥的熱分解與燃燒性能
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
简阳市| 平谷区| 奉化市| 南康市| 鸡东县| 芦山县| 桐乡市| 忻城县| 台东县| 同江市| 惠安县| 班玛县| 图木舒克市| 毕节市| 三都| 盐山县| 蛟河市| 界首市| 建德市| 佛学| 福贡县| 耒阳市| 海安县| 林周县| 定南县| 石楼县| 漾濞| 浠水县| 阿合奇县| 石棉县| 大港区| 兴国县| 忻城县| 沧源| 邹平县| 大渡口区| 正蓝旗| 光泽县| 淄博市| 砀山县| 阳城县|