国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)驅(qū)動的應(yīng)用自適應(yīng)技術(shù)綜述

2022-11-12 11:28:50涂志瑩
計算機研究與發(fā)展 2022年11期
關(guān)鍵詞:決策規(guī)則驅(qū)動

代 浩 金 銘 陳 星 李 楠 涂志瑩 王 洋

1(中國科學(xué)院深圳先進(jìn)技術(shù)研究院 廣東深圳 518055) 2(福州大學(xué)計算機與大數(shù)據(jù)學(xué)院 福州 350108) 3(哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院 哈爾濱 150006)

應(yīng)用自適應(yīng)一直是軟件工程和服務(wù)計算中的一個熱點問題,Laddaga[1]和Salehie等人[2]給出了自適應(yīng)相對精確的定義:“自適應(yīng)系統(tǒng)旨在通過調(diào)整各種組件或?qū)傩?,以響?yīng)自身或是環(huán)境的變化.這里的自身是指軟件系統(tǒng),而環(huán)境則是指包含操作環(huán)境中影響系統(tǒng)行為和屬性的一切因素.因此自適應(yīng)系統(tǒng)是一個包含了自身和環(huán)境反饋的閉環(huán)系統(tǒng).”

傳統(tǒng)軟件自適應(yīng)往往討論的是單個軟件程序的自適應(yīng)過程,但當(dāng)今大數(shù)據(jù)時代的信息系統(tǒng)往往相當(dāng)復(fù)雜,已經(jīng)不再是一個以獨立應(yīng)用為主體的系統(tǒng),而是以多個應(yīng)用間的協(xié)同來實現(xiàn)一個服務(wù)的系統(tǒng),所以本文中討論的自適應(yīng)應(yīng)用是一個相對廣義上的服務(wù)計算系統(tǒng),如云服務(wù)系統(tǒng)、智慧家居系統(tǒng)、智慧交通系統(tǒng)、人臉識別系統(tǒng)等,這類系統(tǒng)往往具有多流程、多組件、多模態(tài)、分布式等特點,因此通過自適應(yīng)可調(diào)整的功能空間非常巨大、也更加復(fù)雜.因此,傳統(tǒng)的軟件自適應(yīng)系統(tǒng)(self-adaptive systems, SAS)主要從軟件的需求、結(jié)構(gòu)、行為、環(huán)境等方面考慮如何實現(xiàn)自適應(yīng),通過因果網(wǎng)絡(luò)、時序邏輯、概率模型以及控制論等方法,對系統(tǒng)和環(huán)境進(jìn)行建模和規(guī)劃.這些方法大部分基于軟件代碼或組件層面,在軟件設(shè)計和軟件配置過程中實現(xiàn)自適應(yīng)模塊.本文中我們則重點關(guān)注的是大型系統(tǒng)的環(huán)境感知和自適應(yīng)規(guī)劃,側(cè)重于從系統(tǒng)的流程、資源等方面實現(xiàn)自適應(yīng)管理系統(tǒng),利用這些分布式系統(tǒng)中的大量日志數(shù)據(jù)等實現(xiàn)自適應(yīng)感知和規(guī)劃.以一個典型的智慧家居應(yīng)用為例,應(yīng)用將在用戶設(shè)定的鬧鐘前30 min自動關(guān)閉空調(diào),并開始煮咖啡,當(dāng)咖啡煮好之后,打開臥室的燈光,并播放音樂喚醒用戶,接著在用戶離開臥室之后自動關(guān)閉燈光,并開始播放新聞.可以看出,這樣一個基礎(chǔ)的應(yīng)用是由多個不同的流程組合而成,這些流程是可以按照一定的規(guī)則重新組合的.同時,這個應(yīng)用所處的環(huán)境是充滿了不確定性的,如用戶提前起床、家里停水等,如何針對這種非確定性的運行環(huán)境來對流程進(jìn)行自適應(yīng),是本文重點探討的目標(biāo).

自適應(yīng)發(fā)生在對運行環(huán)境中發(fā)生的事件的反應(yīng)中,應(yīng)用可以在運行時改變自身流程,以便在不同的情況下為用戶提供高效、便捷的功能.系統(tǒng)需要自適應(yīng)的原因有很多,如用戶環(huán)境的狀態(tài)發(fā)生改變,需要不同的交互模式;由于服務(wù)調(diào)用失敗,導(dǎo)致應(yīng)用不再可用;由于臨時的高計算負(fù)載,計算設(shè)備的資源條件發(fā)生了變化等.現(xiàn)代信息系統(tǒng),包括物流分單系統(tǒng)、高頻交易系統(tǒng)、交通調(diào)度系統(tǒng)、自動駕駛系統(tǒng)等,這些系統(tǒng)的特點是需要持續(xù)保持運行態(tài),一旦服務(wù)宕機則將會造成難以估量的損失.對于物流、金融等應(yīng)用場景的應(yīng)用故障可能會造成直接的經(jīng)濟損失,而對于一些工業(yè)、交通等場景,甚至可能造成更嚴(yán)重的后果.而且,這些系統(tǒng)面對的場景是復(fù)雜多變的,比如物流系統(tǒng)中不規(guī)范的用戶輸入、交通調(diào)度中異常的行駛車輛等,更普遍的是,由于這些系統(tǒng)往往集成了以物聯(lián)網(wǎng)為代表的移動計算設(shè)備以及各種各樣的傳感器,導(dǎo)致大大增加了監(jiān)測設(shè)備故障和復(fù)雜網(wǎng)絡(luò)帶來的環(huán)境異常風(fēng)險.這些風(fēng)險在系統(tǒng)設(shè)計階段往往是難以預(yù)見的,所以如何在保障系統(tǒng)在正常運行的前提下,通過自適應(yīng)技術(shù)使得系統(tǒng)面對異常故障也能提供穩(wěn)定魯棒的正常服務(wù),是現(xiàn)代信息系統(tǒng)中亟待解決的問題.

簡而言之,應(yīng)用的自適應(yīng)旨在自動做出決策,使用戶不必手動地將應(yīng)用程序從一種操作模式切換到另一種操作模式.傳統(tǒng)自適應(yīng)往往需要預(yù)定義規(guī)則,而對于如今廣義的復(fù)雜系統(tǒng),人工預(yù)設(shè)規(guī)則意味著巨大的工作量.與此同時,預(yù)設(shè)規(guī)則式自適應(yīng)需要事先嵌入靜態(tài)的自適應(yīng)邏輯,其只能對固定范圍內(nèi)的環(huán)境變化做出反應(yīng),對于超出范圍的環(huán)境變化則缺乏適應(yīng)性.此外,這種方法需要設(shè)計者具備一定的專業(yè)領(lǐng)域知識,往往只能解決特定問題,泛化能力較弱.為了解決這些問題,數(shù)據(jù)驅(qū)動的方法近年來越來越受研究人員的重視.數(shù)據(jù)驅(qū)動并不依賴于系統(tǒng)的數(shù)學(xué)模型或?qū)<抑R,而是用數(shù)理統(tǒng)計和機器學(xué)習(xí)等方法來挖掘離線和在線數(shù)據(jù)中隱含的有用信息,提升自適應(yīng)系統(tǒng)的適用范圍和在線規(guī)劃能力,形成自動化的決策模型.數(shù)據(jù)驅(qū)動的應(yīng)用自適應(yīng)系統(tǒng)具有感知性、適應(yīng)性、自治性和協(xié)作性四大特點,對于系統(tǒng)的不確定性具有更強魯棒性.

1 自適應(yīng)驅(qū)動技術(shù)

應(yīng)用自適應(yīng)可以分為規(guī)則驅(qū)動和數(shù)據(jù)驅(qū)動2種類型[3].規(guī)則驅(qū)動即是利用相應(yīng)的專家領(lǐng)域知識進(jìn)行數(shù)學(xué)建模,預(yù)先生成固定的規(guī)則模型來進(jìn)行應(yīng)用自適應(yīng);數(shù)據(jù)驅(qū)動則不再依賴于已知的數(shù)學(xué)模型,而是直接從系統(tǒng)在線或離線的數(shù)據(jù)中獲取對應(yīng)的知識,因此,其對系統(tǒng)的先驗知識要求較少.規(guī)則驅(qū)動與數(shù)據(jù)驅(qū)動一個比較大的區(qū)別在于,規(guī)則驅(qū)動的系統(tǒng)模型是已知且可以預(yù)設(shè)的,而數(shù)據(jù)驅(qū)動往往將系統(tǒng)看作一個黑盒,算法并不關(guān)心系統(tǒng)內(nèi)部結(jié)構(gòu),而是通過輸入輸出數(shù)據(jù)訓(xùn)練出的數(shù)學(xué)模型來擬合系統(tǒng)模型.

1.1 規(guī)則驅(qū)動

規(guī)則驅(qū)動方法通常有2種:一種是方法通過標(biāo)準(zhǔn)的知識工程方法獲得的上下文知識,然后根據(jù)所獲得的知識,使用如基于邏輯的形式方法[4-5]來表示規(guī)則模型,將系統(tǒng)模型用抽象邏輯表示出來,利用形式推理技術(shù)來針對環(huán)境改變進(jìn)行自適應(yīng)決策.由于在自適應(yīng)的過程中存在著大量的不確定性,因此通過邏輯推理的優(yōu)點在于可以將這種不確定性形式化為確定的邏輯表達(dá)式,從而執(zhí)行對應(yīng)的自適應(yīng)規(guī)則.基于這個思路,Cámara等人[6]提出了一種通過推理來實現(xiàn)有人類參與的系統(tǒng)自適應(yīng)技術(shù).由于人類參與者的行為受到很多外部因素(如疲勞度、熟練度等)的影響會為系統(tǒng)帶來很大的不確定性,Cámara等人通過顯式建模的方法,將人類參與者和系統(tǒng)交互的影響因素通過邏輯語言形式化地表示出來,從而實現(xiàn)系統(tǒng)的自適應(yīng).進(jìn)一步地,Cámara等人在另一篇文獻(xiàn)[5]中還提出了一種形式化分析技術(shù)來量化考慮感知不確定性的潛在好處,并結(jié)合形式推理技術(shù)來改進(jìn)不確定性產(chǎn)生的影響.這種基于邏輯表達(dá)的方法雖然有著優(yōu)秀的可解釋性和魯棒性,但是對系統(tǒng)設(shè)計者的要求較高,并且需要結(jié)合一定的專業(yè)領(lǐng)域背景知識,因此難以被廣泛應(yīng)用.

另一種方法則是基于本體的建模方法,使用基于標(biāo)記語言的本體來描述相關(guān)的上下文知識[7],應(yīng)用從本體檢索到的知識來分析環(huán)境更改造成的影響,從而創(chuàng)建一個適應(yīng)計劃來響應(yīng)變更.從近幾年的文獻(xiàn)來看,基于本體建模方法因為具有一般性和可復(fù)用的特點,所以更受到研究者們的青睞[7-9].基于本體建模的自適應(yīng)方法,需要針對特定的應(yīng)用領(lǐng)域開發(fā)本體,來作為交互應(yīng)用模塊中機器可理解的知識庫.運行時決策模塊根據(jù)本體和收集到的信息推斷出新的事實,執(zhí)行對系統(tǒng)變化(包括外部環(huán)境變化或內(nèi)部狀態(tài)更改等)的反應(yīng)操作,如重新配置、申請資源、流程修改等,從而實現(xiàn)應(yīng)用的自適應(yīng).這種方法被廣泛運用于各種自適應(yīng)場景中,例如Chen等人[7]提出了一種基于知識驅(qū)動的智慧家居活動識別方法,該方法使用了基于描述邏輯的標(biāo)記語言來構(gòu)建本體,本體可以被看作是通過基于活動屬性在活動和上下文信息之間建立聯(lián)系的模型,該模型對傳感器數(shù)據(jù)和活動進(jìn)行統(tǒng)一的本體建模和表示,不僅方便了領(lǐng)域知識的重用,而且允許利用語義推理進(jìn)行活動識別.同樣,Evesti等人[8]也提出了一個用于安全自適應(yīng)的本體建模方法,與Chen等人提出的方法不同的是,這個方法將知識從自適應(yīng)架構(gòu)中分離出來,同時給出了從架構(gòu)到知識的映射,由于本體本身包含了自適應(yīng)的知識,這種安全自適應(yīng)方法不需要為分析和規(guī)劃階段做規(guī)則的硬編碼.Zhou等人[9]則將基于本體的建模方法應(yīng)用在工業(yè)控制領(lǐng)域,使用本體建模集成了一個知識驅(qū)動的自適應(yīng)控制模塊來監(jiān)測和分析應(yīng)用的變化,實現(xiàn)系統(tǒng)的自適應(yīng),開發(fā)人員通過特定領(lǐng)域模型來構(gòu)建控制系統(tǒng)的邏輯和功能,然后根據(jù)知識庫上的語義查詢增強的Web規(guī)則語言(semantic query-enhanced Web rule language, SQWRL)查詢自動推斷癥狀和動作請求,實現(xiàn)了一個用于自動重新配置的工業(yè)控制系統(tǒng).但是這種方法通常是預(yù)先計算和設(shè)計好了相關(guān)的領(lǐng)域知識,并不能隨著應(yīng)用的運行進(jìn)行自動化學(xué)習(xí),因此Huang等人[10]根據(jù)軟件定義網(wǎng)絡(luò)(software defined network, SDN)的設(shè)計原則和上下文認(rèn)知過程,提出了一種上下文驅(qū)動的智慧家居控制機制(smart home control mechanism, SHCM),通過將機器學(xué)習(xí)(machine learning, ML)算法和本體模型集成到上下文認(rèn)知過程中,提高了智慧家居控制系統(tǒng)的上下文感知自動化水平.該機制通過挖掘不同感知應(yīng)用中固有的多屬性上下文特征,建立隱含的聚類和關(guān)聯(lián)規(guī)則,并利用本體模型實現(xiàn)自動化的集成上下文管理,智能家居設(shè)備通過上下文驅(qū)動的控制策略在數(shù)據(jù)層實現(xiàn)上下文反饋.

規(guī)則驅(qū)動模型語義清晰,表示方法統(tǒng)一,無冷啟動問題,能建立可重用的模型,方便擴展到規(guī)模更大的環(huán)境中.但是,雖然規(guī)則驅(qū)動的方法具有較好的穩(wěn)定性,卻不能處理不確定性問題,它們使用的是基于一般知識的推理,如模糊邏輯和概率推理,而不是通過歷史數(shù)據(jù)來進(jìn)行統(tǒng)計分析,因此基于這類方法的自適應(yīng)系統(tǒng)對于實時環(huán)境變化的敏感性較差,但是可解釋性較好.

1.2 數(shù)據(jù)驅(qū)動

與規(guī)則驅(qū)動方法相比,數(shù)據(jù)驅(qū)動方法的強大之處在于其可以利用實時產(chǎn)生的海量數(shù)據(jù),來獲取系統(tǒng)的動態(tài)反饋,并據(jù)此進(jìn)行建模.數(shù)據(jù)驅(qū)動方法將數(shù)據(jù)進(jìn)行組織形成信息,之后對相關(guān)的信息進(jìn)行整合和提煉,在數(shù)據(jù)的基礎(chǔ)上經(jīng)過訓(xùn)練和擬合形成自動化的決策模型,當(dāng)有新的數(shù)據(jù)輸入、產(chǎn)生新情況時系統(tǒng)用之前擬合形成的模型和人工智能的方式直接進(jìn)行決策,因此數(shù)據(jù)驅(qū)動方法具有更好的魯棒性和適應(yīng)性[11].

目前主流的數(shù)據(jù)驅(qū)動方法主要是利用了機器學(xué)習(xí)從數(shù)據(jù)中建模,其中經(jīng)典的監(jiān)督學(xué)習(xí)方法有2種:一種是生成方法,它試圖建立輸入或數(shù)據(jù)空間的完整描述,通常使用諸如用于活動建模的Markov模型[12]和貝葉斯網(wǎng)絡(luò)[13]等概率分析方法.使用生成模型的好處在于可以為系統(tǒng)環(huán)境進(jìn)行建模,方便對系統(tǒng)環(huán)境進(jìn)行深入的分析,并設(shè)計出更加高效和可解釋的自適應(yīng)方法,例如將系統(tǒng)狀態(tài)的變遷擬合為一個Markov決策過程(Markov decision process, MDP),從而挖掘出不同系統(tǒng)狀態(tài)之間的關(guān)聯(lián).這種概率表示的方法有效降低了為復(fù)雜環(huán)境交互建模的難度,但同時也存在一個缺點,即每次環(huán)境變化時都需要重新構(gòu)造MDP.因此,Moreno等人[14-15]提出了一種在離線時構(gòu)造MDP、在線時通過隨機動態(tài)規(guī)劃進(jìn)行自適應(yīng)決策的方法,這種方法顯著地減少了在數(shù)據(jù)量級上自適應(yīng)的運行時間,并保證自適應(yīng)的結(jié)果一致.構(gòu)造MDP是需要在對于系統(tǒng)狀態(tài)有全面了解的前提下設(shè)計的,事實上大部分情況下設(shè)計者并不能獲得所有的環(huán)境信息,因此Paucar等人[16]提出了使用部分可觀測的Markov決策過程(partially observable Markov decision process, POMDP)對系統(tǒng)進(jìn)行建模的方法,根據(jù)監(jiān)測模塊的數(shù)據(jù)結(jié)合貝葉斯推理來生成和更新POMDP模型,進(jìn)而支撐系統(tǒng)自適應(yīng),這種方法擺脫了需要對運行環(huán)境整體進(jìn)行建模的前提,因而更具有現(xiàn)實意義和實用價值.當(dāng)然,這些方法都是通過調(diào)整概率模型參數(shù)的初始值來實現(xiàn)預(yù)測,所以主要缺點是模型在概率變量配置方面是靜態(tài)和主觀的.另一種則是判別方法,它只對從輸入數(shù)據(jù)到輸出活動標(biāo)簽的映射建模,判別方法包括許多分類方法,例如k近鄰(k-nearest neighbor, KNN)[17]、決策樹(decision tree, DT)[18]、支持向量機(support vector machine, SVM)[19]等.Li等人[20]基于數(shù)據(jù)驅(qū)動方法設(shè)計了一個對于個人健康活動進(jìn)行規(guī)劃和建議的自適應(yīng)應(yīng)用,通過聚類算法從歷史數(shù)據(jù)中識別出典型的活動模式以及目標(biāo),結(jié)合歷史數(shù)據(jù)的周期性預(yù)測目標(biāo)是否能夠?qū)崿F(xiàn),然后對實時數(shù)據(jù)應(yīng)用線性二次型調(diào)節(jié)器(linear quadratic regulator, LQR)算法實現(xiàn)活動流程的自適應(yīng)調(diào)整.Muccini等人[21]則提出了一種在基于機器學(xué)習(xí)的物聯(lián)網(wǎng)架構(gòu)中執(zhí)行主動自適應(yīng)的方法,該方法利用長短期記憶(long short-term memory, LSTM)[22]算法對長時依賴的敏感性,從傳感器的日志數(shù)據(jù)中識別出物聯(lián)網(wǎng)架構(gòu)中不同組件的模式來優(yōu)化系統(tǒng)的服務(wù)質(zhì)量(quality of service, QoS).Bao等人[23]針對分布式機器學(xué)習(xí)的工作負(fù)載中不同作業(yè)的放置問題,提出一種深度學(xué)習(xí)(deep learning, DL)驅(qū)動的機器學(xué)習(xí)集群調(diào)度器,該調(diào)度器使用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)對獎勵值進(jìn)行建模,構(gòu)建了一個輔助獎勵預(yù)測模型,然后實現(xiàn)了基于深度強化學(xué)習(xí)(deep reinforcement learning, DRL)框架的自適應(yīng)調(diào)度器,實驗表明這種調(diào)度器的性能優(yōu)于一些典型的傳統(tǒng)調(diào)度器.

數(shù)據(jù)驅(qū)動方法雖然具有處理時間信息和空間信息不確定性的能力,但大多需要大量訓(xùn)練和學(xué)習(xí)數(shù)據(jù)集來建立預(yù)測模型,因此會出現(xiàn)“數(shù)據(jù)不足”或“冷啟動”問題.不幸的是,數(shù)據(jù)不足仍是目前廣泛存在于真實世界系統(tǒng)中的一大問題.

1.3 小 結(jié)

規(guī)則驅(qū)動與數(shù)據(jù)驅(qū)動的對比如表1所示.雖然數(shù)據(jù)驅(qū)動比規(guī)則驅(qū)動需要更少的專家領(lǐng)域知識,實現(xiàn)上也更為簡單,但卻不能避免冷啟動的問題;而規(guī)則驅(qū)動技術(shù)可用于預(yù)測,并遵循基于描述的方法來建模傳感器數(shù)據(jù)和活動之間的關(guān)系,但它不能很好地處理不確定性問題和時間信息,所以有許多研究是結(jié)合了數(shù)據(jù)驅(qū)動與規(guī)則驅(qū)動這兩者的優(yōu)點來實現(xiàn)的.

Table 1 Comparison Between Rule-Driven and Data-Driven表1 規(guī)則驅(qū)動與數(shù)據(jù)驅(qū)動對比

例如Gayathri等人[24]提出了一種利用Markov邏輯網(wǎng)絡(luò)(Markov logic network, MLN)將概率推理集成到領(lǐng)域本體中,將統(tǒng)計學(xué)習(xí)方法與本體論相結(jié)合,將語義轉(zhuǎn)換為一階規(guī)則,并利用數(shù)據(jù)學(xué)習(xí)規(guī)則的權(quán)值,從而提高活動識別的精度.還有一種結(jié)合方式是在初始階段以規(guī)則驅(qū)動建模,再利用數(shù)據(jù)驅(qū)動方法來對自適應(yīng)系統(tǒng)進(jìn)行調(diào)整優(yōu)化.如Sukor等人[25]提出的一種將規(guī)則驅(qū)動與數(shù)據(jù)驅(qū)動推理相結(jié)合的方法,使活動模型能夠根據(jù)用戶的特性自演化和自適應(yīng).該方法首先使用基于規(guī)則驅(qū)動的活動模型推理方法作為初始模型,然后使用數(shù)據(jù)驅(qū)動技術(shù)對模型進(jìn)行訓(xùn)練,生成一個動態(tài)活動模型來學(xué)習(xí)用戶的各種操作.該方法在一些公共數(shù)據(jù)集進(jìn)行了評估,實驗結(jié)果表明與其他模型相比,學(xué)習(xí)活動模型獲得了更高的識別率.受此工作啟發(fā),Wang等人[26]將在線強化學(xué)習(xí)與歷史決策庫相結(jié)合,基于軟件定義的方式,實現(xiàn)了城域網(wǎng)中虛擬服務(wù)的高效自適應(yīng)遷移,以更低的成本和更高的QoS滿足用戶的服務(wù)請求.因此,一種比較合理的結(jié)合方式,在數(shù)據(jù)驅(qū)動的自適應(yīng)框架中引入部分包含先驗知識的規(guī)則驅(qū)動方法作為補充.

2 自適應(yīng)框架

作為一種有效地處理系統(tǒng)復(fù)雜性、不確定性和動態(tài)性的系統(tǒng),自適應(yīng)系統(tǒng)中有很多不同的框架來實現(xiàn),如觀察—定向—決策—行動(observe-orient-decide-act, OODA)[27]、知識密集型數(shù)據(jù)處理系統(tǒng)(knowledge intensive data processing system, KIDS)[28-29]框架等.這些框架大多都包含了一些關(guān)鍵的模塊,如評估、規(guī)劃等,當(dāng)然,目前最有影響力的參考控制模型是通過MAPE-K(monitor-analyze-plan-execute knowledge)來實現(xiàn)的[30],相對于KIDS,MAPE-K多加了一個知識庫,用于存儲自適應(yīng)的相關(guān)知識規(guī)則.MAPE-K是一個由“監(jiān)測—分析—決策—執(zhí)行—知識”組成的循環(huán)序列,這些組件分別用于分析監(jiān)控數(shù)據(jù)、規(guī)劃響應(yīng)動作、執(zhí)行這些動作,這種閉環(huán)控制具有更好的適應(yīng)性和魯棒性,可以使系統(tǒng)在變化不確定的運行環(huán)境下自適應(yīng)運行,MAPE-K的框架結(jié)構(gòu)如圖1所示.MAPE-K的框架目前廣泛應(yīng)用于各種自適應(yīng)系統(tǒng)中,包括軟件自適應(yīng)[30]、智能家居自適應(yīng)[31-32]、工作流自適應(yīng)[33]、云計算自適應(yīng)[34-35]等.

Fig. 1 MAPE-K architecture圖1 MAPE-K架構(gòu)

自適應(yīng)是指在環(huán)境或自身發(fā)生變化時,對自身進(jìn)行規(guī)劃和調(diào)整.然而,一個重要而又容易被忽略的問題是,對于連續(xù)的監(jiān)測結(jié)果來說,這種變化什么時候需要自適應(yīng)系統(tǒng)做出調(diào)整(即是否存在一個監(jiān)測值的臨界點,導(dǎo)致自適應(yīng)系統(tǒng)需要對應(yīng)地做出調(diào)整).除此之外,決定啟動自適應(yīng)的時間點也是非常重要的,因為不同時間點做出規(guī)劃的效率會隨著環(huán)境的變化而變化,隨之而來的是成本的變化,例如計劃延遲會導(dǎo)致額外的資源、能源消耗等.因此Chen等人[36]設(shè)計的自適應(yīng)框架DLDA(debt learning driven adaptation)中,創(chuàng)新性地加入了一個二分類器,用于判別什么時候執(zhí)行自適應(yīng)調(diào)整.DLDA的架構(gòu)如圖2所示,分類器(classifier)根據(jù)前一個狀態(tài)和當(dāng)前狀態(tài)判斷出是否需要自適應(yīng),需要則利用規(guī)劃器(planner)進(jìn)行自適應(yīng)調(diào)整,不需要則系統(tǒng)不進(jìn)行調(diào)整.

Fig. 2 DLDA architecture圖2 DLDA架構(gòu)

對于復(fù)雜的計算系統(tǒng),我們以一個實際的應(yīng)用場景來分析,在智能家居領(lǐng)域自適應(yīng)的應(yīng)用中,通過應(yīng)用的Log日志識別出各類活動(或事件),這些活動通過挖掘算法和機器學(xué)習(xí)方法使其在概念邏輯、時空方位上關(guān)聯(lián),由此導(dǎo)出不同場景的自適應(yīng)規(guī)則和事件圖譜(流程).在獲得規(guī)則模型和特征模型后,利用活動的上下文語義關(guān)系及目標(biāo)-特征的耦合關(guān)系,建立特征對目標(biāo)的量化支撐函數(shù),最后再依照用戶的需求偏好,通過目標(biāo)-特征的最優(yōu)匹配(全局目標(biāo)最大化)綁定,完成對用戶活動流程的自適應(yīng).

從圖1可以看出,數(shù)據(jù)驅(qū)動的自適應(yīng)已經(jīng)不再是簡單的“監(jiān)測—分析—決策—執(zhí)行”的循環(huán),而是一個極端復(fù)雜和智能的優(yōu)化過程.我們從認(rèn)知計算的理性思維適應(yīng)性控制(adaptive control of thought-rational, ACT-R)框架中得到了一些啟發(fā),ACT-R是卡內(nèi)基梅隆大學(xué)的Anderson等人[37]建立的一個人類認(rèn)知理論框架模型,其思路是在對環(huán)境進(jìn)行統(tǒng)計分析的基礎(chǔ)上,使得知識的獲得和調(diào)用過程隨環(huán)境而發(fā)生改變,實現(xiàn)系統(tǒng)的自適應(yīng)性,這正符合人類針對環(huán)境的自適應(yīng)認(rèn)知過程.ACT-R包含了對環(huán)境的感知和對數(shù)據(jù)模式的理解,并從中做出最優(yōu)的決策,而且認(rèn)知計算可以從大量數(shù)據(jù)中歸納出新的知識,類似于人的認(rèn)知能力.

因此,我們認(rèn)為一個完整的數(shù)據(jù)驅(qū)動應(yīng)用自適應(yīng)系統(tǒng)應(yīng)該包含4個功能:1)從復(fù)雜的環(huán)境中提取日志、圖像等數(shù)據(jù)特征;2)從數(shù)據(jù)特征中挖掘識別出環(huán)境和應(yīng)用的流程模式;3)識別出當(dāng)前的流程模式,進(jìn)行自適應(yīng)的適配;4)當(dāng)適配無法實現(xiàn)系統(tǒng)功能時,需要對現(xiàn)有的規(guī)則進(jìn)行演化來補充支持系統(tǒng)的自適應(yīng).基于這4個功能,我們認(rèn)為一個自適應(yīng)框架應(yīng)該是如圖3所示的.

Fig. 3 The architecture of data-driven self-adaptive system圖3 數(shù)據(jù)驅(qū)動的自適應(yīng)系統(tǒng)架構(gòu)

如圖3所示,應(yīng)用產(chǎn)生的傳感器數(shù)據(jù)通過表征學(xué)習(xí)模塊進(jìn)行預(yù)處理和特征提?。荒J阶R別則負(fù)責(zé)從特征中識別出應(yīng)用的場景,理解用戶的活動模式和意圖,并對正在進(jìn)行的活動進(jìn)行監(jiān)測反饋;決策規(guī)劃模塊通過結(jié)合實時的特征、應(yīng)用的情景以及當(dāng)前活動來對系統(tǒng)進(jìn)行動態(tài)的自適應(yīng)調(diào)整;評估器將對產(chǎn)生的策略和環(huán)境進(jìn)行匹配,當(dāng)不匹配時調(diào)用規(guī)則演化模塊生成新規(guī)則以適應(yīng)當(dāng)前環(huán)境,匹配時則直接進(jìn)行執(zhí)行該策略;規(guī)則演化則是為了應(yīng)對數(shù)據(jù)不足或冷啟動,以及規(guī)則異常的問題,通過引入部分專家知識或是其他領(lǐng)域知識來演化出新的規(guī)則.因此,接下來我們將分別介紹應(yīng)用自適應(yīng)框架中用到的這4種主要技術(shù):表征學(xué)習(xí)(represent learning)、模式識別(pattern recognition)、決策規(guī)劃(decision plan)、規(guī)則演化(rule evolution).

3 表征學(xué)習(xí)

原始數(shù)據(jù)一般是復(fù)雜異構(gòu)的,包含了如時空數(shù)據(jù)、圖片、語音等,這些原始數(shù)據(jù)通常具有異構(gòu)、稀疏、高秩等特點,并不能直接提供給學(xué)習(xí)系統(tǒng)使用.因此,原始數(shù)據(jù)需要通過相應(yīng)的算法轉(zhuǎn)換為低秩的特征向量,剔除原始數(shù)據(jù)中冗余或無關(guān)的信息,提高機器學(xué)習(xí)預(yù)測或分類的性能效率,同時也加強了模型的可解釋性.表征學(xué)習(xí)通常包含數(shù)據(jù)清洗、特征提取、壓縮感知、多源融合等技術(shù),具有智能性、主動性、自適應(yīng)性等特點.

這種轉(zhuǎn)換根據(jù)是否需要人工干預(yù),可分為特征工程和表征學(xué)習(xí)2種.傳統(tǒng)的特征工程依賴于專家領(lǐng)域知識提取顯式的特征,因此人工工程量較大,選擇的特征質(zhì)量也將影響后續(xù)的任務(wù)質(zhì)量;表征學(xué)習(xí)則是自動學(xué)習(xí)數(shù)據(jù)的隱式特征,并不依賴于專家經(jīng)驗,而是通過與后續(xù)任務(wù)進(jìn)行聯(lián)合訓(xùn)練來提取特征,其目標(biāo)不是通過學(xué)習(xí)原始數(shù)據(jù)預(yù)測某個觀察結(jié)果,而是學(xué)習(xí)數(shù)據(jù)的底層結(jié)構(gòu)(underlying structure, US),因此往往需要大量的數(shù)據(jù)集.對于高維且復(fù)雜的異構(gòu)數(shù)據(jù)(如圖片、視頻、文字、語音等),使用依賴人工的特征工程來提取特征顯然不太切合實際;而表征學(xué)習(xí)則借助算法使機器自動地學(xué)習(xí)數(shù)據(jù)的特征,在大量的數(shù)據(jù)集下自動的表征學(xué)習(xí)顯然更有效率.

最早的表征學(xué)習(xí)算法是1901年P(guān)earson[38]提出了主成分分析(principal component analysis, PCA)以及其衍生的一些變體,用線性投影的方法學(xué)習(xí)數(shù)據(jù)的低維度特征.這類算法被稱為無監(jiān)督表征學(xué)習(xí)算法,除PCA外還包含了無監(jiān)督字典學(xué)習(xí)(unsuper-vised dictionary learning, UDL)[39]、獨立成分分析(independent component analysis, ICA)[40]、自動編碼(auto-encoders, AE)[41]和矩陣分解(matrix factorization, MF)[42]等.

與之相對的則是監(jiān)督式的表征學(xué)習(xí)算法,這類是目前更為通用的學(xué)習(xí)算法,如神經(jīng)網(wǎng)絡(luò)主要是指現(xiàn)在流行的深度學(xué)習(xí)方法[43].近年來,深度學(xué)習(xí)的發(fā)展主要得益于3個方面巨大的進(jìn)步:表征學(xué)習(xí)、大規(guī)模數(shù)據(jù)集、通用圖形處理單元(general-purpose graphics processing unit, GPGPU)[44].深度學(xué)習(xí)以較好的通用性、自動化等特性,正在自然語言處理、計算機視覺、語音識別、推薦系統(tǒng)等領(lǐng)域大展身手,其除了應(yīng)用于結(jié)構(gòu)化數(shù)據(jù)外,也適用于非結(jié)構(gòu)化數(shù)據(jù)的特征表示,表2中列舉了一些典型的數(shù)據(jù)表征學(xué)習(xí)算法.深度學(xué)習(xí)模型通常是“端到端”的,即沒有特定的區(qū)分表征學(xué)習(xí)和最終的學(xué)習(xí)任務(wù),實際上我們可以將模型中隱藏層的作用看作是在進(jìn)行表征學(xué)習(xí).

Table 2 Typical Represent Learning Algorithms表2 典型的表征學(xué)習(xí)算法

如表2所示,深度學(xué)習(xí)在非結(jié)構(gòu)化數(shù)據(jù)的表征學(xué)習(xí)中有著廣泛的應(yīng)用,這類算法可以從非結(jié)構(gòu)化數(shù)據(jù)中提取出有效的結(jié)構(gòu)化特征,用于支持后續(xù)如預(yù)測、分類等任務(wù).例如在圖像領(lǐng)域,原始的圖像存在大量無意義的像素點,有效的應(yīng)該是圖像邊緣輪廓以及局部模式等,通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)等算法可以去除圖像的信息冗余,實現(xiàn)圖像分割和邊緣檢測,提取出對應(yīng)的圖像特征,實現(xiàn)特征的高效壓縮,如Pan等人[70]使用空間卷積神經(jīng)網(wǎng)絡(luò)(spatial CNN, SCNN)來做交通場景圖像的理解,Rawat等人[71]也使用CNN提取圖像上下文信息來提升多標(biāo)簽分類的準(zhǔn)確率.深度神經(jīng)網(wǎng)絡(luò)還可以提取深層的高級表示,這使其更適合復(fù)雜的活動識別任務(wù),其逐層結(jié)構(gòu)允許可伸縮地從簡單到抽象的特征學(xué)習(xí),并且可分離性使得其可以靈活地組合成具有一個整體優(yōu)化功能的統(tǒng)一網(wǎng)絡(luò).這些優(yōu)勢使得深度學(xué)習(xí)目前在表征學(xué)習(xí)中占據(jù)著主導(dǎo)地位.

表征學(xué)習(xí)目前是一個比較活躍的領(lǐng)域,是機器感知和理解真實環(huán)境的重要技術(shù),其本質(zhì)是一種應(yīng)對高維數(shù)據(jù)的自動化降維算法.隨著人工智能的發(fā)展,面對的數(shù)據(jù)開始由原來的小規(guī)模、結(jié)構(gòu)化、規(guī)范化的數(shù)據(jù)集轉(zhuǎn)向大規(guī)模、非結(jié)構(gòu)化、繁冗的數(shù)據(jù)集,應(yīng)用場景也開始轉(zhuǎn)向通用化、自動化.因此,表征學(xué)習(xí)也開始以深度學(xué)習(xí)為主,趨向于更加的普適、通用和更好的泛化能力.

4 模式識別

模式識別是一種用計算機模擬人類識別行為的技術(shù),可以讓計算機通過觀察環(huán)境,學(xué)習(xí)如何從環(huán)境中識別感興趣的模式,實現(xiàn)對環(huán)境模式的分類[72].模式識別的目的是從數(shù)據(jù)中挖掘出潛在的模式,數(shù)據(jù)包括地理位置、操作日志、時間序列等,我們將其分為識別上下文信息等的情景感知(context-aware)和挖掘用戶行為的活動識別(activity recognition)2個模塊.

4.1 情景感知

情景感知技術(shù)最初是由Schilit等人[73]提出,又被稱為上下文感知,主要是指系統(tǒng)通過采集周圍環(huán)境參數(shù),對時間、空間元素進(jìn)行分析,實現(xiàn)對環(huán)境的感知和理解能力,自動獲取和發(fā)現(xiàn)用戶需求,建立一種自適應(yīng)調(diào)整機制,向用戶提供適合當(dāng)前情形的信息或服務(wù),提高服務(wù)的準(zhǔn)確性和可靠性.對于一個復(fù)雜動態(tài)的應(yīng)用系統(tǒng),情景感知可以根據(jù)從環(huán)境數(shù)據(jù)中提取的特征推理出系統(tǒng)運行的上下文.

表征學(xué)習(xí)從原始數(shù)據(jù)中提取有效的特征,情景感知技術(shù)則根據(jù)這些特征對復(fù)雜多變的上下文進(jìn)行提取、融合、解釋和識別,推理出有用的實體狀態(tài)和動態(tài)信息,指導(dǎo)決策系統(tǒng)提供正確、自適應(yīng)的服務(wù).情景推理可分為確定性推理和非確定性推理2類,確定性推理一般基于預(yù)設(shè)的情景,在傳統(tǒng)計算中取得了較好的效果;然而如今的上下文信息具有多樣性、不確定性和動態(tài)性等特點,因此更需要的是非確定性推理方法[74].

典型的情景推理方法有模糊推理、本體推理和D-S(Dempster-Shafer)證據(jù)推理等,此外,由于數(shù)據(jù)的不確定性和不完備性,所以機器學(xué)習(xí)方法也被廣泛應(yīng)用于復(fù)雜的情景推理中,包括人工神經(jīng)網(wǎng)絡(luò)、決策樹、隱Markov模型、KNN、貝葉斯網(wǎng)絡(luò)、支持向量機等.例如,在移動計算領(lǐng)域,通過移動端的定位數(shù)據(jù)、附近可見藍(lán)牙設(shè)備和WIFI接入點等數(shù)據(jù),結(jié)合聚類算法推理移動端所處的場景,如家庭、辦公室、度假等[75].Rana等人[76]則設(shè)計了一個基于上下文的噪音映射系統(tǒng),通過對傳感器數(shù)據(jù)應(yīng)用KNN近鄰算法來推理智能手機的場景,如口袋、錢包或手持.我們將分別討論這些在情景推理中常用的算法.

1) 規(guī)則推理.通過IF-ELSE結(jié)構(gòu)來匹配合適的規(guī)則,進(jìn)行情景的推斷.規(guī)則的來源可以是基于專家知識預(yù)定義的,也可以是結(jié)合本體建模所產(chǎn)生的規(guī)則.這種方式實現(xiàn)簡單、穩(wěn)定性好,但對于復(fù)雜多變的環(huán)境適應(yīng)性不足.

2) 本體推理.依賴于邏輯描述,通過本體建模數(shù)據(jù)實現(xiàn)推理.本體推理使用語義語言,如RDF(resource description framework),RDFS(RDF schema),OWL(Web ontology language)來實現(xiàn)推理,本體推理的優(yōu)點是可以與本體建模相結(jié)合.

3) 模糊邏輯.結(jié)合模糊集合和模糊規(guī)則進(jìn)行推理,相較于傳統(tǒng)邏輯,引入了更多處理不確定性和未知的能力.通常模糊邏輯與本體論、概率模型、規(guī)則推理結(jié)合在一起使用.

4) 概率邏輯.基于對事件概率和事實計算,運用數(shù)理邏輯與概率理論對歸納邏輯、歸納方法進(jìn)行形式化、數(shù)量化的研究.通常利用D-S證據(jù)理論或隱Markov模型來進(jìn)行多源數(shù)據(jù)的融合,以及對下一個不確定狀態(tài)提供預(yù)測等.

5) 監(jiān)督學(xué)習(xí).通過收集標(biāo)記的應(yīng)用數(shù)據(jù)來進(jìn)行模型訓(xùn)練,訓(xùn)練好的模型將用于情景的推理.監(jiān)督學(xué)習(xí)被廣泛運用于各種場景,各種模型也層出不窮,如貝葉斯網(wǎng)絡(luò)、支持向量機、決策樹以及目前炙手可熱的神經(jīng)網(wǎng)絡(luò)等,這些方法被應(yīng)用于模式識別、事件關(guān)聯(lián)等情景推理場景中.

6) 非監(jiān)督學(xué)習(xí).由于數(shù)據(jù)的標(biāo)記難以獲取,所以非監(jiān)督學(xué)習(xí)也常常用于無標(biāo)記的數(shù)據(jù)中,從中提取出一些有意義的結(jié)果.例如使用K-Means等聚類算法可以從數(shù)據(jù)中推理出一些相關(guān)上下文,或者對環(huán)境感知中獲取的數(shù)據(jù)進(jìn)行噪聲和離群點的檢測和區(qū)分.

以本體推理、模糊邏輯等為主的情景感知方法通常需要結(jié)合一定的專家知識,以規(guī)則為導(dǎo)向進(jìn)行推理,這類方法的優(yōu)點是穩(wěn)定性好,但缺點也很明顯,即對于不確定的環(huán)境缺乏處理未知的能力.而使用機器學(xué)習(xí)的方法則脫離了對專家知識的依賴,模型幾乎完全來源于數(shù)據(jù)的模式,其優(yōu)點是模型可以處理未知的環(huán)境,從數(shù)據(jù)中挖掘出非預(yù)設(shè)的規(guī)則,而缺點則是穩(wěn)定性較差,生成的規(guī)則并不一定符合真實情況.目前的研究趨勢是機器學(xué)習(xí)方法與本體建模、模糊邏輯結(jié)合,實現(xiàn)混合推理模型.例如Roy等人[77]提出了使用結(jié)合本體預(yù)定義規(guī)則和貝葉斯網(wǎng)絡(luò)的模型來識別高層級的上下文情景,這種方式結(jié)合了數(shù)據(jù)融合和語義分析,從而促進(jìn)了情景識別的準(zhǔn)確率.

4.2 活動識別

活動識別是泛在計算、人類行為分析和人機交互研究的一個重要領(lǐng)域,其旨在通過對用戶行為和環(huán)境條件的觀察,識別出用戶的行為和目標(biāo)[78],并檢測出對應(yīng)的活動模式.活動識別可以看作是一個典型的模式識別問題[79],通過從數(shù)據(jù)中識別出當(dāng)前的活動模式,指導(dǎo)應(yīng)用程序預(yù)測下一步的流程,進(jìn)行一定的自適應(yīng)調(diào)整和規(guī)劃.活動識別能更好地輔助計算機理解用戶目標(biāo)和意圖;幫助計算機應(yīng)用更智能化、適應(yīng)性地完成任務(wù),因此被廣泛應(yīng)用于各種互聯(lián)網(wǎng)領(lǐng)域,如廣告推薦、個性化定制、安全防控、運動監(jiān)測、醫(yī)療康復(fù)等.

傳統(tǒng)的活動識別使用經(jīng)典的數(shù)學(xué)模型和數(shù)理統(tǒng)計來進(jìn)行建模分析,相對而言,數(shù)據(jù)挖掘和機器學(xué)習(xí)則能更有效地從數(shù)據(jù)中提取知識、發(fā)現(xiàn)知識和推理活動[80].活動識別的機器學(xué)習(xí)研究方法多種多樣,包括樸素貝葉斯(Naive Bayes)[81]、決策樹[82]、隱Markov模型(hidden Markov model, HMM)[83]、條件隨機場(conditional random field, CRF)[84]、KNN[85]、支持向量機[86]、集成學(xué)習(xí)(ensemble learning)等算法.

可以看出,活動識別主要使用了分類算法,而深度學(xué)習(xí)作為機器學(xué)習(xí)的一個重要新分支,利用其對數(shù)據(jù)的高階特征建模分析的能力來挖掘用戶行為模式,也成為了活動識別的一個重要趨勢.正如介紹表征學(xué)習(xí)時所提到的,神經(jīng)網(wǎng)絡(luò)可以提取出數(shù)據(jù)間隱含的關(guān)聯(lián)關(guān)系.如CNN具有局部依賴性和尺度不變性,能捕獲數(shù)據(jù)的空間關(guān)聯(lián)[87];循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)則能結(jié)合時間層,獲取數(shù)據(jù)的時間序列信息[88].對于輸出層,深度學(xué)習(xí)的分類通常是用softmax回歸作為輸出,形式為

(1)

分類算法通常使用交叉驗證技術(shù)來對模型進(jìn)行評估訓(xùn)練,常用的評價指標(biāo)的定義如表3所示,其中的一些符號定義如下:1)TP(true positive),將正類預(yù)測為正類;2)FN(false negative),將正類預(yù)測為負(fù)類;3)FP(false positive),將負(fù)類預(yù)測為正類;4)TN(true negative),將負(fù)類預(yù)測為負(fù)類.

Table 3 Most Used Metrics for Classification表3 常用于分類的評價指標(biāo)

對于活動識別來說,標(biāo)記數(shù)據(jù)對于模型訓(xùn)練是很重要的.利用標(biāo)記數(shù)據(jù)來訓(xùn)練模型,實現(xiàn)的活動識別只能針對于已經(jīng)被標(biāo)記的活動.而實際環(huán)境中,能夠獲得的有標(biāo)記數(shù)據(jù)十分稀少,一個重要的挑戰(zhàn)便是從未標(biāo)記的數(shù)據(jù)中進(jìn)行活動識別.對于稀少的標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)混合的情況,通常采用半監(jiān)督學(xué)習(xí)來解決標(biāo)注缺少的問題.半監(jiān)督學(xué)習(xí)通過對有標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后對未標(biāo)注的數(shù)據(jù)進(jìn)行分類,得到帶有偽標(biāo)簽的數(shù)據(jù).對偽標(biāo)注數(shù)據(jù)進(jìn)行評估,從中挑選出可信的樣本加入訓(xùn)練集,提升分類精度.這類算法包括直推學(xué)習(xí)支持向量機(transductive support vector machine, TSVM)[89],半監(jiān)督支持向量機(semi-supervised support vector machine, S3VM)[90],圖論半監(jiān)督學(xué)習(xí)等.

而對于完全未標(biāo)記的數(shù)據(jù),則需要通過無監(jiān)督學(xué)習(xí)從訓(xùn)練集中識別出一些固有的模式,然后根據(jù)生成的模型,識別出這些固有模式.常用的無監(jiān)督學(xué)習(xí)有高斯混合模型(Gaussian mixture models, GMM)、層次凝聚聚類(hierarchical agglomerative clustering, HAC)、DBScan聚類、K-Means聚類等.通過聚類算法,可以將數(shù)據(jù)劃分為不同的簇,每個簇包含了一些特定的活動模型,從而區(qū)分出一些頻繁重復(fù)的活動模式.例如Gupta等人[91]設(shè)計了一個自適應(yīng)的活動識別框架,該框架分為離線挖掘和在線識別2部分,離線挖掘通過聚類等算法從歷史數(shù)據(jù)中識別出一些頻繁的活動模式;而在線識別則從離線挖掘的標(biāo)簽中訓(xùn)練出分類模型,來對在線數(shù)據(jù)進(jìn)行活動的分類,從而實現(xiàn)實時的活動識別.表4列出了一些在活動識別中常用的公開數(shù)據(jù)集.

Table 4 Most Used Activity Recognization Datasets表4 常用的活動識別數(shù)據(jù)集

除了數(shù)據(jù)標(biāo)記之外,活動識別中還有一個重要的挑戰(zhàn),數(shù)據(jù)具有非常強烈的個性化特征和環(huán)境特征,這意味著訓(xùn)練集中的數(shù)據(jù)具有某種特定的偏向性,這種偏向性會導(dǎo)致不可避免的泛化誤差.為了解決這個問題,Jiang等人[98]提出了一個基于深度學(xué)習(xí)活動識別框架,它包含了2個識別器:領(lǐng)域識別器和活動識別器.領(lǐng)域識別器可以識別出相關(guān)的環(huán)境或是主題;而活動識別器則除了進(jìn)行活動識別之外,還試圖欺騙領(lǐng)域識別器,從而學(xué)習(xí)與環(huán)境或主題無關(guān)的表征.這種架構(gòu)可以消除環(huán)境和主題中包含的特定信息特征,從而提升活動識別模型的泛化能力和魯棒性.

4.3 小 結(jié)

模式識別是一種通過數(shù)學(xué)方法形成應(yīng)用理解和認(rèn)識環(huán)境的能力,我們在自適應(yīng)中將其分為情景感知和活動識別2類.情景感知通過從環(huán)境中采集的參數(shù)特征,感知和理解應(yīng)用所處的外部環(huán)境,輔助應(yīng)用識別出應(yīng)用場景,進(jìn)行資源和應(yīng)用的適配,提升服務(wù)質(zhì)量;活動識別則是從應(yīng)用的日志數(shù)據(jù)中挖掘出用戶和應(yīng)用活動的一些頻繁模式,從而理解用戶的行為意圖,預(yù)判下一步的用戶行為,輔助應(yīng)用更好和更智能的資源規(guī)劃和流程自適應(yīng).

情景感知和活動識別都是從數(shù)據(jù)中挖掘出有效信息,改善應(yīng)用服務(wù)質(zhì)量,因此不可避免地有一些共用的缺陷,如標(biāo)注數(shù)據(jù)稀少、樣本分布不均衡等.數(shù)據(jù)驅(qū)動的方法通常需要在每個場景下為每個用戶都提供足夠多的訓(xùn)練數(shù)據(jù),但采集這樣的標(biāo)記樣本成本是相當(dāng)昂貴的,這嚴(yán)重阻礙了應(yīng)用系統(tǒng)的自適應(yīng)能力.近年來有不少的研究致力于解決這些問題,也提出了許多解決方案.數(shù)據(jù)增強便是一種人為擴展有標(biāo)注訓(xùn)練數(shù)據(jù)集的技術(shù),包括對樣本集進(jìn)行隨機過采樣,通過數(shù)學(xué)變換函數(shù)生成數(shù)據(jù),引入噪聲生成器來模糊原始數(shù)據(jù)集等.如文獻(xiàn)[99]提出的一種用戶自適應(yīng)模型(user adaptive model, UAM),通過隨機采樣技術(shù),使用少量的訓(xùn)練集(10%)即可大幅度提高活動識別的精度.生成對抗網(wǎng)絡(luò)(genera-tive adversarial network, GAN)同樣是一種用于數(shù)據(jù)增強的技術(shù).GAN由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,生成網(wǎng)絡(luò)通過隨機噪聲生成訓(xùn)練數(shù)據(jù),判別網(wǎng)絡(luò)則利用實際數(shù)據(jù)訓(xùn)練出的判別模型判別生成的數(shù)據(jù)是否可用,借助2人零和博弈的思想,在對抗與生成的交替中提升2種模型精度.例如Yang等人[100]提出了一個基于GAN的模型OpenGAN,用于解決開放集活動識別的問題,OpenGAN的生成器負(fù)責(zé)合成樣本,用于構(gòu)建樣本集,提高活動識別的精度.

主動學(xué)習(xí)(active learning)也是一種針對數(shù)據(jù)標(biāo)簽稀少場景的算法,主要思想是模型通過與用戶或?qū)<疫M(jìn)行交互,以查詢的方式讓專家確定數(shù)據(jù)標(biāo)簽.主動學(xué)習(xí)與半監(jiān)督學(xué)習(xí)的區(qū)別在于主動學(xué)習(xí)中有專家的參與,通過算法篩選出一些對于模型訓(xùn)練有益的數(shù)據(jù),以交互的方式讓專家對這些數(shù)據(jù)進(jìn)行標(biāo)注.主動學(xué)習(xí)的難點在于如何篩選對于模型有益的數(shù)據(jù),因此相比于半監(jiān)督學(xué)習(xí)來說樣本的使用效率更高.因此,一些研究也著力于使用主動學(xué)習(xí)來提升小樣本時的識別精度[101]以及減少人工標(biāo)記數(shù)據(jù)的成本[102].

5 決策規(guī)劃

通過表征學(xué)習(xí)和模式識別,自適應(yīng)系統(tǒng)具備了感知和分析環(huán)境變化的能力.在此基礎(chǔ)上,自適應(yīng)系統(tǒng)將根據(jù)環(huán)境變化和挖掘的相關(guān)規(guī)則進(jìn)行在線規(guī)劃和決策,動態(tài)調(diào)整應(yīng)用的行為或流程,從而可以以最佳的性能實現(xiàn)應(yīng)用功能,滿足用戶需求.從描述中可以看出,自適應(yīng)的在線決策規(guī)劃本質(zhì)是一個優(yōu)化問題,優(yōu)化的目標(biāo)不僅是在滿足應(yīng)用需求的情況下實現(xiàn)性能最優(yōu),同時還需要在求解該問題的時間上做權(quán)衡,在滿足在線應(yīng)用的條件下達(dá)到一個最優(yōu)或近似最優(yōu)的解決方案.

典型的決策規(guī)劃方法有基于預(yù)設(shè)規(guī)則的、基于概率模型的、基于最優(yōu)化算法的等,這些方法各有優(yōu)勢與缺點.例如,基于預(yù)設(shè)規(guī)則的方法往往需要基于一定的專家知識,預(yù)設(shè)出一部分相對簡單的規(guī)則,然后通過搜索和規(guī)則匹配來實現(xiàn)決策,這類方法雖然簡單有效且時間復(fù)雜度低,但是并不能應(yīng)對復(fù)雜的環(huán)境變化;基于概率模型的方法需要對環(huán)境變化建模,將其抽象為概率圖來進(jìn)行推理決策,這類方法同樣具有較好的時間復(fù)雜度,但決策的有效性依賴于模型與真實環(huán)境的匹配度,而事實上概率模型往往并不能有效地表示一個復(fù)雜系統(tǒng);同樣,基于最優(yōu)化算法的方法優(yōu)勢在于能從約束條件中求解出一個最優(yōu)的或近似最優(yōu)的解決方案,但隨著求解空間規(guī)模的增大,這類方法往往需要極大的時間復(fù)雜度,這對于一些具有較大狀態(tài)空間的系統(tǒng)或?qū)τ趯崟r性要求較高的系統(tǒng)來說時間成本過高.

除此之外,近年來強化學(xué)習(xí)(reinforcement learning, RL)在決策領(lǐng)域的應(yīng)用也越來越受重視.強化學(xué)習(xí)適用于與環(huán)境動態(tài)交互的場景,在不需要先驗知識的情況下,通過最大化長期回報來學(xué)習(xí)完成目標(biāo)的最優(yōu)策略,從而實現(xiàn)實時決策.強化學(xué)習(xí)是一種從環(huán)境狀態(tài)映射到動作的學(xué)習(xí)算法,這類方法通常將決策問題建模為Markov決策過程(MDP),MDP被定義為一個四元組(狀態(tài)S,動作A,回報R,轉(zhuǎn)移概率P),根據(jù)交互數(shù)據(jù)來優(yōu)化決策以取得最佳的決策結(jié)果.目前有許多的研究工作都是以強化學(xué)習(xí)作為自適應(yīng)系統(tǒng)的決策技術(shù),其中大部分的研究重點是結(jié)合深度強化學(xué)習(xí)(DRL)與自適應(yīng)應(yīng)用.傳統(tǒng)強化學(xué)習(xí)的動作空間和樣本空間有限,而深度強化學(xué)習(xí)則以深度網(wǎng)絡(luò)作為函數(shù)逼近器,能擬合更為復(fù)雜的狀態(tài)空間和連續(xù)的動作空間.除這些方法外,也有不少研究嘗試將控制論的方法應(yīng)用在自適應(yīng)系統(tǒng)中[103],這類方法更多地使用了控制學(xué)理論和動力學(xué)模型,主要運用于機器人控制等領(lǐng)域,接下來,我們將分別介紹概率模型、最優(yōu)化算法和強化學(xué)習(xí)在自適應(yīng)決策中的應(yīng)用.

5.1 概率模型

現(xiàn)代應(yīng)用的環(huán)境十分復(fù)雜,充滿了各種不確定性,這些不確定性可能會導(dǎo)致自適應(yīng)系統(tǒng)做出錯誤的決策,所以許多研究著力于如何表示不確定性以及通過一定的策略來減少不確定性.概率模型正是一類使用概率來表示不確定性的算法,通過計算條件概率和聯(lián)合概率,可以準(zhǔn)確地解釋變量間的因果性和相關(guān)性,從而推導(dǎo)出客觀事實,進(jìn)行合理的決策.

事實上,使用概率分析進(jìn)行決策有多種方法,通常是將學(xué)習(xí)決策模型轉(zhuǎn)化為求概率分布,并計算聯(lián)合概率和條件概率來表征因果關(guān)聯(lián).而變量間的這些關(guān)聯(lián)關(guān)系往往非常復(fù)雜,多維的變量間都存在著相互依賴,導(dǎo)致直接求解的復(fù)雜度相當(dāng)高,因此通常會使用圖結(jié)構(gòu)來表示變量間的依賴關(guān)系,這種模型被稱為概率圖模型(probabilistic graphical model, PGM).

概率圖理論分為表示、推理和學(xué)習(xí)理論,廣泛運用于人工智能、機器學(xué)習(xí)和計算機視覺等領(lǐng)域.概率圖模型的一個核心的理論基礎(chǔ)便是貝葉斯法則:

(2)

其中P(M)表示關(guān)于事件M的先驗概率,P(M|N)為已知事件N發(fā)生后事件M的條件概率,也就是事件M的后驗概率,學(xué)習(xí)的過程通常是根據(jù)數(shù)據(jù)分布來調(diào)整事件M的后驗概率,使之更符合事實情況.概率圖模型分為貝葉斯網(wǎng)絡(luò)(Bayesian network, BN)和Markov隨機場(Markov random field, MRF)兩類,這兩類包括一些經(jīng)典模型,如隱Markov模型、條件隨機場、高斯混合模型等.

概率模型在自適應(yīng)決策規(guī)劃中的應(yīng)用,主要體現(xiàn)在解決自適應(yīng)系統(tǒng)中的不確定性決策問題.例如,Naqvi等人[104]提出了一個用于自適應(yīng)計算卸載的模型MAsCOT,為了針對即使沒有全部信息的情況下也能做出這種考慮不確定性的推理決策,該模型使用了基于概率圖模型的動態(tài)決策網(wǎng)絡(luò)(dynamic decision networks, DDNs)進(jìn)行運行時的決策,動態(tài)決策網(wǎng)絡(luò)以最大化效用的概率加權(quán)期望作為優(yōu)化目標(biāo),該模型由3種類型的節(jié)點組成:機會節(jié)點、決策節(jié)點和效用節(jié)點,3種節(jié)點組成了一個有向無環(huán)圖(directed acyclic graph, DAG),通過結(jié)合圖論和概率計算來估計條件概率分布(conditional probability distributions, CPDs),接著利用經(jīng)驗最大化(expec-tation maximum, EM)算法來選取最大效用的策略.Shi等人[105]同樣也使用了貝葉斯網(wǎng)絡(luò)來表征決策的概率依賴,由于自適應(yīng)系統(tǒng)中存在的非確定性,他們提出了使用模糊邏輯來進(jìn)行知識表示.由于貝葉斯網(wǎng)絡(luò)通過更新節(jié)點概率來進(jìn)行自適應(yīng)推理的能力優(yōu)于模糊邏輯,所以他們結(jié)合了2種方法進(jìn)行態(tài)勢預(yù)測,作為自適應(yīng)決策的基礎(chǔ),通過對自適應(yīng)系統(tǒng)的環(huán)境特征建立貝葉斯網(wǎng)絡(luò),并將模糊邏輯態(tài)勢評價方法與實際博弈相結(jié)合,最后使用強化學(xué)習(xí)來學(xué)習(xí)有效的策略.與之相同的是,Epifani等人[106]也使用了貝葉斯估計器,利用從運行的系統(tǒng)中收集的數(shù)據(jù)來對模型進(jìn)行更新,這種動態(tài)參數(shù)估計的方法能夠幫助模型在運行時提供更好的系統(tǒng)表示,從而使模型與實際情況保持同步,逐步優(yōu)化模型性能.

同時,對一個復(fù)雜隨機的交互環(huán)境而言,構(gòu)建一些經(jīng)典模型(如MDP)是非常困難的,需要大量的人工經(jīng)驗進(jìn)行抽象建模.而概率模型則可以以隨機環(huán)境的形式化規(guī)范作為輸入,通過概率分析網(wǎng)絡(luò)將其轉(zhuǎn)換為MDP進(jìn)行求解[14-15].通過將系統(tǒng)建模為概率系統(tǒng),可以使用概率模型檢驗來分析不確定系統(tǒng),Cámara等人[5]基于此,在面對拒絕服務(wù)(denial of service, DoS)攻擊的場景下,使用概率模型檢查開發(fā)了應(yīng)對非確定系統(tǒng)的自適應(yīng)決策技術(shù),有效地降低了決策的時間.但概率模型的缺點也很明顯,不僅需要一定的建模能力,能表示的環(huán)境模型也有限,現(xiàn)今更多的研究是將概率模型與強化學(xué)習(xí)這類更為通用的模型結(jié)合,使用概率模型來提取環(huán)境,使用強化學(xué)習(xí)來學(xué)習(xí)策略.

5.2 最優(yōu)化算法

最優(yōu)化問題指在一定的約束條件下構(gòu)造出一個合適的目標(biāo)函數(shù),如何求解使得這個目標(biāo)函數(shù)達(dá)到極值,形式化的定義為

(3)

其中,f(x)是目標(biāo)函數(shù),x是決策變量,Ω是約束條件.解決最優(yōu)化問題通常有2個步驟:1)對問題進(jìn)行建模,構(gòu)造約束條件和目標(biāo)函數(shù);2)根據(jù)一定的最優(yōu)值搜索策略,在可行解中搜索最優(yōu)解.常用的最優(yōu)化算法分為2類:精確算法和近似算法.精確算法可以搜索出目標(biāo)問題的最優(yōu)解,這類方法包括線性規(guī)劃、動態(tài)規(guī)劃、整數(shù)規(guī)劃和分支定界法等,這類算法復(fù)雜度較高,適合求解空間較小的問題;近似算法則通常只能求出問題的近似解,但面對求解空間龐大的問題,可以在多項式時間內(nèi)以高概率逼近最優(yōu)解,這類算法主要是包含了啟發(fā)式算法,如模擬退火、禁忌搜索、蟻群算法、粒子群算法以及進(jìn)化算法簇等.

在自適應(yīng)系統(tǒng)中,目標(biāo)函數(shù)通常設(shè)置為以執(zhí)行過程中的效用為目標(biāo),并且是一個連續(xù)決策的問題,被管理系統(tǒng)和環(huán)境會隨著時間的推移而進(jìn)化,因而決策的時間也是一個重要的考慮因素.為了優(yōu)化這個問題,Moreno等人[14]提出了一種以概率模型建模環(huán)境,但以隨機動態(tài)規(guī)劃替代概率模型檢查來求解自適應(yīng)決策,這種使用隨機動態(tài)規(guī)劃的方法比概率模型求解快了一個數(shù)量級.Nascimento等人[107]同樣也使用了進(jìn)化算法進(jìn)行決策,結(jié)合多智能體系統(tǒng)(multi-agent system, MAS)設(shè)計了一個自適應(yīng)系統(tǒng),將其應(yīng)用于物聯(lián)網(wǎng)(Internet of things, IoT)領(lǐng)域,在一個智能交通的應(yīng)用上運行進(jìn)化算法來對交通燈進(jìn)行決策,自適應(yīng)改善城市交通流,實驗評估表明他們提出的FIoT(framework for Internet of things)模型比傳統(tǒng)的決策模型的車輛通行量高出1倍左右.Dezfuli等人[108]同樣也提出了一種在自適應(yīng)系統(tǒng)中使用在線規(guī)劃算法ReteRL進(jìn)行決策的動態(tài)自適應(yīng)網(wǎng)站,與Rete-OO和強化學(xué)習(xí)算法相比,使用在線規(guī)劃提高了決策的效率和可用性,這種改進(jìn)大大提升了網(wǎng)站的定性特征,如響應(yīng)時間和可用性.

在自適應(yīng)系統(tǒng)中引入最優(yōu)化算法的優(yōu)勢在于問題的形式化抽象較好,相對于一些傳統(tǒng)模型來說可以考慮的變化更多,這類多目標(biāo)優(yōu)化的方法能從龐大的搜索空間中最大程度優(yōu)化目標(biāo)函數(shù),支持連續(xù)的狀態(tài)和動作空間.在如今復(fù)雜的軟件系統(tǒng)中,面臨的問題更多屬于連續(xù)的空間優(yōu)化問題,因此Wan等人[109]提出了一種雙層MAPE的自適應(yīng)控制結(jié)構(gòu),分別實現(xiàn)了基于最優(yōu)化搜索的規(guī)劃方法和基于規(guī)則的強化學(xué)習(xí)規(guī)劃方法,分別用在局部和全局的多智能體代理中.文獻(xiàn)[109]中提出的方法使用多目標(biāo)進(jìn)化算法,可以在目標(biāo)函數(shù)的約束空間內(nèi)在線搜索最優(yōu)解,針對應(yīng)用的變化動態(tài)地匹配自適應(yīng)策略.相對于強化學(xué)習(xí),這種搜索算法顯得更靈活和快速,所以被用在局部的智能體自適應(yīng)中.

最優(yōu)化算法在自適應(yīng)系統(tǒng)中通過搜索目標(biāo)函數(shù)的最優(yōu)解來進(jìn)行決策,在目標(biāo)函數(shù)相對簡單的情況下能夠快速靈活地求解,但對于目標(biāo)函數(shù)復(fù)雜、求解空間龐大的問題,使用最優(yōu)化算法往往意味著較大的計算成本.除此之外還有一些場景,定義目標(biāo)函數(shù)和約束條件往往十分困難,這一點與概率模型類似,所以近年來同樣有不少研究在探索將最優(yōu)化算法與強化學(xué)習(xí)相結(jié)合.Goyal等人在文獻(xiàn)[110]中,對進(jìn)化算法結(jié)合強化學(xué)習(xí)的算法進(jìn)行了回顧,詳細(xì)介紹和對比了遺傳算法(genetic algorithm, GA)、粒子群算法(particle swarm optimization, PSO)、蟻群算法(ant colony optimization, ACO)等與強化學(xué)習(xí)相結(jié)合的高性能技術(shù).

5.3 強化學(xué)習(xí)

強化學(xué)習(xí)是一種讓自主行動的應(yīng)用個體在與環(huán)境之間交互的過程中逐步改進(jìn)自身行為的模型.事實上,強化學(xué)習(xí)在控制領(lǐng)域也被稱為近似動態(tài)規(guī)劃(adaptive dynamic programming, ADP),這是一種用來解決長期序貫決策問題的經(jīng)典算法,經(jīng)過多年研究人員的努力發(fā)展,逐步形成了如今一整套的強化學(xué)習(xí)理論方法.一個經(jīng)典的強化學(xué)習(xí)模型由5部分組成:智能體(agent)、觀察(observation)、回報(reward)、動作(action)和環(huán)境(environment)組成,其累計回報定義為使用貝爾曼方程表示的價值函數(shù),優(yōu)化的目標(biāo)即是如何選擇合理策略(policy)來保證獲取到最大的累計回報.傳統(tǒng)的強化學(xué)習(xí)解決的問題通常是離散低維的,狀態(tài)和動作空間較小.而現(xiàn)今的應(yīng)用往往是高維且復(fù)雜的,所以研究人員提出了深度強化學(xué)習(xí),通過使用神經(jīng)網(wǎng)絡(luò)來逼近狀態(tài)價值函數(shù),從而能表達(dá)更高維的環(huán)境特征以及更復(fù)雜的狀態(tài)動作空間.

近年來強化學(xué)習(xí)在自適應(yīng)系統(tǒng)中的應(yīng)用通常是指深度強化學(xué)習(xí),其按策略更新模式分為在線策略和離線策略2種,而根據(jù)動作空間則可以分為離散空間和連續(xù)空間,目前主流的強化學(xué)習(xí)通常是基于actor-critic架構(gòu),如深度確定性策略梯度方法(deep deterministic policy gradient, DDPG)和信賴域策略優(yōu)化方法(trust region policy optimization, TRPO)等.強化學(xué)習(xí)是目前在自適應(yīng)決策中最受關(guān)注的熱門技術(shù)之一,大量的研究工作都集中在使用強化學(xué)習(xí)來優(yōu)化自適應(yīng)系統(tǒng)的決策上.例如Zhao等人[111-112]提出了一種基于強化學(xué)習(xí)的自適應(yīng)規(guī)則生成與演化框架,該框架通過離線學(xué)習(xí)產(chǎn)生了基本的決策能力,然后結(jié)合案例推理技術(shù)根據(jù)線上動態(tài)環(huán)境的信息與案例庫演化出自適應(yīng)規(guī)則.這種方法改進(jìn)了現(xiàn)有基于規(guī)則的自適應(yīng)方式的靈活性和質(zhì)量,案例庫的引入使得算法能夠記憶有效歷史決策流程,當(dāng)環(huán)境改變時可以依據(jù)歷史決策樣例進(jìn)行推理,這樣能夠有效減少重新求解決策過程的時間,同時也能保證決策的質(zhì)量.這些基于強化學(xué)習(xí)的模型與MAPE-K模型不同,MAPE-K基于一些預(yù)定義策略的手工編碼邏輯,這些策略需要專家對系統(tǒng)設(shè)計進(jìn)行詳細(xì)的理解,以預(yù)測資源更改如何影響系統(tǒng)性能,這種方式并不適用于當(dāng)今復(fù)雜的應(yīng)用程序,因此有研究提出了使用強化學(xué)習(xí)來負(fù)責(zé)MAPE-K的決策過程,將強化學(xué)習(xí)作為MAPE-K的一部分組件[34],從而提升自適應(yīng)系統(tǒng)的性能.

由于深度強化學(xué)習(xí)的易用性和泛化能力,因此被廣泛運用于各種場景的自適應(yīng)系統(tǒng),如虛擬機容量控制[113]、航空電子系統(tǒng)[114]、企業(yè)級應(yīng)用服務(wù)組合[115]、虛擬機放置[116]、工作流調(diào)度[117]、應(yīng)用程序組件組合[34]、機器人足球比賽[105]、移動邊緣計算卸載[118]、邊緣緩存放置[119]等.這些場景雖然各不相同,但對于強化學(xué)習(xí)來說,只需要抽象出對應(yīng)的模型就可以使用算法進(jìn)行決策,所以強化學(xué)習(xí)具有比較好的易用性和通用性.

基于強化學(xué)習(xí)的自適應(yīng)決策是目前研究的熱點,不僅是在不同應(yīng)用領(lǐng)域的研究,還有許多研究著力于結(jié)合其他模型,提高自適應(yīng)系統(tǒng)的性能.比如多智能體強化學(xué)習(xí)(multi-agent reinforcement learning, MARL),通過博弈論與強化學(xué)習(xí)相結(jié)合,利用納什均衡來改進(jìn)強化學(xué)習(xí)算法在多個智能體之間協(xié)調(diào)的性能[115];Tomás等人[113]則將模糊邏輯與強化學(xué)習(xí)結(jié)合,提出了一個在線的模糊強化學(xué)習(xí)算法(fuzzy q-learning, FQL),用于解決環(huán)境存在模糊描述的自適應(yīng)決策問題;Ganguly等人[120]則針對分布式應(yīng)用的自適應(yīng)問題,提出了去中心化的強化學(xué)習(xí)算法,動態(tài)地更新本地和全局模型,實現(xiàn)分布式應(yīng)用的自適應(yīng);同樣是針對分布式的自適應(yīng)系統(tǒng),Wan等人[109]則是提出了一種雙層MAPE-K自適應(yīng)模型,結(jié)合進(jìn)化算法和強化學(xué)習(xí),使用進(jìn)化算法優(yōu)化manager層,使用強化學(xué)習(xí)來優(yōu)化worker層;Shi等人[105]則考慮到了系統(tǒng)中的不確定性,針對動態(tài)決策中的非確定性知識表示和模型的復(fù)雜度,提出了一個結(jié)合貝葉斯網(wǎng)絡(luò)和強化學(xué)習(xí)的模型,實驗表明這種方法在非確定性環(huán)境模型下可以更好地選擇最優(yōu)策略;而為了解決強化學(xué)習(xí)在感知力上的缺陷,Wang等人[87]則考慮結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)與強化學(xué)習(xí),來提升自適應(yīng)系統(tǒng)對時序數(shù)據(jù)進(jìn)行決策的性能;為了解決強化學(xué)習(xí)的性能嚴(yán)重受超參影響的問題,Xiong等人[118]引入了最大熵算法,有效地平衡了強化學(xué)習(xí)的exploration與exploitation,來降低強化學(xué)習(xí)對于超參的敏感性,提高自適應(yīng)模型的自動化和泛化能力;Wang等人[26]則將強化學(xué)習(xí)與聯(lián)邦學(xué)習(xí)結(jié)合在一起,用于聯(lián)邦學(xué)習(xí)中的緩存自適應(yīng)決策.

5.4 小 結(jié)

決策規(guī)劃是自適應(yīng)系統(tǒng)中最為重要的關(guān)鍵技術(shù),決策問題可以看作是從所有可行策略中選擇最適合、最高效的策略,同時還要盡可能地保證算法的時效性,滿足在線自適應(yīng)決策的需求.表5總結(jié)了一些自適應(yīng)決策的文獻(xiàn)分類,可以看出近年來主流的決策算法都集中在強化學(xué)習(xí)上,這類端到端(end-to-end)的算法仍然是未來自適應(yīng)發(fā)展系統(tǒng)的趨勢.

Table 5 References About Adaptive Planning表5 自適應(yīng)決策的相關(guān)文獻(xiàn)

自適應(yīng)決策目前仍然存在很多需要解決的問題:1)決策的實時性問題,目前主流的方案是采用主動延遲感知(predictive latency-aware, PLA)的適應(yīng)決策,通過限定決策時間來保證決策的實時性;2)系統(tǒng)的非確定性問題,環(huán)境中的不確定性意味著無法簡單地對環(huán)境變化進(jìn)行建模,需要結(jié)合如概率分析等技術(shù)手段來處理不確定性;3)多智能體間的不完全可知信息決策問題,在智能體間信息不對稱時,如何保證算法能做出最優(yōu)的決策;4)分布式系統(tǒng)的自適應(yīng)問題,如何在去中心化的系統(tǒng)中實現(xiàn)自適應(yīng)決策,保證局部系統(tǒng)均能獲得自適應(yīng)決策的收益.這些都是在自適應(yīng)決策方面值得進(jìn)一步研究的熱點問題,同時意味著自適應(yīng)決策技術(shù)未來將向著智能化、快響應(yīng)、大規(guī)模的方向發(fā)展.

6 規(guī)則演化

正如在1.2節(jié)中提到的,數(shù)據(jù)驅(qū)動的自適應(yīng)技術(shù)是從歷史數(shù)據(jù)中學(xué)習(xí)出最優(yōu)的策略,因此數(shù)據(jù)驅(qū)動應(yīng)用存在一個關(guān)鍵的缺陷:冷啟動和數(shù)據(jù)缺少的問題.由于當(dāng)今應(yīng)用環(huán)境的復(fù)雜多變,導(dǎo)致使用這類基于歷史數(shù)據(jù)的方法處理一些歷史中未出現(xiàn)的“模式”時,并不能很好地實現(xiàn)自適應(yīng)的功能.規(guī)則演化就是應(yīng)對實時環(huán)境中出現(xiàn)這種未知“模式”時,從已有的數(shù)據(jù)或規(guī)則中推理出相關(guān)性,將未知“模式”規(guī)約到已知的場景下,或是針對未知“模式”生成新的處理規(guī)則的方法.

一個經(jīng)典的規(guī)則推理方法稱為基于案例的推理(case-based reasoning, CBR)[122],這是一種懶加載解決問題的方法,它從知識庫中找到類似的已解決問題來解決一個新問題,即利用舊的經(jīng)驗來理解和解決新問題,解決后的新問題又將成為知識庫的一部分[1].CBR利用過去案例的知識來解決新案例,一共有4個步驟:1)檢索,計算相似度來檢索最相似的過去案例;2)重用,通過重用最相似的案例中的信息和知識,為新案例提出解決方案;3)修訂,修改建議的解決方案;4)保留,保留有關(guān)新案例解決方案的信息和知識.Zhao等人[111-112]提出一個可以在線進(jìn)行規(guī)則演化的自適應(yīng)系統(tǒng),通過結(jié)合強化學(xué)習(xí)和基于案例推理的技術(shù),在線進(jìn)行規(guī)則集演化來對環(huán)境的未知變化做出自適應(yīng)的調(diào)整,為新目標(biāo)激活新的案例解決方案,解決自適應(yīng)系統(tǒng)面對新環(huán)境的適應(yīng)問題.Raza等人[123]則提供了一種基于案例推理的數(shù)據(jù)庫負(fù)載自適應(yīng)解決方案,與單純的機器學(xué)習(xí)方法相比,案例推理在面對未知案例時,不需要重新訓(xùn)練數(shù)據(jù)集來進(jìn)行自適應(yīng),而是可以直接在線進(jìn)行案例檢索并解決,動態(tài)更新案例庫.

案例推理需要借助歷史案例來解決新問題,但如果新問題與案例庫中的差異過大,對應(yīng)的解決方案則不能很好地適應(yīng)新問題,這是數(shù)據(jù)驅(qū)動的方法不可避免的缺陷,因此面對這樣的問題,研究人員提出了引入一定規(guī)則驅(qū)動技術(shù)來提升自適應(yīng)系統(tǒng)的穩(wěn)定性.基于這個考慮,Mongiello等人[124]提出了一個結(jié)合知識圖譜與案例推理的自適應(yīng)系統(tǒng),用于智能手機的應(yīng)用自適應(yīng).該文作者提出的框架利用知識圖譜對自適應(yīng)軟件及運行環(huán)境進(jìn)行建模,包括應(yīng)用目標(biāo)、事件流程、操作要求等,利用知識圖譜的分析推理功能,可以大大提升自適應(yīng)系統(tǒng)處理新問題的能力[125].

除了案例推理與知識圖譜之外,遷移學(xué)習(xí)也是一種有效幫助系統(tǒng)適應(yīng)新環(huán)境的方法.雖然知識工程技術(shù)能夠處理一部分冷啟動問題,但這類方法無法處理不確定性的問題,而遷移學(xué)習(xí)則能借助概率推理來處理新問題中的不確定性.遷移學(xué)習(xí)旨在解決訓(xùn)練數(shù)據(jù)和實時數(shù)據(jù)在不同的特征空間、具有不同分布情況下的學(xué)習(xí)問題,即智能地應(yīng)用以前的學(xué)習(xí)知識來更快或更有效地解決新問題[126].文獻(xiàn)[11]總結(jié)了近幾年遷移學(xué)習(xí)在智能家居的自適應(yīng)系統(tǒng)中的應(yīng)用,遷移學(xué)習(xí)可以用來解決當(dāng)環(huán)境變化時自適應(yīng)系統(tǒng)如何保證正常執(zhí)行應(yīng)用程序.

7 結(jié)束語

在本文中,我們介紹了數(shù)據(jù)驅(qū)動的自適應(yīng)技術(shù)近幾年的研究現(xiàn)狀,并總結(jié)出了一個數(shù)據(jù)驅(qū)動應(yīng)用的自適應(yīng)系統(tǒng)應(yīng)包含4種關(guān)鍵技術(shù):表征學(xué)習(xí)、模式識別、決策規(guī)劃、規(guī)則演化,接著我們分別綜述和總結(jié)了這4種技術(shù)在數(shù)據(jù)驅(qū)動的自適應(yīng)系統(tǒng)中的應(yīng)用.自適應(yīng)技術(shù)一直是應(yīng)用開發(fā)的研究熱點,利用自適應(yīng)技術(shù)可以實現(xiàn)應(yīng)用的環(huán)境適配、故障容錯、負(fù)載均衡等.傳統(tǒng)的自適應(yīng)技術(shù)通常是規(guī)則模型驅(qū)動的,這類技術(shù)往往在面對復(fù)雜環(huán)境和處理不確定性上具有局限性,而數(shù)據(jù)驅(qū)動技術(shù)則是更多地結(jié)合了如今的人工智能技術(shù),從概率和數(shù)理統(tǒng)計的角度來學(xué)習(xí)環(huán)境的變化,提取環(huán)境模型的特征來進(jìn)行自適應(yīng)系統(tǒng)的模式識別和決策規(guī)劃,并針對數(shù)據(jù)驅(qū)動的冷啟動問題,通過結(jié)合一部分知識驅(qū)動手段來實現(xiàn)規(guī)則的演化,增強自適應(yīng)系統(tǒng)處理不確定性環(huán)境的變化.

隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)驅(qū)動的自適應(yīng)也開始轉(zhuǎn)向自動化、智能化、集成化的方向發(fā)展,本文雖然將系統(tǒng)分為了4個模塊,但許多工作開始研究端到端的自適應(yīng)技術(shù),將多階段的處理合成為一個神經(jīng)網(wǎng)絡(luò)來建模.除此之外,隨著如今大規(guī)模分布式系統(tǒng)以及邊緣計算的興起,自適應(yīng)技術(shù)的分布式化也成為了一個研究的趨勢,如分布式的MAPE-K[30]等.同時,目前的數(shù)據(jù)驅(qū)動自適應(yīng)雖然擺脫了預(yù)定義規(guī)則的束縛,但如何歸納從數(shù)據(jù)中挖掘出的規(guī)則,形成可演繹進(jìn)化的新規(guī)則仍然是研究的重點,也是未來智能化的自適應(yīng)技術(shù)探究的方向.

作者貢獻(xiàn)聲明:代浩負(fù)責(zé)研究內(nèi)容整理、論文撰寫和修訂;金銘負(fù)責(zé)文獻(xiàn)調(diào)研及論文圖表整理;陳星、李楠、涂志瑩負(fù)責(zé)論文部分撰寫和修訂;陳星和涂志瑩負(fù)責(zé)整體論文的檢查和修訂;王洋提出論文整體架構(gòu)和綜述路線,及最終論文的審核與修訂.

猜你喜歡
決策規(guī)則驅(qū)動
基于模糊PI控制的驅(qū)動防滑仿真系統(tǒng)分析
撐竿跳規(guī)則的制定
為可持續(xù)決策提供依據(jù)
數(shù)獨的規(guī)則和演變
屈宏斌:未來五年,雙輪驅(qū)動,砥礪前行
軌旁ATC系統(tǒng)門控柜接收/驅(qū)動板改造
決策為什么失誤了
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對我國的啟示
基于S3C6410的Wi-Fi驅(qū)動移植實現(xiàn)
商南县| 固阳县| 祁东县| 衡山县| 砀山县| 广河县| 稻城县| 方正县| 罗平县| 昆山市| 应城市| 阆中市| 平陆县| 凯里市| 海原县| 廊坊市| 平邑县| 攀枝花市| 万全县| 淮北市| 大悟县| 临邑县| 德兴市| 新邵县| 白城市| 九寨沟县| 婺源县| 交城县| 醴陵市| 武清区| 茂名市| 普兰店市| 南木林县| 江陵县| 玛纳斯县| 淅川县| 湘西| 郸城县| 拉萨市| 乐山市| 安丘市|