黃旭民,張旸,余榮,蔣麗,田輝,吳遠(yuǎn)
(1.廣東工業(yè)大學(xué)自動(dòng)化學(xué)院,廣東 廣州 510006;2.澳門大學(xué)智慧城市物聯(lián)網(wǎng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,澳門 999078;3.北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100876;4.澳門大學(xué)計(jì)算機(jī)與信息科學(xué)系,澳門 999078)
全球物聯(lián)網(wǎng)終端設(shè)備(IoTD,Internet of things device)數(shù)量將從2021 年的100 億上升到2030 年的254 億[1]。目前,IoTD 主要以電池作為工作能源,存在耗盡電量的風(fēng)險(xiǎn),運(yùn)行性能和續(xù)航時(shí)長(zhǎng)受到電池容量的嚴(yán)格限制。因此,物聯(lián)網(wǎng)需要一種有效的能量供應(yīng)方法,以隨時(shí)隨地為大量IoTD 及時(shí)充電。結(jié)合無線能量傳輸(WPT,wireless power transfer)技術(shù),無人機(jī)(UAV,unmanned aerial vehicle)可以靈活地為IoTD 供應(yīng)能量,一種新型的網(wǎng)絡(luò)范例——無人機(jī)輔助的無線供能物聯(lián)網(wǎng)[2-3]被提出。UAV 被指派前往IoTD 所在區(qū)域上空懸停,通過廣播射頻信號(hào)對(duì)WPT 范圍內(nèi)的IoTD 進(jìn)行無線充電。利用無人機(jī)部署容易、機(jī)動(dòng)性強(qiáng)和應(yīng)用范圍廣的特點(diǎn),配合時(shí)下高效的WPT 技術(shù)如無線射頻充電(能量傳輸距離為幾十米至幾千米[4]),UAV輔助的無線供能方法能夠快速地為大規(guī)模IoT 網(wǎng)絡(luò)提供可持續(xù)和經(jīng)濟(jì)的能量供應(yīng)。
關(guān)于UAV 在無線通信網(wǎng)絡(luò)的應(yīng)用,部分研究工作首先聚焦UAV 作為中繼支持地面無線網(wǎng)絡(luò)的數(shù)據(jù)通信,相關(guān)文獻(xiàn)分別圍繞最小化系統(tǒng)或者UAV總能耗[5-6]、最小化用戶間最大時(shí)延[7]、最小化UAV參與協(xié)助干擾時(shí)的系統(tǒng)總能耗[8]、最小化系統(tǒng)中斷概率[9]、最大化計(jì)算效率[10]、最大化用戶群體的最小平均吞吐量等優(yōu)化目標(biāo)[11],提出研究思路與解決方案。隨后,部分研究工作進(jìn)一步關(guān)注UAV 作為中繼既傳輸能量也接受信息的場(chǎng)景,在此方面,不同文獻(xiàn)也基于不同優(yōu)化目標(biāo)提出了一系列理論研究。例如,文獻(xiàn)[12]研究如何基于不同IoTD 對(duì)不同UAV 的個(gè)體偏好信息和給定不同UAV 給予不同IoTD 的能量供應(yīng),運(yùn)用馬爾可夫決策和隨機(jī)匹配理論設(shè)計(jì)一種動(dòng)態(tài)的UAV 調(diào)度方案,在不同時(shí)刻派遣不同UAV 飛往不同的IoTD 處為其提供能量補(bǔ)充。文獻(xiàn)[13]考慮一架UAV 服務(wù)多個(gè)IoTD 的場(chǎng)景,UAV 在每個(gè)任務(wù)執(zhí)行周期中,一邊廣播射頻信號(hào)為所有IoTD 充電,一邊處理部分IoTD 上傳的計(jì)算任務(wù);通過聯(lián)合優(yōu)化UAV 廣播充電時(shí)隙、各IoTD 的發(fā)射功率和任務(wù)卸載決策,以最小化所有IoTD 的總能耗。類似地,文獻(xiàn)[14]討論基于單UAV 的能量補(bǔ)充與數(shù)據(jù)收集場(chǎng)景,提出一種UAV側(cè)優(yōu)化的方案,研究如何在單一工作流方式下最小化UAV 的總能耗。另外,文獻(xiàn)[15]研究基于無人機(jī)集群的(上行鏈路)數(shù)據(jù)傳輸與(下行鏈路)能量傳輸聯(lián)合優(yōu)化,決策變量包括各無人機(jī)的3D 空間位置、無人機(jī)-用戶配對(duì)、服務(wù)順序和時(shí)間分配,優(yōu)化目標(biāo)是最大化網(wǎng)絡(luò)所有IoTD 的總吞吐量。值得一提的是,以上文獻(xiàn)都未討論移動(dòng)的UAV 飛行軌跡如何適配接下來的數(shù)據(jù)與能量管理計(jì)劃。為此,文獻(xiàn)[16]在已知不同區(qū)域IoTD 充電需求條件下,考慮如何挑選最小數(shù)量的UAV 來執(zhí)行全網(wǎng)的充電任務(wù),并且優(yōu)化不同UAV 經(jīng)最短路徑飛往指定區(qū)域,提高所有UAV 的總體能量利用率的同時(shí)盡可能地縮小它們之間的能耗差異水平。文獻(xiàn)[17]同樣討論基于單UAV 的能量補(bǔ)充與數(shù)據(jù)收集場(chǎng)景,引入信息年齡來測(cè)量一次完整的UAV 數(shù)據(jù)采集過程的質(zhì)量,運(yùn)用深度強(qiáng)化學(xué)習(xí)工具來聯(lián)合優(yōu)化UAV的飛行軌跡、飛行時(shí)間以及數(shù)據(jù)采集和能量供應(yīng)的策略,從而最小化UAV 在任務(wù)執(zhí)行期間的總能耗。
相較于現(xiàn)有文獻(xiàn),本文重點(diǎn)解決UAV 輔助的無線供能物聯(lián)網(wǎng)中的自由能量交易問題。大多數(shù)文獻(xiàn)基于集中式?jīng)Q策來管控全網(wǎng)IoTD 和UAV,默認(rèn)它們接受系統(tǒng)的統(tǒng)一調(diào)度管理,這忽略了IoTD 與UAV 的個(gè)體理性,無法支持IoTD 與UAV 之間自由公平的能量交易。為了決策能量交易策略,每個(gè)IoTD 通過事先預(yù)測(cè)自身能耗情況結(jié)合UAV 的要價(jià)情況,動(dòng)態(tài)地調(diào)整能量需求。反過來說,每架UAV根據(jù)IoTD 的獎(jiǎng)勵(lì),決策是否為其提供充電服務(wù)以及提供多少能量。另一方面,大多數(shù)文獻(xiàn)的優(yōu)化目標(biāo)未從用戶的角度出發(fā),現(xiàn)有研究缺少用戶側(cè)的能量?jī)?yōu)化方案。IoTD 希望在滿足能量需求的同時(shí)盡可能減少經(jīng)濟(jì)付出,從而提高個(gè)體效用。因此,本文對(duì)基于Stackelberg 博弈的無人機(jī)輔助無線供能物聯(lián)網(wǎng)能量?jī)?yōu)化進(jìn)行研究。在賦能IoTD 和UAV 理性決策能力條件下,本文運(yùn)用Stackelberg 博弈方法建模并解決一個(gè)IoTD 如何合理地與多架鄰近的UAV進(jìn)行能量交易的問題,最終提出以用戶為中心的能量交易方案。
具體地,IoTD 參考未來能耗情況,作為唯一主方先決策出給予所有UAV 的總獎(jiǎng)勵(lì)?;诠叫栽瓌t,各UAV 分配到的獎(jiǎng)勵(lì)與提供的能量成正比。接下來,各UAV 作為從方,根據(jù)分配所得獎(jiǎng)勵(lì)和WPT 過程中平均信道增益決策給予IoTD 的充電時(shí)長(zhǎng)。在Stackelberg 博弈模型中,享受充電服務(wù)的IoTD 被賦予信息優(yōu)勢(shì)和決策主動(dòng)權(quán),這有助于其提高個(gè)體效用和用戶滿意度,實(shí)現(xiàn)用戶側(cè)能量?jī)?yōu)化。本文的主要貢獻(xiàn)如下。
1) 設(shè)計(jì)一種支持IoTD 與UAV 之間自由能量交易的系統(tǒng)模型。充電服務(wù)平臺(tái)采用UAV 輔助的無線供能方式為IoTD 提供充電服務(wù),在能量交易過程中IoTD 和UAV 自主決策策略,最大化各自的個(gè)體效用。
2) 提出一種基于單主多從Stackelberg 博弈模型的能量交易方案。在以用戶為中心的能量交易過程中,IoTD 作為唯一主方,由其決策給予所有UAV的總獎(jiǎng)勵(lì)。每架UAV 作為從方,通過能量供應(yīng)公平地競(jìng)爭(zhēng)獲取獎(jiǎng)勵(lì),它們參考WPT 過程中的平均信道增益以決策提供給IoTD 的充電時(shí)長(zhǎng)。
3) 通過理論方法求解與分析Stackelberg 博弈模型的均衡狀態(tài)。在討論各UAV 參與能量交易的條件后,考慮所有UAV 參與條件下,求解IoTD 的最優(yōu)策略,并分析不同UAV 數(shù)量對(duì)最優(yōu)策略的影響。最后,通過實(shí)驗(yàn)仿真證明所提方案優(yōu)于現(xiàn)有基準(zhǔn)方案,可有效減少IoTD 經(jīng)濟(jì)開銷,提高用戶滿意度。
現(xiàn)在的IoTD,如手機(jī)、平板電腦和智能手表等手持設(shè)備以及工業(yè)傳感器和移動(dòng)機(jī)器人等工業(yè)設(shè)備,通常由有限容量的電池供電。這些IoTD 容易面臨能量耗盡的風(fēng)險(xiǎn),需要及時(shí)的充電服務(wù)。為了延長(zhǎng)網(wǎng)絡(luò)中IoTD 的使用時(shí)間,充電服務(wù)平臺(tái)被專門設(shè)立,采用UAV 輔助的無線供能方式為全網(wǎng)IoTD 提供充電服務(wù)。現(xiàn)有文獻(xiàn)[15-16]已經(jīng)提出了多架UAV 可按需調(diào)度飛往同一區(qū)域,為區(qū)域內(nèi)的IoTD提供能量供應(yīng)。每架UAV 可以在WPT 范圍內(nèi)廣播射頻信號(hào),同時(shí)為多個(gè)IoTD 進(jìn)行充電。本文進(jìn)一步擴(kuò)展UAV 輔助的無線供能場(chǎng)景,當(dāng)某個(gè)IoTD 處于多架UAV 的共同WPT 范圍內(nèi),為了獲得更多的能量供應(yīng),可按需地、有序地接受來自多架UAV的多次充電服務(wù)。并且,在本文場(chǎng)景中,IoTD 作為能量交易買方,在獲得必要的先驗(yàn)知識(shí)后,可自主理性地決策能量交易份額,這有利于提高用戶滿意度,實(shí)現(xiàn)充電服務(wù)定制化和用戶側(cè)能量?jī)?yōu)化。所有UAV 和IoTD 在入網(wǎng)時(shí)需要在充電服務(wù)平臺(tái)上注冊(cè)獲得合法身份,充電服務(wù)平臺(tái)也實(shí)時(shí)掌握派出的UAV 的狀態(tài)信息,建立知識(shí)庫(kù)儲(chǔ)備先驗(yàn)知識(shí),用于輔助充電服務(wù)過程的相關(guān)決策。無人機(jī)輔助的無線供能物聯(lián)網(wǎng)如圖1 所示。
圖1 無人機(jī)輔助的無線供能物聯(lián)網(wǎng)
物聯(lián)網(wǎng)終端設(shè)備。根據(jù)歷史記錄,每個(gè)IoTD階段性地預(yù)測(cè)未來能耗情況,若發(fā)現(xiàn)接下來將出現(xiàn)電量不足現(xiàn)象,IoTD 會(huì)向充電服務(wù)平臺(tái)發(fā)送充電請(qǐng)求,被平臺(tái)記錄入服務(wù)名單中。在獲知響應(yīng)服務(wù)請(qǐng)求的鄰近UAV 及其相關(guān)信息后,IoTD 自主決策是否雇傭一架或者多架UAV 來為自己充電,并提供承諾的服務(wù)獎(jiǎng)勵(lì)。多UAV 充電場(chǎng)景在實(shí)際應(yīng)用中是常見的,例如,當(dāng)某IoTD 出現(xiàn)緊急情況需要快速充電時(shí),或者當(dāng)單架UAV 攜帶的電量無法滿足IoTD 的能量補(bǔ)充計(jì)劃時(shí),IoTD 希望與多架UAV 先后進(jìn)行能量交易,并標(biāo)明此充電請(qǐng)求為較高等級(jí)。另外,每個(gè)IoTD 不會(huì)簡(jiǎn)單地選擇充滿電,對(duì)于充電用戶,需要基于不同的內(nèi)外因素來綜合決策補(bǔ)充多少能量。內(nèi)部因素包括當(dāng)前時(shí)段的初始能量狀態(tài)和預(yù)估的未來能量消耗,外部因素主要涉及與不同UAV 進(jìn)行能量交易的經(jīng)濟(jì)成本。通過考慮以上因素,IoTD 按需地調(diào)整與各UAV 的能量交易份額,解決能量需求和能量交易費(fèi)用之間的權(quán)衡問題。
無人機(jī)。當(dāng)充電服務(wù)平臺(tái)累計(jì)接收到一組充電請(qǐng)求后,一定數(shù)量的UAV 按照調(diào)度策略飛往指定位置懸停,準(zhǔn)備為WPT 范圍內(nèi)的IoTD 充電。在一次完整的充電服務(wù)過程中,每架UAV 獲得兩方面的經(jīng)濟(jì)收入。一方面,UAV 接收來自充電服務(wù)平臺(tái)的經(jīng)濟(jì)補(bǔ)貼,以補(bǔ)償出發(fā)點(diǎn)(如充電站)與懸停位置之間往返的飛行能量消耗。另一方面,UAV 在懸停位置與IoTD 進(jìn)行自由能量交易,根據(jù)能量交易份額獲得交易收入。在到達(dá)懸停位置后,各UAV根據(jù)服務(wù)名單詢問服務(wù)對(duì)象。某IoTD 可能收到單架或者多架UAV 的詢問,將一一回復(fù)UAV。在收到IoTD 回復(fù)時(shí),各UAV 根據(jù)能量交易收入與自身充電能耗狀況決策出服務(wù)IoTD 的充電時(shí)長(zhǎng)并回復(fù)給IoTD。在收到IoTD 確認(rèn)需要充電服務(wù)的回復(fù)后,此UAV 周期性地發(fā)送消息包詢問IoTD 是否可以開始充電。只有當(dāng)IoTD 回復(fù)可以時(shí),兩者之間的WPT通道才被激活,IoTD 開始接收來自此UAV 的射頻信號(hào)的能量。通過利用一次完整的詢問應(yīng)答過程,既可以實(shí)現(xiàn)單架UAV 廣播射頻信號(hào)同時(shí)為多個(gè)準(zhǔn)備好的IoTD 充電,也可以確保單個(gè)IoTD 依次有序地接收來自多架UAV 的充電服務(wù)。
充電服務(wù)平臺(tái)。充電服務(wù)平臺(tái)根據(jù)充電請(qǐng)求地理分布和不同等級(jí)要求,自行設(shè)計(jì)算法決策出合適的無人機(jī)數(shù)量與關(guān)聯(lián)的懸停位置,盡量確保發(fā)送較高等級(jí)充電請(qǐng)求的IoTD 能夠處于多架UAV 的共同WPT 范圍。一方面,充電服務(wù)平臺(tái)記錄來自終端設(shè)備的充電請(qǐng)求和收集其位置坐標(biāo)信息;另一方面,如文獻(xiàn)[15]所述,為了實(shí)現(xiàn)集中式UAV 管理,充電服務(wù)平臺(tái)實(shí)時(shí)地與UAV 保持通信,掌握它在提供能量供應(yīng)時(shí)的狀態(tài)信息,如位置坐標(biāo)、姿態(tài)信息、信道狀態(tài)信息等,借助這些輔助信息進(jìn)行集中式?jīng)Q策。充電服務(wù)平臺(tái)將這些收集的數(shù)據(jù)存儲(chǔ)于知識(shí)庫(kù)作為先驗(yàn)知識(shí),當(dāng)IoTD 用戶在充電服務(wù)平臺(tái)注冊(cè)了可信的服務(wù)代理,被授權(quán)合法接入知識(shí)庫(kù)后,可獲取指定UAV 的先驗(yàn)知識(shí)用于輔助后續(xù)的決策過程。
通過預(yù)測(cè)未來能耗,某IoTD 按需地向鄰近的多架UAV 請(qǐng)求多次充電服務(wù)。為了研究單IoTD 與多UAV 之間的能量交易過程,本文基于兩階段的單主多從Stackelberg 博弈模型討論兩者之間交互時(shí)的策略選擇。IoTD 作為主方?jīng)Q定給予所有UAV的服務(wù)獎(jiǎng)勵(lì),每架UAV 作為從方根據(jù)獎(jiǎng)勵(lì)分配決定服務(wù)IoTD 的充電時(shí)長(zhǎng)。系統(tǒng)參數(shù)如表1 所示。
表1 系統(tǒng)參數(shù)
其中,α和β是常數(shù)。文獻(xiàn)[19]提出自由空間下LoS和NLoS 通信鏈路的路徑損耗模型為
其中,fc和s分別代表載波頻率和光速,γLoS和γNLoS分別是對(duì)應(yīng)2 種通信鏈路的大尺度路徑損耗系數(shù)并且有γLoS<γNLoS。進(jìn)一步,可以得到IoTD與UAVi的平均信道增益為
在隨機(jī)環(huán)境下,即使已知IoTD 與UAVi的具體位置,仍舊無法準(zhǔn)確地知道接下來兩者之間的通信鏈路將會(huì)是LoS 還是NLoS。為了同時(shí)考慮這2種條件,本文借鑒文獻(xiàn)[15]和文獻(xiàn)[19],采用平均信道增益進(jìn)行WPT 建模。
若UAVi確定服務(wù)IoTD 的充電時(shí)長(zhǎng)it,IoTD將從此UAV 補(bǔ)充獲得以下能量
在能量交易中,IoTD 主要解決充電服務(wù)過程中能量需求和服務(wù)獎(jiǎng)勵(lì)之間的權(quán)衡問題。令C(t) 表示IoTD 在t時(shí)段的能耗實(shí)際值,對(duì)應(yīng)預(yù)估值為。本文采用N步的移動(dòng)平均法來預(yù)測(cè)每一個(gè)t時(shí)段的能耗情況。在t時(shí)段開始時(shí),IoTD 預(yù)測(cè)接下來一個(gè)完整t時(shí)段內(nèi)能耗為
其中,λ和μ是IoTD 自定義的常數(shù)。
本文將單IoTD 和多UAV 之間的策略交互建模為一個(gè)兩階段的單主多從Stackelberg 博弈模型,在用戶側(cè)實(shí)現(xiàn)能量?jī)?yōu)化研究。IoTD 作為主方?jīng)Q定所有UAV 的總獎(jiǎng)勵(lì)R,各UAV 作為從方用充電時(shí)長(zhǎng)it來響應(yīng)回復(fù)IoTD,并且在所有UAV 之間還存在一個(gè)非合作博弈。具體定義如下。
第一階段:獎(jiǎng)勵(lì)設(shè)置。IoTD 調(diào)節(jié)對(duì)所有UAV的獎(jiǎng)勵(lì)R,以最大化效用函數(shù)V。
其中,t={t1,…,tI}是所有UAV 的策略集合。
第二階段:能量供應(yīng)。根據(jù)總獎(jiǎng)勵(lì)R和其他UAV 的策略集合t-i(即t-i∪ti=t),每架UAVi優(yōu)化充電時(shí)長(zhǎng)ti以最大化效用函數(shù)Ui。
Stackelberg 博弈的目標(biāo)是找到唯一的Stackelberg 均衡。在此均衡狀態(tài)下,主方在給定各從方的最優(yōu)策略下可最大化個(gè)體效用,此時(shí)IoTD和所有的UAV 都沒有單方面改變當(dāng)前策略的動(dòng)機(jī)。將Stackelberg 均衡解定義如下。
定義1Stackelberg 均衡。當(dāng)且僅當(dāng)IoTD 和每架UAV 分別滿足以下不等式時(shí),策略組 (R*,t*)是Stackelberg 均衡。
接下來,本文運(yùn)用逆向歸納法來求解所提模型的Stackelberg 均衡。根據(jù)建立的Stackelberg 博弈模型,先分析出各UAV 作為從方參與服務(wù)IoTD 的條件并探討特殊條件下所有UAV 的總策略,隨后求解IoTD 作為主方的最優(yōu)策略并定量分析不同UAV數(shù)量對(duì)此策略的影響。相較于原始方法,所提方法在條件分析與策略討論方面進(jìn)行了創(chuàng)新。
首先,從從方角度討論任意UAVi的最優(yōu)策略求取UAVi的效用函數(shù)Ui關(guān)于ti的一階、二階導(dǎo)數(shù),可得
算法1求解集合J 算法
本文進(jìn)一步分析不同數(shù)量的UAV 對(duì)IoTD 的最終付出的服務(wù)總獎(jiǎng)勵(lì)R*的影響。依據(jù)式(14),增加某個(gè)UAVj為此IoTD 提供充電服務(wù),此UAV 滿足
為了驗(yàn)證所提方案的有效性,本節(jié)將通過實(shí)驗(yàn)仿真來分析和評(píng)估方案性能。假設(shè)某IoTD 處于I=3 架UAV 的共同WPT 范圍內(nèi),UAV 部分參數(shù)參考DJI M300,例如,其懸停功率上限為60 W,飛行高度上限設(shè)置為5 m。每架UAV 配備Powercast 公司的無線充電開發(fā)工具包,支持3 W 以上的發(fā)射功率(如TX91501-3W-ID 產(chǎn)品)。為了提高WPT 效率,IoTD與任意UAV 的距離限制為10 m 之內(nèi),傳輸、接收能量的效率和平均信道增益模型借鑒文獻(xiàn)[21],式(1)~式(3)中,α=4.88,β=0.43,fc=2.5GHz,γLoS=0.1,γNLoS=23。對(duì)于IoTD,效用函數(shù)V中的λ=1.83×106,μ=1和Eth=30 mJ。
在圖2 中,cΔ 表示所有UAV 的c值的變化量,當(dāng)所有UAV 的c都變大時(shí),即在滿足相同的能量需求時(shí),IoTD 需要付出更多的服務(wù)獎(jiǎng)勵(lì),此時(shí)IoTD 理性地降低R*,減少能量需求,避免過高的經(jīng)濟(jì)開銷帶來個(gè)體效用V的減少。因此,所有方案得到的R*均隨著 Δc增大而減少。另外,從圖2中可以看出,方案1 嚴(yán)格要求所有UAV 讓利于IoTD,使IoTD 能夠付出最小的服務(wù)獎(jiǎng)勵(lì),此方案為理想方案,在現(xiàn)實(shí)應(yīng)用中因缺乏公平性難以實(shí)現(xiàn)。相反地,本文方案以IoTD 作為Stackelberg博弈的主方,在已知所有UAV 的先驗(yàn)知識(shí)下優(yōu)化服務(wù)獎(jiǎng)勵(lì),由于占據(jù)信息優(yōu)勢(shì)和決策主動(dòng)權(quán),本文方案的IoTD 在不同 Δc條件下付出的服務(wù)獎(jiǎng)勵(lì)始終低于方案2 和方案3。例如,當(dāng)Δc=10%時(shí),本文方案相對(duì)于這2 種基準(zhǔn)方案分別下降約8%和21%。通過方案對(duì)比可知,本文方案優(yōu)于現(xiàn)實(shí)中可用的基準(zhǔn)方案,有效地降低了IoTD 在能量交易中的經(jīng)濟(jì)開銷,從而提高用戶滿意度,實(shí)現(xiàn)用戶側(cè)能量?jī)?yōu)化。
圖2 不同方案隨不同UAV 的充電開銷c 變化的 R*對(duì)比
以下實(shí)驗(yàn)仿真分析不同系統(tǒng)參數(shù)對(duì)于Stackelberg 博弈模型的主方(IoTD)和各從方(UAV)的策略影響。
在本文Stackelberg 博弈模型中,作為主方的IoTD 決策給予所有UAV 的總獎(jiǎng)勵(lì)R,從而獲得不同的效用值V。由圖3 可知,IoTD 在不同λ與R條件下會(huì)得到不同的V,并且總是存在一個(gè)最優(yōu)的R(即R*)使V最大化(即V*)?;谑?7),λ對(duì)于V的計(jì)算起積極作用,因而在相同R條件下,V隨著λ增大而增大。λ增大意味著IoTD 可以通過獲取更多能量而提高用戶滿意度,在衡量能量需求與經(jīng)濟(jì)開銷時(shí),此時(shí)IoTD 傾向于優(yōu)先滿足能量需求,從而理性地提高R*,所得V*也隨之提高。
圖3 不同λ 下效用值V 隨總獎(jiǎng)勵(lì)R 的變化
圖4~圖6 分別展示了不同UAV 數(shù)量、不同UAV 的充電開銷c和充電能力ρ變化對(duì)IoTD 最終付出的服務(wù)總獎(jiǎng)勵(lì)R*影響。圖4 展示了當(dāng)更多合適UAV 加入為IoTD 提供充電服務(wù)時(shí),R*會(huì)出現(xiàn)不同程度的增加,驗(yàn)證了2.2 節(jié)的分析結(jié)果。這與實(shí)際應(yīng)用中的直覺認(rèn)識(shí)相一致,IoTD 在花費(fèi)相同的經(jīng)濟(jì)成本條件下可以與更多的UAV 進(jìn)行能量交易,從而獲得更多的能量供應(yīng),使IoTD 自然愿意提高服務(wù)總獎(jiǎng)勵(lì)以盡可能地滿足自身的能量需求,確保個(gè)體效用最大化。另外,根據(jù)式(20),能量供應(yīng)閾值Eth的提高也有助于增大R*。在圖5中,當(dāng)所有UAV 的c都變大時(shí),這要求IoTD 付出更多服務(wù)獎(jiǎng)勵(lì)以有效地激勵(lì)UAV 進(jìn)行能量供應(yīng),此時(shí)不利于IoTD 與UAV 之間交易能量,因此IoTD 理性地選擇降低R*。在圖6 中,Δρ表示所有UAV 的ρ值的變化量,當(dāng)所有UAV 的ρ都變大時(shí),說明WPT 效率提高,這有利于UAV 向IoTD 傳輸能量,IoTD 在付出相同的服務(wù)獎(jiǎng)勵(lì)時(shí),可以獲得更多的能量供應(yīng),此時(shí)IoTD 更愿意提高R*,爭(zhēng)取滿足更多能量需求以提高用戶滿意度,進(jìn)而提高個(gè)體效用V。圖7 展示了UAV 充電能力和充電開銷對(duì)IoTD選擇能量供應(yīng)的影響。如前所述,所有UAV 的c對(duì)能量交易起消極作用,所有UAV 的ρ對(duì)能量交易起積極作用。例如,當(dāng)Δc=-5 0%時(shí),如果 Δρ從減少10%變化為增大10%,? R*將可以提高約39%。
圖4 UAV 數(shù)量對(duì) R*的影響
圖5 UAV 充電開銷對(duì) R* 的影響
圖6 UAV 充電能力對(duì) R* 的影響
圖7 UAV 充電能力和充電開銷對(duì)IoTD 選擇能量供應(yīng)的影響
接下來,為了觀察從方的策略變化,不妨選取第1 架UAV 作為觀察對(duì)象。根據(jù)式(10),此UAV的最優(yōu)充電時(shí)長(zhǎng)t*會(huì)隨著IoTD 給予的總獎(jiǎng)勵(lì)R、其他UAV 的策略選擇X,以及自身的ρ和c變化而變化。從圖8 中可知,t*會(huì)隨著c增大而減少,相反地,會(huì)隨著ρ增大而增大,這符合現(xiàn)實(shí)的認(rèn)知規(guī)律。因此,當(dāng)Δc=0 時(shí),若ρΔ 從10%降低至-10%,對(duì)應(yīng)的t*將減少超過50%。另外,從圖9中可知,不斷提高的R有助于增大t*,而X的作用視R的情況而定。例如,當(dāng)R比較小時(shí),若X增大,IoTD 沒有足夠的動(dòng)機(jī)提高t*;但當(dāng)R比較大時(shí),若X增大,IoTD 為了爭(zhēng)取足夠多的服務(wù)獎(jiǎng)勵(lì),選擇跟隨其他UAV 的策略提高自身的t*。
圖8 充電能力和充電開銷對(duì) t*的影響
圖9 充電總獎(jiǎng)勵(lì)和其他UAV 的策略選擇對(duì) t*的影響
本文提出一種基于Stackelberg 博弈的UAV 輔助無線供能物聯(lián)網(wǎng)能量交易方案。為了研究用戶與UAV 之間的自由公平能量交易,Stackelberg 博弈模型以IoTD 作為主方和各UAV 作為從方,在兼顧各UAV 個(gè)體理性條件下最大化IoTD 的個(gè)體效用。在以用戶為中心的能量交易過程中,IoTD 決策給予所有UAV 的總獎(jiǎng)勵(lì)。每架UAV 通過能量供應(yīng)公平地競(jìng)爭(zhēng)獲取獎(jiǎng)勵(lì),它們參考WPT 過程中的平均信道增益以決策提供給IoTD 的充電時(shí)長(zhǎng)。隨后,本文通過理論方法求解與分析Stackelberg 博弈模型的均衡解。仿真結(jié)果表明,本文方案有利于減少用戶在能量交易中的經(jīng)濟(jì)開銷,提高用戶滿意度,實(shí)現(xiàn)用戶側(cè)能量?jī)?yōu)化。后續(xù)工作將會(huì)采用人工智能方法精準(zhǔn)預(yù)測(cè)物聯(lián)網(wǎng)終端設(shè)備的能耗情況,進(jìn)一步研究多用戶與多UAV 之間的能量交易問題。