劉 勇,楊 錕
(上海理工大學 管理學院,上海 200093)
2022 年國內(nèi)新能源汽車銷量已超過500 萬輛,動力電池的平均壽命大約為6 年,2023—2024 年將迎來第一波退役潮,預計2025 年廢舊動力電池回收市場空間可超過300 億元。近年來,由于“雙碳”政策的持續(xù)推行,新能源汽車電池回收工作得到更多關(guān)注,考慮到城市人口及汽車保有量眾多,新能源汽車電池回收網(wǎng)點的選址顯得尤其重要。當市場上有多家企業(yè)提供電池回收服務時,企業(yè)將通過市場競爭獲得客戶需求,這類問題即為競爭設(shè)施選址問題[1]。
目前電池回收相關(guān)研究主要圍繞選址問題展開,尚未考慮回收企業(yè)的競爭性,但一般的競爭設(shè)施選址問題可為本文提供參考。Esmaeili 等[2]研究了包含供應商、分銷商和客戶的兩條不同供應鏈中的離散型競爭設(shè)施選址問題,將交貨期視為新配送中心和現(xiàn)有配送中心之間的競爭因素,采用分支限界法和遺傳算法求解模型;Yu[3]提出了一個新進入企業(yè)的兩級穩(wěn)健模型,對于大規(guī)模問題,首先通過探索最優(yōu)解給出求解內(nèi)層模型的A 型廣義連續(xù)背包問題(Generalized Continuous Knapsack Problem-A,GCKP-A)算法,然后在改進的基于排序的算法框架中嵌入GCKP-A 和2-opt 策略,提出一種啟發(fā)式算法;Mai 等[4]研究了隨機效用的最大捕獲競爭設(shè)施選址問題,基于目標函數(shù)的凸性和可分離結(jié)構(gòu),提出多切口外近似方法進行求解;Lin 等[5]研究了競爭設(shè)施選址問題的一個變體,將吸引力劃分為離散的級別,以決定設(shè)施的位置和吸引力水平,使利潤最大化,并設(shè)計精確算法進行求解;劉偉偉等[6]研究了考慮碳排放的多產(chǎn)品競爭設(shè)施選址問題,構(gòu)建雙層規(guī)劃模型,先將雙層規(guī)劃轉(zhuǎn)化為有界閉集上的0-1 混合整數(shù)凹規(guī)劃,然后提出具有全局收斂性的分支提升算法進行求解;Fernández等[7]考慮了顧客的最小吸引條件和間隔近似距離,建立非線性約束離散競爭設(shè)施選址模型,先對模型進行線性化,然后提出了一種啟發(fā)式算法進行求解;Shan 等[8]考慮了新進入企業(yè)與現(xiàn)有競爭者之間的定價博弈,提出競爭選址雙層模型,該模型根據(jù)納什均衡原理,通過最大化效益優(yōu)化選址,并設(shè)計啟發(fā)式算法求解該模型;Zarrinpoor[9]提出了一個擁擠系統(tǒng)的雙目標競爭設(shè)施選址模型,試圖同時最大化每個設(shè)施捕獲的需求和最小化系統(tǒng)的總等待時間,采用多目標和聲搜索(Multi-ObjectiveHarmony Search,MOHS)算法和非支配排序遺傳算法-Ⅱ(Non-dominated Sorting Genetic Algorithm-Ⅱ,NSGA-Ⅱ)求解該模型。
目前考慮排隊論的競爭設(shè)施選址研究較少,本文提出考慮排隊系統(tǒng)的新能源汽車電池回收網(wǎng)點競爭選址的新模型;考慮到人類學習優(yōu)化(Human Learning Optimization,HLO)算法存在前期收斂較慢、尋優(yōu)精度不高和求解穩(wěn)定性不高的問題,本文引入精英種群反向?qū)W習策略、團隊互助學習算子和調(diào)和參數(shù)自適應策略,提出改進人類學習優(yōu)化(Improved Human Learning Optimization,IHLO)算法。最后以長江三角洲、上海市為例分別進行大、中、小規(guī)模的仿真實驗,實驗結(jié)果驗證了新模型的可行性和新算法的有效性。
市場上有兩家知名新能源汽車電池回收企業(yè)A 和B,均已有一些回收網(wǎng)點,新興企業(yè)C 也有一部分回收網(wǎng)點,但由于規(guī)模太小,市場影響力不足,將新建m個回收網(wǎng)點,與企業(yè)A、B 競爭市場份額,由于市場中的需求量在一定時間內(nèi)不變,當企業(yè)A、B 吸引大量需求量時,企業(yè)C 營業(yè)額將減小,企業(yè)C 若能通過合理的選址布局形成競爭優(yōu)勢,則能爭奪更多需求量,本文目標是使企業(yè)C 在與企業(yè)A、B 競爭需求量的條件下,通過新建設(shè)施的選址決策達到已建設(shè)施和新建設(shè)施的最大總利潤。
假設(shè)條件:1)需求點和回收網(wǎng)點在區(qū)域內(nèi)離散分布,三家企業(yè)的已建設(shè)施點、企業(yè)C 的候選新建設(shè)施點、需求點的坐標均已知。此條件確定本文問題為組合優(yōu)化問題,且已知坐標將用于計算需求點到設(shè)施點的距離。2)需求點的需求量、需求點單位需求量帶來的收益、三家企業(yè)的回收價格、企業(yè)C 設(shè)施點的固定成本均已知。此條件用于計算企業(yè)C 新建設(shè)施點和已建設(shè)施點的利潤和成本。3)顧客根據(jù)概率選擇設(shè)施點,概率大小取決于設(shè)施點的效用所占比例。此條件確定顧客的概率選擇行為,以此計算顧客選擇每個設(shè)施點的概率。4)各需求點的需求量相互獨立且服從同一正態(tài)分布,即ai~N(μ,σ2)。此條件將用于化簡式(20)。5)設(shè)施點對需求點的效用與設(shè)施點到需求點的距離、排隊系統(tǒng)服務強度負相關(guān),與回收價格正相關(guān),成本與顧客平均排隊時間正相關(guān)。此條件用于構(gòu)建模型中的各項表達式。
模型所用集合設(shè)置如下:i表示需求點,I表示需求點集合,i∈I;j表示企業(yè)C 候選設(shè)施點,J表示企業(yè)C 候選設(shè)施點集合,j∈J;r表示競爭企業(yè)A 已建設(shè)施點,R表示競爭企業(yè)A 已建設(shè)施點集合,r∈R;s表示競爭企業(yè)B 已建設(shè)施點,S表示競爭企業(yè)B 已建設(shè)施點集合,s∈S;v表示企業(yè)C 已建設(shè)施點,V表示企業(yè)C 已建設(shè)施點集合,v∈V。
模型所用參數(shù)設(shè)置如下:λj表示系統(tǒng)單位時間產(chǎn)生的平均需求量;μj表示單個服務臺單位時間處理的平均需求量;ρj表示系統(tǒng)服務強度;P(j0)表示系統(tǒng)中顧客數(shù)為0 的概率;Lj表示系統(tǒng)中正在排隊的顧客數(shù);Wj表示每個顧客的平均排隊時間;Uj表示每個顧客的平均總逗留時間;cij表示由回收價格、距離、排隊系統(tǒng)服務強度組成的代價函數(shù);dij表示需求點i到設(shè)施點j的距離;uij表示設(shè)施點j對需求點i的效用;pij表示需求點i的顧客選擇設(shè)施點j的概率;cj表示設(shè)施點j的固定成本;cv表示設(shè)施點v的固定成本;c1表示企業(yè)C 候選點的服務臺建設(shè)成本;c2表示企業(yè)C 候選點的排隊時間成本;c3表示企業(yè)C 已建點的服務臺建設(shè)成本;c4表示企業(yè)C 已建點的排隊時間成本;ai表示i點的需求量;e表示單個服務臺成本;f表示單位需求量帶來的收益;g表示回收價格;m表示企業(yè)C新建回收網(wǎng)點的總數(shù);n表示服務臺數(shù);C表示新建設(shè)施點總成本不超過其投資限額;Q表示容量限制;T表示門檻約束;D表示最長排隊時間;E表示預期最長總逗留時間;N表示系統(tǒng)中顧客數(shù);α表示滿足門檻約束的最小期望概率;β表示滿足總逗留時間約束的最小期望概率;γ表示顧客需要排隊的最大容忍概率。
模型所用決策變量設(shè)置如下:yj表示如果選擇候選點j作為回收網(wǎng)點,yj=1;否則yj=0。
回收網(wǎng)點的服務臺數(shù)有限,當系統(tǒng)內(nèi)顧客數(shù)多于服務臺數(shù)時需要排隊等待。首先考慮如下排隊系統(tǒng):回收網(wǎng)點j有n個服務臺,顧客到達時間間隔服從參數(shù)為λj的泊松分布,單個顧客服務時間服從參數(shù)為μj的指數(shù)分布,則此系統(tǒng)可視為M/M/n排隊系統(tǒng)[10],第一個M 表示顧客到達時間間隔服從泊松分布,第二個M 表示單個顧客服務時間服從指數(shù)分布,n表示服務臺數(shù),排隊系統(tǒng)關(guān)鍵指標如下:
其中:Uj表示每個顧客的平均總逗留時間,總逗留時間等于排隊時間加服務時間,Pj(N≥k)表示系統(tǒng)中顧客數(shù)N≥k的概率,當k=n時,Pj(N≥k)表示顧客必須排隊的概率。
本文提出代價函數(shù)cij表達式如下:
其中:e 為自然常數(shù),a1、b1、d1、e1均為常數(shù)??紤]到顧客的概率選擇行為,本文采用Logit 效用模型[11],企業(yè)C 候選設(shè)施點j對需求點i的效用uij表達式如下:
企業(yè)A、B、C 已建設(shè)施點對需求點的效用都采用式(7)的方式計算。需求點i訪問企業(yè)C 候選設(shè)施點j的概率如下:
需求點i訪問企業(yè)C 已建設(shè)施點v的概率如下:
需求點i訪問企業(yè)A 已建設(shè)施點r的概率如下:
需求點i訪問企業(yè)B 已建設(shè)施點s的概率如下:
企業(yè)C 新建設(shè)施點成本表達式如下:
其中:a2、b2、d2均為常數(shù)。企業(yè)C 已建設(shè)施點成本表達式如下:
其中各項與候選點成本表達式相對應。
根據(jù)上述分析,本文以企業(yè)C 為研究對象,以企業(yè)C 已建設(shè)施和新建設(shè)施的總利潤最大為目標,建立如下新能源汽車電池回收網(wǎng)點競爭設(shè)施選址數(shù)學模型:
目標函數(shù)包括4 部分,分別表示企業(yè)C 新建設(shè)施利潤、企業(yè)C 已建設(shè)施利潤、企業(yè)C 新建設(shè)施成本和企業(yè)C 已建設(shè)施成本。式(17)表示企業(yè)C 新建設(shè)施總數(shù);式(18)表示新建設(shè)施點成本約束;式(19)表示新建設(shè)施點容量約束;式(20)表示新建設(shè)施點門檻約束,即每個新建設(shè)施點達到門檻需求量T的概率不低于α,實驗中設(shè)置了T和α的值;式(21)表示新建設(shè)施點排隊時間約束,結(jié)合式(3),Wj表示顧客平均排隊時間,因此實驗中設(shè)置了最長排隊時間D的值;式(22)表示新建設(shè)施點總逗留時間約束,即每個新建設(shè)施點的顧客平均總逗留時間小于E的概率不低于β,此約束需用到式(4),實驗中設(shè)置了E和概率β的值;式(23)表示新建設(shè)施點顧客必須排隊的概率約束,此約束需用到式(5),實驗中設(shè)置了概率γ的值;式(24)表示選址決策變量yj取值為0 或1。
對于式(20),由于本文已假設(shè)各需求點的需求量相互獨立且服從同一正態(tài)分布ai~N(μ,σ2),因此,對于任意企業(yè)C候選設(shè)施j∈J的均值為方差為根據(jù)大數(shù)定律和中心極限定律[12],可化簡式(20)并替換為式(25):
對于M/M/1 排隊系統(tǒng),顧客總逗留時間服從參數(shù)為μ-λ的指數(shù)分布,為方便模型求解,本文假設(shè)M/M/n排隊系統(tǒng)的顧客總逗留時間Uj服從參數(shù)為nμj-λj的指數(shù)分布,Uj概率密度函數(shù)如下:
因此,可化簡式(22)并替換為式(28):
本文研究的新能源汽車電池回收網(wǎng)點競爭選址問題屬于NP-hard 問題,采用優(yōu)化算法進行求解。HLO 算法是一種新型的群智能優(yōu)化算法,針對其前期收斂速度較慢、尋優(yōu)精度不夠高和求解穩(wěn)定性不夠高等問題,本文在HLO 算法基礎(chǔ)之上引入精英種群反向?qū)W習策略、團隊互助學習算子、調(diào)和參數(shù)自適應策略,進而提出IHLO 算法。
HLO 算法由Wang 等[13]于2014 年提出,該算法不同于基于普通生物或物理現(xiàn)象的智能優(yōu)化算法,而是模擬人類的學習行為。HLO 算法的核心內(nèi)容包含隨機學習算子、個體學習算子和社會學習算子這3 個學習算子。聯(lián)想到人類的學習過程,在沒有任何先驗知識的情況下,只能漫無目的地隨機學習,這樣的學習模式比較低效,但同時也可能啟發(fā)對未知領(lǐng)域的認知;人類在隨機學習一段時間后會積累經(jīng)驗,這時可以根據(jù)經(jīng)驗調(diào)整學習方向,以之前較好的經(jīng)驗為基準繼續(xù)自主學習;人類在自主學習一段時間后可能遇到瓶頸,無法突破自我,這時,人類會與周圍的人交流學習經(jīng)驗,互相學習,結(jié)合他人的經(jīng)驗調(diào)整學習方向。HLO 算法通過充分融合這三種學習機制,不斷更新迭代尋找最優(yōu)值,它的優(yōu)勢主要在于全局搜索能力強、收斂較快、參數(shù)較少以及易實現(xiàn),因此,近幾年來被大規(guī)模應用于各類工程優(yōu)化問題上。
2.1.1 初始化
HLO 算法采用二進制編碼框架,每個個體由一個二進制字符串表示:
其中:xi表示第i個個體,N為種群的規(guī)模,M表示解的維數(shù),二進制字符串的每一位都被隨機初始化為0 或1,xij表示第i個個體的第j維。
2.1.2 學習算子
1)隨機學習算子。
HLO 算法模擬人類隨機學習過程開發(fā)的隨機學習算子表達式如下:
其中rand是(0,1)內(nèi)均勻分布的隨機數(shù)。
2)個體學習算子。
HLO 算法模擬人類自主學習的過程,將進行個體學習的經(jīng)驗儲存于個體知識庫(Individual Knowledge Database,IKD),IKD的表達式以及個體進行個體學習的形式如下:
其中:IKDi表示第i個個體的知識庫;G表示候選解的個數(shù);IKDi的每一個行向量都表示個體i的一個最優(yōu)解,ikdi1表示個體i的最優(yōu)候選解,ikdiG表示個體i的最差候選解,越靠前最優(yōu)解越佳;ikdip表示個體i的第p個最優(yōu)解,p是1 到G之間的隨機整數(shù),決定個體學習哪一個個體最優(yōu)解;ikipj表示第i個個體的第p個最優(yōu)解的第j維。
3)社會學習算子。
HLO 算法模擬人類社會學習的過程,將整個社會的學習經(jīng)驗儲存于社會知識庫(Social Knowledge Database,SKD),SKD的表達式以及個體進行社會學習的形式如下:
其中:H表示候選解數(shù);skdq表示整個社會的第q個最優(yōu)解,q是1~H的隨機整數(shù),決定個體學習哪一個社會最優(yōu)解;skqj表示第q個最優(yōu)解的第j維。
HLO 算法通過控制每種學習方式的比例產(chǎn)生新解,完整的學習策略如下:
其中:rand是(0,1)均勻分布的隨機數(shù),rand(0,1)表示隨機學習算子,隨機生成0 或1,pr、pi-pr、1 -pi分別表示算法執(zhí)行隨機學習算子、個體學習算子、社會學習算子的概率。
HLO 算法雖在部分優(yōu)化問題上表現(xiàn)優(yōu)異,但也存在一些不足:1)HLO 算法的種群初始化未采用任何優(yōu)化策略,初始種群可能不夠豐富,易導致算法陷入局部最優(yōu);同時,較差的初始解不利于學習經(jīng)驗的更新,算法在起步階段很難快速收斂到較優(yōu)區(qū)域。2)HLO 算法中的個體學習算子和社會學習算子可將學習經(jīng)驗分享給新種群,但個體學習和社會學習跨度較大,學習經(jīng)驗差異也較大,融合之后的學習經(jīng)驗不一定對新種群有積極作用,導致算法尋優(yōu)精度提升不明顯。3)HLO 算法的參數(shù)pr和pi設(shè)置為固定值,不利于個體對搜索空間的全面勘探,無法確保各種學習算子在有利區(qū)域發(fā)揮自身優(yōu)勢,導致求解效果存在偶然性,算法穩(wěn)定性不足。
針對HLO 算法前期收斂較慢的問題,本文提出精英種群反向?qū)W習策略,在算法初始化時讓種群反向?qū)W習,在原種群與反向?qū)W習后的種群中保留更優(yōu)個體生成精英種群,將精英種群作為初始化種群,使算法在前期能快速找到較優(yōu)解;針對HLO 算法尋優(yōu)精度較低的缺陷,本文提出團隊互助學習算子,在個體學習與社會學習之間加入雙人小組學習和多人小組學習,使不同學習階段之間更連貫,同時擴大學習面,加強算法的全局勘探能力,提高尋優(yōu)精度;針對HLO 算法求解穩(wěn)定性較低的缺陷,本文提出調(diào)和參數(shù)自適應策略,提出在不同學習階段調(diào)和使用的自適應參數(shù)和高斯分布動態(tài)參數(shù),提高學習的靈活性,確保種群到達最佳學習區(qū)域,提高算法穩(wěn)定性。
2.2.1 精英種群反向?qū)W習策略
反向?qū)W習被廣泛應用于算法的初始化過程中[14],假設(shè)a、b分別是(a,b)區(qū)間中的上下限,j代表維數(shù),p是原值,則P是原值反向?qū)W習后的值,表達式如下:
考慮本文的二進制編碼框架,個體的每一維都為0 或1,本文將所有為1 的維的反向?qū)S設(shè)置為1,得到反向?qū)W習種群,具體過程為:如果原初始化種群個體xi中的第一維xi1為1,則反向?qū)W習種群的個體xi中的第M維xi(M+1-1)為1;如果原初始化種群個體xi中的第j維xij為1,則反向?qū)W習種群的個體xi中的第M+1 -j維xi(M+1-j)為1,表達式如下:
生成反向?qū)W習種群后,計算原初始化種群和反向?qū)W習種群的適應度值,將更優(yōu)的個體保留至精英種群,并將精英種群作為最終的初始化種群。
2.2.2 團隊互助學習算子
在HLO 算法中,種群在完成個體學習后會進行社會學習,但是實際生活中人類往往還會學習鄰近的群體,因此提出小組學習算子[15]作為過渡??紤]到社會群體的龐大性和多樣性,單一的小組學習依然無法做到學習經(jīng)驗的完全共享,且針對不同問題,小組內(nèi)的個體數(shù)難以設(shè)定,于是本文提出團隊互助學習算子,在個體學習與社會學習之間加入雙人小組學習和多人小組學習,使雙人小組和多人小組互相學習團隊經(jīng)驗,以此強化個體間的信息交流,提高尋優(yōu)精度。將雙人小組和多人小組學習的經(jīng)驗分別儲存在雙人小組知識庫(Two-person Group Knowledge Database,TGKD)和多人小組知識庫(Multi-person Group Knowledge Database,MGKD),TGKD和MGKD的表達式以及個體進行團隊互助學習的形式如下:
其中:TGKDk表示第k個雙人小組的知識庫,O表示共有O個小組,F(xiàn)表示候選解數(shù),tgkdkr表示雙人小組k的第r個最優(yōu)解,r是1~F的隨機整數(shù),決定個體學習哪一個候選解,tgkkrj表示第k個小組的第r個最優(yōu)解的第j維;MGKDl表示第l個多人小組的知識庫,P表示共有P個小組,E表示候選解的個數(shù),mgkdls表示多人小組l的第s個最優(yōu)解,s是1~E的隨機整數(shù),決定個體學習哪一個候選解,mgklsj表示第l個小組的第s個最優(yōu)解的第j維。TGKD和MGKD的更新策略與IKD、SKD相同。
加入團隊互助學習算子后HLO 算法的完整學習策略如下:
其中:rand是(0,1)內(nèi)均勻分布的隨機數(shù),pr、pi-pr、pt-pi、pm-pt、1 -pm分別表示算法執(zhí)行隨機學習、個體學習、雙人小組學習、多人小組學習、社會學習的概率。
2.2.3 調(diào)和參數(shù)自適應策略
HLO 算法中的參數(shù)pr和pi被設(shè)為定值,為使參數(shù)值的選擇不受具體優(yōu)化問題影響,提出pr的自適應策略[16]表達式如下:
其中:prmin1和prmin2是pr的兩個最小值,prmax表示pr的最大值,Sp是預定義的兩個自適應階段的轉(zhuǎn)折點,Itemax和Ite分別是最大迭代次數(shù)和當前迭代次數(shù)。此自適應過程分為兩個階段:第一階段pr線性增加,隨機學習比重提高,有利于增加種群多樣性,避免算法早熟收斂;第二階段pr線性減小,促使種群向優(yōu)異個體學習,展開局部搜索。
考慮到不同個體間學習能力的差異,且人類智商遵循高斯分布,使用高斯分布模擬個體學習能力以動態(tài)調(diào)整參數(shù)pi[17]。首先,算法初始化時為每個個體賦予不同的pi,且服從高斯分布:
每次迭代執(zhí)行一次pi的動態(tài)更新,在每次迭代時,μ設(shè)置如式(45):
其中:pi,j是第j個個體的pi值;若全局最優(yōu)值未更新,則用更新后的μ為所有pi使用高斯分布賦值。
參數(shù)pr決定了算法執(zhí)行隨機學習的概率,隨機學習類似遺傳算法里的變異算子,因此pr值通常設(shè)置較小且相對穩(wěn)定。個體學習、團隊互助學習、社會學習是種群積累學習經(jīng)驗的主要過程,也是算法的核心,參數(shù)pi、pt、pm直接影響算法的效率,但在缺少先驗知識的情況下難以設(shè)置最優(yōu)值。基于上述分析,本文提出調(diào)和參數(shù)自適應策略,參數(shù)pr采用式(43)所示的自適應策略,有利于豐富種群多樣性,幫助個體擺脫局部最優(yōu),參數(shù)pi、pt、pm均采用式(44)~(46)所示的高斯分布動態(tài)調(diào)整策略,有利于協(xié)調(diào)各種學習機制,使種群達到最佳學習狀態(tài)。兩種參數(shù)策略調(diào)和使用可以互取長處,使參數(shù)設(shè)置更合理;同時隨著算法迭代,靈活的參數(shù)機制可提高種群學習效率,確保學習經(jīng)驗通過各種學習機制互相傳遞,提高算法穩(wěn)定性。
2.2.4 更新策略
產(chǎn)生新解后,根據(jù)適應度函數(shù)計算新解的適應度值,并更新IKD、TGKD、MGKD、SKD。若當前解優(yōu)于IKD里的最差候選解或IKD里的候選解數(shù)少于G時,則保留新解至IKD;若當前解優(yōu)于TGKD里的最差候選解或TGKD里的候選解數(shù)量少于F時,則保留新解至TGKD;若當前解優(yōu)于MGKD里的最差候選解或MGKD里的候選解數(shù)量少于E時,則保留新解至MGKD;若當前解優(yōu)于SKD里的最差候選解或SKD里的候選解數(shù)量少于H時,則保留新解至SKD。
2.2.5 算法流程
步驟1 初始化各參數(shù),初始化種群,使用精英種群反向?qū)W習策略優(yōu)化初始化種群。
步驟2 根據(jù)目標函數(shù)計算適應度值,初始化IKD、TGKD、MGKD、SKD。
步驟3 按照式(42)完成學習過程,使用調(diào)和參數(shù)自適應策略調(diào)整參數(shù),完成學習后得到下一代的新解。
步驟4 對于新解,將違反約束條件的解修改成可行解。
步驟5 根據(jù)目標函數(shù)計算適應度值,根據(jù)更新策略更新IKD、TGKD、MGKD、SKD。
步驟6 若未超過最大迭代次數(shù),則轉(zhuǎn)步驟3;否則,輸出結(jié)果。
2.2.6 算法時間復雜度
HLO 算法的時間復雜度如下:假設(shè)群體規(guī)模為N,搜索空間維度為D,則HLO 算法的初始化群體的時間復雜度為O(ND),種群進行隨機學習、個體學習、社會學習的時間復雜度為O(N),計算個體適應度值的時間復雜度為O(ND)。同理,IHLO 算法采用精英種群反向?qū)W習策略的時間復雜度為O(N),采用團隊互助學習算子的時間復雜度為O(N),采用調(diào)和參數(shù)自適應策略的時間復雜度為O(N),IHLO 算法總的時間復雜度為O(ND)。因此,IHLO 算法和HLO 算法的時間復雜度處于同一水平,IHLO 算法改進策略并未增加算法的時間復雜度。
為驗證IHLO 算法求解新能源汽車電池回收網(wǎng)點競爭選址模型的有效性,本文實驗分為三部分。首先以上海市部分區(qū)域為例說明案例,用IHLO 算法進行求解,對選址結(jié)果以及模型各部分的含義進行詳細說明;然后采用大、中、小規(guī)模算例,選取改進二進制灰狼(Improved Binary Grey Wolf Optimization,IBGWO)算法[18]、改進二進制粒子群(Improved Binary Particle Swarm Optimization,IBPSO)算 法[19]、HLO 算法[13]、融合學習心理學的人類學習優(yōu)化算法(Human Learning Optimization algorithm based on Learning Psychology,LPHLO)[15]與本文提出的IHLO 算法進行對比;最后采用小規(guī)模算例分析算法改進策略,以探究三種改進策略對算法性能的影響。
本文結(jié)合上海市部分區(qū)域,采用IHLO 算法進行求解。實驗中涉及的經(jīng)緯度均選自百度地圖,采用如式(47),通過坐標計算距離:
其中:α1 和β1 表示某一點的經(jīng)度和緯度,α2 和β2 表示另一點的經(jīng)度和緯度,S表示此兩點間的距離值。
模型包含諸多約束條件,若將違反約束條件的解直接刪除,則將浪費許多個體的學習結(jié)果,降低算法效率,因此,本文考慮在算法中將違反約束條件的解修改成可行解:對于式(18),將這個解中成本最高的點由未被選中的成本最低的點替換;對于式(19)~(20),將這個解中所有違反人流量約束、門檻約束的點由未被選中的吸引力適中的點替換;對于式(21),將這個解中所有違反排隊時間約束的點由沒有選中的排隊時間最少的點替換;對于式(22),將這個解中所有違反總逗留時間約束的點由沒有選中的λ-nμ值最小的點替換;對于式(23),將這個解中所有違反排隊概率約束的點由沒有選中的顧客到達需要等待的概率最小的點替換。
如圖1 所示的小型案例釋義如下:假設(shè)企業(yè)A、B、C 分別有2 個已建電池回收網(wǎng)點,分別用三角形、梯形、六邊形表示。企業(yè)C 有5 個候選電池回收網(wǎng)點C(1X1,Y1),C(2X2,Y2),…,C(5X5,Y5),用實心圓表示;將要在其中新建2 個電池回收網(wǎng)點,用環(huán)形表示;共有10 個需求點,用菱形表示。采用IHLO 算法進行求解,求得最大利潤為533 632 元,選址結(jié)果為[1 0 1 0 0],表明企業(yè)C 應該在候選電池回收網(wǎng)點C(1X1,Y1)和C(3X3,Y3)新建設(shè)施,在這兩點新建電池回收網(wǎng)點后,企業(yè)C 已建設(shè)施和新建設(shè)施的年利潤為533 632 元,圖中兩個環(huán)形表示企業(yè)C 的新建電池回收網(wǎng)點。結(jié)合前文數(shù)學模型,分別表示企業(yè)C 的新建網(wǎng)點營業(yè)額、已建網(wǎng)點營業(yè)額、新建網(wǎng)點總成本和已建網(wǎng)點總成本,算法求得結(jié)果分別為964 713 元、1 084 641 元、738 711 元和777 011 元。
圖1 小型案例Fig.1 Small case
上述應用案例僅采用極小場景進行說明,為進一步驗證算法性能,進行更大規(guī)模實驗。本文采用IHLO 算法以及IBGWO 算法、IBPSO 算法、HLO 算法和LPHLO 分別進行大規(guī)模、中規(guī)模、小規(guī)模的仿真實驗。本文參考上海統(tǒng)計年鑒設(shè)置設(shè)施點、需求點數(shù)量,參考文獻[20-21]設(shè)置投資限額、容量限制、排隊時間、等待概率等模型中的其他參數(shù)。對于小規(guī)模的仿真實驗,本文設(shè)置企業(yè)A、B、C 的已建設(shè)施點數(shù)分別為30、30、20,企業(yè)C 的候選設(shè)施點數(shù)為100,將選擇20 個點新建設(shè)施,需求點為200 個,投資限額C為7 460 000 元,容量限制Q為555 人,人流量的門檻需求量T為297 人,排隊時間不高于3.6 min,總逗留時間不超過18 min 的概率不低于0.9,顧客到達后必須等待的概率不高于0.43;對于中規(guī)模的仿真實驗,本文設(shè)置企業(yè)A、B、C 的已建設(shè)施點分別為60、60、40 個,企業(yè)C 的候選設(shè)施點數(shù)為200,將選擇50 個點新建設(shè)施,需求點數(shù)為500,投資限額C為18 600 000 元,容量限制Q為647 人,人流量的門檻需求量T為364 人,排隊時間不高于3.6 min,總逗留時間不超過18 min 的概率不低于0.9,顧客到達后必須等待的概率不高于0.43;對于大規(guī)模的仿真實驗,本文設(shè)置企業(yè)A、B、C 的已建設(shè)施點數(shù)分別為100、100、50,企業(yè)C 的候選設(shè)施點數(shù)為300,將選擇100 個點新建設(shè)施,需求點數(shù)為700,投資限額C為37 100 000 元,容量限制Q為502 人,人流量的門檻需求量T為288 人,排隊時間不高于3.6 min,總逗留時間不超過18 min 的概率不低于0.9,顧客到達后必須等待的概率不高于0.43。3 種規(guī)模的5 種算法種群規(guī)模均為50。為提高求解效率,本文在實驗中根據(jù)5 種算法的收斂情況設(shè)置最大迭代次數(shù),小規(guī)模問題中5 種算法在運行50 次時均已開始收斂,中規(guī)模問題中5 種算法在運行100 次時均已開始收斂,大規(guī)模問題中5 種算法在運行200次時均已開始收斂,因此3 種規(guī)模的5 種算法迭代次數(shù)分別為50、100、200。
本文通過多次實驗并參考文獻[13,15,18,19],五種算法的相關(guān)參數(shù)設(shè)置如下:
IBGWO 算法:收斂因子a最大值為2;IBPSO:Vmax=4,Vmin=-4,c1=1.5,c2=1.5,wmax=0.9,wmin=0.1;HLO 算法:pr=5/M,pi=0.85+2/M;LPHLO:prmax=10/M,prmin=1/M,ptmax=0.8+1/M,ptmin=0.7+1/M,pimax=0.9+1/M,pimin=0.8+1/M;IHLO算法:prmax=0.015,prmin1=0.002,prmin2=0.005,高斯分布初始均值MU_pi=0.3+2/M,高斯分布標準差SIGMA_pi=0.02/3,MU_pt=0.6+2/M,SIGMA_pt=0.02/3,MU_pm=0.85+2/M,SIGMA_pm=0.02/3,Sp=0.2 ×Itemax,多人小組個體數(shù)g=10。一般對于單目標問題,IKD、TGKD、MGKD、SKD中候選解的個數(shù)設(shè)置為1,以更好地平衡算法性能和計算復雜度[22],因此,HLO 算法、LPHLO 和IHLO 算法中的E、F、G、H均設(shè)置為1。
在5 種算法函數(shù)評價次數(shù)相同的情況下進行30 次對比實驗,并記錄最優(yōu)值、平均值、最差值、標準差、運行時間。編程軟件為Matlab2018a,實驗環(huán)境為Intel i5-6300HQ、2.30 GHz、8 GB RAM、Windows 10。
表1 不同規(guī)模下五種算法的求解結(jié)果Tab.1 Solving results of five algorithms under different scales
對于小規(guī)模算例,IHLO 算法的最優(yōu)值、平均值、最差值和標準差均能取得更好的求解結(jié)果,說明IHLO 算法的求解質(zhì)量和求解穩(wěn)定性優(yōu)于IBGWO 算法、IBPSO 算法、HLO 算法和LPHLO,IHLO 算法運行時間最短,說明求解速度優(yōu)于其他算法;對于中規(guī)模算例,IHLO 算法的五項指標依然優(yōu)于其他四種算法,且隨著規(guī)模增大,IHLO 算法的求解結(jié)果優(yōu)勢更明顯;對于大規(guī)模算例,IHLO 算法相較于其他算法在最優(yōu)值、平均值和最差值上依然表現(xiàn)更佳,進一步證明了IHLO 算法優(yōu)異的求解精度,IHLO 算法的標準差優(yōu)于IBGWO 算法、IBPSO 算法和HLO 算法但略遜于LPHLO,說明IHLO 算法在求解大規(guī)模問題時雖能保證尋優(yōu)精度但犧牲了部分算法穩(wěn)定性,在運行時間這項指標中,IHLO 算法求解速度依然最快。用平均值衡量求解精度,用標準差衡量求解穩(wěn)定性,用運行時間衡量求解速度,對于大、中、小三種不同的規(guī)模,算例結(jié)果顯示IHLO 算法相較于IBGWO 算法求解精度至少提高了0.13%,求解穩(wěn)定性至少提高了10.05%,求解速度至少提高了17.48%。綜上所述,IHLO 算法在三種規(guī)模共15 個指標中的14 個指標上表現(xiàn)最佳,IHLO 算法相較于其他算法在大、中、小規(guī)模問題中均展現(xiàn)了優(yōu)異的求解精度,且求解速度更快,也展現(xiàn)了較為良好的求解穩(wěn)定性。
除了尋優(yōu)精度,收斂速度也是算法重要的評價指標。圖2~4 給出3 種規(guī)模下5 種算法的迭代收斂曲線,收斂曲線均從30 次獨立實驗中隨機抽取。觀察迭代收斂曲線可知,IBGWO 算法前期收斂較快,但中后期尋優(yōu)質(zhì)量不佳,大規(guī)模問題中更為明顯;IBPSO 算法收斂效果較差,求解質(zhì)量低于其他算法;HLO 算法和LPHLO 前期收斂較慢,中后期尋優(yōu)質(zhì)量較好,但收斂效果不佳;IHLO 算法前期收斂快,尋優(yōu)質(zhì)量高,中后期穩(wěn)定收斂。綜上所述,IHLO 算法能在迭代早期快速找到高質(zhì)量解,并在中后期達到穩(wěn)態(tài),具有優(yōu)異的收斂速度。
圖2 小規(guī)模五種算法的迭代收斂曲線比較Fig.2 Comparison of iterative convergence curves of five algorithms in small scale
圖3 中規(guī)模五種算法的迭代收斂曲線比較Fig.3 Comparison of iterative convergence curves of five algorithms in medium scale
圖4 大規(guī)模五種算法的迭代收斂曲線比較Fig.4 Comparison of iterative convergence curves of five algorithms in large scale
IHLO 算法所展現(xiàn)的優(yōu)異的求解精度和收斂速度得益于本文提出的改進策略。通過提出精英種群反向?qū)W習策略,一方面增加種群多樣性,減少算法陷入局部極值的風險,另一方面保留更優(yōu)個體,確保了算法每次迭代的搜索效率,提高算法前期收斂速度;通過提出團隊互助學習算子,拓寬個體學習面,強化個體的學習能力,提高算法尋優(yōu)精度;通過提出調(diào)和參數(shù)自適應策略,提高參數(shù)與學習機制的適配性,靈活運用不同學習機制的優(yōu)勢,平衡個體的學習狀態(tài),增加算法穩(wěn)定性。
為驗證三種改進策略的有效性,進行算法改進對比實驗。由于前文已經(jīng)證明IHLO 算法在不同規(guī)模問題上的優(yōu)異表現(xiàn),且算法改進對比實驗重在分析各個改進策略的影響,因此,此部分實驗均采用小規(guī)模算例即可。在其他條件保持不變的情況下,將引入精英種群反向?qū)W習策略的HLO 算法、引入團隊互助學習算子的HLO 算法、引入調(diào)和參數(shù)自適應策略的HLO 算法、引入精英種群反向?qū)W習策略和團隊互助學習算子的HLO 算法、引入精英種群反向?qū)W習策略和調(diào)和參數(shù)自適應策略的HLO 算法、引入團隊互助學習算子和調(diào)和參數(shù)自適應策略的HLO 算法分別命名為HLO-1、HLO-2、HLO-3、HLO-4、HLO-5、HLO-6,并將實驗結(jié)果與HLO 算法、IHLO 算法進行對比。
表2 是8 種算法獨立運行30 次的實驗結(jié)果。
表2 三種改進對比分析的實驗結(jié)果 單位:104元Tab.2 Experimental results of comparative analysis of three improvements unit:104CNY
分析表2 數(shù)據(jù)可知,HLO-2、HLO-4、HLO-6 和IHLO 的最優(yōu)值明顯優(yōu)于其他算法,因為團隊互助學習算子強化了算法的尋優(yōu)能力,有利于算法找到更優(yōu)解;HLO-3、HLO-5、HLO-6和IHLO 的標準差相較于HLO 算法有明顯減小,因為調(diào)和參數(shù)自適應策略有助于加強算法穩(wěn)定性,使計算結(jié)果穩(wěn)定在較好的區(qū)間里;HLO-1、HLO-4 和HLO-5 的最優(yōu)值和平均值相較于HLO 算法并無明顯提升,因為精英種群反向?qū)W習策略優(yōu)勢在于提高算法前期收斂速度,未對算法尋優(yōu)精度和穩(wěn)定性有顯著影響;IHLO 算法的四項評價指標均表現(xiàn)最優(yōu),說明三種改進策略的融合提升了IHLO 算法各方面性能。
本文以新能源汽車電池回收問題為背景研究競爭設(shè)施選址問題,在引入排隊論的情況下,構(gòu)建以企業(yè)已建設(shè)施和新建設(shè)施總利潤最大為目標的優(yōu)化模型。為求解新能源汽車電池回收網(wǎng)點競爭選址問題,提出改進人類學習優(yōu)化算法,針對人類學習優(yōu)化算法前期收斂速度較慢、尋優(yōu)精度不高、求解穩(wěn)定性不高等缺陷,分別引入精英種群反向?qū)W習策略、團隊互助學習算子、調(diào)和參數(shù)自適應策略進行優(yōu)化。最后分別以長江三角洲、上海市為例進行大、中、小規(guī)模的仿真實驗,并與IBGWO、IBPSO、HLO、LPHLO 進行對比,實驗結(jié)果證明了本文模型的可行性和算法的有效性。后續(xù)可將該算法應用于冷鏈配送中心競爭選址問題。