劉龍青,張國慶
(浙江農(nóng)林大學(xué)經(jīng)濟管理學(xué)院,浙江臨安311300)
逆向物流渠道就是可再利用的廢舊品從產(chǎn)生、回收、處理到再利用的通道。在我國逆向物流渠道運營過程中,廢舊品一般由走街串巷的個體戶(以下簡稱“散戶”)收購并處理,而有經(jīng)營資質(zhì)和技術(shù)規(guī)范的企業(yè)回收處理主體(以下簡稱“公司”)卻沒有穩(wěn)定的廢舊品來源,產(chǎn)能閑置,成為目前逆向物流渠道的主要矛盾。據(jù)筆者調(diào)查分析,消費者之所以將廢棄的物品交給散戶回收,主要原因是便利、價格可以接受、缺乏正規(guī)公司回收渠道信息以及環(huán)保意識薄弱等。而散戶選擇自己處理主要是能夠帶來更高利潤,但散戶自己拆解處理會帶來很多社會問題,如其對廢舊品焚燒、破碎、濃酸提取、廢液直接排放等處理方法會造成生態(tài)環(huán)境破壞和資源嚴(yán)重浪費等。這就不可避免地引發(fā)“檸檬市場”問題(由于信息不對稱造成的逆向選擇和道德風(fēng)險),增加了管理難度[1],加上監(jiān)管部門對污染排放的監(jiān)督行為有限,處罰力度不大,因此為最大限度克服可能產(chǎn)生的“檸檬市場”,必須要求監(jiān)管部門設(shè)計出監(jiān)督、約束、激勵等綜合協(xié)調(diào)機制,科學(xué)合理地管理和實施綜合利益最大化行為。筆者運用博弈分析方法,基于Swarm仿真系統(tǒng)對我國逆向物流渠道沖突根源進行分析,從而找到政策制訂的切入點和破解沖突的方法。
在逆向物流渠道研究方面,學(xué)者們圍繞渠道相關(guān)主體的責(zé)任、行為以及政策環(huán)境等方面展開相關(guān)研究。渠道主體方面,R.C.Savaskan等將廢舊家電逆向物流渠道分成制造商、零售商和第三方等形式,指出每種渠道形式的利潤分配不同[2];為了協(xié)調(diào)各方主體利益,王文賓等提出設(shè)立專門運作和協(xié)調(diào)機構(gòu)[3]。渠道行為方面,高陽等認(rèn)為對渠道的規(guī)范包括政策和個體認(rèn)知等方面,規(guī)范個體回收行為是建立逆向物流規(guī)范體系的微觀基礎(chǔ)[4];江源認(rèn)為社會經(jīng)濟狀況、居民認(rèn)知度以及個體的社會-經(jīng)濟屬性都對回收行為產(chǎn)生影響[5]。渠道政策環(huán)境方面,劉慧慧等認(rèn)為監(jiān)管部門立法、經(jīng)濟管制及經(jīng)濟政策對規(guī)范系統(tǒng)作用更明顯[6]。在監(jiān)管部門的激勵政策方面,周垂日等提出促進廢舊品回收利用的補貼問題[7];鐘永光等提出在對非法拆解小商販懲罰的同時提高正規(guī)回收經(jīng)營者的服務(wù)和回收價格[8];O.Kaya研究了經(jīng)濟性與非經(jīng)濟性激勵相結(jié)合、集中和分散式相結(jié)合的回收渠道協(xié)調(diào)機制問題等[9]。在研究方法上,博弈分析方法運用得較多,也有部分學(xué)者運用實證研究方法。以往的研究觀點和方法為本研究打下了堅實的基礎(chǔ),筆者將運用演化博弈理論結(jié)合仿真運行,剖析緩解渠道沖突的機制設(shè)計。
由于散戶和監(jiān)管部門的行為選擇都受到群體行為及政策環(huán)境的影響,是一個比較選擇的過程,所以適合用博弈分析方法。但完全理性的人不可能存在,所以以完全理性為前提條件的傳統(tǒng)博弈論有一定的局限性,而演化博弈理論基于人的有限理性,以參與人所在群體為基礎(chǔ),假設(shè)各方都有一定的事后判斷能力,采用從群體到個人的局部動態(tài)方法來分析參與人的決策行為。其核心不是最優(yōu)的策略選擇,而是群體成員經(jīng)營策略的調(diào)整和發(fā)展趨勢判斷,即群體成員選擇特定策略的比例不變,而不是其整體策略不變。所以,即使現(xiàn)實中散戶和監(jiān)管部門沒有選擇上述策略的能力,很難找到各自最佳概率,也就是該博弈很難做到多次反復(fù)進行,但只要群體成員有事后判斷能力并能根據(jù)周圍人的經(jīng)營結(jié)果來改變自己的經(jīng)營策略能力,就有可能反復(fù)進行。因為納什均衡中關(guān)于理性主義和群體行為兩部分理論可以有效解決該問題:理性主義就是個體在進行策略選擇時的理性程度或頻率,而群體行為則是當(dāng)群體所有主體在面臨同一問題或事件所采取的應(yīng)對策略的比例。由該理論可知散戶和監(jiān)管部門對混合策略的選擇,可以分別理解為某個地區(qū)不規(guī)范拆解即不合作行為發(fā)生的比例和該地區(qū)監(jiān)管部門監(jiān)管行為發(fā)生的頻率,演化博弈理論中的混合策略納什均衡就是分析相關(guān)主體行為發(fā)生頻率或比例間的均衡關(guān)系[10]。該分析方法不要求散戶和監(jiān)管部門等主體有選擇某種特定行為概率的意識或能力,而是根據(jù)環(huán)境變化和收益比較后的行為選擇過程。該分析方法與現(xiàn)實中的逆向物流各主體決策過程比較接近,適合分析社會化回收系統(tǒng)中散戶和監(jiān)管部門間的博弈過程。
Swarm是由美國Santa Fe研究所開發(fā)的一個仿真平臺。其建模思想就是通過創(chuàng)建逆向物流運行系統(tǒng)中一系列獨立的渠道智能體(散戶/政府監(jiān)管部門Agent),并通過獨立事件進行交互的“自下而上”或“基于過程”的建模工具,它是面向?qū)ο蟪绦蛟O(shè)計的多智能體仿真平臺,沒有對模型要素間的交互作任何約束,模擬智能體對廢舊品回收處理決策過程,隨著行為時序表Schedule的推進,研究不同政策機制下系統(tǒng)狀態(tài)的變化趨勢與運行結(jié)果,并由Observer Swarm記錄下來。模擬思想及過程是:系統(tǒng)里的智能體將根據(jù)環(huán)境、伙伴及對手行為的變化及其結(jié)果,判斷該變化結(jié)果是否對自己產(chǎn)生影響,從而調(diào)整自己未來行為的決策過程。所以,Swarm仿真平臺較好地模擬了逆向物流系統(tǒng)中各類主體的行為選擇過程,即把群體成員的選擇結(jié)果作為自己行為選擇的重要參考依據(jù),利用Swarm可以很方便地對逆向物流復(fù)雜系統(tǒng)主體沖突進行仿真研究。
根據(jù)筆者的調(diào)查,由于中國目前還沒有實行EPR(生產(chǎn)者責(zé)任延伸),社會化回收還是廢舊品回收主渠道,而公司很難建立自己的回收渠道和網(wǎng)絡(luò),其廢舊品來源主要還是依靠以散戶為主的社會化回收力量,否則其正常的生產(chǎn)經(jīng)營活動將受到影響,所以公司的選擇一定是與散戶合作。但散戶是否選擇與公司合作則是在比較其合作與不合作的收益情況后確定。故本文的研究核心就是如何提高散戶的合作概率。而提高散戶的合作概率需要監(jiān)管部門的政策激勵、約束和引導(dǎo),所以社會化逆向物流渠道沖突協(xié)調(diào)問題就是散戶和監(jiān)管部門間的博弈關(guān)系問題,而演化博弈方法與現(xiàn)實中逆向物流系統(tǒng)各主體決策過程比較接近,所以本文擬采用該方法建立多Agent博弈模型,各主體分別由相應(yīng)的Agent表示,這些Agent(散戶和監(jiān)管部門)都能識別并比較不同政策環(huán)境下自己和群體其它主體的收益情況,并進一步采取相應(yīng)行動(表1),行動過程為:(1)將各Agent的共同知識用“知識Agent”表示;(2)散戶和監(jiān)管部門Agent均可通過與知識Agent交互獲取信息;(3)散戶和監(jiān)管部門Agent都將在比較其它Agent行為和環(huán)境對自己產(chǎn)生影響及其程度的基礎(chǔ)上進行決策并選擇行為策略。
表1 散戶和監(jiān)管部門博弈的支付矩陣Table 1 Payment matrix of the game between retail investors and regulators
在此基礎(chǔ)上,假設(shè)某個地區(qū)散戶選擇不拆解(合作)的概率為P1,則私自拆解(不合作)的概率1-P1;監(jiān)管部門選擇監(jiān)管的概率為P2,則不監(jiān)管的概率為1-P2。在散戶選擇合作策略條件下,監(jiān)管部門采取監(jiān)管策略時,散戶獲得額外收益為E(獎勵所得);監(jiān)管部門選擇不監(jiān)管時散戶額外收益為0,監(jiān)管部門收益為C(節(jié)約監(jiān)管成本收益)。而在散戶選擇不合作策略條件下,監(jiān)管部門采取監(jiān)管策略時,散戶的額外收益為-F(罰款損失),監(jiān)管部門收益為-L(環(huán)境污染和廢舊品利用率低造成的社會損失);當(dāng)監(jiān)管部門選擇不監(jiān)管時散戶額外收益為G(私自拆解所獲收益與賣給公司所獲收益差額),而監(jiān)管部門收益為C-L(環(huán)境污染和廢舊品利用率低造成的社會損失和節(jié)約監(jiān)管成本的差額),在有限理性的條件下:
散戶“私自拆解”的期望得益V1=P2·(-F)+(1-P2)G
散戶“不拆解”的期望得益V2=P2·E
對散戶而言,只要其群體選擇“私自拆解”策略的期望收益V1大于“不拆解”策略的期望收益V2,群體就會產(chǎn)生學(xué)習(xí)機制,比較收益大小并改變行為策略:部分選擇“不拆解”策略的散戶群體逐步轉(zhuǎn)向“私自拆解”策略,直到選擇“私自拆解”策略期望收益等于或小于“不拆解”策略期望收益,達(dá)到一種動態(tài)平衡,即演化穩(wěn)定狀態(tài),反之亦可推出相應(yīng)結(jié)論。而對于監(jiān)管部門策略轉(zhuǎn)化過程也是如此,當(dāng)系統(tǒng)達(dá)到穩(wěn)定時即為均衡狀態(tài),在這種狀態(tài)下,采取某種策略的群體比例等于采取混合策略的概率。該演化博弈思想對多主體仿真幫助很大,它通過建立不同主體Agent的學(xué)習(xí)機制和行為變化過程,探析博弈雙方(散戶和監(jiān)管部門)不同行為策略的形成過程。
1.仿真主體博弈過程。仿真初始時,每個散戶Agent選擇“私自拆解”的概率和每個監(jiān)管部門A-gent選擇監(jiān)管的概率都是平均分布在[0,1]之間的隨機數(shù),個體交互開始后,設(shè)定每個散戶Agent將會同它最近的24個監(jiān)管部門Agent進行博弈,也就是系統(tǒng)先產(chǎn)生一個隨機數(shù),并將該隨機數(shù)與監(jiān)管部門“不監(jiān)管”的概率進行比較,以此來判斷該監(jiān)管部門Agent是否“監(jiān)管”,若該隨機數(shù)大于監(jiān)管部門“不監(jiān)管”的概率,則該散戶Agent就判定監(jiān)管部門“不監(jiān)管”并選擇“私自拆解”,反之亦然;而監(jiān)管部門A-gent是否監(jiān)管,則以該監(jiān)管部門Agent為基準(zhǔn),分析該監(jiān)管部門Agent周邊24個矩形框內(nèi)散戶Agent的行為并判斷選擇“私自拆解”行為的散戶數(shù)量,然后依次查看每個“私自拆解”散戶Agent的違規(guī)情況并記錄在案,以此決定本輪給散戶的監(jiān)管力度;而對選擇“不拆解”的散戶則給予一定的獎勵。
2.模型Agent學(xué)習(xí)規(guī)則設(shè)計。散戶Agent按照以下學(xué)習(xí)規(guī)則成長:初始階段,逆向物流系統(tǒng)里各Agent的合作概率隨機分布,隨著個體間的交互作用,各Agent不斷調(diào)整自身策略。根據(jù)Swarm平臺特點和現(xiàn)實中散戶集聚度、彼此可以交流信息的實際情況,設(shè)定在一定時期內(nèi),每個Agent將會和自己周邊24個矩形框內(nèi)的其他同類Agent(每個框內(nèi)一個Agent,共24個Agent)進行收益比較,如果該A-gent發(fā)現(xiàn)群體里其他散戶主體收益比自己小,則會保持既定行為概率不變,反之,如果其他散戶主體收益比自己大,則該Agent將會選擇其中最高收益主體的行為策略作為調(diào)整自己下一周期行動策略的參考標(biāo)準(zhǔn)。根據(jù)行業(yè)專家的建議,該Agent具體調(diào)整概率的策略是:如果參照對象(最高收益散戶Agent)的概率值高出自己超過5%,則向該參照對象的概率值靠近5%,若低于5%,就變成和該參照對象一樣的概率值。監(jiān)管部門的策略與此相同(該調(diào)整策略最適合,靈敏度最高,與散戶的實際行動策略也比較一致)。
以散戶Agent為例,假如第i周期Agent k選擇了“私自拆解”的策略,i周期結(jié)束時Agent k有了該策略下的收益并開始學(xué)習(xí)(Agent有事后認(rèn)知能力),同時Agent k與其周圍鄰居的收益進行比較。比較過程如下:若散戶主體中選擇“私自拆解”的期望收益大于選擇“不拆解”的期望收益,而該期望收益又大于該散戶Agent的實際收益,則在t+1周期時該Agent k將改變策略(選擇“私自拆解”),否則該Agent k將繼續(xù)選擇“不拆解”策略。同理,可知監(jiān)管部門Agent的行為選擇過程。
1.第一次運行,對散戶“私自拆解”的處罰。根據(jù)表1各主體的收益情況和“只懲不獎”的政策環(huán)境,設(shè)定仿真程序中的散戶與監(jiān)管部門的博弈收益分別為:G=4,E=0,F(xiàn)=2,L=4,C=4;仿真結(jié)果如圖1所示,圖中曲線代表散戶選擇與公司“合作”的比率。
圖1 處罰額度不高時運行結(jié)果Fig.1 Executive results of simulation when penalty amount is not high
從運行結(jié)果可以看出:開始階段,散戶合作概率較低,當(dāng)處罰政策推出后,合作概率明顯提高,但隨著時間的推進,散戶在與監(jiān)管部門進行博弈以及群體間相互學(xué)習(xí)比較后,逐步降低其合作概率,并最終穩(wěn)定在10%左右的較低合作水平。
2.第二次運行,加大對散戶“私自拆解”的處罰力度。如果加大對散戶“私自拆解”的處罰力度,設(shè)定仿真程序中的散戶與監(jiān)管部門的博弈收益分別為:G=4,E=0,F(xiàn)=4,L=4,C=4。仿真結(jié)果表明,當(dāng)加大單次處罰力度之后,同樣會發(fā)生短時間合作概率較快提高接著又逐步降低的現(xiàn)象,但這種政策下的最終合作概率穩(wěn)定在20%左右,合作水平有所提高,也就是加大處罰力度后散戶整體合作概率有所提升,但仍然不理想。
1.第三次運行,對散戶“不拆解”的獎勵。如果對散戶“不拆解”即合作行為進行獎勵,而不處罰“私自拆解”行為。設(shè)定仿真程序中的散戶與監(jiān)管部門的博弈收益分別為:G=4,E=2,F(xiàn)=0,L=4,C=4。從該政策下仿真運行結(jié)果可以看出,在獎勵政策推出之后,同樣也會發(fā)生短時間內(nèi)合作概率提高的現(xiàn)象,但隨著時間的推進,合作概率還是會逐步降低,并最終穩(wěn)定在30%左右,合作水平仍然比較低。
2.第四次運行,加大對散戶“不拆解”的獎勵力度。如果加大對散戶的獎勵力度,設(shè)定仿真程序中散戶與監(jiān)管部門的博弈收益分別為:G=4,E=4,F(xiàn)=0,L=4,C=4。從仿真運行結(jié)果可以看出,當(dāng)加大單次獎勵力度之后,同樣會發(fā)生短時間內(nèi)散戶合作概率提高而后又逐步降低的現(xiàn)象,但這種政策下的最終合作概率穩(wěn)定在40%左右,合作水平進一步提高,但還不是理想狀態(tài)。
現(xiàn)對每個散戶的獎勵和懲罰方式稍作改變,對每次“私自拆解”的處罰記錄在案,然后根據(jù)記錄在案的次數(shù)累計處罰,也就是私自拆解者被抓次數(shù)越多,處罰力度越大。與此同時,對“不拆解”的獎勵也會根據(jù)散戶與公司合作量的多少進行差別獎勵,遞增式獎勵,也就是與公司合作的量越大、獎勵越多,在一定時期內(nèi)(一般以“年”為單位),累計到一定的量就對該散戶進行“返點”獎勵,以鼓勵更多的散戶選擇與公司緊密合作,達(dá)到“勤勉簡政”的目標(biāo)。仿真結(jié)果如圖2所示。
圖2 設(shè)計獎懲機制的運行結(jié)果Fig.2 Results of the designed mechanism of rewards and punishments
從仿真運行結(jié)果可以看出,當(dāng)實行該獎懲機制之后,也會發(fā)生短時間散戶與公司合作概率提高,之后有所回落的現(xiàn)象,但這種政策下的最終合作概率穩(wěn)定在70%左右,合作水平較前幾種政策有明顯提高,是較理想的合作狀態(tài)。
本文分析并構(gòu)建了混合策略下逆向物流渠道沖突重復(fù)博弈模型,并借助Swarm仿真平臺和多A-gent建模方法,對散戶和監(jiān)管部門的博弈過程進行演化仿真。通過監(jiān)管部門的獎勵與懲罰機制的改變,不斷加強對散戶“私自拆解”的懲罰以及對其合作的獎勵,實現(xiàn)沖突的協(xié)調(diào)。通過這一系列的博弈仿真,得出以下結(jié)論:(1)逆向物流渠道沖突是復(fù)雜適應(yīng)系統(tǒng),基于Agent仿真方法的核心是行為選擇與適應(yīng)性學(xué)習(xí)問題,在探索沖突演化規(guī)律方面比較適用;(2)對散戶的監(jiān)管單獨用某一種方法很難起到理想的效果,要綜合運用多種方法,設(shè)計監(jiān)管機制;(3)監(jiān)管機制設(shè)計要充分考慮各種社會成本、考慮散戶和監(jiān)管部門的博弈以及群體間的學(xué)習(xí)和策略調(diào)整,才能達(dá)到預(yù)期目標(biāo)和政策效果。
[1]DEBRITO M P,DEKKER R.Reverse Logistics-a framework[J].Econometric institute Report El,2002(12):56 -70
[2]SAVASKAN R C,WASSENHOVEV L N.Reverse channel design:the case of competing retailers[J].Management Science,2006,52(1):1 -14.
[3]王文賓,達(dá)慶利.再制造逆向供應(yīng)鏈協(xié)調(diào)的獎勵、懲罰及獎懲機制比較[J].管理工程學(xué)報,2010,24(4):48 -52.
[4]高陽,李輝.基于回收質(zhì)量不確定的閉環(huán)供應(yīng)鏈回收渠道選擇[J].工業(yè)技術(shù)經(jīng)濟,2011,217(11):5 -11.
[5]江源.中國城市環(huán)境管理的可持續(xù)發(fā)展對策——生活垃圾管理中新政策的可導(dǎo)入性分析[J].管理世界,2002(2):65-73.
[6]劉慧慧,黃濤,雷明.廢舊電器電子產(chǎn)品雙渠道回收模型及監(jiān)管部門補貼作用研究[J].中國管理科學(xué),2013,21(2):123-131.
[7]周垂日,梁樑,許傳永,等.政府在廢舊電子產(chǎn)品逆向物流管理中的經(jīng)濟責(zé)任機制[J].中國管理科學(xué),2008(16):434-437.
[8]鐘永光,錢穎,尹鳳福,等.激勵居民參與環(huán)保化回收廢棄家電及電子產(chǎn)品的系統(tǒng)動力學(xué)模型[J].系統(tǒng)工程理論與實踐,2010,30(4):709 -722.
[9]KAYA O.Incentive and production decisions for remanufacturing operations[J].European Journal of Operational Research,2011(2):442 -453.
[10]付小勇,朱慶華,竇一杰.回收競爭的逆向供應(yīng)鏈回收渠道的演化博弈分析[J].運籌與管理,2012,21(4):30-33,41.