摘要:供應(yīng)鏈管理為現(xiàn)代企業(yè)提供了基于組織間競爭的有力支持,而供應(yīng)鏈管理中的合作伙伴選擇成為構(gòu)造高質(zhì)量供應(yīng)鏈的關(guān)鍵因素之一。文章首先在供應(yīng)鏈合作伙伴選擇的一般非合作博弈模型研究的基礎(chǔ)上提出了具有激勵機制的合作博弈模型,分析了具有激勵機制應(yīng)滿足的條件。
關(guān)鍵詞:博弈論;供應(yīng)鏈;合作伙伴選擇;MAS
一、引言
隨著全球一體化進程的深入,競爭愈演愈烈。為了獲取優(yōu)勢,企業(yè)將非核心業(yè)務(wù)外包給相應(yīng)的供應(yīng)商,同時將重點放在核心企業(yè)。當(dāng)今制造商對供應(yīng)商的依賴性增強。企業(yè)之間的競爭轉(zhuǎn)化為供應(yīng)鏈之間的競爭,提高供應(yīng)商選擇的質(zhì)量和效率對供應(yīng)鏈的績效有著至關(guān)重要的影響。
博弈論是研究決策主體行為相互作用以及決策均衡問題的一門學(xué)科,它的基本概念包括局中人、戰(zhàn)略、支付、行動、信息、結(jié)果和均衡,這也是一個完整博弈的基本要素。博弈論依據(jù)當(dāng)事人是否達(dá)成具有約束力的協(xié)議分為合作博弈和非合作博弈,合作博弈是指“參與者從自己的利益出發(fā)與其他參與者達(dá)成協(xié)同或形成聯(lián)盟,其結(jié)果對雙方均有利,非合作博弈是指參與者在行動選擇時無法達(dá)成約束性的協(xié)議”??梢姡献鞑┺膹娬{(diào)團體理性、效率、公平,非合作博弈論強調(diào)個人理性、個人最優(yōu)決策。
供應(yīng)鏈合作伙伴關(guān)系(Supply Chain Partnership,SCP)主要是指在供應(yīng)鏈內(nèi)部,兩個或兩個以上獨立的成員之間形成的一種協(xié)調(diào)關(guān)系,其目的是保證實現(xiàn)某個特定的目標(biāo)或效益。這就需要與合作伙伴進行協(xié)商和合作,以鏈主企業(yè)的理性來公平地對待伙伴,創(chuàng)造一種和諧的氛圍。這種和諧氛圍中的分工與交換的經(jīng)濟活動,就是一種合作性的博弈。當(dāng)今,供應(yīng)鏈協(xié)同運作更強調(diào)伙伴間的協(xié)同商務(wù)理念,即鏈主企業(yè)與合作伙伴協(xié)同預(yù)測市場、協(xié)同采購、協(xié)同研發(fā)、協(xié)同制造,協(xié)同整個產(chǎn)品生產(chǎn)和服務(wù)的全過程,不但協(xié)同行為有先后順序,更重要的是協(xié)同行為是透明的。所以,供應(yīng)鏈伙伴間的合作博弈又是動態(tài)的,可以稱其為動態(tài)合作博弈。
Agent具有自治性、社會性及學(xué)習(xí)能力,非常適于描述具有自治行為的主體的交互的過程,大量地被應(yīng)用于供應(yīng)鏈系統(tǒng)的建模。將Agent用于合作伙伴選擇過程,并充分考慮到供應(yīng)商的自主性,可提高合作伙伴選擇的準(zhǔn)確性、客觀性和效率。
本文嘗試把合作博弈理論運用到基于多智能體系統(tǒng)(Multi-Agent System,MAS)的供應(yīng)鏈合作伙伴選擇研究中,通過建立合作博弈模型,探求均衡解,來揭示供應(yīng)鏈伙伴合作在何種條件下都能帶來整個供應(yīng)鏈相對于不合作時的最大收益,以期望能從博弈的視角,觀察鏈主企業(yè)與合作伙伴如何在分工與合作的經(jīng)濟活動中達(dá)到均衡。
二、合作伙伴選擇的一般非合作博弈模型
供應(yīng)鏈上下游企業(yè)之間的充分合作將有利于信息的共享,從而有利于提高供應(yīng)鏈的競爭力,達(dá)到雙贏的目的;但是作為獨立的利益體,各自都會追求自身利益的最大化,避免自身的風(fēng)險。在交易過程中,生產(chǎn)商往往會保留很多重要的“私有”信息,這是因為在雙方信息不對稱的情況下,如果供應(yīng)商(雙方)獲得的信息越多,供應(yīng)商在交易過程中就越易掌握更多的主動性,這對生產(chǎn)商不利;處于同樣的考慮,供應(yīng)商也會隱瞞自己的信息,這樣雙方就形成了博弈的局面。
供應(yīng)鏈企業(yè)間是否合作,從本質(zhì)上看是企業(yè)間的博弈。依據(jù)博弈理論,某企業(yè)的收益不僅取決于其自己的行為,還取決于與之交易的另一企業(yè)的行為。其博弈方式分為兩類:合作與不合作。這里的合作是指雙方克制自己的行為,為各自的利益、共同利益著想,并非達(dá)成一個具有約束力的協(xié)議。任何一方在必須做出自己的策略選擇時,并不知道另一方將會選擇什么策略,但每一方都會對另一方將選擇的策略做出預(yù)期。理性的交易雙方都會以個體自身利益最大化為目標(biāo)。
假設(shè)存在兩個Agent(博弈參與者),其一般博弈模型描述如下:
Agenti的博弈模型,其中I={Agent1,Agent2};S為Agenti可能采取的所有策略集合,可能采取的基本策略為“合作”、“不合作”;U={u1,u2},其中u1和u2分別為Agent1和Agent2的收益函數(shù)。Agent1和Agent2博弈產(chǎn)生的局?jǐn)?shù)可以由函數(shù): τ: S|Agent1×S|Agent|2→Ω產(chǎn)生。令τ(不合作,不合作)=ω1,τ(不合作,合作)=ω2,τ(合作,不合作)=ω3,τ(合作,合作)=ω4,ωi(i=1,……,4)為博弈Γ的一個態(tài)勢。Agenti的收益函數(shù)為:ui(ωj),其中i∈I;j=1,……,4。
一般情況下,為了便于分析,假設(shè)雙方Agent具有相同的收益結(jié)構(gòu),用收益矩陣來表示雙方博弈組合,如表1所示,矩陣中的收益值存在如下關(guān)系:
在此模型中,Agent作為理性智能體,追求自身利益的最大化,不管對方是合作還是不合作,自身的最優(yōu)選擇都是不合作,在這樣的博弈中納什均衡顯然是不合作,各自得到較少的收益,合作效率較低。
三、具有激勵機制的合作博弈模型
在傳統(tǒng)的非合作博弈模型中,雙方都不合作是唯一的納什均衡,這是一個囚徒困境。如果雙方都選擇前者則會獲得合作收益,否則他們得不到任何收益。其中一方Agent發(fā)現(xiàn)對方合作對自己有利,它就會試圖提供合作回報誘導(dǎo)對方合作,我們把它叫做主Agent,記為Agent1;如果對方Agent認(rèn)為盡管合作對自己并沒有好處(甚至?xí)档褪找妫?,然而只要對方提供的回報合作,同樣可以考慮合作,同時還可以獲得收益,文中稱為從Agent,記為Agent2。因此上方可以就沖突問題展開協(xié)商,協(xié)商過程通過博弈表現(xiàn)出來。假設(shè)Agent1、Agent2為兩個不同的Agent,對于不同的策略收益矩陣中的收益值存在如下關(guān)系:
P2表示Agent1為了爭取Agent2參與合作而付出的代價,同時又是Agent2因參與合作而從Agent1那里得到的回報;P1為Agent2同意與Agent1合作所支付的成本,也是Agent1通過合作所得到的回報。當(dāng)P1、P2為Agent1、Agent2獲得的邊際回報時,即Agent2、Agent1激勵對方合作時分別需支付給對方的最小成本,P1=u1(ω2)-u1(ω4),P2=u2(ω3)-u2(ω4),其中i∈I。
在改進的模型中,Agenti的邊際回報為Pi,收益值為ui’,其中i∈I,收益值之間的關(guān)系為:
u1′(ω1)=u1(ω1),u2′(ω1)=u2(ω1)
u1′(ω2)=u1(ω2)-p2,u2′(ω2)=u2(ω2)+p2=p2;
u1′(ω3)=u1(ω3)+p1=p1,u2′(ω3)=u2(ω3)-p1;
u1′(ω4)=u1(ω4)-p2+p1=u1(ω2)-p2,
u2′(ω4)=u2(ω4)+p2-p1=u2(ω3)-p1
改進后的收益矩陣如表2所示,由表2可以看出在具有激勵機制的模型中,Agent對態(tài)勢存在以下偏好關(guān)系:
ω2~1ω4;如果p1=u1(ω1),ω3~1ω1;如果p1>u1(ω1),ω3>1ω1;如果p1
符號~i,表示Agenti對符號兩邊態(tài)勢的偏好程度是無差異的;>i,表示Agenti偏好符號左邊;
在改進的模型中,當(dāng)Agent或取的回報為邊際回報,并且pi=ui(ω1)時,對策Γ存在兩個平衡點,Agent在博弈中選取合作或不合作的幾率相等;pi<ui(ω1),不合作策略具有較強的優(yōu)勢,pi>ui(ω1)合作策略具有較強的優(yōu)勢??傊?,當(dāng)雙方的或取得回報為邊際回報時,系統(tǒng)總收益不具有pareto效率,合作策略微弱優(yōu)勢策略。
在具有激勵機制的博弈模型中增大Agent獲取的回報值,假定Pi′=Pi+△P,△P為非負(fù)數(shù),并且pi′>ui(ω1),Agent的收益值為