潘水洋++黃昊
摘要:“一帶一路”戰(zhàn)略背景下,中國企業(yè)紛紛組建企業(yè)戰(zhàn)略聯(lián)盟共同開拓國際市場,戰(zhàn)略聯(lián)盟的存在是以內(nèi)部企業(yè)相互信任為基礎(chǔ),合理的機制設(shè)計將保證戰(zhàn)略聯(lián)盟的穩(wěn)定與持久。文章采用演化博弈論對戰(zhàn)略聯(lián)盟中各個企業(yè)的行為建模,研究了聯(lián)盟內(nèi)部采取合作策略企業(yè)數(shù)量與采取投機策略企業(yè)數(shù)量的動態(tài)演化過程。結(jié)果表明:采用合理的懲罰機制,戰(zhàn)略聯(lián)盟中采取投機策略行為的企業(yè)數(shù)目維持將較低比例,戰(zhàn)略聯(lián)盟主要成員將會采取合作策略實現(xiàn)共贏,有利于維持戰(zhàn)略聯(lián)盟的穩(wěn)定與持久。
關(guān)鍵詞:一帶一路;戰(zhàn)略聯(lián)盟;博弈論;多主體
一、 引言
國家級頂層戰(zhàn)略“一帶一路”通過積極發(fā)展與沿線國家的經(jīng)濟合作伙伴關(guān)系,共同打造政治互信、經(jīng)濟融合、文化包容的利益共同體、命運共同體和責(zé)任共同體。徐梁(2016)文獻數(shù)據(jù)表明截止2015年底,我國企業(yè)共對“一帶一路”相關(guān)的49個國家進行了直接投資,投資額同比增長18.2%。2015年,我國承接“一帶一路”相關(guān)國家服務(wù)外包合同金額178.3億美元,執(zhí)行金額121.5億美元,同比分別增長42.6%和23.45%。在“一帶一路”戰(zhàn)略引導(dǎo)下,國內(nèi)有實力的企業(yè)面臨著必須走出去進行全球化經(jīng)營的挑戰(zhàn),如何更加安全、有效地實施跨國經(jīng)營戰(zhàn)略是每一個計劃在海外進行投資的企業(yè)所必須解決的課題??茖W(xué)技術(shù)發(fā)展導(dǎo)致社會分工越來越細,單個國內(nèi)企業(yè)在競爭激烈的國際市場將面臨眾多挑戰(zhàn)。為應(yīng)對復(fù)雜的國際市場,國內(nèi)企業(yè)通過組建戰(zhàn)略聯(lián)盟,在優(yōu)勢互補、利益共享的前提下共同開拓國際市場,這種戰(zhàn)略聯(lián)盟已經(jīng)成為國內(nèi)企業(yè)對外投資戰(zhàn)略的一種常見模式(楊震寧,2016)。對于戰(zhàn)略聯(lián)盟的定義,李欣(2004)指出戰(zhàn)略聯(lián)盟是由兩個或兩個以上有著相同實力或者互補優(yōu)勢的企業(yè)共同組建而成。通過建立戰(zhàn)略聯(lián)盟,聯(lián)盟內(nèi)部企業(yè)能夠形成利益共同體,達到共同開拓國際市場、共擔(dān)經(jīng)營風(fēng)險、降低企業(yè)成本、提升競爭實力的目的。然而不論企業(yè)采用何種形式的協(xié)議組建戰(zhàn)略聯(lián)盟,企業(yè)戰(zhàn)略聯(lián)盟仍然只是一個松散型合作競爭組織,并沒有一個中央集權(quán)的管理機構(gòu)去控制聯(lián)盟內(nèi)部成員的自私逐利行為,一旦聯(lián)盟內(nèi)部大部份企業(yè)采取短期投機行為互相欺騙時,戰(zhàn)略聯(lián)盟將會瓦解。因此聯(lián)盟內(nèi)部成員相互信任是戰(zhàn)略聯(lián)盟存在的基礎(chǔ)。
當(dāng)聯(lián)盟內(nèi)部企業(yè)存在投機行為導(dǎo)致彼此不信任時,最終會導(dǎo)致聯(lián)盟瓦解。內(nèi)部企業(yè)的不信任導(dǎo)致聯(lián)盟存在的壽命非常短暫。何靜(2002)調(diào)查研究表明,聯(lián)盟的壽命周期平均值為7年左右。如何設(shè)計合理的激勵制度,使得聯(lián)盟內(nèi)部企業(yè)能夠建立長久的信任關(guān)系,進而提高聯(lián)盟的生存周期成為戰(zhàn)略聯(lián)盟機制設(shè)計這一領(lǐng)域的研究重點,有不少學(xué)者對此進行了系統(tǒng)的研究。范琳琳(2016)、王丹(2003)等提出對合作伙伴的信譽、風(fēng)險偏好、行為進行評級,選擇評級較高的企業(yè)作為合作對象;馬永遠(2014)、昊海濱(2004)指出聯(lián)盟應(yīng)當(dāng)建立一套約束機制,防止欺騙和機會主義行為產(chǎn)生;魏光興(2003)、江旭(2014)提出可以通過構(gòu)建企業(yè)緩沖池,當(dāng)約束機制無法制裁投機行為時,強制投機企業(yè)退出聯(lián)盟,從企業(yè)緩沖池中選擇新的企業(yè)加入,這樣便降低了企業(yè)退出對聯(lián)盟造成的損失成本。本文從演化博弈論的視角出發(fā),通過對戰(zhàn)略聯(lián)盟中各個企業(yè)的行為特征進行建模,采用孫建(2004)、楊敏(2013)文獻涉及的主體仿真建模軟件Swarm來研究企業(yè)戰(zhàn)略聯(lián)盟內(nèi)在結(jié)構(gòu)的動態(tài)演化過程。研究結(jié)果表明:采用合理的懲罰機制,戰(zhàn)略聯(lián)盟中采取投機策略行為的企業(yè)數(shù)目維持將較低比例,戰(zhàn)略聯(lián)盟主要成員將會采取合作策略實現(xiàn)共贏,有利于維持戰(zhàn)略聯(lián)盟的穩(wěn)定與持久。研究結(jié)果對如何通過合理的懲罰機制設(shè)計保持戰(zhàn)略聯(lián)盟的長久性提供了一個新的思考角度。
二、 演化博弈模型構(gòu)建
戰(zhàn)略聯(lián)盟是由相互作用、相互影響的多個個體企業(yè)所組成的進化系統(tǒng)。在戰(zhàn)略聯(lián)盟中不存在集中控制,企業(yè)成員僅僅關(guān)注自身的利益;企業(yè)成員個體行為是有限理性的;企業(yè)成員之間、企業(yè)成員與聯(lián)盟制度環(huán)境之間存在相互作用相互影響的非線性關(guān)系;為了適應(yīng)環(huán)境,企業(yè)成員個體能夠通過實踐學(xué)習(xí)并實時調(diào)整自己的行為,使得自己的利益最大化。因此戰(zhàn)略聯(lián)盟內(nèi)在結(jié)構(gòu)的動態(tài)演化過程是微觀個體相互作用的結(jié)果。在本部分,我們采用演化博弈論對此過程進行建模分析。
1. 戰(zhàn)略聯(lián)盟內(nèi)部企業(yè)策略行為描述。假設(shè)在一個企業(yè)戰(zhàn)略聯(lián)盟中,存在4種類型成員企業(yè),這4類企業(yè)具有如下行為特征。(1)采取TFT策略的企業(yè)。采取TFT策略的企業(yè)具有以下特征:如果該企業(yè)觀測到聯(lián)盟其它企業(yè)在上一期采取合作,遵從聯(lián)盟規(guī)則,則該企業(yè)在本期也采取合作,遵守聯(lián)盟規(guī)則。如果該企業(yè)觀測到聯(lián)盟其它企業(yè)在上一期采取不合作,則該企業(yè)在本期也采取不合作,不再遵守聯(lián)盟規(guī)則。(2)采取ATFT策略的企業(yè)。采取ATFT策略的企業(yè)具有以下特征:如果該企業(yè)觀測到聯(lián)盟其它企業(yè)在上一期采用合作,則該企業(yè)在本期采用不合作;如果聯(lián)盟其它企業(yè)在上一期采用不合作,則該企業(yè)在本期采用合作。(3)采取用ALL_C策略的企業(yè)。采取ALL_C策略的企業(yè)具有以下特征:不管其它聯(lián)盟成員是否合作,該企業(yè)均采用完全合作策略,始終遵從聯(lián)盟規(guī)則。(4)采取用ALL_D策略的企業(yè)。采取ALL_D策略的企業(yè)具有以下特征:不管其它聯(lián)盟成員是否合作,均采用完全不合作策略,始終不遵守聯(lián)盟規(guī)則。
上述4個策略保存著博弈的一步記憶。由于聯(lián)盟中沒有集權(quán)的中央管理機構(gòu),所有的參與企業(yè)不可能都選擇ALL_C策略。任何聯(lián)盟規(guī)范的實施都依賴于聯(lián)盟成員的自覺參與,聯(lián)盟內(nèi)部的每一個企業(yè)都基于自身利益以一定的概率選擇這4個策略的某一個作為初始策略。
兩個企業(yè)之間的博弈收益矩陣如表l所示。如果兩個企業(yè)都采取合作策略(用C表示合作),則每個企業(yè)都可獲得3單位的收益;如果一個企業(yè)采取合作策略,另一個企業(yè)采取不合作策略(用D表示不合作),則采取合作策略企業(yè)得到0單位收益,采取不合作策略企業(yè)得到5單位收益;如果雙方都采取不合作策略,則每個企業(yè)各獲得1單位收益。
2. 企業(yè)進化學(xué)習(xí)行為描述。表1只展示了兩個企業(yè)相互之間的一次博弈關(guān)系,顯然完全信息條件下表1的均衡是(不合作,不合作)。若對表1的博弈結(jié)構(gòu)進行多次重復(fù)博弈,并且每次博弈結(jié)束后,企業(yè)通過比較自己與博弈對手的收益,動態(tài)更新策略,實現(xiàn)收益最大化。企業(yè)策略動態(tài)更新過程如下:初始階段,企業(yè)i在4類策略TFT、ATFT、ALL_C、ALL_D中隨機選取一個策略開始博弈。企業(yè)i與其它企業(yè)博弈結(jié)束后,該企業(yè)會從所有的博弈對手中,找出獲得最高盈利的企業(yè)j。如果企業(yè)j的盈利大于企業(yè)i的盈利,那么企業(yè)i會將企業(yè)j的策略作為自己的新策略,實現(xiàn)策略更新。這個假設(shè)也是合理的,因為現(xiàn)實中的企業(yè)都是活生生的實體,它能夠不斷的學(xué)習(xí)和積累經(jīng)驗最大化自己的利益,與現(xiàn)實生活中的決策機制是一致的。
3. 博弈過程中的懲罰機制。模型中,聯(lián)盟的信息足夠完全,以至于聯(lián)盟成員能夠順利監(jiān)督另一個成員。這個假設(shè)是合理的。一旦某個企業(yè)采取不合作策略,則與該企業(yè)博弈時,采取合作策略的對手將會產(chǎn)生損失,對手馬上會把不合作的企業(yè)報告給聯(lián)盟。聯(lián)盟既可能懲罰不合作者,也可能不采取懲罰措施(采取懲罰措施,聯(lián)盟自己也會產(chǎn)生損失)。本模型中,懲罰采用“驅(qū)逐機制”,一旦聯(lián)盟決定懲罰不合作企業(yè),不合作企業(yè)將會被驅(qū)逐出聯(lián)盟,并且在相當(dāng)一段時間內(nèi)聯(lián)盟將不再接受該成員企業(yè)。
三、 模型仿真
為了研究企業(yè)戰(zhàn)略聯(lián)盟內(nèi)在結(jié)構(gòu)的動態(tài)演化過程,我們采用Swarm主體仿真建模軟件對本文所描述的企業(yè)戰(zhàn)略聯(lián)盟進行仿真。建模過程如下:步驟1:定義環(huán)境,即設(shè)定企業(yè)的位置。本模型在40*40的方格上產(chǎn)生1 600個聯(lián)盟企業(yè)成員。步驟2:博弈進行前,每個聯(lián)盟成員按照一定的概率預(yù)先在設(shè)定的4種策略中隨機選擇一個策略。然后該企業(yè)與處于自己東南西北四個毗鄰位置的企業(yè)分別進行三階段重復(fù)博弈。步驟3:每個企業(yè)與所有的鄰居企業(yè)博弈結(jié)束后,找出獲得最高盈利的鄰居,如果該鄰居的盈利大于自己原有策略獲得的收益,該企業(yè)便將鄰居的策略作為自己的新策略,實現(xiàn)策略更新。步驟4:不斷重復(fù)步驟3,直到聯(lián)盟中4類策略企業(yè)數(shù)量保持穩(wěn)定。
1. 不采取懲罰機制下的企業(yè)戰(zhàn)略聯(lián)盟結(jié)構(gòu)演化。不采取懲罰機制條件下,無論企業(yè)是否合作,都不會受到聯(lián)盟懲罰。博弈開始前,每個聯(lián)盟成員按照相等的概率預(yù)先在設(shè)定的4種策略中隨機選擇一個策略。隨著重復(fù)博弈次數(shù)的增加,采取ALL_C、ATFT、TFT策略的企業(yè)將會發(fā)現(xiàn)他們在博弈中收益不如采取ALL_D策略的企業(yè)收益,于是他們要動態(tài)更新自己策略,選取ALL_D策略最大化自己收益。當(dāng)重復(fù)博弈進行到第4輪時,采取ALL_D策略的企業(yè)數(shù)目達到最大,緊張接著隨著博弈的繼續(xù)進行,采取ALL_D策略企業(yè)逐漸減少,采取TFT策略的企業(yè)逐漸增多,博弈進行到第15輪時,產(chǎn)生均衡,全部企業(yè)采用TFT策略,此時戰(zhàn)略聯(lián)盟瓦解,因為采取ALL_C策略的企業(yè)數(shù)為0,每個企業(yè)將根據(jù)對手的策略進行決策,如果對手合作,則企業(yè)采取合作,對手不合作,企業(yè)也采取不合作策略,戰(zhàn)略聯(lián)盟協(xié)議約束無效,聯(lián)盟瓦解。以上是初始階段采取4類策略的企業(yè)比例相等(采取每個策略的企業(yè)數(shù)目相等)時的結(jié)果,模型仿真結(jié)果如圖1所示。如果改變初始階段采取4類策略的企業(yè)比例,如選擇ALL_C、TFT、ATFT、ALL_D策略的企業(yè)占比分別為30%,10%,30%,30%時,博弈最終也將在TFT策略獲得均衡。但達到均衡時將花費更多的時間和進行更多次的重復(fù)博弈。這表明:即使初始階段采用TFT策略的企業(yè)比例(10%)遠低于選擇其它策略的企業(yè)比例,重復(fù)博弈次數(shù)的增加也能促使TFT策略成為最終的博弈均衡策略,模型仿真結(jié)果如圖2所示。
TFT策略之所以會成為最終均衡的結(jié)果,可能的原因如下:當(dāng)對手采取合作時,這時采取TFT策略的人也會選擇合作,這樣采取TFT策略的聯(lián)盟成員偽裝成了合作者;當(dāng)對手采取不合作時,這時采取TFT策略的人也會選擇不合作,由于彼此之間均采取不合作策略,他們會保持一種默契,都不會向聯(lián)盟報告對方不遵守聯(lián)盟契約的行為,這樣聯(lián)盟被這種采取TFT策略并偽裝成合作者的企業(yè)控制,聯(lián)盟實際上已經(jīng)瓦解。
2. 采取懲罰機制下的企業(yè)戰(zhàn)略聯(lián)盟結(jié)構(gòu)演化。與上一節(jié)類似,初始時每個聯(lián)盟成員按照相等的概率預(yù)先在設(shè)定的4種策略中隨機選擇一個策略。不同之處在于:一旦某個企業(yè)采取不合作策略,則在下一輪的博弈中不合作企業(yè)將會被驅(qū)逐出聯(lián)盟。聯(lián)盟對不合作企業(yè)采取終身禁入準則,聯(lián)盟其他成員不會與這個企業(yè)采取任何貿(mào)易往來,這種大的懲罰力度有可能導(dǎo)致不合作企業(yè)破產(chǎn)。此后聯(lián)盟會引入一個新的企業(yè)加入,以維持聯(lián)盟的企業(yè)數(shù)量不變。懲罰的威懾力將導(dǎo)致新進入的企業(yè)采取ALL_C策略。仿真結(jié)果表明經(jīng)過5輪博弈,最終達到均衡,均衡結(jié)果為采取ALL_C策略的企業(yè)數(shù)為1 590,采取TFT策略的企業(yè)數(shù)為10個,采取其他策略的企業(yè)個數(shù)為0。最終的均衡仍然存在采取TFT策略的投機者,可能的原因是由于采取了嚴厲的懲罰機制,采取TFT策略的聯(lián)盟成員在接受其它企業(yè)監(jiān)督后,意識到聯(lián)盟內(nèi)部存在大量采取ALL_C策略的企業(yè)成員,一旦其采取不合作策略,其投機行為被發(fā)現(xiàn)的概率大大增加,于是采取TFT策略的投機者偽裝成了合作者,模型仿真結(jié)果如圖3所示。
四、 結(jié)論與政策建議
本文通過對戰(zhàn)略聯(lián)盟中各個企業(yè)的行為進行建模,采用重復(fù)博弈理論研究在不同的懲罰機制約束下,企業(yè)戰(zhàn)略聯(lián)盟結(jié)構(gòu)是如何動態(tài)演化的,為一帶一路戰(zhàn)略下我國企業(yè)戰(zhàn)略聯(lián)盟的機制設(shè)計提供了有意義的參考:(1)當(dāng)不采取懲罰機制時,企業(yè)戰(zhàn)略聯(lián)盟最終會演化成采取TFT策略的投機企業(yè)控制的聯(lián)盟。原因在于采取TFT策略的聯(lián)盟成員偽裝成了合作者;當(dāng)TFT策略投機者與對手均采取不合作策略時,他們會保持一種默契,都不會向聯(lián)盟報告對方不遵守聯(lián)盟契約的行為,這樣聯(lián)盟被這種采取TFT策略并偽裝成合作者的企業(yè)控制。(2)當(dāng)聯(lián)盟對不合作企業(yè)采取終身禁入準則,實行嚴厲的懲罰,使不合作企業(yè)產(chǎn)生破產(chǎn)預(yù)期時,企業(yè)戰(zhàn)略聯(lián)盟最終會演化成大部分企業(yè)采取ALL_C策略,剩下小部分企業(yè)采取TFT策略,由于不存在其他策略,大量采用ALL_C策略的企業(yè)將迫使采取TFT投機策略的小部分企業(yè)永遠偽裝成合作者。聯(lián)盟將持續(xù)較長時間。(3)一帶一路戰(zhàn)略背景下,國內(nèi)企業(yè)形成戰(zhàn)略聯(lián)盟共同開拓國際市場時,應(yīng)當(dāng)設(shè)計合理的懲罰機制來約束聯(lián)盟內(nèi)部企業(yè)短期投機行為,防止聯(lián)盟名存實亡。如果懲罰過于嚴厲,將短期投機行為企業(yè)終生剔除聯(lián)盟,也會導(dǎo)致聯(lián)盟自身損失;如果懲罰過輕,將加大聯(lián)盟瓦解的概率。一個可行的辦法是構(gòu)建企業(yè)緩沖池,強制短期投機行為企業(yè)退出聯(lián)盟,從企業(yè)緩沖池中選擇新的企業(yè)加入,這樣便降低了企業(yè)退出對聯(lián)盟造成的損失成本。
參考文獻:
[1] 徐梁.基于中國與“一帶一路”國家比較優(yōu)勢的動態(tài)分析[J].管理世界,2016,(2):170-173.
[2] 馬永遠,江旭.戰(zhàn)略聯(lián)盟伙伴間特征與聯(lián)盟管理實踐轉(zhuǎn)移[J].管理科學(xué),2014,(5):1-11.
[3] 楊震寧,李東紅,曾麗華.跨國技術(shù)戰(zhàn)略聯(lián)盟合作、動機與聯(lián)盟穩(wěn)定:跨案例研究[J].經(jīng)濟管理,2016,(7):48-59.
[4] 李欽.戰(zhàn)略聯(lián)盟的形成及其演變[J].現(xiàn)代管理科學(xué),2004,(2):62-64.
[5] 江旭,姜飛飛.企業(yè)家導(dǎo)向與戰(zhàn)略聯(lián)盟形成決策:聯(lián)盟經(jīng)驗的調(diào)節(jié)效應(yīng)研究[J].管理科學(xué)學(xué)報,2014,(7):22-34.
基金項目:國家社科基金重大項目“改革開放以來我國經(jīng)濟增長理論與實踐研究”(項目號:15ZDA007)。
作者簡介:潘水洋(1986-),男,漢族,湖南省岳陽市人,北京大學(xué)經(jīng)濟學(xué)院博士生,研究方向為計算演化博弈論與機制設(shè)計;黃昊(1985-),男,漢族,湖南省永州市人,北京大學(xué)經(jīng)濟學(xué)院博士生,研究方向為區(qū)域經(jīng)濟與產(chǎn)業(yè)結(jié)構(gòu)。
收稿日期:2017-01-16。