龐 婷,郭紹永,何喜軍,蔣國瑞*
(1.新鄉(xiāng)醫(yī)學(xué)院 現(xiàn)代教育技術(shù)中心,新鄉(xiāng) 453003)(2.北京工業(yè)大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100124)
商務(wù)談判是解決沖突的有效溝通手段,隨著談判主體個(gè)性化需求增多,人工智能技術(shù)不斷發(fā)展,商務(wù)談判邁進(jìn)了個(gè)性化、智能化階段[1].自適應(yīng)談判是智能商務(wù)談判的一種,在談判過程中談判主體學(xué)習(xí)動(dòng)態(tài)變化的環(huán)境知識(shí)、對(duì)手行為及偏好等,不斷調(diào)整自身信念,增大雙方的利益[2].
目前已有很多學(xué)者研究將自學(xué)習(xí)算法引入談判中,結(jié)合某些談判策略,豐富了自適應(yīng)談判理論方法.例如,文獻(xiàn)[3]中將遺傳算法和馬爾科夫預(yù)測綜合運(yùn)用到了自動(dòng)談判系統(tǒng)當(dāng)中;文獻(xiàn)[4]中結(jié)合人工蜂群算法的原理及求解流程,給出一種電子商務(wù)談判模型;文獻(xiàn)[5]中提出了一種采用基于案例推理技術(shù)的自動(dòng)信任協(xié)商策略;文獻(xiàn)[6]中應(yīng)用人工免疫算法設(shè)計(jì)軟件Agent的談判策略;文獻(xiàn)[7]中提出徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)優(yōu)化Actor-critic學(xué)習(xí)算法的協(xié)商策略.但這些研究中的算法容易使得談判時(shí)間長,易于陷入局部最優(yōu),導(dǎo)致談判效用值低,同時(shí)較少考慮對(duì)手行為信息,自適應(yīng)性較差,無法達(dá)到利益最大化.針對(duì)上述談判算法存在的問題,文中提出一種自適應(yīng)談判方法來解決這些局限性.
Q-強(qiáng)化學(xué)習(xí)算法是重要的自學(xué)習(xí)方法,可以學(xué)習(xí)環(huán)境知識(shí),經(jīng)常用于自適應(yīng)談判[8].但普通Q-強(qiáng)化學(xué)習(xí)算法缺乏對(duì)對(duì)手行為的考慮,導(dǎo)致很快妥協(xié).自適應(yīng)增強(qiáng)(daptive boosting,Adaboost)算法是文獻(xiàn)[9]中提出的一種增強(qiáng)學(xué)習(xí)算法,具有適應(yīng)性強(qiáng)、精度高的學(xué)習(xí)優(yōu)點(diǎn).因此,文中結(jié)合Q-強(qiáng)化學(xué)習(xí)和Adaboost算法,形成一種新的自適應(yīng)談判方法,在讓步談判過程中考慮對(duì)手行為,不僅減少談判次數(shù),而且達(dá)到更優(yōu)效果的談判雙贏.
談判協(xié)議是談判參與者在談判過程中必須遵守的一組規(guī)則集,旨在規(guī)范談判參與者的行為,提高談判效率.雙方在談判過程中應(yīng)遵守以下規(guī)則:① 談判雙方有誠意通過談判方式就議題達(dá)成一致;② 談判雙方均采用交互提議方式進(jìn)行,任意一方在接收到對(duì)手提議之后,需做出回應(yīng);③ 談判雙方不允許提出比上一輪更差的提議;④ 若談判成功,應(yīng)確保盡快達(dá)成交易,消除沖突.
假定談判雙方為貨物供給方和需求方,雙方按照?qǐng)D1所示流程進(jìn)行談判.
圖1 談判流程Fig.1 Negotiation process
當(dāng)一方接收到對(duì)手提議,使用約束條件對(duì)提議值綜合評(píng)估,如果達(dá)到要求,談判成功;否則,采取基于Q-強(qiáng)化學(xué)習(xí)和Adaboost算法的自適應(yīng)談判方法,提出反提議.然后對(duì)手再重復(fù)上述流程,直至雙方都滿足評(píng)估條件,談判成功,達(dá)成協(xié)議.
用一個(gè)六元組F表示該談判模型,將其定義為F={A,C,O,W,θ,E},各個(gè)元素的具體定義:
(1)A表示談判主體集合,設(shè)m為供給方,s為需求方,則A={m,s}.
(6)E表示綜合評(píng)估值集合,設(shè)Em、Es分別為供給方和需求方對(duì)對(duì)手提議的評(píng)估值,如式(1),則E={Em,Es}.
(1)
假定σm、σs分別為供給方和需求方接受對(duì)方提議評(píng)估值的閾值,當(dāng)Em≥σm或Es≥σs時(shí),接受對(duì)方提議,結(jié)束談判,否則提出反協(xié)議,繼續(xù)談判.
Q-強(qiáng)化學(xué)習(xí)的原理是主體依據(jù)目前的狀態(tài)執(zhí)行動(dòng)作,然后依照下一狀態(tài)和策略執(zhí)行下一動(dòng)作,再次作用于上一狀態(tài)和執(zhí)行的動(dòng)作,從而不斷獲得累積獎(jiǎng)勵(lì)值,用Q函數(shù)表示,基本形式為:Q(S,a)=r(S,a)+γmaxQ(S′,a′).其中,S,S′為目前的狀態(tài)和下一時(shí)刻狀態(tài);a,a′為相應(yīng)狀態(tài)下執(zhí)行的動(dòng)作;r函數(shù)為從狀態(tài)S轉(zhuǎn)移到狀態(tài)S′,主體獲得的立即獎(jiǎng)勵(lì)值,可以為正值、負(fù)值或零;γ為折扣因子,γ∈[0,1],影響著Q值的變化速度[10].因此,Q值函數(shù)由當(dāng)前狀態(tài)的立即獎(jiǎng)勵(lì)值和后一狀態(tài)的最佳獎(jiǎng)勵(lì)值構(gòu)成,并不斷獲取更優(yōu)Q值.
(2)
定義雙方獲得的立即獎(jiǎng)勵(lì)值:
(3)
定義雙方的折扣因子值:
(4)
假定供給方針對(duì)議題進(jìn)行讓步,提議值在接受最大值基礎(chǔ)上不斷減小,需求方針對(duì)議題進(jìn)行讓步,提議值在接受的最小值基礎(chǔ)上不斷增大,則雙方的提議值計(jì)算:
(5)
Adaboost算法的原理是最初賦予各個(gè)訓(xùn)練樣本權(quán)重,表明將它歸為某個(gè)分類器訓(xùn)練集的概率.進(jìn)行若干次迭代,若某次某個(gè)樣本已準(zhǔn)確分類,則它被選入下一個(gè)分類器的概率降低,權(quán)重下降;反之,概率提高,權(quán)重提高.目的是關(guān)注信息更為豐富卻更難分類的樣本,直至達(dá)到預(yù)定的足夠小的誤差率,將弱分類器函數(shù)最終生成強(qiáng)分類器函數(shù)[11].
(1) 輸入供給方的樣本數(shù)據(jù)序列,包括談判雙方針對(duì)議題的歷史成交值集合、數(shù)據(jù)庫記錄的對(duì)手需求方在前幾輪的提議值集合,并進(jìn)行預(yù)處理,將不完整數(shù)據(jù)記錄除去;
(2) 設(shè)總迭代次數(shù)為K,k表示第k次迭代,設(shè)第k次迭代共有L個(gè)樣本數(shù)據(jù),l表示第l個(gè)樣本數(shù)據(jù),值設(shè)為yk(l);
(3) 設(shè)樣本的權(quán)重值為ωk(l),為各個(gè)樣本賦予相同的初始化權(quán)重,計(jì)算為:
(6)
(4) 進(jìn)行迭代計(jì)算,則從k=1到K進(jìn)行迭代:
設(shè)εk為樣本數(shù)據(jù)序列的預(yù)測誤差和,計(jì)算為:
(7)
設(shè)φk為樣本數(shù)據(jù)序列的權(quán)重調(diào)整控制因子,計(jì)算為:
(8)
設(shè)ρk為yk(l)的平均值,計(jì)算為:
(9)
調(diào)整樣本數(shù)據(jù)序列的權(quán)重,計(jì)算如下:
ωk+1(l)=ωk(l)×exp(-yk(l)φkρk)
(10)
令k=k+1,每次迭代后當(dāng)ωk(l)≤?,從樣本數(shù)據(jù)序列中去掉該樣本,計(jì)算至εk≤μ時(shí),停止迭代;
(11)
為了盡快消解沖突,融合Q-強(qiáng)化學(xué)習(xí)算法和Adaboost算法,通過預(yù)測讓步,形成自適應(yīng)談判方法,雙方不斷更新提議,交互提出.整個(gè)談判方法步驟描述如下:
(1) 供給方和需求方共同確定議題i,分別初始化提議邊界值Om、Os,議題權(quán)重Wm、Ws,提議評(píng)估值閾值σm、σs;
(2) 一方發(fā)出提議,對(duì)手接收后,將對(duì)方的提議值記入數(shù)據(jù)庫,并將提議值和議題權(quán)重值代入式(1),若超過閾值,則談判成功,退出談判,轉(zhuǎn)入(9),否則轉(zhuǎn)入(3);
(3) 初始化L、?、μ,預(yù)處理歷史成交提議值、數(shù)據(jù)庫記錄的對(duì)手前幾輪提議值組成的樣本數(shù)據(jù)序列yk(l);
(4) 根據(jù)式(6)初始化樣本權(quán)重ωk(l),根據(jù)式(7、8、9),從k=1到K進(jìn)行迭代計(jì)算;
(5) 每次迭代后,當(dāng)式(10)計(jì)算結(jié)果不超過?,從樣本數(shù)據(jù)序列中去掉該樣本,直至式(7)的計(jì)算結(jié)果不超過μ時(shí),停止迭代;
(9) 將最終成交值記入數(shù)據(jù)庫,達(dá)成協(xié)議.
為了更好地說明該自適應(yīng)談判方法的適用性,接下來對(duì)其進(jìn)行有效性測試.設(shè)定某一汽車制造業(yè)供應(yīng)鏈上的制造商為供給方,銷售商為需求方,銷售商向制造商訂購一批輪胎上的配件,并提交了訂貨單,包含價(jià)格和數(shù)量,但是制造商不滿意,二者發(fā)生沖突,為避免陷入僵局,決定通過談判解決問題[12].將訂單的價(jià)格和數(shù)量視為兩個(gè)談判議題,根據(jù)談判模型,假定雙方的談判議題相關(guān)數(shù)據(jù)值如表1,根據(jù)自適應(yīng)方法步驟,定義該方法涉及的相關(guān)參數(shù)值,如表2,限于篇幅,輸入的樣本數(shù)據(jù)序列不再一一列出.
表1 談判議題相關(guān)數(shù)據(jù)Table 1 Related data of negotiation issues
表2 談判相關(guān)參數(shù)Table 2 Related parameters of negotiations
首先,基于文中提出的自適應(yīng)談判方法進(jìn)行仿真,談判過程及結(jié)果如圖2.第1輪銷售商提交訂單(6,57),制造商對(duì)提議代入式(1)進(jìn)行評(píng)估,Em=28.95<σm,因此制造商不滿意,提出提議(6.6,58),銷售商進(jìn)行評(píng)估,Es=27.16<σs,銷售商不滿意,然后進(jìn)行第2次談判.制造商和銷售商不斷作讓步,最后在第5次談判時(shí),銷售商提議(6.4,60),Es=27.84>σs,制造商經(jīng)過綜合評(píng)估,Em=30.52>σm,雙方都滿意,談判結(jié)束.
圖2 自適應(yīng)談判方法的仿真結(jié)果Fig.2 Simulation results of adaptive negotiation method
圖3 使用Q-強(qiáng)化學(xué)習(xí)方法的仿真結(jié)果Fig.3 Simulation results of using Q-reinforcement learning method
對(duì)比圖2、3可知,盡管都可以使雙方滿意,但文中提出的自適應(yīng)談判方法,比Q-強(qiáng)化學(xué)習(xí)方法能達(dá)到更理想效果:① 談判次數(shù)較少,提高談判效率;② 談判結(jié)果不易陷入局部最優(yōu),增強(qiáng)自學(xué)習(xí)能力;③ 綜合評(píng)估值高,滿意度高,談判結(jié)果更優(yōu).
傳統(tǒng)談判效率低,主體自學(xué)習(xí)能力較差,導(dǎo)致最終無法獲得滿意結(jié)果,從而使得談判效果不理想.為了改善傳統(tǒng)談判效果,文中研究一種優(yōu)化Q-強(qiáng)化學(xué)習(xí)的自適應(yīng)談判方法,該方法考慮對(duì)手行為,提高智能化程度.首先利用Q-強(qiáng)化學(xué)習(xí)算法進(jìn)行讓步談判,計(jì)算出Q值作為讓步幅度,并引入對(duì)手提議預(yù)測值,再使用Adaboost算法通過迭代計(jì)算該預(yù)測值,從而調(diào)整讓步幅度.演算結(jié)果表明,該方法不僅可以減少談判次數(shù),而且不易陷入局部最優(yōu),談判結(jié)果更優(yōu).文中提出的談判新方法,只是一部分工作,下一步將建立具有自適應(yīng)能力的談判機(jī)制和談判框架,應(yīng)用該方法系統(tǒng)全面地研究自適應(yīng)談判過程,將更進(jìn)一步提升談判的智能性.