劉 陽(yáng),林 民,李艷玲
內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特 010022
機(jī)器學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用于提升檢索系統(tǒng)的性能[1-4]。近年來(lái),強(qiáng)化學(xué)習(xí)在檢索引擎的應(yīng)用越來(lái)越廣泛[5-6],強(qiáng)化學(xué)習(xí)方法允許檢索引擎在沒(méi)有標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)方法中,檢索引擎通過(guò)用戶模擬器提供一個(gè)獎(jiǎng)賞信號(hào)來(lái)優(yōu)化檢索策略,而檢索策略需要來(lái)自環(huán)境下的多輪交互數(shù)據(jù),即大量的用戶與之交互。為克服該限制,研究人員通過(guò)使用用戶模擬器來(lái)訓(xùn)練檢索引擎。
交互式檢索可看作用戶與檢索引擎一個(gè)或多個(gè)回合的交互過(guò)程[7]。通常設(shè)計(jì)為一個(gè)馬爾科夫決策過(guò)程(Markov Decision Process,MDP),通過(guò)隨機(jī)優(yōu)化的方法學(xué)習(xí)檢索策略。訓(xùn)練檢索引擎可分為兩種,即在線訓(xùn)練和離線訓(xùn)練。目前多數(shù)模型基于數(shù)據(jù)進(jìn)行離線監(jiān)督訓(xùn)練,而在線學(xué)習(xí)過(guò)程則利用強(qiáng)化學(xué)習(xí)算法通過(guò)構(gòu)建用戶模擬器[8],模擬真實(shí)用戶與檢索引擎進(jìn)行交互,有效地解決了檢索引擎在線使用存在冷啟動(dòng)問(wèn)題。
用戶模擬器構(gòu)建存在以下困難:首先,不同類(lèi)型用戶有不同的習(xí)慣及特征;其次,個(gè)性化行為數(shù)據(jù)通常是有限的。針對(duì)用戶模擬器的構(gòu)建方法,重點(diǎn)分析了基于模型的用戶模擬器,首先能夠引導(dǎo)用戶識(shí)別目標(biāo)需求,幫助用戶完成檢索任務(wù),其次在檢索交互過(guò)程中挖掘用戶的檢索習(xí)慣,使其滿足個(gè)性化特征以便通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練高質(zhì)量的個(gè)性化檢索引擎。
在傳統(tǒng)的人機(jī)對(duì)話系統(tǒng)中,對(duì)真實(shí)用戶交互的數(shù)據(jù)采集極為困難,導(dǎo)致與對(duì)話系統(tǒng)交互的數(shù)據(jù)匱乏。用戶模擬器可以產(chǎn)生多條交互數(shù)據(jù),使對(duì)話代理可以挖掘最優(yōu)對(duì)話策略。在交互式檢索場(chǎng)景中,通過(guò)收集不同類(lèi)型用戶的檢索行為數(shù)據(jù),訓(xùn)練出模擬不同類(lèi)型用戶檢索行為的用戶模擬器。利用個(gè)性化用戶模擬器訓(xùn)練出的檢索引擎能夠適應(yīng)不同用戶類(lèi)型的檢索行為,使檢索引擎達(dá)到適應(yīng)個(gè)性化檢索任務(wù)的能力。
近年來(lái)研究者對(duì)用戶模擬器進(jìn)行了大量的研究工作,包括基于概率模型的bi-gram 模型[9]、基于規(guī)則的方法[10-11],然而基于概率模型和基于規(guī)則方法構(gòu)建的用戶模擬器并不具有對(duì)用戶交互學(xué)習(xí)能力。隨后發(fā)展到基于深度學(xué)習(xí)的方法[12-13],構(gòu)建出的用戶模擬器能夠?qū)W習(xí)到單類(lèi)型的用戶特征,很大程度上提升了用戶模擬器性能,使得對(duì)話代理訓(xùn)練更高效。
交互式檢索方式能方便采集到細(xì)粒度的用戶行為數(shù)據(jù),使得訓(xùn)練出的用戶模擬器能夠模擬出不同類(lèi)型的個(gè)性化數(shù)據(jù),利用強(qiáng)化學(xué)習(xí)方法,將個(gè)性化用戶模擬器模擬為環(huán)境,使檢索引擎具有適應(yīng)個(gè)性化行為的能力。
用戶模擬器包含以下三部分:
第一,檢索目標(biāo):當(dāng)用戶模擬器與檢索引擎交互時(shí),首先用戶模擬器生成一個(gè)檢索引擎未知的檢索目標(biāo),通過(guò)多輪交互,檢索引擎幫助用戶模擬器完成檢索任務(wù)。
第二,用戶模型[14]:該部分為用戶模擬器中最重要的組成部分,當(dāng)每輪交互完成時(shí)檢索引擎反饋給用戶模擬器一個(gè)檢索結(jié)果,用戶模型根據(jù)此結(jié)果更新下一輪對(duì)話的狀態(tài)信息并給出相應(yīng)的策略[15]。
第三,行為輸出模塊:該模塊的輸入為用戶動(dòng)作指針,輸出為特定任務(wù)的輸出,如點(diǎn)擊、終止、繼續(xù)等任務(wù),從而使用戶模擬器具有交互式、多任務(wù)輸出的能力。
在交互式檢索過(guò)程中,用戶模型根據(jù)檢索結(jié)果更新用戶狀態(tài)并選擇適當(dāng)?shù)男袨椴呗?,再將行為策略輸入到行為輸出層中,將結(jié)果返回到檢索系統(tǒng)中。如此反復(fù),直到檢索結(jié)束。圖1 表示用戶模擬器與檢索引擎的交互過(guò)程。為方便起見(jiàn),省略了檢索引擎中的內(nèi)部結(jié)構(gòu),其中用戶模型將在第3章詳細(xì)介紹。
圖1 用戶模擬器與檢索引擎的交互過(guò)程
如何高效地評(píng)估用戶模擬器,至今沒(méi)有度量標(biāo)準(zhǔn)[16],導(dǎo)致沒(méi)有構(gòu)建用戶模擬器的標(biāo)準(zhǔn)方法。這里將構(gòu)建用戶模擬器的方法大致分為兩類(lèi),即基于規(guī)則的方法和基于模型的方法。
下面首先介紹基于議程的用戶模擬器。
基于議程[10-11](Agenda-based)的方法將用戶模擬器與對(duì)話代理交互的過(guò)程通過(guò)棧的結(jié)構(gòu)記錄下來(lái),以入棧形式記錄歷史的對(duì)話動(dòng)作,保證用戶模擬器在對(duì)話過(guò)程中行為的一致性。
在時(shí)刻t時(shí),用戶在狀態(tài)s下執(zhí)行動(dòng)作au,狀態(tài)過(guò)渡到s′,然后接收系統(tǒng)回復(fù)動(dòng)作am,并轉(zhuǎn)換到下一個(gè)狀態(tài)s″,通過(guò)此形式可以形式化地表示狀態(tài)轉(zhuǎn)換和對(duì)話動(dòng)作序列,后續(xù)每輪對(duì)話按照此流程循環(huán)下去。
由馬爾科夫假設(shè),用戶行為可分三種:(1)P(au|s),用戶動(dòng)作選擇;(2)P(s′|au,s),用戶在狀態(tài)s下采取au后,用戶狀態(tài)轉(zhuǎn)移到s″的概率;(3)P(s″|am,s′),在狀態(tài)s′下接收到系統(tǒng)動(dòng)作am后用戶狀態(tài)轉(zhuǎn)移到s″的概率。
Agenda的內(nèi)容A是圍繞著用戶目標(biāo)G所建立的,在對(duì)話過(guò)程中,當(dāng)前的對(duì)話狀態(tài)S包括A中的用戶動(dòng)作和當(dāng)前輪的用戶目標(biāo)G,即S=(A,G)。
G可以保證A中發(fā)出的用戶動(dòng)作一致性,并且是以G為導(dǎo)向的。G由約束條件C和詢問(wèn)內(nèi)容R組成,即G=(C,R),類(lèi)似于SQL語(yǔ)句,可抽象表示為:
A中存儲(chǔ)待執(zhí)行的用戶對(duì)話行為,在開(kāi)始對(duì)話時(shí),系統(tǒng)隨機(jī)生成用戶目標(biāo)G,將約束條件C轉(zhuǎn)換為告知行為(inform acts),詢問(wèn)內(nèi)容R轉(zhuǎn)換為詢問(wèn)行為(request acts),再將告知行為和詢問(wèn)行為填充到A中,并在底部添加bye act來(lái)結(jié)束對(duì)話。在對(duì)話過(guò)程中A頂部會(huì)彈出本輪的用戶動(dòng)作au。在用戶模擬器接收到系統(tǒng)回復(fù)am后,根據(jù)規(guī)則產(chǎn)生新的用戶動(dòng)作將會(huì)壓入A的棧頂。如果棧頂?shù)挠脩魟?dòng)作的優(yōu)先級(jí)小于當(dāng)前輪的用戶動(dòng)作,將A棧頂?shù)挠脩魟?dòng)作緩存起來(lái)再執(zhí)行優(yōu)先級(jí)高的動(dòng)作。圖2展示了用戶目標(biāo)和A變化示例[10]。
用戶動(dòng)作模型定義為:
其中,δ為狄拉克函數(shù),A[N-n+1..N] 為A棧頂?shù)膖op-n的用戶動(dòng)作序列acts。換種解釋方法為:如果au在top-n的動(dòng)作序列acts中,如果P趨近于1,那個(gè)au動(dòng)作將被選中發(fā)出。
狀態(tài)轉(zhuǎn)換模型定義為:
其中,A′為執(zhí)行動(dòng)作au后的A,N′代表A′的大小。根據(jù)概率的鏈?zhǔn)椒▌t與條件獨(dú)立性假設(shè)可將公式改寫(xiě)成:
基于議程的模擬器的優(yōu)點(diǎn)是可以冷啟動(dòng),用戶行為完全可控,缺點(diǎn)為需要通過(guò)專(zhuān)家手動(dòng)構(gòu)建數(shù)據(jù),規(guī)則一般由人工編寫(xiě),工作量大,覆蓋度不夠,主觀性強(qiáng),一致性難以保證,也不利于系統(tǒng)的擴(kuò)充,適用于模板型的填槽式對(duì)話任務(wù)。
3.2.1 基于統(tǒng)計(jì)模型的用戶模擬器
在不同領(lǐng)域的對(duì)話系統(tǒng)中,用戶模擬器最早是基于統(tǒng)計(jì)模型建模,文獻(xiàn)[9]利用一個(gè)簡(jiǎn)單的bi-gram模型,對(duì)用戶模型進(jìn)行概率建模。在系統(tǒng)動(dòng)作as基礎(chǔ)上預(yù)測(cè)下一輪用戶動(dòng)作au,即p=(au|as)。因?yàn)樵撃P筒](méi)有在整個(gè)對(duì)話歷史和用戶目標(biāo)之間進(jìn)行有效的建模,所以模擬出的用戶行為隨機(jī)性很大。其主要原因有兩個(gè):(1)該模型只能看到最后一個(gè)系統(tǒng)動(dòng)作;(2)如果用戶改變目標(biāo),該模型可能會(huì)出現(xiàn)偏差的行為,因?yàn)轭A(yù)測(cè)下一個(gè)用戶動(dòng)作as時(shí),并沒(méi)有考慮用戶目標(biāo)。為解決第一個(gè)問(wèn)題,文獻(xiàn)[17-18]通過(guò)研究對(duì)話歷史,再預(yù)測(cè)下一個(gè)用戶動(dòng)作au,使用戶動(dòng)作的生成有了一定的約束性;第二個(gè)問(wèn)題可通過(guò)整合用戶目標(biāo)為用戶狀態(tài)進(jìn)行建模[19]。
文獻(xiàn)[20]在用戶模型的序列建模上利用隱馬爾科夫模型來(lái)推斷每一輪的用戶動(dòng)作,使用戶行為更接近真實(shí)用戶行為,從而減少了用戶行為的隨機(jī)性。文獻(xiàn)[21]通過(guò)觀察用戶操作保持對(duì)對(duì)話狀態(tài)的信任,并受到Williams 等人[22]的啟發(fā),使用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)并加入獨(dú)立性假設(shè)得到概率模型的網(wǎng)絡(luò)結(jié)構(gòu),如圖3 所示[21],g、st、ut、ht、ot分別是用戶目標(biāo)、系統(tǒng)動(dòng)作、用戶動(dòng)作、對(duì)話歷史記錄和每個(gè)時(shí)間片用戶觀測(cè)動(dòng)作。通過(guò)迭代算法優(yōu)化模型參數(shù)。
圖2 用戶目標(biāo)和Agenda變化示例
圖3 概率模型的用戶模型
3.2.2 序列到序列的用戶模擬器
上文提出的概率模型,并沒(méi)有考慮對(duì)話歷史的情況,并且需要特定模板保證用戶行為一致性,應(yīng)用場(chǎng)景單一,對(duì)話效率低下。Layla等人[12]基于此,提出序列到序列的用戶模型[23]。將對(duì)話的上下文序列(c1,c2,ck)作為輸入,輸出為用戶動(dòng)作序列(a1,a2,ak),如圖4所示[12]。
圖4 用戶模擬器的序列到序列模型
根據(jù)于基于議程的方法[24],每輪中的對(duì)話目標(biāo)G包括約束條件C和詢問(wèn)內(nèi)容R。在t輪對(duì)話時(shí),上下文ct包含如下:(1)上一輪系統(tǒng)動(dòng)作am,t;(2)上一輪系統(tǒng)回復(fù)內(nèi)容與目標(biāo)不一致的信息inconsistt;(3)約束狀態(tài)(是否告知)constt;(4)問(wèn)詢內(nèi)容狀態(tài)(是否告知)reqt。
根據(jù)系統(tǒng)的行為序列將上下文ct經(jīng)過(guò)one-hot編碼再經(jīng)過(guò)encoder LSTM(Long Short Term Memory)[25-26]網(wǎng)絡(luò)得到對(duì)話歷史的內(nèi)部表示,再經(jīng)過(guò)decoder LSTM網(wǎng)絡(luò)處理得到對(duì)話行為序列,例如(inform,request),再將對(duì)話行為映射到inform,request 等操作,其作用是根據(jù)用戶意圖生成對(duì)話動(dòng)作。這種方法將用戶轉(zhuǎn)到代理的對(duì)話看作為源到目標(biāo)的序列生成問(wèn)題,因此解決了用戶模擬器長(zhǎng)期歷史對(duì)話不足的問(wèn)題,不需要人工編寫(xiě)規(guī)則,具有一定的學(xué)習(xí)能力。缺點(diǎn)為需要人工對(duì)數(shù)據(jù)添加語(yǔ)義標(biāo)簽。
3.2.3 多模型構(gòu)建用戶模擬器
面向任務(wù)的對(duì)話系統(tǒng)利用自然語(yǔ)言實(shí)現(xiàn)人機(jī)交互是十分重要的手段。為提高任務(wù)型對(duì)話系統(tǒng)效率,Liu等人[27]提出利用模擬代理與用戶模擬器之間的對(duì)話,通過(guò)多次迭代共同優(yōu)化它們的對(duì)話策略。對(duì)話代理和用戶模擬器分別采用端到端的神經(jīng)網(wǎng)絡(luò)模型[28]。
圖5表示了用戶模擬器的設(shè)計(jì),該模型的用戶目標(biāo)由可查詢和可請(qǐng)求的時(shí)序列表定義[29],把LSTM網(wǎng)絡(luò)的隱藏層作為用戶狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò),將前饋神經(jīng)網(wǎng)絡(luò)作為用戶模擬器的決策網(wǎng)絡(luò)。在k輪對(duì)話時(shí),將用戶目標(biāo)編碼上一輪的用戶語(yǔ)句編碼,當(dāng)前輪的系統(tǒng)語(yǔ)句編碼作為輸入。用戶狀態(tài)通過(guò)LSTM隱層節(jié)點(diǎn)編碼,將新的用戶狀態(tài)輸入到?jīng)Q策網(wǎng)絡(luò),得到用戶即將采取的動(dòng)作和各個(gè)槽位參數(shù)信息。自然語(yǔ)言生成(Natural Language Generation,NLG)模塊部分通過(guò)模板直接生成。
圖5 用戶模擬器網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)話代理結(jié)構(gòu)如圖6所示,該結(jié)構(gòu)同樣采用端到端的LSTM 模型[27]。它的輸入為上一輪的系統(tǒng)語(yǔ)句編碼上一輪的用戶語(yǔ)句編碼以及數(shù)據(jù)庫(kù)查詢結(jié)果編碼,代理狀態(tài)也是通過(guò)LSTM隱藏層將狀態(tài)更新為,并將新的狀態(tài)輸入到?jīng)Q策網(wǎng)絡(luò)(前饋神經(jīng)網(wǎng)絡(luò)),得到代理即將采取的動(dòng)作,各個(gè)槽位的分布狀態(tài),以及one-hot 編碼的查詢指針。自然語(yǔ)言生成模塊部分也是通過(guò)模板直接生成。
Liu等人[27]在模擬器和對(duì)話代理上采用聯(lián)合優(yōu)化的方法,使用同一個(gè)回報(bào)函數(shù):
通過(guò)用戶模擬器和代理交替優(yōu)化將回報(bào)函數(shù)Rk最大化。用戶模擬器和代理使用同一個(gè)目標(biāo)函數(shù):
圖6 對(duì)話代理網(wǎng)絡(luò)結(jié)構(gòu)
通過(guò)多次迭代優(yōu)化參數(shù)θa、θu,使目標(biāo)函數(shù)最大化,其中γ為折扣因子,取值在0~1之間。用戶模擬器和代理的梯度可通過(guò)偏導(dǎo)的方式求出,用戶模擬器和代理的梯度公式如下,其中π代表決策函數(shù)。
多模型構(gòu)建模擬器的方法優(yōu)點(diǎn)是在特定任務(wù)中通過(guò)聯(lián)合優(yōu)化策略使累積回報(bào)最大化,訓(xùn)練的用戶模擬器效果明顯;能夠模擬多類(lèi)型的用戶,使對(duì)話代理達(dá)到個(gè)性化特征。然而由于槽位的設(shè)定,使得該方法在擴(kuò)展性上相對(duì)較弱,從而很難適應(yīng)其他任務(wù)。
3.2.4 協(xié)同過(guò)濾的用戶模擬器
在相對(duì)較大的文本語(yǔ)料庫(kù)中[30],根據(jù)相似的用戶在相似語(yǔ)境的情況下預(yù)測(cè)用戶的下一個(gè)話語(yǔ)作為用戶模擬器的回復(fù),換言之,將用戶模擬問(wèn)題轉(zhuǎn)換為用戶與用戶相似度問(wèn)題[31],因此必須要處理對(duì)話序列。由于用戶的操作空間較為豐富,Didericksen等人[32]考慮代理的動(dòng)作空間并利用比較保守的低熵語(yǔ)句。協(xié)同過(guò)濾方法如圖7所示[32]。
圖7 協(xié)同過(guò)濾方法概述
該方法主要包括兩個(gè)階段:(1)將代理標(biāo)簽從規(guī)模較小的注釋集傳播到整個(gè)語(yǔ)料庫(kù)。(2)在語(yǔ)料庫(kù)中查找與正在進(jìn)行的對(duì)話最相似的對(duì)話框,并將作為下一個(gè)用戶模擬器的返回語(yǔ)句。在對(duì)話時(shí),系統(tǒng)語(yǔ)句生成一個(gè)語(yǔ)義標(biāo)簽,并將標(biāo)簽存入語(yǔ)料庫(kù)中。每輪用戶模擬器回復(fù)時(shí),通過(guò)在語(yǔ)料庫(kù)中查找出與當(dāng)前對(duì)話的語(yǔ)義序列相似度較高的數(shù)據(jù)作為候選集。再將最后一次的系統(tǒng)話語(yǔ)與候選集中最后一個(gè)系統(tǒng)話語(yǔ),利用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)[33]進(jìn)行排序,從而返回最佳的用戶語(yǔ)句,具體算法如下所示[32]。
算法1 用戶模型的協(xié)同過(guò)濾算法
基于協(xié)同過(guò)濾的用戶模擬器能夠保證對(duì)話動(dòng)作的一致性,可擴(kuò)展性強(qiáng)。缺點(diǎn)在于該方法依賴于高質(zhì)量語(yǔ)料庫(kù),在語(yǔ)料庫(kù)相對(duì)不足的情況下,用戶模擬器話語(yǔ)的可行率有待提高。
3.2.5 基于RNN的神經(jīng)用戶模擬器
雖然序列到序列模型對(duì)整個(gè)對(duì)話歷史進(jìn)行了跟蹤處理,但仍然沒(méi)有對(duì)用戶目標(biāo)改變進(jìn)行建模?;诖?,Kreyssig 等人[34]提出從語(yǔ)料庫(kù)中學(xué)習(xí)行為的用戶模擬器,該方法的主要組成部分包括一個(gè)特征提取器和基于神經(jīng)網(wǎng)絡(luò)的序列到序列模型。圖8 表示用戶模擬器結(jié)構(gòu)[34]。將系統(tǒng)的輸出輸入到特征提取器中,將生成的特征向量追加到特征歷史記錄中,再將特征歷史記錄輸入到序列到序列模型生成用戶語(yǔ)句。在對(duì)話開(kāi)始時(shí),目標(biāo)生成器生成一個(gè)目標(biāo),在對(duì)話過(guò)程中目標(biāo)有可能隨之改變。
圖8 用戶模擬器的神經(jīng)網(wǎng)絡(luò)模型
在t輪對(duì)話中,特征提取器提出的特征向量Vt=[at,rt,it,ct] 由四個(gè)向量組成:at為系統(tǒng)動(dòng)作向量,且表示一個(gè)長(zhǎng)度為所有可能的系統(tǒng)動(dòng)作的二進(jìn)制向量。是一個(gè)長(zhǎng)度為可告知槽(informable slots)總個(gè)數(shù)4倍的二進(jìn)制向量,用來(lái)表示本輪系統(tǒng)動(dòng)作是否出現(xiàn)了 request、select、inform 和 expl-conf 這四個(gè)以可告知槽為參數(shù)的動(dòng)作。rt表示一個(gè)長(zhǎng)度為可請(qǐng)求槽數(shù)量的二進(jìn)制表示。it為不一致向量,長(zhǎng)度為可告知槽的數(shù)量,表示系統(tǒng)動(dòng)作和用戶目標(biāo)的不一致性。ct為用戶目標(biāo)約束向量,長(zhǎng)度為可告知槽的數(shù)量,表示用戶目標(biāo)中出現(xiàn)哪些可告知的槽位信息。
Kreyssig 等人[34]使用交叉模型作為評(píng)估方法[35],即通過(guò)基于語(yǔ)料庫(kù)的用戶模擬器訓(xùn)練一個(gè)Agent,和基于規(guī)則的用戶模擬器訓(xùn)練一個(gè)Agent。再用其他用戶模擬器或真實(shí)用戶測(cè)試Agent,實(shí)驗(yàn)結(jié)果表明,基于語(yǔ)料庫(kù)的用戶模擬器訓(xùn)練的Agent,在基于規(guī)則的用戶模擬器和真實(shí)用戶上測(cè)試得到的成功率較優(yōu),而在基于規(guī)則的環(huán)境上訓(xùn)練得到的Agent 效果只在基于規(guī)則的環(huán)境上的成功率較優(yōu)。
3.2.6 多任務(wù)輸出的用戶模擬器
從基于規(guī)則到基于模型的方法,雖然在多輪交互過(guò)程中,都對(duì)用戶目標(biāo)進(jìn)行建模,保持了目標(biāo)的一致性,但對(duì)于不同領(lǐng)域、個(gè)性化特征用戶,即不同的用戶畫(huà)像,并未達(dá)到通過(guò)訓(xùn)練使Agent 達(dá)到適應(yīng)多類(lèi)型用戶的個(gè)性化特征。Liu 等人[7]提出利用用戶的個(gè)性化用戶資料建立個(gè)性化的用戶模擬器,并采用基于模型的方法對(duì)用戶模擬器進(jìn)行訓(xùn)練,使用戶模擬器在電商領(lǐng)域中有效地利用個(gè)性化數(shù)據(jù)。
該研究團(tuán)隊(duì)[7]將用戶模擬器的每一輪交互設(shè)置為三個(gè)子任務(wù):點(diǎn)擊(click)、終止(terminate)和轉(zhuǎn)移(transition)。多任務(wù)模型的用戶模擬器如圖9 所示[7],點(diǎn)擊任務(wù)用來(lái)預(yù)測(cè)一個(gè)顯示的標(biāo)簽是否會(huì)被用戶點(diǎn)擊。根據(jù)預(yù)測(cè)的結(jié)果,將即時(shí)獎(jiǎng)勵(lì)返還給代理;終止任務(wù)決定終止或繼續(xù)當(dāng)前搜索會(huì)話;轉(zhuǎn)換任務(wù)用于每輪交互時(shí),當(dāng)前對(duì)話狀態(tài)的轉(zhuǎn)換。
在t輪交互時(shí),將狀態(tài)st和代理的動(dòng)作at作為輸入,狀態(tài)st包括用戶的特征向量u、查詢的單詞序列qt,即s=(u,qt);代理動(dòng)作at中包括顯示給用戶的K個(gè)標(biāo)簽序列(t1,t2,…,tK)。其中u為三個(gè)one-hot 向量的級(jí)聯(lián),其作用在于模擬個(gè)性化用戶特征??紤]到查詢q和代理動(dòng)作a順序信息很重要,利用兩個(gè)雙向LSTM提取標(biāo)簽之間的順序信息。
圖9 多任務(wù)模型的用戶模擬器
利用共享層將用戶u、查詢qt和動(dòng)作at編碼為hs,u、hs,q和hs,a。每個(gè)子任務(wù)的特定層是以LeakyReLU 為激活函數(shù)的兩個(gè)全連接層。將作為相應(yīng)子任務(wù)的輸入,輸出任務(wù)結(jié)果。由于三個(gè)子任務(wù)都是分類(lèi)問(wèn)題,使用交叉熵作為這三個(gè)子任務(wù)的損失函數(shù)。模擬器的全損函數(shù):
該研究團(tuán)隊(duì)[7]受到Serban 等人[36]啟發(fā),不是直接估計(jì)完全轉(zhuǎn)換概率p(s′|s,a),而是將狀態(tài)轉(zhuǎn)換概率近似為:
其中,u是當(dāng)前會(huì)話中與代理交互的用戶,Z是滿足|Z|?|Q|條件的離散抽象查詢空間。轉(zhuǎn)換如圖10 所示[7]。在給定用戶u的情況下,以抽象查詢?yōu)闂l件,以概率對(duì)狀態(tài)st=(u,qt)進(jìn)行采樣,然后代理根據(jù)其策略π執(zhí)行動(dòng)作at=A(st),并從環(huán)境中接收即時(shí)獎(jiǎng)勵(lì)rt。然后根據(jù)查詢qt和動(dòng)作at,下一個(gè)抽象查詢zt+1的概率采樣。
圖10 帶有抽象查詢的狀態(tài)轉(zhuǎn)換
文獻(xiàn)[16]認(rèn)為一個(gè)好的用戶模擬器應(yīng)該具備如下要求:
(1)用戶模擬器具備一定泛化能力;
(2)評(píng)價(jià)方式不受任務(wù)限制;
(3)評(píng)價(jià)指標(biāo)不需要任何外部人工干預(yù),應(yīng)客觀計(jì)算得出。
準(zhǔn)確率和召回率是機(jī)器學(xué)習(xí)中常用的度量指標(biāo)[37],用于衡量預(yù)測(cè)模型的預(yù)測(cè)能力。因此在單輪級(jí)別對(duì)話時(shí),用戶模擬器可被定義為下一個(gè)檢索行為的預(yù)測(cè)器[38]。準(zhǔn)確率、召回率和F1 值[39]定義如下:
準(zhǔn)確率、召回率和F1 值在評(píng)估用戶模擬器時(shí),其泛化能力較弱,如果用戶模擬器做出的動(dòng)作未出現(xiàn)在對(duì)話數(shù)據(jù)中,會(huì)導(dǎo)致度量值的得分低。因此Pietquin 等人[37]提出計(jì)算用戶模擬器預(yù)測(cè)用戶動(dòng)作概率分布P與真實(shí)用戶的概率分布Q之間的KL[40]散度,通過(guò)概率模型衡量用戶模擬器的合理性,可定義為:
在多輪級(jí)別對(duì)話系統(tǒng)中常用的度量指標(biāo)是任務(wù)完成率和平均對(duì)話輪數(shù),即通過(guò)用戶模擬器與對(duì)話系統(tǒng)進(jìn)行真實(shí)交互,計(jì)算系統(tǒng)任務(wù)的完成率和平均對(duì)話輪數(shù)。
在交互式檢索場(chǎng)景下,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練時(shí),用戶模擬器可比作環(huán)境一方,檢索引擎可看作為代理,檢索引擎和用戶模擬器交互時(shí),代理不斷更新學(xué)習(xí)對(duì)話策略,并接收來(lái)自環(huán)境的獎(jiǎng)賞,因此可將如下兩個(gè)度量作為用戶模擬器的評(píng)價(jià)指標(biāo):檢索引擎的累積回報(bào),累積回報(bào)越大,用戶模擬器效果越好;每次檢索的平均交互輪數(shù),交互輪數(shù)越小,用戶模擬器效果越好。
本文主要對(duì)構(gòu)建用戶模擬器中常用的模型和方法進(jìn)行介紹,如預(yù)訂餐館、訂電影票等槽填充(slot-filling)任務(wù)中,由于有限的對(duì)話空間和對(duì)話動(dòng)作,基于規(guī)則的方法在實(shí)際應(yīng)用中變得簡(jiǎn)單、快捷。然而該方法的應(yīng)用場(chǎng)景比較單一,魯棒性低。在高質(zhì)量數(shù)據(jù)中,深度學(xué)習(xí)模型的效果普遍優(yōu)于基于規(guī)則的方法。
大量近期研究進(jìn)展表明,交互式檢索系統(tǒng)在支持用戶完成檢索任務(wù)方面還有很大的提升空間,因此交互式檢索的用戶模擬器需要構(gòu)建更加合理的模型,協(xié)助用戶完成信息檢索任務(wù)。以面向?qū)W位論文檢索為例,相比傳統(tǒng)的用戶模擬器,交互式檢索的用戶模擬器訓(xùn)練的檢索引擎存在以下優(yōu)勢(shì):
(1)利用交互式檢索的用戶模擬器訓(xùn)練的檢索系統(tǒng),在每輪交互過(guò)程中,都會(huì)向用戶推薦出一組檢索結(jié)果和相應(yīng)的檢索標(biāo)簽,通過(guò)標(biāo)簽的點(diǎn)擊事件,使得用戶獲取有效的檢索信息,極大地提高用戶檢索信息的效率。
(2)利用檢索引擎反饋的結(jié)果及對(duì)應(yīng)的標(biāo)簽,幫助用戶更好地掌握信息發(fā)現(xiàn)的過(guò)程。
(3)可對(duì)檢索用戶的人群、檢索偏好進(jìn)行個(gè)性化建模。通過(guò)記錄用戶點(diǎn)擊系統(tǒng)反饋的檢索標(biāo)簽,挖掘該類(lèi)用戶正確的檢索習(xí)慣,從而達(dá)到個(gè)性化特征。
交互式檢索的用戶模擬器在學(xué)位論文檢索任務(wù)中發(fā)揮著重要作用,一個(gè)好的用戶模擬器不僅能夠在用戶目標(biāo)確定的情況下生成連貫的用戶動(dòng)作,而且能夠體現(xiàn)用戶個(gè)性化、多樣性和泛化能力。基于此,后續(xù)工作將針對(duì)面向交互式檢索學(xué)位論文檢索任務(wù),對(duì)用戶模擬器進(jìn)行構(gòu)建。本文還有許多新的問(wèn)題需要解決,需要在實(shí)際應(yīng)用中積累和完善,在以下方面還需要進(jìn)一步研究:
(1)在語(yǔ)料庫(kù)中未出現(xiàn)的檢索動(dòng)作,用戶模擬器泛化能力依舊較弱,如何探索更大的動(dòng)作空間,使用戶模擬器具有更大的泛化能力。
(2)為了適應(yīng)不同專(zhuān)業(yè)、年級(jí)、性別等個(gè)性化用戶,如何將用戶群體畫(huà)像特征融入檢索系統(tǒng),使交互式檢索的用戶模擬器具有更多樣化、個(gè)性化的檢索行為。
(3)在學(xué)位論文檢索中,由于個(gè)性化檢索數(shù)據(jù)限制,考慮運(yùn)用遷移學(xué)習(xí)方法,將個(gè)性化用戶模型拆解為共性特征、異性特征兩個(gè)模塊進(jìn)行分步訓(xùn)練,以解決個(gè)性化數(shù)據(jù)匱乏問(wèn)題。
(4)在多輪交互過(guò)程中,如何保證用戶行為的一致性、合理性,避免出現(xiàn)偏差的用戶動(dòng)作。
(5)在系統(tǒng)運(yùn)營(yíng)角度,如何通過(guò)用戶模擬器訓(xùn)練的檢索引擎,對(duì)個(gè)性化用戶進(jìn)行相關(guān)論文推薦,以增加真實(shí)用戶使用率。