交互式檢索的用戶模擬器研究綜述

2020-05-20 01:18李艷玲

計(jì)算機(jī)工程與應(yīng)用 2020年10期

劉陽(yáng)，林民，李艷玲

內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，呼和浩特 010022

1 引言

機(jī)器學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用于提升檢索系統(tǒng)的性能[1-4]。近年來(lái)，強(qiáng)化學(xué)習(xí)在檢索引擎的應(yīng)用越來(lái)越廣泛[5-6]，強(qiáng)化學(xué)習(xí)方法允許檢索引擎在沒(méi)有標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)方法中，檢索引擎通過(guò)用戶模擬器提供一個(gè)獎(jiǎng)賞信號(hào)來(lái)優(yōu)化檢索策略，而檢索策略需要來(lái)自環(huán)境下的多輪交互數(shù)據(jù)，即大量的用戶與之交互。為克服該限制，研究人員通過(guò)使用用戶模擬器來(lái)訓(xùn)練檢索引擎。

交互式檢索可看作用戶與檢索引擎一個(gè)或多個(gè)回合的交互過(guò)程[7]。通常設(shè)計(jì)為一個(gè)馬爾科夫決策過(guò)程（Markov Decision Process，MDP），通過(guò)隨機(jī)優(yōu)化的方法學(xué)習(xí)檢索策略。訓(xùn)練檢索引擎可分為兩種，即在線訓(xùn)練和離線訓(xùn)練。目前多數(shù)模型基于數(shù)據(jù)進(jìn)行離線監(jiān)督訓(xùn)練，而在線學(xué)習(xí)過(guò)程則利用強(qiáng)化學(xué)習(xí)算法通過(guò)構(gòu)建用戶模擬器[8]，模擬真實(shí)用戶與檢索引擎進(jìn)行交互，有效地解決了檢索引擎在線使用存在冷啟動(dòng)問(wèn)題。

用戶模擬器構(gòu)建存在以下困難：首先，不同類(lèi)型用戶有不同的習(xí)慣及特征；其次，個(gè)性化行為數(shù)據(jù)通常是有限的。針對(duì)用戶模擬器的構(gòu)建方法，重點(diǎn)分析了基于模型的用戶模擬器，首先能夠引導(dǎo)用戶識(shí)別目標(biāo)需求，幫助用戶完成檢索任務(wù)，其次在檢索交互過(guò)程中挖掘用戶的檢索習(xí)慣，使其滿足個(gè)性化特征以便通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練高質(zhì)量的個(gè)性化檢索引擎。

2 用戶模擬器

在傳統(tǒng)的人機(jī)對(duì)話系統(tǒng)中，對(duì)真實(shí)用戶交互的數(shù)據(jù)采集極為困難，導(dǎo)致與對(duì)話系統(tǒng)交互的數(shù)據(jù)匱乏。用戶模擬器可以產(chǎn)生多條交互數(shù)據(jù)，使對(duì)話代理可以挖掘最優(yōu)對(duì)話策略。在交互式檢索場(chǎng)景中，通過(guò)收集不同類(lèi)型用戶的檢索行為數(shù)據(jù)，訓(xùn)練出模擬不同類(lèi)型用戶檢索行為的用戶模擬器。利用個(gè)性化用戶模擬器訓(xùn)練出的檢索引擎能夠適應(yīng)不同用戶類(lèi)型的檢索行為，使檢索引擎達(dá)到適應(yīng)個(gè)性化檢索任務(wù)的能力。

近年來(lái)研究者對(duì)用戶模擬器進(jìn)行了大量的研究工作，包括基于概率模型的bi-gram 模型[9]、基于規(guī)則的方法[10-11]，然而基于概率模型和基于規(guī)則方法構(gòu)建的用戶模擬器并不具有對(duì)用戶交互學(xué)習(xí)能力。隨后發(fā)展到基于深度學(xué)習(xí)的方法[12-13]，構(gòu)建出的用戶模擬器能夠?qū)W習(xí)到單類(lèi)型的用戶特征，很大程度上提升了用戶模擬器性能，使得對(duì)話代理訓(xùn)練更高效。

交互式檢索方式能方便采集到細(xì)粒度的用戶行為數(shù)據(jù)，使得訓(xùn)練出的用戶模擬器能夠模擬出不同類(lèi)型的個(gè)性化數(shù)據(jù)，利用強(qiáng)化學(xué)習(xí)方法，將個(gè)性化用戶模擬器模擬為環(huán)境，使檢索引擎具有適應(yīng)個(gè)性化行為的能力。

用戶模擬器包含以下三部分：

第一，檢索目標(biāo)：當(dāng)用戶模擬器與檢索引擎交互時(shí)，首先用戶模擬器生成一個(gè)檢索引擎未知的檢索目標(biāo)，通過(guò)多輪交互，檢索引擎幫助用戶模擬器完成檢索任務(wù)。

第二，用戶模型[14]：該部分為用戶模擬器中最重要的組成部分，當(dāng)每輪交互完成時(shí)檢索引擎反饋給用戶模擬器一個(gè)檢索結(jié)果，用戶模型根據(jù)此結(jié)果更新下一輪對(duì)話的狀態(tài)信息并給出相應(yīng)的策略[15]。

第三，行為輸出模塊：該模塊的輸入為用戶動(dòng)作指針，輸出為特定任務(wù)的輸出，如點(diǎn)擊、終止、繼續(xù)等任務(wù)，從而使用戶模擬器具有交互式、多任務(wù)輸出的能力。

在交互式檢索過(guò)程中，用戶模型根據(jù)檢索結(jié)果更新用戶狀態(tài)并選擇適當(dāng)?shù)男袨椴呗?，再將行為策略輸入到行為輸出層中，將結(jié)果返回到檢索系統(tǒng)中。如此反復(fù)，直到檢索結(jié)束。圖1 表示用戶模擬器與檢索引擎的交互過(guò)程。為方便起見(jiàn)，省略了檢索引擎中的內(nèi)部結(jié)構(gòu)，其中用戶模型將在第3章詳細(xì)介紹。

圖1 用戶模擬器與檢索引擎的交互過(guò)程

3 相關(guān)工作

如何高效地評(píng)估用戶模擬器，至今沒(méi)有度量標(biāo)準(zhǔn)[16]，導(dǎo)致沒(méi)有構(gòu)建用戶模擬器的標(biāo)準(zhǔn)方法。這里將構(gòu)建用戶模擬器的方法大致分為兩類(lèi)，即基于規(guī)則的方法和基于模型的方法。

3.1 基于規(guī)則的用戶模擬器

下面首先介紹基于議程的用戶模擬器。

基于議程[10-11]（Agenda-based）的方法將用戶模擬器與對(duì)話代理交互的過(guò)程通過(guò)棧的結(jié)構(gòu)記錄下來(lái)，以入棧形式記錄歷史的對(duì)話動(dòng)作，保證用戶模擬器在對(duì)話過(guò)程中行為的一致性。

在時(shí)刻t時(shí)，用戶在狀態(tài)s下執(zhí)行動(dòng)作au，狀態(tài)過(guò)渡到s′，然后接收系統(tǒng)回復(fù)動(dòng)作am，并轉(zhuǎn)換到下一個(gè)狀態(tài)s″，通過(guò)此形式可以形式化地表示狀態(tài)轉(zhuǎn)換和對(duì)話動(dòng)作序列，后續(xù)每輪對(duì)話按照此流程循環(huán)下去。

由馬爾科夫假設(shè)，用戶行為可分三種：（1）P(au|s)，用戶動(dòng)作選擇；（2）P(s′|au,s)，用戶在狀態(tài)s下采取au后，用戶狀態(tài)轉(zhuǎn)移到s″的概率；（3）P(s″|am,s′)，在狀態(tài)s′下接收到系統(tǒng)動(dòng)作am后用戶狀態(tài)轉(zhuǎn)移到s″的概率。

Agenda的內(nèi)容A是圍繞著用戶目標(biāo)G所建立的，在對(duì)話過(guò)程中，當(dāng)前的對(duì)話狀態(tài)S包括A中的用戶動(dòng)作和當(dāng)前輪的用戶目標(biāo)G，即S=(A,G)。

G可以保證A中發(fā)出的用戶動(dòng)作一致性，并且是以G為導(dǎo)向的。G由約束條件C和詢問(wèn)內(nèi)容R組成，即G=(C,R)，類(lèi)似于SQL語(yǔ)句，可抽象表示為：

A中存儲(chǔ)待執(zhí)行的用戶對(duì)話行為，在開(kāi)始對(duì)話時(shí)，系統(tǒng)隨機(jī)生成用戶目標(biāo)G，將約束條件C轉(zhuǎn)換為告知行為（inform acts），詢問(wèn)內(nèi)容R轉(zhuǎn)換為詢問(wèn)行為（request acts），再將告知行為和詢問(wèn)行為填充到A中，并在底部添加bye act來(lái)結(jié)束對(duì)話。在對(duì)話過(guò)程中A頂部會(huì)彈出本輪的用戶動(dòng)作au。在用戶模擬器接收到系統(tǒng)回復(fù)am后，根據(jù)規(guī)則產(chǎn)生新的用戶動(dòng)作將會(huì)壓入A的棧頂。如果棧頂?shù)挠脩魟?dòng)作的優(yōu)先級(jí)小于當(dāng)前輪的用戶動(dòng)作，將A棧頂?shù)挠脩魟?dòng)作緩存起來(lái)再執(zhí)行優(yōu)先級(jí)高的動(dòng)作。圖2展示了用戶目標(biāo)和A變化示例[10]。

用戶動(dòng)作模型定義為：

其中，δ為狄拉克函數(shù)，A[N-n+1..N] 為A棧頂?shù)膖op-n的用戶動(dòng)作序列acts。換種解釋方法為：如果au在top-n的動(dòng)作序列acts中，如果P趨近于1，那個(gè)au動(dòng)作將被選中發(fā)出。

狀態(tài)轉(zhuǎn)換模型定義為：

其中，A′為執(zhí)行動(dòng)作au后的A,N′代表A′的大小。根據(jù)概率的鏈?zhǔn)椒▌t與條件獨(dú)立性假設(shè)可將公式改寫(xiě)成：

基于議程的模擬器的優(yōu)點(diǎn)是可以冷啟動(dòng)，用戶行為完全可控，缺點(diǎn)為需要通過(guò)專(zhuān)家手動(dòng)構(gòu)建數(shù)據(jù)，規(guī)則一般由人工編寫(xiě)，工作量大，覆蓋度不夠，主觀性強(qiáng)，一致性難以保證，也不利于系統(tǒng)的擴(kuò)充，適用于模板型的填槽式對(duì)話任務(wù)。

3.2 基于模型的用戶模擬器

3.2.1 基于統(tǒng)計(jì)模型的用戶模擬器

在不同領(lǐng)域的對(duì)話系統(tǒng)中，用戶模擬器最早是基于統(tǒng)計(jì)模型建模，文獻(xiàn)[9]利用一個(gè)簡(jiǎn)單的bi-gram模型，對(duì)用戶模型進(jìn)行概率建模。在系統(tǒng)動(dòng)作as基礎(chǔ)上預(yù)測(cè)下一輪用戶動(dòng)作au，即p=(au|as)。因?yàn)樵撃Ｐ筒](méi)有在整個(gè)對(duì)話歷史和用戶目標(biāo)之間進(jìn)行有效的建模，所以模擬出的用戶行為隨機(jī)性很大。其主要原因有兩個(gè)：（1）該模型只能看到最后一個(gè)系統(tǒng)動(dòng)作；（2）如果用戶改變目標(biāo)，該模型可能會(huì)出現(xiàn)偏差的行為，因?yàn)轭A(yù)測(cè)下一個(gè)用戶動(dòng)作as時(shí)，并沒(méi)有考慮用戶目標(biāo)。為解決第一個(gè)問(wèn)題，文獻(xiàn)[17-18]通過(guò)研究對(duì)話歷史，再預(yù)測(cè)下一個(gè)用戶動(dòng)作au，使用戶動(dòng)作的生成有了一定的約束性；第二個(gè)問(wèn)題可通過(guò)整合用戶目標(biāo)為用戶狀態(tài)進(jìn)行建模[19]。

文獻(xiàn)[20]在用戶模型的序列建模上利用隱馬爾科夫模型來(lái)推斷每一輪的用戶動(dòng)作，使用戶行為更接近真實(shí)用戶行為，從而減少了用戶行為的隨機(jī)性。文獻(xiàn)[21]通過(guò)觀察用戶操作保持對(duì)對(duì)話狀態(tài)的信任，并受到Williams 等人[22]的啟發(fā)，使用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)并加入獨(dú)立性假設(shè)得到概率模型的網(wǎng)絡(luò)結(jié)構(gòu)，如圖3 所示[21]，g、st、ut、ht、ot分別是用戶目標(biāo)、系統(tǒng)動(dòng)作、用戶動(dòng)作、對(duì)話歷史記錄和每個(gè)時(shí)間片用戶觀測(cè)動(dòng)作。通過(guò)迭代算法優(yōu)化模型參數(shù)。

圖2 用戶目標(biāo)和Agenda變化示例

圖3 概率模型的用戶模型

3.2.2 序列到序列的用戶模擬器

上文提出的概率模型，并沒(méi)有考慮對(duì)話歷史的情況，并且需要特定模板保證用戶行為一致性，應(yīng)用場(chǎng)景單一，對(duì)話效率低下。Layla等人[12]基于此，提出序列到序列的用戶模型[23]。將對(duì)話的上下文序列(c1,c2,ck)作為輸入，輸出為用戶動(dòng)作序列(a1,a2,ak)，如圖4所示[12]。

圖4 用戶模擬器的序列到序列模型

根據(jù)于基于議程的方法[24]，每輪中的對(duì)話目標(biāo)G包括約束條件C和詢問(wèn)內(nèi)容R。在t輪對(duì)話時(shí)，上下文ct包含如下：（1）上一輪系統(tǒng)動(dòng)作am,t；（2）上一輪系統(tǒng)回復(fù)內(nèi)容與目標(biāo)不一致的信息inconsistt；（3）約束狀態(tài)（是否告知）constt；（4）問(wèn)詢內(nèi)容狀態(tài)（是否告知）reqt。

根據(jù)系統(tǒng)的行為序列將上下文ct經(jīng)過(guò)one-hot編碼再經(jīng)過(guò)encoder LSTM（Long Short Term Memory）[25-26]網(wǎng)絡(luò)得到對(duì)話歷史的內(nèi)部表示，再經(jīng)過(guò)decoder LSTM網(wǎng)絡(luò)處理得到對(duì)話行為序列，例如（inform，request），再將對(duì)話行為映射到inform，request 等操作，其作用是根據(jù)用戶意圖生成對(duì)話動(dòng)作。這種方法將用戶轉(zhuǎn)到代理的對(duì)話看作為源到目標(biāo)的序列生成問(wèn)題，因此解決了用戶模擬器長(zhǎng)期歷史對(duì)話不足的問(wèn)題，不需要人工編寫(xiě)規(guī)則，具有一定的學(xué)習(xí)能力。缺點(diǎn)為需要人工對(duì)數(shù)據(jù)添加語(yǔ)義標(biāo)簽。

3.2.3 多模型構(gòu)建用戶模擬器

面向任務(wù)的對(duì)話系統(tǒng)利用自然語(yǔ)言實(shí)現(xiàn)人機(jī)交互是十分重要的手段。為提高任務(wù)型對(duì)話系統(tǒng)效率，Liu等人[27]提出利用模擬代理與用戶模擬器之間的對(duì)話，通過(guò)多次迭代共同優(yōu)化它們的對(duì)話策略。對(duì)話代理和用戶模擬器分別采用端到端的神經(jīng)網(wǎng)絡(luò)模型[28]。

圖5表示了用戶模擬器的設(shè)計(jì)，該模型的用戶目標(biāo)由可查詢和可請(qǐng)求的時(shí)序列表定義[29]，把LSTM網(wǎng)絡(luò)的隱藏層作為用戶狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)，將前饋神經(jīng)網(wǎng)絡(luò)作為用戶模擬器的決策網(wǎng)絡(luò)。在k輪對(duì)話時(shí)，將用戶目標(biāo)編碼上一輪的用戶語(yǔ)句編碼，當(dāng)前輪的系統(tǒng)語(yǔ)句編碼作為輸入。用戶狀態(tài)通過(guò)LSTM隱層節(jié)點(diǎn)編碼，將新的用戶狀態(tài)輸入到?jīng)Q策網(wǎng)絡(luò)，得到用戶即將采取的動(dòng)作和各個(gè)槽位參數(shù)信息。自然語(yǔ)言生成（Natural Language Generation，NLG）模塊部分通過(guò)模板直接生成。

圖5 用戶模擬器網(wǎng)絡(luò)結(jié)構(gòu)

對(duì)話代理結(jié)構(gòu)如圖6所示，該結(jié)構(gòu)同樣采用端到端的LSTM 模型[27]。它的輸入為上一輪的系統(tǒng)語(yǔ)句編碼上一輪的用戶語(yǔ)句編碼以及數(shù)據(jù)庫(kù)查詢結(jié)果編碼，代理狀態(tài)也是通過(guò)LSTM隱藏層將狀態(tài)更新為，并將新的狀態(tài)輸入到?jīng)Q策網(wǎng)絡(luò)（前饋神經(jīng)網(wǎng)絡(luò)），得到代理即將采取的動(dòng)作，各個(gè)槽位的分布狀態(tài)，以及one-hot 編碼的查詢指針。自然語(yǔ)言生成模塊部分也是通過(guò)模板直接生成。

Liu等人[27]在模擬器和對(duì)話代理上采用聯(lián)合優(yōu)化的方法，使用同一個(gè)回報(bào)函數(shù)：

通過(guò)用戶模擬器和代理交替優(yōu)化將回報(bào)函數(shù)Rk最大化。用戶模擬器和代理使用同一個(gè)目標(biāo)函數(shù)：

圖6 對(duì)話代理網(wǎng)絡(luò)結(jié)構(gòu)

通過(guò)多次迭代優(yōu)化參數(shù)θa、θu，使目標(biāo)函數(shù)最大化，其中γ為折扣因子，取值在0～1之間。用戶模擬器和代理的梯度可通過(guò)偏導(dǎo)的方式求出，用戶模擬器和代理的梯度公式如下，其中π代表決策函數(shù)。

多模型構(gòu)建模擬器的方法優(yōu)點(diǎn)是在特定任務(wù)中通過(guò)聯(lián)合優(yōu)化策略使累積回報(bào)最大化，訓(xùn)練的用戶模擬器效果明顯；能夠模擬多類(lèi)型的用戶，使對(duì)話代理達(dá)到個(gè)性化特征。然而由于槽位的設(shè)定，使得該方法在擴(kuò)展性上相對(duì)較弱，從而很難適應(yīng)其他任務(wù)。

3.2.4 協(xié)同過(guò)濾的用戶模擬器

在相對(duì)較大的文本語(yǔ)料庫(kù)中[30]，根據(jù)相似的用戶在相似語(yǔ)境的情況下預(yù)測(cè)用戶的下一個(gè)話語(yǔ)作為用戶模擬器的回復(fù)，換言之，將用戶模擬問(wèn)題轉(zhuǎn)換為用戶與用戶相似度問(wèn)題[31]，因此必須要處理對(duì)話序列。由于用戶的操作空間較為豐富，Didericksen等人[32]考慮代理的動(dòng)作空間并利用比較保守的低熵語(yǔ)句。協(xié)同過(guò)濾方法如圖7所示[32]。

圖7 協(xié)同過(guò)濾方法概述

該方法主要包括兩個(gè)階段：（1）將代理標(biāo)簽從規(guī)模較小的注釋集傳播到整個(gè)語(yǔ)料庫(kù)。（2）在語(yǔ)料庫(kù)中查找與正在進(jìn)行的對(duì)話最相似的對(duì)話框，并將作為下一個(gè)用戶模擬器的返回語(yǔ)句。在對(duì)話時(shí)，系統(tǒng)語(yǔ)句生成一個(gè)語(yǔ)義標(biāo)簽，并將標(biāo)簽存入語(yǔ)料庫(kù)中。每輪用戶模擬器回復(fù)時(shí)，通過(guò)在語(yǔ)料庫(kù)中查找出與當(dāng)前對(duì)話的語(yǔ)義序列相似度較高的數(shù)據(jù)作為候選集。再將最后一次的系統(tǒng)話語(yǔ)與候選集中最后一個(gè)系統(tǒng)話語(yǔ)，利用詞頻-逆文檔頻率（Term Frequency-Inverse Document Frequency，TF-IDF）[33]進(jìn)行排序，從而返回最佳的用戶語(yǔ)句，具體算法如下所示[32]。

算法1 用戶模型的協(xié)同過(guò)濾算法

基于協(xié)同過(guò)濾的用戶模擬器能夠保證對(duì)話動(dòng)作的一致性，可擴(kuò)展性強(qiáng)。缺點(diǎn)在于該方法依賴于高質(zhì)量語(yǔ)料庫(kù)，在語(yǔ)料庫(kù)相對(duì)不足的情況下，用戶模擬器話語(yǔ)的可行率有待提高。

3.2.5 基于RNN的神經(jīng)用戶模擬器

雖然序列到序列模型對(duì)整個(gè)對(duì)話歷史進(jìn)行了跟蹤處理，但仍然沒(méi)有對(duì)用戶目標(biāo)改變進(jìn)行建模?；诖?，Kreyssig 等人[34]提出從語(yǔ)料庫(kù)中學(xué)習(xí)行為的用戶模擬器，該方法的主要組成部分包括一個(gè)特征提取器和基于神經(jīng)網(wǎng)絡(luò)的序列到序列模型。圖8 表示用戶模擬器結(jié)構(gòu)[34]。將系統(tǒng)的輸出輸入到特征提取器中，將生成的特征向量追加到特征歷史記錄中，再將特征歷史記錄輸入到序列到序列模型生成用戶語(yǔ)句。在對(duì)話開(kāi)始時(shí)，目標(biāo)生成器生成一個(gè)目標(biāo)，在對(duì)話過(guò)程中目標(biāo)有可能隨之改變。

圖8 用戶模擬器的神經(jīng)網(wǎng)絡(luò)模型

在t輪對(duì)話中，特征提取器提出的特征向量Vt=[at,rt,it,ct] 由四個(gè)向量組成：at為系統(tǒng)動(dòng)作向量，且表示一個(gè)長(zhǎng)度為所有可能的系統(tǒng)動(dòng)作的二進(jìn)制向量。是一個(gè)長(zhǎng)度為可告知槽（informable slots）總個(gè)數(shù)4倍的二進(jìn)制向量，用來(lái)表示本輪系統(tǒng)動(dòng)作是否出現(xiàn)了 request、select、inform 和 expl-conf 這四個(gè)以可告知槽為參數(shù)的動(dòng)作。rt表示一個(gè)長(zhǎng)度為可請(qǐng)求槽數(shù)量的二進(jìn)制表示。it為不一致向量，長(zhǎng)度為可告知槽的數(shù)量，表示系統(tǒng)動(dòng)作和用戶目標(biāo)的不一致性。ct為用戶目標(biāo)約束向量，長(zhǎng)度為可告知槽的數(shù)量，表示用戶目標(biāo)中出現(xiàn)哪些可告知的槽位信息。

Kreyssig 等人[34]使用交叉模型作為評(píng)估方法[35]，即通過(guò)基于語(yǔ)料庫(kù)的用戶模擬器訓(xùn)練一個(gè)Agent，和基于規(guī)則的用戶模擬器訓(xùn)練一個(gè)Agent。再用其他用戶模擬器或真實(shí)用戶測(cè)試Agent，實(shí)驗(yàn)結(jié)果表明，基于語(yǔ)料庫(kù)的用戶模擬器訓(xùn)練的Agent，在基于規(guī)則的用戶模擬器和真實(shí)用戶上測(cè)試得到的成功率較優(yōu)，而在基于規(guī)則的環(huán)境上訓(xùn)練得到的Agent 效果只在基于規(guī)則的環(huán)境上的成功率較優(yōu)。

3.2.6 多任務(wù)輸出的用戶模擬器

從基于規(guī)則到基于模型的方法，雖然在多輪交互過(guò)程中，都對(duì)用戶目標(biāo)進(jìn)行建模，保持了目標(biāo)的一致性，但對(duì)于不同領(lǐng)域、個(gè)性化特征用戶，即不同的用戶畫(huà)像，并未達(dá)到通過(guò)訓(xùn)練使Agent 達(dá)到適應(yīng)多類(lèi)型用戶的個(gè)性化特征。Liu 等人[7]提出利用用戶的個(gè)性化用戶資料建立個(gè)性化的用戶模擬器，并采用基于模型的方法對(duì)用戶模擬器進(jìn)行訓(xùn)練，使用戶模擬器在電商領(lǐng)域中有效地利用個(gè)性化數(shù)據(jù)。

該研究團(tuán)隊(duì)[7]將用戶模擬器的每一輪交互設(shè)置為三個(gè)子任務(wù)：點(diǎn)擊（click）、終止（terminate）和轉(zhuǎn)移（transition）。多任務(wù)模型的用戶模擬器如圖9 所示[7]，點(diǎn)擊任務(wù)用來(lái)預(yù)測(cè)一個(gè)顯示的標(biāo)簽是否會(huì)被用戶點(diǎn)擊。根據(jù)預(yù)測(cè)的結(jié)果，將即時(shí)獎(jiǎng)勵(lì)返還給代理；終止任務(wù)決定終止或繼續(xù)當(dāng)前搜索會(huì)話；轉(zhuǎn)換任務(wù)用于每輪交互時(shí)，當(dāng)前對(duì)話狀態(tài)的轉(zhuǎn)換。

在t輪交互時(shí)，將狀態(tài)st和代理的動(dòng)作at作為輸入，狀態(tài)st包括用戶的特征向量u、查詢的單詞序列qt，即s=(u,qt)；代理動(dòng)作at中包括顯示給用戶的K個(gè)標(biāo)簽序列(t1,t2,…,tK)。其中u為三個(gè)one-hot 向量的級(jí)聯(lián)，其作用在于模擬個(gè)性化用戶特征?？紤]到查詢q和代理動(dòng)作a順序信息很重要，利用兩個(gè)雙向LSTM提取標(biāo)簽之間的順序信息。

圖9 多任務(wù)模型的用戶模擬器

利用共享層將用戶u、查詢qt和動(dòng)作at編碼為hs,u、hs,q和hs,a。每個(gè)子任務(wù)的特定層是以LeakyReLU 為激活函數(shù)的兩個(gè)全連接層。將作為相應(yīng)子任務(wù)的輸入，輸出任務(wù)結(jié)果。由于三個(gè)子任務(wù)都是分類(lèi)問(wèn)題，使用交叉熵作為這三個(gè)子任務(wù)的損失函數(shù)。模擬器的全損函數(shù)：

該研究團(tuán)隊(duì)[7]受到Serban 等人[36]啟發(fā)，不是直接估計(jì)完全轉(zhuǎn)換概率p(s′|s,a)，而是將狀態(tài)轉(zhuǎn)換概率近似為：

其中，u是當(dāng)前會(huì)話中與代理交互的用戶，Z是滿足|Z|?|Q|條件的離散抽象查詢空間。轉(zhuǎn)換如圖10 所示[7]。在給定用戶u的情況下，以抽象查詢?yōu)闂l件，以概率對(duì)狀態(tài)st=(u,qt)進(jìn)行采樣，然后代理根據(jù)其策略π執(zhí)行動(dòng)作at=A(st)，并從環(huán)境中接收即時(shí)獎(jiǎng)勵(lì)rt。然后根據(jù)查詢qt和動(dòng)作at，下一個(gè)抽象查詢zt+1的概率采樣。

圖10 帶有抽象查詢的狀態(tài)轉(zhuǎn)換

4 用戶模擬器評(píng)價(jià)方法

4.1 基于深度學(xué)習(xí)的評(píng)價(jià)方法

文獻(xiàn)[16]認(rèn)為一個(gè)好的用戶模擬器應(yīng)該具備如下要求：

（1）用戶模擬器具備一定泛化能力；

（2）評(píng)價(jià)方式不受任務(wù)限制；

（3）評(píng)價(jià)指標(biāo)不需要任何外部人工干預(yù)，應(yīng)客觀計(jì)算得出。

準(zhǔn)確率和召回率是機(jī)器學(xué)習(xí)中常用的度量指標(biāo)[37]，用于衡量預(yù)測(cè)模型的預(yù)測(cè)能力。因此在單輪級(jí)別對(duì)話時(shí)，用戶模擬器可被定義為下一個(gè)檢索行為的預(yù)測(cè)器[38]。準(zhǔn)確率、召回率和F1 值[39]定義如下：

準(zhǔn)確率、召回率和F1 值在評(píng)估用戶模擬器時(shí)，其泛化能力較弱，如果用戶模擬器做出的動(dòng)作未出現(xiàn)在對(duì)話數(shù)據(jù)中，會(huì)導(dǎo)致度量值的得分低。因此Pietquin 等人[37]提出計(jì)算用戶模擬器預(yù)測(cè)用戶動(dòng)作概率分布P與真實(shí)用戶的概率分布Q之間的KL[40]散度，通過(guò)概率模型衡量用戶模擬器的合理性，可定義為：

在多輪級(jí)別對(duì)話系統(tǒng)中常用的度量指標(biāo)是任務(wù)完成率和平均對(duì)話輪數(shù)，即通過(guò)用戶模擬器與對(duì)話系統(tǒng)進(jìn)行真實(shí)交互，計(jì)算系統(tǒng)任務(wù)的完成率和平均對(duì)話輪數(shù)。

4.2 基于強(qiáng)化學(xué)習(xí)的評(píng)價(jià)方法

在交互式檢索場(chǎng)景下，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練時(shí)，用戶模擬器可比作環(huán)境一方，檢索引擎可看作為代理，檢索引擎和用戶模擬器交互時(shí)，代理不斷更新學(xué)習(xí)對(duì)話策略，并接收來(lái)自環(huán)境的獎(jiǎng)賞，因此可將如下兩個(gè)度量作為用戶模擬器的評(píng)價(jià)指標(biāo)：檢索引擎的累積回報(bào)，累積回報(bào)越大，用戶模擬器效果越好；每次檢索的平均交互輪數(shù)，交互輪數(shù)越小，用戶模擬器效果越好。

5 總結(jié)與展望

本文主要對(duì)構(gòu)建用戶模擬器中常用的模型和方法進(jìn)行介紹，如預(yù)訂餐館、訂電影票等槽填充（slot-filling）任務(wù)中，由于有限的對(duì)話空間和對(duì)話動(dòng)作，基于規(guī)則的方法在實(shí)際應(yīng)用中變得簡(jiǎn)單、快捷。然而該方法的應(yīng)用場(chǎng)景比較單一，魯棒性低。在高質(zhì)量數(shù)據(jù)中，深度學(xué)習(xí)模型的效果普遍優(yōu)于基于規(guī)則的方法。

大量近期研究進(jìn)展表明，交互式檢索系統(tǒng)在支持用戶完成檢索任務(wù)方面還有很大的提升空間，因此交互式檢索的用戶模擬器需要構(gòu)建更加合理的模型，協(xié)助用戶完成信息檢索任務(wù)。以面向?qū)W位論文檢索為例，相比傳統(tǒng)的用戶模擬器，交互式檢索的用戶模擬器訓(xùn)練的檢索引擎存在以下優(yōu)勢(shì)：

（1）利用交互式檢索的用戶模擬器訓(xùn)練的檢索系統(tǒng)，在每輪交互過(guò)程中，都會(huì)向用戶推薦出一組檢索結(jié)果和相應(yīng)的檢索標(biāo)簽，通過(guò)標(biāo)簽的點(diǎn)擊事件，使得用戶獲取有效的檢索信息，極大地提高用戶檢索信息的效率。

（2）利用檢索引擎反饋的結(jié)果及對(duì)應(yīng)的標(biāo)簽，幫助用戶更好地掌握信息發(fā)現(xiàn)的過(guò)程。

（3）可對(duì)檢索用戶的人群、檢索偏好進(jìn)行個(gè)性化建模。通過(guò)記錄用戶點(diǎn)擊系統(tǒng)反饋的檢索標(biāo)簽，挖掘該類(lèi)用戶正確的檢索習(xí)慣，從而達(dá)到個(gè)性化特征。

交互式檢索的用戶模擬器在學(xué)位論文檢索任務(wù)中發(fā)揮著重要作用，一個(gè)好的用戶模擬器不僅能夠在用戶目標(biāo)確定的情況下生成連貫的用戶動(dòng)作，而且能夠體現(xiàn)用戶個(gè)性化、多樣性和泛化能力。基于此，后續(xù)工作將針對(duì)面向交互式檢索學(xué)位論文檢索任務(wù)，對(duì)用戶模擬器進(jìn)行構(gòu)建。本文還有許多新的問(wèn)題需要解決，需要在實(shí)際應(yīng)用中積累和完善，在以下方面還需要進(jìn)一步研究：

（1）在語(yǔ)料庫(kù)中未出現(xiàn)的檢索動(dòng)作，用戶模擬器泛化能力依舊較弱，如何探索更大的動(dòng)作空間，使用戶模擬器具有更大的泛化能力。

（2）為了適應(yīng)不同專(zhuān)業(yè)、年級(jí)、性別等個(gè)性化用戶，如何將用戶群體畫(huà)像特征融入檢索系統(tǒng)，使交互式檢索的用戶模擬器具有更多樣化、個(gè)性化的檢索行為。

（3）在學(xué)位論文檢索中，由于個(gè)性化檢索數(shù)據(jù)限制，考慮運(yùn)用遷移學(xué)習(xí)方法，將個(gè)性化用戶模型拆解為共性特征、異性特征兩個(gè)模塊進(jìn)行分步訓(xùn)練，以解決個(gè)性化數(shù)據(jù)匱乏問(wèn)題。

（4）在多輪交互過(guò)程中，如何保證用戶行為的一致性、合理性，避免出現(xiàn)偏差的用戶動(dòng)作。

（5）在系統(tǒng)運(yùn)營(yíng)角度，如何通過(guò)用戶模擬器訓(xùn)練的檢索引擎，對(duì)個(gè)性化用戶進(jìn)行相關(guān)論文推薦，以增加真實(shí)用戶使用率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡