国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向非任務(wù)型對話系統(tǒng)的人工標(biāo)注中文數(shù)據(jù)集

2019-04-17 05:45:00張海松
中文信息學(xué)報 2019年3期
關(guān)鍵詞:社交評分模型

李 菁,張海松,宋 彥

(騰訊AI Lab,廣東 深圳 518052)

0 引言

自從圖靈測試構(gòu)想誕生[1]以來,構(gòu)建能夠自然地與人類溝通的交互系統(tǒng)便成為了人工智能的使命之一,尤其是人機(jī)交互的前端——自然語言對話系統(tǒng)更是被期待著承擔(dān)連接人與機(jī)器的重任。近年來,隨著人工智能相關(guān)技術(shù)的突破以及大量真實對話數(shù)據(jù)的產(chǎn)生,對話系統(tǒng)的相關(guān)研究也隨之增加。很多在真實應(yīng)用中涌現(xiàn)出的對話系統(tǒng)不但成為了我們?nèi)粘I钪械谋貍涔ぞ撸藢W(xué)術(shù)界的廣泛關(guān)注,例如,蘋果Siri[2]、谷歌smart reply[3]、微軟小冰[4]等??傮w來說,在功能層面上,現(xiàn)有的對話系統(tǒng)可以分為兩大類,即任務(wù)導(dǎo)向型對話系統(tǒng)[5]和非任務(wù)導(dǎo)向型聊天機(jī)器人[6]。其中,任務(wù)導(dǎo)向型對話系統(tǒng)對對話應(yīng)用的任務(wù)場景做了一定程度的限制,旨在幫助人們完成特定任務(wù),例如,訂票交互系統(tǒng)幫助用戶購買機(jī)票的服務(wù)[7]、圖書館交互系統(tǒng)回答用戶關(guān)于圖書信息的咨詢[8]等。相比之下,非任務(wù)導(dǎo)向的聊天機(jī)器人更加側(cè)重閑聊功能,這種類型的對話系統(tǒng)不會對對話場景和主題做任何限制,因此聊天主題相對更加多樣化,話題覆蓋程度比任務(wù)型對話系統(tǒng)更加廣泛。

以往的人機(jī)交互系統(tǒng),例如,Eliza[9]、Parry[10]和Alice[11]都使用基于規(guī)則和模板的方法。這類方法在早期的對話系統(tǒng)中十分流行,然而,規(guī)則和模板的設(shè)計需要消耗大量人力,很難覆蓋多樣化的對話主題?,F(xiàn)今的對話系統(tǒng)中,應(yīng)用最廣的是數(shù)據(jù)驅(qū)動型對話系統(tǒng),這種對話系統(tǒng)不依賴于人總結(jié)的規(guī)則,完全從數(shù)據(jù)中學(xué)習(xí)如何回復(fù)用戶的問題,可以在很大程度上緩解規(guī)則系統(tǒng)所需要的人力和資源[12]。然而,訓(xùn)練一個數(shù)據(jù)驅(qū)動型對話系統(tǒng)往往需要大量的對話數(shù)據(jù)。為了解決這種數(shù)據(jù)需求,以往的工作傾向于從社交媒體中收集用戶產(chǎn)生的交互文本[注]在社交媒體等場景下,用戶對其他公開用戶發(fā)表的某些狀態(tài)或者評論等進(jìn)行相應(yīng)的回復(fù),以此產(chǎn)生的文本我們稱之為交互文本。更一般地,任何用戶相互之間進(jìn)行交流產(chǎn)生的文本都可以被認(rèn)為是交互文本。用于訓(xùn)練對話系統(tǒng)[13],原因有如下幾個方面: 其一,社交媒體的數(shù)據(jù)完全公開,易于收集和獲取;其二,社交媒體對文本的長度做了限制,例如,新浪微博[注]https: //weibo.com上單條信息的長度不超過140個字,這些文本的長度比較接近對話中的文本長度,因此比較適合被用于學(xué)習(xí)對話回復(fù);其三,社交媒體的文本往往產(chǎn)生自不同的人,天然地構(gòu)成了對話形態(tài)的文本組織方式;其四,社交媒體的語言風(fēng)格緊跟潮流,能夠比較與時俱進(jìn)地反映當(dāng)前的語言使用現(xiàn)狀。

然而,通過社交媒體收集的數(shù)據(jù)也會直接受到社交媒體平臺帶來的負(fù)面影響,包括諸如信息噪聲大(包含廣告等)、不符合規(guī)范、有效信息量小等問題。例如,在新浪微博上,針對用戶的對話問題: “我超愛吃蘋果?。?!”,我們在表1中展示了幾個用戶回復(fù)的樣例。其中第一個回復(fù)是一個針對RPG游戲的廣告而不是直接回復(fù)原始微博的問題,這在社交媒體中廣泛存在,屬于噪聲數(shù)據(jù),這樣的回復(fù)與問題完全無關(guān),屬于偏離了主題的極差回復(fù)類型。第二個回復(fù)雖然包含問題中的關(guān)鍵詞“蘋果”,但是與問題的配合看來顯得并不通順連貫,屬于較差的回復(fù)類型。第三個回復(fù)雖然通順自然,卻屬于在社交媒體上廣泛存在的一類“萬能回復(fù)”[14],可以應(yīng)對多種不同類型的問題,因此在內(nèi)容上針對特定問題并不具備多少信息量[注]由于社交媒體上通用回復(fù)的普遍性,以往通過社交媒體語料訓(xùn)練的聊天機(jī)器人,往往傾向于生成類似的“萬能回復(fù)”,妨礙聊天的正常進(jìn)行。因此,通用回復(fù)與更高質(zhì)量的回復(fù)需要被有效地區(qū)分。。第四個回復(fù)被認(rèn)是極好的回復(fù),因為其不僅主題相關(guān)、自然連貫地回復(fù)問題,且其中包含的俗語表達(dá)提供了“蘋果有益身體健康”的豐富信息,還具備一定程度的趣味性。上述實例表明,不同回復(fù)的質(zhì)量很大程度上決定了一個對話進(jìn)程的持續(xù)能力和用戶體驗。因此,對話系統(tǒng)需要有效區(qū)分不同質(zhì)量的回復(fù)。尤其對于數(shù)據(jù)驅(qū)動型的對話系統(tǒng),回復(fù)數(shù)據(jù)的標(biāo)準(zhǔn)化質(zhì)量標(biāo)注顯得非常重要,可以有效助益對話系統(tǒng)的回復(fù)生成[15]能力和效果評估[16-17]。然而,目前相關(guān)研究有限,并且高質(zhì)量有效標(biāo)注的語料較為稀缺,在中文對話領(lǐng)域基本沒有類似的工作發(fā)表,明顯阻礙了該領(lǐng)域相應(yīng)工作的推進(jìn)。

表1 新浪微博上的問題和它的樣例回復(fù)及其對應(yīng)標(biāo)準(zhǔn)分析

為了完善當(dāng)前對話系統(tǒng)研究,并且為學(xué)界提供有效的公開標(biāo)注數(shù)據(jù),在本文所述的工作中,我們構(gòu)建了一個大規(guī)模的人工標(biāo)注對話數(shù)據(jù)集,其中包含超過27 000個中文問題及其對應(yīng)的82 000條回復(fù)(每個問題可能對應(yīng)多個回復(fù))。本文從問題和回復(fù)的相關(guān)性、連貫性、信息性、趣味性等維度提出五級人工標(biāo)注評分標(biāo)準(zhǔn): 極差的、較差的、一般的、較好的、極好的。考慮到多數(shù)以往工作主要集中使用未標(biāo)注數(shù)據(jù)和自動標(biāo)注數(shù)據(jù),據(jù)了解,本文所述的工作是首次為非任務(wù)導(dǎo)向的對話系統(tǒng)構(gòu)建人工標(biāo)注中文數(shù)據(jù)集。同時,為了對比分析,在該數(shù)據(jù)集的基礎(chǔ)上,我們使用不同的對話回復(fù)選擇模型嘗試了多組基礎(chǔ)實驗。實驗結(jié)果表明本文提出的人工標(biāo)注數(shù)據(jù)集可以有效驅(qū)動對話系統(tǒng)選擇較高質(zhì)量的回復(fù)。

1 相關(guān)工作

本文與非任務(wù)型對話系統(tǒng)緊密相關(guān)。通常,非任務(wù)型對話系統(tǒng)可以分為兩個不同類別: 規(guī)則驅(qū)動型對話系統(tǒng)和數(shù)據(jù)驅(qū)動型對話系統(tǒng)。規(guī)則驅(qū)動型對話系統(tǒng)主要出現(xiàn)在對話系統(tǒng)研究的早期,利用人工制定的規(guī)則或模板來構(gòu)建對話系統(tǒng)。核心的方法包括關(guān)鍵詞匹配[18]、槽位填充(slot filling)[19]和模板填空[20]等。但是這類方法一方面需要耗費大量人力,另一方面在使用時也存在缺陷,主要原因是非任務(wù)型對話系統(tǒng)中,回復(fù)的可能性太多,以致無法被有限的規(guī)則總結(jié)。

數(shù)據(jù)驅(qū)動型對話系統(tǒng)的蓬勃發(fā)展獲益于在線數(shù)據(jù)的大量產(chǎn)生。當(dāng)前,大規(guī)模人人對話數(shù)據(jù)已經(jīng)易于獲得,這在很大程度上推動了各類對話系統(tǒng)模型和算法的發(fā)展。這類對話系統(tǒng)主要利用機(jī)器學(xué)習(xí)的算法,通過引入少量的人工特征[13,21]、或者完全自動的特征學(xué)習(xí)[22-23]從真實的對話數(shù)據(jù)中學(xué)習(xí)類似人人交互方式的對話行為。數(shù)據(jù)驅(qū)動型對話系統(tǒng)不僅極大降低了對人力和資源的需求,而且相比于規(guī)則驅(qū)動型對話系統(tǒng)更能保證對話回復(fù)的多樣性。

因此,為了保證數(shù)據(jù)驅(qū)動型對話系統(tǒng)的性能,收集和整理大規(guī)模、高質(zhì)量的對話數(shù)據(jù)集變得尤為重要。以往的工作主要通過自動[23-24]或半自動[13,25]的方法構(gòu)建數(shù)據(jù)集,保證這些方法有效的基本前提是收集的原始數(shù)據(jù)集已經(jīng)擁有了比較高的質(zhì)量。然而,由于社交媒體是當(dāng)前對話數(shù)據(jù)集的主要來源[23],其質(zhì)量良莠不齊,因此引入人工標(biāo)注提高數(shù)據(jù)質(zhì)量十分重要。據(jù)我們了解,本文介紹的工作是構(gòu)建第一個中文大規(guī)模人工標(biāo)注對話數(shù)據(jù)集,有效填補(bǔ)以往工作在非任務(wù)驅(qū)動型對話系統(tǒng)數(shù)據(jù)集方面的空白。

2 數(shù)據(jù)準(zhǔn)備

2.1 數(shù)據(jù)收集

本文提出的數(shù)據(jù)集所包含的問題和答案對(簡稱問答對)收集自社交媒體上真實用戶對話中的問題和回復(fù),從包括百度貼吧[注]https: //tieba.baidu.com、百度知道[注]https: //zhidao.baidu.com、豆瓣[注]https: //www.douban.com、新浪微博等社交媒體站點通過網(wǎng)絡(luò)爬蟲進(jìn)行收集。上述網(wǎng)站是中文社區(qū)較為流行的社交媒體平臺,在這些平臺上用戶進(jìn)行交互式討論的主題具有多樣性和高覆蓋性等特點。這些數(shù)據(jù)的收集過程如下: 首先,我們從各個平臺的索引頁面提取主題列表信息,例如,明星、娛樂、軍事、體育、游戲等[注]我們從這些不同網(wǎng)站上抽取的主題列表具有比較高的相似性。;接著,我們使用Jsoup[注]https: //jsoup.org/工具抓取各主題頁面,并且對每個頁面進(jìn)行HTML解析,以此提取問題和對應(yīng)回復(fù)的文字。

2.2 數(shù)據(jù)整理

原始數(shù)據(jù)收集完畢之后,我們采取兩個步驟進(jìn)行數(shù)據(jù)預(yù)處理,以便于后續(xù)的人工標(biāo)注工作。第一步進(jìn)行敏感信息過濾,處理如臟話、成人內(nèi)容、披露隱私等敏感數(shù)據(jù)。該操作的目的是避免任何使用本文提供的語料進(jìn)行訓(xùn)練或者評估的聊天機(jī)器人產(chǎn)生使人不適的回復(fù)或者公開用戶的隱私。第二步則聚焦于辨別和過濾帶有知識依賴的問題。由于帶有知識依賴的問題對應(yīng)的答案有領(lǐng)域和場景的局限性,通常僅針對特定知識,所以很可能在對話過程中產(chǎn)生不適合當(dāng)前條件的回答,例如,“今天北京天氣如何?”“明天皇馬對利物浦的比賽幾點開始?”等。因此為了避免在后續(xù)對話或評測中出現(xiàn)回復(fù)無法匹配場景的問題,我們需要將知識相關(guān)的問題和回復(fù)進(jìn)行過濾。為了完成上述兩步預(yù)處理,我們聘請了四位有經(jīng)驗的標(biāo)注人員進(jìn)行人工過濾。

3 數(shù)據(jù)標(biāo)注

3.1 標(biāo)注標(biāo)準(zhǔn)

完成原始數(shù)據(jù)的準(zhǔn)備和整理工作后,我們聘請了四位標(biāo)注人員對所有回復(fù)文本根據(jù)表2所示的5個等級標(biāo)準(zhǔn)進(jìn)行等級評定。其中,質(zhì)量標(biāo)準(zhǔn)從等級1到等級5,分別對應(yīng)“極差的”“較差的”“一般的”“較好的”“極好的”回復(fù)。對于每個回復(fù),我們保證有兩位標(biāo)注人員分別進(jìn)行獨立評分。詳細(xì)的評分等級及說明列于表2(a)。同時為了更好理解標(biāo)注標(biāo)準(zhǔn),表2(b)通過8個類型的數(shù)據(jù)樣例說明各個評分等級的區(qū)別。

如表2所示,“極差的”回復(fù)指那些無意義的(例如[S1])或者與問題不相關(guān)的(例如[S2])回復(fù)?!拜^差的”回復(fù)可能與問題存在一定的相關(guān)性,但是在與問題的一致性、連貫性等方面有所欠缺,例如僅提到少量關(guān)鍵詞(例如[S3])或者簡單地重復(fù)問題中的片段(例如[S4])等。回復(fù)的內(nèi)容如果處在“極差的”或“較差的”評分等級,那么可以認(rèn)為是低于一般水平的回復(fù)類型。

表2 對話問答對語料標(biāo)注標(biāo)準(zhǔn)

注: [Si]是一些樣例回復(fù)。<等級i>是樣例回復(fù)對應(yīng)的評分等級,類型是根據(jù)回復(fù)質(zhì)量進(jìn)行的解釋。

“一般的”評分等級可以認(rèn)為是達(dá)到“及格”水準(zhǔn)的回復(fù)質(zhì)量。具有該等級評分的回復(fù)必須是內(nèi)容有意義、前后銜接流暢并且與問題相關(guān)的特點。在“一般的”評分等級下,有兩種典型的回復(fù)類型: 其一,回復(fù)的內(nèi)容有時間或者空間上的限制;其二,萬能回復(fù)。對于第一類回復(fù),回復(fù)的適合程度被限定在特定的時間或者空間條件下。例如,實例[S5]在冬天看來,可以認(rèn)為是一個合適的回復(fù);然而,如果正處炎炎夏日,那么該回復(fù)就顯得不合時宜了。對于萬能回復(fù),盡管它們沒有時空上的限制,但是由于太過于通用,故而不能為提出的問題提供有效信息,例如[S6]。這類回復(fù)可以適用于多種不同類型的問題,前面提到,正因為這個特點,它們在收集的語料中廣泛存在。為了有效區(qū)分這類回復(fù)和高質(zhì)量回復(fù),我們把萬能回復(fù)定義為“一般的”而不是“較好的”或者“極好的”回復(fù)。

最后,等級4所對應(yīng)的“較好的”回復(fù)往往是比較自然的、貼切的,既沒有時空上的限制,也沒有萬能回復(fù)的特性,例如[S7]這類回復(fù)。而等級5所對應(yīng)的“極好的”回復(fù)則可以更進(jìn)一步,在回復(fù)中具備豐富的信息、幽默有趣,并能夠有效促進(jìn)對話過程往后推進(jìn),樣例[S8]就是一個“極好的”回復(fù),因為回復(fù)中提出了“北京的酒店”這一新的話題,因而積極地推動了對話的延續(xù)。

3.2 統(tǒng)計分析

由于數(shù)據(jù)集中的每個問答對都有兩位標(biāo)注人員進(jìn)行標(biāo)注,因此我們選擇當(dāng)且僅當(dāng)他們的評分等級完全一致或差異為1時的相應(yīng)的問答對進(jìn)入最終的數(shù)據(jù)集合,最終符合該條件的問答對共有82 010對。對于每個入選的問答對,我們選取兩位標(biāo)注人員的平均分作為最終的回復(fù)評分。最終數(shù)據(jù)集包含27 383個問題以及82 010條回復(fù),每個問題包含不同數(shù)量的回復(fù),從1到20不等。在最終產(chǎn)生的數(shù)據(jù)集中問題回復(fù)數(shù)量的分布(百分比)如圖1所示。從該分布可以觀察到,只有少量問題含有7個及以上的回復(fù),大多數(shù)問題所包含的回復(fù)數(shù)量在1~6個之間,包含2~3個回復(fù)的問題占比超過60%。

圖1 每個問題對應(yīng)回復(fù)數(shù)量的分布

在我們的數(shù)據(jù)集上,同一問答對不同標(biāo)注人員的標(biāo)注一致性,我們通過卡帕系數(shù)[26]來衡量,在最終數(shù)據(jù)集中,同一個回復(fù)的兩個評分之間的卡帕一致性達(dá)到80.3%,這表明了整個數(shù)據(jù)集上評分的高度一致性,側(cè)面反映了該數(shù)據(jù)集評分結(jié)果的可靠性。圖2展示了數(shù)據(jù)集中總體評分的分布,其中48.6%的回復(fù)評分屬于[2.5,3.5]這個區(qū)間,反映了數(shù)據(jù)集中大量存在“一般的”回復(fù)。如前文所述,這類回復(fù)屬于萬能回復(fù)或者是具有時空限制的回復(fù),這種類型回復(fù)的大量存在顯示出從“極好的”和“較好的”實例中分離出“時空限制的”回復(fù)以及“萬能回復(fù)”的重要性,從而能夠進(jìn)一步精確地區(qū)分出高質(zhì)量的回復(fù)內(nèi)容。經(jīng)過進(jìn)一步觀察,我們發(fā)現(xiàn)23.9%的回復(fù)得分在2.5分以下,一定程度上說明了社交媒體文本的回復(fù)質(zhì)量良莠不齊,因此當(dāng)訓(xùn)練和評估聊天機(jī)器人的時候,并不能假設(shè)所有用戶生成的回復(fù)都是好的結(jié)果。因此在對話系統(tǒng)中直接使用自動獲取的數(shù)據(jù)具有一定程度的局限性,同時也進(jìn)一步說明了在對話數(shù)據(jù)中區(qū)分對話回復(fù)質(zhì)量的重要性。基于原始數(shù)據(jù)和發(fā)布數(shù)據(jù)上的多個維度指標(biāo)參考表3。

圖2 兩位標(biāo)注人員的平均評分分布比例

指標(biāo)發(fā)布數(shù)據(jù)問題個數(shù)27 383問答對個數(shù)82 010總字符數(shù)1 386 450總詞數(shù)1 030 629問題平均含有字符數(shù)6.33

續(xù)表

4 基準(zhǔn)實驗

為了測試標(biāo)注數(shù)據(jù)的合理性以及生成數(shù)據(jù)集的有效性,我們基于最終標(biāo)注的數(shù)據(jù)集比較了不同回復(fù)選擇模型的性能。這里我們使用回復(fù)選擇模型作為測試方法的依據(jù)是,當(dāng)前一般非任務(wù)型對話系統(tǒng)都是基于檢索式的回復(fù)選擇框架[27],因此本文的實驗設(shè)定可以有效反映實際系統(tǒng)的性能。實驗設(shè)置描述詳見4.1節(jié),結(jié)果分析闡述見4.2節(jié)。

4.1 實驗設(shè)置

預(yù)處理中,我們使用結(jié)巴分詞工具[注]https: //github.com/fxsjy/jieba進(jìn)行中文分詞。接著,我們隨機(jī)選取問答對的80%作為訓(xùn)練集,10%選入驗證集,剩下的10%作為測試集。在實驗中,我們維護(hù)一個詞典,這個詞典包含在訓(xùn)練集中出現(xiàn)的所有詞。表4中列出了實驗數(shù)據(jù)集的詳細(xì)統(tǒng)計信息。

表4 實驗數(shù)據(jù)集的統(tǒng)計信息

注: 均長表示句子切詞之后詞的平均個數(shù)。

在實驗中,我們考慮兩個非監(jiān)督的排序(ranking)模型作為基線模型: Cosine Sim[注]https: //en.wikipedia.org/wiki/Cosine_similarity和BM25[28]。Cosine Sim通過問題和回復(fù)的TF-IDF來計算余弦相似度,然后將回復(fù)根據(jù)相似度從高到低排序。BM25模型根據(jù)類似TF-IDF的方法對回復(fù)排序。Cosine Sim和BM25所使用到的詞文檔頻率(DF)主要基于訓(xùn)練集來計算。

同時,我們也測試了基于排序?qū)W習(xí)(learning-to-rank)的監(jiān)督模型的結(jié)果。我們選擇了兩個經(jīng)典模型: SVMRank[29]和梯度提升決策樹(GBDT)[30]。這類模型需要依賴人工的特征提取工程,提取的特征與Wang et. al[13]提出的方法相似,包括回復(fù)的句子長度、回復(fù)句子和對應(yīng)問題的余弦相似度等。額外地,我們還測試了兩種廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型——雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(BiLSTM)[31]和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[32]。BiLSTM和CNN可以實現(xiàn)端到端的訓(xùn)練,自動學(xué)習(xí)特征,無需依賴特征工程,訓(xùn)練方式類似于問答(QA)系統(tǒng),對話問題和回復(fù)分別對應(yīng)問答系統(tǒng)中的問題與答案。對于所有上面提到的模型,超參數(shù)的調(diào)節(jié)在驗證集上進(jìn)行。其中神經(jīng)網(wǎng)絡(luò)模型BiLSTM和CNN的編碼器的隱層大小都設(shè)置為300,使用均方誤差(MSE)[33]作為損失函數(shù),并且在訓(xùn)練時使用early-stop[34]策略來防止過擬合。

4.2 實驗結(jié)果

我們遵循問答系統(tǒng)的評價方法: 即給定一個問題來評價排序過的回復(fù),需要將回復(fù)切分為“正樣本”和“負(fù)樣本”兩類。因此,我們按照回復(fù)的評分等級將二分類的切分閾值N分別設(shè)為3、4、5,將標(biāo)注等級大于等于N的回復(fù)認(rèn)為是正樣本,其他等級的回復(fù)認(rèn)為是負(fù)樣本??傮w來說,N越大意味著標(biāo)準(zhǔn)越嚴(yán)格。表5展示了在不同的切分情況下,不同模型的實驗結(jié)果。我們的評測指標(biāo)是基于測試集得到的:P@1(precision@1)、平均精度均值(MAP)、倒數(shù)排名均值(MRR)。特別地,如果某個問題對應(yīng)的所有回復(fù)按照排序閾值進(jìn)行切分之后只有正負(fù)樣本其中的一類,我們會將其移除出我們的測試集,以保證模型評分的公正性。

表5 對比結(jié)果(%)

注: 更高的分?jǐn)?shù)表明更好的結(jié)果。閾值@N: 表示回復(fù)評分大于等于N被認(rèn)為是正例,其他就是負(fù)例。N越大表明標(biāo)準(zhǔn)更加嚴(yán)格。

最后的實驗結(jié)果可以導(dǎo)出如下觀察: ①從整體來看,監(jiān)督模型比非監(jiān)督模型結(jié)果更好,一定程度反映了我們的標(biāo)注數(shù)據(jù)能夠幫助監(jiān)督模型辨別高質(zhì)量回復(fù)。進(jìn)一步觀察監(jiān)督模型和非監(jiān)督模型在不同切分閾值上的差距時,我們發(fā)現(xiàn),當(dāng)標(biāo)準(zhǔn)越嚴(yán)格,監(jiān)督模型與非監(jiān)督模型的差距越大。這說明,當(dāng)標(biāo)準(zhǔn)比較寬松的時候,非監(jiān)督模型尚能通過一些簡單的統(tǒng)計規(guī)則區(qū)分出真正“差”的回復(fù)。但是當(dāng)標(biāo)準(zhǔn)愈加嚴(yán)格的時候,非監(jiān)督模型的性能急劇下降,而監(jiān)督模型通過學(xué)習(xí)人工標(biāo)注,能夠很好地區(qū)分出更高質(zhì)量的回復(fù)。以上觀察說明了我們的標(biāo)注結(jié)果對指導(dǎo)模型學(xué)習(xí)高質(zhì)量回復(fù)頗有助益。②對于監(jiān)督模型而言,在閾值N=3和4之間的差距比閾值N=4和5之間的差距要大得多。產(chǎn)生這種現(xiàn)象的原因可能是 “極好的”和“較好的”回復(fù)相比于“較好的”和“一般的”回復(fù)區(qū)分度不大,這一觀察也從側(cè)面反映出在“好”的回復(fù)中區(qū)分出更高質(zhì)量的回復(fù)對于標(biāo)注人員而言亦是十分困難的任務(wù),從而體現(xiàn)出標(biāo)注對話數(shù)據(jù)集工作的挑戰(zhàn)性。

5 結(jié)論

在本文工作中,我們構(gòu)建了一個大規(guī)模人工標(biāo)注中文對話數(shù)據(jù)集,其中包含了超過27 000個不同的中文問題以及82 000多條回復(fù)。在這個數(shù)據(jù)集中,每個問題的每個回復(fù)根據(jù)與問題的相關(guān)性、連貫性以及內(nèi)容的豐富性和趣味性等指標(biāo)被分為5個評分等級。根據(jù)我們的調(diào)研,該數(shù)據(jù)集是第一個由人工標(biāo)注的專門針對非任務(wù)導(dǎo)向的對話系統(tǒng)的中文數(shù)據(jù)集。相比于自動標(biāo)注的數(shù)據(jù)集而言,本文所述數(shù)據(jù)集的標(biāo)注質(zhì)量更為可靠,可以助益于聊天機(jī)器人的訓(xùn)練和評估。通過對話回復(fù)選擇的實驗,在這個數(shù)據(jù)集上,我們對比了不同模型的性能,實驗結(jié)果反映了本文提出的數(shù)據(jù)集的客觀性和有效性。

猜你喜歡
社交評分模型
一半模型
社交之城
英語世界(2023年6期)2023-06-30 06:28:28
社交牛人癥該怎么治
意林彩版(2022年2期)2022-05-03 10:25:08
Disorders of the brain-gut interaction and eating disorders
重要模型『一線三等角』
我給爸爸評分
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
社交距離
A2DS2評分與AIS-APS評分在預(yù)測卒中相關(guān)肺炎中的表現(xiàn)
Castleman disease in the hepatic-gastric space: A case report
漾濞| 邹城市| 高雄县| 尼玛县| 湟中县| 太湖县| 揭阳市| 东宁县| 石景山区| 剑阁县| 金溪县| 德阳市| 阿克陶县| 葫芦岛市| 竹溪县| 崇信县| 黎城县| 乳山市| 叙永县| 盈江县| 澄迈县| 清新县| 吉安县| 沽源县| 永年县| 尼木县| 永仁县| 荥阳市| 怀来县| 钦州市| 连云港市| 兴义市| 望奎县| 荆门市| 马龙县| 贵德县| 翼城县| 东平县| 深圳市| 丽江市| 扶沟县|