孫越凡,楊 亮,林 原,許 侃,林鴻飛
(大連理工大學(xué) 信息檢索研究室,遼寧 大連 116000)
近年來,機(jī)器閱讀理解成為自然語言理解研究的主流任務(wù)之一,它需要模型具有理解文本及回答問題的能力。機(jī)器閱讀理解的任務(wù)主要分為多項(xiàng)選擇、完形填空以及自由問答三種形式,其中自由問答的題型需要模型擁有更高的回答問題的能力,這一方向也成為近年來該領(lǐng)域的主要研究方向。與其他類型的問答任務(wù)相比,機(jī)器閱讀理解只提供與問題相關(guān)的一段文檔,因此可供利用的上下文信息較少,需要模型對文檔具有更加深入的理解。與此同時(shí),機(jī)器閱讀理解源數(shù)據(jù)多來源于現(xiàn)實(shí)世界,問題也是現(xiàn)實(shí)世界中互聯(lián)網(wǎng)用戶會提出的問題,具有較高的實(shí)際應(yīng)用價(jià)值。在近幾年的發(fā)展過程中,機(jī)器閱讀理解已經(jīng)成為許多自然語言理解任務(wù)的組成部分,比如信息檢索、關(guān)系抽取等。
語料庫的發(fā)展是機(jī)器閱讀理解取得巨大進(jìn)展的主要原因之一。在過去的幾十年中,有許多優(yōu)秀的機(jī)器閱讀理解數(shù)據(jù)集涌現(xiàn)出來,Hermann等人在2015年提出了一個(gè)完形填空式的英語機(jī)器閱讀理解數(shù)據(jù)集——CNN&Daily Mail[1],Lai等人在2016年和2017年發(fā)布了RACE[2]數(shù)據(jù)集,2016年和2018年斯坦福大學(xué)發(fā)布SQuAD[3]數(shù)據(jù)集及其2.0[4]版本。在中文領(lǐng)域,百度2018年推出DuReader[5]數(shù)據(jù)集,同年科大訊飛發(fā)布評測數(shù)據(jù)集CMRC[6],2020年搜狗發(fā)布ReCO[7]數(shù)據(jù)集,這些優(yōu)秀的數(shù)據(jù)集為機(jī)器閱讀理解領(lǐng)域的發(fā)展做出了重要的貢獻(xiàn),一些優(yōu)秀的深度學(xué)習(xí)模型如BERT[8]在某些數(shù)據(jù)集上的表現(xiàn)甚至超越人類。
然而,盡管這些數(shù)據(jù)集規(guī)模較大且應(yīng)用廣泛,但本文發(fā)現(xiàn)目前的機(jī)器閱讀理解數(shù)據(jù)集仍存在缺少對特定領(lǐng)域的關(guān)注以及輸入文本過長兩個(gè)問題:
(1) 現(xiàn)有的數(shù)據(jù)集源數(shù)據(jù)大多基于維基百科、百度百科等搜索引擎,這些數(shù)據(jù)在確保數(shù)據(jù)內(nèi)容足夠廣泛的同時(shí)卻不能兼顧另一個(gè)方面,即面向特定領(lǐng)域。每一個(gè)領(lǐng)域都有自己的特點(diǎn),倘若沒有對特定領(lǐng)域賦予足夠多關(guān)注,在現(xiàn)實(shí)場景下,可能不會有很好的效果。
(2) 目前的數(shù)據(jù)集通?;谝黄臋n或者文檔中的某段,然而現(xiàn)實(shí)世界中很多的數(shù)據(jù)是短文本的形式,比如手機(jī)應(yīng)用程序中的商品評論。面向短文本的數(shù)據(jù)集,是目前所欠缺的。
基于上述的兩點(diǎn)考量,本文提出了Res數(shù)據(jù)集,Res數(shù)據(jù)集聚焦于餐飲行業(yè),使用大眾點(diǎn)評應(yīng)用程序中用戶對餐飲行業(yè)店鋪的評論作為初始數(shù)據(jù)來源,考慮到餐飲行業(yè)所具有的特殊性,標(biāo)注者篩選有效評論,然后針對評論內(nèi)容以及餐飲行業(yè)的特有問題提出問題并給出答案,例如對價(jià)格、味道、服務(wù)、環(huán)境等方面進(jìn)行提問(問題類型分析見第3節(jié))。
Res_v1版本如表1所示,可以看到,與SQuAD數(shù)據(jù)集(見表2)相比,Res數(shù)據(jù)集的問題更聚焦于餐飲領(lǐng)域,提出的多為價(jià)格、味道、服務(wù)、環(huán)境等消費(fèi)者對該領(lǐng)域最為關(guān)心的問題。Res_v2版本如表3所示。
表1 Res_v1數(shù)據(jù)集示例
表2 SQuAD 1.0數(shù)據(jù)集示例
表3 Res_v2數(shù)據(jù)集示例
據(jù)我們所知,Res數(shù)據(jù)是第一個(gè)面向特定領(lǐng)域的短文本中文閱讀理解的數(shù)據(jù)集,Res-v1版本中問題的答案皆可在context即用戶評論中找到??紤]到現(xiàn)實(shí)情景中并不是所有問題都能在原文中找到答案,本文在Res-v1版本的基礎(chǔ)上,補(bǔ)充了不能在context中直接找到答案的問題,構(gòu)成Res-v2版本的數(shù)據(jù)集,在Res-v2版本的數(shù)據(jù)集中增加標(biāo)簽is_impossible,若其值為false,說明問題的答案可以在context中找到,answer字段的內(nèi)容即為該問題的答案;若is_impossible的值為true,說明該問題的答案在原文中無法找到,text字段是context中與真實(shí)答案十分相近的文本片段,本文以此進(jìn)行模型的訓(xùn)練。在測試集上如果對某個(gè)問題答案的預(yù)測概率低于閾值(本文設(shè)置為0.5),本文即認(rèn)為該問題沒有答案,預(yù)測答案為空。
本文在Res上應(yīng)用了BiDAF、QANet、Bert三個(gè)模型,其中Res_v1最高的正確率為73.78%,Res_v2最高的正確率為66.93%,人類的正確率分別為91.03%和86.72%,這表明現(xiàn)有的模型在Res數(shù)據(jù)集上表現(xiàn)一般,該數(shù)據(jù)集為機(jī)器閱讀理解領(lǐng)域提供了一個(gè)良好的測試平臺。
自機(jī)器閱讀理解領(lǐng)域誕生以來,涌現(xiàn)出許多優(yōu)秀的數(shù)據(jù)集,如表4所示,本文根據(jù)答案的類型將該領(lǐng)域劃分為三個(gè)子任務(wù),分別是多項(xiàng)選擇、完型填空以及自由問答。多項(xiàng)選擇任務(wù)通常是在給出的三或四個(gè)選項(xiàng)中選擇出正確的一項(xiàng),完形填空任務(wù)與中高考完形填空題型的做法基本一致,需要預(yù)測出被刪除的一些詞語或短語;自由問答任務(wù)則是根據(jù)原文及問題給出答案。
表4 機(jī)器閱讀理解領(lǐng)域的中文數(shù)據(jù)集
斯坦福大學(xué)的SQuAD數(shù)據(jù)集及其2.0版本是最具代表性的數(shù)據(jù)集之一,獲得廣大科研學(xué)者的認(rèn)可并被廣泛使用,其評測成績榜單也是該領(lǐng)域最具權(quán)威性的榜單之一。CMRC評測數(shù)據(jù)集發(fā)布于2018年第二屆“訊飛杯”中文機(jī)器閱讀理解評測,格式與SQuAD數(shù)據(jù)集相同,促進(jìn)了中文閱讀理解領(lǐng)域的發(fā)展。DuReader數(shù)據(jù)集根據(jù)答案類型將問題分為實(shí)體、描述和是非。對于實(shí)體類問題,其答案一般是單一確定的回答,比如“iPhone是哪天發(fā)布?”;對于描述類問題,其答案一般較長,是多個(gè)句子的總結(jié);典型的how/why類型的問題,比如“消防車為什么是紅的?”;對于是非類問題,其答案往往較簡單,是或者否,比如“39.5度算高燒嗎?”。同時(shí),無論將問題分類以上哪種類型,都可以進(jìn)一步細(xì)分為是事實(shí)類還是觀點(diǎn)類。該數(shù)據(jù)集在中文應(yīng)用中具有開創(chuàng)性意義。
相比于以上的中文數(shù)據(jù)集,Res是一個(gè)面向特定領(lǐng)域的短文本數(shù)據(jù)集。該數(shù)據(jù)集的源數(shù)據(jù)都來自于消費(fèi)者對餐飲行業(yè)的評論,問題由標(biāo)注者提出,主要包含消費(fèi)者比較關(guān)心的共性問題和某家門店的個(gè)性問題,共性問題比如價(jià)格、口味、環(huán)境、服務(wù)等,個(gè)性問題主要針對不同的門店類型提出,例如對連鎖店與其他門店相對比的問題,酒店的座位、空間等問題。
除此之外,Res的另一個(gè)顯著特點(diǎn)是它的數(shù)據(jù)源多為短文本。我們知道,相比于長文本,短文本所包含的信息更少,需要模型對語義和代詞的理解更為深刻,具有較高的難度。
Res數(shù)據(jù)集的數(shù)據(jù)收集過程主要包括從大眾點(diǎn)評App中爬取用戶對店鋪的評論,接著由機(jī)器以環(huán)境、口味、價(jià)格、服務(wù)等餐飲行業(yè)常見的五十個(gè)關(guān)鍵詞對評論類型進(jìn)行篩選,將不包含這些詞匯的評論去除,以200個(gè)詞為限定條件對評論長度進(jìn)行篩選,舍棄評論長度大于200個(gè)詞的長文本評論。
之后由標(biāo)注人員針對篩選之后的每條評論提出6~7個(gè)問題,三個(gè)不同的標(biāo)注人員分別對每個(gè)問題給出自己的答案,最后由校驗(yàn)人員進(jìn)行匯總和檢驗(yàn)操作,將三個(gè)標(biāo)注人員給出相同答案的問題和評論作為Res數(shù)據(jù)的一條數(shù)據(jù)。數(shù)據(jù)的收集過程如圖1所示。
飲食作為我們生活中必不可少的一個(gè)方面,對于這方面的研究會具有很高的應(yīng)用價(jià)值,同時(shí),對于一部分用戶來說,選餐廳前往往會習(xí)慣性地在一些手機(jī)應(yīng)用程序中查看關(guān)于這家店的評論,大眾點(diǎn)評、美團(tuán)等應(yīng)用程序已經(jīng)走進(jìn)了用戶的生活,本文擁有足夠真實(shí)可靠的源數(shù)據(jù)。除此之外,充分的數(shù)據(jù)也為本文提供了足夠多的備選數(shù)據(jù),有利于本文提高數(shù)據(jù)集的質(zhì)量。鑒于以上這兩個(gè)原因,本文選擇大眾點(diǎn)評中用戶對餐飲行業(yè)店鋪的評論作為源數(shù)據(jù),同時(shí)也保留了店鋪名稱、店鋪在環(huán)境、服務(wù)、口味方面的得分(最高為5分)等數(shù)據(jù)項(xiàng)。
考慮到Res是一個(gè)面向餐飲行業(yè)的短文本閱讀理解數(shù)據(jù)集,本文對初始數(shù)據(jù)的篩選主要面向兩個(gè)方面: 評論類型篩選和評論長度篩選。在類型篩選過程中,本文主要保留關(guān)于餐飲行業(yè)的評論,例如餐館、酒樓、快餐店、咖啡廳、甜品店等,舍棄源數(shù)據(jù)中包含的對非餐飲行業(yè)的評論,例如游戲廳、電影院等。在長度篩選過程中,本文將保留評論在200個(gè)字以內(nèi)的數(shù)據(jù),超過200個(gè)字的數(shù)據(jù)將被舍棄。篩選過后的數(shù)據(jù)作為輸入進(jìn)行下一個(gè)階段的處理。
得到經(jīng)過兩次篩選的評論之后,接下來標(biāo)注者對每條評論提出6~7個(gè)問題。在提出問題之前,首先對標(biāo)注人員進(jìn)行培訓(xùn),標(biāo)注者將被分配一份閱讀材料,該材料來源于各大購物平臺,包括但不限于餐飲、食品、服裝等行業(yè)的評論數(shù)據(jù)和用戶提出的問題,以培養(yǎng)標(biāo)注者對用戶所關(guān)注問題的認(rèn)識。問題的類型主要包括共性問題和個(gè)性問題兩種,其中共性問題包括我們關(guān)心的價(jià)格、口味、服務(wù)等,個(gè)性問題由店鋪的類型決定,例如對于連鎖店,會提出和其他門店相比較的問題。這些問題的具體數(shù)目和比例將在第3節(jié)具體說明。
考慮到標(biāo)注人員的主觀因素對數(shù)據(jù)集質(zhì)量的影響,本文回答問題的過程由三個(gè)標(biāo)注人員完成,對于Res_v1數(shù)據(jù)集中的每一個(gè)問題,每個(gè)標(biāo)注人員給出該問題的答案和該答案在原文中的位置。對于Res_v2數(shù)據(jù)集,由于部分問題無法在原文中找到答案,標(biāo)注人員需要將is_impossible標(biāo)記為true,然后給出與真實(shí)答案相關(guān)的內(nèi)容以及其在原文中的位置,對于在原文中可以找到答案的問題,標(biāo)注方式與Res_v1相同。最后,本文得到三份不同標(biāo)注人員給出的答案文檔,將其輸入下一階段。為了避免標(biāo)注人員對數(shù)據(jù)集質(zhì)量的影響,本文從三份不同的答案文檔中選出答案相同的問題,三位標(biāo)注人員給出一致的答案,意味著對于該問題的解答基于客觀事實(shí),這樣的問答對是本文所需要的,將其加入輸出文檔中,輸出文檔即為本文最終數(shù)據(jù)集。
本文首先對Res數(shù)據(jù)集的大小進(jìn)行分析,訓(xùn)練集和測試集的問答對數(shù)量如表5所示,Res_v1數(shù)據(jù)集大小為808個(gè)問答對,Res_v2數(shù)據(jù)集大小為1 008個(gè)問答對。本文采用交叉驗(yàn)證法對數(shù)據(jù)集進(jìn)行劃分,首先將數(shù)據(jù)集隨機(jī)分為互斥的10個(gè)子集,接著將10個(gè)子集隨機(jī)分為9個(gè)一組,剩下一個(gè)為另一組,有10種分法,然后將每一種分組結(jié)果中的9個(gè)子集的組當(dāng)作訓(xùn)練集,另外一個(gè)當(dāng)作測試集。數(shù)據(jù)集經(jīng)過四位標(biāo)注人員兩個(gè)月的標(biāo)注,具有較高的質(zhì)量,可以促進(jìn)面向特定領(lǐng)域短文本機(jī)器閱讀理解領(lǐng)域的發(fā)展。
表5 Res數(shù)據(jù)集大小
本文對數(shù)據(jù)集中問題的類型及數(shù)據(jù)進(jìn)行分析,Res_v1的數(shù)據(jù)集中不同類型問題的數(shù)目如表6所示,訓(xùn)練集不同類型問題的比例如圖2所示,本文首先將所有的問題劃分為共性問題和個(gè)性問題,共性問題包括對價(jià)格、味道、服務(wù)、環(huán)境四方面的提問,例如: “你覺得這家店價(jià)格如何?”“你覺得這道菜味道怎么樣?”這種提問形式是消費(fèi)者在餐飲方面普遍比較關(guān)注的問題,共性問題約占總問題數(shù)目的52%。個(gè)性問題針對不同門店的類型進(jìn)行提問,例如: “這家星巴克相比國貿(mào)的那家怎么樣?”,“這家酒樓適合商務(wù)宴請嗎”這些問題,消費(fèi)者對酒樓、快餐店、咖啡廳、甜品店有著不同的關(guān)注重點(diǎn),本文將這些問題歸為個(gè)性問題。
表6 Res_v1數(shù)據(jù)集中不同類型問題的數(shù)目
圖2 Res_v1訓(xùn)練集中不同類型問題的比例
在Res_v2數(shù)據(jù)集中,不同類型問題的數(shù)目如表7所示,測試集中不同類型問題的比例如圖3所示。在Res_v1數(shù)據(jù)集的基礎(chǔ)上,本文增加了答案無法在原文中找到的問題,本文稱其為無法回答的問題,這類問題的比例為20%。v2版本數(shù)據(jù)集需要模型對原文和問題的理解更加深刻,并判斷哪些問題可以回答、哪些問題沒有答案,因此Res_v2相比Res_v1具有更高的難度,結(jié)合實(shí)驗(yàn)結(jié)果,Res_v2版本上模型的表現(xiàn)比Res_v1版本上模型的準(zhǔn)確率低6%左右,也驗(yàn)證了本文的假設(shè)。
表7 Res_v2數(shù)據(jù)集中不同類型問題的數(shù)目
圖3 Res_v2測試集中不同類型問題比例
為了衡量該數(shù)據(jù)的難度,本文選取RI-index(簡寫為RI)衡量指標(biāo)[7],RI指標(biāo)計(jì)算如式(1)所示。
(1)
Smodel,Srandom,Shuman分別代表最佳模型得分、系統(tǒng)隨機(jī)得分和人類得分、在自由問答領(lǐng)域,系統(tǒng)隨機(jī)回答的正確率近似于0,Res_v1的最佳模型得分為73.78%(具體實(shí)驗(yàn)將在第4節(jié)描述),Res_v2的最佳模型得分為66.93%,兩個(gè)版本數(shù)據(jù)集的RI-index難度指數(shù)如圖4所示。
可以看到,一些模型在很多數(shù)據(jù)集上取得了較好的成績,有一些甚至超過人類水平,然而對Res數(shù)據(jù)集來說,模型表現(xiàn)仍有上升空間。一方面,這反映了Res是一項(xiàng)相對困難的任務(wù),目前的模型表現(xiàn)不佳。另一方面,大多數(shù)Res問題需要深層次的推理技能,因此需要在MRC模型中引入新的機(jī)制來實(shí)現(xiàn)更高層次的推理,如邏輯推理等,以充分理解原文語義,獲得效果上的提升。
圖4 數(shù)據(jù)集難度評價(jià)
本文選取機(jī)器閱讀理解領(lǐng)域三個(gè)典型的模型作為本文的驗(yàn)證實(shí)驗(yàn),來評估Res數(shù)據(jù)集的性能:
BiDAF(Minjoon Seo,et al.,2017)[14]: 第一個(gè)在MRC上取得顯著成績的深度學(xué)習(xí)模型,建立在LSTM的基礎(chǔ)上,通過引入雙向注意力來實(shí)現(xiàn)問題與答案的交互。
QANet(Wei Yu,et al.,2018)[15]: 將卷積和自注意力作為編碼器的構(gòu)成模塊,分別對問題和語境進(jìn)行編碼,通過標(biāo)準(zhǔn)注意力來學(xué)習(xí)語境和問題之間的交互。同時(shí)QANet也是Bert誕生之前在SQuAD 2.0數(shù)據(jù)集上表現(xiàn)最好的單模型,具有代表性意義。
Bert(Jacob Devlin et al.,2019)[8]: Bert的發(fā)布對于包括機(jī)器閱讀理解在內(nèi)的很多研究領(lǐng)域具有劃時(shí)代的意義,在NLP領(lǐng)域的11個(gè)方向大幅刷新了精度。同樣,在Res數(shù)據(jù)集上,Bert相比其他模型的準(zhǔn)確率最高,實(shí)驗(yàn)結(jié)果如表8所示。
表8 不同模型在Res數(shù)據(jù)集和其他數(shù)據(jù)集上的結(jié)果
需要特別指出的是,由于Res_v2數(shù)據(jù)集中存在沒有正確答案的問題,觀測原文中是否包含答案這兩種問題的不同(圖5、圖6),本文分別在測試集中的預(yù)測答案中隨機(jī)選取五個(gè)答案及他們的預(yù)測可能性,以這五個(gè)答案為橫坐標(biāo),這五個(gè)答案的可能性為縱坐標(biāo)作圖。可以看到,在原文中包含答案的預(yù)測結(jié)果的圖中,每個(gè)預(yù)測結(jié)果的可能性相對較高,基本都在0.8以上,而在原文中不包含答案的預(yù)測結(jié)果的圖中,即對沒有答案的問題的預(yù)測,每個(gè)預(yù)測結(jié)果的可能性較低,基本都在0.3以下。所以在原文中沒有答案的問題,若某個(gè)問題的候選答案的可能性小于0.5,本文將答案置為空值,否則將大于0.5的最高預(yù)測可能性所對應(yīng)的預(yù)測回答作為答案。
圖5 原文中包含問題答案的預(yù)測結(jié)果
圖6 原文中不包含問題答案的預(yù)測結(jié)果
本文以Bert_base模型為例,將Res_v2數(shù)據(jù)集按照不同問題類型以及不同答案類型分類,分別對其實(shí)驗(yàn)結(jié)果進(jìn)行分析。按不同問題類型分類如圖7所示,可以看到,消費(fèi)者對餐飲行業(yè)普遍關(guān)心的共性問題,例如價(jià)格、味道、服務(wù)、環(huán)境等,實(shí)驗(yàn)結(jié)果的正確率較高,可以達(dá)到80%左右,其中關(guān)于服務(wù)的問題正確率最高,達(dá)到87.50%。對于不同店鋪用戶所提出的個(gè)性問題,正確率為67.71%,相比于共性問題此類問題的正確率有待進(jìn)一步提高。
圖7 Res_v2數(shù)據(jù)集中不同問題類型的正確率
按不同答案類型分類如圖8所示,本文將其分為三類。可以看到,詞匹配類型問題的準(zhǔn)確率可以達(dá)到85%以上,而數(shù)字計(jì)算問題和無法回答的問題準(zhǔn)確率只有不足40%。
這對本文數(shù)據(jù)集的設(shè)計(jì)開發(fā)工作具有啟示作用,即適當(dāng)提高數(shù)據(jù)集中數(shù)字計(jì)算問題和無法回答的問題在數(shù)據(jù)集中所占的比例,以提高數(shù)據(jù)集的難度,從而進(jìn)一步驗(yàn)證模型性能。
對比實(shí)驗(yàn)選用的三種模型可以看到,相比于BiDAF和QANet模型,Bert模型具有更好的性能,本文認(rèn)為這主要是由于以下兩方面的原因: 第一,Bert模型具有更好的模型結(jié)構(gòu),深層雙向的encoding以及其內(nèi)部獨(dú)特的注意力模式,可以使模型更好地學(xué)習(xí)文本的上下文表示,更充分地理解語義。第二,谷歌研究院在發(fā)布Bert模型的同時(shí)還發(fā)布了經(jīng)過大量語料預(yù)訓(xùn)練之后的模型參數(shù),這些語料多來自維基百科,本文認(rèn)為大量的預(yù)訓(xùn)練語料以及其兩個(gè)預(yù)訓(xùn)練任務(wù)(next sentence prediction和mask prediction)可以很好地調(diào)整模型參數(shù),使其初步擁有對語義的感知,這對本文在下游任務(wù)上訓(xùn)練Res數(shù)據(jù)集具有好處。
綜上所述,本文認(rèn)為Bert模型在機(jī)器閱讀理解領(lǐng)域具有顯著的優(yōu)勢。同樣地,在Res數(shù)據(jù)集上的表現(xiàn)也優(yōu)于其他模型。獨(dú)特的內(nèi)部結(jié)構(gòu)和經(jīng)過大量語料預(yù)訓(xùn)練之后的模型參數(shù)對解決機(jī)器閱讀理解任務(wù)很有幫助,這也為我們今后的工作指明了方向,在優(yōu)化設(shè)計(jì)數(shù)據(jù)集的同時(shí),對Bert模型進(jìn)行進(jìn)一步的改進(jìn)以提高實(shí)驗(yàn)結(jié)果。
本文提出了一個(gè)面向餐飲領(lǐng)域的中文短文本閱讀理解數(shù)據(jù)集Res,本文采用嚴(yán)格的數(shù)據(jù)收集處理過程,以保證數(shù)據(jù)集的質(zhì)量。同時(shí)以原文中是否含有問題答案為區(qū)別提出了Res-v1、Res-v2兩個(gè)版本。數(shù)據(jù)顯示,Res數(shù)據(jù)集同時(shí)考慮到餐飲行業(yè)的共性問題和個(gè)性問題,共性問題包括我們關(guān)心的價(jià)格、口味、服務(wù)、環(huán)境等,個(gè)性問題由店鋪的類型決定,例如對于連鎖店會提出與其他門店相比較的問題。
本文在Res數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn),結(jié)果表明,Bert表現(xiàn)最好,但與人類仍有差距,這表明Res數(shù)據(jù)集具有一定的難度,是中文機(jī)器閱讀理解領(lǐng)域的一個(gè)很好的測試平臺,同時(shí)也為我們之后的工作指明了方向,在進(jìn)一步擴(kuò)展Res數(shù)據(jù)集規(guī)模的同時(shí),對Bert模型進(jìn)行改進(jìn)以使其更好地理解語義并做出回答。我們將做出更多的努力,促進(jìn)機(jī)器閱讀理解領(lǐng)域的發(fā)展。