多跳式文本閱讀理解方法綜述

2023-01-18 03:38:02倪藝函蘭艷艷程學(xué)旗

中文信息學(xué)報 2022年11期

倪藝函，蘭艷艷，龐亮，程學(xué)旗

(1. 中國科學(xué)院計算技術(shù)研究所中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室，北京 100190；2. 中國科學(xué)院大學(xué) 計算機與控制學(xué)院，北京 100049；3. 清華大學(xué) 智能產(chǎn)業(yè)研究院，北京 100084)

0 引言

文本閱讀理解任務(wù)是測試計算機自然語言理解能力的經(jīng)典任務(wù)。文本的閱讀理解一般以問答形式考察模型的能力，要求模型基于上下文回答問題。注意，本文關(guān)注純文本的閱讀理解，知識庫相關(guān)的問答等不在本文關(guān)注范圍內(nèi)。早期的文本閱讀理解主要關(guān)注簡單問題的回答，一般只需要通過問題與文本的語義匹配即可一步得到答案。然而真實的自然語言存在很多更復(fù)雜的問題，如多跳問題、數(shù)值計算問題等。

本文關(guān)注其中的多跳問題，即需要經(jīng)過多步線索選取和推理才能得到答案的問題。這在生活中廣泛存在，如“姚明的妻子是哪里人？”這個問題，要先找到姚明的妻子是葉莉，再找到葉莉是上海人。在方法方面，多跳文本閱讀理解對模型提出了更高的要求，旨在測試機器在自然語言上的推理能力。在應(yīng)用方面，對多跳文本閱讀理解的研究有助于構(gòu)建更先進的問答系統(tǒng)。因此，多跳文本閱讀理解的研究是很重要的一個方向。

圖1給出了一個例子，需要根據(jù)兩個段落才能得到答案，問題與第1跳Paragraph A的內(nèi)容重疊程度較高，而與第2跳Paragraph B的內(nèi)容相似程度低，需要結(jié)合第1跳的內(nèi)容才能找到第2跳。由此可見，基于文本的多跳問答的核心問題就是如何找到并結(jié)合多處線索進行推理，并給出推理過程。而該任務(wù)的難點在于: 一是對于多跳線索來說，問題一般只與第一跳文本有直接語義聯(lián)系，而與后續(xù)的線索文本語義差異較大，無法直接通過匹配方法得到，需要推理；二是還需要給出推理過程，即有可解釋性，希望模型確實學(xué)到如何推理，而不是通過捷徑匹配得到答案。

圖1 多跳自動問答例子(HotpotQA[1])

然而，現(xiàn)有的簡單問題問答模型只能捕捉問題與文本的語義匹配信息，無法解決上述難點，需要針對多跳問答設(shè)計可解釋的多跳推理模型。于是近年來出現(xiàn)了一些多跳閱讀理解模型，根據(jù)其推理形式和過程的不同，可分為基于結(jié)構(gòu)化推理的多跳模型、基于線索抽取的多跳模型、基于問題拆分的多跳模型這三類。基于結(jié)構(gòu)化推理的模型又分為基于圖神經(jīng)網(wǎng)絡(luò)或其他圖結(jié)構(gòu)[2-20]、基于推理樹或路徑[21-25]兩種?；诰€索抽取可以分為顯式抽取、隱式抽?。伙@式抽取包括迭代[26-33]和非迭代[34-37]；隱式抽取[38-51]則包括多輪注意力機制或記憶網(wǎng)絡(luò)等?；趩栴}拆分的模型分為顯式拆分[52-54]、隱式拆分[55-57]、語義拆分[58-59]。另外也有一些工作分析當前任務(wù)是否真的需要多跳推理[60-62]，或圖結(jié)構(gòu)等技術(shù)是否有必要[63-67]。

本文第1節(jié)給出自動問答任務(wù)以及多跳問答的定義，并介紹相關(guān)數(shù)據(jù)集；第2、3節(jié)探討推理式自動問答現(xiàn)有的研究進展及實驗效果分析；第4節(jié)探討未來研究方向；最后第5節(jié)進行總結(jié)。

1 多跳式文本閱讀理解任務(wù)簡介

1.1 問題描述

在文本閱讀理解任務(wù)中，給出問題和單篇或多篇文章，要求模型根據(jù)文章給出答案。形式化定義，即給定問題q={u1,u2,…,uLq}，文章集合P={p1,p2,…,pk}，pi={v1,v2,…,vLpi}，要求給出答案a={w1,w2,…,wLa}。其中，ui,vi,wi分別表示問題、文章和答案中的一個詞。

多跳文本閱讀理解任務(wù)則需要進行多線索推理。即要回答問題q，需要在文章中進行多次定位，假設(shè)我們以句子為單位，記任意句子為si，則要經(jīng)過s1→s2→…→sn，最終得到答案a。

1.2 相關(guān)數(shù)據(jù)集

1.2.1 多跳文本閱讀理解數(shù)據(jù)集

多跳問答最相關(guān)的數(shù)據(jù)集是HotpotQA，給出多個文章和一個問題，要求給出答案和支持性線索句子(supporting fact)。問題分為橋接(bridge)和比較(comparison)兩類。有兩種設(shè)置，一種是給定兩個正確線索所在段落和8個干擾段落，稱為distractor設(shè)置；另一種是開放領(lǐng)域問答，稱為fullwiki設(shè)置。QAngaroo[68]先基于知識庫構(gòu)造，問題為(實體-關(guān)系-？)三元組，文章是維基百科文檔，包括通用領(lǐng)域的WikiHop和專業(yè)領(lǐng)域的Medhop。HotpotQA的答案形式是抽取片段，WikiHop則是選項形式，Chen 等[69]還研究了兩種形式對問題難度的影響，表明選項形式會容易被利用導(dǎo)致數(shù)據(jù)偏差。更早的有自動構(gòu)造的推理數(shù)據(jù)集bAbI[70]。HybridQA[71]則是結(jié)合數(shù)據(jù)庫與文本數(shù)據(jù)的多跳任務(wù)數(shù)據(jù)集。

ComplexWebQuestions[72]、ComQA[73]等復(fù)雜問題數(shù)據(jù)集與語義解析、知識庫關(guān)系更密切。復(fù)雜問題數(shù)據(jù)集QASC[74]需要補充信息才能拆分。Break[75]則是收集多個多跳問題數(shù)據(jù)集的問題構(gòu)造出的語義解析數(shù)據(jù)集，將多跳問題轉(zhuǎn)換為文中定義的QDMR這一邏輯形式。還有一些相關(guān)的數(shù)據(jù)集，如NarrativeQA[76]也涉及多跳推理，MultiRC[77]數(shù)據(jù)集關(guān)注更廣泛的多段落推理。

相關(guān)數(shù)據(jù)集的詳細信息如表1所示。

表1 多跳文本閱讀理解數(shù)據(jù)集信息

1.2.2 其他相關(guān)推理問答數(shù)據(jù)集

還有一些數(shù)據(jù)集關(guān)注的是更復(fù)雜的推理或是一些其他的推理任務(wù)，但是其中部分涉及多跳推理。DROP[78]是數(shù)值計算類的推理問答數(shù)據(jù)集。多輪對話式問答可以看作是拆解后的多跳問答，如CoQA[79]、QuAC[80]、QBLink[81]等數(shù)據(jù)集。OpenBookQA[82]、DuoRC[83]等任務(wù)數(shù)據(jù)集主要考察常識推理，但為了考察模型在真實場景下結(jié)合常識的推理能力，也涉及多跳推理、多線索推理。當然，多輪對話、常識推理等推理任務(wù)是不同于多跳推理的，只是其中一部分有交集和共通之處。這部分數(shù)據(jù)集具體信息如表2所示。

表2 其他相關(guān)推理問答數(shù)據(jù)集信息

1.2.3 小結(jié)

結(jié)合上面的介紹可以總結(jié)如下:

? HotpotQA和WikiHop數(shù)據(jù)集是最常用和相關(guān)的多跳問答數(shù)據(jù)集。

? MedHop、ComplexWebQuestions、OpenBookQA、WorldTree這幾個數(shù)據(jù)集規(guī)模較小，可能需要補充外部數(shù)據(jù)集來解決。

? HotpotQA、WikiHop、ComplexWebQuestions都有開放領(lǐng)域的設(shè)置，可以作為研究開放領(lǐng)域多跳問答任務(wù)的數(shù)據(jù)集。

? HotpotQA、MultiRC、QASC、OpenBookQA等有線索標注，可用于推理過程的評價。

2 基于非結(jié)構(gòu)化文本的多跳閱讀理解模型

為了解決多跳問題，不同方法給出了不同的推理思路。根據(jù)推理形式和過程的不同，我們將多跳閱讀理解方法歸納為三大類: 基于結(jié)構(gòu)化推理的多跳模型、基于線索抽取的多跳模型、基于問題拆分的多跳模型?；诮Y(jié)構(gòu)化推理的多跳模型包括基于圖神經(jīng)網(wǎng)絡(luò)、推理樹、路徑等結(jié)構(gòu)的模型?；诰€索抽取的多跳模型包括顯式迭代與非迭代抽取、隱含迭代或非迭代的多線索關(guān)注?；趩栴}拆分的多跳模型包括顯式拆分、隱式拆分、結(jié)合語義拆分的方法。另外，基于上述幾個角度，都有部分相關(guān)工作分析當前任務(wù)是否真的需要多跳推理，如何在構(gòu)造數(shù)據(jù)集時盡量確保需要多跳推理才能回答。

這里的分類依據(jù)是推理形式和過程的不同，即結(jié)構(gòu)化推理最終給出的是基于圖、樹等結(jié)構(gòu)推理出的基于實體、句子、段落等不同層次的推理路徑，線索選取給出的是有序或無序的多個段落或句子單位的線索或隱含的線索注意力信息，問題拆分給出的是有序的簡單子問題和其答案或隱含的問題注意力信息。另外，幾類方法的不同也在于其利用信息的不同，結(jié)構(gòu)化推理利用了基于實體、共現(xiàn)信息、鏈接等構(gòu)造的先驗知識，線索抽取方法利用的是逐跳上下文語義匹配信息，問題拆分則利用將復(fù)雜問題分解得到的信息。

這三大類方法中，結(jié)構(gòu)化推理方法借鑒知識圖譜問答，出現(xiàn)較早；線索抽取類方法中，隱含迭代方法在早期涉及推理的問答任務(wù)中就較為流行，顯式抽取方法借鑒檢索或摘要方法，后來才出現(xiàn)；問題拆分類方法中，結(jié)合語義拆分分類方法借鑒知識庫結(jié)構(gòu)化問答中的語義解析方法，但移植起來差異較大，問題拆分方法則是后來興起，所以普遍出現(xiàn)較晚。但三類方法之后基本是并列發(fā)展的，隨著研究深入也出現(xiàn)了結(jié)合幾類方法的工作。

2.1 基于結(jié)構(gòu)化推理的多跳模型

先基于文本構(gòu)造圖、樹等結(jié)構(gòu)，再在該結(jié)構(gòu)上推理，本文把這類方法統(tǒng)稱為結(jié)構(gòu)化推理。圖神經(jīng)網(wǎng)絡(luò)是其中的一大類，因此本文分為圖神經(jīng)網(wǎng)絡(luò)和其他結(jié)構(gòu)分別介紹。

2.1.1 基于圖神經(jīng)網(wǎng)絡(luò)

圖神經(jīng)網(wǎng)絡(luò)對圖結(jié)構(gòu)使用一定傳播方式學(xué)習(xí)更新節(jié)點表達。多跳問答中，一般從上下文和問題中抽取實體、句子、段落等作為節(jié)點構(gòu)造圖，用圖神經(jīng)網(wǎng)絡(luò)更新表達，模型架構(gòu)如圖2所示，不同深淺的節(jié)點表示不同來源，如實體或句子等。

圖2 基于圖神經(jīng)網(wǎng)絡(luò)的多跳問答模型架構(gòu)

基于圖神經(jīng)網(wǎng)絡(luò)的方法最初多用于解決WikiHop[68]數(shù)據(jù)集的任務(wù)，基于上下文、問題、答案選項的實體構(gòu)圖，用圖神經(jīng)網(wǎng)絡(luò)更新表達，給答案選項節(jié)點打分得到答案，如MHQA[14]，Entity-GCN[5]，BAG[18]等方法。MHQA直接從文章中構(gòu)建圖，存在圖規(guī)模過大和擴展性不夠的問題。Entity-GCN則從答案選項出發(fā)構(gòu)圖，縮小了規(guī)模。但早期方法與問題交互不足，所以BAG加入了注意力機制。

Entity-GCN這種僅從答案候選中抽取實體的方法，雖減少了規(guī)模卻又少利用了很多關(guān)鍵信息，因此Gated-GRCN[10]結(jié)合圖方法和路徑方法，使用了下文要講到的路徑抽取思路，除了問題和答案外還抽取了推理實體。基于字符串匹配提取實體會遺失一些實體，因此舒沖等[20]采用了基于語法的實體抽取方法，并且加入疑問實體關(guān)聯(lián)實體作為新的節(jié)點類型，更好地利用問題信息。

另外，僅基于實體構(gòu)圖的方法過分依賴實體抽取效果，且損失了其他信息，因此HDE[9]構(gòu)造異質(zhì)圖，節(jié)點包括文檔節(jié)點、答案選項節(jié)點、問題和上下文中的實體節(jié)點。

與Wikihop相比，對于HotpotQA這種基于純文本構(gòu)造的多跳閱讀理解，基于圖的方法則需要一定改變。CogQA[17]使用增長式的建圖方式，從問題出發(fā)，每輪選取節(jié)點擴展圖并更新表達，避免直接基于上下文構(gòu)圖的規(guī)模和擴展性問題。DFGN[15]則通過圖神經(jīng)網(wǎng)絡(luò)更新表達后，將信息回流至上下文表達，再抽取答案，使答案不再局限于實體節(jié)點；并且用問題表達構(gòu)造掩碼(mask)，每輪根據(jù)掩碼選擇性更新部分節(jié)點，達到根據(jù)問題動態(tài)更新圖神經(jīng)網(wǎng)絡(luò)的效果。

但上述僅基于實體構(gòu)圖的方法受實體識別效果影響，而且利用的信息不夠。因此，HGN[12]設(shè)計了層級圖，包括實體、句子、段落三種層次的節(jié)點，層級圖本質(zhì)上就是異質(zhì)圖。

隨著研究的進一步發(fā)展，一些工作針對性地解決圖神經(jīng)網(wǎng)絡(luò)運用到自然語言理解的各種問題。多跳推理中存在信息不足，需要外部知識的情況，所以KGNN[7]結(jié)合了知識圖譜作為外部知識，提升了多步推理的效果。但直接將文本序列過早地表達為一個節(jié)點向量會損失了信息，因此GSN[13]提出了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，保留文本序列每個詞的向量，即節(jié)點表達為矩陣，提出基于序列間的共同注意力機制(co-attention)的傳播方式。

除了上面的解決方法，后續(xù)有工作直接將圖結(jié)構(gòu)嵌入現(xiàn)有的常用模型結(jié)構(gòu)。Transformer-XH[2]修改Transformer結(jié)構(gòu)，使其可以處理有結(jié)構(gòu)的文本，使用圖結(jié)構(gòu)，Transformer的注意力機制則相當于傳播更新節(jié)點表達。SAE[4]也類似地在最后一步抽取句子表達時使用圖神經(jīng)網(wǎng)絡(luò)，采用了一種混合注意力池化(pooling)的機制。

另外，一些工作關(guān)注多跳閱讀理解中的線索抽取等子任務(wù)。如DGN[11]、DRL-GRC[8]關(guān)注線索選取任務(wù)。DGN探究句子間、段落間的鏈接對線索選取的影響，將文檔結(jié)構(gòu)化，使用圖神經(jīng)網(wǎng)絡(luò)獲得線索。DRL-GRC則沒有使用圖神經(jīng)網(wǎng)絡(luò)，而是利用強化學(xué)習(xí)策略，以句子作為節(jié)點，確定每一步選擇哪個句子連接到圖，構(gòu)造有向圖。DDRQA[16]關(guān)注檢索部分，采用迭代檢索框架，核心是每步基于圖神經(jīng)網(wǎng)絡(luò)GAT重排序，減少檢索數(shù)量，提升檢索質(zhì)量。

還有一些其他推理任務(wù)或相關(guān)衍生任務(wù)。如PullNet[6]使用圖神經(jīng)網(wǎng)絡(luò)解決知識庫和文本結(jié)合的推理問答任務(wù)。基于f-GCN的模型[3]用圖神經(jīng)網(wǎng)絡(luò)解決教科書式問答(Textbook QA)，即既有文字又有圖片的多模態(tài)問答形式。Ma等人[19]則關(guān)注與多跳問答相反方向的多跳問題生成任務(wù)，用圖神經(jīng)網(wǎng)絡(luò)從文章和答案生成多跳問題。

表3列舉和比較了各個圖神經(jīng)網(wǎng)絡(luò)方法的詳細組成要素。其中GSN重點在序列矩陣表達，在不同數(shù)據(jù)集上的設(shè)置不同，所以不再全部列出。

表3 基于圖神經(jīng)網(wǎng)絡(luò)的多跳問答模型比較

圖神經(jīng)網(wǎng)絡(luò)模型的可解釋性圖神經(jīng)網(wǎng)絡(luò)方法通過對文本結(jié)構(gòu)化在文本上構(gòu)建推理。雖然圖結(jié)構(gòu)部分反映了文本推理結(jié)構(gòu)，但早期基于節(jié)點打分等方法只能給出圖結(jié)構(gòu)。后續(xù)工作用一些方法得出最終產(chǎn)生答案的推理路徑，如DFGN使用問題掩碼，CogQA則本身就采用擴展建圖。圖3展示了CogQA給出的一個推理路徑。

圖3 CogQA推理路徑的例子圖來自CogQA論文[17]

對基于圖神經(jīng)網(wǎng)絡(luò)的模型的分析雖然很多工作使用圖結(jié)構(gòu)來解決多跳問題，但也有工作質(zhì)疑使用圖結(jié)構(gòu)的必要性[66]，Shao等分析圖的連邊、圖結(jié)構(gòu)本身到底起了多大作用，并使用兩層的Transformer模型超過了圖模型方法基線，說明圖結(jié)構(gòu)也許不是必須的，在基于微調(diào)的方式下，Transformer的自注意力機制也能學(xué)到來自圖的先驗知識。這給未來工作提供了一個指導(dǎo)方向，即如果使用圖結(jié)構(gòu)，需要說明使用的必要性。

2.1.2 基于推理樹或路徑

基于路徑的推理模型[21]先根據(jù)實體和實體提及(mention)構(gòu)造候選路徑，然后計算路徑表達，最后打分選擇路徑。優(yōu)點是直接顯式得出具體推理路徑，缺點依然是依賴實體抽取。EPAr[22]則提出了可解釋的三模塊系統(tǒng)，模擬人從粗到細的閱讀推理行為，先用兩跳迭代檢索文檔初步過濾文檔，再層級利用記憶網(wǎng)絡(luò)迭代檢索文檔，構(gòu)建推理樹，最后推理樹中的每個推理鏈得到一個答案，再排序篩選。

在2.1.1節(jié)介紹的圖結(jié)構(gòu)中，一些已經(jīng)采用了增量擴展模式，如CogQA、DRL-GRC等。但這些工作并沒有直接給出路徑，Asai 等[24]則在建圖的基礎(chǔ)上顯式地構(gòu)造路徑，檢索部分首先用TF-IDF檢索和超鏈接構(gòu)建文檔圖結(jié)構(gòu)；然后用RNN逐步選擇下一個段落，得到多個候選推理路徑序列；最后輸入閱讀器(Reader)得到答案。ChainEx[25]構(gòu)造句子推理鏈來提升多跳問答的效果，不需要線索的監(jiān)督信號，而是用基于規(guī)則的偽推理路徑來訓(xùn)練；模型使用兩階段答案模塊，先用基于規(guī)則的推理路徑訓(xùn)練一個抽取器(Extractor)，然后對抽出的推理鏈用基于BERT的問答系統(tǒng)得到答案。

Feng 等人[23]則提出直接從問答對中還原推理鏈這個新問題。該文給出了一種找出推理鏈的方法，排序模型和推理模型互相交互協(xié)作，還原出有序的段落和連接這些段落的實體。

推理樹或路徑的可解釋性基于推理路徑的方法直接構(gòu)造得到了推理路徑。如文獻[21]給出基于實體和隱含關(guān)系的路徑，如圖4所示。

圖4 直接給出推理路徑的例子圖來自文獻[21]

2.1.3 小結(jié)

結(jié)構(gòu)化推理方法試圖將文本結(jié)構(gòu)化，再基于已有的結(jié)構(gòu)找到推理路徑，從而實現(xiàn)推理，也能展示不同粒度的推理路徑。本質(zhì)上，結(jié)構(gòu)化推理方法是利用了文本的實體、共現(xiàn)、鏈接引用等先驗知識構(gòu)建結(jié)構(gòu)，提升了模型的推理能力。結(jié)構(gòu)化推理方法解決了簡單問答模型只能語義匹配，無法解決多跳推理的問題，用先驗的結(jié)構(gòu)促使模型依據(jù)結(jié)構(gòu)進行推理。

基于圖、樹、路徑的方法思想類似，都是構(gòu)造結(jié)構(gòu)得到推理路徑。不同之處在于路徑、樹更傾向于從文本中直接推理，而圖結(jié)構(gòu)更抽象，更偏向于將上下文結(jié)構(gòu)化。圖神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點一是有成熟的圖神經(jīng)網(wǎng)絡(luò)研究支撐，二是圖結(jié)構(gòu)是路徑的聚合，易涵蓋所有推理可能性；缺點是不夠直觀。樹、路徑等方法則相反。

結(jié)構(gòu)化推理類方法的整體缺點之一是，如果基于實體構(gòu)建，則過于依賴實體抽取效果，且僅基于實體本身就有局限性。僅基于句子、段落則推理路徑選取粒度不夠細。

2.2 基于線索抽取的多跳模型

遵循多跳推理的過程，每跳迭代抽取一處線索，找答案，以此類推，直至找到最終答案。除了顯式抽取，隱式的多輪迭代由于思想類似，因此也歸到這一類。部分工作則簡化模型，不用迭代邏輯，而是直接檢索得到所有線索。

2.2.1 基于顯式線索抽取

基于顯式迭代線索抽取

迭代抽取線索，即根據(jù)問題抽取第一輪線索，然后則根據(jù)上輪信息抽下一輪線索，可選的方式是去更新問題或文檔編碼等信息(圖5中虛線所示)，直到找到答案。

圖5 基于顯式迭代線索抽取的多跳問答模型

(1)句子級別的支持性線索抽取

QFE[27]在句子級別抽取線索，在HotpotQA官方給出的模型中直接加句子抽取層，抽取句子后作為特征加到整個上下文中抽取答案。句子抽取層使用摘要常用模型，迭代地抽取句子。AIR[33]關(guān)注選項類多跳問答，無需線索的標注，用無監(jiān)督方法隱含地對齊問題、答案與支持性線索，迭代選句子，每步迭代改寫查詢，且有停止機制。

(2)段落級別的開放領(lǐng)域迭代檢索

MUPPET[29]主要關(guān)注開放領(lǐng)域問答，針對段落級別，迭代抽取多段落，再從抽取到的段落中抽取答案。Das等的工作[31]則關(guān)注檢索器和閱讀器的交互，每輪迭代都先檢索再閱讀。DrKIT[28]將快速檢索的方式擴展到復(fù)雜問題檢索中，提出一個端到端(end-to-end)可微的高效框架，在查詢獨立方式編碼的大規(guī)模文本語料上做復(fù)雜問答。這三篇文獻的特點是文章表達都是獨立的，不依賴于查詢，于是具有較好的可擴展性。

和上面提到的AIR[33]類似，Golden Retriver[26]也采用修改查詢迭代檢索方式，每輪訓(xùn)練一個查詢生成模型，用于生成每輪的查詢。兩輪檢索得到兩個段落，再用答案抽取模型獲取答案。

Entity Centric IR[30]和Xiong等[32]則關(guān)注找到連接段落的橋接實體(bridge entity)，通過迭代得到段落順序和連接信息。這也獲得了推理路徑，與上文的推理路徑方法有共通之處。如上文提到的EPAr[22]、 CogQA[17]、 DDRQA[16]，在進行結(jié)構(gòu)化推理時也結(jié)合了迭代檢索的框架。

基于顯式非迭代線索抽取

一些方法利用各種交互技術(shù)實現(xiàn)非迭代線索抽取。AutoROCC[37]先抽句子組合的各種候選，再根據(jù)ROCC分數(shù)排序。Groeneveld 等[34]進一步質(zhì)疑了現(xiàn)有復(fù)雜技術(shù)的必要性，提出了簡單的流水線(pipeline)模型QUARK，先獨立抽取句子，再用基于BERT的模型獲得答案，然后基于答案和句子預(yù)測支持性線索，超過了很多使用復(fù)雜技術(shù)的模型。Multee[36]試把蘊涵模型用到問答中，結(jié)合局部(句子級別)和全局(多句文檔級別)模塊，用預(yù)訓(xùn)練蘊涵模型關(guān)注相關(guān)句子，再聚合句子信息。Semantic-RetrievalMRS[35]關(guān)注不同尺度的閱讀理解任務(wù)，既需要語義檢索，下游任務(wù)又需要不同粒度層次的閱讀理解；構(gòu)造了語義檢索模塊、段落和句子級別的模塊、下游任務(wù)模塊，先進行段落檢索，再進行句子檢索。

根據(jù)線索抽取分析多跳模型的推理能力

模型有可能根據(jù)數(shù)據(jù)集里的一些特點作弊，直接匹配答案所在線索，跳過中間步驟。因此一些工作根據(jù)模型的線索選取情況評估多跳模型是否真的有推理能力，以及構(gòu)造難度更大的對抗測試集。這種評估對各類多跳模型都適用。

Jiang 等人的工作[60]觀察發(fā)現(xiàn)，由于問題與最終一跳文本的重合度高，因此可以跳過中間推理，通過捷徑得到答案。于是提出一個不依賴于模型的構(gòu)造對抗文檔的方法，添加一個錯誤答案文檔和一個該文檔的中間文檔，通過捷徑會通向該錯誤答案，正常推理則會通向正確答案。

Wang等[64]從模型角度分析: 模型是否真的有推理能力？推理鏈的使用是否真的有幫助？文中使用Single-Oracle(僅給出答案所在文章)、Ordered-Oracle(按序給出每跳文章)、Random(無序給出抽取的文章)三種設(shè)置，發(fā)現(xiàn)模型有普遍性的弱點。在此基礎(chǔ)上提出了一個基于共同匹配(co-matching)的方法，雖然現(xiàn)在的適用范圍有限，但是以后可以運用到真實推理中。

Trivedi等[62]則提出非連接推理(disconnected reasoning)概念，并提出了更好的測試多事實推理的方法: 對比支持測試(contrastive support test)。設(shè)計了一種自動化的方式產(chǎn)生相應(yīng)的數(shù)據(jù)集，可用于測試模型是否做到了多事實推理。

2.2.2 基于隱含多輪迭代或非迭代多線索關(guān)注

隱含的迭代線索選取每輪隱含關(guān)注不同內(nèi)容。也有少量工作采用了非迭代的多注意力機制來解決多跳推理問題。根據(jù)具體采用模型結(jié)構(gòu)的不同，可以分為下面幾個部分來介紹。

多輪注意力機制多輪中每步用注意力機制改變文章或問題的表達，輸入下一步推理。如圖6所示，記第t步的編碼表達為ct，詞嵌入(embeddings)為E。Bauer等[43]用多注意力機制實現(xiàn)多步推理，其推理層由k個串行推理單元構(gòu)成，每個單元使用BiDAF[84]注意力機制改變當前輸入ct，輸入到下一個推理單元。CFC[42]用粗細兩種粒度的網(wǎng)絡(luò)打分，每個網(wǎng)絡(luò)都使用多步注意力機制，關(guān)注文本的不同部分。盛藝暄[40]等綜合外部知識和多步注意力機制推理設(shè)計閱讀理解模型，段藝文等[38]提出使用動態(tài)路由網(wǎng)絡(luò)結(jié)合多層注意力機制，李天仙等[39]關(guān)注用多跳機制解決中文閱讀理解。

圖6 隱含多輪注意力迭代

基于Transformer的多注意力機制與上述多輪注意力機制不同，Transformer是基于非迭代多注意力機制的預(yù)訓(xùn)練模型。Longformer[47]是應(yīng)用在長文本場景下的Transformer，利用滑動窗口構(gòu)造稀疏的注意力矩陣，降低計算復(fù)雜度。ETC[46]結(jié)合全局本地自注意力機制，并利用對比學(xué)習(xí)目標，能夠處理長的和有結(jié)構(gòu)的文本。

記憶網(wǎng)絡(luò)記憶網(wǎng)絡(luò)(Memory Networks)[48]是解決bAbI推理式任務(wù)[70]的常用方法，基本思想是每輪記住文章的不同部分，不斷更新記憶，包括四個模塊: 輸入模塊、泛化模塊、輸出模塊、響應(yīng)模塊。為了減少監(jiān)督，實現(xiàn)端到端學(xué)習(xí)，提出了端到端記憶網(wǎng)絡(luò)[45]。后續(xù)進一步提出動態(tài)記憶網(wǎng)絡(luò)(DMN)[41]，輸入、記憶、輸出都使用RNN，適用于自然語言任務(wù)。MAMCN[49]解決長文本依賴問題，基于記憶增強網(wǎng)絡(luò)(MANN)結(jié)構(gòu)，把記憶部分和模型參數(shù)解耦。另外，基于鍵值對的記憶網(wǎng)絡(luò)可以輔助顯式推理，EPAr[22]就利用了鍵值對層級記憶網(wǎng)絡(luò)。

多輪閱讀一些工作雖不是典型的多輪注意力機制，但也模擬人類多輪閱讀的形式。如ReasoNet[50]和ReasoNet++[44]使用強化學(xué)習(xí)實現(xiàn)多輪閱讀。Ruminating Reader[51]則在BiDAF上增加了一層注意力機制，實現(xiàn)讀兩遍的效果，并加了Ruminate層來整合信息。

基于隱含多輪迭代模型的分析目前有工作[65]對于記憶網(wǎng)絡(luò)是否真的具備多步推理能力提出了一些質(zhì)疑，指出需要額外的監(jiān)督信息來學(xué)習(xí)正確推理。Suster等[67]更進一步發(fā)現(xiàn)記憶網(wǎng)絡(luò)甚至不能很好地解決單跳問題，不過該結(jié)論只是在通用記憶網(wǎng)絡(luò)上的發(fā)現(xiàn)，在其他基于記憶網(wǎng)絡(luò)的結(jié)構(gòu)上有待進一步驗證。

2.2.3 小結(jié)

線索選取方法本質(zhì)上是通過迭代或者其他交互實現(xiàn)逐跳語義匹配，即迭代線索選取每一輪都利用上一跳的信息實現(xiàn)多跳推理的效果，非迭代線索抽取則利用文本間的交互來利用信息，解決了問題與多跳線索語義差異較大這一挑戰(zhàn)。

顯式迭代線索選取的優(yōu)點在于模擬了人的推理思路，而且動態(tài)迭代抽取的擴展性好于圖方法；局限性在于只能給出句子或段落級別的線索，且多跳問答中的迭代線索選取方法大多在檢索步驟，粗粒度地選取段落。顯式非迭代線索抽取的優(yōu)點在于簡潔；缺點是不符合推理的步驟，可解釋性更差，而且容易學(xué)到數(shù)據(jù)集的偏差信息，而不是真正學(xué)會推理。顯式線索選取類方法的總體缺點是，只能給出句子或段落粒度的有序線索列表，可解釋性比大多數(shù)結(jié)構(gòu)化推理方法要差。

隱式線索選取類方法則一般更不關(guān)注可解釋性，不過一些工作關(guān)注對注意力機制權(quán)重的可視化，可以大致展示出模型關(guān)注了哪部分線索。

2.3 基于問題拆分的多跳模型

2.3.1 基于顯式問題拆分

在基于文本的多跳問答中，復(fù)雜問題是常見情況，HotpotQA數(shù)據(jù)集就是如此。如圖7所示，復(fù)雜問題可拆分為兩個簡單子問題進行回答。

DecompRC[54]拆分模型把復(fù)合問題定義成幾種類型，每種類型的問題拆分形式都定義為確定切分點并抽取片段，使用少量人工標注的問題拆分數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，訓(xùn)練BERT[85]加上指針的模型作為拆分模型，答案模型則為基于BERT的答案抽取模型，最后用分類器確定哪種類型的拆分得到的答案最好。UMT[52]則采用無監(jiān)督方法，構(gòu)造簡單問題語料庫，用原問題從中檢索兩個簡單問題來代替拆分，并且再用無監(jiān)督序列到序列(seq2seq)模型生成子問題。這樣得到的子問題是并列的。在使用同個答案流水線模型的情況下，UMT的無監(jiān)督拆分和使用人工標注數(shù)據(jù)的DecompRC拆分所得到的回答效果可比較。

TMN[53]則提出了一個跨數(shù)據(jù)集的通用多跳問答框架，并且給出了具體實現(xiàn)ModuleQA。方法的重點在于問題生成模型，其訓(xùn)練數(shù)據(jù)獲取是一個難點，文中用了SQUAD數(shù)據(jù)集先訓(xùn)練具體任務(wù)的問題生成模型，再用這個模型生成有噪聲訓(xùn)練數(shù)據(jù)，訓(xùn)練最終的問題生成模型。

在2.2.1節(jié)中提到的AIR[33]和Golden Retriver[24]在每步改變查詢或生成新的查詢，也可看作一種顯式問題拆分，只是生成的是查詢。

顯式問題拆分的可解釋性拆分后得到的子問題就是推理過程解釋，如圖7所示。

圖7 問題拆分的例子

問題拆分角度的任務(wù)與模型分析Min等[61]觀察并分類了HotpotQA中的復(fù)雜問題，把橋接類分成多跳、冗余線索、弱干擾、非復(fù)合類；比較類則分成多跳、基于上下文、單跳。與Jiang等[60]類似，本文也給出了構(gòu)造對抗文檔的方法。弱干擾類的單跳是由于文檔區(qū)分度不夠，所以用單跳模型得分最高的8篇作為干擾文檔，加上原有兩篇正確文檔，重新構(gòu)成10篇文檔；對于通過類型即可判斷正確答案的情況，可用一個同類型文檔作為干擾文檔。結(jié)果表明兩種方法都有一定效果，但都不夠好。

Tang 等的工作[63]則評價基于拆分的這些復(fù)雜問題系統(tǒng)能否回答簡單的單跳問題，結(jié)果發(fā)現(xiàn)很多模型并不能回答簡單問題，說明這些模型的推理能力有問題?；谶@個發(fā)現(xiàn)，該文提出了一個新的模型，把問題分類成簡單問題和復(fù)雜問題，對兩類問題分別訓(xùn)練模型獲取答案。

2.3.2 基于隱式問題拆分

自組裝神經(jīng)模塊網(wǎng)絡(luò)(Self-Assembling Neural Modular Network)[56]將神經(jīng)模塊化網(wǎng)絡(luò)(NMN)用在多跳問答中，共4個模塊，用Controler確定如何組裝模塊，每輪輸出當前的子問題向量，用于下一輪輸入，即每輪關(guān)注問題的不同部分。MAN(Multihop Attention Networks)[55]針對問題和答案匹配的任務(wù)，每輪關(guān)注問題的不同部分，通過注意力機制改變問題的表達向量oq和答案向量oa。LQR-net[57]則是針對多跳問答任務(wù)，每輪用改寫模塊改寫問題表達，閱讀模塊閱讀，最后一輪回答問題。隱含問題拆分和第2.2.2節(jié)的隱含線索選取思路邏輯基本一致，如上面介紹的MAN是每輪改變問題向量，上一節(jié)介紹的多輪注意力機制則是大多是改變上下文表達。這里根據(jù)方法側(cè)重點的不同進行了分類。

2.3.3 結(jié)合邏輯形式的語義拆分

BREAK[75]提出問題理解任務(wù)，定義邏輯形式QDMR(Question Decomposition Meaning Representation)，將原問題拆成多個步驟，搜集了多個數(shù)據(jù)集的復(fù)雜問題，眾包標注得到數(shù)據(jù)集BREAK。設(shè)計模型展示了利用QDMR可以提高多跳問答的效果，并構(gòu)造QDMR 解析器解決生成QDMR的語義解析任務(wù)。NLProlog[59]則將邏輯規(guī)則和自然語言結(jié)合，設(shè)計了一個神經(jīng)符號化的(Neural-Symbolic)模型，根據(jù)Prolog邏輯語言提出NLProlog。Gupta等[58]和上節(jié)中提到的自組裝神經(jīng)模塊網(wǎng)絡(luò)一樣，也使用了神經(jīng)模塊化網(wǎng)絡(luò)。但后者固定幾種模塊組合，隱含地解析問題；本文將問題顯式轉(zhuǎn)換成說明模塊組合方式的邏輯形式，用序列到序列(Seq2Seq)模型學(xué)習(xí)。

2.3.4 小結(jié)

本質(zhì)上，問題拆分類方法是利用對問題的拆解，實現(xiàn)多推理過程步驟拆解，而對問題的拆解利用了語法、標注、外部數(shù)據(jù)、上下文等信息。

顯式問題拆分的優(yōu)點是可解釋性較好，在拆分有較好可讀性的情況下，推理過程是最符合人類習(xí)慣的；受數(shù)據(jù)集偏差影響也小，模型的魯棒性較強。但缺點是較難解決隱含多跳等問題；且目前模型效果大部分不如其他類別的推理模型。

隱含多輪迭代大多是早期推理常用方法，并不能顯式給出推理路徑。記憶網(wǎng)絡(luò)、Transformer是后續(xù)工作可以挖掘和改進的地方。

結(jié)合邏輯形式的語義解析能更細粒度地對問題進行解析，與基于知識圖譜的多跳推理有一定聯(lián)系。問題是在文本場景中并不能像知識圖譜場景中那樣直接查詢得到答案，還需要更多研究。

2.4 三類方法之間的聯(lián)系

從上文可以看到，三類方法間有很多聯(lián)系。

結(jié)構(gòu)化推理與迭代線索: 迭代線索僅有順序結(jié)構(gòu)這一種結(jié)構(gòu)的推理鏈，與推理路徑方法類似，只是推理鏈的粒度不同。

迭代線索選取與問題拆分: 拆分是通過子問題將推理分成多步，也是一種迭代尋找線索的方法。

隱含多輪注意力與隱含問題拆分: 方法的思路邏輯一致，前者側(cè)重上下文表達等信息的變化，后者側(cè)重問題表達的變化。

總的來說，結(jié)構(gòu)化推理方法和拆分方法大部分可解釋性較好；線索選取方法可解釋性一般。隨著研究的深入，一些工作綜合了幾類方法的優(yōu)點。

3 實驗結(jié)果與分析

上文介紹的這些工作各自都在不同數(shù)據(jù)集上進行對比，對比也不完全，為了得到一個相對完整的實驗對比，分析各種方法的優(yōu)缺點，我們采用最常用的兩個多跳問答數(shù)據(jù)集WikiHop和HotpotQA，做了綜合的實驗對比和分析。

3.1 主要實驗結(jié)果

HotpotQA[1]數(shù)據(jù)集答案用精確匹配(EM)和詞匹配的F1值評價。支持性線索也用EM和F1評價。表4和表5分別展示了主要方法在distractor和 fullwiki上的效果，大部分是實驗結(jié)果較完整且已經(jīng)發(fā)表或公開論文和代碼的模型。部分結(jié)果來自論文，部分由本文實現(xiàn)，為了與下節(jié)具體分析保持一致，兩者有差異時，未經(jīng)特殊說明都選用本文復(fù)現(xiàn)結(jié)果，不過差異很小，只有SAE模型本文使用RoBERTa，原文使用BERT uncased，導(dǎo)致復(fù)現(xiàn)結(jié)果好于論文結(jié)果約2%。Asai 等[24]的模型沒有名稱，本文將其命名為LearnPath。LongFormer[47]和ETC[46]驗證集結(jié)果有缺失，但測試集結(jié)果完整，不影響整體比較。DecompRC和UMT只針對多跳問題的回答，沒有線索選取的結(jié)果。資源所限，本文復(fù)現(xiàn)UMT時簡化了設(shè)置，效果略差于原文結(jié)果 80.1+0.2，但差異不大。

表4 HotpotQA distractor設(shè)置實驗結(jié)果

表5 HotpotQA fullwiki設(shè)置實驗結(jié)果

從表4可見，在distractor設(shè)置下，簡單模型效果較差，證實了需要多跳模型。結(jié)合圖等結(jié)構(gòu)的模型整體效果最好，問題拆分類方法次之，線索抽取方法較差，但基于Transformer的隱含方法效果較好?；趫D方法則是因為隨著不斷發(fā)展效果越來越好。顯式線索抽取對于distractor下的句子檢索缺少效果較好的方法；隱式方法中，由于Transformer的多注意力機制可以看作沒有先驗知識的圖結(jié)構(gòu)學(xué)習(xí)，所以效果較好。問題拆分方法中，UMT拆分通過多跳模型召回信息，所以能和圖結(jié)構(gòu)方法可比較。

從表5可見，fullwiki設(shè)置下，結(jié)構(gòu)化推理方法最好，線索抽取次之，問題拆分類方法最差。結(jié)構(gòu)化推理方法依然表現(xiàn)強勢，且隨著研究發(fā)展不斷提升。線索抽取類方法主要就是針對多跳檢索而發(fā)展的，所以對開放領(lǐng)域多跳問答有顯著提升。問題拆分類方法沒有特別關(guān)注開放領(lǐng)域檢索，只使用簡單的檢索方法，所以效果較差。

WikiHop[68]數(shù)據(jù)集分為unmasked和masked兩個版本，masked版本是為了驗證模型是從上下文而不是根據(jù)答案本身特性得到答案，把任意候選答案表達用100個不同的占位符替換得到的。表6展示了各個模型在WikiHop上的結(jié)果。基于Trasnformer的模型ETC-large的效果最好，這也與前文的分析一致，基于Trasnformer的模型的效果能超過有先驗知識的結(jié)構(gòu)化推理。另外基于圖和推理路徑的模型也有較好效果。

表6 WikiHop實驗結(jié)果

另外，WikiHop上人類表現(xiàn)為74.1，模型已經(jīng)超過人類表現(xiàn)。Hotpot上在1 000條數(shù)據(jù)中測試的人類表現(xiàn)在Ans/Sup/Joint上F1值分別為91.4/90.4/82.55，模型效果與人類表現(xiàn)相比暫時還有距離。推測原因是WikiHop是從知識圖譜結(jié)構(gòu)抽取出的數(shù)據(jù)集，問題是三元組形式，對人類來說不自然且噪聲大，對模型反而較為工整；而HotpotQA純自然語言的形式對人類而言更加友好，對模型而言則沒有結(jié)構(gòu)，難度更大。

3.2 模型解決不同類型問題的效果比較

多跳問題有不同的推理類型。我們想要知道，不同方法分別擅長什么問題？在什么問題上表現(xiàn)不好？HotpotQA中將多跳問題分為橋接和比類兩大類，本節(jié)就針對這兩類進行對比分析。

表7和表8分別給出了主要方法在HotpotQA的distractor和fullwiki兩種設(shè)置下兩類問題的效果，其中Br是橋接類的簡寫，Cp是比較類的簡寫。我們主要以F1值為參考，EM值作為輔助參考。

表7 HotpotQA distractor下不同推理類型的實驗結(jié)果

表8 HotpotQA fullwiki下不同推理類型的實驗結(jié)果

如表7所示，在distractor設(shè)置下，傳統(tǒng)方法、線索抽取、問題拆分在橋接類上的效果通常都好于比較類，圖方法則可均衡解決兩類問題。這是因為橋接類問題只是在單跳基礎(chǔ)上增加了難度，用簡單問答模型可部分解決，用線索選取模型逐條匹配也能較好解決。而比較類問題需要多跳模型針對性解決，基于實體的圖方法適合比較類問題，在比較類上的EM值甚至比橋接類更好。

但是如表8所示，對于fullwiki設(shè)置，傳統(tǒng)方法、問題拆分、非迭代檢索在橋接類上的效果差于比較類，而結(jié)構(gòu)化方法依然效果較均衡，迭代檢索在橋接類上好于比較類。這是因為橋接類問題的檢索難度更大，因此影響了最終答案效果。一些結(jié)構(gòu)化推理方法和迭代檢索方法則由于設(shè)計了針對性的多跳檢索方式，使得橋接類在開放領(lǐng)域下也有較好效果。

3.3 開放領(lǐng)域多跳問答的檢索質(zhì)量評價

上節(jié)提到，開放領(lǐng)域多跳問答中，檢索質(zhì)量是限制最終回答效果的一個關(guān)鍵步驟。如表9所示，在HotpotQA數(shù)據(jù)集的fullwiki設(shè)置下，我們比較現(xiàn)有方法常用的幾種檢索模型，分兩類，一類是基于TF-IDF或神經(jīng)網(wǎng)絡(luò)重排序的方法，另一類是針對性的幾種多跳檢索方法。評價指標為答案召回率(Answer Recall，AR)、段落召回率(Paragraph recall，PR)、段落精確匹配(PEM)、問答精確匹配(EM)。

表9 HotpotQA數(shù)據(jù)集檢索效果評價

結(jié)果可見，僅基于TF-IDF的檢索效果最差，加入BERT等神經(jīng)網(wǎng)絡(luò)重排序模型后檢索效果有一定提升，其中兩跳又好于一跳。而針對多跳的工作能進一步大幅提升檢索效果。

3.4 可解釋性的評價

除了對答案和支持性線索的評價，一些工作還給出了對推理過程的評價，例如對推理路徑、問題拆分的評價，作為模型可解釋性的評價方式。

3.4.1 對推理路徑的評價

DFGN[15]能夠得到基于實體的推理路徑，并用ESP (Entity-level Support) 分數(shù)評價。路徑是實體序列，支持性線索句子作為標準答案，如果句子中的至少一個實體被路徑訪問過，那么稱這個句子被命中(hit)。對m個句子，如果都命中，則ESP EM為1；如果h個命中，則ESP Recall為h/m。路徑分數(shù)是注意力和掩碼分數(shù)相乘，取top-k路徑，結(jié)果如表10所示。

表10 ESP分數(shù)對推理鏈的評價 (單位: %)

DRL-GRC[8]則給出了以句子為單位的推理鏈，簡單評價了推理鏈中是否包含答案，實驗表明該文方法包含答案的比例達到72.12%。Feng等人[23]關(guān)注從問答對中恢復(fù)推理鏈的工作，使用HotpotQA中標注的兩個真實段落評價。

3.4.2 對問題拆分的評價

推理路徑的評價還可以直接基于HotpotQA數(shù)據(jù)集中標注的支持性線索，而問題拆分的評價則完全缺少監(jiān)督數(shù)據(jù)?，F(xiàn)有工作采用標注、規(guī)則等方式來解決這個問題。

DecompRC[54]使用標注的100條左右數(shù)據(jù)的準確度(Accuracy)和F1，但是樣本量太少，僅能作為一個參考性指標。

UMT[52]用了GPT-2語言模型[89]、是否形式完整、編輯距離、長度比例4個啟發(fā)性指標，大多只是關(guān)注子問題本身是否是正常的語句，以及對原問題信息的覆蓋程度。結(jié)果如表11所示，其中UnSeq2Seq即UMT的拆分模型所用方法。

表11 UMT中對子問題的監(jiān)督評價

問題的語義拆分方面，則有全面的Break數(shù)據(jù)集[75]，構(gòu)造了一個復(fù)雜問題的語義解析數(shù)據(jù)集，并給出了基于序列的、基于圖的幾種評價指標。

3.5 小結(jié)

綜合本章的實驗分析，可以總結(jié)得到如下結(jié)論:

(1) 基于結(jié)構(gòu)化推理的方法整體效果最好；線索抽取方法側(cè)重于多跳檢索步驟；問題拆解方法的解釋性較好，但效果一般，需要結(jié)合其他模型技巧才能進一步提升。

(2) 在distractor設(shè)置下，各類方法通常在橋接類上的效果好于比較類，說明比較類問題更為特殊；但fullwiki設(shè)置下則相反，是因為橋接類問題的檢索難度更大。

(3) 在fullwiki設(shè)置下，檢索質(zhì)量很重要，最新的一些多跳檢索方法顯著好于普通的檢索方法。

(4) 推理過程的生成和評價可以認為是多跳問答的中間任務(wù)，由于缺少完善的標注數(shù)據(jù)和指標定義，現(xiàn)有一些工作嘗試設(shè)計了一些評價方式。

4 未來研究方向

4.1 更符合真實場景的任務(wù)形式設(shè)計

目前對多跳文本閱讀理解的任務(wù)設(shè)計還不夠成熟。WikiHop數(shù)據(jù)集基于知識庫構(gòu)造，問題是元組。HotpotQA數(shù)據(jù)集基于純自然語言文本構(gòu)造，但由于構(gòu)造方式是根據(jù)答案提問，所以該數(shù)據(jù)集的一些多跳問題不是很自然流暢，不能很好體現(xiàn)真實的多跳問題。

另外，大多數(shù)問題只有兩跳，可擴展性不足。例如，數(shù)據(jù)集HotpotQA在構(gòu)造時就是基于兩跳推理，而且還存在偽多跳的情況，所以需要思考如何設(shè)計更有挑戰(zhàn)性的任務(wù)數(shù)據(jù)集。

4.2 數(shù)據(jù)集偏差與模型魯棒性研究

上文提到的一些問題不是真正的多跳問題。有相關(guān)工作對此提出了對抗文檔構(gòu)造的方法，但大多針對某種特定的情況，而且實驗效果一般。因此，如何在構(gòu)造數(shù)據(jù)集時保證問題難度，有待進一步研究。從模型角度來看，任務(wù)數(shù)據(jù)集的對抗文檔構(gòu)造也涉及模型魯棒性的檢驗和提升。

4.3 可解釋性相關(guān)的中間和衍生任務(wù)

前文提到，可解釋性要求模型能給出中間推理過程，而現(xiàn)有數(shù)據(jù)集或缺少中間推理過程的監(jiān)督信號，或標注粒度不夠細。因此相關(guān)的中間任務(wù)值得關(guān)注，如3.4.1節(jié)提到的推理路徑還原和引言部分提到的問題拆分。一方面是數(shù)據(jù)集如何提供更準確的推理路徑監(jiān)督數(shù)據(jù)；另一方面是自動評價指標的設(shè)計。中間推理過程效果越好，答案是否一定越好？也是需要關(guān)注的問題。另一個可能的方向是衍生任務(wù)，如Ma等[16]提出了多跳問題生成任務(wù)，是多跳問答的逆向任務(wù)，該任務(wù)的解決同樣需要對中間推理過程的刻畫。

4.4 開放領(lǐng)域多跳問答的多跳檢索技術(shù)

由于多跳問題與文本之間有語義差異的特點，需要引入多跳檢索技巧，3.3節(jié)提到目前一些工作已經(jīng)有部分涉及，但這個領(lǐng)域還有待深入探索。AIR在句子上采用的高級迭代選取方法[33]也可以擴展到檢索步驟。也有工作[30, 35]在未來工作中提出可以考慮檢索模型和閱讀模型聯(lián)合訓(xùn)練、交互信息，能夠緩解檢索部分缺少監(jiān)督信號的問題，減少累積的信息損失。

4.5 多跳閱讀理解與其他自然語言領(lǐng)域的聯(lián)系

一些自然語言任務(wù)與多跳閱讀理解有一定聯(lián)系，可借鑒其相關(guān)方法。

相關(guān)推理任務(wù)數(shù)值推理、邏輯推理等。

文本摘要多跳問答中多線索的查找可以看作是基于問題的摘要，可借鑒摘要方法。

知識圖譜多跳問答雖然知識圖譜上的方法移植到閱讀理解上有差異，但也有不少聯(lián)系，例如，Yang等[90]使用強化學(xué)習(xí)端到端地學(xué)習(xí)問題拆分和答案選擇，可以運用到多跳閱讀理解的許多流水線模型上。

其他一些多跳自然語言理解任務(wù)，如文本蘊涵、常識推理以及視覺問答(VQA)、開放信息抽取、句子簡化等領(lǐng)域的方法都值得借鑒。

5 結(jié)束語

文本閱讀理解作為自然語言經(jīng)典任務(wù)，有多種任務(wù)形式。其中，針對較為復(fù)雜的多跳問題，本文介紹了多跳文本閱讀理解的相關(guān)工作。多跳文本閱讀理解關(guān)注推理能力，現(xiàn)有方法也致力于解決這種結(jié)合多線索的推理，并解釋推理過程。我們將現(xiàn)有方法分為基于結(jié)構(gòu)化推理的多跳模型、基于線索抽取的多跳模型、基于問題拆分的多跳模型這三類，并且討論了這些方法的優(yōu)缺點和適用的場景?？偨Y(jié)起來，結(jié)構(gòu)化推理方法相對整體效果最好，在不同類型的問題上效果均衡；線索抽取方法主要適用于多跳檢索部分；問題解拆分方法解釋性較好，但效果有待進一步提升。另外，多跳檢索和中間推理過程的評價也是多跳問答中的重要挑戰(zhàn)。目前，多跳文本閱讀理解任務(wù)已有一定進展，也還存在一些不足和未解決問題，還需要進一步研究，也可以借鑒其他任務(wù)，相信未來會有長足的發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡