国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于小樣本學(xué)習(xí)的口語理解方法綜述

2024-01-22 10:58:26鄭國(guó)風(fēng)徐貞順林令德
關(guān)鍵詞:意圖口語建模

劉 納, 鄭國(guó)風(fēng), 徐貞順, 林令德, 李 晨, 楊 杰

(1.北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021;2.北方民族大學(xué) 圖像圖形智能處理國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,寧夏 銀川 750021)

近年來,對(duì)話式人工智能(dialogue artificial intelligence,DAI)在工業(yè)、醫(yī)療、金融和教育等領(lǐng)域受到廣泛的關(guān)注。DAI是一種能夠進(jìn)行自然語言對(duì)話的人工智能技術(shù),通過將自然語言處理(natural language processing,NLP)、語音識(shí)別(automatic speech recognition,ASR)[1]、語義理解和對(duì)話理解等技術(shù)應(yīng)用到智能語音對(duì)話系統(tǒng)中,以實(shí)現(xiàn)實(shí)時(shí)有效的人機(jī)交互。根據(jù)DAI的應(yīng)用場(chǎng)景,將其劃分為面向任務(wù)的對(duì)話系統(tǒng)(task-oriented dialogue,TOD)和開放域?qū)υ捪到y(tǒng)(open-domain dialogue,ODD)兩大類。其中,TOD主要解決針對(duì)某一具體領(lǐng)域的問題。例如,醫(yī)療行業(yè)部署智能對(duì)話系統(tǒng)完成病情分析、藥品信息查詢和提供診療方案等任務(wù);教育領(lǐng)域利用智能對(duì)話系統(tǒng)實(shí)現(xiàn)教學(xué)體驗(yàn)提升、定制學(xué)習(xí)方案和獲取學(xué)習(xí)資源等業(yè)務(wù);金融領(lǐng)域則利用智能對(duì)話系統(tǒng)提供賬戶余額查詢、定制理財(cái)方案等服務(wù)。ODD需要實(shí)現(xiàn)與人類建立情感聯(lián)系,進(jìn)行共情對(duì)話。與TOD相比,ODD的對(duì)話主題更為開放、覆蓋范圍更廣、實(shí)現(xiàn)難度更大,是對(duì)話式人工智能亟待發(fā)展的研究方向之一。

2022年11月,OpenAI公司發(fā)布了全新的對(duì)話式通用人工智能工具即ChatGPT,受到了全球各界的廣泛關(guān)注。ChatGPT產(chǎn)品的落地標(biāo)志著大規(guī)模預(yù)訓(xùn)練語言模型(pre-train language model,PLM)已經(jīng)具備了通用人工智能的特征。在ChatGPT產(chǎn)品問世之后,OpenAI公司于2023年3月發(fā)布了最新的語言模型GPT-4,其性能與ChatGPT最初使用的GPT-3.5模型相比有了巨大的提升。在口語理解方面,模型的理解能力、回答的可靠性有了顯著提高。

中國(guó)類似于ChatGPT的研究也正在進(jìn)行,例如百度公司推出了基于文心大模型的產(chǎn)品文心一言;復(fù)旦大學(xué)發(fā)布了中國(guó)第一個(gè)對(duì)話式大型語言模型MOSS;在教育領(lǐng)域網(wǎng)易公司將類ChatGPT技術(shù)進(jìn)行落地研發(fā)等。目前,中國(guó)在通用人工智能領(lǐng)域的發(fā)展與外國(guó)相比還有很大的差距,但發(fā)展速度快,與國(guó)際領(lǐng)先水平的差距會(huì)隨著對(duì)大規(guī)模預(yù)訓(xùn)練語言模型的持續(xù)研究而逐漸縮小。

目前針對(duì)口語理解任務(wù)的研究綜述較多,2020年,Louvan等[2]根據(jù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特征對(duì)口語理解任務(wù)的方法進(jìn)行歸納。2022年,Weld等[3]針對(duì)如何提高聯(lián)合模型的能力、如何捕獲深層次語義和如何提高模型的泛化性3大問題,對(duì)前人的工作進(jìn)行總結(jié)。但以上大多數(shù)研究都采用非小樣本學(xué)習(xí)的方法,對(duì)研究者來說,獲取大量有標(biāo)注的訓(xùn)練樣本代價(jià)非常昂貴,并且對(duì)于新出現(xiàn)的意圖領(lǐng)域,帶標(biāo)注的樣本較少,獲取十分困難。與之前的工作相比,本文主要對(duì)在小樣本場(chǎng)景中口語理解任務(wù)的建模方式進(jìn)行介紹,具有較強(qiáng)的針對(duì)性。

本文首先簡(jiǎn)要介紹了在非小樣本場(chǎng)景中,口語理解任務(wù)建模的經(jīng)典方法;其次,重點(diǎn)闡述了在小樣本口語理解任務(wù)中為解決訓(xùn)練樣本受限問題而提出的基于模型微調(diào)、基于數(shù)據(jù)增強(qiáng)和基于度量學(xué)習(xí)3類最新研究方法,并對(duì)不同方法的優(yōu)缺點(diǎn)進(jìn)行全面的比較與總結(jié)歸納;最后,對(duì)小樣本口語理解領(lǐng)域存在的問題與挑戰(zhàn)進(jìn)行分析。

1 相關(guān)工作

口語理解(spoken language understanding, SLU)是對(duì)話式人工智能系統(tǒng)的核心任務(wù)之一。它的目標(biāo)任務(wù)是提取用戶輸入的話語中所包含的意圖,即用戶的行為,并給予一定的反饋。2011年,Tur等[4]將口語理解任務(wù)劃分為意圖分類和槽位填充兩個(gè)子任務(wù)。如表1所示,在槽位填充任務(wù)中采用的是BIO標(biāo)注方案,通過意圖分類識(shí)別用戶的具體行為。

表1 口語理解任務(wù)舉例Table 1 Examples of spoken language understanding tasks

根據(jù)兩個(gè)子任務(wù)之間的關(guān)聯(lián)程度將非小樣本場(chǎng)景下的口語理解相關(guān)研究劃分為4類:①無關(guān)聯(lián)建模,意圖分類與槽位填充任務(wù)分別單獨(dú)建模;②隱式關(guān)聯(lián)建模,意圖分類與槽位填充聯(lián)合建模,獲取兩個(gè)子任務(wù)之間的全部共享信息;③顯式關(guān)聯(lián)建模,意圖分類與槽位填充聯(lián)合建模,獲取兩個(gè)子任務(wù)之間有用的共享信息;④基于預(yù)訓(xùn)練范式建模,以上下文感知為核心,捕獲更深層次的語義信息。

1.1 無關(guān)聯(lián)建模

無關(guān)聯(lián)的建模方式將口語理解任務(wù)劃分為意圖分類和槽位填充兩個(gè)子任務(wù)單獨(dú)建模,模塊化設(shè)計(jì)讓每個(gè)模型結(jié)構(gòu)簡(jiǎn)單、靈活,并且可以在不修改其他模塊的情況下對(duì)特定的任務(wù)進(jìn)行調(diào)整。

2013年,Bhargava等[5]對(duì)口語理解任務(wù)單獨(dú)建模進(jìn)行了早期嘗試。利用支持向量機(jī)(support vector machine, SVM)對(duì)意圖分類任務(wù)建模,利用條件隨機(jī)場(chǎng)(conditional random field, CRF)對(duì)槽位填充任務(wù)建模。同時(shí)結(jié)合上下文信息,將前一個(gè)話語中的知識(shí)合并到當(dāng)前話語中,顯著提高了意圖分類與槽位填充任務(wù)的性能,這是口語理解任務(wù)無關(guān)聯(lián)建模的開端。

隨著深度學(xué)習(xí)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)表現(xiàn)出強(qiáng)大的語言建模能力。2015年,Mesnil等[6]采用RNN對(duì)槽位填充任務(wù)進(jìn)行了深入研究,比較了RNN的幾種變體,其中包括Elman-type網(wǎng)絡(luò)和Jordan-type網(wǎng)絡(luò)。在ATIS數(shù)據(jù)集上,兩種網(wǎng)絡(luò)結(jié)構(gòu)的性能都優(yōu)于CRF模型。2017年,Lin等[7]認(rèn)為基于RNN的遞歸模型在所有的時(shí)間步中攜帶樣本的語義信息非常困難,并且會(huì)造成災(zāi)難性遺忘的問題,因此對(duì)傳統(tǒng)的句子編碼方式進(jìn)行改進(jìn),設(shè)計(jì)雙向LSTM結(jié)構(gòu),使用自注意力機(jī)制替換傳統(tǒng)的最大池化或平均池化,從而有效減少了RNN的長(zhǎng)期記憶負(fù)擔(dān)。

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)最初應(yīng)用在圖像領(lǐng)域中,后來研究者將CNN應(yīng)用在語義融合、句子建模等NLP任務(wù)中,同樣取得了非常出色的效果。2014年,Kim[8]在word2Vec基礎(chǔ)上添加了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使用詞向量嵌入與CNN相結(jié)合的方式進(jìn)行文本分類任務(wù)。CNN利用不同大小的卷積核來提取句子中的關(guān)鍵信息,更好地建立局部語義相關(guān)性。但其存在的缺陷是難以提取對(duì)于距離大于卷積核窗口長(zhǎng)度的特征,同時(shí)使用最大池化僅保留提取特征向量的最大值,導(dǎo)致部分重要的位置編碼信息丟失。針對(duì)上述CNN的缺陷,2018年,Zhao等[9]開啟了使用動(dòng)態(tài)路由的膠囊網(wǎng)絡(luò)進(jìn)行文本分類任務(wù)的早期探索。膠囊網(wǎng)絡(luò)利用神經(jīng)元向量替代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的單個(gè)神經(jīng)元節(jié)點(diǎn),顯著改善了CNN空間不敏感的問題。利用動(dòng)態(tài)路由算法調(diào)整子膠囊與父膠囊之間的權(quán)重,解決了使用最大池化算法丟失位置編碼信息的問題。

無關(guān)聯(lián)的建模方式存在的缺陷是需要對(duì)每個(gè)任務(wù)進(jìn)行單獨(dú)建模,模型結(jié)構(gòu)整體較為龐大。各任務(wù)的模型之間沒有數(shù)據(jù)或功能共享,易產(chǎn)生數(shù)據(jù)碎片。在實(shí)際的應(yīng)用場(chǎng)景中,某些意圖和槽位信息會(huì)在多個(gè)領(lǐng)域之間共享,無關(guān)聯(lián)的建模方式無法利用兩個(gè)任務(wù)之間的共享知識(shí),導(dǎo)致用戶在與系統(tǒng)交互過程中達(dá)不到滿意的效果。為解決上述問題,后續(xù)工作提出了聯(lián)合建模的方法。

1.2 隱式關(guān)聯(lián)建模

聯(lián)合建模思想的提出,極大地促進(jìn)了口語理解領(lǐng)域的研究。但在早期的工作中,大多數(shù)采用隱式聯(lián)合建模的方式。僅通過共享編碼器(shared encoder)捕獲意圖分類和槽位填充兩個(gè)子任務(wù)之間的共享特征,之間沒有進(jìn)行任何的顯式交互。

2016年,Zhang等[10]首次提出將意圖分類與槽位填充任務(wù)進(jìn)行聯(lián)合建模,并首次將RNN結(jié)構(gòu)引入到意圖分類任務(wù)中。由于RNN對(duì)于捕獲長(zhǎng)期依賴關(guān)系十分困難,同時(shí)會(huì)帶來梯度消失和梯度爆炸等問題,因此選擇基于RNNs改進(jìn)的門控循環(huán)神經(jīng)網(wǎng)絡(luò)GRU[11]作為模型的基礎(chǔ)架構(gòu)。該聯(lián)合模型的缺陷在于需要等待輸入序列全部輸入到模型之后才能開始后續(xù)的意圖分類任務(wù),實(shí)時(shí)性差。在實(shí)際的SLU應(yīng)用中,用戶對(duì)系統(tǒng)的實(shí)時(shí)性要求通常較高。為解決上述問題,Liu等[12]提出基于LSTM的聯(lián)合SLU實(shí)時(shí)模型。由于LSTM具有較強(qiáng)的捕獲詞序列中長(zhǎng)期依賴關(guān)系的能力,因此使用LSTM作為基本的RNN單元。通過對(duì)整個(gè)序列上的RNN單元輸出取平均值作為樣本的表示向量,利用最后一個(gè)RNN單元輸出預(yù)測(cè)的意圖類別。對(duì)當(dāng)前時(shí)間步以及之前時(shí)間步的隱藏狀態(tài)建模槽位標(biāo)簽之間的依賴關(guān)系,每個(gè)時(shí)間步以單個(gè)詞語作為輸入,輸出對(duì)應(yīng)的槽位標(biāo)簽。Liu等[13]借鑒注意力機(jī)制在機(jī)器翻譯領(lǐng)域的成功經(jīng)驗(yàn),首次提出將基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型應(yīng)用在聯(lián)合意圖分類和槽位填充任務(wù)中。與機(jī)器翻譯不同的是,在槽位填充任務(wù)中,輸入的文本與輸出的標(biāo)簽之間具有一一對(duì)應(yīng)的關(guān)系,因此采用Seq2Seq結(jié)構(gòu),如圖1所示。編碼層使用雙向LSTM,可更好地捕獲長(zhǎng)期依賴關(guān)系。解碼層使用LSTM并添加注意力機(jī)制預(yù)測(cè)槽位標(biāo)簽,在最后的隱藏層上通過前饋神經(jīng)網(wǎng)絡(luò)輸出意圖類別。

圖1 Seq2Seq建??谡Z理解任務(wù)結(jié)構(gòu)圖Figure 1 Seq2Seq modeling spoken language understanding task structure diagram

上述隱式聯(lián)合建模的方式在一定程度上利用了意圖分類和槽位填充兩個(gè)任務(wù)之間的共享信息,極大地提高了口語理解的準(zhǔn)確性。但缺陷在于隱式聯(lián)合建模缺乏噪聲過濾機(jī)制,兩個(gè)子任務(wù)的噪聲會(huì)在聯(lián)合模型中進(jìn)行傳播,導(dǎo)致模型性能受限。為解決上述問題,后續(xù)工作提出了顯式關(guān)聯(lián)建模的方法。

1.3 顯式關(guān)聯(lián)建模

為解決隱式關(guān)聯(lián)建模中的噪聲傳播問題,一些工作利用顯式聯(lián)合建模的方法,通過添加類似于門控機(jī)制的方式,選擇性地獲取意圖分類和槽位填充任務(wù)之間的共享信息。

圖2 SGM-SLU結(jié)構(gòu)圖Figure 2 Structural diagram of the SGM-SLU

2019年,Qin等[15]認(rèn)為Goo等[14]提出的僅依靠門控機(jī)制獲取意圖信息是有風(fēng)險(xiǎn)的,并且意圖信息引導(dǎo)槽位填充任務(wù)具體過程的可解釋性很差。因此,提出以堆棧作為數(shù)據(jù)結(jié)構(gòu)的傳播模型,將意圖信息直接作為槽位填充任務(wù)的輸入,提高了模型的可解釋性。Chen等[16]提出了一種具有條件隨機(jī)場(chǎng)和先驗(yàn)掩碼的多頭自注意力聯(lián)合模型。該模型使用多頭局部自注意力機(jī)制來提取共享特征,使用掩碼門控機(jī)制來建立意圖分類和槽位填充兩項(xiàng)任務(wù)輸出的相關(guān)性,并使用CRF約束槽位填充任務(wù)的輸出,充分利用了兩個(gè)任務(wù)之間的語義關(guān)系。

基于以上工作可以發(fā)現(xiàn)傳統(tǒng)基于RNN的方法只能處理一定的短期依賴,無法處理長(zhǎng)期依賴問題。后來基于LSTM和BiLSTM的模型結(jié)構(gòu)在一定程度上突破了序列模型的局限性,但固有的順序性限制了樣本的并行化訓(xùn)練。顯式聯(lián)合建模的方式進(jìn)一步利用了兩個(gè)任務(wù)之間的共享知識(shí),但模型無法捕獲更深層次的語義信息。預(yù)訓(xùn)練模型的發(fā)展給口語理解任務(wù)帶來了新的研究思路。

1.4 基于預(yù)訓(xùn)練范式建模

自然語言處理領(lǐng)域中的預(yù)訓(xùn)練研究思路最早可以追溯到word2Vec模型的提出。預(yù)訓(xùn)練的核心在于使用大量的訓(xùn)練數(shù)據(jù),從中提取共性特征,幫助NLP下游任務(wù)簡(jiǎn)化其訓(xùn)練過程。早期的預(yù)訓(xùn)練模型專注于詞向量編碼,模型的特點(diǎn)是上下文無關(guān),模型只知“上文”不知“下文”,缺乏雙向交互能力,代表性的工作包括word2Vec、GloVe等。近幾年的預(yù)訓(xùn)練模型以上下文感知為核心,共享知識(shí)在上下文之間進(jìn)行雙向流動(dòng),代表性的工作包括ELMo、BERT、GPT等。

2019年,Chen等[18]首次將預(yù)訓(xùn)練模型應(yīng)用到口語理解任務(wù)中,使用BERT預(yù)訓(xùn)練模型對(duì)意圖分類和槽位填充任務(wù)進(jìn)行聯(lián)合建模,提出了JointBERT模型。模型結(jié)構(gòu)如圖3所示,BERT預(yù)訓(xùn)練模型的下游任務(wù)之一是文本分類,因此很容易就能擴(kuò)展到意圖分類任務(wù)中。將[CLS]標(biāo)簽的輸出替換成意圖分類器,為后續(xù)的標(biāo)簽添加序列標(biāo)簽器,輸出槽位最佳的標(biāo)簽匹配序列。槽位標(biāo)簽的預(yù)測(cè)取決于上下文單詞的預(yù)測(cè),由于結(jié)構(gòu)化預(yù)測(cè)模型可以提高槽位填充的性能,在JointBERT模型的基礎(chǔ)上添加CRF來對(duì)槽位標(biāo)簽之間的依賴關(guān)系進(jìn)行約束建模。JointBERT模型充分利用兩個(gè)子任務(wù)之間的聯(lián)系,捕獲兩個(gè)任務(wù)之間的共享知識(shí)。

圖3 JointBERT模型結(jié)構(gòu)圖Figure 3 JointBERT model architecture

2020年,Qin等[19]認(rèn)為僅識(shí)別對(duì)話中的顯式意圖并不能捕獲用戶的全部語義,對(duì)話中的隱式意圖是更為重要的語義獲取來源,因此提出一種協(xié)同交互式圖注意力網(wǎng)絡(luò)(Co-GAT)來聯(lián)合對(duì)話顯式意圖分類和隱式意圖分類這兩項(xiàng)任務(wù)。模型的核心是設(shè)計(jì)一個(gè)協(xié)同的圖交互層,可以同時(shí)獲取上下文信息和交互信息。這是首次將上下文信息和交互信息結(jié)合進(jìn)行聯(lián)合顯隱式意圖識(shí)別的研究。

以上基于預(yù)訓(xùn)練語言模型的建模方式極大地促進(jìn)了口語理解領(lǐng)域的發(fā)展。但通過對(duì)這些預(yù)訓(xùn)練模型性能的評(píng)估可以發(fā)現(xiàn),目前基于預(yù)訓(xùn)練的方法并不能從根本上解決現(xiàn)有模型可解釋性弱、泛化能力差、推理能力不足等問題,在深層次語義獲取與理解方面還遠(yuǎn)遠(yuǎn)落后于人類的認(rèn)知水平。同時(shí),如何對(duì)大規(guī)模預(yù)訓(xùn)練語言模型進(jìn)行壓縮、降低參數(shù)量是一個(gè)亟待解決的問題。

2 小樣本學(xué)習(xí)

早在2006年,Li等[20]首次提出了小樣本學(xué)習(xí)的概念。小樣本學(xué)習(xí)致力于解決數(shù)據(jù)受限的深度學(xué)習(xí)問題,通過對(duì)少量樣本甚至一個(gè)樣本的訓(xùn)練使模型性能達(dá)到甚至超越大數(shù)據(jù)深度學(xué)習(xí)的效果。在生活中,有很多場(chǎng)景都屬于小樣本學(xué)習(xí)的范疇,例如兒童僅通過幾張繪圖卡片就能認(rèn)識(shí)海洋生物,依靠少量的樣本完成自主推理的過程。受到人類快速學(xué)習(xí)能力的啟發(fā),早期的研究人員將小樣本學(xué)習(xí)方法應(yīng)用在圖像領(lǐng)域,解決訓(xùn)練樣本數(shù)量受限的問題。2015年,Koch等[21]設(shè)計(jì)孿生神經(jīng)網(wǎng)絡(luò)解決了one-shot圖像分類問題。Zhang等[22]在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上,通過數(shù)據(jù)增強(qiáng)的方法解決了小樣本圖像分類問題。在自然語言處理領(lǐng)域,小樣本學(xué)習(xí)發(fā)展較為緩慢,原因是圖像特征相比于文本特征更為客觀,在少量樣本的情況下,提取文本特征更為困難。

近年來,隨著預(yù)訓(xùn)練模型的發(fā)展,小樣本學(xué)習(xí)在自然語言處理領(lǐng)域也有了一些突破。2018年,Chen等[23]使用對(duì)比學(xué)習(xí)框架解決小樣本文本分類中的區(qū)分表示和過擬合問題。Jian等[24]使用偽標(biāo)簽克服小樣本學(xué)習(xí)固有的數(shù)據(jù)稀缺問題。以上方法在一定程度上緩解了由于數(shù)據(jù)過少無法支撐模型學(xué)習(xí)到足夠的參數(shù),在訓(xùn)練集上容易過擬合的問題。但大多數(shù)工作只專注于在已知的數(shù)據(jù)集上提高模型的學(xué)習(xí)上限,對(duì)于口語理解任務(wù)來說,注重的是模型對(duì)自然語言的理解與認(rèn)知,而非學(xué)習(xí)淺層次的語義,這對(duì)模型的知識(shí)獲取能力提出了更高的要求。

諸葛玉頭疼欲裂,他又拿起了那把劍,運(yùn)足了功力想要刺過去,可這個(gè)時(shí)候趙白又勾起唇角對(duì)他微微一笑,他仿佛聽到趙白在對(duì)自己說:“諸葛玉,原來你也不過如此!從此以后這天下第一劍客就是我趙白了!”

2.1 問題定義

在通常情況下,意圖分類被看作是文本分類任務(wù),將文本分類到指定的某個(gè)或者多個(gè)類別中。從數(shù)學(xué)定義上看,定義包含m段文本的集合T={t1,t2,…,tm}和包含n個(gè)類別標(biāo)簽的集合C={c1,c2,…,cn}。模型最終產(chǎn)生由集合T到集合C的一對(duì)一或一對(duì)多映射關(guān)系。槽位填充被看作是序列標(biāo)注任務(wù),定義輸入樣本X={x1,x2,…,xn},xi表示樣本中的某個(gè)字詞,模型輸出Y={y1,y2,…,yn},yi表示槽位標(biāo)簽。在小樣本場(chǎng)景中,假設(shè)支持集S包含N種意圖類別,每種意圖類別由K個(gè)樣本組成,則將該任務(wù)稱為N-wayK-shot意圖分類任務(wù)。

在近些年的研究中,基于小樣本學(xué)習(xí)的口語理解方法主要分為3類:①基于模型微調(diào)的方法,將在大規(guī)模數(shù)據(jù)集上訓(xùn)練的模型遷移到目標(biāo)任務(wù)中進(jìn)行微調(diào);②基于數(shù)據(jù)增強(qiáng)的方法,通過增強(qiáng)樣本空間特征,提高模型的泛化能力;③基于度量學(xué)習(xí)的方法,利用度量函數(shù)計(jì)算樣本之間的相似性。

2.2 基于模型微調(diào)的小樣本口語理解

2015年,Dai等[25]首次提出了對(duì)語言模型進(jìn)行微調(diào)的思想,模型需要先在大規(guī)模數(shù)據(jù)集上從0開始預(yù)訓(xùn)練,其次在小樣本目標(biāo)數(shù)據(jù)集上對(duì)全連接層或頂端神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)進(jìn)行微調(diào)。該時(shí)期的微調(diào)模型經(jīng)過海量數(shù)據(jù)的預(yù)訓(xùn)練才能表現(xiàn)出良好的性能,嚴(yán)重限制了模型的適應(yīng)性。2018年,Howard等[26]提出了一種通用微調(diào)語言模型(universal language model fine-tuning,ULMFiT)。ULMFiT模型訓(xùn)練主要由3個(gè)步驟組成:①在通用領(lǐng)域語言模型中進(jìn)行預(yù)訓(xùn)練;②在目標(biāo)任務(wù)語言模型中進(jìn)行微調(diào);③在目標(biāo)任務(wù)分類器上進(jìn)行微調(diào)。與其他模型的區(qū)別在于ULMFiT通過判別微調(diào)讓模型的不同層學(xué)習(xí)不同的學(xué)習(xí)率。對(duì)于模型的同一層,隨著迭代次數(shù)變化,使用傾斜三角學(xué)習(xí)率讓參數(shù)進(jìn)行自適應(yīng)。判別微調(diào)與傾斜三角學(xué)習(xí)率機(jī)制讓模型在小樣本數(shù)據(jù)集上加快收斂速度,同時(shí)學(xué)習(xí)到更加符合目標(biāo)任務(wù)的知識(shí)。

在BERT模型提出之前,傳統(tǒng)的雙向語言模型是將兩個(gè)單向語言模型進(jìn)行組合,而BERT模型是第一個(gè)基于微調(diào)的表示模型,在大型通用語料庫中利用掩碼語言模型(masked language model,MLM)和下一句預(yù)測(cè)任務(wù)(next sentence prediction,NSP)進(jìn)行預(yù)訓(xùn)練。它使一系列NLP任務(wù)實(shí)現(xiàn)了當(dāng)時(shí)最優(yōu)的性能,表現(xiàn)出微調(diào)方法的巨大優(yōu)勢(shì)。2019年,Sun等[27]在BERT模型的基礎(chǔ)上,研究如何通過微調(diào)BERT模型以解決長(zhǎng)文本預(yù)處理、災(zāi)難性遺忘、低資源學(xué)習(xí)等問題。類似的工作還有2020年Mohammadi等[28]比較了微調(diào)不同層結(jié)構(gòu)對(duì)BERT模型性能的影響,提出了5種不同的微調(diào)結(jié)構(gòu),如圖4所示。

圖4 5種BERT模型微調(diào)結(jié)構(gòu)圖Figure 4 Diagram of five fine-tuned BERT models

如表2所示,在30k-Intent(意圖分類數(shù)據(jù)集,由American Online中30 000條用戶檢索意圖文本組成)數(shù)據(jù)集上,Mohammadi等[28]經(jīng)過實(shí)驗(yàn)證明,BERT模型通過微調(diào)添加BiLSTM與基礎(chǔ)模型效果相似;在BERT模型之上添加全連接層作為分類器,可以得到最優(yōu)的性能;卷積神經(jīng)網(wǎng)絡(luò)雖然具有較為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),但該類結(jié)構(gòu)不僅無法提高模型的精度,甚至?xí)?dǎo)致模型性能降低。

相比于Mohammadi等[28]的微調(diào)模型結(jié)構(gòu),2021年Zhang等[29]用少量意圖分類標(biāo)注樣本微調(diào)BERT模型,提出了一種新的微調(diào)模型IntentBERT。該模型的優(yōu)勢(shì)在于目標(biāo)領(lǐng)域的樣本即使與預(yù)訓(xùn)練數(shù)據(jù)差異較大,也可以直接應(yīng)用在目標(biāo)領(lǐng)域上的小樣本意圖分類任務(wù)中,無須對(duì)目標(biāo)數(shù)據(jù)進(jìn)一步微調(diào)。但I(xiàn)ntentBERT具有較強(qiáng)的各向異性(anisotropy),語義向量之間的余弦相似度較大,不同的語義難以分離。針對(duì)各向異性的問題,2022年Zhang等[30]利用各向同性(isotropy)技術(shù)調(diào)整語義空間,通過調(diào)整目標(biāo)函數(shù)的正則化項(xiàng)實(shí)現(xiàn)對(duì)模型的微調(diào),提出了兩種正則化項(xiàng):①基于對(duì)比學(xué)習(xí)的正則化;②基于相關(guān)矩陣的正則化。實(shí)驗(yàn)證明,兩種正則化相結(jié)合的微調(diào)方式在BANKING77和HWU64數(shù)據(jù)集上能夠表現(xiàn)出更加出色的效果。

表2 5種微調(diào)模型結(jié)構(gòu)對(duì)比Table 2 Comparison of five fine-tuning models

如表3所示,基于模型微調(diào)的方法思路簡(jiǎn)單,但在真實(shí)的應(yīng)用場(chǎng)景中,預(yù)訓(xùn)練與微調(diào)之間的數(shù)據(jù)集和模型結(jié)構(gòu)會(huì)產(chǎn)生顯著偏差,導(dǎo)致微調(diào)的效果和預(yù)訓(xùn)練的效果會(huì)存在較大的差異性。同時(shí),隨著預(yù)訓(xùn)練語言模型的參數(shù)量呈現(xiàn)爆炸式增長(zhǎng),在下游任務(wù)上進(jìn)行模型微調(diào)代價(jià)十分昂貴且耗時(shí)。為解決上述問題,后續(xù)工作提出了基于數(shù)據(jù)增強(qiáng)的方法和基于度量學(xué)習(xí)的方法。

表3 基于模型微調(diào)的小樣本口語理解模型對(duì)比Table 3 Comparing few-shot spoken language understanding models with model fine-tuning

2.3 基于數(shù)據(jù)增強(qiáng)的小樣本口語理解

數(shù)據(jù)增強(qiáng)是通過增加樣本的數(shù)量或空間特征,從而提高模型的泛化能力,緩解數(shù)據(jù)不足的問題。現(xiàn)階段,NLP領(lǐng)域的數(shù)據(jù)增強(qiáng)方法主要有:隨機(jī)噪聲注入、詞匯替代、回譯等。

2016年,Kurata等[31]首次將數(shù)據(jù)增強(qiáng)的思想引入到對(duì)話口語理解任務(wù)的模型中,利用編碼器-解碼器架構(gòu)對(duì)訓(xùn)練樣本中的數(shù)據(jù)進(jìn)行重構(gòu)。在數(shù)據(jù)增強(qiáng)的過程中,對(duì)編碼器的輸出隱藏層添加隨機(jī)噪聲來產(chǎn)生不同的樣本,該方法的缺陷是增強(qiáng)產(chǎn)生的單個(gè)樣本與其他樣本之間沒有建立關(guān)系。2018年,Hou等[32]針對(duì)該缺陷提出了一種新的數(shù)據(jù)驅(qū)動(dòng)架構(gòu),對(duì)訓(xùn)練數(shù)據(jù)中相同語義框架的樣本之間的關(guān)系進(jìn)行建模。為了讓生成的樣本具有多樣性,以Seq2Seq模型作為架構(gòu)的核心,在樣本表示中添加多樣性等級(jí)隊(duì)列(diversity rank),提升了生成樣本的多樣性并過濾相似的樣本,顯著提高了語言模型在標(biāo)記數(shù)據(jù)稀缺領(lǐng)域的性能。

數(shù)據(jù)生成的方法在一定程度上避免了模型過擬合,生成的樣本擴(kuò)充了訓(xùn)練樣本的數(shù)量,但缺陷在于模型會(huì)消耗額外的內(nèi)存來生成噪聲數(shù)據(jù)。2019年,Kim等[33]針對(duì)該缺陷提出了基于槽位添加噪聲的方法,將數(shù)據(jù)轉(zhuǎn)換成具有相同上下文、但不同槽位標(biāo)簽的短句來擴(kuò)充數(shù)據(jù)。具體而言,對(duì)輸入的訓(xùn)練數(shù)據(jù)進(jìn)行噪聲處理后,訓(xùn)練數(shù)據(jù)轉(zhuǎn)變?yōu)榘肼暤那度胂蛄?接著使用上下文作為神經(jīng)網(wǎng)絡(luò)的輸入。模型在每一步訓(xùn)練中使用不同的噪聲數(shù)據(jù),由于數(shù)據(jù)增強(qiáng)在相同的嵌入空間中執(zhí)行,因此不需要花費(fèi)額外的內(nèi)存空間。

2019年,Zhao等[34]提出構(gòu)造原子模板(atomic templates)進(jìn)行數(shù)據(jù)增強(qiáng)。原子模板生成細(xì)粒度更好的語義樣本,每一個(gè)模板由act-slot-value三元組組成。該方法的優(yōu)勢(shì)在于建立起act-slot-value三者之間的關(guān)系,而不是單獨(dú)地對(duì)槽位或行為建模。在輸入到句子生成器之前,用自然語言處理對(duì)話行為,以便生成器能夠理解,提高了句子生成器的領(lǐng)域自適應(yīng)能力。原子模板是在句子級(jí)上進(jìn)行創(chuàng)建,減輕了人為創(chuàng)建模板的工作量。

為了提高口語理解模型的可變性和準(zhǔn)確性,2021年,Peng等[35]提出基于預(yù)訓(xùn)練語言模型的數(shù)據(jù)增強(qiáng)方法,將在預(yù)訓(xùn)練階段學(xué)習(xí)到的語法和語義融合到特定領(lǐng)域樣本生成的過程中,該數(shù)據(jù)增強(qiáng)框架對(duì)生成的樣本語義可控性更強(qiáng)。Qin等[36]基于預(yù)訓(xùn)練模型提出一種新的數(shù)據(jù)增強(qiáng)框架CoSDA-ML,用于生成多語種code-switching數(shù)據(jù)微調(diào)mBERT模型。該模型的主要思想是通過融合上下文信息來將源語言和多個(gè)目標(biāo)語言的表示進(jìn)行對(duì)齊。為了驗(yàn)證所提出的動(dòng)態(tài)增強(qiáng)機(jī)制的有效性,與靜態(tài)增強(qiáng)方法進(jìn)行比較。模型的優(yōu)勢(shì)在于動(dòng)態(tài)采樣允許模型將更多的單詞表示在多種語言中進(jìn)行更緊密的對(duì)齊,同時(shí)對(duì)語言的依賴性較低,與mBERT模型相比,在各項(xiàng)NLP任務(wù)上的性能都有顯著提高。

2022年,Sahu等[37]提出使用預(yù)訓(xùn)練語言模型生成意圖樣本,對(duì)任務(wù)進(jìn)行數(shù)據(jù)增強(qiáng)。該方法的缺陷在于未考慮到生成樣本的質(zhì)量,模型可能會(huì)在低質(zhì)量的生成樣本上過擬合,同時(shí)生成的樣本需要進(jìn)行人工標(biāo)記,成本較大。為解決上述問題,2023年,Lin等[38]引入Pointwise V-information(PVI)作為衡量過濾意圖分類數(shù)據(jù)的指標(biāo),提出了基于PVI的上下文數(shù)據(jù)增強(qiáng)方法(in-context data augmentation,ICDA),該方法首先在小部分訓(xùn)練數(shù)據(jù)上微調(diào)模型,接著在與已知意圖相對(duì)應(yīng)的樣本上生成新的樣本。經(jīng)過實(shí)驗(yàn)證明,在BANKING數(shù)據(jù)集上,基于PVI的方法相比于未添加PVI過濾時(shí)意圖分類準(zhǔn)確率提高了4.45%。

對(duì)現(xiàn)有基于數(shù)據(jù)增強(qiáng)的方法進(jìn)行分析和總結(jié)如表4所示。數(shù)據(jù)增強(qiáng)的方法通過增加樣本的數(shù)量或空間特征,一定程度上提高了模型的泛化能力,但這些方法也會(huì)存在一些缺陷。例如:生成樣本的質(zhì)量會(huì)對(duì)模型產(chǎn)生影響,并且增強(qiáng)過程中可能會(huì)丟失一些關(guān)鍵信息。為了克服上述缺陷,一些工作轉(zhuǎn)變研究思路,提出了度量學(xué)習(xí)的方法。

表4 基于數(shù)據(jù)增強(qiáng)的小樣本口語理解模型對(duì)比Table 4 Comparing few-shot spoken language understanding models with data augmentation

2.4 基于度量學(xué)習(xí)的小樣本口語理解

目前,基于度量學(xué)習(xí)的方法已經(jīng)成為解決小樣本口語理解任務(wù)的主流方法,如圖5所示,其主要思想是利用度量函數(shù)計(jì)算兩個(gè)樣本之間的距離,從而得到它們之間的相似度。

2.4.1 原型網(wǎng)絡(luò)

2017年,Snell等[39]為解決小樣本分類問題提出原型網(wǎng)絡(luò)(prototypical networks,PN)如圖6所示。該模型的整體思想是首先通過學(xué)習(xí)一個(gè)度量空間,在該空間中用每一類樣本的平均值作為該類別的樣本中心,對(duì)于查詢集新樣本x,計(jì)算x與每一類樣本中心的歐氏距離,選擇距離最小的類作為查詢集新樣本x的最終分類。與其他的小樣本學(xué)習(xí)方法相比,該模型的分類器具有較強(qiáng)的泛化性,同時(shí)使用樣本中心表示類別,提高了模型的魯棒性。

圖5 基于度量學(xué)習(xí)的口語理解示意圖Figure 5 Schematic of SLU with metric learning

圖6 原型網(wǎng)絡(luò)示意圖Figure 6 Schematic of the prototypical network

2020年,Hou等[40]在原型網(wǎng)絡(luò)基礎(chǔ)上,設(shè)計(jì)出基于相似性度量的小樣本學(xué)習(xí)模型SepProto,以及利用Goo等[14]提出的門控機(jī)制設(shè)計(jì)出JointProto模型,實(shí)現(xiàn)意圖分類和槽位填充的聯(lián)合學(xué)習(xí)。利用對(duì)話意圖分類領(lǐng)域新的研究基準(zhǔn)FewJoint在兩個(gè)基于原型網(wǎng)絡(luò)的模型上進(jìn)行實(shí)驗(yàn),結(jié)果表明:JointProto模型在意圖分類和槽位填充兩個(gè)任務(wù)上都優(yōu)于SepProto,前者意圖分類的準(zhǔn)確率高于后者7.25%,證明了來自聯(lián)合學(xué)習(xí)任務(wù)的額外信息能夠提高模型的性能,與普通的小樣本學(xué)習(xí)方法相比,聯(lián)合學(xué)習(xí)在語言理解上更具有優(yōu)勢(shì)。2021年,Xu等[41]提出語義傳輸原型網(wǎng)絡(luò)(semantic transportation prototypical network, STPN),是首個(gè)專注于單詞級(jí)判別信息的小樣本意圖分類模型。Xu等[41]認(rèn)為在度量空間中,不相關(guān)的詞會(huì)導(dǎo)致同一類詞的全局特征表示相距較遠(yuǎn)。2021年,Dopierre等[42]在原型網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行擴(kuò)展,提出了一種應(yīng)用在意圖分類任務(wù)中的短文本分類元學(xué)習(xí)算法PROTAUGMENT。Dopierre等[42]認(rèn)為元學(xué)習(xí)模型在小樣本訓(xùn)練過程中很容易導(dǎo)致過擬合,通過在原型網(wǎng)絡(luò)框架中引入一種無監(jiān)督離散釋義損失去解決該問題。將自動(dòng)編碼器在Seq2Seq任務(wù)上進(jìn)行預(yù)訓(xùn)練的去噪過程轉(zhuǎn)化為釋義生成任務(wù),不同的解碼方法大多使用基于Beam Search算法進(jìn)行擴(kuò)展,使用Diverse Beam Search(DBS)算法替代Beam Search算法,進(jìn)一步提高了釋義的多樣性。2022年,Yang等[43]認(rèn)為由于訓(xùn)練數(shù)據(jù)有限,難以覆蓋用戶的多樣性表達(dá),導(dǎo)致如今的小樣本學(xué)習(xí)方法在小樣本口語理解任務(wù)中效果較差。受到Word2Vec模型中單詞類比關(guān)系的啟發(fā),提出了一種多樣性特征增強(qiáng)的原型網(wǎng)絡(luò)(diversity features enhanced prototypical network, DFEPN)模型,通過對(duì)已知意圖樣本的多樣性特征進(jìn)行充分挖掘,并將其遷移到新的意圖樣本中,從而達(dá)到增強(qiáng)新的意圖樣本多樣性特征的效果。

2.4.2 歸納網(wǎng)絡(luò)

基于度量學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)往往致力于將新的查詢集樣本與支持集中的樣本進(jìn)行比較,2019年,Geng等[44]認(rèn)為同一類別的不同表述有很多種,這種比較會(huì)忽視從樣本表示到類別表示的建模。因此在Yang等[43]的啟發(fā)下,將小樣本學(xué)習(xí)方法和膠囊網(wǎng)絡(luò)進(jìn)行融合,提出了一種新穎的歸納網(wǎng)絡(luò)(induction networks,IN)。使用膠囊和動(dòng)態(tài)路由從基于樣本的廣義類級(jí)表示中捕獲信息,動(dòng)態(tài)路由方法使模型在小樣本文本分類任務(wù)中具有更好的泛化能力。模型采用了Encoder-Induction-Relation三級(jí)框架,架構(gòu)如圖7所示。其中Encoder 模塊使用基于自注意力機(jī)制的BiLSTM編碼輸入的詞向量矩陣,得到每個(gè)樣本的句子級(jí)別語義表示;支持集中每個(gè)樣本被編碼為樣本向量后,Induction模塊將其視為膠囊的輸入,經(jīng)過Dynamic Routing變換后,輸出膠囊歸納出支持集樣本的類別特征;Relation模塊用于度量查詢集和類別之間的語義關(guān)系,進(jìn)而完成分類。

圖7 歸納網(wǎng)絡(luò)架構(gòu)圖Figure 7 Induction networks architecture diagram

2020年,Geng等[45]在IN的基礎(chǔ)上進(jìn)行改進(jìn),提出動(dòng)態(tài)記憶歸納網(wǎng)絡(luò)(dynamic memory induction networks, DMIN),與文獻(xiàn)[44]區(qū)別在于編碼模塊采用BERT-base,并增加了預(yù)訓(xùn)練監(jiān)督學(xué)習(xí)階段。經(jīng)過動(dòng)態(tài)記憶模塊后,樣本向量得到更好的分離,動(dòng)態(tài)記憶模塊能夠有效利用監(jiān)督學(xué)習(xí)的經(jīng)驗(yàn)來編碼低級(jí)別樣本特征和高級(jí)別樣本特征之間的語義關(guān)系,從而實(shí)現(xiàn)小樣本文本分類。

在小樣本學(xué)習(xí)方法中,相似性度量模型除了原型網(wǎng)絡(luò)、歸納網(wǎng)絡(luò),還有孿生網(wǎng)絡(luò)、匹配網(wǎng)絡(luò)[46]和關(guān)系網(wǎng)絡(luò)[47]等,但針對(duì)后三者的研究主要集中在圖像領(lǐng)域。如表5所示,在小樣本口語理解任務(wù)中,將基于相似性度量的方法與深度學(xué)習(xí)方法相結(jié)合,是該領(lǐng)域今后的研究重點(diǎn)。

表5 基于度量學(xué)習(xí)的小樣本口語理解模型對(duì)比Table 5 Comparing few-shot spoken language understanding models with metric learning

3 挑戰(zhàn)與前沿

隨著對(duì)話式人工智能的持續(xù)發(fā)展,新的口語理解任務(wù)不斷出現(xiàn)。在實(shí)際的應(yīng)用場(chǎng)景中,用戶表達(dá)的語義具有多樣性,目前的預(yù)訓(xùn)練語言模型并不能真正解決深度學(xué)習(xí)模型魯棒性差、可解釋性弱、推理能力缺失等問題。

3.1 零樣本口語理解

零樣本口語理解的任務(wù)是使模型能夠在沒有接受樣本訓(xùn)練的情況下,對(duì)用戶輸入的內(nèi)容進(jìn)行識(shí)別和理解。目前針對(duì)零樣本口語理解任務(wù)可以從以下3個(gè)方面進(jìn)行研究:①借助外部資源,將現(xiàn)有意圖中的先驗(yàn)知識(shí)轉(zhuǎn)移到新意圖中,從而實(shí)現(xiàn)對(duì)新意圖的推斷預(yù)測(cè)。但該方法需要對(duì)每一種新意圖添加額外的輔助信息,代價(jià)十分昂貴;②基于相似性學(xué)習(xí)的方法度量新意圖標(biāo)簽和已知意圖樣本之間的相似性,但在不同的語境中,語義會(huì)發(fā)生動(dòng)態(tài)變化,從而產(chǎn)生語義漂移問題;③利用槽位填充任務(wù)指導(dǎo)意圖分類,兩個(gè)任務(wù)聯(lián)合建模有助于提高意圖分類的準(zhǔn)確率。但兩個(gè)任務(wù)產(chǎn)生的噪聲會(huì)在模型中傳播,如何有效控制噪聲、對(duì)有用知識(shí)進(jìn)行增強(qiáng),是未來的主要研究方向之一。

3.2 中文口語理解

目前,針對(duì)中文的口語理解研究遠(yuǎn)不如對(duì)英文的口語理解研究,其中一方面的原因是帶有標(biāo)注的中文意圖訓(xùn)練數(shù)據(jù)較少,對(duì)中文文本進(jìn)行標(biāo)注代價(jià)十分昂貴;另一方面是中文具有比英文更為復(fù)雜的結(jié)構(gòu),表達(dá)的語義更加豐富。

2021年,Sun等[48]提出ERNIE 3.0模型在各種NLP任務(wù)中表現(xiàn)出比已有的中文預(yù)訓(xùn)練語言模型更加出色的效果。ERNIE 3.0模型的參數(shù)量更少,在小樣本環(huán)境中可以快速進(jìn)行模型微調(diào)和訓(xùn)練,同時(shí)在情感分析、口語理解等任務(wù)上表現(xiàn)出強(qiáng)大的性能。但在中文意圖識(shí)別任務(wù)中,ERNIE模型的潛力還有進(jìn)一步挖掘的空間,是未來該領(lǐng)域的工作者進(jìn)一步研究的方向之一。

3.3 開放域口語理解

現(xiàn)階段的對(duì)話系統(tǒng)大多停留在封閉的知識(shí)領(lǐng)域內(nèi),在真實(shí)的應(yīng)用場(chǎng)景中,更多的是需要解決開放領(lǐng)域的問題。2022年,Zhang等[49]構(gòu)建了兩個(gè)用于開放域意圖分類的數(shù)據(jù)集CLINC-Single-Domain-OOS與BANKING77-OOS。作者在BERT模型上進(jìn)行驗(yàn)證后發(fā)現(xiàn),經(jīng)過預(yù)訓(xùn)練的Transformer模型在兩個(gè)數(shù)據(jù)集上的魯棒性很差,開放域場(chǎng)景下的小樣本口語理解還需要進(jìn)行細(xì)粒度更好的研究。

目前針對(duì)開放域意圖識(shí)別可以細(xì)分為兩個(gè)子任務(wù):①將開放域意圖與已知域內(nèi)意圖分離;②捕獲開放域意圖的細(xì)粒度類別。模型需要在確?!耙阎鈭D”準(zhǔn)確識(shí)別的前提下,捕獲沒有先驗(yàn)知識(shí)的“未知意圖”。未來的研究需要尋找合適的決策邊界,平衡對(duì)“已知意圖”和“未知意圖”的識(shí)別能力。

3.4 跨語言口語理解

目前大多數(shù)針對(duì)口語意圖識(shí)別的研究以英文為主。但對(duì)于不流行或者資源較少的語言來說,在口語理解任務(wù)中,同樣需要找到一種合適的解決方案?,F(xiàn)階段針對(duì)跨語言口語理解的研究主要有兩種方式。一種是選擇基準(zhǔn)英語數(shù)據(jù)集,將其翻譯成目標(biāo)語言。2020年,Bhathiya等[50]先在英語樣本中學(xué)習(xí)先驗(yàn)知識(shí),接著在西班牙語和泰語樣本上驗(yàn)證模型的適應(yīng)性。該方法存在的缺陷是機(jī)器翻譯時(shí)會(huì)出現(xiàn)數(shù)據(jù)扭曲問題,樣本質(zhì)量顯著降低而無法訓(xùn)練語言模型。另一種是利用遷移學(xué)習(xí)的方法。2021年,Sharma等[51]提出多語言教師-學(xué)生網(wǎng)絡(luò)(multi-lingual teacher-student network,MTSN),將從mBERT模型中學(xué)習(xí)到的先驗(yàn)知識(shí)遷移到目標(biāo)語言任務(wù)中。該方法減少了對(duì)目標(biāo)語言樣本量的需求,但會(huì)受到不同語種表達(dá)方式的差異而顯著影響模型的性能。

4 結(jié)束語

在口語理解領(lǐng)域中,基于大數(shù)據(jù)的預(yù)訓(xùn)練語言模型已經(jīng)在傳統(tǒng)的口語理解數(shù)據(jù)集上取得了接近飽和的效果。相比研究經(jīng)典數(shù)據(jù)集,在現(xiàn)實(shí)的應(yīng)用場(chǎng)景中,更多面對(duì)的是訓(xùn)練樣本受限的問題。近年來,隨著小樣本學(xué)習(xí)方法在圖像領(lǐng)域的深入研究,越來越多的NLP領(lǐng)域研究者開始關(guān)注該方法在口語理解任務(wù)中的應(yīng)用。本文重點(diǎn)闡述了小樣本場(chǎng)景下的模型微調(diào)、數(shù)據(jù)增強(qiáng)和度量學(xué)習(xí)3類方法,對(duì)不同模型的可解釋性、推理能力以及泛化能力等性能進(jìn)行對(duì)比。未來的研究重點(diǎn)是用戶在不同場(chǎng)景下語義多樣性的表達(dá),以進(jìn)一步提高模型在深層次語義上的理解能力。

猜你喜歡
意圖口語建模
原始意圖、對(duì)抗主義和非解釋主義
法律方法(2022年2期)2022-10-20 06:42:20
陸游詩寫意圖(國(guó)畫)
制定法解釋與立法意圖的反事實(shí)檢驗(yàn)
法律方法(2021年3期)2021-03-16 05:56:58
聯(lián)想等效,拓展建模——以“帶電小球在等效場(chǎng)中做圓周運(yùn)動(dòng)”為例
酒中的口語詩
文苑(2018年22期)2018-11-19 02:54:18
基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
電子制作(2018年17期)2018-09-28 01:56:44
不對(duì)稱半橋變換器的建模與仿真
提高口語Level 讓你語出驚人
口語對(duì)對(duì)碰
燕山秋意圖
嵊泗县| 若羌县| 临湘市| 黄平县| 博罗县| 舒城县| 文化| 肥西县| 分宜县| 军事| 河南省| 深水埗区| 潮州市| 荃湾区| 长丰县| 柘城县| 象州县| 长治县| 溧水县| 金华市| 和林格尔县| 宣汉县| 类乌齐县| 德令哈市| 长顺县| 莱芜市| 营口市| 惠水县| 陆河县| 镇江市| 张掖市| 台南市| 清新县| 新郑市| 镇巴县| 阳城县| 乐至县| 潞西市| 金平| 黎城县| 涞源县|