馬曉琴 郭小鶴 薛峪峰 楊琳 陳遠(yuǎn)哲
摘要:近年來,深度學(xué)習(xí)方法被廣泛地應(yīng)用于命名實(shí)體識(shí)別任務(wù)中,并取得了良好的效果.但是主流的命名 實(shí)體識(shí)別都是基于序列標(biāo)注的方法,這類方法依賴于足夠的高質(zhì)量標(biāo)注語料.然而序列數(shù)據(jù)的標(biāo)注成本高昂, 導(dǎo)致命名實(shí)體識(shí)別訓(xùn)練集規(guī)模往往較小,這嚴(yán)重地限制了命名實(shí)體識(shí)別模型的最終性能.為了在不增加人 工成本的前提下擴(kuò)大命名實(shí)體識(shí)別的訓(xùn)練集規(guī)模,本文分別提出了基于EDA(Easy Data Augmentation)、 基于遠(yuǎn)程監(jiān)督、基于Bootstrap(自展法)的命名實(shí)體識(shí)別數(shù)據(jù)增強(qiáng)技術(shù).通過在本文給出的FIND-2019數(shù) 據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,這幾種數(shù)據(jù)增強(qiáng)技術(shù)及其它們的組合能夠低成本地增加訓(xùn)練集的規(guī)模,從而顯著 地提升命名實(shí)體識(shí)別模型的性能.
關(guān)鍵詞:命名實(shí)體識(shí)別;數(shù)據(jù)增強(qiáng);EDA;遠(yuǎn)程監(jiān)督;Bootstrap
中圖分類號(hào):TP311?????? 文獻(xiàn)標(biāo)志碼:A DOI: 10.3969/j.issn.1000-5641.2021.05.002
Data augmentation technology for named entity recognition
MA Xiaoqin1, GUO Xiaohe1, XUE Yufeng1, YANG Lin2, CHEN Yuanzhe3
(1. Information and Communication Company, State Grid Qinghai Electric Power Company,
Xining 810008, China; 2. Shanghai Development Center of Computer Software Technology,
Shanghai 201112, China; 3. School of Data Science and Engineering, East China
Normal University, Shanghai 200062, China)
Abstract: A named entity recognition task is as a task that involves extracting instances of a named entity from continuous natural language text. Named entity recognition plays an important role in information extraction and is closely related to other information extraction tasks. In recent years, deep learning methods have been widely used in named entity recognition tasks; the methods, in fact, have achieved a good performance level. The most common named entity recognition models use sequence tagging, which relies on the availability of a high quality annotation corpus. However, the annotation cost of sequence data is high; this leads to the use of small training sets and, in turn, seriously limits the final performance of named entity recognition models. To enlarge the size of training sets for named entity recognition without increasing the associated labor cost, this paper proposes a data augmentation method for named entity recognition based on EDA, distant supervision, and bootstrap. Using experiments on the FIND-2019 dataset, this paper illustrates that the proposed data augmentation techniques and combinations thereof can significantly improve the overall performance of named entity recognition models.
收稿日期:2021-08-24
基金項(xiàng)目:國(guó)家自然科學(xué)基金(U1911203, U1811264, 61877018, 61672234, 6167238(4);中央高?;究蒲袠I(yè)務(wù)費(fèi) 專項(xiàng);上海市核心數(shù)學(xué)與實(shí)踐重點(diǎn)實(shí)驗(yàn)室資助項(xiàng)目(18dz2271000)
第一作者:馬曉琴,女,高級(jí)工程師,研究方向?yàn)橛秒娦畔⑾到y(tǒng)檢修維護(hù).E-mail: xqm8651?126.com 通信作者:楊琳,女,高級(jí)工程師,研究方向?yàn)镮T治理、數(shù)據(jù)治理及數(shù)據(jù)資產(chǎn)化.
E-mail: yangl@sscenter.sh.cn
Keywords: named entity recognition; data augmentation; EDA; distant supervision; Bootstrap
0引 言
命名實(shí)體識(shí)別(Named Entity Recognition, NER)旨在通過模型自動(dòng)地識(shí)別出一段自然文本中所 包含的實(shí)體,在金融科技領(lǐng)域有著廣泛的應(yīng)用.例如,識(shí)別出時(shí)事新聞中的人名、地名、機(jī)構(gòu)名,能夠 為后續(xù)的金融分析任務(wù)提供特征支持.由于實(shí)體表述十分繁雜多樣,往往無法窮舉所有可能的實(shí)體 (不存在一個(gè)詞典能夠把所有人名都涵蓋起來),所以命名實(shí)體識(shí)別是一個(gè)艱難的任務(wù).
近年來,得益于深度學(xué)習(xí)的發(fā)展與興起,命名實(shí)體識(shí)別任務(wù)在大量訓(xùn)練數(shù)據(jù)的支持下取得了良好 的性能.但是,命名實(shí)體識(shí)別任務(wù)的數(shù)據(jù)標(biāo)注成本很高,一句話需要標(biāo)注多個(gè)實(shí)體,且往往存在歧義和 嵌套的情況,導(dǎo)致標(biāo)注時(shí)需要詳細(xì)斟酌.所以,標(biāo)注一條NER數(shù)據(jù)的時(shí)間往往是文本分類等其他自然 語言處理任務(wù)的數(shù)倍.現(xiàn)在有許多詞嵌入方法能夠在大規(guī)模的無監(jiān)督文本上進(jìn)行預(yù)訓(xùn)練來提高小數(shù) 據(jù)量下模型的泛化性能,但是其含有的監(jiān)督信息極其有限,因此模型的性能遠(yuǎn)遠(yuǎn)沒有達(dá)到貝葉斯最優(yōu) 誤差.以隱藏單元數(shù)為100的Bi-LSTM + CRF模型為例,可以根據(jù)“10x規(guī)則”(https://medium.com/ @malay.haldar/how-much-training-data-do-you-need-da8ec091e956)做個(gè)簡(jiǎn)單的數(shù)據(jù)量估計(jì):網(wǎng)絡(luò)中 LSTM的參數(shù)個(gè)數(shù)約為2 x 4 x 1002 = 80000 (2個(gè)方向的LSTM,分別有4個(gè)門控單元,對(duì)應(yīng)8個(gè)權(quán) 重矩陣).因此,這個(gè)網(wǎng)絡(luò)的樣本數(shù)量至少要超過80000 x 10 = 800000才能夠接近飽和.然而在現(xiàn)實(shí) 業(yè)務(wù)場(chǎng)景中,命名實(shí)體識(shí)別任務(wù)的樣本規(guī)模一般都在幾千至幾萬的量級(jí)內(nèi),很難達(dá)到“10x規(guī)則”所要 求的飽和數(shù)據(jù)量.
為了解決數(shù)據(jù)匱乏的問題,統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域最常用手段是數(shù)據(jù)增強(qiáng)(Data Augmentation)技術(shù). 目前,數(shù)據(jù)增強(qiáng)技術(shù)在各個(gè)統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域里都有廣泛應(yīng)用.例如,在計(jì)算機(jī)視覺的相關(guān)任務(wù)中,常用的 數(shù)據(jù)增強(qiáng)技術(shù)包括對(duì)圖像進(jìn)行縮放、平移、旋轉(zhuǎn)、白化等操作,可以將一張圖片樣本擴(kuò)展成多張圖片 樣本.在語音處理相關(guān)任務(wù)中,常用的數(shù)據(jù)增強(qiáng)技術(shù)則有時(shí)域扭曲、時(shí)域遮罩、頻域遮罩等[1],將聲波 在頻域和時(shí)域上加入噪聲.在自然語言處理中,數(shù)據(jù)增強(qiáng)在文本分類任務(wù)中也有廣泛的應(yīng)用,最具代 表性的就是EDA方法[2],其將自然語言數(shù)據(jù)進(jìn)行隨機(jī)的替換、交換、插入、刪除.但是,目前沒有專門 針對(duì)命名實(shí)體識(shí)別這一任務(wù)而定制的數(shù)據(jù)增強(qiáng)技術(shù),現(xiàn)有的數(shù)據(jù)增強(qiáng)技術(shù)對(duì)于命名實(shí)體識(shí)別任務(wù)的 數(shù)據(jù)擴(kuò)展性有限.
本文針對(duì)基于序列標(biāo)注的NER任務(wù),分別提出了基于EDA、基于遠(yuǎn)程監(jiān)督、基于Bootstrap的數(shù) 據(jù)增強(qiáng)方法,來解決命名實(shí)體識(shí)別任務(wù)中的數(shù)據(jù)匱乏問題.第1章首先介紹命名實(shí)體識(shí)別任務(wù)的技術(shù) 背景;第2章詳細(xì)介紹提出的基于命名實(shí)體識(shí)別任務(wù)的數(shù)據(jù)增強(qiáng)方法的完整流程和技術(shù)細(xì)節(jié);第3章 通過實(shí)驗(yàn)來證明數(shù)據(jù)增強(qiáng)方法的有效性,并分析模型的優(yōu)化上界;最后,總結(jié)全文.
1相關(guān)工作
命名實(shí)體識(shí)別技術(shù)作為自然語言理解技術(shù)中的重要一環(huán),已經(jīng)經(jīng)歷了幾十年的長(zhǎng)足發(fā)展,且在各 行各業(yè)有著廣泛的落地場(chǎng)景.例如,金融新聞中的公司機(jī)構(gòu)識(shí)別,法律文書中的法律名、人名識(shí)別,醫(yī) 療文本中的疾病名、藥物名識(shí)別,等等.隨著數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)開始興起,數(shù)據(jù)增強(qiáng) 技術(shù)成為一項(xiàng)必不可少的前處理步驟,顯著提升了各個(gè)任務(wù)模型的泛化性能.
1.1命名實(shí)體識(shí)別
早期的命名實(shí)體識(shí)別大多是基于規(guī)則的方法,其中最具代表性的方法有基于詞匯規(guī)則的方法[3]、 基于短語規(guī)則的方法以及基于上下文模板的方法這類方法需要通過語言學(xué)家對(duì)命名實(shí)體規(guī)則進(jìn) 行總結(jié)歸納,在某些強(qiáng)規(guī)則相關(guān)的特定領(lǐng)域文本能夠取得還不錯(cuò)的性能.但是這類方法的缺點(diǎn)也顯而 易見:人工總結(jié)的規(guī)則往往泛化性能有限,無法涵蓋所有情況.因此,這類方法在大多通用領(lǐng)域文本下 的性能較差.
近年來,命名實(shí)體識(shí)別開始采用序列標(biāo)注的建模方式,即將句子序列輸人NER模型當(dāng)中,模型輸 出等長(zhǎng)的標(biāo)注序列,表示唯一^的一^組實(shí)體識(shí)別結(jié)果.常見的序列標(biāo)注法有“BIO”法和“BIOES”法.本 文中默認(rèn)使用“BIO”法,即“B”代表實(shí)體的開頭,“I”代表實(shí)體的內(nèi)部,“O”代表非實(shí)體部分,如圖1 所示.
基于序列標(biāo)注的建模方式,數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法開始被引人命名實(shí)體識(shí)別任務(wù)當(dāng)中,常見的 方法包括基于支持向量機(jī)的方法'基于隱馬爾可夫模型的方法' 以及基于條件隨機(jī)場(chǎng)的方法[8].這類 方法能夠從大量人工標(biāo)注的監(jiān)督數(shù)據(jù)中,根據(jù)指定的目標(biāo)函數(shù)來自動(dòng)學(xué)習(xí)文本到標(biāo)注的復(fù)雜映射關(guān) 系,從而避免了人工總結(jié)規(guī)則的過程,且效果顯著好于基于規(guī)則的方法.其中,基于條件隨機(jī)場(chǎng)的方法 能夠?qū)W習(xí)到標(biāo)簽之間的前后約束關(guān)系,例如“BIO”序列中“O”不能直接轉(zhuǎn)移到“I”.
隨著深度學(xué)習(xí)技術(shù)的興起,采用神經(jīng)網(wǎng)絡(luò)來提取文本特征的建模方式開始逐漸取代傳統(tǒng)的機(jī)器 學(xué)習(xí)方法,成為命名實(shí)體識(shí)別任務(wù)的新范式.常見的方法包括基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法[9]、基 于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的方法[10]以及基于變換器(Transformer)的方法[11-12].其中,卷積神經(jīng)網(wǎng)絡(luò)善 于學(xué)習(xí)文本的n-gram局部特征,循環(huán)神經(jīng)網(wǎng)絡(luò)善于學(xué)習(xí)文本時(shí)序特征,變換器善于學(xué)習(xí)文本的長(zhǎng)距 離依賴.當(dāng)前的主流方法也常常會(huì)將這幾類神經(jīng)網(wǎng)絡(luò)進(jìn)行組合,例如,基于CNN + LSTM的方法能夠 同時(shí)學(xué)習(xí)局部依賴和時(shí)序依賴[13],基于圖卷積網(wǎng)絡(luò)的方法能夠?qū)W習(xí)結(jié)構(gòu)化的語法特征[14],基于Lattice LSTM的方法能夠避免分詞誤差[15].
針對(duì)小數(shù)據(jù)量的命名實(shí)體識(shí)別場(chǎng)景,引人無監(jiān)督的詞嵌人表征也是一個(gè)常見的做法,旨在利用一 個(gè)大規(guī)模的無監(jiān)督語料庫(kù)來提前學(xué)習(xí)詞間的語義關(guān)系,并將其遷移到小數(shù)據(jù)量的監(jiān)督任務(wù)上來提高 性能.經(jīng)典的詞嵌人方法有Word2vec[16]、Glove[17]、Fasttext[18],這類方法主要通過統(tǒng)計(jì)詞的共現(xiàn)信息 來學(xué)習(xí)到詞之間的相似性先驗(yàn).近年來,基于預(yù)訓(xùn)練語言模型的動(dòng)態(tài)詞嵌人方法也開始被廣泛應(yīng)用, 其能夠解決詞語在不同上下文中一詞多義的問題,典型的技術(shù)有ELMo[19]、Flair[20]、BERT[21]、GPT- 2[22]、GPT-3[23]等.但是,這類技術(shù)受制于無監(jiān)督數(shù)據(jù)的儲(chǔ)備和計(jì)算資源的規(guī)模,普通的學(xué)術(shù)機(jī)構(gòu)或個(gè) 人往往無法負(fù)擔(dān)模型預(yù)訓(xùn)練的成本.
1.2數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)方法的主要目標(biāo)是,在不增加人工標(biāo)注成本的前提下,通過增加合理的噪聲來提升模型 的魯棒性.數(shù)據(jù)增強(qiáng)的過程也等價(jià)于增大了訓(xùn)練數(shù)據(jù)量,因此,在少數(shù)據(jù)量的場(chǎng)景下對(duì)模型性能的提 升有很大幫助.數(shù)據(jù)增強(qiáng)的方式依賴于輸人數(shù)據(jù)本身和目標(biāo)任務(wù)的特性,過度或者不合適的數(shù)據(jù)增強(qiáng) 反而會(huì)損傷模型的性能.例如,對(duì)于字符識(shí)別任務(wù),對(duì)字符圖片進(jìn)行輕微的隨機(jī)旋轉(zhuǎn)是合適的,但是如 果旋轉(zhuǎn)角度過大,則會(huì)產(chǎn)生許多錯(cuò)誤標(biāo)簽樣本(如字母“P”旋轉(zhuǎn)180度后會(huì)變成字母“d”),導(dǎo)致訓(xùn)練后 模型的性能下降.
在文本分類任務(wù)中,EDA[2]是一個(gè)常用的數(shù)據(jù)增強(qiáng)方法,其設(shè)計(jì)了一系列簡(jiǎn)單的操作來為自然語 言數(shù)據(jù)加入噪聲,從而提高模型的魯棒性.EDA方法中提出了 4種基本操作:①同義詞替換,即將文 本數(shù)據(jù)中的某些詞隨機(jī)替換為其同義詞;②隨機(jī)插入,即在文本數(shù)據(jù)中的隨機(jī)位置插入隨機(jī)的詞; ③隨機(jī)交換,即隨機(jī)挑選文本數(shù)據(jù)的詞對(duì)進(jìn)行位置交換;④隨機(jī)刪除,即隨機(jī)刪除文本數(shù)據(jù)中的詞. EDA方法在文本分類任務(wù)中取得了良好的性能,但是并不適用于命名實(shí)體識(shí)別任務(wù),因?yàn)殡S機(jī)插入、 隨機(jī)交換、隨機(jī)刪除都有可能破壞命名實(shí)體的合法性,使數(shù)據(jù)集出現(xiàn)謬誤.
此外,也有一些從其他領(lǐng)域遷移到自然語言處理領(lǐng)域的數(shù)據(jù)增強(qiáng)方法,最具代表性的有:從計(jì)算 機(jī)視覺領(lǐng)域引入的文字混合(Mixup for Text)方法[24],從生物信息學(xué)引入的實(shí)例交叉擴(kuò)展方法[25].這 類方法均利用了跨領(lǐng)域任務(wù)之間的共性,并根據(jù)目標(biāo)任務(wù)的特點(diǎn)對(duì)方法進(jìn)行了適配性修改.
近年來,一些針對(duì)命名實(shí)體識(shí)別這一特定任務(wù)的數(shù)據(jù)增強(qiáng)技術(shù)也開始被提出.例如,Dai等[26]引 入了一些詞替換的隨機(jī)操作來增加訓(xùn)練語料多樣性;Chen等[27]在半監(jiān)督NER任務(wù)中引入了基于局 部可加性的數(shù)據(jù)增強(qiáng);Keraghel等[28]針對(duì)單一領(lǐng)域提出了針對(duì)性的數(shù)據(jù)增強(qiáng)方法.目前,這類方法存 在以下缺陷:①引入噪聲過大,主要由于一些隨機(jī)替換規(guī)則的不合理性,以及存在誤差率;②一般只適 用于單一特殊場(chǎng)景,如Keraghel等[28]的方法只適用于汽車工業(yè)領(lǐng)域,不具有較強(qiáng)的通用性.
2命名實(shí)體識(shí)別數(shù)據(jù)增強(qiáng)技術(shù)
本章將系統(tǒng)性地提出針對(duì)命名實(shí)體識(shí)別的數(shù)據(jù)增強(qiáng)技術(shù),主要包括基于EDA、基于遠(yuǎn)程監(jiān)督、基 于Bootstrap的數(shù)據(jù)增強(qiáng)的方法.其中,基于EDA的方法主要關(guān)注如何動(dòng)態(tài)地為數(shù)據(jù)加入合理的噪聲; 基于遠(yuǎn)程監(jiān)督的方法主要關(guān)注如何根據(jù)實(shí)體庫(kù)與無監(jiān)督文本來自動(dòng)生成監(jiān)督樣本;而基于Bootstrap 的方法則重點(diǎn)關(guān)注模型如何通過迭代回標(biāo)數(shù)據(jù)來實(shí)現(xiàn)自我更新.
2.1基于改進(jìn)EDA的NER數(shù)據(jù)增強(qiáng)
為了適應(yīng)NER任務(wù),將EDA方法進(jìn)行了改進(jìn),將原有的4種操作進(jìn)行了以下修改,防止原始的 EDA操作破壞NER數(shù)據(jù)的合法性:
(1)同義詞替換,將標(biāo)注數(shù)據(jù)中的某些詞隨機(jī)替換為其同義詞(該操作無變化);
(2)隨機(jī)插入,向標(biāo)注數(shù)據(jù)中的某個(gè)非實(shí)體部分中隨機(jī)插入詞語;
(3)隨機(jī)交換,將標(biāo)注數(shù)據(jù)中非實(shí)體部分的隨機(jī)兩個(gè)詞進(jìn)行交換;
(4)隨機(jī)刪除,將標(biāo)注數(shù)據(jù)中非實(shí)體部分的隨機(jī)詞刪除.
在原始的EDA的4個(gè)操作的基礎(chǔ)上,為NER任務(wù)以及中文文本定制了 6種額外的數(shù)據(jù)增強(qiáng)操作.
(1)實(shí)體替換:隨機(jī)將標(biāo)注數(shù)據(jù)中的若干命名實(shí)體替換為其他同類型的命名實(shí)體,旨在豐富命名 實(shí)體表述的多樣性.
(2)實(shí)體遮罩:隨機(jī)將標(biāo)注數(shù)據(jù)中的某些命名實(shí)體的每個(gè)詞嵌入替換為隨機(jī)向量,旨在強(qiáng)化對(duì)命 名實(shí)體上下文的模板槽的學(xué)習(xí).
(3)詞切分:隨機(jī)將標(biāo)注數(shù)據(jù)中的詞語進(jìn)行細(xì)粒度切分,旨在強(qiáng)化對(duì)不同分詞結(jié)果的魯棒性.
(4)詞拼接:隨機(jī)將標(biāo)注數(shù)據(jù)中相鄰的兩個(gè)詞組合成一個(gè)詞,其中需要防止實(shí)體部分和非實(shí)體部 分的詞發(fā)生組合,旨在強(qiáng)化對(duì)不同分詞結(jié)果的魯棒性.
(5)句換位:以句號(hào)等分隔符為分句依據(jù),隨機(jī)交換同一個(gè)樣本中或兩個(gè)樣本之間的兩個(gè)句子,旨 在豐富樣本的長(zhǎng)距離上下文內(nèi)容.
(6)短句生成:隨機(jī)取某個(gè)樣本中包含至少一個(gè)命名實(shí)體的短句子生成新樣本,旨在提高缺乏上 下文信息的短文本NER的性能.
基于EDA的NER數(shù)據(jù)增強(qiáng)方法主要通過向數(shù)據(jù)中添加合理的噪聲,來模擬模型未來可能遇到 的復(fù)雜多樣的樣本.因此,相比于可能破壞語句通順性的傳統(tǒng)EDA方法,提出的改進(jìn)EDA方法能夠 在基本不損失數(shù)據(jù)標(biāo)注正確率的前提下,顯著提升文本語義空間的覆蓋度,從而提升NER模型的泛 化性能.
2.2基于遠(yuǎn)程監(jiān)督的NER數(shù)據(jù)增強(qiáng)
雖然EDA方法能夠顯著地增強(qiáng)NER模型的魯棒性,但是其語義空間有限:僅是對(duì)原始樣本集加 入少量噪聲,大部分樣本的語義空間和句式并沒有得到擴(kuò)展,即標(biāo)注樣本在全樣本空間中的覆蓋率較 低且基本保持不變.因此,提出了基于遠(yuǎn)程監(jiān)督的NER數(shù)據(jù)增強(qiáng)方法,從另一個(gè)角度對(duì)數(shù)據(jù)集進(jìn)行擴(kuò) 增,通過引入大量的無監(jiān)督樣本,然后使用腳本對(duì)其進(jìn)行自動(dòng)NER標(biāo)注.這樣大量的無監(jiān)督樣本就轉(zhuǎn) 化為了大量的監(jiān)督樣本,從而大大增加了模型的訓(xùn)練量.遠(yuǎn)程監(jiān)督的具體流程見算法1.
算法1基于遠(yuǎn)程監(jiān)督的NER數(shù)據(jù)增強(qiáng)算法
輸人:種子數(shù)據(jù)集X;外部實(shí)體庫(kù)戽無監(jiān)督語料庫(kù)r 輸出:遠(yuǎn)程監(jiān)督數(shù)據(jù)集X'
1:若X非空,提取X中所有實(shí)體得到額外實(shí)體集合盡 2: E = EU Ex
3:將E中所有實(shí)體作為模板集合,構(gòu)建AC自動(dòng)機(jī)Ma。
4:使用Mac在r中進(jìn)行實(shí)體匹配,找出所有完全匹配的實(shí)體區(qū)間列表S= {〈L1,R1〉,〈L2,R2〉,…},其中Li,和Ri尾分別表示T中第i個(gè)匹配成功的起始位置和終止位置
5:對(duì)S中的每個(gè)區(qū)間在r的相應(yīng)位置標(biāo)注“BI”標(biāo)簽,其余部分標(biāo)注“O”標(biāo)簽,得到遠(yuǎn)程監(jiān)督數(shù)據(jù)集X
6: Return X
該過程中涉及了 AC自動(dòng)機(jī)(Aho-Corasick Automaton),能夠快速地對(duì)文本進(jìn)行多模板匹配,效 率要遠(yuǎn)高于暴力匹配與多次KMP匹配.基于遠(yuǎn)程監(jiān)督的數(shù)據(jù)增強(qiáng)方法實(shí)現(xiàn)簡(jiǎn)單,并且支持NER任務(wù) 的冷啟動(dòng):即使在沒有任何監(jiān)督樣本的情況下也能夠構(gòu)造出新的監(jiān)督數(shù)據(jù).
2.3 基于Bootstrap的NER數(shù)據(jù)增強(qiáng)
在實(shí)際應(yīng)用場(chǎng)景中,遠(yuǎn)程監(jiān)督方法也存在著一個(gè)重要的缺陷:基于遠(yuǎn)程監(jiān)督數(shù)據(jù)集訓(xùn)練出的 NER模型的召回率普遍偏低.原因一方面在于,開放域中可能出現(xiàn)的命名實(shí)體數(shù)量巨大,如人名顯然 是窮舉不完的,相比之下,擁有的實(shí)體庫(kù)規(guī)模非常有限;另一方面在于,同一個(gè)實(shí)體的表述方法也復(fù)雜 多變,經(jīng)常存在別名、簡(jiǎn)稱、全稱的不同表述方式.因此,遠(yuǎn)程監(jiān)督方法很難將無監(jiān)督文本中的實(shí)體標(biāo) 注完整,會(huì)遺漏很多實(shí)體庫(kù)之外的實(shí)體表述.
針對(duì)遠(yuǎn)程監(jiān)督方法存在的問題,提出了基于Bootstrap的NER數(shù)據(jù)增強(qiáng)算法.相較于遠(yuǎn)程監(jiān)督直 接做字符串完全匹配,Bootstrap方法先使用種子數(shù)據(jù)集對(duì)模型進(jìn)行初步訓(xùn)練,然后通過模型自身的 迭代回測(cè),不斷地?cái)U(kuò)大數(shù)據(jù)集規(guī)模,從而實(shí)現(xiàn)模型的自我更新.Bootstrap的具體過程見算法2.
相較于遠(yuǎn)程監(jiān)督方法,Bootstrap方法具有更高的召回率,能夠更好地識(shí)別出自然語言場(chǎng)景下各 種復(fù)雜的實(shí)體表述.需要注意的是,Bootstrap迭代次數(shù)要控制在一定范圍內(nèi),否則可能發(fā)生“語義漂 移”,即種子模型的預(yù)測(cè)結(jié)果會(huì)有一定的錯(cuò)誤率,當(dāng)使用錯(cuò)誤樣本進(jìn)行迭代訓(xùn)練時(shí),將導(dǎo)致模型的錯(cuò)誤 隨著迭代次數(shù)的增加而逐漸放大.因此,在真實(shí)的業(yè)務(wù)場(chǎng)景下,Bootstrap方法必須要保證種子數(shù)據(jù)集 的質(zhì)量,并且需要對(duì)精度變化曲線進(jìn)行監(jiān)控,當(dāng)精度提升逐漸放緩后即可停止迭代,從而避免語義漂 移的發(fā)生.
算法2基于Bootstrap的NER數(shù)據(jù)增強(qiáng)算法
輸入:種子數(shù)據(jù)集X;驗(yàn)證集無監(jiān)督語料結(jié)束閾值s 輸出:Bootstrap數(shù)據(jù)集X
1:使用X訓(xùn)練NER模型,并在上計(jì)算模型初始得分s 2:將C順序打亂,均分為C1, C2,…,Q 3: For i=1 一n do
4:????? 使用M預(yù)測(cè)語料Ci,得到帶標(biāo)注語料;
5:????? X7 = X U X,
6:????? 使用X'訓(xùn)練NER模型,并在XW1計(jì)算模型得分^
7:????? If s' - 5 < ? then
8:????? Break
9:????? Else
10:?? X= X, s = S
11:?? End if
12: End for 13: Return X
3實(shí)驗(yàn)效果與分析
本節(jié)主要對(duì)提出的3種NER數(shù)據(jù)增強(qiáng)技術(shù)的性能進(jìn)行評(píng)測(cè)和對(duì)比.通過一系列謹(jǐn)慎評(píng)估,嘗試 回答以下研究問題.
研究問題1: EDA數(shù)據(jù)增強(qiáng)方法對(duì)NER的性能有多大提升?
研究問題2:遠(yuǎn)程監(jiān)督數(shù)據(jù)增強(qiáng)方法對(duì)NER的性能有多大提升?
研究問題3: Bootstrap數(shù)據(jù)增強(qiáng)方法對(duì)NER的性能有多大提升?
研究問題4:上述3類數(shù)據(jù)增強(qiáng)方法是否能夠組合共用?對(duì)NER的性能有多大提升?
在接下來的部分,首先在實(shí)驗(yàn)設(shè)置部分介紹數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置,然后依次回答上述的研究問題.
3.1數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置
為了方便比較,3種方法均在FIND-2019數(shù)據(jù)集上進(jìn)行測(cè)試.FIND-2019數(shù)據(jù)集的文本來源為 2016—2018年的上市公司新聞,訓(xùn)練集有7235條句子,測(cè)試集有2534條句子,其中的實(shí)體類型只有 機(jī)構(gòu)(ORG),主要包括各個(gè)行業(yè)領(lǐng)域的上市公司與非上市公司.模型的性能評(píng)價(jià)指標(biāo)采用F1指標(biāo),即 準(zhǔn)確率和召回率的調(diào)和平均數(shù).
選用ID-CNNs-CRF[9]作為實(shí)驗(yàn)的基準(zhǔn)模型,模型詳細(xì)結(jié)構(gòu)如圖2所示.
其中,嵌入層采用了 Fasttext[18],并在爬取的約100萬句金融語料上進(jìn)行預(yù)訓(xùn)練.使用AdamW算 法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化[29], batchsize設(shè)置為32,學(xué)習(xí)率為1e-4.此外,在嵌入層和空洞卷積層的輸出端 加入了 Dropout, dropout rate為0.25;模型整體加入了 L2正則化,正則化系數(shù)為1e-5.從訓(xùn)練集中額 外分離了 10%的數(shù)據(jù)作為驗(yàn)證集,每組結(jié)果均采用訓(xùn)練過程中驗(yàn)證集的metric(巧)最高的checkpoints 作為最終模型結(jié)果參與測(cè)試集上的實(shí)驗(yàn).
3.2 EDA數(shù)據(jù)增強(qiáng)性能測(cè)試
對(duì)傳統(tǒng)EDA方法與改進(jìn)的EDA方法在基準(zhǔn)模型上的巧指標(biāo)進(jìn)行比較.統(tǒng)一控制各種操作中的隨機(jī)比例,例如,對(duì)于同義詞替換操作,隨機(jī)比例為10%,即代表挑選語料中10%的詞語做同義詞替 換.此外,改進(jìn)的EDA操作是在線進(jìn)行的,即在NER模型訓(xùn)練過程中的每個(gè)batch都會(huì)在線進(jìn)行 EDA的隨機(jī)操作,確保同一個(gè)樣本在每個(gè)epoch被增強(qiáng)后都不相同.EDA性能在FIND-2019數(shù)據(jù)集 上的評(píng)估結(jié)果如表1所示,表格第一行的百分比代表隨機(jī)比例,提出的改進(jìn)EDA分別包含了簡(jiǎn)化版 (包含改良EDA的前4種操作)與完整版(包含改良EDA完整的10種操作).由于EDA方法的性能 提升有限,因此,為了增加實(shí)驗(yàn)結(jié)果的可信度,從0%至50%的數(shù)據(jù)增強(qiáng)過程將重復(fù)5次,表1中的數(shù) 據(jù)均為5次實(shí)驗(yàn)的均值.
從表1中可以看出,原始EDA在NER任務(wù)中不但很難提升性能,甚至?xí)?dǎo)致模型性能的大幅下 降.其主要原因在于,原始EDA操作存在與NER任務(wù)規(guī)則相悖的地方,這會(huì)在增廣的數(shù)據(jù)中引人較 大誤差,從而使模型性能發(fā)生偏移.而改進(jìn)的EDA方法則能夠顯著提升NER的性能,其中完整版的 改進(jìn)EDA算法的性能要優(yōu)于簡(jiǎn)化版,因?yàn)槠鋵?duì)數(shù)據(jù)進(jìn)行了更精細(xì)的增廣,使得新生成的數(shù)據(jù)更貼近 現(xiàn)實(shí)分布,從而提升模型的泛化性能.此外,在使用EDA方法時(shí)需要控制隨機(jī)比例,不宜將隨機(jī)比例 設(shè)置得過高,否則會(huì)導(dǎo)致被增強(qiáng)后的數(shù)據(jù)變化過大,從而導(dǎo)致訓(xùn)練集與測(cè)試集的語義分布發(fā)生顯著差 異,進(jìn)而影響模型在測(cè)試集上的性能.
3.3遠(yuǎn)程監(jiān)督數(shù)據(jù)增強(qiáng)性能測(cè)試
對(duì)遠(yuǎn)程監(jiān)督方法的數(shù)據(jù)增強(qiáng)性能進(jìn)行對(duì)比測(cè)試.無監(jiān)督語料同樣來自上市公司新聞,實(shí)體列表的 來源主要有FIND-2019訓(xùn)練集中出現(xiàn)的所有實(shí)體表述,以及從互聯(lián)網(wǎng)上得到的公司名錄、機(jī)構(gòu)名錄, 并將它們的簡(jiǎn)稱、別名、全稱一并加人實(shí)體列表.基于得到的實(shí)體列表,分別測(cè)試了遠(yuǎn)程監(jiān)督方法在 冷啟動(dòng)場(chǎng)景(訓(xùn)練集只有遠(yuǎn)程監(jiān)督數(shù)據(jù))和數(shù)據(jù)增強(qiáng)場(chǎng)景(訓(xùn)練集包含原始訓(xùn)練集+遠(yuǎn)程監(jiān)督數(shù) 據(jù))下的巧指標(biāo),如表2所示.表2第一行的數(shù)據(jù)代表訓(xùn)練集中加人了多少遠(yuǎn)程監(jiān)督的數(shù)據(jù),每 100%代表額外加人了 7235條數(shù)據(jù),即FIND-2019訓(xùn)練集的原始大小.同樣地,表2中的數(shù)據(jù)為5次 重復(fù)實(shí)驗(yàn)的均值.
由表2可以看出,遠(yuǎn)程監(jiān)督構(gòu)造的數(shù)據(jù)集在一定程度上能夠模擬真實(shí)場(chǎng)景下的數(shù)據(jù),但是其標(biāo)注 的質(zhì)量還是與人工標(biāo)注有所差距.在冷啟動(dòng)場(chǎng)景下使用了 500%的遠(yuǎn)程監(jiān)督數(shù)據(jù)集訓(xùn)練的模型,其 巧仍然比僅用人工標(biāo)注的數(shù)據(jù)集訓(xùn)練的模型要低約12%.在普通的數(shù)據(jù)增強(qiáng)場(chǎng)景下,加入100%的遠(yuǎn) 程監(jiān)督數(shù)據(jù)集能夠在一定程度上提高模型的泛化性能,但是當(dāng)遠(yuǎn)程監(jiān)督數(shù)據(jù)集的比例過大時(shí),其低質(zhì) 量的標(biāo)注會(huì)將人工標(biāo)注的數(shù)據(jù)的比例降低,從而對(duì)模型的性能提升起到反作用.造成上述現(xiàn)象的原因 在于,遠(yuǎn)程監(jiān)督方法所依賴的實(shí)體模板匹配方法本身存在較大誤差,且誤差往往大于人工標(biāo)注.因此, 在數(shù)據(jù)增強(qiáng)場(chǎng)景中,少量的遠(yuǎn)程監(jiān)督數(shù)據(jù)作為噪聲能一定程度提升模型性能,但是一旦這部分?jǐn)?shù)據(jù)占 比過高,會(huì)使模型去擬合一個(gè)錯(cuò)誤的分布,從而弱化模型在真實(shí)分布上的效果.
3.4 Bootstrap數(shù)據(jù)增強(qiáng)性能測(cè)試
本小節(jié)對(duì)Bootstrap的數(shù)據(jù)增強(qiáng)性能進(jìn)行測(cè)試.無監(jiān)督語料同樣來自上市公司新聞,種子數(shù)據(jù)集 即為FIND-2019的訓(xùn)練集.圖3展示了 NER模型的巧隨著Bootstrap不斷迭代的變化曲線,其中每 次迭代往數(shù)據(jù)集中添加3600條Bootstrap標(biāo)注數(shù)據(jù),大約為FIND-2019訓(xùn)練集的一半大小.
由圖3可知,隨著Bootstrap不斷迭代,NER模型的巧呈現(xiàn)先增后減的趨勢(shì),與遠(yuǎn)程監(jiān)督方法的 變化趨勢(shì)類似.但是Bootstrap方法的巧峰值要顯著高于遠(yuǎn)程監(jiān)督方法,達(dá)到了約56.5%. Bootstrap 大約迭代4次,即大約增加了兩倍的訓(xùn)練集規(guī)模后,模型的巧達(dá)到峰值,隨后模型開始發(fā)生語義漂移, 性能開始急劇下降.
因此,Bootstrap方法存在性能上界的主要原因在于:①Bootstrap方法標(biāo)注了新的文本數(shù)據(jù),從 而增加了訓(xùn)練集輸入端的文本分布的多樣性,且文本多樣性隨著迭代次數(shù)增加而增加,由于文本空間 會(huì)逐漸飽和,因此文本多樣性的提升速度是遞減的;②Bootstrap方法引入了少量錯(cuò)誤的標(biāo)注數(shù)據(jù),這 些錯(cuò)誤的標(biāo)注數(shù)據(jù)會(huì)影響后續(xù)模型效果,從而使得剩下的迭代中引入更多的錯(cuò)誤標(biāo)注,即標(biāo)注錯(cuò)誤隨 著迭代次數(shù)增加而增加,且錯(cuò)誤的增加速度也是遞增的;③文本多樣性的遞增和標(biāo)簽錯(cuò)誤的遞增呈現(xiàn) 動(dòng)態(tài)平衡,即在達(dá)到性能上界前,文本多樣性的提升速度高于標(biāo)簽錯(cuò)誤的提升速度,模型性能總體呈 現(xiàn)提升的趨勢(shì);而在達(dá)到性能上界之后,文本多樣性的提升速度開始低于標(biāo)簽錯(cuò)誤的提升速度,模型 性能就開始呈現(xiàn)衰減的趨勢(shì).
3.5數(shù)據(jù)增強(qiáng)方法組合與性能對(duì)比
事實(shí)上,提出的3種數(shù)據(jù)增強(qiáng)方法之間從邏輯上是可以兼容的.本節(jié)將通過實(shí)驗(yàn)來對(duì)3種數(shù)據(jù)增 強(qiáng)方法以及它們的組合之間進(jìn)行性能對(duì)比.通過以下方式對(duì)數(shù)據(jù)增強(qiáng)方法進(jìn)行兩兩組合或三者組合 (EDA均采用完整改進(jìn)版本).
(1)EDA +遠(yuǎn)程監(jiān)督:首先使用遠(yuǎn)程監(jiān)督方法生成規(guī)模更大的訓(xùn)練語料,然后在新的語料上進(jìn)行 EDA處理.
(2)EDA + Bootstrap:首先使用Bootstrap方法生成規(guī)模更大的訓(xùn)練語料,然后在新的語料上進(jìn) 行EDA處理.
(3)遠(yuǎn)程監(jiān)督+ Bootstrap:使用遠(yuǎn)程監(jiān)督和Bootstrap生成各自的數(shù)據(jù)增強(qiáng)語料,同時(shí)將其加入 原始語料中得到規(guī)模更大的訓(xùn)練語料.
(4) EDA +遠(yuǎn)程監(jiān)督+ Bootstrap:首先使用遠(yuǎn)程監(jiān)督和Bootstrap生成各自的數(shù)據(jù)增強(qiáng)語料,同 時(shí)將其加入原始語料中得到規(guī)模更大的訓(xùn)練語料,然后在新的語料上進(jìn)行EDA處理.
將數(shù)據(jù)增強(qiáng)方法進(jìn)行組合后,將EDA的隨機(jī)比例、遠(yuǎn)程監(jiān)督的添加數(shù)據(jù)量、Bootstrap的迭代次 數(shù)都看作超參數(shù),通過網(wǎng)格搜索枚舉所有可能的超參數(shù)組合,對(duì)每個(gè)超參數(shù)組合重復(fù)5次實(shí)驗(yàn)求其平 均的巧指標(biāo),得到平均朽指標(biāo)最高的超參數(shù)組合.表3展示了 3種數(shù)據(jù)增強(qiáng)方法的各種組合方式的 最優(yōu)性能對(duì)比,其中bestEDA、bestDIS、bestBS*別表示EDA、遠(yuǎn)程監(jiān)督、Bootstrap在各種組合方式下 的最優(yōu)超參數(shù)取值,評(píng)價(jià)指標(biāo)依舊選用巧指標(biāo).
從表3中可以得到以下結(jié)論:①僅看單個(gè)數(shù)據(jù)增強(qiáng)方法對(duì)巧的提升,Bootstrap方法> EDA方 法 > 遠(yuǎn)程監(jiān)督方法;②考慮數(shù)據(jù)增強(qiáng)方法的組合個(gè)數(shù)對(duì)巧的提升,3個(gè)方法組合 > 兩個(gè)方法組合> 單個(gè)方法;③隨著數(shù)據(jù)增強(qiáng)方法的組合個(gè)數(shù)的增加,各方法的最優(yōu)超參數(shù)值呈現(xiàn)降低趨勢(shì),這是因?yàn)?數(shù)據(jù)中的隨機(jī)噪聲也隨著多個(gè)方法的組合而疊加,從而使得語義漂移在超參數(shù)值較低時(shí)就提前出現(xiàn).
4 結(jié)論
本文主要介紹了針對(duì)序列標(biāo)注NER模型的數(shù)據(jù)增強(qiáng)技術(shù),分別介紹了基于EDA的數(shù)據(jù)增強(qiáng)技 術(shù)、基于遠(yuǎn)程監(jiān)督的數(shù)據(jù)增強(qiáng)技術(shù)、基于Bootstrap的數(shù)據(jù)增強(qiáng)技術(shù)的算法流程,并分析這些方法的 優(yōu)缺點(diǎn).最后通過在FIND-2019數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別證明了 3種方法以及方法組合的有效性,并且 對(duì)其中的重要參數(shù)進(jìn)行了敏感性分析,對(duì)實(shí)際運(yùn)用這些數(shù)據(jù)增強(qiáng)方法起到了指導(dǎo)性作用.
[參考文獻(xiàn)]
[1]PARK D S, CHAN W, ZHANG Y, et al. Specaugment: A simple data augmentationmethod for automatic speech recognition [EB/OL]. (2019-12-03)[2021-08-24]. https://arxiv.org/abs/1904.08779. [ 1 ]
[2]WEI J W, ZOU K. Eda: Easy data augmentation techniques for boosting perfor-mance on text classification tasks [EB/OL]. (2019-08-25)[2021-08-24]. https://arxiv.org/pdf/1901.11196.pdf. ?[3]WEISCHEDEL R. BEN: Description of the PLUM system as used for MUC-6 [C]// Proceedings of the 6th Conference on Message Understanding. 1995: 55-69.
[4]ABERDEEN J, BURGER J, CONNOLLY D, et al. MITRE-Bedford: Description of the ALEMBIC system as used for MUC-4 [C]//Proceedings of the 4th Conference on Message Understanding. 1992: 215-222.
[5]HOBBS J R, BEAR J, ISRAEL D, et al. SRI international fastus system MUC-6 test results and analysis [C]// Proceedings of the 6thConference on Message Understanding. 1995.
[6]MAYFIELD J, MCNAMEE P, PIATKO C. Named entity recognition using hundreds of thousands of features [C]// Proceedings of the Seventh Conference on Natural Language Learning. 2003: 184-187.
[7]RABINERLR, JUANGB-H. An introduction to hidden Markov models [J]. IEEE Assp Magazine, 1986, 3(1): 4-16.
[8]LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: Probabilis-tic models for segmenting and labeling sequence data [C]// Proceedings of the Eighteenth International Conference on Machine Learning. 2001: 282-289.
[9]STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognitionwith iterated dilated convolutions [EB/OL]. (2017-07-22)[2021-08-24]. https://arxiv.org/pdf/1702.02098.pdf.
[10]HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging [EB/OL]. (2015-08-09)[2021-08-24]. https://arxiv.org/pdf/1508.01991.pdf.
[11]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 6000-6010.
[12]YAN H, DENG B, LI X, et al. TENER: Adapting transformer encoder for named entity recognition [EB/OL]. (2019-12-10)[2021-08-24]. https://arxiv.org/abs/1911.04474v2.
[13]CHIU J P, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs [J]. Transactions of the Association for Computational Linguistics, 2016(4): 357-370.
[14]CETOLI A, BRAGAGLIA S, OHARNEY A D, et al. Graph convolutional networks for named entity recognition [EB/OL]. (2018-02-14)[2021-08-24]. https://arxiv.org/pdf/1709.10053.pdf.
[15]ZHANG Y, YANG J. Chinese NER using lattice LSTM [EB/OL]. (2018-07-05)[2021-08-24]. https://arxiv.org/pdf/1805.02023.pdf.
[16]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]//Preceedings of ACL. 2013: 3111-3119.
[17]PENNINGTON J, SOCHER R, MANNING C. Glove: Global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 1532-1543.
[18]BOJANOWSKI P, GRAVE E, JOULIN A, et al. Enriching word vectors with sub- word information [J]. Transactions of the Association for Computational Linguistics, 2017(5): 135-146.
[19]PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations [EB/OL].(2018-03-22)[2021-09-01].https://www.researchgate.net/publication/323217640_Deep_contextualized_word_representations.
[20]AKBIK A, BLYTHE D, VOLLGRAF R. Contextual string embeddings for sequence labeling [C]// Proceedings of the 27thInternational Conference on Computational Linguistics. 2018: 1638-1649.
[21]DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding [EB/OL].(2019-05-24)[2021-08-24]. https://arxiv.org/pdf/1810.04805.pdf.
[22]RADFORD A. Language models are unsupervised multitask learners [EB/OL]. (2019-02-19)[2021-09-01]. https://d4mucfpksywv. cloudfront.net/better-language-models/language-models.pdf.
[23]BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners [EB/OL]. (2020-07-22)[2021-08-24]. https://arxiv.org/abs/2005.14165v2.
[24]GUO H, MAO Y, ZHANG R. Augmenting data with mixup for sentence classification: An empirical study [EB/OL]. (2019-05-22)[2021-08-24]. https://arxiv.org/abs/1905.08941.
[25]LUQUE F M. Atalaya at TASS 2019: Data augmentation and robust embeddings for sentiment analysis [EB/OL]. (2019-09-25)[2021-08-24]. https://arxiv.org/abs/1909.11241.
[26]DAI X, ADEL H. An analysis of simple data augmentation for named entity recognition [EB/OL]. (2020-10-22)[2021-08-24].https://arxiv.org/abs/2010.11683.
[27]CHEN J, WANG Z, TIAN R, et al. Local additivity based data augmentation for semi-supervised NER [EB/OL]. (2020-10-04)[2021-08-24]. https://arxiv.org/abs/2010.01677.
[28]KERAGHEL A, BENABDESLEM K, CANITIA B. Data augmentation process to improve deep learning-based NER task in the automotive industry field [C]//2020 International Joint Conference on Neural Networks (IJCNN). 2020: 1-8.
[29]LOSHCHILOV I, HUTTER F. Fixing weight decay regularization in adam [EB/OL]. (2019-01-04)[2021-08-24]. https://arxiv.org/abs/
1711.05101v1.(責(zé)任編輯:張晶)