国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于 MacBERT 和對抗訓(xùn)練的城市內(nèi)澇信息識別方法

2023-02-04 08:15方美麗鄭瑩瑩陶坤旺趙習(xí)枝仇阿根
集成技術(shù) 2023年1期
關(guān)鍵詞:掩碼內(nèi)澇實(shí)體

方美麗 鄭瑩瑩 陶坤旺 趙習(xí)枝 仇阿根 陸 文

1(江蘇海洋大學(xué)海洋技術(shù)與測繪學(xué)院 連云港 222005)

2(中國科學(xué)院軟件所 北京 100190)

3(中國測繪科學(xué)研究院 北京 100830)

1 引 言

目前,全球氣候變暖,極端天氣突發(fā),由于強(qiáng)降水或連續(xù)性降水造成的城市內(nèi)澇災(zāi)害,對人們的出行、交通造成了影響,嚴(yán)重時甚至?xí)斐韶?cái)產(chǎn)損失、危害人身安全。據(jù)有關(guān)資料統(tǒng)計(jì),在我國 500 多個城市中,約有 62% 的地區(qū)經(jīng)歷過內(nèi)澇,其中,出現(xiàn)內(nèi)澇災(zāi)情 3 次以上的城市為137 個,積水連續(xù)時間>12 h 的城市為 57 個[1]。由此可見,城市內(nèi)澇問題已經(jīng)成為當(dāng)前我國城市安全發(fā)展所面對的重大挑戰(zhàn)。當(dāng)災(zāi)害發(fā)生時,能夠準(zhǔn)確有效地從各大社交媒體中獲取災(zāi)害的發(fā)生時間、空間位置、造成損失及災(zāi)害影響、致災(zāi)原因等信息,不僅有助于提高城市管理工作者的災(zāi)害應(yīng)急響應(yīng)能力,還能為災(zāi)害監(jiān)測[2]和城市輿情分析[3]提供數(shù)據(jù)支持。

城市內(nèi)澇信息識別過程即命名實(shí)體識別的過程,主要分為 3 種類型:基于規(guī)則與詞典的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[4]。其中,基于規(guī)則與詞典的方法,主要是利用由語言學(xué)家基于數(shù)據(jù)集特征人工構(gòu)建的特殊規(guī)范模板或特殊字典,完成特征實(shí)體識別[5]。但這種方法不僅需要大量的人力和時間,而且當(dāng)實(shí)體類型不同時,須重新制定相應(yīng)的規(guī)范,可移植性較差;基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,意在將命名實(shí)體識別歸為序列標(biāo)注問題[6],但該方法依附于特征模板的選取,泛化能力較差;目前,基于深度學(xué)習(xí)的方法逐漸興起,深度學(xué)習(xí)是由多層神經(jīng)網(wǎng)絡(luò)組成的機(jī)器學(xué)習(xí)算法[7],可有效提取特征并進(jìn)行學(xué)習(xí)。

本文利用深度學(xué)習(xí)的方法對城市內(nèi)澇信息進(jìn)行識別,將原始數(shù)據(jù)集送入 MacBERT 預(yù)訓(xùn)練模型獲得初始向量表示,再加入一些擾動生成對抗樣本,然后依次輸入雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)[8]

和條件隨機(jī)場(Conditional Random Field,CRF)[9]進(jìn)行訓(xùn)練學(xué)習(xí),最后在微博數(shù)據(jù)集和 1998 年人民日報(bào)數(shù)據(jù)集上測試該模型的性能。

2 信息識別研究現(xiàn)狀

2.1 基于規(guī)則與詞典的方法

基于規(guī)則與詞典的方法是手工編寫、人為設(shè)定的規(guī)則。Wang 等[10]結(jié)合規(guī)則與本體理論,從Web 文檔中提取災(zāi)害事件的時空和語義信息,探討了事件在時空上的關(guān)系。霍娜等[11]基于規(guī)則匹配的方法,對 3 類災(zāi)難性追蹤事件的相關(guān)文檔進(jìn)行信息提取,精確率均達(dá) 91% 以上,效果較好。將基于規(guī)則與詞典的方法用于不同的領(lǐng)域時,由于不同領(lǐng)域內(nèi)實(shí)體的規(guī)則不同,需要對規(guī)則進(jìn)行改動,耗時耗力。當(dāng)規(guī)則能較好地反映實(shí)體關(guān)系時,基于規(guī)則和詞典的方法才較為方便。

2.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

目前,基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法主要有:支持向量機(jī)[12]、條件隨機(jī)場(CRF)[13]、隱馬爾可夫模型[14]等?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法利用大規(guī)模語料進(jìn)行學(xué)習(xí),進(jìn)而標(biāo)注出模型,以發(fā)現(xiàn)特征?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法進(jìn)行語料的標(biāo)注時不需要很多專業(yè)知識,且應(yīng)用于其他領(lǐng)域時,可直接使用,無須再做很多煩瑣的工作。Imran 等[15]通過樸素貝葉斯設(shè)計(jì)了一個信息消息檢測系統(tǒng),用于獲取災(zāi)害屬性信息,完成信息識別。梁春陽[16]基于條件隨機(jī)場模型,識別災(zāi)害文本中包含的時空和災(zāi)損信息,精確率為 90.3%,識別效果良好。但基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法對語料庫依賴較大,且評估命名實(shí)體識別系統(tǒng)的大規(guī)模通用語料庫較少,實(shí)用性較差。

2.3 基于深度學(xué)習(xí)的方法

無論是基于規(guī)則和詞典的方法還是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,都需要人工處理大量的數(shù)據(jù),且基于規(guī)則與詞典的方法相對于傳統(tǒng)機(jī)器學(xué)習(xí)方法需要很多的領(lǐng)域知識和資源,深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)則可以自動學(xué)習(xí)和提取特征。目前,命名實(shí)體識別中的深度學(xué)習(xí)方法主要包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等[17],還有經(jīng)過一系列改良的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[18]、BiLSTM[19]等模型。Bengio 等[20]提出將神經(jīng)網(wǎng)絡(luò)語言模型用于訓(xùn)練參數(shù)奠定了深度學(xué)習(xí)模型在自然語言處理中的基礎(chǔ)。Kumar 等[21]基于卷積神經(jīng)網(wǎng)絡(luò)模型,提取推特網(wǎng)上災(zāi)難事件及相關(guān)人員的地理位置,識別效果良好。Chanda[22]利用 BERT 模型,對 Twitter 數(shù)據(jù)使用不同類型的詞嵌入以預(yù)測災(zāi)難,F(xiàn)1值為83.16%,表明該模型的識別效果良好。Liu 等[23]將信息提取過程視為序列標(biāo)注任務(wù),結(jié)合 BERT模型,從定制語料中提取臺風(fēng)災(zāi)害事件元素,有助于分析臺風(fēng)災(zāi)害的演化過程。劉淑涵等[24]利用卷積神經(jīng)網(wǎng)絡(luò)模型對北京特大暴雨災(zāi)害事件進(jìn)行信息提取,精確度、召回率和F1值均高達(dá) 80%,表明該方法對災(zāi)害主題的識別準(zhǔn)確性較高。王藎梓[25]基于 BiLSTM 與 CRF 模型提取上海市內(nèi)澇災(zāi)害的地名信息,與條件隨機(jī)場模型相比,該模型的F1值提高了 12%,地名實(shí)體識別效果顯著。吳建華等[26]針對微博中的突發(fā)事件,采用 BiLSTM、CRF 模型和分類分層標(biāo)注進(jìn)行時空信息識別,進(jìn)一步提高了時空信息識別的精度。黃中元[27]基于 BERT 預(yù)訓(xùn)練模型,使用序列標(biāo)注方法為每個字預(yù)測標(biāo)簽,對輸出結(jié)果進(jìn)行約束,并結(jié)合實(shí)際應(yīng)用需要進(jìn)一步對抽取出的時間和地點(diǎn)進(jìn)行推理分析,得到時間和地點(diǎn)的標(biāo)準(zhǔn)化表達(dá),應(yīng)用效果較好。

雖然上述方法取得了良好的效果,但仍存在問題。首先,BERT 預(yù)訓(xùn)練模型包含數(shù)以億計(jì)的參數(shù),受模型規(guī)模大、延遲時間長等影響,模型預(yù)訓(xùn)練的工作量較大。同時,BERT 在訓(xùn)練時引用掩碼語言模型,但目前大多數(shù)下游任務(wù)進(jìn)行微調(diào)時,數(shù)據(jù)集中沒有掩碼數(shù)據(jù),導(dǎo)致訓(xùn)練前數(shù)據(jù)集和微調(diào)數(shù)據(jù)集不一致,從而影響微調(diào)效果。其次,相關(guān)實(shí)驗(yàn)研究證明,神經(jīng)網(wǎng)絡(luò)模型常常表現(xiàn)為局部不穩(wěn)定,即使輸入很小的擾動,也可能會在一定程度上誤導(dǎo)模型,這種惡意擾動的輸入即為對抗樣本[28]。

本文利用 MacBERT 模型獲取輸入數(shù)據(jù)的向量表示,不僅可以減少預(yù)訓(xùn)練,而且可以不使用掩碼標(biāo)記,將掩碼標(biāo)記位置的詞替換為一個近義詞,然后讓模型進(jìn)行詞語糾錯。輸入樣本中由于沒有掩碼標(biāo)記,將大大減少微調(diào)階段的差異。此外,本文還通過對抗訓(xùn)練解決完善神經(jīng)網(wǎng)絡(luò)模型局部不穩(wěn)定的問題。對抗訓(xùn)練是指在建立些許對抗樣本的基礎(chǔ)上,將其添加到原數(shù)據(jù)集中,以提高模型對對抗樣本的魯棒性,強(qiáng)化模型對輸入擾動的魯棒性,從而使其更有效運(yùn)用于城市內(nèi)澇信息識別任務(wù)。

3 城市內(nèi)澇信息識別方法

3.1 相關(guān)概念

3.1.1 預(yù)訓(xùn)練模型

預(yù)訓(xùn)練模型是神經(jīng)網(wǎng)絡(luò)方法中不可或缺的內(nèi)容,預(yù)訓(xùn)練模型能夠從沒有標(biāo)記完全的文本信息中獲得先驗(yàn)語義知識,從而促進(jìn)下游任務(wù)的實(shí)施。2018 年,Devlin 等[29]提出了 BERT 預(yù)訓(xùn)練模型,其編碼器利用雙向 Transformer,實(shí)現(xiàn)了預(yù)訓(xùn)練的深度雙向表示。BERT 模型采用掩碼語言模型,可以任意掩蔽輸入詞的 15%。其中,直接被替換為[MASK]的占 80%,任意詞被更換占 10%,剩下 10% 保留原始詞。但目前大多下游任務(wù)進(jìn)行微調(diào)時,數(shù)據(jù)集中沒有掩碼數(shù)據(jù),導(dǎo)致預(yù)訓(xùn)練任務(wù)與下游微調(diào)任務(wù)不統(tǒng)一;而 MacBERT 將[MASK]標(biāo)記位置的詞更換為另一個近義詞,可緩減預(yù)訓(xùn)練與微調(diào)階段的誤差,從而獲得詞級信息。BERT 和 MacBERT 的掩碼方式對比如表 1 所示。

由表 1 可知,輸入文本“今天的風(fēng)實(shí)在太大了,還趕上了暴雨”,BERT 是以字為粒度的掩碼方法,如對于原屬于一個詞的“今日的風(fēng)”中的部分字“風(fēng)”,將其隨機(jī)掩碼并通過預(yù)測被掩碼掉的字,學(xué)習(xí)到字粒度的語義表示。而MacBERT 則使用近義詞代替[MASK],沒有近義詞的用隨機(jī)詞替換,學(xué)習(xí)詞級別的語義表示,該方法更適用于城市內(nèi)澇信息識別任務(wù)。因此,本文中輸入文本的向量表示采用 MacBERT 模型獲取。

表1 BERT 和 MacBERT 的掩碼方式對比Table 1 Comparison between BERT’s and MacBERT’s mask methods

3.1.2 對抗訓(xùn)練

2015 年,Goodfellow 等[30]首次提出對抗訓(xùn)練的概念,通過不斷向模型輸入擾動,增強(qiáng)模型的魯棒性。即向原始的輸入樣本 X 中加入些許擾動后得到對抗樣本,然后將對抗樣本放入模型中進(jìn)行訓(xùn)練。Yasunaga 等[31]在 POS 任務(wù)中使用對抗訓(xùn)練,不但提升了整體標(biāo)注的正確率,還增強(qiáng)了模型的魯棒性。李靜等[32]基于局部對抗訓(xùn)練方法,既減緩了邊界樣本混淆限制命名實(shí)體識別的問題,又降低了傳統(tǒng)對抗訓(xùn)練中由于計(jì)算增加引起的對抗樣本冗余,提高了命名實(shí)體識別效果。對抗訓(xùn)練的過程可以抽象為一個公式,如公式(1)所示。

3.1.3 雙向長短期記憶網(wǎng)絡(luò)模型

循環(huán)神經(jīng)網(wǎng)絡(luò)對于文本序列的歷史信息擁有記憶保存的能力,常用于執(zhí)行序列的標(biāo)注任務(wù)[33]。但由于序列長度的不斷增加,出現(xiàn)了長距離依賴、梯度消失或爆炸等問題。因此,Hochreiter等[34]提出了長短期記憶網(wǎng)絡(luò)模型,有效地解決了循環(huán)神經(jīng)網(wǎng)絡(luò)的長距離依賴與梯度消失的問題。然而,需要進(jìn)行文本分析的詞不僅與上文有關(guān),還與下文密不可分。因此,Graves 等[35]提出了BiLSTM 模型,該模型基于前向長短期記憶網(wǎng)絡(luò)和后向長短期記憶網(wǎng)絡(luò)兩個方向,能夠同時對文本的上下文信息進(jìn)行分析,有效地解決了長短期記憶網(wǎng)絡(luò)分析文本信息的單向問題。雙向長短期記憶網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖 1 所示。

圖1 雙向長短期記憶網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig. 1 BiLSTM model structure drawing

3.1.4 條件隨機(jī)場模型

3.2 AT-MBC 方法流程

圖2 AT-MBC 模型結(jié)構(gòu)圖Fig. 2 The AT-MBC model diagram

條件隨機(jī)場常被標(biāo)簽解碼層用以計(jì)算最有可能的命名實(shí)體類別,它通過學(xué)習(xí)一些規(guī)范以確保有效的最終預(yù)測結(jié)果,減少非法序列的出現(xiàn)。條件隨機(jī)場的規(guī)范如下:(1)實(shí)體以“B-”開頭,句子首字符以“B-”或“O”開始,實(shí)體或句首均不能以“I-”開始。(2)對于連續(xù)標(biāo)簽,如以“B-place”為首,后面的標(biāo)簽只能是“I-place”標(biāo)簽或“O”標(biāo)簽。

如在輸入層中輸入鄭州市遭遇強(qiáng)降雨天氣,在輸出層就會輸出鄭/B-place 州/I-place 市/I-place遭/O 遇/O 強(qiáng)/B-attribute 降/I-attribute 雨/I-attribute天/O 氣/O。

4 實(shí)驗(yàn)與結(jié)果

4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)

本文的實(shí)驗(yàn)硬件環(huán)境如表 2 所示。

表2 實(shí)驗(yàn)硬件環(huán)境Table 2 Experimental hardware environment

首先,本文基于網(wǎng)絡(luò)爬蟲技術(shù),根據(jù)“內(nèi)澇”“積水”“沖走”“水淹”等關(guān)鍵詞及時間范圍,獲取相關(guān)的新浪微博內(nèi)容,共收集整理了關(guān)于河南省鄭州市 7 月 20 日內(nèi)澇災(zāi)害事件的110 473 條文本數(shù)據(jù)。

然后,對原數(shù)據(jù)進(jìn)行清洗去重、中文分詞、去除停用詞等工作。其中,清洗去重是將原數(shù)據(jù)中無用的信息去除,便于后期分析;中文分詞是將某個中文句子變換成詞序列;去除停用詞是去除自然語言中頻繁出現(xiàn),但不一定代表句子實(shí)質(zhì)語義的詞[37],如“的”“地”“得”等,該工作可以提升模型的運(yùn)算效率并降低錯誤率。

最后,結(jié)合對抗訓(xùn)練、MacBERT、BiLSTM和 CRF 模型,提取鄭州市內(nèi)澇事件的時間信息、地理位置信息和屬性信息。其中,屬性信息包含災(zāi)害產(chǎn)生的原因,造成房屋破壞、道路損毀、車輛損壞、人員傷亡、經(jīng)濟(jì)損失等影響。數(shù)據(jù)集采用 BIO 標(biāo)注機(jī)制:B-time 表示時間在此段的開頭,I-time 表示時間在此段的中間位置;B-place 表示地名在此段的開頭,I-place 表示地名在此段的中間位置;B-attribute 表示屬性在此段的開頭,I-attribute 表示屬性在此段的中間位置;O 表示不是實(shí)體。時間信息、地理位置信息和屬性信息部分?jǐn)?shù)據(jù)如表 3 所示。

表3 部分?jǐn)?shù)據(jù)Table 3 Part of data

將數(shù)據(jù)按照 7∶3 劃分訓(xùn)練集和測試集,即在語料庫中隨機(jī)選取 14 331 條語句作為訓(xùn)練集,余下的 6 142 條為測試語料庫,數(shù)據(jù)集整體情況如表 4 所示。

表4 語料數(shù)據(jù)統(tǒng)計(jì)Table 4 Corpus statistics

4.2 實(shí)驗(yàn)參數(shù)與評價標(biāo)準(zhǔn)

本實(shí)驗(yàn)使用 Google 發(fā)布的 MacBERT 預(yù)訓(xùn)練模型,模型參數(shù)如表 5 所示。本文利用精確率(Precision,P)、召回率(Recall,R)和綜合值F1對模型效果進(jìn)行評估,計(jì)算公式如下:

表5 MacBERT 模型參數(shù)Table 5 MacBERT model parameters

其中,TP為識別到正確實(shí)體的個數(shù);FP為識別到非實(shí)體的個數(shù);FN為未識別到正確實(shí)體的個數(shù)。

4.3 實(shí)驗(yàn)結(jié)果分析與討論

本實(shí)驗(yàn)基于微博數(shù)據(jù)集對 AT-MBC 模型進(jìn)行超參數(shù)敏感性和有效性分析:分別將訓(xùn)練樣本批大小和正則化 Dropout 作為變量,探究模型對參數(shù)的敏感性;選擇另外 3 種信息識別模型與本實(shí)驗(yàn)改進(jìn)模型 AT-MBC 對比分析,探究模型的有效性。

4.3.1 模型敏感性分析

批大小會影響模型的優(yōu)化程度和速度,合適的批大小能夠提高訓(xùn)練的速度,反之則會導(dǎo)致數(shù)據(jù)不收斂或運(yùn)行內(nèi)存不足。將模型批大小分別設(shè)置為 8、16、32、64、128 進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖 3 所示。當(dāng)批大小為 32 時到達(dá)頂峰值,而召回率則達(dá)到低谷值。

圖3 批大小對模型評價指標(biāo)的影響Fig. 3 Effect of batch size on model evaluation index

正則化 Dropout 是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中,按照一定的概率將一部分神經(jīng)網(wǎng)絡(luò)單元暫時從網(wǎng)絡(luò)中丟棄,可增強(qiáng)模型的泛化性。將 Dropout 值分別設(shè)置為 0.2、0.5 和 0.7 進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖 4 所示。當(dāng) Dropout 值為 0.5時,模型效果最好。

圖4 Dropout 對模型評價指標(biāo)的影響Fig. 4 Influence of Dropout on model evaluation index

4.3.2 模型有效性分析

為證實(shí)本文設(shè)計(jì)的 AT-MBC 模型的有效性,在同一訓(xùn)練集和測試集下,選取 BiLSTMCRF(BC)[38]、BERT-BiLSTM-CRF(BBC)[39]和MacBERT-BiLSTM-CRF(MBC)[40]共 3 種模型進(jìn)行實(shí)驗(yàn)對比,表 6 為不同模型的內(nèi)澇信息識別實(shí)驗(yàn)結(jié)果。

表6 實(shí)驗(yàn)結(jié)果Table 6 The experimental results

由表 6 可知,AT-MBC 模型的精確率為98.82%,召回率為 93.11%,F(xiàn)1值為 92.28%,信息識別狀況表現(xiàn)良好。

BC 模型的精確率為 98.69%,召回率為91.55%,F(xiàn)1值為 92.00%。與 BC 模型相比,BBC 模型的精確率提升了 0.06%,召回率提升了1.27%,F(xiàn)1值提升了 0.19%。BC 模型的識別效果較差,是因?yàn)樵撃P偷念A(yù)訓(xùn)練過程是靜態(tài)的,未考慮位置信息詞的多層特性。當(dāng)引入 BERT 預(yù)訓(xùn)練模型后,模型的精確率、召回率與F1值均有所提升,說明 BERT 預(yù)訓(xùn)練模型訓(xùn)練得到的向量具有更多、更好的文本特征,能較好地表征位置信息詞的多義性。

BBC 模型的精確率為 98.75%,召回率為 92.82%,F(xiàn)1值為 92.19%。與 BBC 模型相比,MBC 模型的精確率提升了 0.02%,召回率提升了 0.52%。MBC 識別效果較好,是因?yàn)镸acBERT 模型改進(jìn)了 BERT 模型的預(yù)訓(xùn)練任務(wù),將原本需要掩碼標(biāo)記位置的詞替換為別的近義詞,然后讓模型進(jìn)行詞語糾錯,使得輸入樣本中沒有掩碼標(biāo)記。這樣不僅減少了預(yù)訓(xùn)練,還大大降低了微調(diào)階段的差異。

MBC 模型的精確率為 98.77%,召回率為93.34%,F(xiàn)1值為 92.11%。與 MBC 模型相比,AT-MBC 模型的精確率提升了 0.05%,F(xiàn)1值提升了 0.17%。AT-MBC 模型的識別效果較好,是因?yàn)閷褂?xùn)練是直接在模型的向量表示上添加一些擾動生成對抗樣本,而對抗樣本會在一定程度上模擬數(shù)據(jù)集中的自然誤差,使模型更能容忍模型參數(shù)波動帶來的變化,從而增強(qiáng)了模型對對抗樣本的魯棒性。

綜上所述,本文提出的 AT-MBC 模型信息識別方法的性能更優(yōu)。

為更加直觀地研究參數(shù)對于模型的敏感性和有效性,本文通過設(shè)置不同的迭代次數(shù),以分析模型的精確率和F1值漲幅情況,如圖 5、圖 6所示。

圖5 迭代次數(shù)對模型精確率的影響Fig. 5 Effect of iteration number on model accuracy

由圖 5、圖 6 可知,隨著訓(xùn)練迭代次數(shù)增加,各個模型的指標(biāo)曲線呈先增長后逐漸擬合并趨于穩(wěn)定的趨勢。其中,AT-MBC 模型精確率和F1值的增速較快,在第 10 次迭代時達(dá)到最大值,且相較于其他模型,該模型的效果最好。

圖6 迭代次數(shù)對 F1 指標(biāo)的影響Fig. 6 The influence of iteration times on F1 index

為再次證明本文方法的先進(jìn)性,本文選用公開數(shù)據(jù)集(由北京大學(xué)標(biāo)注的 1998 年《人民日報(bào)》語料)進(jìn)行實(shí)驗(yàn),并與部分現(xiàn)有方法進(jìn)行實(shí)驗(yàn)對比,對比結(jié)果如表 7 所示。

表7 實(shí)驗(yàn)對比Table 7 The experimental contrast

如表 7 所示,楊賀羽等[41]通過雙向長短期記憶網(wǎng)絡(luò)和 FOFE 編碼,對向量化表示的文本進(jìn)行特征提取和編碼表示,精確率高達(dá) 90.36%。金彥亮等[42]提出基于分層標(biāo)注的實(shí)體抽取方法,F(xiàn)1值達(dá)到了 91.41%,有效地改善了中文嵌套命名實(shí)體識別的效果。蔡慶[43]利用 BERT 預(yù)訓(xùn)練結(jié)合深度神經(jīng)網(wǎng)絡(luò)和 CRF 模型,提升了實(shí)體識別的效果。而本文提出的 AT-MBC 模型的精確率、召回率和F1值均高于上述模型。因此,本文提出的 AT-MBC 模型具有更強(qiáng)的信息提取能力,可有效地應(yīng)用于信息識別任務(wù)。

5 結(jié)束語

在本文提出的 AT-MBC 算法模型中,MacBERT 層減少了預(yù)訓(xùn)練次數(shù)和微調(diào)階段差異,BiLSTM 層負(fù)責(zé)提取文本上下文語義特征,CRF 層負(fù)責(zé)生成最優(yōu)標(biāo)簽序列,并通過對抗訓(xùn)練提高了該模型的魯棒性,可有效實(shí)現(xiàn)城市內(nèi)澇信息識別。由實(shí)驗(yàn)結(jié)果可知,本文提出的 AT-MBC算法的各種指標(biāo)均較好,可為城市管理工作的信息識別分析研究提供參考。本文提出的識別方法還存在一定弊端,尤其是面對復(fù)雜地理位置信息和復(fù)雜屬性信息時,需進(jìn)一步完善信息識別方法。下個階段可收集其他各大社交媒體網(wǎng)絡(luò)網(wǎng)站上的復(fù)雜地理位置數(shù)據(jù)集與復(fù)雜屬性數(shù)據(jù)集,對實(shí)驗(yàn)結(jié)果進(jìn)行分析和深入研究,同時不斷優(yōu)化參數(shù)設(shè)置,以取得更好的識別效果。

猜你喜歡
掩碼內(nèi)澇實(shí)體
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
低面積復(fù)雜度AES低熵掩碼方案的研究
基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
國外應(yīng)對城市內(nèi)澇的智慧:從“馴服”到“巧用”
基于掩碼的區(qū)域增長相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究
城市內(nèi)澇的形成與預(yù)防
盖州市| 冷水江市| 泸水县| 黎川县| 九龙城区| 湘乡市| 江城| 梨树县| 新乡县| 寿阳县| 横峰县| 乐业县| 松潘县| 陇南市| 图片| 丘北县| 新兴县| 漳浦县| 武川县| 沙湾县| 阿坝县| 邹平县| 靖州| 石台县| 宾川县| 图们市| 葵青区| 大丰市| 南充市| 新绛县| 睢宁县| 河池市| 弥勒县| 昌江| 中阳县| 赤峰市| 哈尔滨市| 肥东县| 五峰| 武隆县| 台山市|