国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的科技文獻(xiàn)摘要結(jié)構(gòu)功能識(shí)別研究

2022-04-26 12:29:46陳子洋
關(guān)鍵詞:結(jié)構(gòu)式語(yǔ)料分類(lèi)

毛 進(jìn),陳子洋

(1.武漢大學(xué)信息資源研究中心,武漢 430072;2.武漢大學(xué)信息管理學(xué)院,武漢 430072)

1 引言

近年來(lái),隨著學(xué)術(shù)文獻(xiàn)數(shù)量的急劇增長(zhǎng),掌握一個(gè)學(xué)科的研究進(jìn)展和具體文獻(xiàn)的知識(shí)脈絡(luò)已變得越來(lái)越困難,信息過(guò)載成為一大現(xiàn)實(shí)問(wèn)題。學(xué)術(shù)搜索工具在過(guò)去十余年里得到了長(zhǎng)足的發(fā)展,但是這類(lèi)工具仍無(wú)法實(shí)現(xiàn)對(duì)學(xué)術(shù)文本的深度理解??萍嘉墨I(xiàn)摘要提煉了研究人員進(jìn)行科學(xué)研究和學(xué)術(shù)交流的重要信息,是文獻(xiàn)內(nèi)容的梗概性描述?,F(xiàn)有文獻(xiàn)檢索系統(tǒng)主要能夠?qū)崿F(xiàn)摘要內(nèi)容檢索,而不能對(duì)摘要中的“方法” “工具” 等部分進(jìn)行單獨(dú)的檢索,另外現(xiàn)有的研究通常人工提取摘要信息,無(wú)法通過(guò)自動(dòng)化手段對(duì)摘要的各個(gè)功能單元進(jìn)行識(shí)別。摘要功能結(jié)構(gòu)的自動(dòng)識(shí)別可以有效應(yīng)對(duì)上述問(wèn)題,達(dá)到從摘要中更有效挖掘知識(shí)的目的,因此對(duì)摘要內(nèi)容中不同功能單元的識(shí)別成為學(xué)術(shù)文獻(xiàn)大數(shù)據(jù)知識(shí)挖掘與分析的一項(xiàng)重要內(nèi)容。

摘要的結(jié)構(gòu)功能是摘要的每個(gè)結(jié)構(gòu)部分在學(xué)術(shù)論文內(nèi)容層次上的作用,常見(jiàn)的結(jié)構(gòu)功能包括“背景”“目的” “問(wèn)題” “方法” “工具” “結(jié)果” “局限”等[1],且這些結(jié)構(gòu)功能分別有不同的指向性。摘要功能識(shí)別即對(duì)摘要中的特定信息進(jìn)行抽取,對(duì)其進(jìn)行結(jié)構(gòu)化的功能劃分可以更清晰地更細(xì)粒度地展示文獻(xiàn)摘要的語(yǔ)義構(gòu)成和邏輯結(jié)構(gòu),便于查閱者在較短時(shí)間內(nèi)進(jìn)行精準(zhǔn)檢索定位。若將深度學(xué)習(xí)方法用于該領(lǐng)域進(jìn)行摘要結(jié)構(gòu)功能特征識(shí)別,一方面可做到對(duì)非結(jié)構(gòu)化摘要進(jìn)行自動(dòng)的結(jié)構(gòu)化,避免人工方式的巨大人力與時(shí)間成本;另一方面可用于構(gòu)建基于單個(gè)結(jié)構(gòu)功能而非整段內(nèi)容的科技文獻(xiàn)摘要檢索系統(tǒng)。因此,采用深度學(xué)習(xí)方法對(duì)科技文獻(xiàn)摘要進(jìn)行功能識(shí)別是有研究必要的。由此,本研究在深度學(xué)習(xí)模型基礎(chǔ)上,利用摘要文本中包含的語(yǔ)義信息,結(jié)合上下文特征構(gòu)建摘要功能識(shí)別模型,并對(duì)比分析科技文獻(xiàn)摘要的結(jié)構(gòu)功能要素特征。

2 國(guó)內(nèi)外研究現(xiàn)狀

2.1 文獻(xiàn)摘要結(jié)構(gòu)分類(lèi)框架

目前,關(guān)于摘要結(jié)構(gòu)的研究主要圍繞結(jié)構(gòu)要素的數(shù)量和組合開(kāi)展。曹雁等[2]以“引言-方法-結(jié)果-討論(Introduction-Methods-Results-Discussions,IMRD)” 四要素結(jié)構(gòu)模式作為分析摘要的對(duì)象,且證明每個(gè)結(jié)構(gòu)要素都存在一些帶有指向性的語(yǔ)料。以GRATEZ[3]為代表的學(xué)者總結(jié)出具有普遍性的“問(wèn)題-方法-結(jié)果-結(jié)論(Problem-Method-Results-Conclusions,PMRC)” 四要素結(jié)構(gòu)模式。SWALES[4]對(duì)GRAETZ 研究數(shù)據(jù)獲取的可靠性和科學(xué)性提出質(zhì)疑,認(rèn)為摘要的結(jié)構(gòu)應(yīng)與論文的結(jié)構(gòu)一一對(duì)應(yīng),主張摘要應(yīng)該由IMRD 四結(jié)構(gòu)要素組成更為合理。然而一些學(xué)者發(fā)現(xiàn)為保證摘要語(yǔ)義信息的完整性,還應(yīng)該增加對(duì)“背景” 這一結(jié)構(gòu)功能要素,因此TSENG[5]、李濤[6]和周志超[7]等一批學(xué)者也都在IMRD 模式的基礎(chǔ)上,提出了以“背景-方法-結(jié)果-結(jié)論(Background-Method-Result-Conclusion,BMRC)”為代表的其他幾種四結(jié)構(gòu)要素的變體形式。

在現(xiàn)有的出版規(guī)范中,科技期刊論文摘要可分為結(jié)構(gòu)式摘要與非結(jié)構(gòu)式摘要兩大類(lèi)型[8]。相較于非結(jié)構(gòu)式摘要,結(jié)構(gòu)式摘要具有便于進(jìn)行定位閱讀與對(duì)所需內(nèi)容進(jìn)行自動(dòng)化抽取的優(yōu)點(diǎn)[9]。宋東桓等[10]認(rèn)為結(jié)構(gòu)式摘要和非結(jié)構(gòu)式摘要在書(shū)寫(xiě)體例、習(xí)慣用語(yǔ)等方面有高度一致性,由此對(duì)380 種期刊進(jìn)行調(diào)查,其中188種為采用結(jié)構(gòu)式摘要的期刊、192 種為采用非結(jié)構(gòu)式摘要的期刊,在此基礎(chǔ)上提出摘要 “(Background-Objective-Method-Result-Conclusion,BOMRC) 背景-目的-方法-結(jié)果-討論” 結(jié)構(gòu)體系和結(jié)構(gòu)式摘要的識(shí)別與規(guī)范化標(biāo)引方法,但因其樣本數(shù)量有限而具有一定局限性。

2.2 文獻(xiàn)結(jié)構(gòu)功能識(shí)別方法

目前,關(guān)于學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)功能自動(dòng)識(shí)別已有一定研究。ANTHONY[11]基于樸素貝葉斯算法 (Naive Bayesian,NB),利用少數(shù)的摘要數(shù)據(jù)構(gòu)建出摘要自動(dòng)識(shí)別模型,TUAROB 等[12]則是采用支持向量機(jī)(Support Vector Machine,SVM) 和樸素貝葉斯模型進(jìn)行對(duì)比,對(duì)學(xué)術(shù)文獻(xiàn)的章節(jié)邊界進(jìn)行劃分,實(shí)現(xiàn)了學(xué)術(shù)文獻(xiàn)的功能識(shí)別。KIM 等[13]通過(guò)研究發(fā)現(xiàn)條件隨機(jī)場(chǎng)算法(Conditional Random Field,CRF) 要比樸素貝葉斯算法和SVM 效果更好,精確度一般在90%以上。在摘要的功能識(shí)別方法上,除了CRF、SVM 等傳統(tǒng)模型的基于淺層機(jī)器學(xué)習(xí)模型應(yīng)用,近年來(lái)關(guān)于使用深度學(xué)習(xí)模型的融合與優(yōu)化也逐步深入,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN) 為代表的深度學(xué)習(xí)模型,以及在此基礎(chǔ)上創(chuàng)新的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、長(zhǎng)短期記憶模型和條件隨機(jī)場(chǎng)混合模型LSTM-CRF、CNN 與條件隨機(jī)場(chǎng)混合模型CNN-CRF 等模型層出不窮。例如王東波等[14]分別利用LSTM、SVM、LSTM-CRF、CNN-CRF等對(duì)3 672 篇情報(bào)領(lǐng)域期刊摘要文獻(xiàn)進(jìn)行研究。其另一研究[15]針對(duì)CRF、雙向長(zhǎng)短期記憶模型(Bidirectional LSTM,Bi-LSTM) 和SVM 三種模型的實(shí)驗(yàn),其中CRF 模型表現(xiàn)最佳,其F1值達(dá)到92.88%。陸偉和黃永等運(yùn)用多種模型從基于章節(jié)標(biāo)題[16]、章節(jié)內(nèi)容和標(biāo)題、段落[17]等層次對(duì)學(xué)術(shù)文本的結(jié)構(gòu)功能進(jìn)行自動(dòng)分類(lèi)識(shí)別實(shí)驗(yàn),并取得了令人滿(mǎn)意的效果,但其研究并未涉及對(duì)于科技文獻(xiàn)摘要句功能識(shí)別。沈思等[1]基于LSTM-CRF 模型針對(duì)科技文獻(xiàn)摘要構(gòu)建了結(jié)構(gòu)功能自動(dòng)識(shí)別模型,但其未能在自動(dòng)識(shí)別任務(wù)上嘗試應(yīng)用BERT 等具有更優(yōu)性能的模型。張智雄等將論文摘要中的研究目的、方法、結(jié)果和結(jié)論,這些語(yǔ)言單元定義為摘要中的語(yǔ)步,其運(yùn)用Masked Sentence Model 來(lái)解決語(yǔ)步自動(dòng)識(shí)別問(wèn)題。通過(guò)改造BERT 輸入層,將摘要中句子的內(nèi)容特征與上下文特征有效結(jié)合,在語(yǔ)步識(shí)別實(shí)驗(yàn)中取得了較好的效果[18]。上述大部分方法都使用了word2vec 工具來(lái)對(duì)文本進(jìn)行預(yù)訓(xùn)練,得到的詞向量輸入神經(jīng)網(wǎng)絡(luò)的第一層以減少人工提取特征的成本。但是由于上下文語(yǔ)境、語(yǔ)序?qū)φ渲性~意有重要影響,而如果使用word2vec 對(duì)輸入的語(yǔ)句進(jìn)行預(yù)訓(xùn)練的話(huà),無(wú)論其上下文如何得到的同一個(gè)詞的詞向量都是同一個(gè),由此可以產(chǎn)生相關(guān)優(yōu)化思路。隨著研究的不斷深入,BERT、ERNIE 等涌現(xiàn)的深度學(xué)習(xí)模型也被證明在自然語(yǔ)言處理各項(xiàng)任務(wù)中取得了不錯(cuò)的成績(jī)。陸偉等[19]將其應(yīng)用到科技文獻(xiàn)文本分類(lèi)任務(wù)中,其實(shí)驗(yàn)以計(jì)算機(jī)領(lǐng)域的學(xué)術(shù)期刊論文為訓(xùn)練語(yǔ)料,利用BERT 及LSTM 方法構(gòu)建分類(lèi)模型,其準(zhǔn)確率比傳統(tǒng)方法更佳。

選取近年來(lái)對(duì)文獻(xiàn)摘要功能的6 項(xiàng)代表性研究,對(duì)其語(yǔ)料語(yǔ)言、功能結(jié)構(gòu)、分類(lèi)模型等進(jìn)行了對(duì)比,如表1 所示。通過(guò)對(duì)比可反映出使用模型和結(jié)構(gòu)功能分類(lèi)的不同將對(duì)實(shí)驗(yàn)結(jié)果造成較大的影響,基于機(jī)器學(xué)習(xí)模型的現(xiàn)有研究結(jié)果通常準(zhǔn)確率有限,且采用此類(lèi)方法的研究通常選取的文獻(xiàn)較少,在文獻(xiàn)數(shù)量較大的情況下可能存在局限;而基于深度學(xué)習(xí)的方法能夠適用于數(shù)據(jù)量較大的情況且通常具有更高的準(zhǔn)確性。因此,本文對(duì)深度學(xué)習(xí)方法在該科技文獻(xiàn)摘要結(jié)構(gòu)功能識(shí)別的應(yīng)用進(jìn)行了更加深入的研究。

表1 摘要結(jié)構(gòu)功能識(shí)別代表性研究對(duì)比Table 1 Comparison of representative studies on structural function identification

3 科技文獻(xiàn)摘要結(jié)構(gòu)功能分類(lèi)模型

3.1 科技文獻(xiàn)摘要結(jié)構(gòu)功能分類(lèi)任務(wù)定義

科技文獻(xiàn)摘要文本往往由多個(gè)結(jié)構(gòu)部分組成,每個(gè)結(jié)構(gòu)單元在學(xué)術(shù)論文內(nèi)容敘述上具有不同的作用。本文將摘要文本中的句子理解為最小的摘要文本單元,而承載某種功能的結(jié)構(gòu)單元可以包含多個(gè)句子。現(xiàn)有的結(jié)構(gòu)功能劃分要素并不統(tǒng)一,通過(guò)分析結(jié)構(gòu)式摘要的期刊文獻(xiàn),從通用型角度出發(fā)本文將科技文獻(xiàn)摘要的結(jié)構(gòu)功能歸納為“引言-方法-結(jié)果-結(jié)論(Introduction-Methods-Results-Conclusions,IMRC)” 4 個(gè)類(lèi)型。因此,科技文獻(xiàn)摘要結(jié)構(gòu)功能分類(lèi)任務(wù)可以表達(dá)為:給定摘要文本中的句子,通過(guò)文本分類(lèi)方法識(shí)別其具有的摘要結(jié)構(gòu)功能類(lèi)型。

3.2 摘要結(jié)構(gòu)功能分類(lèi)方法

本研究采用基于深度學(xué)習(xí)的文本分類(lèi)方法對(duì)科技文獻(xiàn)摘要句子預(yù)測(cè)其所屬的結(jié)構(gòu)功能類(lèi)型。該任務(wù)本質(zhì)上是自然語(yǔ)言處理中一項(xiàng)文本分類(lèi)任務(wù),該分類(lèi)模型的整體架構(gòu)如圖1 所示,其中輸入為摘要文本中的句子內(nèi)容,并在模型中對(duì)輸入的文本內(nèi)容進(jìn)行特征表示,特征包括詞向量和位置特征,最后將這些特征輸入多層感知器和softmax 分類(lèi)器,以輸出所預(yù)測(cè)的句子結(jié)構(gòu)功能類(lèi)型標(biāo)簽。本研究分別實(shí)現(xiàn)并對(duì)比BERT 模型、BERT-TextCNN 模 型、BERT-LSTM 模 型 及ERNIE 模型在該任務(wù)中的性能。

圖1 數(shù)據(jù)輸入模型、輸出預(yù)測(cè)標(biāo)簽過(guò)程Fig.1 Process of data input model and outputing forecast labels

3.2.1 BERT 模型

BERT 模型基于Transformer[23],借鑒完形填空式的語(yǔ)言模型Masked Language Model (MLM)、Quickthoughts[24]中的Next Sentence Prezdiction(NSP)以及GPT[25]中對(duì)于輸入層和輸出層的改進(jìn),其結(jié)構(gòu)如圖2所示。

圖2 BERT 模型結(jié)構(gòu)圖Fig.2 Structure diagram of a BERT model

其核心是一個(gè)多層且多方向的Transformer 網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)這個(gè)結(jié)構(gòu),每個(gè)位置的詞向量都會(huì)融入語(yǔ)句中其他各個(gè)位置的詞向量信息,因此可以很好地對(duì)一詞多義現(xiàn)象進(jìn)行建模,避免標(biāo)引意圖模糊和語(yǔ)義功能不明問(wèn)題。運(yùn)用其Encoder 中的Self-attention 機(jī)制,計(jì)算得到Attention 矩陣,其中每一行代表輸入序列中每個(gè)字的Attention 向量。

同時(shí),BERT 中使用Masked Language Model 使其提升語(yǔ)境結(jié)合能力的同時(shí)避免信息泄露情況的發(fā)生,利用NSP 任務(wù)來(lái)判斷識(shí)別兩句文本是否是上下文關(guān)系。因此,總體來(lái)看BERT 的預(yù)訓(xùn)練階段是一個(gè)包括MLM 和NSP 的多任務(wù)學(xué)習(xí)模型.

理論上,對(duì)BERT 的輸出層加以改進(jìn),就已經(jīng)可以完成文本分類(lèi)任務(wù)。本實(shí)驗(yàn)中采用的BERT 模型、BERT-TextCNN 模型、BERT-BiLSTM 模型同樣都是先在BERT 層中對(duì)摘要文本進(jìn)行特征向量表示,并進(jìn)行MLM 和NSP 預(yù)訓(xùn)練任務(wù)。三者區(qū)別主要在于后續(xù)步驟中,BERT 模型在上述輸入層之后直接接線(xiàn)性函數(shù)和輸出層完成文本分類(lèi)任務(wù)。

3.2.2 BERT-TextCNN 模型

卷積神經(jīng)網(wǎng)絡(luò)(CNN) 設(shè)計(jì)之初是對(duì)大型圖片進(jìn)行處理,YOON[26]在論文中提出了TextCNN 將其應(yīng)用到文本分類(lèi)任務(wù)。TextCNN 由輸入層、卷積層(Convolution)、最大池化層(Max Pooling)、全連接層及輸出層構(gòu)成[27]。其中每個(gè)卷積層提取一種特征,經(jīng)過(guò)多個(gè)卷積操作得到許多有不同值的Feature Map,而池化層的主要作用在于降低維度,并對(duì)每類(lèi)特征集進(jìn)行最大池化并傳送到全連接層softmax 函數(shù)中根據(jù)特征進(jìn)行分類(lèi),即把所有特征結(jié)合變成全局特征,并最終輸出每個(gè)類(lèi)別對(duì)應(yīng)的值,其模型如圖3 所示。

圖3 TextCNN 的網(wǎng)絡(luò)結(jié)構(gòu)[27]Fig.3 Network structure of TextCNN

BERT-TextCNN 模型是在BERT 層獲得向量表示后,將得到的特征向量使用TextCNN 分類(lèi)器取代線(xiàn)性函數(shù)進(jìn)行分類(lèi)(圖4)。采用卷積層提取句子特征并形成注意力矩陣,而后對(duì)特征圖進(jìn)行加權(quán)池化操作,通過(guò)全連接層降維和softmax 函數(shù)得到句子分類(lèi)概率。

圖4 BERT-TextCNN 模型結(jié)構(gòu)圖Fig.4 Structure diagram of BERT-TextCNN model

3.2.3 BERT-BiLSTM 模型

長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM) 是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在RNN 的基礎(chǔ)上又加入了記憶單元和門(mén)限機(jī)制,門(mén)限機(jī)制通過(guò)對(duì)狀態(tài)信息進(jìn)行儲(chǔ)存和修改,實(shí)現(xiàn)長(zhǎng)距離記憶,解決了長(zhǎng)程依賴(lài)問(wèn)題,可以對(duì)文本中的長(zhǎng)距離信息進(jìn)行更加有效的利用。其門(mén)限機(jī)制中包括遺忘門(mén)(Forget Gate)、輸入門(mén)(Input Gate) 和輸出門(mén)(Output Gate),其中遺忘門(mén)讓循環(huán)神經(jīng)網(wǎng)絡(luò)忘記之前記憶單元中不重要的信息,輸入門(mén)補(bǔ)充最新記憶,輸出門(mén)決定該時(shí)刻的輸出。

在實(shí)現(xiàn)LSTM 后,再增加一個(gè)反向的LSTM,實(shí)現(xiàn)雙向的LSTM,即BiLSTM。與LSTM 相比,BiLSTM可以獲得更完整的信息。BERT-BiLSTM 模型在BERT層后,通過(guò)BiLSTM 層整合文本信息和句子的順序特征,以獲取更完整的語(yǔ)義特征,使語(yǔ)義表示更準(zhǔn)確,并在BiLSTM 后連接一個(gè)全連接層,最后通過(guò)softmax層進(jìn)行分類(lèi)輸出,其結(jié)構(gòu)如圖5 所示。

圖5 BERT-BiLSTM 模型結(jié)構(gòu)圖Fig.5 Structure diagram of BERT-BiLSTM model

3.2.4 ERNIE 模型

通過(guò)知識(shí)集成的增強(qiáng)表示模型(Enhanced Representation Through Knowledge Integration,ERNIE) 于2019 年被SUN 提出[29],這一模型的提出受到BERT 的Masked LM 訓(xùn)練方式的啟發(fā),但相對(duì)于BERT 又做出了改進(jìn):在Mask LM 訓(xùn)練方式的應(yīng)用中,BERT 只對(duì)字進(jìn)行Masking,而ERNIE 不僅對(duì)字,同時(shí)也對(duì)實(shí)體、短語(yǔ)等進(jìn)行隨機(jī)Masking,由此可使模型學(xué)習(xí)到更多高級(jí)的語(yǔ)義。

ERNIE 模型與前3 個(gè)模型則主要有如下不同之處。首先,其在預(yù)訓(xùn)練中的Masking 分成3 個(gè)階段進(jìn)行,如圖6 所示,第一階段Basic Level Masking 針對(duì)字級(jí)別,其中使用的模式與BERT 模型相同。第二階段Phrase Level Masking 針對(duì)短語(yǔ)級(jí)別,即隨機(jī)選擇句子中的幾個(gè)短語(yǔ),對(duì)同一短語(yǔ)中的所有基本單位進(jìn)行Masking 和預(yù)測(cè)。第三階段是Entity Level Masking 針對(duì)命名實(shí)體級(jí)別,實(shí)體指人名、機(jī)構(gòu)名、商品名等。雖然ERNIE 模型采用的仍是基于字特征的輸入建模,但Mask 的粒度大小有所變化,可能包括字、詞、實(shí)體等不同粒度的切分,并對(duì)切分后的數(shù)據(jù)進(jìn)行向量化處理,使得模型在語(yǔ)義、知識(shí)等不同層次上學(xué)習(xí)到相應(yīng)的關(guān)系。

圖6 ENRIN 模型的Mask 方式Fig.6 Mask mode of ENRIN model

4 實(shí)驗(yàn)與結(jié)果分析

本研究整體實(shí)驗(yàn)過(guò)程如圖7 所示,實(shí)驗(yàn)流程主要分為4 部分:語(yǔ)料預(yù)處理、訓(xùn)練學(xué)習(xí)、測(cè)試數(shù)據(jù)、對(duì)比分析。首先,將獲取的科技文獻(xiàn)摘要預(yù)處理為包含“目的” “方法” “結(jié)果” “結(jié)論” 4 種結(jié)構(gòu)要素的數(shù)據(jù)集。第二,在模型構(gòu)建階段采用BERT、BERTTextCNN、BERT-BiLSTM、ERNIE 四種分類(lèi)模型進(jìn)行訓(xùn)練學(xué)習(xí)。第三,在測(cè)試數(shù)據(jù)階段通過(guò)這5 組實(shí)驗(yàn)得到的預(yù)測(cè)值與標(biāo)簽進(jìn)行損失函數(shù)的計(jì)算并進(jìn)行效果評(píng)價(jià);最終獲得優(yōu)化模型,并探究不同結(jié)構(gòu)功能特征對(duì)自動(dòng)識(shí)別效果的差異。

圖7 整體實(shí)驗(yàn)流程Fig.7 Overall experimental process

4.1 數(shù)據(jù)集構(gòu)建

針對(duì)本文任務(wù)創(chuàng)建新的數(shù)據(jù)集,要求數(shù)據(jù)量大且標(biāo)注要足夠準(zhǔn)確。為保證準(zhǔn)確性一般采用人工標(biāo)注的方式對(duì)摘要中句子所屬結(jié)構(gòu)要素進(jìn)行標(biāo)注,但為避免人工標(biāo)注數(shù)據(jù)的長(zhǎng)耗時(shí)和低效率,本文希望找到已采用結(jié)構(gòu)式摘要的文獻(xiàn)作為數(shù)據(jù)來(lái)源。通過(guò)大量對(duì)科技文獻(xiàn)摘要的前期調(diào)研發(fā)現(xiàn),相比于其他領(lǐng)域,生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)采用結(jié)構(gòu)式摘要的比例較大,據(jù)統(tǒng)計(jì)在生物醫(yī)學(xué)領(lǐng)域ESI 高被引期刊中提供結(jié)構(gòu)式摘要的期刊占比高達(dá)到29.2%[30]。由此在生物醫(yī)學(xué)領(lǐng)域期刊中最終選取采用結(jié)構(gòu)式摘要的兩本醫(yī)學(xué)領(lǐng)域期刊JMIR mHealth and uHealth和Journal of Medical Internet Research,并獲取Journal of Medical Internet Research1999—2018 年刊載的所有文獻(xiàn)和JMIR mHealth and uHealth2013—2018 年刊載的所有文獻(xiàn),除去抓取失敗的論文共有3 130 篇。在3 130 篇科技文獻(xiàn)摘要中,共含有1 179 343 個(gè)詞,對(duì)其進(jìn)行逐句劃分,得到句子語(yǔ)料共48 107 條,平均句子長(zhǎng)度約為25 個(gè)詞,并將這些句子存在MySQL 數(shù)據(jù)庫(kù)中,由此構(gòu)成實(shí)驗(yàn)的原始語(yǔ)料集。

本研究通過(guò)對(duì)3 130 篇文獻(xiàn)的結(jié)構(gòu)式摘要采用的11種結(jié)構(gòu)功能標(biāo)題進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),所有標(biāo)簽共出現(xiàn)了48 107 次,平均每個(gè)標(biāo)簽出現(xiàn)在285 篇摘要里,其中Results出現(xiàn)的頻次最高,接下來(lái)依次是Conclustions、Methods、Introduction 和Background。由此,發(fā)現(xiàn)Introduction-Methods-Results-Conclusions 四結(jié)構(gòu)化摘要標(biāo)題組合較為常見(jiàn)。因此將科技文獻(xiàn)摘要的結(jié)構(gòu)功能歸納為“引言-方法-結(jié)果-結(jié)論(IMRC)” 4 個(gè)類(lèi)型可得到驗(yàn)證。依據(jù)本文的結(jié)構(gòu)功能分類(lèi)規(guī)則,根據(jù)結(jié)構(gòu)化摘要的標(biāo)題,將相應(yīng)句子賦予結(jié)構(gòu)功能分類(lèi)標(biāo)簽。其中,分類(lèi)標(biāo)簽與結(jié)構(gòu)化摘要標(biāo)題的對(duì)應(yīng)關(guān)系如表2 所示。

表2 摘要結(jié)構(gòu)功能及其標(biāo)記詞匯Table 2 Structural function of summary and its marked vocabulary

為更好地評(píng)價(jià)實(shí)驗(yàn)結(jié)果,在實(shí)驗(yàn)中選用5 折交叉驗(yàn)證法,因此將原始數(shù)據(jù)集分為5 份,選取其中4 份作為訓(xùn)練集,1 份作為測(cè)試集,以此來(lái)作為模型的評(píng)價(jià)指標(biāo)。重復(fù)進(jìn)行5 次上述過(guò)程,即選取5 組不同的訓(xùn)練集與測(cè)試集并分別進(jìn)行訓(xùn)練和測(cè)試。為保證同一篇文章內(nèi)的所有語(yǔ)料在同一份數(shù)據(jù)集中,首先將文章分為5 等份,每一份中包含626 篇摘要的全部語(yǔ)料,即分別包含8 998 條、9 449 條、9 612 條、9 357 條、10 691 條語(yǔ)料。將上述的語(yǔ)料集每次選出4 份為訓(xùn)練集、一份為測(cè)試集,然后再分別在本文使用的模型上進(jìn)行實(shí)驗(yàn)。

4.2 模型設(shè)置

本文實(shí)驗(yàn)在NVIDIA GeForce GTX 1080Ti GPU 上進(jìn)行,GPU 運(yùn)存11.0GB,使用Pytorch1.7 和Python3.7作為實(shí)驗(yàn)環(huán)境。在訓(xùn)練超參數(shù)設(shè)定上,訓(xùn)練次數(shù)epoch設(shè)為10 次,Hidden_size 表示隱藏層神經(jīng)元個(gè)數(shù)設(shè)置為768,Pad_size 表示最大序列長(zhǎng)度設(shè)置為100,F(xiàn)ilter_size 表示卷積核尺寸設(shè)置為(2,3,4),Num_filter 表示卷積層數(shù)量設(shè)置為100。Batch_size 表示每一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù),若Batch_size 過(guò)小將使得運(yùn)行度過(guò)慢,數(shù)值過(guò)大可能會(huì)導(dǎo)致內(nèi)存不夠用而降低準(zhǔn)確率。考慮到GPU 算力的限制采用每一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù)batch_size 為32,當(dāng)連續(xù)2個(gè)周期的預(yù)測(cè)準(zhǔn)確率仍然沒(méi)有提升時(shí),提前結(jié)束預(yù)測(cè)。

在損失函數(shù)設(shè)置上,選取分類(lèi)問(wèn)題中常用的交叉熵?fù)p失函數(shù),其loss 值隨預(yù)測(cè)概率變化如圖8 所示。

圖8 交叉熵函數(shù)的loss 值變化規(guī)律Fig.8 Variation law of loss value of cross entropy function

同時(shí),為避免過(guò)擬合現(xiàn)象,將Dropout 值設(shè)置為0.5,并采用Adam 優(yōu)化器 (Adaptive Moment Estimation)[31]與Warmup “熱身” 策略結(jié)合對(duì)學(xué)習(xí)率衰減進(jìn)行優(yōu)化,達(dá)到傳入更新的次數(shù)并能返回一個(gè)適當(dāng)?shù)膶W(xué)習(xí)率的目的[32]。Learning_rate 隨epoch 的變化如圖9 所示,在Learning_rate 達(dá)到初始化設(shè)置的0.000 02 前為預(yù)熱狀態(tài),此階段學(xué)習(xí)率線(xiàn)性增長(zhǎng),并在達(dá)到該點(diǎn)后開(kāi)始衰減。

圖9 learning_rate 優(yōu)化曲線(xiàn)Fig.9 Learning-rate optimization curve

4.3 模型評(píng)價(jià)指標(biāo)

對(duì)于模型對(duì)數(shù)據(jù)集中實(shí)體進(jìn)行預(yù)測(cè)的結(jié)果,當(dāng)其對(duì)實(shí)體的類(lèi)型和該實(shí)體所擁有的字符數(shù)量都預(yù)測(cè)正確時(shí)判定模型預(yù)測(cè)正確。采用準(zhǔn)確率P、召回率R以及F1值作為模型預(yù)測(cè)命名實(shí)體性能的評(píng)價(jià)指標(biāo),計(jì)算公式如下,并引入混淆矩陣進(jìn)行結(jié)果分析。公式中TP為模型預(yù)測(cè)正確的結(jié)構(gòu)功能個(gè)數(shù),TN為模型成功預(yù)測(cè)出錯(cuò)誤的結(jié)構(gòu)功能個(gè)數(shù),TP為模型預(yù)測(cè)錯(cuò)誤的結(jié)構(gòu)功能個(gè)數(shù),F(xiàn)n為未識(shí)別到的結(jié)構(gòu)功能個(gè)數(shù):

4.4 結(jié)果分析

4.4.1 模型性能對(duì)比分析

上述各模型在數(shù)據(jù)集下利用五折交叉檢驗(yàn)的性能指標(biāo)對(duì)比如表3 所示,其中每個(gè)模型的實(shí)驗(yàn)中P、R、F1指標(biāo)最高數(shù)值用加粗進(jìn)行標(biāo)識(shí)。

表3 各模型實(shí)驗(yàn)結(jié)果 單位:%Table 3 Experimental results of each model

通過(guò)對(duì)比BERT 模型和BERT-TextCNN 模型結(jié)果發(fā)現(xiàn)將BERT 模型后接TextCNN 層的結(jié)果略高于使用BERT 模型后接線(xiàn)性分類(lèi)函數(shù)。在前期進(jìn)行預(yù)實(shí)驗(yàn)時(shí),將一篇文章摘要以一結(jié)構(gòu)功能劃分而不是以句子為單位劃分進(jìn)行輸入時(shí),使用BERT-TextCNN 模型的平均F1值為87.85%,低于使用BERT 模型的平均F1值為91.12%。在正式實(shí)驗(yàn)中BERT-TextCNN 模型效果比BERT 模型好,但在預(yù)實(shí)驗(yàn)中的效果較差的原因主要在于BERTCNN 的句子對(duì)特征提取階段使用的CNN 網(wǎng)絡(luò)只能提取句子局部特征,且卷積之后的池化操作會(huì)進(jìn)一步損失位置信息,同時(shí)池化后會(huì)更突出某一種語(yǔ)義而削弱句子各個(gè)部分的其他語(yǔ)義。由于一篇文章的一個(gè)結(jié)構(gòu)功能中通常含有多個(gè)句子,因此其長(zhǎng)度遠(yuǎn)高于分句后,預(yù)實(shí)驗(yàn)中使用的數(shù)據(jù)集語(yǔ)料平均含有74 個(gè)詞,遠(yuǎn)多于正式實(shí)驗(yàn)中使用的平均長(zhǎng)度為25 個(gè)詞的語(yǔ)料。因此BERTCNN 模型對(duì)于較長(zhǎng)的文本尤其是長(zhǎng)難句的處理能力顯得較差,因?yàn)樵介L(zhǎng)的句子越有可能出現(xiàn)相互依賴(lài)的兩個(gè)或多個(gè)詞之間間隔很長(zhǎng)或是語(yǔ)義有轉(zhuǎn)折的情況,由此便可能帶來(lái)性能的減弱。由此可以總結(jié)出BERT-TextCNN 模型的優(yōu)點(diǎn)是可以并行計(jì)算,缺點(diǎn)是無(wú)法捕捉遠(yuǎn)距離特征且會(huì)損失位置信息,其更適合用于處理短文本相關(guān)任務(wù)。

通過(guò)對(duì)比BERT 模型和BERT-BiLSTM 模型結(jié)果發(fā)現(xiàn)BERT-BiLSTM 模型F1的最高值、最低值與平均值均高于沒(méi)有補(bǔ)充位置信息只使用線(xiàn)性函數(shù)的BERT模型,原因主要為BERT 模型在預(yù)訓(xùn)練過(guò)程中使用的是基于Self-attention 的Transformer 編碼單元,即使是有Position Encoding 作為BERT 的一部分輸入,訓(xùn)練過(guò)程中也還是弱化了位置信息。而在本文對(duì)于摘要文本功能識(shí)別任務(wù)中,獲得字詞在語(yǔ)句中的位置信息、方向信息會(huì)對(duì)提升識(shí)別結(jié)果的準(zhǔn)確率有很大幫助。

通過(guò)對(duì)比ERNIE 模型和上述3 模型發(fā)現(xiàn),結(jié)果發(fā)現(xiàn),ERNIE 模型各項(xiàng)數(shù)據(jù)的平均值都領(lǐng)先于其他模型,平均準(zhǔn)確率和召回率均超過(guò)了86%,最低F1值為84.94%,最高F1值88.98%,平均F1值達(dá)到了86.8%。初步證明了其處理文本分類(lèi)任務(wù)的優(yōu)越性,由于將外部知識(shí)引入到模型中,并通過(guò)多任務(wù)連續(xù)學(xué)習(xí)機(jī)制,因此模型的語(yǔ)義表示能力和自然語(yǔ)言推斷任務(wù)相較BERT 有一定提升。

4.4.2 不同結(jié)構(gòu)功能的識(shí)別效果對(duì)比分析

為進(jìn)一步分析深度學(xué)習(xí)模型針對(duì)每一結(jié)構(gòu)功能的具體性能,選取了4 模型中各自F值最高的情況,并對(duì)比了每個(gè)摘要結(jié)構(gòu)功能標(biāo)記具體的識(shí)別情況(表4)。

表4 模型最佳識(shí)別情況各結(jié)構(gòu)功能情況 單位:%Table 4 Best identification of model and function of each structure

從具體的結(jié)構(gòu)功能特征識(shí)別性能的角度來(lái)看實(shí)驗(yàn)結(jié)果,對(duì)于引言部分的識(shí)別,ERNIE 模型性能最好,BERT-TextCNN 模型較好,BERT 模型與BERT-BiL-STM 模型接近,二者均性能較差。對(duì)于方法部分的識(shí)別,ERNIE 模型性能最好,BERT-BiLSTM 模型其次,BERT-TextCNN 模型性能最差。對(duì)于結(jié)果部分的識(shí)別,ERNIE 模型性能最好,BERT 模型性能最差,兩者的F1值相差3.29%,對(duì)于結(jié)論部分的識(shí)別,ERNIE 模型性能最好,BERT 模型性能最差,兩者的F1值相差8.79%。由此可見(jiàn),ERNIE 模型在各個(gè)功能識(shí)別上均有較好的表現(xiàn),其最高F1值“方法” 結(jié)構(gòu)功能識(shí)別達(dá)到了92.55%。同時(shí),4 類(lèi)模型中均對(duì)“方法” 有較好的功能識(shí)別效果,而對(duì)“結(jié)論” 的識(shí)別效果較差,原因主要是“方法” 部分特征較為明顯且易于區(qū)分,而相對(duì)于其他的功能結(jié)構(gòu)“結(jié)論” 部分在文獻(xiàn)摘要中所占篇幅偏少。除此之外,在“方法” 部分,BERT-TextCNN的性能較差而B(niǎo)ERT-BiLSTM 模型較好,且二者有較大的差距,其主要原因在于BiLSTM 模型可以使分類(lèi)模型更好地結(jié)合上下文信息位置信息,而B(niǎo)ERTTextCNN 模型捕捉局部信息而模糊位置信息,因此對(duì)于平均文本長(zhǎng)度更長(zhǎng)的“方法” 功能結(jié)構(gòu)識(shí)別BERTBiLSTM 模型取得了相對(duì)于BERT-TextCNN 模型更好的效果。

在此基礎(chǔ)上選取綜合識(shí)別性能最優(yōu)的ERNIE 模型為研究對(duì)象,通過(guò)構(gòu)建如表5 所示的混淆矩陣,來(lái)分析該模型的誤識(shí)情況。從結(jié)果中可以看出,“引言”部分主要被誤識(shí)為“結(jié)論”,“方法” 部分主要被誤識(shí)為“結(jié)果” 和“引言”,“結(jié)果” 部分主要被誤識(shí)為“方法” 和“結(jié)論”,“結(jié)論” 部分主要被誤識(shí)為“引言” 和“結(jié)果”??偟膩?lái)看,大部分的誤識(shí)情況都是將其誤識(shí)為與其相鄰的上下文結(jié)構(gòu)功能,主要原因是緊鄰的結(jié)構(gòu)功能句間可能存在過(guò)渡句,使其難以分辨屬性。唯一的例外是“引言” 和“結(jié)論” 這一對(duì)結(jié)構(gòu)功能,二者分屬摘要的首尾兩部、并不相鄰,原因主要是這兩部分的內(nèi)容存在較大的相似性,從單句中較難進(jìn)行準(zhǔn)確的識(shí)別。

表5 ERNIE 模型混淆矩陣Table 5 Confusion matrix of ERNIE model

5 結(jié)論

本文在前期調(diào)研的基礎(chǔ)上獲得了“IMRC” 這一針對(duì)科技文獻(xiàn)較為普適的結(jié)構(gòu)功能要素歸納框架,以便于理解文獻(xiàn)摘要的微觀功能結(jié)構(gòu),同時(shí)為實(shí)現(xiàn)文獻(xiàn)摘要的語(yǔ)義檢索提供數(shù)據(jù)來(lái)源。將科技文獻(xiàn)摘要特征功能識(shí)別任務(wù)轉(zhuǎn)換為文本分類(lèi)問(wèn)題,以eHealth 領(lǐng)域兩本期刊的論文摘要為語(yǔ)料集,在BERT、BERT-BiLSTM、BERT-TextCNN、ERNIE 等深度學(xué)習(xí)模型上進(jìn)行應(yīng)用與對(duì)比,并按照五折交叉檢驗(yàn)的方式設(shè)計(jì)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明ERNIE 模型在科技文獻(xiàn)摘要功能識(shí)別任務(wù)上性能較好,F(xiàn)1值具有在文本分類(lèi)領(lǐng)域進(jìn)一步應(yīng)用拓展的可能性,同時(shí)在對(duì)比BERT-BiLSTM、BERT-TextCNN 的實(shí)驗(yàn)結(jié)果后發(fā)現(xiàn),在處理較長(zhǎng)文本時(shí)BERT-TextCNN的性能較差而B(niǎo)ERT-BiLSTM 模型較好,因此在針對(duì)不同類(lèi)型的文本時(shí)可選擇不同的模型以達(dá)到更好的分類(lèi)效果。在摘要句功能識(shí)別任務(wù)中詞語(yǔ)識(shí)別起著決定性作用,但剝離語(yǔ)境的單一詞語(yǔ)存在導(dǎo)向不明的問(wèn)題,可能會(huì)導(dǎo)致功能識(shí)別的不準(zhǔn)確。本文在BERT、ERNIE等深度學(xué)習(xí)模型基礎(chǔ)上,利用摘要文本包含的語(yǔ)義信息,結(jié)合上下文特征構(gòu)建和優(yōu)化摘要功能識(shí)別模型,將對(duì)后續(xù)類(lèi)似的短文本結(jié)構(gòu)功能識(shí)別任務(wù)提供方法指導(dǎo),有助于基于關(guān)鍵信息語(yǔ)塊的知識(shí)挖掘應(yīng)用。

本文實(shí)驗(yàn)中選用的是同一個(gè)領(lǐng)域內(nèi)科技文獻(xiàn)的結(jié)構(gòu)式摘要,而不同學(xué)科領(lǐng)域或語(yǔ)言情境下的科技文獻(xiàn)摘要寫(xiě)作可能存在差異性。同時(shí),現(xiàn)有的摘要中非結(jié)構(gòu)式摘要占比更大且可能會(huì)更復(fù)雜,因此未來(lái)將在更大規(guī)模、更廣領(lǐng)域的數(shù)據(jù)集上進(jìn)行工程化應(yīng)用探索,并嘗試構(gòu)建更精細(xì)的知識(shí)組織。

猜你喜歡
結(jié)構(gòu)式語(yǔ)料分類(lèi)
分類(lèi)算一算
結(jié)構(gòu)式摘要撰寫(xiě)要求
結(jié)構(gòu)式摘要撰寫(xiě)要求
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
有機(jī)物分子式、結(jié)構(gòu)式的確定
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語(yǔ)料
门头沟区| 开鲁县| 木兰县| 黄龙县| 尚义县| 奈曼旗| 景宁| 宝兴县| 青岛市| 墨玉县| 东丰县| 汝南县| 临颍县| 盐山县| 平顶山市| 息烽县| 阳泉市| 蓝田县| 安西县| 六枝特区| 姚安县| 昭通市| 安阳县| 奉贤区| 万山特区| 辰溪县| 宁武县| 澄迈县| 融水| 惠来县| 交城县| 溆浦县| 渭源县| 开封市| 富顺县| 故城县| 湛江市| 新和县| 祁阳县| 南充市| 竹溪县|