国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向信息與通信技術(shù)供應(yīng)鏈網(wǎng)絡(luò)畫像構(gòu)建的文本語義匹配方法

2021-09-14 09:21羅森林楊俊楠潘麗敏吳舟婷
北京理工大學(xué)學(xué)報 2021年8期
關(guān)鍵詞:編碼器文檔向量

羅森林, 楊俊楠, 潘麗敏, 吳舟婷

(北京理工大學(xué) 信息與電子學(xué)院,北京 100081)

隨著全球化進(jìn)程的發(fā)展,信息和通信技術(shù)供應(yīng)鏈(information and communications technology supply chain management,ICT供應(yīng)鏈)具備全球分布性以及供應(yīng)商多樣性等特點(diǎn),與此同時也帶來了供應(yīng)中斷、信息泄露等安全隱患[1].自2019年5月以來,美國商務(wù)部分別將華為及其旗下累積達(dá)144個附屬關(guān)聯(lián)公司列入出口管制的“實(shí)體清單”,對我國信息通信技術(shù)相關(guān)產(chǎn)業(yè)的經(jīng)濟(jì)發(fā)展帶來巨大沖擊.因此,加強(qiáng)ICT供應(yīng)鏈管理已成為關(guān)乎國民經(jīng)濟(jì)和國家安全的重要工作[2].為有效管控ICT供應(yīng)鏈的安全風(fēng)險,需要充分挖掘多層級供應(yīng)關(guān)系,在安全事件發(fā)生時,及時開展關(guān)聯(lián)分析、評估事件影響范圍.各行業(yè)招投標(biāo)平臺網(wǎng)站、供應(yīng)商官網(wǎng)和國家企業(yè)信用信息網(wǎng)等公開數(shù)據(jù)可以為ICT供應(yīng)鏈網(wǎng)絡(luò)多層級關(guān)系挖掘提供了可行性,而基于公開數(shù)據(jù)挖掘ICT供應(yīng)關(guān)系需要完成的首要任務(wù)是ICT招投標(biāo)項目文本和供應(yīng)商產(chǎn)品文本的正確匹配.

文本匹配是自然語言處理中的一項基本技術(shù)[3],用于確定兩個文本的關(guān)系.在釋義識別任務(wù)中,文本匹配用于確定兩個文本是否釋義[4].對于自然語言推理任務(wù),文本匹配用于判斷是否可以從前提語句中推斷假設(shè)語句[5].在問答任務(wù)中,文本匹配用于判斷兩個問題句是否意義相同,并指向同一個答案.目前文本匹配方法主要分為兩種框架,第一種框架是基于句子單獨(dú)編碼的方法[6-7],在此框架中,將神經(jīng)網(wǎng)絡(luò)編碼器(例如CNN或LSTM)分別應(yīng)用于兩個輸入文本,將兩個文本編碼為相同嵌入空間中的表示向量,僅基于兩個表示向量做出匹配決策,例如THYAGARAJAN[8]和HUANG[9]等的工作.第二種框架是增加句子交互機(jī)制的匹配方法.該框架首先對兩個文本的單詞或者上下文向量進(jìn)行匹配,然后將匹配結(jié)果通過CNN或LSTM等編碼器編碼為向量,以給出最終匹配結(jié)果.這種匹配框架捕獲了兩個文本之間的交互信息,相對于第一種框架,性能有明顯改進(jìn).目前的研究工作大都使用注意力機(jī)制作為交互層來表達(dá)詞匯或短語級別的對齊方式[10-11].例如ESIM[11]使用注意力機(jī)制,采用雙向LSTM作為編碼器和聚合器.在此基礎(chǔ)上,研究人員主要采用三種方法來進(jìn)一步提高性能.首先是使用更豐富的語法或手工設(shè)計的特征.HIM[11]使用語法分析樹,也有研究使用POS標(biāo)簽,包括TAYETAL[12]和GONG等[13]等的研究.在GONG[13]和KIM等[3]的工作中,包含詞性標(biāo)注和字向量注意力機(jī)制等密集交互的方法得到了較為精準(zhǔn)的匹配結(jié)果.第二種方法是使用更多元的匹配機(jī)制.ABCNN[4]采用了3種不同的注意力方案來融合序列間不同的交互特征.增強(qiáng)模型的第三種方法是為匹配結(jié)果構(gòu)建后處理層.DIIN[13]用DenseNet作為深度卷積特征提取器,以從匹配結(jié)果中提取信息.除以上3種方法之外,也有研究通過序列間的多次匹配來構(gòu)建更有效的模型.DRCN[3]堆疊編碼和對齊層,它連接所有先前對齊的結(jié)果,但是必須使用自動編碼器來處理特征空間爆炸的問題.RE2[14]保留原始的詞向量特征、先前的對齊特征和上下文特征3個關(guān)鍵特征以進(jìn)行序列間比對,并通過增強(qiáng)殘差連接所有特征.這些常見文本匹配方法一般針對以句子匹配為目標(biāo)的數(shù)據(jù)集,其輸入為形式相同的句子級短文本,未對輸入數(shù)據(jù)的結(jié)構(gòu)化特征進(jìn)行考慮.

ICT領(lǐng)域文本匹配的輸入數(shù)據(jù)源種類更多,形式復(fù)雜,目前沒有針對性的解決方案.招投標(biāo)平臺公開的招投標(biāo)項目是基于功能描述的實(shí)體級項目名稱(如圖1(a)、(b)),而供應(yīng)商官網(wǎng)產(chǎn)品頁面信息包含實(shí)體級的產(chǎn)品名稱和文檔級的產(chǎn)品描述(如圖1(c)、(d)).其中,實(shí)體級的產(chǎn)品名稱,其命名方式分為基于功能命名(例如“動環(huán)監(jiān)控系統(tǒng)解決方案”)和基于型號命名(例如“雷米微服務(wù)云平臺-RayMix”).文檔級的產(chǎn)品描述內(nèi)容較長,通常包括產(chǎn)品結(jié)構(gòu)、功能、性能和使用說明等多方面描述.針對ICT輸入數(shù)據(jù)源的文本特點(diǎn),常見文本匹配方法不支持ICT招投標(biāo)項目與供應(yīng)商產(chǎn)品文本匹配的原因有以下兩點(diǎn).

① 供應(yīng)商產(chǎn)品與招投標(biāo)項目相關(guān)的信息分布于產(chǎn)品名稱和產(chǎn)品描述,現(xiàn)有文本匹配方法對不同長度文本無差別編碼會引入與招投標(biāo)項目無關(guān)的噪聲信息.對于基于功能命名的產(chǎn)品,將產(chǎn)品名稱和產(chǎn)品描述無差別地輸入到句子級編碼器與招投標(biāo)項目進(jìn)行匹配,產(chǎn)品描述中結(jié)構(gòu)、性能、使用方法等與招投標(biāo)項目無關(guān)的信息將對包含功能描述的產(chǎn)品名稱產(chǎn)生干擾(如圖1(a)、(c)),產(chǎn)品編碼向量引入大量噪聲,降低性能.而基于型號命名的產(chǎn)品,其名稱無法體現(xiàn)功能信息,需要從產(chǎn)品描述中提取功能描述信息,與招投標(biāo)項目進(jìn)行匹配(如圖1(b)、(d)).

② 僅使用單一種類句子級編碼器無法有效對產(chǎn)品名稱和產(chǎn)品描述進(jìn)行編碼.由于產(chǎn)品名稱為實(shí)體級的短文本,語義分布集中于詞匯或短語,需要有效提取其局部信息;而產(chǎn)品描述為文檔級的長文本,內(nèi)容多且主題分散,為了提取與招投標(biāo)項目相關(guān)的功能描述信息,需要同時考慮產(chǎn)品描述上下文的全局信息和介紹功能的局部重點(diǎn)信息.

面向ICT招投標(biāo)項目與供應(yīng)商產(chǎn)品文本匹配任務(wù),針對ICT項目及產(chǎn)品數(shù)據(jù)種類多、形式復(fù)雜,難以提取其語義匹配信息,且現(xiàn)有句子級文本匹配模型對不同長度文本無差別編碼會引入噪聲導(dǎo)致匹配效果差的問題,本文提出一種融合局部和全局特征的實(shí)體-文檔級聯(lián)合匹配模型(entity-document level joint matching model,EDJM),該模型首先構(gòu)建實(shí)體-實(shí)體匹配模塊,利用TextCNN編碼器從不同范圍提取招投標(biāo)項目和產(chǎn)品名稱的局部信息進(jìn)行匹配,消除產(chǎn)品描述中與招投標(biāo)項目無關(guān)信息的影響;再構(gòu)建實(shí)體-文檔匹配模塊,利用卷積-自注意力編碼器提取招投標(biāo)項目和產(chǎn)品描述的局部和全局信息,并通過對齊層序列間的注意力交互機(jī)制增加產(chǎn)品描述中與招投標(biāo)項目有關(guān)信息的權(quán)重,然后進(jìn)行匹配;最后聯(lián)合決策匹配結(jié)果.該聯(lián)合匹配模型既能兼顧產(chǎn)品名稱和產(chǎn)品描述的信息,又能消除產(chǎn)品描述對產(chǎn)品名稱的干擾,實(shí)驗結(jié)果表明該模型能有效提高匹配性能,方法已實(shí)現(xiàn)直接實(shí)際應(yīng)用.

本文提出了EDJM模型,其主要貢獻(xiàn)如下.

① 提出一種融合局部和全局特征的實(shí)體-文檔級聯(lián)合匹配模型,通過將產(chǎn)品名稱和產(chǎn)品描述與招投標(biāo)項目進(jìn)行聯(lián)合匹配,消除產(chǎn)品描述中與招投標(biāo)無關(guān)信息對產(chǎn)品名稱的干擾,并針對不同長度文本的編碼要求,選取TextCNN和CNN-SA作為編碼器提取文本局部和全局信息,提升匹配性能,方法可直接實(shí)際應(yīng)用.

② EDJM在ICT文本匹配數(shù)據(jù)集上F1值達(dá)到57.18%,優(yōu)于其他匹配模型.

1 實(shí)體-文檔級聯(lián)合匹配模型

1.1 原理框架

針對ICT項目及產(chǎn)品數(shù)據(jù)種類多、形式復(fù)雜,難以提取其語義匹配信息,且現(xiàn)有句子級文本匹配模型對不同長度文本無差別編碼會引入噪聲導(dǎo)致匹配效果差的問題,EDJM首先構(gòu)建實(shí)體-實(shí)體匹配模塊,利用TextCNN編碼器提取招投標(biāo)項目和產(chǎn)品名稱的局部信息進(jìn)行匹配,消除產(chǎn)品描述中與招投標(biāo)項目無關(guān)信息的影響;再構(gòu)建實(shí)體-文檔匹配模塊,利用卷積-自注意力編碼器提取招投標(biāo)項目和產(chǎn)品描述的局部和全局信息進(jìn)行匹配;最后聯(lián)合決策匹配結(jié)果.EDJM的原理框圖如圖2所示.

圖2 EDJM原理圖Fig.2 Principle diagram of EDJM

1.2 實(shí)體-實(shí)體匹配模塊

1.2.1編碼層

嵌入層將兩個待匹配文本嵌入為固定維度的向量,編碼層使用TextCNN利用不同粒度卷積窗口對文本進(jìn)行特征抽取.xi∈Rk對應(yīng)于文本中第i個詞的k維詞向量,那么長度為n的句子則表示為

x1:n=x1⊕x2⊕…⊕xn

(1)

式中:⊕表示拼接操作;xi:i+j表示xi,xi+1,…,xi+j的串聯(lián).卷積運(yùn)算的濾波器w∈Rhk應(yīng)用于h個單詞的窗口以產(chǎn)生新的特征,例如,從詞xi:i+h-1產(chǎn)生特征ci

ci=f(w*xi:i +h -1+b)

(2)

式中:b∈r為偏置項,f為非線性激活函數(shù).該濾波器應(yīng)用于句子{x1:h,x2:h+1,…,xn-h+1:n}中每個可能的單詞窗口以生成特征圖

c=[c1c2…cn -h +1]

(3)

以上為一個濾波器提取實(shí)體特征的過程,TextCNN使用多個濾波器來捕獲多個特征.所有的特征被饋送進(jìn)全連接層,輸出固定維度向量.

編碼層在全連接層之前采用權(quán)重向量的L2范數(shù)約束進(jìn)行正則化,在前向傳播中以dropout概率隨機(jī)刪除隱藏單元參數(shù)來防止過擬合

y=w*(z°r)+b

(4)

其中[°]為逐元素相乘運(yùn)算符.

1.2.2匹配層

(5)

這使得TextCNN在訓(xùn)練過程當(dāng)中完全捕獲待匹配實(shí)體的語義差異,避免用復(fù)雜的學(xué)習(xí)器來修正TextCNN形成的向量造成語義損失.

由于訓(xùn)練的早期階段,基于L2范數(shù)的模型無法糾正錯誤,而基于歐幾里得距離的模型則由于梯度消失問題,將語義不同的句子錯誤判斷為相同,因此論文選擇基于曼哈頓距離的g函數(shù)作為相似性度量函數(shù),從經(jīng)驗上看[8],基于曼哈頓距離的g函數(shù)性能更優(yōu).

1.3 實(shí)體-文檔匹配模塊

在實(shí)體-文檔匹配模塊中,兩個文本被嵌入為向量表示,然后由N個結(jié)構(gòu)相同的連續(xù)構(gòu)建塊通過增強(qiáng)的殘差連接進(jìn)行連續(xù)處理,每個構(gòu)建塊參數(shù)獨(dú)立.在每個塊內(nèi),CNN-SA編碼器首先計算文本的上下文特征(圖2中的實(shí)心圓圈),然后連接編碼器的輸入和輸出,將其饋送進(jìn)對齊層,對兩文本之間的對齊和交互進(jìn)行建模.融合層融合了對齊層的輸入和輸出,其輸出即為構(gòu)建塊的最終輸出.最后一塊的輸出輸入到池化層,并轉(zhuǎn)換為固定長度的向量.預(yù)測層將兩個向量作為輸入并預(yù)測最終目標(biāo).損失函數(shù)使用交叉熵?fù)p失[14].

1.3.1增強(qiáng)殘差連接

(6)

式中[;]表示拼接操作.在增強(qiáng)殘差連接下,對齊和融合層的輸入中包含全程保持不變的原始點(diǎn)狀特征(嵌入向量),由先前塊處理和優(yōu)化的先前對齊特征(剩余向量)以及上下文編碼器層的特征(編碼向量)[14].

1.3.2編碼層

編碼器讀取殘差塊的輸入x(n),然后通過以下方式獲得輸出a(或者b)

a=F(x(n))

(7)

式中:F代表模型編碼器的函數(shù);a=[a1a2…ala].編碼器由3層網(wǎng)絡(luò)堆疊:多層卷積層,自注意力層和前饋層,并在每一層之間進(jìn)行標(biāo)準(zhǔn)化處理,編碼器的結(jié)構(gòu)如圖3所示[15].

圖3 CNN-SA編碼器Fig.3 CNN-SA encoder

多層卷積層使用深度可分離卷積而不是傳統(tǒng)卷積,因為深度可分離卷積存儲效率更高且通用性更好,這一層將堆疊多層卷積.對于自注意力層,本文采用多頭注意力機(jī)制,其計算過程如圖4所示.

圖4 多頭注意力機(jī)制Fig.4 Multi-head attention

其中,圖4的虛線框部分為按比例縮放的點(diǎn)積,其計算公式如下

(8)

應(yīng)用卷積運(yùn)算將輸入矩陣x(n)映射為Q,K和V三個矩陣,并使用h個并行的頭來關(guān)注向量的不同部分.對于第i個頭,可以獲得3個矩陣Qi,Ki,Vi.縮放點(diǎn)積注意力用于計算Qi和Ki與最終向量表示Hi之間的相關(guān)性;最后,將由h個并行頭產(chǎn)生的所有向量拼接在一起形成一個向量.這個向量是多頭注意的結(jié)果.計算公式為

MultiHead(Q,K,V)=Concat(H1,H2,…,Hh)

(9)

對于前饋層,論文使用兩種傳統(tǒng)的卷積操作.編碼器中的這些基本操作(卷積、自注意力、前饋)位于殘差塊中,對于給定的輸入x和給定的運(yùn)算f,殘差塊的輸出為

x=f(layernorm(x))+x

(10)

其中,layernorm表示層歸一化處理.

1.3.3對齊層

對齊層采用基于注意力機(jī)制的對齊方式,將兩個文本序列的特征作為輸入,以計算的對齊表示作為輸出.假設(shè)第一個實(shí)體序列長度為la,表示為a=(a1,a2,…,ala),第二個實(shí)體序列為lb,表示為b=(b1,b2,…,blb).ai和bi之間的相似性得分eij由二者的投影向量點(diǎn)積計算而得

eij=F(ai)TF(bj)

(11)

F是單層前饋網(wǎng)絡(luò).輸出向量a′和b′通過對另一文本序列的表示進(jìn)行加權(quán)求和來計算[14].該總和由當(dāng)前位置與另一個序列中相應(yīng)位置之間的相似性分?jǐn)?shù)加權(quán)

(12)

(13)

1.3.4融合層

融合層從3個角度比較局部以及對齊層的表示,然后將它們?nèi)诤显谝黄?第一個序列的融合層的輸出如下

(14)

(15)

(16)

(17)

其中G1,G2,G3和G是具有獨(dú)立參數(shù)的單層前饋網(wǎng)絡(luò),而[°]表示逐元素乘法.減法運(yùn)算突出顯示兩個向量之間的差異,而乘法則突顯相似性.b的計算方式與a相同,不再贅述[14].

1.3.5預(yù)測層

預(yù)測層將來自池化層的兩個序列v1和v2的向量表示作為輸入,最終目標(biāo)預(yù)測函數(shù)為

y2=H([v1;v2;v1-v2;v1°v2])

(18)

式中:H為多層前饋神經(jīng)網(wǎng)絡(luò).

1.4 決策輸出模塊

決策輸出模塊采用分類器投票的方式.假設(shè)實(shí)體-實(shí)體匹配模塊的輸出表示為y1,實(shí)體-文檔匹配模塊的輸出表示為y2,模塊交互層表示為

y=y1‖y2

(19)

2 實(shí)驗分析

2.1 實(shí)驗數(shù)據(jù)

實(shí)驗數(shù)據(jù)為ICT招投標(biāo)項目與供應(yīng)商官網(wǎng)產(chǎn)品文本匹配數(shù)據(jù)集(ICT數(shù)據(jù)集),ICT數(shù)據(jù)集由北京理工大學(xué)信息安全與對抗實(shí)驗中心采用網(wǎng)絡(luò)爬蟲技術(shù),從招投標(biāo)平臺以及各中標(biāo)公司官網(wǎng)獲取,并由25位自然語言處理領(lǐng)域碩士、博士研究生進(jìn)行3次交叉驗證標(biāo)注,將最終結(jié)果進(jìn)行合并、評估,當(dāng)多數(shù)標(biāo)注者(兩位及以上)認(rèn)為該文本對具有高度匹配關(guān)系時,則認(rèn)為該文本對是匹配的.

ICT數(shù)據(jù)集每一條樣本包含3個字段:招投標(biāo)項目名稱、產(chǎn)品(包含產(chǎn)品名稱和產(chǎn)品描述)、標(biāo)簽,數(shù)據(jù)集詳細(xì)信息如表1所示.

表1 ICT數(shù)據(jù)集詳細(xì)信息

2.2 評價方法

ICT數(shù)據(jù)集存在數(shù)據(jù)不平衡的特點(diǎn),實(shí)驗采用準(zhǔn)確率,F(xiàn)1值和AUC值對結(jié)果進(jìn)行評價.

若一個實(shí)例是正例,被預(yù)測成為正例,即為真正例(true postive,TP);若一個實(shí)例是負(fù)例,被預(yù)測成為負(fù)例,即為真負(fù)例ηTP(true negative,TN)ηTN;若一個實(shí)例是負(fù)例,但是被預(yù)測成為正例,即為假正例(false postive,F(xiàn)P)ηTP;若一個實(shí)例是正例,但是被預(yù)測成為負(fù)例,即為假負(fù)例(false negative,F(xiàn)N)ηTN.

準(zhǔn)確率α(accuracy)即正確預(yù)測的樣本總數(shù),公式為

(20)

精確度β(precision)表示被分為正例的樣本中實(shí)際為正例的比例

(21)

召回率r(recall)表示在所有正例當(dāng)中,有多少正例被正確地分為正例

(22)

F1值綜合考慮了精確度和召回率,計算公式為

(23)

ROC(receiver operating characteristic)曲線是以假正率(FP rate)和假負(fù)率(TP rate)為軸的曲線,ROC曲線下面的面積叫做AUC,AUC的值越大,模型性能越好.

2.3 對比分析實(shí)驗

2.3.1實(shí)驗?zāi)康?/p>

為了驗證EDJM在ICT招投標(biāo)項目與供應(yīng)商產(chǎn)品匹配任務(wù)上的效果,在ICT數(shù)據(jù)集上與7個對比算法進(jìn)行比較.

2.3.2實(shí)驗過程

實(shí)驗采用十折交叉驗證方法,將EDJM同7種文本匹配方法進(jìn)行比較,包括DSSM[11](2013)、MaLSTM[10](2015)、ESIM[9](2016)、ABCNN[4](2018)、DIIN[13](2018)、DRCN[3](2018)、RE2[14](2019),其中ESIM使用原始ICT數(shù)據(jù)集進(jìn)行實(shí)驗表示為ESIM-1,使用下采樣之后正負(fù)樣本比1∶2的ICT數(shù)據(jù)集進(jìn)行實(shí)驗表示為ESIM-2.模型的預(yù)訓(xùn)練詞向量300維,語料庫為中文維基百科,由word2vec中的連續(xù)詞袋(CBOW)模型進(jìn)行訓(xùn)練[16],詞表大小為961 M.將數(shù)據(jù)按8∶1∶1分為訓(xùn)練集、驗證集與測試集,EDJM的CNN-SA編碼器卷積核的數(shù)量為128,在一個編碼器中卷積層的數(shù)量為4,在所有層中,多頭注意力的頭的數(shù)量為5.

2.3.3實(shí)驗結(jié)果

表2的實(shí)驗結(jié)果顯示,EDJM在ICT數(shù)據(jù)集上的準(zhǔn)確率、F1值和AUC值均為最佳,優(yōu)于對比算法.在對比算法中,ESIM模型在ICT數(shù)據(jù)集上F1值為0,經(jīng)過下采樣后的ICT數(shù)據(jù)集在ESIM上正常訓(xùn)練,說明模型在極度不平衡的數(shù)據(jù)集上無法正常訓(xùn)練,EDJM對不平衡數(shù)據(jù)具有一定魯棒性.由此可證明,對比算法對不同長度文本無差別編碼會引入與招投標(biāo)項目無關(guān)的噪聲信息,EDJM將產(chǎn)品名稱和產(chǎn)品描述與招投標(biāo)項目進(jìn)行聯(lián)合匹配能夠消除產(chǎn)品描述對產(chǎn)品名稱的干擾,有效提升匹配性能.

表2 ICT數(shù)據(jù)集對比實(shí)驗結(jié)果

2.4 模塊有效性實(shí)驗

2.4.1實(shí)驗?zāi)康?/p>

為驗證EDJM各模塊對模型的作用以及各編碼器對模塊的影響,在ICT數(shù)據(jù)集上與7種方法或組合進(jìn)行比較.

2.4.2實(shí)驗過程

實(shí)驗設(shè)置按照輸入分為3類,(1)~(2)組實(shí)驗僅使用EDJM模型的實(shí)體-實(shí)體匹配模塊完成匹配,它們的輸入為:招投標(biāo)項目名稱、產(chǎn)品名稱、標(biāo)簽,不同的是(1)組使用雙向LSTM編碼器,(2)組即為EDJM實(shí)體-實(shí)體匹配模塊,使用TextCNN編碼器.(3)~(5)實(shí)驗僅使用EDJM模型的實(shí)體-文檔匹配模塊完成匹配,他們的輸入為:招投標(biāo)項目名稱、產(chǎn)品描述、標(biāo)簽,不同的是(3)組使用CNN編碼器,(4)組實(shí)驗使用雙向LSTM編碼器,(5)組實(shí)驗即為EDJM實(shí)體-文檔匹配模塊,使用CNN-SA編碼器.(6)~(8)組實(shí)驗使用聯(lián)合匹配模型來完成匹配,它們的輸入為原始ICT數(shù)據(jù)集,不同的是(6)組的兩個模塊都使用CNN編碼器,(7)組的兩個模塊都使用CNN-SA編碼器,(8)組即為EDJM模型,實(shí)體-實(shí)體匹配模塊使用TextCNN編碼器,實(shí)體-文檔匹配模塊使用CNN-SA編碼器.

其中,雙向LSTM的隱藏單元為50,句子長度(1)組設(shè)置為15,(4)組設(shè)置為999.

2.4.3實(shí)驗結(jié)果

表3結(jié)果顯示,EDJM在Accuracy、F1、AUC上的性能優(yōu)于僅使用其中一個模塊的實(shí)體-實(shí)體匹配模型和實(shí)體-文檔匹配模型,EDJM-CNN的性能也優(yōu)于僅使用其中一個模塊的實(shí)體-實(shí)體匹配模型和基于CNN的實(shí)體-文檔匹配模型.僅使用招投標(biāo)項目和產(chǎn)品描述進(jìn)行匹配,F(xiàn)1值下降近17個百分點(diǎn),這是由于大部分產(chǎn)品是基于功能命名,只依靠產(chǎn)品描述進(jìn)行匹配丟失了名稱中的功能描述信息;同樣,僅使用招投標(biāo)項目和產(chǎn)品名稱進(jìn)行匹配的實(shí)體-實(shí)體匹配模型性能也有所降低,這是因為只依靠產(chǎn)品名稱無法對基于型號命名的產(chǎn)品進(jìn)行匹配.因此證明供應(yīng)商產(chǎn)品與招投標(biāo)項目相關(guān)的信息分布于產(chǎn)品名稱和產(chǎn)品描述,EDJM的實(shí)體-實(shí)體匹配模塊、實(shí)體-文檔匹配模塊對于匹配效果均有提升作用.

表3 模塊有效性實(shí)驗結(jié)果

在(1)~(2)組的實(shí)驗中,實(shí)體-實(shí)體匹配模型的性能優(yōu)于基于LSTM的模型,原因在于產(chǎn)品名稱語義分布集中,局部信息對匹配更有效,textCNN可提取產(chǎn)品名稱的局部信息,雙向LSTM是基于序列的編碼器,更側(cè)重于建模全局信息,對局部信息的提取效果不如TextCNN;在(4)~(6)組的實(shí)驗中,使用CNN或者LSTM作為編碼器性能都低于實(shí)體-文檔匹配模型,原因在于產(chǎn)品描述為主題分散的長文本,CNN無法有效兼顧全局和局部信息,而LSTM對局部信息提取能力弱.(6)~(8)組的實(shí)驗中,使用單一種類編碼器的EDJM-( CNN-SA)和EDJM-CNN表現(xiàn)不如EDJM.因此證明,單一種類編碼器無法有效編碼產(chǎn)品名稱和產(chǎn)品描述,且實(shí)體-實(shí)體匹配模塊的TextCNN能有效提取產(chǎn)品名稱的局部信息、實(shí)體-文檔匹配模塊的CNN-SA能有效提取產(chǎn)品描述的局部和全局信息.

3 結(jié) 論

面向ICT招投標(biāo)項目與供應(yīng)商產(chǎn)品文本匹配任務(wù),針對ICT項目及產(chǎn)品數(shù)據(jù)種類多、形式復(fù)雜,難以提取其語義匹配信息,且現(xiàn)有句子級文本匹配模型對不同長度文本無差別編碼會引入噪聲導(dǎo)致匹配效果差的問題,論文提出了一種融合局部和全局特征的實(shí)體-文檔級聯(lián)合匹配模型.通過構(gòu)建實(shí)體-實(shí)體匹配模塊,利用TextCNN編碼器提取產(chǎn)品名稱的局部信息與招投標(biāo)項目進(jìn)行匹配,消除產(chǎn)品描述中與招投標(biāo)項目無關(guān)信息的影響;構(gòu)建實(shí)體-文檔匹配模塊,采用卷積-自注意力編碼器提取產(chǎn)品描述的局部和全局信息與招投標(biāo)項目進(jìn)行匹配;最后聯(lián)合兩模塊匹配信息,投票得到匹配結(jié)果.為了評估該模型在文本匹配問題上的效果,將EDJM同ABCNN、ESIM、RE2等文本匹配模型上在ICT數(shù)據(jù)集上進(jìn)行對比,依據(jù)準(zhǔn)確率、F1值、AUC值3個評價指標(biāo)進(jìn)行評價,結(jié)果表明EDJM模型能夠有效提高匹配性能.論文方法已應(yīng)用于“重點(diǎn)行業(yè)ICT產(chǎn)品(或系統(tǒng)、服務(wù))供應(yīng)鏈網(wǎng)絡(luò)畫像和安全風(fēng)險分析實(shí)用系統(tǒng)”,其中,EDJM模型實(shí)現(xiàn)了招投標(biāo)項目和供應(yīng)商官網(wǎng)產(chǎn)品的關(guān)聯(lián)分析,攻克了挖掘ICT供應(yīng)鏈多層級網(wǎng)絡(luò)關(guān)系中的關(guān)鍵技術(shù)難題.在后續(xù)應(yīng)用中,基于多層級ICT供應(yīng)鏈網(wǎng)絡(luò)開展的關(guān)鍵節(jié)點(diǎn)和安全風(fēng)險分析準(zhǔn)確率超過90%.

目前ICT領(lǐng)域文本匹配缺乏大型公開數(shù)據(jù)集,研究未來將嘗試與遷移學(xué)習(xí)相結(jié)合,利用其他領(lǐng)域豐富的標(biāo)注資源,提高ICT招投標(biāo)項目與供應(yīng)商產(chǎn)品文本匹配的性能.

猜你喜歡
編碼器文檔向量
基于ResNet18特征編碼器的水稻病蟲害圖像描述生成
淺談Matlab與Word文檔的應(yīng)用接口
向量的分解
有人一聲不吭向你扔了個文檔
輕松編輯PDF文檔
基于Beaglebone Black 的絕對式編碼器接口電路設(shè)計*
Word文檔 高效分合有高招
基于TMS320F28335的絕對式光電編碼器驅(qū)動設(shè)計
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
兰溪市| 张家界市| 漠河县| 古田县| 康保县| 竹溪县| 酉阳| 岳阳市| 深州市| 苍山县| 巴塘县| 察雅县| 互助| 杭锦后旗| 宁海县| 浠水县| 滁州市| 明溪县| 荥阳市| 大悟县| 巴林左旗| 慈溪市| 汉中市| 古浪县| 康定县| 农安县| 鹤庆县| 通许县| 阿克| 墨竹工卡县| 长沙市| 岳普湖县| 义马市| 汽车| 江阴市| 大理市| 河间市| 肥西县| 甘南县| 军事| 合川市|