摘 要:
為了提升標(biāo)簽推薦的質(zhì)量,提出一種面向功能語義增強(qiáng)與標(biāo)簽關(guān)聯(lián)的Web服務(wù)標(biāo)簽推薦方法。將語境權(quán)重融入TextRank模型,提取與服務(wù)功能契合度高的關(guān)鍵詞,用于構(gòu)建功能語義增強(qiáng)的服務(wù)表征向量;建立標(biāo)簽關(guān)聯(lián)圖,基于改進(jìn)的GraphSAGE模型生成標(biāo)簽關(guān)聯(lián)向量;利用KNN算法獲取推薦的主標(biāo)簽與候選標(biāo)簽集合,面向服務(wù)表征向量和標(biāo)簽關(guān)聯(lián)向量構(gòu)建融合適配度與關(guān)聯(lián)度的標(biāo)簽推薦方法。實驗表明,所提出方法在accuracy與F1-score指標(biāo)上優(yōu)于當(dāng)前流行的標(biāo)簽推薦方法,標(biāo)簽推薦質(zhì)量得到提升。
關(guān)鍵詞:Web服務(wù);語境權(quán)重;語義增強(qiáng);標(biāo)簽關(guān)聯(lián);標(biāo)簽推薦
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)09-016-2678-07
doi:10.19734/j.issn.1001-3695.2024.01.0003
Label recommendation of Web services based on functional semantic enhancement and label association
Liu Qingxue1, Wang Lifang1, Pan Guoqing1, 2, Hu Qiang2
(1.School of Mechanical & Electrical Engineering, Kunming University, Kunming 650214, China; 2.College of Information Science & Techno-logy, Qingdao University of Science & Technology, Qingdao Shandong 266061, China)
Abstract:
To improve the quality of label recommendation, this paper proposed a label recommendation method for Web services oriented functional semantic enhancement and label association. It integrated the context weight into the TextRank model to extract keywords that fit well with the service function, which were used to construct the functional semantic enhanced service representation vector. It established the label association graph and generated the label association vector based on the improved GraphSAGE model. It used the KNN algorithm to obtain the recommended primary label and candidate label set. It used the service representation vector and label association vector to construct a label recommendation method combining fitness and association. Experiments show that the proposed method is superior to the current popular label recommendation methods in terms of accuracy and F1-score, and it improves the quality of tag recommendation.
Key words:Web services; context weight; semantic enhancement; label association; label recommendation
0 引言
隨著云計算、移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,面向服務(wù)架構(gòu)已成為網(wǎng)構(gòu)軟件開發(fā)和部署的主要模式。Web服務(wù)是一種應(yīng)用廣泛的服務(wù)組織形式,它是一種采用標(biāo)準(zhǔn)化協(xié)議和接口進(jìn)行封裝的網(wǎng)絡(luò)應(yīng)用程序。通過對Web服務(wù)的調(diào)用和集成,軟件開發(fā)者可以快速實現(xiàn)業(yè)務(wù)系統(tǒng)的構(gòu)建[1]。
當(dāng)前網(wǎng)絡(luò)中的Web服務(wù)數(shù)量不斷增加,用戶可以在各類服務(wù)注冊平臺中查找所需的Web服務(wù)。在Web服務(wù)注冊平臺ProgrammableWeb和RapidAPI中,分別注冊超過了26 000和40 000個服務(wù)。不斷增加的Web服務(wù),為服務(wù)的存儲組織和查找?guī)砹颂魬?zhàn)[2]。為此,各類服務(wù)平臺中注冊的服務(wù)均提供了類別標(biāo)簽(簡稱標(biāo)簽)。這些標(biāo)簽為服務(wù)對應(yīng)的功能業(yè)務(wù)場景。圖1所示的3DTransform是用于將3D模型文件轉(zhuǎn)換為.STL格式以便進(jìn)行3D打印的Web服務(wù)。該服務(wù)在發(fā)布時標(biāo)注了conversions、tools、3D和printing四個標(biāo)簽。其中,conversions為主標(biāo)簽,主標(biāo)簽標(biāo)識了Web服務(wù)的主要業(yè)務(wù)功能。
借助于類別標(biāo)簽,可以實現(xiàn)Web服務(wù)的分類管理,提高服務(wù)查找效率和存儲組織的合理性[3]。服務(wù)發(fā)布者提供的服務(wù)功能描述文本是確定標(biāo)簽的主要依據(jù)。標(biāo)簽推薦的主要工作是分析服務(wù)描述文本的功能語義,為其從標(biāo)簽庫中選擇合適的類別標(biāo)簽,因此,Web服務(wù)標(biāo)簽推薦本質(zhì)上為文本的標(biāo)簽推薦問題。
傳統(tǒng)的文本標(biāo)簽推薦問題中的文本描述內(nèi)容較為詳實、主題語義較為完善[4]。然而,Web服務(wù)的功能描述文本較為短小,通常不超過100個單詞,而且服務(wù)功能、操作和評價信息雜糅,造成服務(wù)描述的功能語義特征提取難度較大,這使得Web服務(wù)類別標(biāo)簽推薦成為一項具有挑戰(zhàn)性的工作。
在Web服務(wù)的標(biāo)簽推薦工作中,Cao等人[5]利用注意力機(jī)制將LSTM的局部隱式狀態(tài)向量和全局LDA主題向量相結(jié)合,結(jié)合詞序和上下文信息提取高質(zhì)量的表征向量,實現(xiàn)更準(zhǔn)確的服務(wù)標(biāo)簽分類。Fletcher[6]構(gòu)建了一個注意力模型提升Web服務(wù)標(biāo)簽推薦效果,提出單詞級和句子級的注意機(jī)制,根據(jù)句子中與標(biāo)簽語義相關(guān)度最高部分的功能向量優(yōu)化標(biāo)簽向量,發(fā)揮了標(biāo)簽的功能標(biāo)識作用,提高了標(biāo)簽推薦質(zhì)量。Wang等人[7]利用BERT生成服務(wù)描述向量,使用注意力機(jī)制獲取每個描述對標(biāo)簽向量生成的貢獻(xiàn)。通過對抗學(xué)習(xí)的方式利用MLP層輸出不同標(biāo)簽的推薦概率,實現(xiàn)標(biāo)簽推薦。
上述研究表明,時序神經(jīng)網(wǎng)絡(luò)在文本全局特征的捕獲方面具有顯著優(yōu)勢。基于此,Li等人[8]利用BERT生成服務(wù)描述向量和標(biāo)簽的詞向量,輸入到CNN和LSTM的堆疊網(wǎng)絡(luò)來進(jìn)一步提取服務(wù)描述中的語義特征,通過注意力機(jī)制計算每個標(biāo)簽對服務(wù)描述向量生成的貢獻(xiàn),將優(yōu)化后的描述向量輸入MLP層,輸出標(biāo)簽推薦概率。趙鯨朋[9]將神經(jīng)元有序的長短期記憶神經(jīng)網(wǎng)絡(luò)應(yīng)用于服務(wù)功能向量提取,通過softmax層實現(xiàn)標(biāo)簽推薦概率輸出。同時,結(jié)合層次化微調(diào)和父類別嵌入技術(shù)學(xué)習(xí)類別層次的約束關(guān)系,縮小候選標(biāo)簽推薦范圍,提升標(biāo)簽推薦效率。路凱峰等人[10]借助BERT模型為服務(wù)描述中的詞語生成特征向量,利用深度金字塔卷積神經(jīng)網(wǎng)絡(luò)將詞語向量轉(zhuǎn)換為功能向量,借助softmax實現(xiàn)標(biāo)簽推薦,提升推薦質(zhì)量的同時降低了耗時。類似地,彭菲等人[11]構(gòu)建多通道全局與局部語義融合框架,在框架的每個卷積通道使服務(wù)描述中的詞語依次通過RoBERTa、CNN和融入快速規(guī)則近似注意力機(jī)制改進(jìn)的SRU模型獲取服務(wù)功能向量,將所有通道的功能向量均值通過MLP層輸出推薦概率,提高了標(biāo)簽推薦質(zhì)量。
此外,也有研究者通過挖掘標(biāo)簽-標(biāo)簽或標(biāo)簽-服務(wù)間的組合關(guān)系提升標(biāo)簽推薦質(zhì)量。例如,肖勇等人[12]構(gòu)建Web服務(wù)結(jié)構(gòu)圖和Web服務(wù)-標(biāo)簽的屬性二部圖。通過隨機(jī)游走算法獲取服務(wù)節(jié)點(diǎn)的結(jié)構(gòu)特征和屬性特征序列,采用skip-gram模型訓(xùn)練生成Web服務(wù)表示向量,基于SVM實現(xiàn)標(biāo)簽推薦,借助服務(wù)和標(biāo)簽間的屬性信息以及服務(wù)間結(jié)構(gòu)關(guān)系提升標(biāo)簽推薦質(zhì)量。Shi等人[13]使用主動學(xué)習(xí)來訓(xùn)練Web服務(wù)的多標(biāo)簽分類器,對每個標(biāo)簽與服務(wù)執(zhí)行二進(jìn)制分類,通過層次聚類捕捉標(biāo)簽間的相關(guān)性,提高了Web服務(wù)標(biāo)簽推薦精度。Gan等人[14]使用CNN提取Web服務(wù)描述的特征,提出了一個標(biāo)簽嵌入模型學(xué)習(xí)標(biāo)簽的特征表示,將Web服務(wù)及其標(biāo)簽嵌入特征輸入遞歸神經(jīng)網(wǎng)絡(luò)實現(xiàn)服務(wù)標(biāo)簽的序列化推薦。Shi等人[15]基于概率主題模型獲取Mashup服務(wù)和Web服務(wù)的標(biāo)簽的潛在主題,然后利從Web服務(wù)關(guān)系網(wǎng)絡(luò)中提取特征信息訓(xùn)練因子分解機(jī),構(gòu)建了一種基于因子分解機(jī)的主題敏感的Mashup標(biāo)簽推薦方法。Chen等人[16]將服務(wù)描述關(guān)鍵詞向量和標(biāo)簽詞向量輸入MLP層,根據(jù)輸出概率推薦標(biāo)簽,然后利用服務(wù)與標(biāo)簽的組合圖生成標(biāo)簽關(guān)聯(lián)向量,綜合服務(wù)的關(guān)鍵詞向量、標(biāo)簽關(guān)聯(lián)向量均值以及上一步推薦概率來推薦缺失的標(biāo)簽。
從已有工作可以看出,服務(wù)功能向量是計算標(biāo)簽與服務(wù)匹配的主要依據(jù),研究者利用各種神經(jīng)網(wǎng)絡(luò)模型和注意力機(jī)制可以提升服務(wù)功能向量的生成質(zhì)量。此外,借助于構(gòu)建標(biāo)簽網(wǎng)絡(luò)獲取標(biāo)簽之間的關(guān)聯(lián)以提升標(biāo)簽推薦精確度也是當(dāng)前流行的方法。然而,已有方法并未強(qiáng)化服務(wù)描述中的功能特征詞在功能向量中的特征占比,影響了服務(wù)功能向量與標(biāo)簽語義匹配的效果。同時,已有方法在進(jìn)行標(biāo)簽關(guān)聯(lián)度計算時,并未考慮標(biāo)簽間的關(guān)聯(lián)權(quán)重,標(biāo)簽關(guān)聯(lián)度的評價合理性有待于進(jìn)一步提升[17]。
為解決現(xiàn)有方法的不足,本文提出一種面向功能語義增強(qiáng)與標(biāo)簽關(guān)聯(lián)的Web服務(wù)標(biāo)簽推薦方法,主要工作與貢獻(xiàn)如下:
a)提出了一種功能語義增強(qiáng)的服務(wù)表征向量生成方法。利用改進(jìn)的TextRank模型從服務(wù)描述文本中提取功能特征詞,用于建立功能語義增強(qiáng)的服務(wù)表征向量,提升標(biāo)簽與服務(wù)的適配度計算精確度。
b)建立標(biāo)簽關(guān)聯(lián)圖,利用改進(jìn)GraphSAGE模型實現(xiàn)帶有邊權(quán)的標(biāo)簽關(guān)聯(lián)圖的節(jié)點(diǎn)向量化,依據(jù)關(guān)聯(lián)強(qiáng)度聚合鄰域節(jié)點(diǎn)特征,提高標(biāo)簽關(guān)聯(lián)向量的生成質(zhì)量,便于更合理地計算標(biāo)簽關(guān)聯(lián)度。
c)使用KNN算法獲取Web服務(wù)的主標(biāo)簽與候選標(biāo)簽集合,構(gòu)建一種融合標(biāo)簽適配度與關(guān)聯(lián)度的Web服務(wù)多標(biāo)簽推薦方法。實驗證明所提出方法可以有效提升Web服務(wù)標(biāo)簽推薦質(zhì)量。
1 研究框架
從圖1中3DTransform的組織形式可以看出,一個Web服務(wù)主要包含服務(wù)名稱、服務(wù)標(biāo)簽集合和服務(wù)描述信息。下面給出Web服務(wù)的形式化定義。
定義1 Web服務(wù)
Web服務(wù)為一個三元組s=(n, L, d),其中,n為服務(wù)名稱,L為服務(wù)標(biāo)簽集合,d為服務(wù)描述信息。
標(biāo)簽推薦是指在服務(wù)發(fā)布者提供了服務(wù)描述信息后,為Web服務(wù)推薦合適的標(biāo)簽集合,可以描述為:給定服務(wù)s的服務(wù)描述s.d,存在標(biāo)簽推薦模型f,使得f(s.d)→s.L,本文工作就是建立能夠高精確度推薦Web服務(wù)標(biāo)簽的模型f。
本文的研究框架如圖2所示。首先,從已有Web服務(wù)注冊平臺中獲取已經(jīng)發(fā)布的Web服務(wù),提取已發(fā)布Web服務(wù)的服務(wù)描述和服務(wù)標(biāo)簽。
然后,針對每個服務(wù)描述,利用改進(jìn)TextRank模型為每個服務(wù)提取功能特征詞,并為這些詞生成功能特征詞向量。同時,采用BERT模型為每個服務(wù)生成對應(yīng)的服務(wù)功能向量。將服務(wù)的功能向量與特征詞向量融合為功能語義增強(qiáng)的服務(wù)表征向量。
其次,采用word2vec為每個標(biāo)簽生成標(biāo)簽的詞向量,同時依據(jù)服務(wù)標(biāo)簽之間的共現(xiàn)關(guān)系,構(gòu)建服務(wù)標(biāo)簽關(guān)聯(lián)圖,利用改進(jìn)的GraphSAGE模型為標(biāo)簽生成關(guān)聯(lián)向量。
再次,對于待推薦標(biāo)簽的Web服務(wù),為其生成功能語義增強(qiáng)的服務(wù)表征向量,并利用KNN算法為其確定服務(wù)的主標(biāo)簽和候選標(biāo)簽集合。
最后,依據(jù)服務(wù)與標(biāo)簽的適配度、主標(biāo)簽與候選標(biāo)簽之間的關(guān)聯(lián)度,通過MLP層為Web服務(wù)計算標(biāo)簽的推薦概率,選擇推薦概率最高的K-1個標(biāo)簽與主標(biāo)簽一起作為最終推薦的標(biāo)簽。
2 功能語義增強(qiáng)的服務(wù)表征向量生成
BERT是一種基于Transformer的預(yù)訓(xùn)練文本特征提取模型,廣泛應(yīng)用于服務(wù)功能向量的生成。BERT在生成服務(wù)功能向量時,注重詞在句子上下文的關(guān)聯(lián)特征,難以突出服務(wù)描述中能夠標(biāo)識服務(wù)功能的特征詞本身的語義信息。若僅使用BERT模型生成的功能向量進(jìn)行標(biāo)簽推薦會影響推薦質(zhì)量。為此,本文從服務(wù)描述文本中提取功能特征詞并生成特征詞向量,與BERT模型生成的服務(wù)功能向量進(jìn)行融合,建立一種功能語義增強(qiáng)的服務(wù)表征向量,以便提高服務(wù)標(biāo)簽的推薦質(zhì)量。
TextRank常用于文本關(guān)鍵詞的提取,它依據(jù)詞共現(xiàn)關(guān)系構(gòu)建無向圖,通過評估詞在圖中與鄰域節(jié)點(diǎn)的重要性進(jìn)行關(guān)鍵詞篩選。TextRank通過無監(jiān)督的方式迭代訓(xùn)練,不依賴于人工標(biāo)注的訓(xùn)練數(shù)據(jù),因此,適用于Web服務(wù)描述的關(guān)鍵詞提取。
使用TextRank為服務(wù)s提取關(guān)鍵詞時,針對s.d={t1, t2, …, tn}構(gòu)建無向加權(quán)圖G=(V, E, W),圖中節(jié)點(diǎn)vi對應(yīng)詞語ti,以特定長度窗口滑動遍歷服務(wù)描述文本,同一窗口內(nèi)的任意兩個詞之間建立一條無向邊,邊的權(quán)值wij為詞語ti和tj在滑動窗口中共現(xiàn)次數(shù)的歸一化值。W(vi)為節(jié)點(diǎn)vi的權(quán)重,初始值為1。TextRank模型采用式(1)對節(jié)點(diǎn)權(quán)重進(jìn)行更新,直至各節(jié)點(diǎn)權(quán)重收斂,模型按照節(jié)點(diǎn)權(quán)重的大小推薦文本關(guān)鍵詞。式(1)中的ρ為阻尼系數(shù),通常設(shè)置為0.85[18, 19]。N(v)用于表示節(jié)點(diǎn)v的鄰接節(jié)點(diǎn)集合。
其中:當(dāng)lcj為服務(wù)si的標(biāo)簽時,ysi,lcj值為1,否則值為0。根據(jù)此loss,當(dāng)ysi,lcj為1,優(yōu)化目標(biāo)為最小化預(yù)測lcj為正例概率的負(fù)對數(shù);當(dāng)ysi,lcj為0,優(yōu)化目標(biāo)為最小化預(yù)測lcj為負(fù)例概率的負(fù)對數(shù)。p(lcj, si)與真實標(biāo)簽ysi,lcj越接近,loss越小;反之loss越大。當(dāng)loss收斂,模型預(yù)測效果達(dá)到最優(yōu)。為服務(wù)s的預(yù)測標(biāo)簽時,取LC中p(lcj, si)值中最大的前K-1個標(biāo)簽與主標(biāo)簽一起構(gòu)成top-K標(biāo)簽推薦結(jié)果。將上述方法命名為LRW-FA (label recommendation for Web services based on fitness and association)。
5 實驗驗證
本章開展實驗,驗證以下幾個問題:
Q1:CWTR-BERT生成的服務(wù)表征向量用于標(biāo)簽推薦時是否優(yōu)于其他模型?
Q2:標(biāo)簽關(guān)聯(lián)的引入能否提升Web服務(wù)的標(biāo)簽推薦質(zhì)量?
Q3:LWR-FA是否優(yōu)于其他Web服務(wù)標(biāo)簽推薦方法?
Q4:關(guān)鍵超參數(shù)選擇:a)改進(jìn)的GraphSAGE的聚合器選擇;b)KNN最近鄰算法中鄰居數(shù)量K的選擇。
5.1 數(shù)據(jù)集、實驗環(huán)境與評價指標(biāo)
實驗數(shù)據(jù)為ProgrammableWeb網(wǎng)站中的真實Web服務(wù)。在刪除僅包含一個標(biāo)簽的服務(wù)和所包含的某個標(biāo)簽出現(xiàn)次數(shù)小于10的Web服務(wù)后,形成包含16 924個Web服務(wù)的數(shù)據(jù)集。采用十折交叉驗證法進(jìn)行模型性能評估,實驗環(huán)境如表1所示。
分析數(shù)據(jù)集發(fā)現(xiàn),絕大部分Web服務(wù)的標(biāo)簽數(shù)量為2到5個,因此本文的top-K推薦中,K設(shè)置為3、5和7。采用常用多標(biāo)簽推薦評價指標(biāo)accuracy與F1-score[21, 22]評估Web服務(wù)多標(biāo)簽推薦質(zhì)量。
5.2 CWTR-BERT生成服務(wù)表征向量的質(zhì)量評估
選取LDA[23]、GSDMM[24]、doc2vec[25]、BERT[26]與本文模型CWTR-BERT進(jìn)行對比,其中,LDA與GSDMM為主題模型,doc2vec與BERT為神經(jīng)網(wǎng)絡(luò)模型。此外,為了驗證引入語境權(quán)重后對功能特征詞提取質(zhì)量的改善,構(gòu)建利用TextRank直接提取功能特征詞對BERT生成的服務(wù)功能向量進(jìn)行語義增強(qiáng)的方法TR-BERT(TextRank and BERT)。
表2為六種模型生成的服務(wù)功能向量,采用式(15)生成的標(biāo)簽適配度對應(yīng)的前top-K個標(biāo)簽進(jìn)行推薦驗證。從表2可以看出,CWTR-BERT所對應(yīng)的accuracy和F1在不同個數(shù)的top-K標(biāo)簽推薦中均取得了最優(yōu)值,說明CWTR-BERT生成的功能語義增強(qiáng)的服務(wù)表征向量在功能區(qū)分度上得到了提升,在應(yīng)用于標(biāo)簽推薦時可以獲得更好的推薦效果。
從表中數(shù)據(jù)可以看出,LDA生成的服務(wù)功能向量用于標(biāo)簽推薦效果最差,主要原因是LDA作為主題模型適用于長文本的主題提取特征。相比LDA,GSDMM可以自適應(yīng)地學(xué)習(xí)主題數(shù)量,在低數(shù)量級主題的服務(wù)描述中特征提取能力更強(qiáng)。因此,生成的服務(wù)功能向量在標(biāo)簽推薦質(zhì)量上優(yōu)于LDA模型。doc2vec與BERT為神經(jīng)網(wǎng)絡(luò)模型,相對于主題模型,它們進(jìn)行語義特征提取時考慮詞語的上下文信息,可以從服務(wù)描述中獲得更高質(zhì)量的功能特征信息。其中,BERT結(jié)合了自注意力機(jī)制,可以獲取每個詞在描述向量生成過程的貢獻(xiàn),生成的服務(wù)功能向量優(yōu)于doc2vec。因此,生成的服務(wù)功能向量在計算與標(biāo)簽的語義適配度時效果更佳。
TR-BERT在BERT生成的服務(wù)功能向量的基礎(chǔ)上,融入了TextRank提取的關(guān)鍵詞特征向量,是對BERT生成的服務(wù)功能向量的一種語義增強(qiáng)。TR-BERT生成的服務(wù)表征向量在標(biāo)簽推薦指標(biāo)值上均比BERT模型有所提升,這說明提取關(guān)鍵詞轉(zhuǎn)換為特征向量對已有服務(wù)功能向量進(jìn)行語義增強(qiáng)可以有效地提升標(biāo)簽推薦質(zhì)量。
CWTR-BERT使用CW-TextRank,在TextRank進(jìn)行關(guān)鍵詞提取的過程中融入了語境權(quán)重,能夠提升表達(dá)服務(wù)描述功能場景的特征詞的提取能力。從表中數(shù)據(jù)可以看出,在所有輪次實驗中,TR-BERT相對于BERT在accuracy與F1-score上平均提升4.26%與5.21%。CWTR-BERT在兩種指標(biāo)相對于BERT分別平均提升13%與13.14%。由此可見,融入了語境權(quán)重的CW-TextRank模型考慮關(guān)鍵詞與服務(wù)描述功能的契合度,提高了服務(wù)功能向量的語義表達(dá)質(zhì)量,有利于提升標(biāo)簽推薦精確度與合理性。
因此,對于Q1,實驗證明了生成的服務(wù)表征向量用于標(biāo)簽推薦時,CWTR-BERT生成質(zhì)量優(yōu)于其他常用服務(wù)功能向量生成模型。
5.3 標(biāo)簽關(guān)聯(lián)的引入對標(biāo)簽推薦質(zhì)量的影響
利用CWTR-BERT生成服務(wù)表征向量計算標(biāo)簽適配度是未引入標(biāo)簽關(guān)聯(lián)的方法,本文方法LWR-FA是聯(lián)合CWTR-BERT生成服務(wù)表征向量所計算獲得的標(biāo)簽適配度和改進(jìn)的GraphSAGE (融入標(biāo)簽邊權(quán)處理)生成標(biāo)簽關(guān)聯(lián)向量所獲得的標(biāo)簽關(guān)聯(lián)度共同實現(xiàn)標(biāo)簽推薦的方法。
為了驗證引入標(biāo)簽關(guān)聯(lián)以及在標(biāo)簽關(guān)聯(lián)中區(qū)分關(guān)聯(lián)邊的權(quán)重對推薦質(zhì)量的影響,將LWR-FA中標(biāo)簽關(guān)聯(lián)向量替換為原始的GraphSAGE,替換后的標(biāo)簽推薦方法命名為LWR-FA*,LWR-FA*方法引入了標(biāo)簽關(guān)聯(lián),但在計算標(biāo)簽關(guān)聯(lián)度時未考慮邊權(quán)之間的關(guān)聯(lián)權(quán)重。
表3給出了CWTR-BERT、LWR-FA*和LWR-FA在標(biāo)簽推薦時的性能對比,通過表中數(shù)據(jù)可以看出,在不同top-K的標(biāo)簽推薦中,LWR-FA*均顯著高于CWTR-BERT,在top-3、top-5和top-7中,accuracy和F1-score分別提升了9.7%、8.9%、8.5%和10.3%、9.9%、9.1%。這說明引入標(biāo)簽關(guān)聯(lián)后,可以有效提升Web服務(wù)標(biāo)簽的推薦精確性。通過對比LWR-FA*和LWR-FA,LWR-FA在top-3、top-5和top-7中的accuracy和F1-score分別提升了2.9%、2.8%、3.5%和3.7%、3.8%、3.8%,從而驗證了在生成標(biāo)簽的關(guān)聯(lián)向量時融入關(guān)聯(lián)邊的權(quán)重,有利于更合理地生成標(biāo)簽關(guān)聯(lián)向量,提升標(biāo)簽的推薦質(zhì)量。
因此,對于Q2,通過實驗可以證明引入標(biāo)簽關(guān)聯(lián)能夠顯著提升Web服務(wù)的標(biāo)簽推薦精確度,同時在生成標(biāo)簽關(guān)聯(lián)向量時,融入標(biāo)簽之間的關(guān)聯(lián)邊權(quán)能夠有效提高關(guān)聯(lián)向量的質(zhì)量,從而進(jìn)一步提升標(biāo)簽推薦的精確度與合理性。
5.4 標(biāo)簽關(guān)聯(lián)的引入對標(biāo)簽推薦質(zhì)量的影響
本節(jié)將LWR-FA與近年來提出的Web服務(wù)標(biāo)簽推薦方法進(jìn)行對比,主要包含以下方法:
a)SGM[27]:使用雙向LSTM生成服務(wù)描述向量,使用注意力機(jī)制,獲取目標(biāo)服務(wù)描述中與待推薦標(biāo)簽語義相關(guān)度最高的部分對應(yīng)的描述向量,結(jié)合上一步預(yù)測的標(biāo)簽詞向量,得到當(dāng)前步的預(yù)測標(biāo)簽,最后輸出完整的預(yù)測標(biāo)簽序列。
b)GRU LabelsGen[14]:利用CNN提取Web服務(wù)的描述向量和每個詞的序列向量,構(gòu)建標(biāo)簽嵌入模型來獲取標(biāo)簽特征向量。綜合利用以上特征向量,使用GRU來推薦Web服務(wù)的標(biāo)簽序列。
c)DSRM-DNN[28]:結(jié)合詞嵌入模型與聚類算法提取服務(wù)描述中的關(guān)鍵詞,將詞向量作為DSRM-DNN模型輸出,結(jié)合深度信念網(wǎng)絡(luò)和反向傳播神經(jīng)網(wǎng)絡(luò)構(gòu)建多標(biāo)簽文本分類器。
d)GAN-LABERT[7]:利用BERT生成服務(wù)描述向量,獲取每個描述對標(biāo)簽向量生成的貢獻(xiàn)。將標(biāo)簽向量通過MLP層輸出不同標(biāo)簽的推薦概率。
e)TagTag[16]:分為標(biāo)簽推薦和標(biāo)簽調(diào)整兩個環(huán)節(jié)。在標(biāo)簽推薦環(huán)節(jié),將服務(wù)描述關(guān)鍵詞向量和標(biāo)簽詞向量輸入MLP層,根據(jù)輸出概率推薦標(biāo)簽;在標(biāo)簽調(diào)整環(huán)節(jié),利用構(gòu)建的服務(wù)與標(biāo)簽的組合圖生成標(biāo)簽關(guān)聯(lián)向量,綜合服務(wù)的關(guān)鍵詞向量、標(biāo)簽關(guān)聯(lián)向量均值以及上一步推薦概率以推薦缺失的標(biāo)簽。
f)BCLAS[9]:利用BERT生成服務(wù)描述向量和標(biāo)簽的詞向量,并使用CNN和雙向LSTM的堆疊網(wǎng)絡(luò)來進(jìn)一步提取服務(wù)描述中的語義特征,通過注意力機(jī)制計算每個標(biāo)簽對服務(wù)描述向量生成的貢獻(xiàn),將優(yōu)化后的描述向量輸入MLP層,輸出推薦概率。
由表4數(shù)據(jù)對比可知,LWR-FA在不同輪次的top-K標(biāo)簽推薦實驗中的評價指標(biāo)均獲得了最高分?jǐn)?shù)。與其他六個方法相比,在accuracy上分別平均提升8.43%、7.2%、5.12%、3.92%、3.1%和3.22%,在F1-score上分別平均提升13.66%、12.65%、9.52%、4.91%、3.4%和3.82%。上述實驗數(shù)據(jù)表明本文所提出的LWR-FA方法推薦的標(biāo)簽與服務(wù)自身標(biāo)簽的吻合程度高于當(dāng)前流行的標(biāo)簽推薦方法。因此,對于Q3,本節(jié)實驗表明LWR-FA的標(biāo)簽推薦質(zhì)量皆優(yōu)于對比方法。
相比對比方法,本文方法從服務(wù)功能向量生成、標(biāo)簽關(guān)聯(lián)、候選標(biāo)簽集合三個層面進(jìn)行了方法改進(jìn),通過引入功能特征詞增加傳統(tǒng)方法中生成的服務(wù)功能向量的語義特征區(qū)分度,可以更為精確地計算標(biāo)簽與服務(wù)之間的適配度。在標(biāo)簽關(guān)聯(lián)中融入了關(guān)聯(lián)邊的邊權(quán),在標(biāo)簽關(guān)聯(lián)向量生成過程中按照邊權(quán)有區(qū)別的去聚合鄰域節(jié)點(diǎn)的特征,使得標(biāo)簽之間的關(guān)聯(lián)度計算更為合理。特別地,通過KNN確定待推薦標(biāo)簽中的主標(biāo)簽和候選標(biāo)簽集合,在降低推薦復(fù)雜度的同時可以提升推薦精確度。
5.5 實驗關(guān)鍵超參數(shù)選擇
本文使用改進(jìn)的GraphSAGE生成標(biāo)簽關(guān)聯(lián)向量,并依據(jù)KNN算法獲取主標(biāo)簽和推薦標(biāo)簽集合。GraphSAGE聚合器的選擇以及KNN中的鄰居數(shù)量均會對最終的推薦質(zhì)量產(chǎn)生影響,本節(jié)針對Q4展開實驗驗證。
5.5.1 改進(jìn)的GraphSAGE聚合器選擇
GraphSAGE共提供了LSTM聚合器、最大池化聚合器和平均池化聚合器三種聚合器。使用不同聚合器的LWR-FA方法在accuracy與F1-score評價指標(biāo)的數(shù)據(jù)如表5所示。
在三種top-K推薦中,使用平均池化聚合器后,相對于LSTM聚合器和最大池化聚合器,在accuracy上分別平均提升4.02%與1.61%,在F1-score上分別平均提升3.47%與1.8%,說明在LWR-FA方法中,應(yīng)用平均池化聚合器的效果最佳。
標(biāo)簽關(guān)聯(lián)圖中邊密度高且關(guān)聯(lián)復(fù)雜,最大池化聚合器對于鄰居節(jié)點(diǎn)中最顯著的特征敏感,對于包含多個重要鄰居的標(biāo)簽節(jié)點(diǎn)的特征聚合效果差;LSTM聚合器計算復(fù)雜度較高,且對于較短的鄰居序列無法發(fā)揮長序列建模優(yōu)勢。因此以上兩種聚合器在聚合特征穩(wěn)定性與有效性方面不如平均池化聚合器。
5.5.2 KNN最近鄰算法中鄰居值K的選擇
將KNN算法中的最近鄰的數(shù)量設(shè)置如下:K={20, 40, 60, 80, 100, 120, 140, 160, 180, 200},使用LWR-FA方法開展實驗,標(biāo)簽推薦質(zhì)量的評估效果如圖5和6所示。
由圖5和6可見,在標(biāo)簽推薦時,隨著鄰居數(shù)量的增加,推薦指標(biāo)在總體趨勢上皆呈先上升,后緩慢下降的趨勢。當(dāng)鄰居的數(shù)量在100~160時,accuracy與F1-score指標(biāo)整體呈現(xiàn)出一個較高的分?jǐn)?shù)區(qū)間,其中在鄰居數(shù)量為120時,LRW-FA方法表現(xiàn)出最佳的性能。
標(biāo)簽推薦質(zhì)量隨著鄰居的數(shù)量增加表現(xiàn)出先升后降的原因是:當(dāng)參與主標(biāo)簽和候選標(biāo)簽集合的推薦的鄰居較少時,主標(biāo)簽的準(zhǔn)確度會受到影響,且因候選標(biāo)簽中數(shù)量少造成個別真實的推薦標(biāo)簽無法被包含在候選標(biāo)簽集合中,使得最終推薦精確度降低。當(dāng)鄰居數(shù)量過大時,會使得一些不相干的標(biāo)簽進(jìn)入候選標(biāo)簽集合,從而影響最終的標(biāo)簽推薦質(zhì)量。
6 結(jié)束語
本文提出一種面向功能語義增強(qiáng)與標(biāo)簽關(guān)聯(lián)的Web服務(wù)標(biāo)簽推薦方法。采用CW-TextRank模型提取服務(wù)描述中的功能特征詞,利用功能特征詞增強(qiáng)服務(wù)功能向量的語義特征區(qū)分度,從標(biāo)簽與服務(wù)的適配度層面提高了標(biāo)簽的推薦精確度;構(gòu)建服務(wù)標(biāo)簽關(guān)聯(lián)圖,采用改進(jìn)的GraphSAGE模型為標(biāo)簽生成關(guān)聯(lián)向量,完善了標(biāo)簽關(guān)聯(lián)度的計算合理性;利用KNN算法生成推薦主標(biāo)簽和候選標(biāo)簽集合,建立了融合標(biāo)簽適配度和關(guān)聯(lián)度的Web服務(wù)標(biāo)簽推薦方法,實現(xiàn)top-K標(biāo)簽推薦。實驗表明,利用功能特征詞增強(qiáng)服務(wù)功能語義和標(biāo)簽關(guān)聯(lián)能夠提升標(biāo)簽推薦的質(zhì)量,文中所構(gòu)建的方法在accuracy與F1-score指標(biāo)上優(yōu)于當(dāng)前流行的標(biāo)簽推薦方法。
下一步的研究工作是從服務(wù)提供商和組合場景等角度拓展標(biāo)簽關(guān)聯(lián)的范疇,以進(jìn)一步提高標(biāo)簽推薦的精確度和合理性。
參考文獻(xiàn):
[1]Ju Chuanxiang,Ding Hangqi,Hu Benjia. A hybrid strategy improved whale optimization algorithm for Web service composition [J]. The Computer Journal,2023,66(3): 662-677.
[2]胡強(qiáng),田雨晴,綦浩泉,等. 基于改進(jìn)人工蜂群算法的云制造服務(wù)組合優(yōu)化方法 [J]. 通信學(xué)報,2023,44(1): 200-210. (Hu Qiang,Tian Yuqing,Qi Haoquan,et al. Cloud manufacturing service combination optimization method based on improved artificial bee swarm algorithm [J]. Journal of Communications,2023,44(1): 200-210.)
[3]García D A,Palomo L F,Medina B I,et al. Computing performance requirements for Web service compositions [J]. Computer Stan-dards & Interfaces,2023,83: 103664.
[4]王振東,董開坤,黃俊恒,等. SemFA: 基于語義特征與關(guān)聯(lián)注意力的大規(guī)模多標(biāo)簽文本分類模型 [J]. 計算機(jī)科學(xué),2023,50(12): 270-278. (Wang Zhendong,Dong Kaikun,Huang Junheng,et al. SemFA: a large-scale multi-label text classification model based on semantic features and associative attention [J]. Computer Science,2023,50(12): 270-278.)
[5]Cao Yingcheng,Liu Jianxun,Cao Buqing,et al. Web services classification with topical attention based Bi-LSTM [C]// Proc of the 15th International Conference on Collaborative Computing: Networking,Applications and Worksharing. Berlin: Springer,2019: 394-407.
[6]Fletcher K K. An attention model for mashup tag recommendation [C]// Proc of the 17th International Conference,held as part of the Services Conference Federation. Berlin: Springer,2020: 50-64.
[7]Wang Qunbo,Wu Wenjun,Zhao Yongchi,et al. Combining label-wise attention and adversarial training for tag prediction of Web services [C]// Proc of ICWS. Piscataway,NJ: IEEE Press,2021: 358-363.
[8]Li Bing,Nong Xiuwen,Hou Yuxiang,et al. Multi-Label Web service classification using neural networks [C]// Proc of ICCECT. Piscataway,NJ: IEEE Press,2023: 540-544.
[9]趙鯨朋. 基于深度學(xué)習(xí)的層次化Web服務(wù)分類方法研究 [D]. 北京: 華北電力大學(xué),2021. (Zhao Jingpeng. Research on hierarchical Web service classification method based on deep learning [D]. Beijing: North China Electric Power University,2021.)
[10]路凱峰,楊溢龍,李智. 一種基于BERT和DPCNN的Web服務(wù)分類方法 [J]. 廣西師范大學(xué)學(xué)報: 自然科學(xué)版,2021,39(6): 87-98. (Lu Kaifeng,Yang Yilong,Li Zhi. A Web service classification method based on BERT and DPCNN [J]. Journal of Guangxi a90b1eb4f3040d23cfad6f674879c7f4Normal University: Natural Science Edition,2021,39(6): 87-98.)
[11]彭菲,潘國慶,任志考,等. 融合多通道語義信息與注意力機(jī)制的Web服務(wù)類別標(biāo)簽推薦 [J/OL]. 計算機(jī)集成制造系統(tǒng). (2023-08-15). [2024-03-04]. http://kns. cnki. net/kcms/detail/11. 5946. TP. 20230815. 1410. 003. html. (Peng Fei,Pan Guoqing,Ren Zhikao,et al. Web service category tag recommendation based on fusion of multi-channel semantic information and attention mechanism [J/OL]. Computer Integrated Manufacturing Systems. (2023-08-15) [2024-03-04]. http://kns. cnki. net/kcms/detail/11. 5946. TP. 20230815. 1410. 003. html.)
[12]肖勇,劉建勛,胡蓉,等. 基于 GAT2VEC 的 Web 服務(wù)分類方法 [J]. 軟件學(xué)報,2021,32(12): 3751-3767. (Xiao Yong,Liu Jianxun,Hu Rong,et al. Web service classification method based on GAT2VEC [J]. Journal of Software,2021,32(12): 3751-3767.)
[13]Shi Weishi,Liu Xumin,Yu Qi. Correlation-aware multi-label active learning for Web service tag recommendation [C]// Proc of ICWS. Piscataway,NJ: IEEE Press,2017: 229-236.
[14]Gan Yanglan,Xiang Yang,Zou Guobing,et al. Multi-label recommendation of Web services with the combination of deep neural networks [C]// Proc of the 15th International Conference on Collaborative Computing: Networking,Applications and Worksharing. Berlin: Springer,2019: 394-407.
[15]Shi Min,Liu Jianxun,Zhou Dong,et al. A topic-sensitive method for mashup tag recommendation utilizing multi-relational service data [J]. IEEE Trans on Services Computing,2018,14(2): 342-355.
[16]Chen Wentao,Liu Mingyi,Tu Zhiying,et al. TagTag: a novel framework for service tags recommendation and missing tag prediction [C]// Proc of ICSOC. Berlin: Springer,2022: 340-348.
[17]胡強(qiáng),沈嘉吉,荊廣輝,等. 基于描述語境特征詞與改進(jìn) GSDMM 模型的服務(wù)聚類方法 [J]. 通信學(xué)報,2021,42(8): 176-187. (Hu Qiang,Shen Jiaji,Jing Guanghui,et al. Service clustering method based on description context feature words and improved GSDMM Model [J]. Journal on Communications,2021,42(8): 176-187.)
[18]Mihalcea R,Tarau P. Textrank: Bringing order into text [C]// Proc of EMNLP. 2004: 404-411.
[19]Gulati V,Kumar D,Popescu D E,et al. Extractive article summarization using integrated TextRank and BM25+algorithm [J]. Electronics,2023,12(2): 372.
[20]El Alaoui D,Riffi J,Sabri A,et al. Deep GraphSAGE-based recommendation system: jumping knowledge connections with ordinal aggregation network [J]. Neural Computing and Applications,2022,34(14): 11679-11690.
[21]Tang Bin,Yan Meng,Zhang Neng,et al. Co-attentive representation learning for Web services classification [J]. Expert Systems with Applications,2021,180: 115070.
[22]Pan Shirui,Wu Jia,Zhu Xingquan,et al. Tri-party deep network representation [C]// Proc of IJCAI. Palo Alto,CA: AAAI Press,2016: 12.
[23]Zhao Yi,Qiao Yu,He Keqing. A novel tagging augmented LDA model for clustering [J]. International Journal of Web Services Research,2019,16(3): 59-77.
[24]Yin Jianhua,Wang Jianyong. A Dirichlet multinomial mixture model-based approach for short text clustering [C]// Proc of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2014: 233-242.
[25]Dakhel A M,Desmarais M C,Khomh F. dev2vec: representing domain expertise of developers in an embedding space [J]. Information and Software Technology,2023,159: 107218.
[26]Devlin J,Chang M W,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of the 17th Conference on the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapo-lis,New York: ACM Press,2019,1: 2.
[27]Yang Pengcheng,Sun Xu,Li Wei,et al. SGM: sequence generation model for multi-label classification [C]// Proc of the 27th International Conference on Computational Linguistics. 2018: 3915-3926.
[28]Wang Tianshi,Liu Naiwen,Zhang Huaxiang,et al. A multi-label text classification method via dynamic semantic representation model and deep neural network [J]. Applied Intelligence,2020,50(8): 2339-2351.
收稿日期:2024-01-17;修回日期:2024-03-06 基金項目:國家自然科學(xué)基金資助項目(61973180);云南省科技廳資助項目(202305AO350007,202305AP350017);云南省地方本科高?;A(chǔ)研究聯(lián)合專項面上項目(202301BA070001-003,202001BA070001-197,202001BA070001-173);昆明學(xué)院引進(jìn)人才項目(YJL2205);云南省昆明市院士專家工作站項目(YSZJGZZ-2022099);山東省重點(diǎn)研發(fā)計劃軟科學(xué)項目(2023RKY01009)
作者簡介:劉慶雪(1980—),男,山東鄒城人,副教授,博士,主要研究方向為智能制造、機(jī)器學(xué)習(xí);王荔芳(1976—),女,云南宣威人,教授,主要研究方向為復(fù)雜系統(tǒng)建模與控制;潘國慶(1995—),男,山東萊州人,碩士,主要研究方向為服務(wù)計算;胡強(qiáng)(1980—),男(通信作者),山東鄒城人,副教授,博導(dǎo),博士,主要研究方向為服務(wù)計算、自然語言處理(huqiang200280@163.com).