尤良輝 張華熊
摘?要:
隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的快速發(fā)展,電商平臺(tái)迅速崛起成為推動(dòng)網(wǎng)絡(luò)消費(fèi)增長(zhǎng)的一股新興且強(qiáng)大的力量。為了有效利用海量的商品評(píng)論數(shù)據(jù),文章基于京東商城絲綢商品的評(píng)論數(shù)據(jù),使用詞頻統(tǒng)計(jì)對(duì)評(píng)論數(shù)據(jù)進(jìn)行分析處理,構(gòu)建屬性\|情感詞詞典,填充了評(píng)論中的隱性屬性。利用Label?Studio數(shù)據(jù)標(biāo)注平臺(tái)對(duì)評(píng)論數(shù)據(jù)進(jìn)行屬性\|觀點(diǎn)\|情感的三元標(biāo)注,經(jīng)過(guò)標(biāo)注后的數(shù)據(jù)集被應(yīng)用于UIE(Unified?Structure?Generation?for?Universal?Information?Extraction)模型進(jìn)行屬性級(jí)情感抽取,并基于抽取的數(shù)據(jù)集對(duì)ERNIE(Enhanced?Language?Representation?with?Informative?Entities)模型進(jìn)行微調(diào)訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該方法在屬性級(jí)情感分析中的準(zhǔn)確率高達(dá)90%,填充隱性屬性后,準(zhǔn)確率提升至94%,表明該方法所得模型在屬性級(jí)情感分析中有著不錯(cuò)的效果。
關(guān)鍵詞:電商評(píng)論;深度學(xué)習(xí);UIE;屬性級(jí)情感分析
中圖分類號(hào):TP391.9??文獻(xiàn)標(biāo)志碼:A
0?引言(Introduction)
隨著互聯(lián)網(wǎng)的快速發(fā)展,電子商務(wù)已經(jīng)迅速成為人們進(jìn)行購(gòu)物和交易的主導(dǎo)方式。截至2023年6月,我國(guó)擁有約10.79億網(wǎng)民,互聯(lián)網(wǎng)普及率達(dá)到76.4%[1]。這一迅猛發(fā)展不僅催生了電子商務(wù)的繁榮,還帶來(lái)了海量的電子商務(wù)數(shù)據(jù),其中商品的用戶評(píng)論數(shù)據(jù)相對(duì)容易獲取且不涉及敏感信息,因此對(duì)這些海量的商品評(píng)論數(shù)據(jù)進(jìn)行深入分析和挖掘,以提取有價(jià)值的消費(fèi)者見(jiàn)解和市場(chǎng)趨勢(shì),成為當(dāng)前自然語(yǔ)言處理研究領(lǐng)域的熱點(diǎn)之一[2]。同時(shí),我國(guó)紡織服裝企業(yè)的生產(chǎn)模式普遍仍以傳統(tǒng)的加工制造為主,智能化、協(xié)同化、信息化制造能力不強(qiáng)。隨著近年來(lái)信息技術(shù)的快速發(fā)展,紡織服裝行業(yè)也有借助現(xiàn)代信息技術(shù)轉(zhuǎn)變模式、提升競(jìng)爭(zhēng)力的愿望。
基于以上背景,本文旨在運(yùn)用深度學(xué)習(xí)技術(shù)對(duì)紡織服裝行業(yè)的電商評(píng)論數(shù)據(jù)進(jìn)行屬性級(jí)情感分析,希望能夠揭示絲綢紡織行業(yè)中消費(fèi)者的情感、觀點(diǎn)和動(dòng)態(tài)興趣等行為要素,為商家提供決策和管理方面的指導(dǎo)和建議。
屬性級(jí)情感分析[3]是一種文本分析技術(shù),旨在從文本中提取出與特定屬性相關(guān)的情感信息。相比于傳統(tǒng)的整體情感分析,屬性級(jí)情感分析的細(xì)粒度更細(xì),可以幫助分析人員更準(zhǔn)確地了解消費(fèi)者對(duì)不同屬性的情感傾向。
在絲綢紡織行業(yè)中,電商評(píng)論常常出現(xiàn)面料、顏色、價(jià)格等多個(gè)維度的評(píng)論,并且每個(gè)維度都有對(duì)應(yīng)的情感。例如,“絲巾還是很漂亮的,面料也很舒服,就是價(jià)格太貴了”評(píng)論中的“面料”維度對(duì)應(yīng)的觀點(diǎn)詞是“舒服”,情感傾向?yàn)檎?,而“價(jià)格”維度對(duì)應(yīng)的觀點(diǎn)詞是“貴”,情感傾向?yàn)樨?fù)向。因此,對(duì)于類似的評(píng)論,分析人員不能簡(jiǎn)單地對(duì)整個(gè)句子進(jìn)行情感分析,而是需要找到一種方法更加深入地挖掘信息,這種方法便是屬性級(jí)情感分析。
在屬性級(jí)情感分析中,需要識(shí)別出評(píng)論中涉及的不同維度,針對(duì)每個(gè)維度找到與之相關(guān)的觀點(diǎn)詞和情感傾向,通過(guò)屬性級(jí)情感的提取,分析人員可以了解每個(gè)維度上的用戶觀點(diǎn)和情感傾向,從而獲得更豐富的情感分析結(jié)果。
2?[JP5]相關(guān)深度學(xué)習(xí)模型(Relevant?deep?learning?models)
2.1?UIE模型
UIE(Unified?Structure?Generation?for?Universal?Information?Extraction)[4]模型是一個(gè)面向信息抽取的統(tǒng)一文本到結(jié)構(gòu)生成框架,它可以統(tǒng)一建模不同的信息抽取任務(wù),如實(shí)體、關(guān)系、事件和情感等,并自適應(yīng)地生成目標(biāo)結(jié)構(gòu)。該模型設(shè)計(jì)了一種結(jié)構(gòu)提取語(yǔ)言(Structure?Extraction?Language,SEL),該語(yǔ)言可以有效地將不同的信息抽取(Information?Extraction,IE)結(jié)構(gòu)編碼為統(tǒng)一的表示,從而可以在相同的文本到結(jié)構(gòu)生成框架中對(duì)各種IE任務(wù)進(jìn)行通用建模。為了自適應(yīng)地為不同的IE任務(wù)生成目標(biāo)結(jié)構(gòu),百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司提出了結(jié)構(gòu)模式指導(dǎo)器(Structural?Schema?Instructor,SSI),這是一種基于模式的提示機(jī)制,用于控制UIE中要發(fā)現(xiàn)的內(nèi)容、要關(guān)聯(lián)的內(nèi)容及要生成的內(nèi)容。
2.2?ERNIE模型
ERNIE[5](Enhanced?Language?Representation?with?Informative?Entities)模型采用Transformer?Encoder的方式作為基本的編碼器,模型大小是12?encoder?layer、178?hidden?units、12?attention?heads。ERNIE模型與BERT[6](Bidirectional?Encoder?Representations?from?Transformers)模型十分相似,但ERNIE改進(jìn)了兩種masking策略,一種是基于短語(yǔ)的masking策略,另一種是基于名詞(如人名、位置、組織、產(chǎn)品)的masking策略。在ERNIE中,將由多個(gè)字組成的短語(yǔ)或者名詞當(dāng)成一個(gè)統(tǒng)一單元,相比于BERT基于字的mask,這個(gè)單元當(dāng)中的所有字在訓(xùn)練的時(shí)候,統(tǒng)一被mask。對(duì)比直接將知識(shí)類的query映射成向量后直接相加,ERNIE通過(guò)統(tǒng)一mask的方式,可以潛在地學(xué)習(xí)到知識(shí)的依賴及更長(zhǎng)的語(yǔ)義依賴,進(jìn)而讓模型更具泛化性。
3.1?在線評(píng)論數(shù)據(jù)采集
(1)采集來(lái)源
網(wǎng)絡(luò)化時(shí)代的到來(lái)產(chǎn)生了大量的消費(fèi)者生成內(nèi)容,消費(fèi)者不僅可以在消費(fèi)前在互聯(lián)網(wǎng)中獲得產(chǎn)品的基本信息,也可以獲知其他已購(gòu)買(mǎi)該產(chǎn)品的消費(fèi)者對(duì)產(chǎn)品的使用體驗(yàn)。這些信息在互聯(lián)網(wǎng)不同的平臺(tái)上不停地更新,例如京東、淘寶等第三方購(gòu)物平臺(tái),以及官方的論壇、社區(qū)、社交平臺(tái)賬號(hào)等。由于絲綢紡織行業(yè)的用戶評(píng)論內(nèi)容豐富,用戶的需求多樣,這就要求采集的用戶評(píng)論數(shù)量足夠多、內(nèi)容真實(shí)且篇幅不能過(guò)短。官方的論壇、社區(qū)、社交平臺(tái)賬號(hào)的評(píng)論數(shù)量較少,不滿足采集需求,并且有可能是商家花錢(qián)買(mǎi)推廣的評(píng)論。相比于官方的論壇、社區(qū)、社交平臺(tái)賬號(hào),第三方在線平臺(tái)具有評(píng)論真實(shí)、屬性全面、質(zhì)量更高的優(yōu)勢(shì)。首先,隨著互聯(lián)網(wǎng)購(gòu)物方式的普及和物流行業(yè)的快速發(fā)展,越來(lái)越多的消費(fèi)者選擇線上購(gòu)買(mǎi)產(chǎn)品,因此第三方購(gòu)物網(wǎng)站的每款熱銷絲綢商品的評(píng)論都達(dá)到數(shù)萬(wàn)條,這些評(píng)論可以真實(shí)地反映大多數(shù)消費(fèi)者的心聲。其次,用戶在評(píng)論商品時(shí),可以選擇不同的屬性標(biāo)簽,這為細(xì)粒度的需求分析提供了相對(duì)完善的評(píng)論信息。最后,得益于平臺(tái)的評(píng)論監(jiān)測(cè)過(guò)濾機(jī)制,大大減少了其中摻雜的垃圾評(píng)論,提高了評(píng)論的質(zhì)量。因此,本文選擇各個(gè)電商平臺(tái)的評(píng)論作為在線評(píng)論數(shù)據(jù)來(lái)源。
(2)采集過(guò)程
基于用戶評(píng)價(jià)的數(shù)據(jù)挖掘需要大量的用戶評(píng)論語(yǔ)料,顯然依靠人力收集在線用戶評(píng)論的工作量相當(dāng)大,因此必須借助現(xiàn)有的爬蟲(chóng)技術(shù)從電商平臺(tái)快速獲取用戶評(píng)論。網(wǎng)絡(luò)爬蟲(chóng)[7]其實(shí)就是一個(gè)程序或者腳本,它向目標(biāo)鏈接發(fā)起Http請(qǐng)求并按照開(kāi)發(fā)者設(shè)定的規(guī)則對(duì)返回?cái)?shù)據(jù)進(jìn)行過(guò)濾解析,實(shí)現(xiàn)自動(dòng)從互聯(lián)網(wǎng)上抓取所需的信息。為我們熟知的搜索引擎如谷歌和百度都是大型的爬蟲(chóng)系統(tǒng),基于用戶輸入的關(guān)鍵字在全網(wǎng)進(jìn)行爬蟲(chóng)搜索,并將相關(guān)的網(wǎng)頁(yè)呈現(xiàn)給用戶。
現(xiàn)有的網(wǎng)絡(luò)爬蟲(chóng)工具有“八爪魚(yú)”、HTTrack、Scraper、OutWit?Hub等。“八爪魚(yú)”是一款免費(fèi)且功能強(qiáng)大的網(wǎng)站爬蟲(chóng),用于從網(wǎng)站上幫助使用者提取需要的幾乎所有類型的數(shù)據(jù)。用戶可以使用其內(nèi)置的正則表達(dá)式工具從復(fù)雜的網(wǎng)站布局中提取許多棘手網(wǎng)站的數(shù)據(jù),并使用XPath配置工具精確定位Web元素。
利用網(wǎng)絡(luò)爬蟲(chóng)工具“八爪魚(yú)”對(duì)京東商城的絲綢類商品評(píng)論進(jìn)行爬取,主要爬取評(píng)論、用戶名、評(píng)價(jià)星級(jí)、店鋪名稱、貨號(hào)、商品材質(zhì)等內(nèi)容(表1)。
3.2?數(shù)據(jù)預(yù)處理
雖然在線商城的用戶評(píng)論數(shù)量龐大,但是由于用戶表達(dá)隨意,其中摻雜了許多無(wú)效評(píng)論,若在后續(xù)分析階段不對(duì)其進(jìn)行處理,則這些無(wú)效評(píng)論將帶來(lái)較大的干擾。因此,需要對(duì)評(píng)論進(jìn)行預(yù)處理,去除無(wú)效評(píng)論。需要?jiǎng)h除的評(píng)論可分為3種情況。
一是重復(fù)的評(píng)論。爬取的評(píng)論難免會(huì)出現(xiàn)重復(fù)內(nèi)容,原因可能是用戶進(jìn)行了復(fù)制粘貼,或是在分批爬取時(shí),網(wǎng)頁(yè)更新了評(píng)論動(dòng)態(tài)等。為此,需要?jiǎng)h除重復(fù)的評(píng)論。
二是過(guò)短的評(píng)論。一些評(píng)論可能只包含一兩個(gè)字,這類過(guò)短的評(píng)論所包含的信息非常有限,因此真正有效的評(píng)論至少需要包含3個(gè)字以上,例如“速度快”,因此需要?jiǎng)h除少于3個(gè)字的評(píng)論。
三是無(wú)意義的評(píng)論。某些消費(fèi)者為了積分而隨意評(píng)論,他們會(huì)隨意打字湊字?jǐn)?shù),這種評(píng)論毫無(wú)挖掘價(jià)值,同樣需要?jiǎng)h除。
經(jīng)過(guò)上述篩選步驟,共得到了16?900條有效的評(píng)論數(shù)據(jù)。
[BT5+*5]3.3?詞頻統(tǒng)計(jì)與分析
詞頻統(tǒng)計(jì)分析是文本分析中一種重要的方法。它通過(guò)計(jì)算詞語(yǔ)在文本中的頻率揭示文本的特征和模式。詞頻統(tǒng)計(jì)可用于識(shí)別文本的主題和關(guān)鍵詞,把握評(píng)論中的核心內(nèi)容和重點(diǎn)詞匯,同時(shí)它能揭示詞語(yǔ)之間的關(guān)聯(lián)關(guān)系,幫助分析人員理解文本的內(nèi)在結(jié)構(gòu)和語(yǔ)義信息。此外,詞頻統(tǒng)計(jì)可用于情感分析,評(píng)估文本的情感傾向。在特定領(lǐng)域的文本分析中,詞頻統(tǒng)計(jì)也具有重要作用,它能幫助分析人員理解和解釋領(lǐng)域內(nèi)的文本內(nèi)容。
3.3.1?Jieba分詞
Jieba分詞[8]是一種基于Python語(yǔ)言的中文分詞工具,它采用了基于前綴詞典實(shí)現(xiàn)的分詞算法,能夠?qū)⒁欢沃形奈谋厩懈畛梢粋€(gè)一個(gè)的詞語(yǔ),并對(duì)每個(gè)詞語(yǔ)進(jìn)行詞性標(biāo)注。停用詞是指在文本分析過(guò)程中需要過(guò)濾掉的一些常見(jiàn)詞語(yǔ),這些詞語(yǔ)通常是出現(xiàn)頻率較高,但對(duì)文本分析任務(wù)并沒(méi)有實(shí)質(zhì)性貢獻(xiàn)的詞語(yǔ),比如“的”“是”“在”等。本文在使用Jieba分詞工具對(duì)數(shù)據(jù)進(jìn)行分詞處理時(shí),使用了公開(kāi)的中文常用停用詞表——哈工大的中文停用詞表(哈爾濱工業(yè)大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室發(fā)布的一個(gè)停用詞表)過(guò)濾掉停用詞。
3.3.2?統(tǒng)計(jì)詞頻與分析詞性
對(duì)每條評(píng)論的詞語(yǔ)進(jìn)行頻率統(tǒng)計(jì),提取所有出現(xiàn)頻率超過(guò)1%的詞語(yǔ)共104個(gè),并對(duì)它們進(jìn)行詞性分析,詞頻與詞性示例圖如圖1所示。
3.3.3?構(gòu)建屬性聚類表和屬性\|情感詞詞典
統(tǒng)計(jì)得出與絲綢有關(guān)的屬性,并根據(jù)相似性將其分為7個(gè)大類,創(chuàng)建屬性聚類表(表2)。
3.4?屬性級(jí)情感數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注平臺(tái):Label?Studio是一個(gè)開(kāi)源的數(shù)據(jù)標(biāo)注平臺(tái),支持各種類型的數(shù)據(jù)標(biāo)注任務(wù),包括文本、圖像、音頻、視頻等。它可以幫助數(shù)據(jù)科學(xué)家和研究人員快速地創(chuàng)建高質(zhì)量的標(biāo)注數(shù)據(jù)集,將其用于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等任務(wù)中。
根據(jù)屬性聚類表(表2)和屬性\|情感詞詞典(表3)進(jìn)行標(biāo)注,具體標(biāo)注規(guī)則如下:將屬性標(biāo)注為評(píng)價(jià)維度(正向或負(fù)向),將其對(duì)應(yīng)的情感詞標(biāo)注為觀點(diǎn)詞,二者之間以“觀點(diǎn)詞”相關(guān)聯(lián),屬性級(jí)情感數(shù)據(jù)標(biāo)注示例圖如圖2所示。
3.5?屬性級(jí)情感數(shù)據(jù)提取
3.5.1?設(shè)計(jì)結(jié)構(gòu)提取語(yǔ)言
根據(jù)屬性級(jí)情感數(shù)據(jù)標(biāo)注構(gòu)建結(jié)構(gòu)模式指導(dǎo)器(SSL),用于控制UIE中要發(fā)現(xiàn)的內(nèi)容、要關(guān)聯(lián)的內(nèi)容及要生成的內(nèi)容。在本研究中需要構(gòu)建的結(jié)構(gòu)模式指導(dǎo)器有4個(gè),分別是“屬性”“屬性對(duì)應(yīng)的觀點(diǎn)詞”“觀點(diǎn)詞”“情感傾向”。
通過(guò)UIE模型設(shè)計(jì)結(jié)果提取語(yǔ)言(SEL),完成屬性級(jí)情感的信息抽取任務(wù)。在形式上,UIE將給定的結(jié)構(gòu)模式指導(dǎo)器(S)和文本序列(X)作為輸入,并生成線性化SEL(Y),其中包含基于模式S從X中提取的信息:
3.5.2?隱性屬性提取
在中文語(yǔ)境中,常常會(huì)出現(xiàn)省略的情況,因此為了增加句子的表達(dá)能力和描述能力,本文采用屬性\|情感詞詞典補(bǔ)全省略的屬性。使用UIE模型構(gòu)建結(jié)構(gòu)提取語(yǔ)言(SEL)時(shí),當(dāng)句子中存在某個(gè)觀點(diǎn)詞沒(méi)有相互對(duì)應(yīng)的屬性詞時(shí),會(huì)在屬性\|情感詞詞典中進(jìn)行檢索,查看是否將屬性詞省略,若存在省略情況,則將省略的屬性詞添加到SEL中,實(shí)現(xiàn)隱性屬性的提取。以評(píng)論“太貴了”為例,該句子中明顯省略的屬性詞為“價(jià)格”。隱性屬性SEL構(gòu)建表如表5所示。
3.5.3?UIE模型提取結(jié)果
屬性級(jí)標(biāo)注數(shù)據(jù)共1?000余條,經(jīng)過(guò)UIE模型構(gòu)建后,可得到訓(xùn)練集13?000余條,驗(yàn)證集1?600余條,測(cè)試集1?600余條。
3.6?ERNIE模型訓(xùn)練
3.6.1?實(shí)驗(yàn)環(huán)境配置
本文模型基于Paddlepaddle框架,使用GPU進(jìn)行訓(xùn)練,實(shí)驗(yàn)使用的GPU為NVIDIA?GTX3060,Paddlepaddle\|gpu版本2.4.2,Paddlenlp版本2.5.2,Python版本3.9,CPU為R9\|6900HX,操作系統(tǒng)為Windows10家庭中文版。模型支持處理的最大序列長(zhǎng)度為256,訓(xùn)練批次為8次,訓(xùn)練最大學(xué)習(xí)率設(shè)置為0.000?01。
3.6.2?評(píng)價(jià)指標(biāo)
評(píng)價(jià)模型的指標(biāo)[9]主要有精確率(Precision),召回率(Recall)和F1值,計(jì)算方法如公式(2)至公式(4)所示:
其中:TP為預(yù)測(cè)正確的正樣本數(shù)量,F(xiàn)P為預(yù)測(cè)錯(cuò)誤的正樣本數(shù)量,F(xiàn)N為預(yù)測(cè)錯(cuò)誤的負(fù)樣本數(shù)量。
3.6.3?實(shí)驗(yàn)結(jié)果與分析
第一組實(shí)驗(yàn)是直接將ERNIE預(yù)訓(xùn)練模型對(duì)測(cè)試集進(jìn)行多次驗(yàn)證后的平均評(píng)價(jià)指標(biāo);第二組實(shí)驗(yàn)是通過(guò)UIE屬性提取后,對(duì)ERNIE模型進(jìn)行小樣本訓(xùn)練后的平均評(píng)價(jià)指標(biāo);第三組實(shí)驗(yàn)是采用隱性屬性提取后,對(duì)ERNIE模型進(jìn)行小樣本訓(xùn)練后的平均評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如表6所示。
從表6中的數(shù)據(jù)可以看出,通過(guò)屬性聚類表和屬性\|情感詞詞典設(shè)計(jì)的UIE提取規(guī)則對(duì)于預(yù)訓(xùn)練模型效果提升十分有效,特別是召回率有了大幅的提升,這是模型能夠?qū)W習(xí)到更多絲綢紡織行業(yè)屬性的表現(xiàn);而隱性屬性提取的方法使模型能夠注意到評(píng)論中隱含的屬性,使模型的評(píng)價(jià)指標(biāo)F1值相較于未經(jīng)過(guò)隱性屬性提取的方法的相應(yīng)指標(biāo)值提升了4百分點(diǎn)。
4?結(jié)論(Conclusion)
在如何有效利用商品評(píng)論數(shù)據(jù)的問(wèn)題上,本文針對(duì)絲綢紡織行業(yè)的商品評(píng)論數(shù)據(jù),通過(guò)詞頻統(tǒng)計(jì)分析構(gòu)建了屬性聚類表和屬性\|情感詞詞典,同時(shí)基于評(píng)論中隱性屬性的提取并結(jié)合UIE模型和ERNIE模型,實(shí)現(xiàn)了對(duì)絲綢紡織行業(yè)電商評(píng)論的屬性級(jí)情感提取。實(shí)驗(yàn)結(jié)果證明了本文所提方法的有效性,該方法能夠幫助商家有效了解消費(fèi)者的需求和市場(chǎng)發(fā)展趨勢(shì),從而有針對(duì)性地對(duì)產(chǎn)品進(jìn)行改進(jìn)。此外,該方法對(duì)于其他行業(yè)的評(píng)論數(shù)據(jù)挖掘也具有一定的參考價(jià)值。
參考文獻(xiàn)(References)
[1]?CNNIC.?第52次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].?(2023\|08\|28)[2024\|02\|01].?https:∥www.cnnic.net.cn/n4/2023/0828/c88\|10829.html.
[2]?李鐵.?面向大規(guī)模電商評(píng)論的情感分析與興趣挖掘研究[D].?成都:電子科技大學(xué),2018.
[3]?ZHANG?L,WANG?S,LIU?B.?Deep?learning?for?sentiment?analysis:a?survey[J].?WIREs?data?mining?and?knowledge?discovery,2018,8(4):e1253.
[4]?LU?Y?J,LIU?Q,DAI?D,et?al.?Unified?structure?generation?for?universal?information?extraction[C]∥Proceedings?of?the?60th?Annual?Meeting?of?the?Association?for?Computational?Linguistics?(Volume?1:Long?Papers).?Stroudsburg,PA,USA:Association?for?Computational?Linguistics,2022:5755\|5772.?[HJ2.5mm]
[5]?ZHANG?Z?Y,HAN?X,LIU?Z?Y,et?al.?ERNIE:enhanced?language?representation?with?informative?entities[C]∥Proceedings?of?the?57th?Annual?Meeting?of?the?Association?for?Computational?Linguistics.?Stroudsburg,PA,USA:Association?for?Computational?Linguistics,2019:1441\|1451.
[6]?李可悅,陳軼,牛少彰.?基于BERT的社交電商文本分類算法[J].?計(jì)算機(jī)科學(xué),2021,48(2):87\|92.
[7]?陳國(guó)良,郭修豪.?基于商品評(píng)論信息的特征挖掘[J].?福建電腦,2015,31(5):106\|107.
[8]?韋人予.?中文分詞技術(shù)研究[J].?信息與電腦(理論版),2020,32(10):26\|29.
[9]?POWERS?D?M?W.?Evaluation:from?precision,recall?and?F\|measure?to?ROC,informedness,markedness?and?correlation[DB/OL].?(2020\|10\|11)[2024\|02\|01].?https:∥arxiv.org/abs/2010.16061.
作者簡(jiǎn)介:
尤良輝(2000\|),男,碩士生。研究領(lǐng)域:深度學(xué)習(xí)。
張華熊(1971\|),男,博士,教授。研究領(lǐng)域:智能信息處理。本文通信作者。