国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

<del id="giwkw"><dfn id="giwkw"></dfn></del>

?

高斯混合模型與文本圖卷積網(wǎng)絡(luò)結(jié)合的虛假評(píng)論識(shí)別算法

2024-03-21 02:25劉貴娟陳志豪

計(jì)算機(jī)應(yīng)用 2024年2期

關(guān)鍵詞：關(guān)聯(lián)語義閾值

王星，劉貴娟，陳志豪

（1.中國(guó)人民大學(xué) 應(yīng)用統(tǒng)計(jì)科學(xué)研究中心，北京 100872；2.中國(guó)人民大學(xué) 統(tǒng)計(jì)學(xué)院，北京 100872）

0 引言

在互聯(lián)網(wǎng)快速發(fā)展的數(shù)字經(jīng)濟(jì)背景下，優(yōu)質(zhì)可信的在線消費(fèi)者評(píng)論（Online Consumer Review，OCR）在需求側(cè)消費(fèi)者的購(gòu)買決策和供給側(cè)企業(yè)獲得用戶反饋、提高產(chǎn)品質(zhì)量和改善服務(wù)等方面發(fā)揮著至關(guān)重要的作用［1］。然而，虛假評(píng)論現(xiàn)象廣泛存在于各類在線購(gòu)物及點(diǎn)評(píng)網(wǎng)站中，嚴(yán)重阻礙了電子商務(wù)的真實(shí)性，降低了消費(fèi)者的信任度［2］。鑒于虛假評(píng)論數(shù)量大、信息復(fù)雜和隱蔽性強(qiáng)等難點(diǎn)，識(shí)別和過濾虛假評(píng)論成為學(xué)術(shù)界和業(yè)界共同關(guān)注的研究熱點(diǎn)，亟須“去偽存真、去粗取精”［3］。

在虛假評(píng)論的識(shí)別問題中，常規(guī)的深度學(xué)習(xí)算法通常將它視為自然語言處理（Natural Language Processing，NLP）領(lǐng)域中的常見任務(wù)。Ahmed 等［4］在虛假評(píng)論智能檢測(cè)的開創(chuàng)性研究中指出，可通過詞向量對(duì)評(píng)論做矢量化表示的方式獲得虛假評(píng)論特征的感知。此后，許多學(xué)者沿著詞向量特征的方向，提出諸多從評(píng)論文本中提取敏感詞匯識(shí)別虛假評(píng)論的深度學(xué)習(xí)算法，為虛假評(píng)論的識(shí)別作出貢獻(xiàn)。代表性的研究進(jìn)展主要有兩類：一類通過Word2Vec 和上下文預(yù)訓(xùn)練的BERT（Bidirectional Encoder Representation from Transformers）進(jìn)行向量詞特征表示［5-6］；第二類則將預(yù)訓(xùn)練的詞向量用于深度學(xué)習(xí)訓(xùn)練，如卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）和殘差網(wǎng)絡(luò)（ResNet）等［7］。特征矢量表示方法的局限性多表現(xiàn)為依賴于大量高質(zhì)量的人工標(biāo)注，成本高、噪聲多、質(zhì)量低［8］。此外，為盡可能納入更多的特征，大量的非官方用語、縮寫詞匯等信息源的出現(xiàn)會(huì)干擾特征空間，極易稀釋多標(biāo)簽組合特征，導(dǎo)致丟失輔助語義理解的完整信息［9］。另外，這些算法主要處理經(jīng)轉(zhuǎn)換為歐氏空間有限維度的結(jié)構(gòu)有序的詞向量表示數(shù)據(jù)，難以處理維度可變、搭配無序的關(guān)聯(lián)語義。由于缺少特征間必要的關(guān)聯(lián)組件，這些算法對(duì)虛假評(píng)論的理解深度不足，導(dǎo)致治理虛假的決策行動(dòng)陷入響應(yīng)滯后的困境［10］。

作為凈化網(wǎng)絡(luò)評(píng)論生態(tài)的基礎(chǔ)，首先需要明確虛假評(píng)論的關(guān)鍵信息源和敏感的詞匯影響類型，這對(duì)制定識(shí)別虛假評(píng)論算法的語言感知域至關(guān)重要。國(guó)內(nèi)外學(xué)者對(duì)此已有大量研究。虛假評(píng)論的源頭一般分為評(píng)論作者來源和自然語言來源兩類，兩者不孤立。Zhang 等［11］指出，虛假評(píng)論的作者并非真實(shí)的消費(fèi)者，而是由機(jī)器人大批量生產(chǎn)，存在強(qiáng)偽裝性和數(shù)量激增等諸多隱患。制造虛假評(píng)論的動(dòng)機(jī)主要是為了影響消費(fèi)者的購(gòu)買決策，通過滲透錯(cuò)誤印象來刺激消費(fèi)者；而正常評(píng)論則更注重消費(fèi)后的用戶理性認(rèn)知。根據(jù)印象感知和理性認(rèn)知的不同，早期大量的規(guī)則學(xué)習(xí)和機(jī)器學(xué)習(xí)重點(diǎn)圍繞評(píng)論中的情感用詞、聚焦主題和質(zhì)量誤導(dǎo)話術(shù)等做矢量化語義明線索解析，豐富了虛假評(píng)論的信源感知理論［12］。然而，虛假評(píng)論具有顯著的累積性和后發(fā)性，單純依靠信源明線索難以遏制隱線索的破壞式滲透，智能檢測(cè)十分必要。

近幾年，通過圖表示的圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Network，GNN）和圖卷積網(wǎng)絡(luò)（Graph Convolutional Network，GCN）［13-14］在虛假評(píng)論識(shí)別中的應(yīng)用受到越來越多的關(guān)注。在GCN 虛假監(jiān)測(cè)的技術(shù)研究中，檢測(cè)的問題類型主要集中在虛假新聞、謠言監(jiān)測(cè)和垃圾郵件識(shí)別等，構(gòu)造GCN 的信源主要為用戶類型［15-16］、網(wǎng)絡(luò)結(jié)構(gòu)［17-18］和多層傳播鄰居［19-20］等方面。GCN 的作用主要體現(xiàn)為兩方面：一是學(xué)習(xí)評(píng)論之間的社交關(guān)系；二是結(jié)合GCN 與其他深度學(xué)習(xí)模型，以提高虛假評(píng)論識(shí)別的準(zhǔn)確性。目前的虛假評(píng)論研究多為新聞和謠言類，對(duì)電商經(jīng)營(yíng)中的虛假評(píng)論研究卻不多見。與虛假新聞和謠言等識(shí)別問題相比，商品評(píng)論更需要理解內(nèi)容中潛藏的豐富的用語搭配和長(zhǎng)程單詞依賴的句式在語義技術(shù)上的支持，需要增強(qiáng)評(píng)論文本中詞的關(guān)聯(lián)信息，捕捉內(nèi)容之間的語義關(guān)系。GNN 和GCN 在NLP 的常規(guī)內(nèi)容分析任務(wù)中已展現(xiàn)出強(qiáng)大的語義理解技術(shù)優(yōu)勢(shì)，典型的如關(guān)系推理［21-22］、文本分類［23］、復(fù)句識(shí)別［24］、機(jī)器翻譯［25］和序列標(biāo)簽［26］等。相關(guān)的虛假評(píng)論的語義研究表明：融合評(píng)論捕捉全局語義信息網(wǎng)，將文本特征與用戶行為特征等進(jìn)行非矢量化語義表達(dá)將有助于促進(jìn)虛假評(píng)論檢測(cè)理解［12］，非矢量化語義特征之間的關(guān)系信息正成為理解虛假評(píng)論模式的新熱點(diǎn)。

Yao 等［10］提出了基于文本的圖卷積網(wǎng)絡(luò)（Text GCN）用于文本分類，在基準(zhǔn)數(shù)據(jù)集中取得良好性能。與傳統(tǒng)的矢量特征方法相比，新興的Text GCN 模型以圖結(jié)構(gòu)的方式解析文本中各語言元素間的豐富關(guān)系，通過GCN 學(xué)習(xí)詞結(jié)構(gòu)以捕獲深層的語義關(guān)聯(lián)［10］，可用于感知虛假評(píng)論的結(jié)構(gòu)與文本相結(jié)合的關(guān)聯(lián)信息。然而，在構(gòu)建文本圖的過程中，設(shè)計(jì)Text GCN 非常有挑戰(zhàn)。將Text GCN 用于虛假評(píng)論的識(shí)別目標(biāo)是找到它與正常評(píng)論之間穩(wěn)定的關(guān)聯(lián)結(jié)構(gòu)差異，該過程成功的關(guān)鍵取決于能否控制虛假評(píng)論相對(duì)于正常評(píng)論的信噪比不至于過小，而在輸入信源邊權(quán)信噪比較低的前提下，這有賴于Text GCN 預(yù)處理階段的窗口選擇。在Text GCN 的窗口設(shè)計(jì)中忽視對(duì)虛假評(píng)論結(jié)構(gòu)信號(hào)強(qiáng)度的感知，易丟失關(guān)鍵結(jié)構(gòu)，導(dǎo)致效果虛高而結(jié)構(gòu)泛化識(shí)別不足的問題。

在實(shí)際算法訓(xùn)練中，受制于人工打標(biāo)的保守性，導(dǎo)致虛假評(píng)論的訓(xùn)練樣本相對(duì)于正常評(píng)論通常呈現(xiàn)數(shù)量明顯偏少的情況，需要有效學(xué)習(xí)虛假評(píng)論豐富的語義特征并提高結(jié)構(gòu)關(guān)聯(lián)識(shí)別能力。針對(duì)當(dāng)前Text GCN 對(duì)稀疏詞結(jié)構(gòu)選擇能力的不確定性，考慮到用詞量、詞特征、詞與詞以及詞與非文本特征的多模態(tài)組合關(guān)聯(lián)結(jié)構(gòu)的不確定性，在預(yù)處理階段引入基于高斯混合分布的虛假結(jié)構(gòu)信號(hào)感知檢測(cè)模塊，對(duì)虛假評(píng)論和正常評(píng)論實(shí)施非破壞性結(jié)構(gòu)檢驗(yàn)。綜上所述，本文在Text GCN 的基礎(chǔ)上，提出一種用于電商購(gòu)物平臺(tái)虛假評(píng)論識(shí)別算法F-Text GCN（Fake-review Text GCN）。

1 圖卷積神經(jīng)網(wǎng)絡(luò)的虛假評(píng)論識(shí)別模型

1.1 Text GCN

相較于傳統(tǒng)的基于特征表示和聯(lián)系上下文語義的深度學(xué)習(xí)方法，基于文本內(nèi)容引入文檔-詞的圖表示學(xué)習(xí)能更清晰地表示文本結(jié)構(gòu)所包含的深層語義關(guān)系。對(duì)于虛假評(píng)論識(shí)別任務(wù)，引入良好的圖結(jié)構(gòu)信息既能克服短評(píng)論中信息強(qiáng)度弱的缺點(diǎn)，又能降低模型識(shí)別過程中的混雜噪聲。

1.1.1 GCN

本文研究的GCN 模型是Kipf 等［27］在頻譜卷積神經(jīng)網(wǎng)絡(luò)（Spectral CNN）和切比雪夫網(wǎng)絡(luò)（ChebNet）的基礎(chǔ)上提出的，是將傳統(tǒng)的譜方法中的節(jié)點(diǎn)參數(shù)化方式擴(kuò)展到對(duì)譜域的卷積操作［28］。為獲得更多鄰域和更長(zhǎng)程的關(guān)聯(lián)信息，通常需要集成多個(gè)GCN 層堆疊。假設(shè)圖結(jié)構(gòu)表示為G=(V，E)，|V|=n，當(dāng)使用多層GCN 獲取鄰域信息時(shí)，層間的更新方法為：

其中：j表示層數(shù)；L(0)=X∈Rn×m表示初始節(jié)點(diǎn)特征表示矩陣，每個(gè)節(jié)點(diǎn)的初始特征維數(shù)為表示第j層節(jié)點(diǎn)特征矩陣表示第j層權(quán)重矩陣，用于調(diào)整每層的特征維數(shù)提取特征表示歸一化的對(duì)稱鄰接矩陣，ρ表示激活函數(shù)。根據(jù)式（1）計(jì)算可得出第j+1 層節(jié)點(diǎn)特征矩陣L(j+1)。

1.1.2 Text GCN

Text GCN 模型由文本圖構(gòu)建和GCN 訓(xùn)練兩步構(gòu)成。

1）文本圖構(gòu)建。

根據(jù)詞在文檔中的出現(xiàn)率和詞在整個(gè)語料庫(kù)中的共現(xiàn)率構(gòu)建詞節(jié)點(diǎn)連邊。模型中，文檔與詞節(jié)點(diǎn)間的邊權(quán)定義為術(shù)語頻率-逆文檔頻率（Term Frequency-Inverse Document Frequency，TF-IDF）值［29］，用于評(píng)估單詞在文本中的重要程度。對(duì)語料庫(kù)中所有文檔使用由邊權(quán)閾值控制的窗口，收集共現(xiàn)詞頻統(tǒng)計(jì)數(shù)據(jù)，用于刻畫全局詞匯共現(xiàn)關(guān)系。衡量詞關(guān)聯(lián)的方法是計(jì)算點(diǎn)對(duì)點(diǎn)的互信息（Pointwise Mutual Information，PMI）［30］，用于表示兩個(gè)詞節(jié)點(diǎn)間的權(quán)重。根據(jù)Yao 等［10］提出的帶權(quán)值鄰接矩陣表示如下：

其中：TF-IDF 由詞在文檔中出現(xiàn)的次數(shù)和評(píng)論總數(shù)除以包含該詞的評(píng)論數(shù)所得的商取對(duì)數(shù)兩部分構(gòu)成。詞節(jié)點(diǎn)對(duì)（i，j）的PMI 值計(jì)算如下：

其中：p(i，j)表示詞節(jié)點(diǎn)i與詞節(jié)點(diǎn)j共現(xiàn)的概率，p（i）是在滑動(dòng)窗口下詞i出現(xiàn)的概率，#U（i，j）是同時(shí)包含詞節(jié)點(diǎn)i和詞節(jié)點(diǎn)j的詞頻數(shù)，#U（i）是語料庫(kù)中包含詞節(jié)點(diǎn)i的詞頻數(shù)，#U是語料庫(kù)中詞頻總數(shù)。當(dāng)語料庫(kù)中單節(jié)點(diǎn)對(duì)的語義相關(guān)性較高時(shí)，PMI 值為正；當(dāng)語義相關(guān)性很小或沒有時(shí)，PMI 值為負(fù)。據(jù)此，構(gòu)建詞節(jié)點(diǎn)賦邊時(shí)只考慮PMI 值為正的詞節(jié)點(diǎn)對(duì)，PMI 值為負(fù)的節(jié)點(diǎn)間不連邊。鄰接矩陣A的各部分組成如圖1 所示。

圖1 Text GCN中鄰接矩陣A的示意圖Fig.1 Schematic diagram of adjacency matrix A in Text GCN

在文本圖的構(gòu)建過程中，Text GCN 考慮的重點(diǎn)是詞節(jié)點(diǎn)對(duì)之間以及詞節(jié)點(diǎn)-文檔節(jié)點(diǎn)對(duì)的關(guān)系，并未對(duì)文檔節(jié)點(diǎn)對(duì)間的關(guān)系進(jìn)一步考慮。

2）GCN 訓(xùn)練學(xué)習(xí)。

在構(gòu)建文本圖時(shí)，使用GCN 提取節(jié)點(diǎn)鄰域信息。通過疊加GCN 的層數(shù)，獲取更高階的鄰居節(jié)點(diǎn)信息。Text GCN將構(gòu)建文本圖輸入雙層的GCN 中，以獲取二階鄰居節(jié)點(diǎn)信息。嵌入第一層節(jié)點(diǎn)信息時(shí)，使用ReLU（Rectified Linear Unit）作為激活函數(shù)降噪特征。嵌入第二階節(jié)點(diǎn)信息時(shí)，需匹配目標(biāo)維度大小與標(biāo)簽集維度大小，輸入softmax 分類器：

其中：D是測(cè)試數(shù)據(jù)；p是輸出的特征維數(shù)，也稱為類別數(shù)，在虛假評(píng)論的例子中是2 維；Ydi表示真實(shí)的響應(yīng)變量特征表示矩陣；Zdi表示式（4）輸出的向量。為便于受到長(zhǎng)度限制而缺失了部分詞匯的文檔也能對(duì)虛假評(píng)論的固定長(zhǎng)句式提供證據(jù)，GCN 將層數(shù)設(shè)定為雙層，以利于支持間隔兩步之內(nèi)的節(jié)點(diǎn)之間的信息傳遞。短文檔可借助全局語料中與長(zhǎng)文檔所包含的固定句式的詞匯節(jié)點(diǎn)形成密切的節(jié)點(diǎn)連接信息。同理，雙層GCN 還允許在兩個(gè)文檔對(duì)之間交互信息，重要詞節(jié)點(diǎn)信息通過交互節(jié)點(diǎn)對(duì)獲得信號(hào)增強(qiáng)。由于虛假評(píng)論比真實(shí)評(píng)論更容易呈現(xiàn)詞匯的固定組合，在單條評(píng)論信息有限的情況下，Text GCN 的設(shè)計(jì)將更容易捕捉到虛假評(píng)論的用詞差異，挖掘更全局的語義結(jié)構(gòu)信息。

1.2 F-Text GCN算法

1.2.1 虛假評(píng)論詞關(guān)聯(lián)結(jié)構(gòu)的統(tǒng)計(jì)特征

將Text GCN 用于虛假評(píng)論的識(shí)別目標(biāo)是找到它與正常評(píng)論的穩(wěn)定的詞關(guān)聯(lián)結(jié)構(gòu)差異，由邊權(quán)閾值控制的窗口大小的選擇十分關(guān)鍵。窗口邊權(quán)閾值的大小規(guī)定了尋找關(guān)聯(lián)關(guān)系的視野寬度，會(huì)直接影響詞節(jié)點(diǎn)i的詞頻和與詞節(jié)點(diǎn)j的共現(xiàn)次數(shù)，繼而影響鄰接矩陣A中PMI（i，j）的數(shù)值。過小的窗口閾值將引入太多的低頻連接，導(dǎo)致U（i，j）較小，PMI（i，j）較小，無效的關(guān)聯(lián)噪聲將導(dǎo)致虛假評(píng)論中真實(shí)的關(guān)聯(lián)信號(hào)過于稀疏，破壞了長(zhǎng)距離的詞關(guān)聯(lián)結(jié)構(gòu)，容易產(chǎn)生較高的假陽率；過大的窗口邊權(quán)閾值雖然能捕捉到較強(qiáng)的詞關(guān)聯(lián)信號(hào)，卻容易遺漏與高頻信號(hào)連接的中、低頻詞的關(guān)聯(lián)結(jié)構(gòu)，破壞了虛假評(píng)論語義的完整性，導(dǎo)致較高的虛假評(píng)論假陰率。為了確保在使用邊權(quán)閾值控制的窗口提取虛假評(píng)論與正常評(píng)論中的有效詞關(guān)聯(lián)結(jié)構(gòu)時(shí)，能完整、有效地獲取虛假評(píng)論的語義結(jié)構(gòu)，本文需要對(duì)虛假評(píng)論的結(jié)構(gòu)進(jìn)行均衡性設(shè)計(jì)。通過這種設(shè)計(jì)，窗口邊權(quán)閾值能在提取虛假評(píng)論和正常評(píng)論的過程中保持穩(wěn)定性，從而提高識(shí)別虛假評(píng)論的準(zhǔn)確性。

圖2 是本文實(shí)證研究數(shù)據(jù)集中抽取的一個(gè)由3 200 條正常評(píng)論和800 條虛假評(píng)論的邊權(quán)按4∶1 構(gòu)成的示例數(shù)據(jù)分別擬合的分布密度圖。

圖2 虛假評(píng)論與正常評(píng)論邊權(quán)分布密度示例圖Fig.2 Example diagram of edge weight distribution density between fake reviews and normal reviews

由圖2 可見，當(dāng)邊權(quán)較小時(shí)表示弱連接低頻噪聲結(jié)構(gòu)，較大的邊權(quán)表示高頻強(qiáng)連接語義結(jié)構(gòu)。虛假評(píng)論和正常評(píng)論都會(huì)出現(xiàn)多個(gè)分層弱關(guān)聯(lián)噪聲結(jié)構(gòu)，可用分布表示信噪結(jié)構(gòu)。虛假評(píng)論厚尾特征明顯強(qiáng)于正常評(píng)論，隨著閾值的增加虛假評(píng)論的信噪比由小到大的速度先快后慢，而同樣的閾值用于正常評(píng)論信噪比具有改變不明顯的特點(diǎn)，運(yùn)用高斯混合模型（Gaussian Mixture Model，GMM）分解出的均值、方差和比例等分布信息可有助于虛假評(píng)論相對(duì)于正常評(píng)論的信號(hào)結(jié)構(gòu)感知。為此，本文使用GMM 作虛假評(píng)論的最大噪聲過濾，通過邊權(quán)閾值的邊緣檢測(cè)確定最優(yōu)邊權(quán)窗口閾值，以最大可能保留核心關(guān)聯(lián)結(jié)構(gòu)捕獲的完整性，同時(shí)剝離干擾虛假評(píng)論核心關(guān)聯(lián)結(jié)構(gòu)的噪聲。

綜上所述，經(jīng)邊權(quán)閾值作用后的虛假評(píng)論和正常評(píng)論的分布是否有差異，是考察邊權(quán)閾值是否有效的必要條件，那么均衡性對(duì)窗口選擇有怎樣的影響呢？為此，本文分別考察虛假評(píng)論比例均衡和虛假評(píng)論比例不均衡的兩種情形下，經(jīng)GMM 分離噪聲后的兩類邊權(quán)分布的主要統(tǒng)計(jì)特征隨邊權(quán)閾值變化的情況。設(shè)計(jì)如下兩種情形比較實(shí)驗(yàn)：情形1 是均衡的數(shù)據(jù)設(shè)定，虛假評(píng)論數(shù)和正常評(píng)論數(shù)各取1 000；情形2 不均衡情況下的虛假評(píng)論數(shù)取800，正常評(píng)論數(shù)取3 200，不均衡比設(shè)為1∶4，與本文實(shí)證研究部分的實(shí)驗(yàn)用例比例一致。

圖3（a）為在不同關(guān)聯(lián)強(qiáng)度閾值過濾下，虛假評(píng)論與正常評(píng)論在比例均衡情形下的固定詞關(guān)聯(lián)圖的邊權(quán)分布的均值與方差隨閾值的變動(dòng)情況。經(jīng)GMM 分離后的虛假評(píng)論詞關(guān)聯(lián)邊權(quán)分布均值與方差幾乎在所有的邊權(quán)閾值下都高于正常評(píng)論，虛假評(píng)論的均值和方差都高于正常評(píng)論的，顯示出虛假評(píng)論的結(jié)構(gòu)聯(lián)系更加緊密的強(qiáng)連通結(jié)構(gòu)特征。隨著邊權(quán)閾值的增長(zhǎng)，虛假評(píng)論信號(hào)增長(zhǎng)，詞匯節(jié)點(diǎn)間的關(guān)聯(lián)信號(hào)更強(qiáng)，這樣的關(guān)聯(lián)結(jié)構(gòu)與Text GCN 的識(shí)別目標(biāo)相吻合。

圖3 兩種評(píng)論情形下經(jīng)GMM分離噪聲后的邊權(quán)分布均值與方差隨窗口邊權(quán)閾值的變化Fig.3 Changes in mean and variance of edge weight distribution with edge weight threshold window after GMM noise removal for two types of reviews

圖3（b）是虛假評(píng)論占比相對(duì)于正常評(píng)論比例偏少（1∶4）的情形下，經(jīng)GMM 作用后虛假評(píng)論與正常評(píng)論穩(wěn)定詞關(guān)聯(lián)結(jié)構(gòu)的邊權(quán)分布。虛假評(píng)論的邊權(quán)均值與方差仍高于正常評(píng)論，均值在虛假評(píng)論和正常評(píng)論之間的區(qū)分度明顯降低，方差在區(qū)分虛假評(píng)論和正常評(píng)論的邊權(quán)分布上的作用優(yōu)于均值；但與比例均衡情況相比，虛假評(píng)論和正常評(píng)論間的分布差異有逐漸縮小的趨勢(shì)，這表明邊權(quán)閾值較大時(shí)，通過邊權(quán)結(jié)構(gòu)提取虛假評(píng)論核心詞關(guān)聯(lián)結(jié)構(gòu)的任務(wù)面臨虛假評(píng)論相對(duì)于正常評(píng)論的信噪比優(yōu)勢(shì)消失現(xiàn)象，這就需要緊抓閾值這個(gè)結(jié)構(gòu)感知的調(diào)節(jié)工具，在邊權(quán)閾值較小的一側(cè)設(shè)計(jì)更精細(xì)的窗口邊權(quán)閾值。

1.2.2 基于GMM的噪聲感知的窗口預(yù)選擇模塊

基于在一個(gè)小樣本上的探索性分析，無論在均衡還是非均衡的數(shù)據(jù)條件下，窗口邊權(quán)閾值的設(shè)計(jì)都十分必要，將這個(gè)過程稱為噪聲感知的窗口預(yù)選擇模塊。引入強(qiáng)關(guān)聯(lián)結(jié)構(gòu)與弱關(guān)聯(lián)結(jié)構(gòu)在關(guān)聯(lián)強(qiáng)度上的顯著性差異檢驗(yàn)過程。先對(duì)所選的窗口邊權(quán)閾值實(shí)施自助法GMM 統(tǒng)計(jì)特征估計(jì)，再實(shí)施信號(hào)分離強(qiáng)度檢驗(yàn)，將具有強(qiáng)關(guān)聯(lián)信號(hào)表現(xiàn)能力的滑動(dòng)窗口作為Text GCN 的窗口邊權(quán)閾值。

具體方法如下：給定窗口邊權(quán)閾值集L=對(duì)于在確認(rèn)的訓(xùn)練集中隨機(jī)抽取虛假評(píng)論與正常評(píng)論各n條，重復(fù)B次。對(duì)于第j次抽取（1 ≤j≤B），統(tǒng)計(jì)虛假評(píng)論與正常評(píng)論在SLi下各詞匯的共現(xiàn)次數(shù)，分別得到虛假詞匯共現(xiàn)矩陣，記為CijF，正常詞匯共現(xiàn)矩陣，記為CijN。給定邊權(quán)窗口閾值s，保留CijF和CijN中大于邊權(quán)閾值s的連邊，分別擬合二元GMM 如下：

為感知虛假評(píng)論信號(hào)的強(qiáng)度，記錄B次重復(fù)實(shí)驗(yàn)中拒絕原假設(shè)的次數(shù)nf，對(duì)預(yù)先指定的閾值γ(0 <γ<1)，建議取γ≥0.5。令nf/B=γ1，取I={i：γ1≥γ，1 ≤i≤k}且則記錄將作為Text GCN 的結(jié)構(gòu)感知窗口。

1.3 F-Text GCN

對(duì)于虛假評(píng)論識(shí)別任務(wù)，評(píng)論者的相關(guān)特征通常是值得引入的重要信息，比如平臺(tái)會(huì)員更傾向于發(fā)布真實(shí)評(píng)論而非虛假評(píng)論。這些在評(píng)論/文檔層面上的特征不僅直接提供信息，還有利于加強(qiáng)評(píng)論間的交互關(guān)系，填補(bǔ)Text GCN 在文檔交互層面的空白。

在Text GCN 基礎(chǔ)上，本文引入用戶會(huì)員M、評(píng)論圖片C和評(píng)論視頻T 這3 個(gè)與評(píng)論者行為相關(guān)的非文本特征標(biāo)簽，共同參與構(gòu)建多類型異質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)感知模塊，這些特征以元路徑方式引入，豐富節(jié)點(diǎn)的關(guān)聯(lián)結(jié)構(gòu)。F-Text GCN 在構(gòu)建鄰接矩陣A*時(shí)，增廣原鄰接矩陣A，基于用戶會(huì)員M、評(píng)論圖片C 和評(píng)論視頻T 添加評(píng)論與評(píng)論者特征節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系，如圖4 中橙色部分，關(guān)聯(lián)關(guān)系的添加規(guī)則如下：

圖4 F-Text GCN中鄰接矩陣A*的示意圖Fig.4 Schematic diagram of adjacency matrix A* in F-Text GCN

其中：aMR表示用戶會(huì)員特征與評(píng)論之間的權(quán)重；aCR表示評(píng)論圖片特征與評(píng)論之間的權(quán)重；aTR表示評(píng)論視頻特征與評(píng)論之間的權(quán)重。非文本特征取值1 表示非文本特征節(jié)點(diǎn)與其他評(píng)論節(jié)點(diǎn)存在連邊關(guān)系。

F-Text GCN 對(duì)虛假評(píng)論識(shí)別的結(jié)構(gòu)流程如圖5 所示，具體內(nèi)容如下：

圖5 F-Text GCN框架流程Fig.5 Framework flow of F-Text GCN

1）對(duì)所有評(píng)論進(jìn)行分詞，構(gòu)建詞匯表。對(duì)所有評(píng)論分詞，構(gòu)建全局詞匯表。給出一組待選擇的滑動(dòng)窗口大小集，通過GMM 感知分離的窗口大小預(yù)選擇模塊，選擇合適的滑動(dòng)窗口。

2）確定圖節(jié)點(diǎn)并建立連邊。每條評(píng)論、詞匯表中的每個(gè)詞、用戶會(huì)員標(biāo)簽、評(píng)論圖片標(biāo)簽、評(píng)論視頻標(biāo)簽分別均視為圖節(jié)點(diǎn)。若評(píng)論包含詞匯表中的某詞，在該評(píng)論與該詞之間建立連邊；根據(jù)預(yù)選擇過程中窗口大小設(shè)置滑動(dòng)窗口。在該窗口內(nèi)，對(duì)共同出現(xiàn)的詞分別建立連邊；若發(fā)布評(píng)論的用戶是會(huì)員，則該條評(píng)論就與用戶會(huì)員節(jié)點(diǎn)建立連邊；若某評(píng)論中有圖片，則該條評(píng)論與評(píng)論圖片節(jié)點(diǎn)之間建立連邊；若某評(píng)論中有視頻，則該評(píng)論就與評(píng)論視頻節(jié)點(diǎn)之間建立連邊。

3）生成文本圖。將評(píng)論信息轉(zhuǎn)化為圖中的節(jié)點(diǎn)，生成評(píng)論文本圖。

4）GCN 訓(xùn)練學(xué)習(xí)。基于上述規(guī)則構(gòu)建文本圖后，將圖輸入雙層GCN 中。GCN 的二階節(jié)點(diǎn)嵌入維度與標(biāo)簽集維度具有相同大小，并輸入到softmax 分類器中輸出分類結(jié)果。

2 數(shù)據(jù)來源和網(wǎng)絡(luò)差異

2.1 數(shù)據(jù)集的構(gòu)建

本文的研究數(shù)據(jù)來自國(guó)內(nèi)某大型電商平臺(tái)手機(jī)相關(guān)產(chǎn)品評(píng)論數(shù)據(jù)。對(duì)虛假評(píng)論認(rèn)定采用的方法是先排除系統(tǒng)自動(dòng)生成的默認(rèn)好評(píng)，例如“您沒有填寫內(nèi)容，默認(rèn)好評(píng)”；再通過業(yè)內(nèi)專家構(gòu)建中文虛假評(píng)論識(shí)別數(shù)據(jù)集。為保證虛假評(píng)判標(biāo)準(zhǔn)的一致性，盡量避免主觀判斷的基本原則，安排3 位業(yè)內(nèi)專家參與認(rèn)定。認(rèn)定規(guī)則如下：評(píng)論數(shù)據(jù)至少經(jīng)過2 次評(píng)判，若評(píng)判結(jié)果不一致，再由第3 位專家追加認(rèn)定。根據(jù)大多數(shù)投票表決認(rèn)定虛假評(píng)論，認(rèn)定的依據(jù)參照國(guó)內(nèi)外學(xué)者通用的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)，主要包括評(píng)論對(duì)象的真實(shí)性，語言邏輯性、附件與文字描述的一致性和預(yù)警性字符特征。本文研究構(gòu)造的中文數(shù)據(jù)集共包含126 086 條評(píng)論，其中虛假評(píng)論數(shù)為26 783 條，其余為正常評(píng)論99 303 條，虛假評(píng)論占比為21.24%。數(shù)據(jù)分析中虛假評(píng)論的標(biāo)簽值設(shè)為1，正常評(píng)論標(biāo)簽值設(shè)為0。

虛假評(píng)論相對(duì)于正常評(píng)論出現(xiàn)不均衡比例偏低的現(xiàn)象主要有兩方面的原因：1）實(shí)證研究所使用的數(shù)據(jù)來源于真實(shí)的電商平臺(tái)，是經(jīng)平臺(tái)系統(tǒng)自動(dòng)檢測(cè)清洗過濾后仍無法消除的虛假評(píng)論，數(shù)量相對(duì)偏少；但比例相對(duì)于正常評(píng)論已累計(jì)達(dá)到1∶4，規(guī)模不容忽視，本文算法將用于推進(jìn)監(jiān)測(cè)力度，改進(jìn)和完善平臺(tái)統(tǒng)計(jì)質(zhì)量標(biāo)準(zhǔn)，完善漏檢流程。2）實(shí)證使用的虛假評(píng)論產(chǎn)品主要針對(duì)智能手機(jī)類電子產(chǎn)品，智能化對(duì)這類產(chǎn)品的可靠性提出巨大挑戰(zhàn)，功能繁多、服務(wù)類型多造成評(píng)論詞匯面廣、語義結(jié)構(gòu)復(fù)雜、虛假評(píng)論和正常評(píng)論共用詞比例較高造成虛假評(píng)論人工排查難度較大、實(shí)際獲得的虛假評(píng)論訓(xùn)練數(shù)偏低，這表明需要深入挖虛假評(píng)論本身的信息，以提升識(shí)別虛假評(píng)論的算法效力。

2.2 虛假評(píng)論與正常評(píng)論的差異性分析

2.2.1 文本信息差異

根據(jù)虛假評(píng)論相關(guān)研究可知，虛假評(píng)論與正常評(píng)論的差異主要來自文本信息差異和評(píng)論者特征差異。相較于特征構(gòu)建的深度學(xué)習(xí)網(wǎng)絡(luò)，構(gòu)建圖關(guān)聯(lián)信息進(jìn)行結(jié)構(gòu)探索的Text GCN更有利于分析虛假評(píng)論與正常評(píng)論間的文本信息差異。

為說明Text GCN 在提取文本信息結(jié)構(gòu)上的有效性，本文以評(píng)論中頻數(shù)較高的關(guān)鍵詞“滿意”和“購(gòu)買”為條件，篩選出50 條虛假評(píng)論和50 條正常評(píng)論，分別構(gòu)建詞匯共現(xiàn)矩陣表進(jìn)行評(píng)論差異的可視化分析。通過設(shè)置不同的連邊閾值（5～60），當(dāng)詞匯共現(xiàn)次數(shù)大于等于指定連邊閾值時(shí)，構(gòu)建關(guān)聯(lián)關(guān)系，得到各閾值下詞匯共現(xiàn)網(wǎng)絡(luò)圖（如圖6、7 所示），網(wǎng)絡(luò)密度、連邊數(shù)和節(jié)點(diǎn)數(shù)隨閾值窗口的變化如圖8 所示。

圖6 虛假評(píng)論詞匯共現(xiàn)網(wǎng)絡(luò)圖示例Fig.6 Example about co-occurrence word network of fake reviews

隨著連邊閾值的增加，虛假評(píng)論和正常評(píng)論網(wǎng)絡(luò)圖的規(guī)模逐步減小。在閾值提升的初期，正常評(píng)論網(wǎng)絡(luò)規(guī)模的下降速度明顯高于虛假評(píng)論，主要原因是，相較于正常評(píng)論，虛假評(píng)論的詞節(jié)點(diǎn)間存在更強(qiáng)的關(guān)聯(lián)關(guān)系；并且兩類評(píng)論中大量的弱關(guān)聯(lián)關(guān)系被剔除，造成網(wǎng)絡(luò)密度急劇下降。而由于虛假評(píng)論的詞節(jié)點(diǎn)間更容易存在強(qiáng)關(guān)聯(lián)關(guān)系，詞節(jié)點(diǎn)的剔除速度遠(yuǎn)小于正常評(píng)論，如圖6（b）虛假評(píng)論的網(wǎng)絡(luò)密度下降更為明顯。當(dāng)連邊閾值繼續(xù)提升時(shí)，兩類評(píng)論的非核心關(guān)聯(lián)節(jié)點(diǎn)逐漸被淘汰，核心結(jié)構(gòu)逐漸披露，網(wǎng)絡(luò)密度出現(xiàn)回升，甚至超過初始密度。

由于評(píng)論者發(fā)布虛假評(píng)論時(shí)，常出現(xiàn)調(diào)用模板和固定句式等加工套件，虛假評(píng)論間的結(jié)構(gòu)相似度高，導(dǎo)致詞節(jié)點(diǎn)間關(guān)聯(lián)關(guān)系強(qiáng)；而正常評(píng)論中，評(píng)論者個(gè)體語言風(fēng)格差異較大，詞節(jié)點(diǎn)間關(guān)聯(lián)聯(lián)系較弱。因此，在相同的高連邊閾值篩選下，虛假評(píng)論的節(jié)點(diǎn)規(guī)模仍能呈現(xiàn)完整的句式結(jié)構(gòu)，而正常評(píng)論的詞匯僅存留部分短語關(guān)聯(lián)結(jié)構(gòu)，詳情參見圖7（d）、圖8（d）。

圖7 正常評(píng)論詞匯共現(xiàn)網(wǎng)絡(luò)圖示例Fig.7 Example about co-occurrence word network of normal reviews

2.2.2 虛假評(píng)論的二階網(wǎng)絡(luò)圖統(tǒng)計(jì)分析

為進(jìn)一步說明虛假評(píng)論與正常評(píng)論之間的區(qū)別，本文以“滿意”關(guān)鍵詞為中心，加工出與“滿意”關(guān)鍵詞建立一階連邊鄰居節(jié)點(diǎn)詞子網(wǎng)絡(luò)，又延展出一階鄰居節(jié)點(diǎn)的鄰居加工出詞共現(xiàn)網(wǎng)絡(luò)圖的二階鄰居子網(wǎng)絡(luò)，再按會(huì)員和非會(huì)員作對(duì)比分析，詳見圖9。

圖9 評(píng)論詞匯共現(xiàn)網(wǎng)絡(luò)二階圖示例Fig.9 Example of second-order diagram of co-occurrence word network for reviews

從節(jié)點(diǎn)的用詞來看，虛假評(píng)論中與“滿意”關(guān)鍵詞建立連邊的一階鄰居節(jié)點(diǎn)詞有“特別”“便宜”“購(gòu)物”“價(jià)格”“東西”“收到”“喜歡”“寶貝”“值得”“購(gòu)買”“質(zhì)量”“不錯(cuò)”“真的”“打開”“商品”，而正常評(píng)論中與“滿意”關(guān)鍵詞建立連邊的節(jié)點(diǎn)詞有“拍照”“流暢”“超級(jí)”“效果”“做工”“收到”“系統(tǒng)”“不錯(cuò)”“手感”“手機(jī)”“充電”，只有“不錯(cuò)”和“收到”兩個(gè)詞是虛假評(píng)論和正常評(píng)論共有，虛假評(píng)論的語義表現(xiàn)為多態(tài)復(fù)雜性，既有主觀對(duì)話往來用語（如購(gòu)物），也有表態(tài)用語（如喜歡、值得），更有客觀產(chǎn)品功能（如拍照、充電、流暢）。除主觀表態(tài)外，還混雜了多種關(guān)于產(chǎn)品功能等相互關(guān)聯(lián)的表態(tài)語義，通過簡(jiǎn)單的特征提取是不易分辨的。

從圖9 可觀察到，正常評(píng)論的網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)遠(yuǎn)多于虛假評(píng)論。正常評(píng)論中，由于評(píng)論者個(gè)體異質(zhì)性，遣詞造句時(shí)涉及的詞匯較廣。從節(jié)點(diǎn)詞來看，正常評(píng)論中與“滿意”連邊數(shù)較多的節(jié)點(diǎn)詞有“手機(jī)”“超級(jí)”“滿意”“充電”“流暢”“拍照”等，與購(gòu)買的產(chǎn)品、產(chǎn)品功能和使用體驗(yàn)等反饋意見密切相關(guān)，而虛假評(píng)論中連邊數(shù)據(jù)較多的節(jié)點(diǎn)詞聚焦于“滿意”和“質(zhì)量”，與“滿意”相連的多與購(gòu)物過程和價(jià)格等有關(guān)。二階關(guān)系進(jìn)一步擴(kuò)大了虛假評(píng)論和正常評(píng)論的節(jié)點(diǎn)詞間的差異。

為說明圖結(jié)構(gòu)對(duì)虛假評(píng)論識(shí)別的有效性，本文基于上述評(píng)論集，整理出虛假評(píng)論典型句式如表1。類型Ⅰ出現(xiàn)了系統(tǒng)默認(rèn)昵稱“寶貝”，盲目夸贊的無邏輯短語堆疊現(xiàn)象比較明顯；類型Ⅱ中，夸大服務(wù)感受和誘惑導(dǎo)購(gòu)型搭配語句成串出現(xiàn)。

在Text GCN 模型下，固定搭配信息通過圖二階鄰居節(jié)點(diǎn)作關(guān)聯(lián)結(jié)構(gòu)的信息傳遞。通過圖結(jié)構(gòu)的關(guān)聯(lián)關(guān)系，即使句子不完整，仍可通過隱性的典型特征結(jié)構(gòu)識(shí)別虛假評(píng)論。典型的虛假評(píng)論圖結(jié)構(gòu)如圖10 所示。

圖10 虛假評(píng)論典型句式圖結(jié)構(gòu)Fig.10 Typical sentence pattern structures of fake reviews

2.2.3 評(píng)論者特征差異

除文本信息差異外，虛假評(píng)論和正常評(píng)論的差異還體現(xiàn)在評(píng)論者特征上。從本文采集的126 086 條評(píng)論的評(píng)論者特征（非文本特征）中，發(fā)現(xiàn)用戶會(huì)員M、評(píng)論圖片P、評(píng)論視頻V 這3 個(gè)評(píng)論者相關(guān)特征與虛假評(píng)論占比存在顯著關(guān)系。對(duì)于評(píng)論者為會(huì)員用戶、評(píng)論時(shí)包含圖片或視頻的評(píng)論，其虛假評(píng)論的占比較低。為引入與虛假評(píng)論產(chǎn)生相關(guān)的評(píng)論者特征及其關(guān)聯(lián)信息，本文對(duì)非文本特征節(jié)點(diǎn)與評(píng)論節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系作如下設(shè)計(jì)：在雙層GCN 的作用下，產(chǎn)生“評(píng)論-非文本特征-評(píng)論”關(guān)聯(lián)關(guān)系的評(píng)論節(jié)點(diǎn)更容易屬于同類節(jié)點(diǎn)并交互信息。

綜上所述，虛假評(píng)論和正常評(píng)論在詞關(guān)聯(lián)強(qiáng)度、詞關(guān)聯(lián)結(jié)構(gòu)和評(píng)論者特征上存在明顯差異。通過詞匯網(wǎng)絡(luò)圖可提取正常評(píng)論和虛假評(píng)論之間在結(jié)構(gòu)上和用詞上的差異，并且二階鄰接矩陣相較于一階鄰接矩陣能提供更多的差異性信息。F-Text GCN引入圖結(jié)構(gòu)信息和評(píng)論者特征，可提取評(píng)論中的文本內(nèi)容差異，提升模型的識(shí)別能力。虛假評(píng)論的語義表現(xiàn)為多態(tài)復(fù)雜性，既有主觀對(duì)話往來用語，也有表態(tài)用語，更有誘導(dǎo)夸大客觀產(chǎn)品功能的現(xiàn)象，傳統(tǒng)的特征提取則不易于分辨。

3 實(shí)證研究

實(shí)驗(yàn)主要在Windows11 環(huán)境下完成，基于Pytorch 框架，CPU 為Intel Core i7-4790K CPU @ 4.00 GHz 4.00 GHz，編程語言為Python3.8?；贕MM 的滑動(dòng)窗口與選擇模塊的編程語言為R4.0.2，其中GMM 的使用參考Mclust 包。F-Text GCN 模型包含雙層GCN，將第1 個(gè)卷積層的嵌入大小設(shè)置為200，窗口大小設(shè)置為20，學(xué)習(xí)率設(shè)置為0.02，dropout設(shè)置為0.5，L2 損失權(quán)重設(shè)置為0。隨機(jī)選擇10%的訓(xùn)練集作為驗(yàn)證集。使用Adam 訓(xùn)練Text GCN 最多200 次迭代，若驗(yàn)證損失連續(xù)10 次迭代都沒有減小，則停止訓(xùn)練。本文使用準(zhǔn)確率（P）、召回率（R）和F1 值（F1）作為評(píng)價(jià)指標(biāo)，計(jì)算公式如下：

其中：TP表示將虛假評(píng)論類判斷成虛假評(píng)論類的數(shù)，F(xiàn)P表示將正常評(píng)論類判斷為虛假評(píng)論類的數(shù)，F(xiàn)N表示將虛假評(píng)論類判斷成正常評(píng)論類的數(shù)。

3.1 有效性實(shí)驗(yàn)

為驗(yàn)證F-Text GCN 在識(shí)別虛假評(píng)論上的有效性，本文將在信息源是否引入非文本特征標(biāo)簽上將它與Text CNN 比較，只含純文本的圖卷積結(jié)果記為Text GCN，不含圖卷積的卷積記為Text CNN；將引入非文本特征并經(jīng)GMM 作用的新圖卷積算法記為F-Text GCN，不含圖卷積的普通卷積記為F-Text CNN，以BERT 作為基線模型。將數(shù)據(jù)集中的126 086條評(píng)論，按8∶2 的比例對(duì)虛假評(píng)論和正常評(píng)論獨(dú)立劃分，將劃分得到的80%的虛假評(píng)論和80%的正常評(píng)論組合為訓(xùn)練集，并將剩余的虛假評(píng)論和正常評(píng)論組合為測(cè)試集，實(shí)驗(yàn)結(jié)果如表2 所示。

表2 幾種模型評(píng)論識(shí)別性能比較單位：%Tab.2 Comparison of review detection performance among different models unit：%

由表2 可知，與Text CNN、F-Text CNN 和BERT 相比，Text GNN 和F-Text GCN 模型準(zhǔn)確率、召回率和F1 值均較高。F-Text GCN 識(shí)別虛假評(píng)論的F1 值達(dá)到82.92%，比BERT 提高了10.46%，比Text CNN 提高了11.60%，比F-Text CNN 提高了11.24%，比Text GCN 提高了2.94%。由表2 還可知，F(xiàn)-Text GCN 的虛假評(píng)論召回率比Text GCN 提高了5.82%，表明評(píng)論者特征的引入改善了模型對(duì)虛假評(píng)論的識(shí)別效果。除引入了非文本特征信息外，還更新了文本網(wǎng)絡(luò)圖結(jié)構(gòu)，在一定程度緩解了數(shù)據(jù)的稀疏性，增強(qiáng)了虛假評(píng)論特征的信號(hào)強(qiáng)度，有助于虛假評(píng)論的識(shí)別。

3.2 基于不同的窗口邊權(quán)閾值的敏感性實(shí)驗(yàn)

引入圖信息的虛假評(píng)論識(shí)別模型，對(duì)虛假評(píng)論圖信號(hào)強(qiáng)度的把控至關(guān)重要。為驗(yàn)證Text GCN 和F-Text GCN 對(duì)窗口邊權(quán)閾值的敏感性，本文設(shè)置了一組窗口邊權(quán)閾值，觀察新提出的F-Text GCN 的效果隨窗口邊權(quán)閾值變化的情況。實(shí)驗(yàn)結(jié)果如圖11 所示。

圖11 不同的窗口邊權(quán)閾值測(cè)試時(shí)召回率和F1值Fig.11 Recall and F1 values of testing with different window edge weight thresholds

由圖11 觀察到，F(xiàn)-Text GCN 測(cè)試召回率和F1 值隨著窗口邊權(quán)閾值的增大而增加，當(dāng)窗口邊權(quán)閾值大于20 時(shí)，召回率和F1 值上升緩慢。這一結(jié)果驗(yàn)證了本文提出的通過GMM 預(yù)訓(xùn)練模塊選擇窗口邊權(quán)閾值的有效性，實(shí)驗(yàn)窗口大小在15～20 比較合適。

3.3 難分辨評(píng)論的穩(wěn)定性對(duì)比實(shí)驗(yàn)

為進(jìn)一步確認(rèn)圖卷積類算法對(duì)虛假評(píng)論識(shí)別方面的性能穩(wěn)定性，并探究識(shí)別能力效果提升的原因，將Text GCN 和F-Text GCN 兩種深度學(xué)習(xí)算法與主流的虛假評(píng)論識(shí)別淺層模型進(jìn)行比較。實(shí)驗(yàn)中，為獲得難區(qū)分相似樣本的學(xué)習(xí)情況，將SVM 訓(xùn)練時(shí)易錯(cuò)的13 065 條評(píng)論按訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)8∶2 的比例拆分，其中訓(xùn)練數(shù)據(jù)10 452 條和測(cè)試數(shù)據(jù)2 613條，兩組的虛假評(píng)論和正常評(píng)論比例保持在1∶4，對(duì)Text GCN 和F-Text GCN 訓(xùn)練和測(cè)試，重復(fù)20 次訓(xùn)練得到測(cè)試結(jié)果如表3 所示。

表3 難區(qū)分?jǐn)?shù)據(jù)上的Text GCN和F-Text GCN實(shí)驗(yàn)結(jié)果Tab.3 Comparison of experiment results between Text GCN and F-Text GCN with confusing data

從表3 結(jié)果可以看出，文本圖卷積算法在使用淺層模型難分辨的評(píng)論作為訓(xùn)練集時(shí)，能取得較好的識(shí)別效果；Text GCN 和F-Text GCN 的標(biāo)準(zhǔn)差均小于0.05，表明模型穩(wěn)定性也較好。

綜上所述，對(duì)于SVM 性能不佳的難識(shí)別評(píng)論，F(xiàn)-Text GCN 和Text GCN 的識(shí)別效果均有顯著提升，且F-Text GCN 對(duì)虛假評(píng)論識(shí)別準(zhǔn)確率略高于Text GCN，這與F-Text GCN 引入的非文本特征標(biāo)簽有關(guān)，引入的非文本特征標(biāo)簽豐富了模型的文本圖節(jié)點(diǎn)和關(guān)系信息。

3.4 消融實(shí)驗(yàn)

為探究非文本特征引入模型的影響，本文設(shè)計(jì)消融實(shí)驗(yàn)，將三類非文本特征對(duì)應(yīng)的連邊關(guān)系及其組合引入圖結(jié)構(gòu)，實(shí)驗(yàn)設(shè)計(jì)如表4。

表4 消融實(shí)驗(yàn)設(shè)計(jì)和結(jié)果單位：%Tab.4 Design and results of ablation experiments unit：%

從表4 可知：整體上，三種非文本特征關(guān)聯(lián)關(guān)系的引入后在準(zhǔn)確率上與Text-GCN 基本持平，都在85%以上。本文所提的F-Text GCN 對(duì)于虛假評(píng)論的識(shí)別效果在準(zhǔn)確率和召回率上都是最佳的。對(duì)虛假評(píng)論的召回率，相對(duì)于其他模型有3%～5%的提升，表明引入GMM 預(yù)訓(xùn)練模塊和非文本特征可有效降低虛假評(píng)論的漏檢率。值得注意的是，會(huì)員+圖片、會(huì)員+視頻比單獨(dú)使用會(huì)員標(biāo)簽時(shí)都出現(xiàn)了準(zhǔn)確率略微下降的現(xiàn)象，準(zhǔn)確率下降造成的假陽率略微升高是由于虛假評(píng)論在人工標(biāo)注的執(zhí)行規(guī)則較為嚴(yán)格所致，假陽率略微升高檢測(cè)出的虛假評(píng)論經(jīng)專家判斷應(yīng)為高度疑似虛假，可作為推進(jìn)虛假評(píng)論監(jiān)測(cè)治理力度的有力證據(jù)。

4 結(jié)語

本文提出用GMM 與Text GCN 合成的F-Text GCN 識(shí)別虛假評(píng)論，引入窗口預(yù)選擇模塊，將組合評(píng)論文本中的詞匯和非文本特征進(jìn)行多標(biāo)簽節(jié)點(diǎn)構(gòu)圖，對(duì)節(jié)點(diǎn)的文本標(biāo)簽信息和節(jié)點(diǎn)之間的一階和二階鄰域信息進(jìn)行延伸表示，通過詞匯網(wǎng)絡(luò)圖，提取正常評(píng)論和虛假評(píng)論之間在結(jié)構(gòu)上和用詞上的差異。研究表明：

1）F-Text GCN 模型將文本以圖的形式表示，顯著提升了虛假評(píng)論的識(shí)別效果。

2）基于混合高斯分布估計(jì)和自助檢驗(yàn)方法設(shè)計(jì)的窗口邊權(quán)閾值的選擇方法，增強(qiáng)了模型對(duì)虛假評(píng)論詞關(guān)聯(lián)結(jié)構(gòu)的分離感知能力。

3）虛假評(píng)論與正常評(píng)論的差異表現(xiàn)為：虛假評(píng)論在詞匯豐富程度上低于正常評(píng)論；虛假評(píng)論詞庫(kù)與正常評(píng)論詞庫(kù)存在一定重疊，但在一階及二階的詞匯用詞與結(jié)構(gòu)上存在明顯差異。實(shí)驗(yàn)結(jié)果表明，詞庫(kù)上的差異體現(xiàn)在F-Text GCN 可有效提取二階固定句式特征，有助于通過固定搭配預(yù)報(bào)虛假評(píng)論的決策管理。

4）F-Text GCN 模型引入了評(píng)論者特征（非文本特征）信息，添加了評(píng)論節(jié)點(diǎn)間的關(guān)聯(lián)結(jié)構(gòu)，能通過發(fā)現(xiàn)非會(huì)員屬性提升虛假評(píng)論的識(shí)別效果。在SVM 預(yù)測(cè)錯(cuò)誤的難區(qū)分評(píng)論識(shí)別中，F(xiàn)-Text GCN 和Text GCN 性能明顯更優(yōu)，穩(wěn)定性更好。

F-Text GCN 模型在虛假評(píng)論識(shí)別任務(wù)中取得了較好效果。本文僅探討二元高斯分布的噪聲分離能力，在算法方面可繼續(xù)關(guān)注影響圖卷積漏檢特征的參數(shù)調(diào)節(jié)問題，進(jìn)一步可以研究由多分支構(gòu)成的混合高斯分布在檢測(cè)虛假評(píng)論中的詞語結(jié)構(gòu)的作用；在引入非文本特征關(guān)聯(lián)時(shí)，關(guān)于關(guān)聯(lián)關(guān)系中防止過平滑性風(fēng)險(xiǎn)的參數(shù)設(shè)定也是值得考慮的問題；在信息提取方面可進(jìn)一步研究包括虛假評(píng)論固定搭配的層次提取和隨時(shí)間的動(dòng)態(tài)演化規(guī)律等。本文采用虛假評(píng)論相較于正常評(píng)論比例偏低的數(shù)據(jù)實(shí)證研究，暴露了虛假評(píng)論僅依靠人工打標(biāo)的局限性，能為現(xiàn)有虛假評(píng)論自動(dòng)檢測(cè)提供廣泛的技術(shù)實(shí)踐支持。

猜你喜歡

關(guān)聯(lián)語義閾值

不懼于新，不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展

新世紀(jì)智能(數(shù)學(xué)備考)(2021年9期)2021-11-24

語言與語義

開放教育研究(2020年2期)2020-03-31

小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用

制造技術(shù)與機(jī)床(2019年9期)2019-09-10

“一帶一路”遞進(jìn)，關(guān)聯(lián)民生更緊

當(dāng)代陜西(2019年15期)2019-09-02

基于自適應(yīng)閾值和連通域的隧道裂縫提取

西南交通大學(xué)學(xué)報(bào)(2018年6期)2018-12-18

學(xué)苑創(chuàng)造·A版(2018年11期)2018-02-01

比值遙感蝕變信息提取及閾值確定（插圖）

河北遙感(2017年2期)2017-08-07

讀者(2017年5期)2017-02-15

室內(nèi)表面平均氡析出率閾值探討

衡陽師范學(xué)院學(xué)報(bào)(2016年3期)2016-07-10

“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋

現(xiàn)代語文(2016年21期)2016-05-25

計(jì)算機(jī)應(yīng)用2024年2期

計(jì)算機(jī)應(yīng)用的其它文章: 自動(dòng)駕駛環(huán)境感知多任務(wù)去耦-融合算法; 基于請(qǐng)求與應(yīng)答通信機(jī)制和局部注意力機(jī)制的多機(jī)器人強(qiáng)化學(xué)習(xí)路徑規(guī)劃方法; 基于路徑模仿和SAC強(qiáng)化學(xué)習(xí)的機(jī)械臂路徑規(guī)劃算法; 基于最大熵深度強(qiáng)化學(xué)習(xí)的雙足機(jī)器人步態(tài)控制方法; 面向源-目的地流的多元時(shí)空數(shù)據(jù)可視分析; 二階段孿生圖卷積神經(jīng)網(wǎng)絡(luò)推薦算法

贡嘎县| 平阳县| 嵩明县| 外汇| 德钦县| 商水县| 托克托县| 峨眉山市| 通州市| 辛集市| 巢湖市| 仙桃市| 永州市| 西畴县| 孝义市| 婺源县| 荣成市| 濮阳市| 合江县| 姚安县| 祁连县| 鸡泽县| 中卫市| 八宿县| 海丰县| 远安县| 黄山市| 永新县| 高雄市| 漾濞| 孝感市| 米泉市| 巴彦县| 海晏县| 城步| 老河口市| 垫江县| 常德市| 巨野县| 青冈县| 阜城县|

<del id="meosk"><strike id="meosk"></strike></del>

<cite id="meosk"><table id="meosk"></table></cite>

<strike id="meosk"></strike>