楊曉茜
(遼寧金融職業(yè)學院,遼寧 沈陽 110122)
隨著網(wǎng)絡技術的不斷發(fā)展和應用,中國逐漸步入了“智聯(lián)型”智能物聯(lián)網(wǎng)(AIOT)的時代,而人工智能技術則是其中一個重要的組成部分。人工智能技術是當前信息技術的核心,在通信系統(tǒng)、物聯(lián)體系中起到了十分關鍵的作用。借助人工智能技術能夠更好地開發(fā)先進的網(wǎng)絡系統(tǒng),從而提高物聯(lián)網(wǎng)的智能化和自動化水平。比如智能手機、工業(yè)4.0、可穿戴的設備等就有很多采用遺傳算法、BP神經(jīng)網(wǎng)絡和SVM等技術,并基于這些技術進行了算法的創(chuàng)新,如語音識別、視頻圖像處理以及大量的數(shù)據(jù)分析處理等[1]。對于電子商務行業(yè)而言,將人工智能技術應用于其中可以提升消費者的購物體驗,滿足消費者的層次需求。但人工智能技術在發(fā)展的同時也出現(xiàn)了一些惡意評論的情況,直接誤導了消費者的購物方向,同時也給電商行業(yè)的誠信度體驗造成較大的影響。有學者基于人工智能技術中的D-S證據(jù)理論進行分析,該理論是一種不確定推理方法,它比貝葉斯概率具有更少的約束條件,可以對不確定性信息進行直接處理[2]。在此基礎上,借助人工智能的電商差評檢測算法,通過降低待鑒別對象的不確定性,有效提升電商差評的識別性能,實現(xiàn)對虛假評論的更精確檢測。
本文基于分布式評論分析的方式將信息收集系統(tǒng)應用于電子商務工作的評論工作中。如圖1所示為在樣本觸發(fā)控制下抓取機器從網(wǎng)上收集電商平臺上的產(chǎn)品信息,該預處理模塊根據(jù)收集到的產(chǎn)品信息,通過統(tǒng)一資源定位器(Uniform Resoure Locator,URL)連接,對最新評論數(shù)量、評論時間等進行初始化,并對商品URL進行管理,根據(jù)收集周期調(diào)節(jié)模塊的收集周期設置,將項目URL放入回收的隊列中。一種與Hbase模塊相結合的基于商品URL排序的分布式增量抓取模型,可實現(xiàn)電商平臺上的商品評論信息的增量收集與增量存儲,同時也能達到對評論信息的實時監(jiān)控[3]。
圖1 分布式評論信息采集系統(tǒng)
評論人評論內(nèi)容的情感特性可以從評論屬性詞的覆蓋率、第一人稱使用頻率、情感詞匯使用頻率、平均評分差異、初次評論時間間隔、初次評論與最后一次評論之間的時間間隔幾個方面進行選擇。
1.2.1 屬性詞包含率
因為錯誤評論者對產(chǎn)品的評價都是虛構的,因此在評價中很少會出現(xiàn)具體的細節(jié)。因此,在所有評論內(nèi)容的單詞q(rp)中如果商品屬性單詞s(rp)的覆蓋率較低,則評論者是不實評論者的可能性較大,其公式表達如下。
(1)
1.2.2 第一人稱代詞使用率
第一人稱代詞可以提高評價的準確性。因此,定義了在評論內(nèi)容的所有詞匯集q(rp)中第一人稱詞語d(rp)的使用率愈高,則評價者為不實評論者的可能性愈大,其公式表達如式(2)。
(2)
1.2.3 情感詞使用率
在評價的過程中用戶的情緒表現(xiàn)是一種線性的,而不是真實的評價者。因此,在所有的評論內(nèi)容詞匯q(rp)中情緒詞w(rp)使用率愈低,則評論者是不實評論者的可能性愈大,其公式表達如式(3)。
(3)
1.2.4 商品類別包含率
與真評論者相比,虛假評論者在評論中所涉及的物品種類很少。因此,在產(chǎn)品評論人的所有評論中定義了含有產(chǎn)品分類的評論的數(shù)目c(rp),而產(chǎn)品的總評論數(shù)目是C(rp),當?shù)谝粭l評論與第二條評論的比例較小時,評論人是不實評論的可能性較大,其公式表達如式(4)。
(4)
在目標辨識層次上,D-S證據(jù)理論以可信度函數(shù)代替概率,實現(xiàn)了不需要事先已知條件下的不確定推理[4]。利用D-S證據(jù)理論,對評論中評論內(nèi)容的情緒特性、產(chǎn)品興趣等因素對評論人的識別能力。用zeta來描述一個具有窮盡性,將其作為一種檢測信息的方式,并在此基礎上使用2zeta表示所有的子集。借助D-S證據(jù)理論的算法對評論者進行判斷,基于檢測結構zeta的Mass函數(shù)的表達如公式(5)。
v:2ζ→[0,1]
(5)
多源信息融合即多傳感器數(shù)據(jù)融合,其關鍵是對同一或不同模態(tài)的多源信息進行綜合分析,獲取具有相關性和整體性的信息。其中,決策層融合是三級融合研究的最終結果,而D-S證據(jù)理論作為一種重要的決策方法,因其所依據(jù)的概率賦值(BPA)對決策結果產(chǎn)生重大影響,因此,采用基于貝葉斯統(tǒng)計的決策模型對決策過程中的關鍵問題進行研究,目前的研究多依靠人的經(jīng)驗實際應用效果較差。SVM由于其較好的理論依據(jù)及分類結果,與D-S證據(jù)理論進行融合可構建出更合理、更高效的BPA,提高識別率。根據(jù)評論者特征的不同建構出對應的Msaa函數(shù),其模型構建如公式(6)
(6)
公式(6)中,Pn(w)表示為特定的概率密度函數(shù),在公式(1)的基礎上將該公式進行輸出和轉換,即可得到對應的概率分配,具體表達如公式(7)
(7)
為檢測人工智能技術應用于電子商務虛假評論中的應用成效,本研究通過模擬實驗驗證了該算法在電子商務中的應用效果。考慮到電商平臺上的評論信息獲取和發(fā)現(xiàn)過程中蘊含著大量的數(shù)據(jù),本研究以Storm為平臺搭建4個虛擬節(jié)點的Storm集群。所有的虛擬節(jié)點都使用了免費Ubuntu19.04,CPU和內(nèi)存則是inteli5-7400LGA115114nm-3.0GGHz、8 G,StormComponent使用Nimbus績效管理軟體及Supervisor管理與維護軟件。同時,以EC-SHOP網(wǎng)站為平臺搭建虛擬電商平臺,設置評論人2000人,真實評論人數(shù)與虛假評論人數(shù)相同。在此模擬系統(tǒng)中對所提算法的探測性能進行驗證。
每小時的數(shù)據(jù)處理規(guī)模可以用產(chǎn)量來表示。在模擬實驗中利用所提的方法收集評價對象的評價信息并對其進行評價。通過對不同節(jié)點數(shù)目的產(chǎn)品評價信息收集所需的時間進行比較,對本文提出的方法的生產(chǎn)率進行驗證,在不同的虛節(jié)點數(shù)目下收集過程重復10次取平均值,具體如表1所示。
表1 Mass集群算法吞吐實驗檢測結果
通過表1的數(shù)據(jù)可以看出,Mass集群算法在實際檢測的過程中能夠耗費較少的時間加快檢測的速度,對于提升檢測的效率具有較好的效果。
利用SVM模型計算各個ass函數(shù)的基本概率值,然后融合各個ass函數(shù),獲得真實評價者、虛假評價者以及不確定性的評價,將y1和y2設為0.1、0.2,得到虛假評論者的檢測結果,如表2所示。
表2 虛假評論檢測部分結果分析
從表2的數(shù)據(jù)可以看出,將虛假評論檢測方式應用于評論中其檢測的準確率可以提升至100%以上,說明該種方式可以用于電子商務虛假評論的檢測當中。
本研究基于前者研究的基礎上提出了D-S證據(jù)理論算法,利用支持向量機模型確定真實評論者、虛假評論者和不確定的贊同度,完成虛假評論者檢測。得出的結果提示將虛假評論檢測方式應用于評論中,其檢測的準確率可以提升至100%以上,將其應用于電子商務工作中可以提升消費者的購物體驗。