摘 要:隨著經濟的發(fā)展、科技的進步,我國電子商務行業(yè)迎來了發(fā)展契機。近幾年,我國電子商務發(fā)展尤為迅速,呈現(xiàn)蓬勃態(tài)勢。電子商務的出現(xiàn),給傳統(tǒng)行業(yè)帶來了較大的沖擊,也為各行各業(yè)的發(fā)展注入了新的活力。陶瓷行業(yè)作為我國重要的行業(yè),一直在社會各行各業(yè)中占據著重要地位。電子商務為陶瓷行業(yè)帶來了全新的發(fā)展機遇,同時陶瓷電子商務也面臨著挑戰(zhàn)。對于用戶來說,人們對陶瓷電子商務產品的選擇,很大程度上依賴于該產品的用戶評價。對于商家來說,盈利的好壞以及產品的投資也依靠用戶對該產品的評價等級。因此,如何在電子商務平臺中創(chuàng)建有效的用戶評價模型,對用戶產品購買和商家投資生產有著至關重要的作用。本文基于語義分析陶瓷電子商務產品用戶評價,利用模型幫助商家篩選有效的評價信息,為商家和用戶提供更多有價值的參考內容,以期提高陶瓷產品銷量,為企業(yè)帶來更多效益。
關鍵詞:語義;電子商務;陶瓷;用戶評價;情感分析;評論維度
隨著互聯(lián)網技術的飛速發(fā)展,電子商務已經逐漸融入到了人們生活當中,并成為了人們生活的重要一部分。陶瓷行業(yè)作為我國歷史悠久的傳統(tǒng)行業(yè)之一,是構成商業(yè)生態(tài)的重要一部分。電子商務平臺的創(chuàng)建,有利于陶瓷產品的銷售和產出,也促進陶瓷產業(yè)的健康發(fā)展。根據調查發(fā)現(xiàn),人們進行網購時,決定著購買者消費欲望的重要因素就是產品的用戶評價。產品介紹和產品的用戶評論,是購買者重要的產品信息參考源。我國曾公布了一條關于電子商務平臺購買傾向調查,調查結果表明,我國有超過80%的顧客購買產品時,會重點瀏覽產品的用戶評價,并成為顧客購買決策的重要參考標準。因此,促進陶瓷電子商務健康發(fā)展,重點在于人們關注到產品的用戶評價。我們需要建立起用戶評價體系、用戶情感傾向模型,通過信息采集,為電商和用戶提供有效參考信息。
一、電商產品用戶評價情感分析研究現(xiàn)狀
隨著互聯(lián)網的高速發(fā)展,各大社交平臺、電商平臺、信息共享平臺等越來越注重用戶評價的情感分析。電子商務中用戶評價的情感分析主要根據文本情感色彩和情感觀點進行研究識別,利用數(shù)據模型提取詞級、句子級、段落級以及文檔級中蘊含的情感詞和情感傾向判斷。情感分析技術在我國起步晚于國外一些國家。但是,隨著我國大量研究人員和專業(yè)學者對其重視,情感分析技術的發(fā)展一直呈現(xiàn)著蓬勃態(tài)勢。情感分析有廣義和狹義之分,廣義的情感分析又叫情感分析與觀點挖掘,分為兩個部分,即情感分析(狹義)和觀點挖掘(又叫意見挖掘)。情感分析技術通過分析文本來理解用戶喜怒哀樂這些情感,觀點挖掘偏重于理解用戶表達的觀點和意見,即判斷一個句子有沒有表達情感或觀點。情感分析技術不僅僅局限于電商領域,也涉及到社交網站、音頻網站、娛樂網站等領域,人們通過建立固有的分析模型和詞典,用來分析用戶評論中的語言色彩、情感傾向,從而幫助甲方了解乙方的喜好,為用戶提供更加對稱的服務和個性化推薦。例如,淘寶商城、京東商城的個性化推薦,電商平臺通過情感分析技術檢取用戶評價、購買、關注等行為,從而在用戶搜索內容中檢索關鍵詞進行歸類,為用戶提供個性化的服務。近幾年,我國涌現(xiàn)出了一批關于情感分析的研究者,他們?yōu)榍楦蟹治黾夹g的發(fā)展做出巨大貢獻。哈爾濱工業(yè)大學張子瓊等人聯(lián)合高校教師和業(yè)界知名人士,對互聯(lián)網情感分析的現(xiàn)狀和動態(tài)進行了較為充分的調查研究,有效挖掘了相關數(shù)據和信息,論述了新時代普遍被使用的情感分析技術和方法,并提出了當代情感分析技術和方法中常見的問題,通過對問題的探討指明了情感分析技術未來的研究方向和施展目標。同濟大學的史偉等人以新浪微博為平臺,對動車事故后網友發(fā)表微博評論進行了用戶情感分析,并提取了微博中六種情感類型,以此為根據建立了情感分析模型,探究微博文本的影響力和計算網友的情感方法與技術,從而分析和探討了動車事故后社會公眾的情感。清華大學謝麗星等人對微博情感分析和特征提取方法進行了研究,作者論述中,對情感詞典的方法、表情符號的使用規(guī)則方法、SVM的監(jiān)督層次結構的多策略方法進行大量的探討和實驗。深圳大學劉宇飛和中國傳媒大學楊瑩、張鵬洲等人利用了情感分析技術對歌詞進行了情感分析,并獲得一定的研究成果。隨著科技的進步,各種軟件和平臺應時而出,情感分析技術也得到越來越多人重視,也有越來越多的人相繼投入到情感分析領域研究之中。放眼我國電子商務領域,卻缺少較為系統(tǒng)性的情感分析研究成果。對于電子商務平臺中產品用戶等級分析,一般都是采用對文本情感分析技術來實現(xiàn)的。所以,我們需要基于語義分析模型,采取VSM獲得用戶評價的情感狀態(tài)和情感傾向。
二、陶瓷電子商務產品用戶評價分析算法研究
1.陶瓷電商產品用戶評價信息獲取
陶瓷電子商務產品用戶評價信息的獲取,我們主要采用網頁蜘蛛進行信息采集。所以,有必要設計一個基于電子商務平臺的主題網頁蜘蛛的設計。由于陶瓷電子商務平臺的產品評價主頁一般都是呈現(xiàn)動態(tài)的,因此對用戶評價數(shù)據的更新是設計主題網頁蜘蛛的技術關鍵。
動態(tài)網站的數(shù)據采集,可以建立索引空間,以哈希表的形式對用戶評價信息進行動態(tài)索引,利用哈希搜索算法提高采集中的搜索效率,從而實現(xiàn)動態(tài)用戶評價信息的采集。目前,電子商務平臺類型繁多,如果從多個平臺收集產品用戶評價信息,就需要較大的存儲空間和處理器。所以,可以利用云計算平臺搭建云蜘蛛,利用云計算高計算、大存儲、高帶寬網絡的優(yōu)勢,收集大數(shù)據的用戶評價內容,為后續(xù)的情感分析提供了巨大的數(shù)據支撐。
2.用戶評價特征詞處理分析
特征詞的提出可以分為三個步驟:文本切詞、文本去重和特征詞提取。
文本切詞:將一個詞獨立地分割成若干個獨立的詞,是文本特征詞處理的基礎技術。目前的分詞算法包括字符串匹配算法、基于理解的算法和基于自動學習的算法等。字符串匹配算法是最常見的算法之一,其特點是實現(xiàn)簡單,匹配準確率高。針對用戶評價信息特征詞的處理和分析,可以創(chuàng)建一個字符串庫,并使其不斷自我更新和自我學習。具體匹配過程是將文本一個個分解,然后字符串中出現(xiàn)的文本塊匹配成功。為了提高匹配精度,可以采用正向最大匹配、反向最大匹配和雙向最大匹配等方法。例如,我們就電商平臺瓷磚產品的用戶評價信息來講。關于該產品的最多評價就是瓷磚的花紋、質量、亮度三個方面,但是用戶評價信息內容繁多且復雜,因此我們需要做文本切詞處理。我們利用文本切詞,將用戶對該產品的評價信息進行分詞切割,使用戶評價信息精簡為獨立的評價詞,有效提取評價信息中關于花紋、質量、亮度方面的特征詞,精簡用戶評價內容,做到評價信息上的整合。
文本去重:文本切詞后,會產生諸多重復性的詞語和語句,為了更好地提取用戶評價信息,就需要對文本切詞后的重復性詞語和語句進行去重處理。本文研究的去重處理主要是以Bloom Filter,即布隆過濾器,進行文本去重處理。布隆過濾器(bloom filter)是20世紀70年代Howard Bloom提出的一種二進制向量數(shù)據結構,對于一個元素在集合中是否會重復出現(xiàn),可以用這項技術進行空間和時間上驗證。例如,電商平臺中瓷磚產品的質量、亮度、花紋方面主要特征詞,由于文本切詞后,用戶評價信息的特征詞存在重復的現(xiàn)象,導致關于某一方面的評價多次出現(xiàn)或者多個相似詞語的出現(xiàn),需要我們利用不隆過濾器將用戶評價信息中重復性或者相似性的詞語進行去重處理,從而提取一批極具價值性的用戶評價信息。
特征詞提?。何谋镜奶卣髟~提取主要在于選取文本中的特征項,就目前階段而言,文本特征詞提取方法比較多,最常用的是DF提取方法。DF包含了固定所指一種特征項或者多種特征項,計算公式為:
計算公式中,DF(t)指的是所包含的特征項T的詞頻率。通過文檔詞頻提取方法對陶瓷用戶評價的每一個特征項在整個文本中的出現(xiàn)頻率進行統(tǒng)計,然后根據指定的特征創(chuàng)建規(guī)定閾值,從而提取文本中所需的特征值。陶瓷電子商務平臺中,對產品的優(yōu)良、好壞特征項的分析,主要在于提取用戶產品評價特征項。例如,電商平臺可以根據用戶對瓷磚產品的質量、亮度、花紋等方面重點關注,提前設定好關于三個方面特征閾值,通過文本切詞和文本去重處理,利用設定好的閾值對照用戶評價信息中的主要關鍵詞,從而做到特征詞的提取,方便商家找出自己的想了解的用戶評價信息。
3.基于VSM技術的用戶評價信息的情感分析
電子商務平臺用戶評價信息分析中,通過一系列的去重處理、文本切詞、特征詞提取等,就剩下對處理后信息的情感傾向分析,即信息相似度的計算。就目前階段而言,信息相似度的計算最常用的方法就是向量空間模型技術(VSM),該技術的核心在于通過將兩個文本的句子簡化為向量運算,通過計算向量之間的相似度來衡量文本信息中的相似度。電子商務用戶評價VSM情感分析,一般流程是:通過預處理—關鍵詞加權、停用詞過濾—建立向量空間模型,求向量空間余弦值。其中余弦公式為:
其中,公式中的W1k和W2k分別表示D1和D2兩個斷句第K個關鍵字的權值。通過處理后的短句建立對應的空間求值模型,建立起的向量空間模型關鍵點在于把短句簡化為關鍵詞的權重為分量的N維向量進行表示。如果所求出的兩個用戶評價文本的余弦值大于了所設定的閾值,那么就說明兩個評論信息是相似的,否則就說明兩者之間并無聯(lián)系。通過用戶評價信息的獲取到用戶評價特征詞的處理再到情感相似度的分析,可以有效計算出電子商務平臺用戶對陶瓷產品的情感傾向,從而為商家提供更有效的數(shù)據支撐,為其他客戶提供更多有價值性參考信息。
三、基于語義陶瓷電子商務產品用戶評價實例分析
1.選取目標
本文主要從我國知名電商網站進行信息選取,選取對象分別是淘寶、亞馬遜、京東三大電商平臺中陶瓷銷量排名前五的不同品牌的陶瓷產品用戶評價信息。通過時間上的確定,我們通過信息索取程序一共抓住了113528條評論,剔除無用性評論,還剩余13215條評論。然后將這些評論統(tǒng)一合并成一個文檔作為陶瓷電子商務產品用戶評價研究對象。除此之外,我們還要將用戶對陶瓷電商產品的主要評價信息進行統(tǒng)一歸類精簡,挖掘出用戶有效的產品評價信息。關于用戶對陶瓷電商產品的評價信息如表1所示。
2.文本預處理
本文分析與研究我們選用ICTCLAS進行分詞,通過一系列的分詞與整合,創(chuàng)建出一個詞語集,詞語集中包含有大量停用詞、語氣詞以及研究無關的詞語等,我們通過《擴展版》提供的停用詞表,利用智能機器并結合人工,對這些詞語進行過濾,最后得到研究詞語集1632個詞語。
3.特征項權重計算與特征項聚類
我們對篩選出的1632個詞語進行權重計算,并設置一個閥值,最后篩選出具有代表性的特征項集合,包含233個詞語。然后,對233個特征項進行編碼,并以特征項的權重值作為參考值進行聚類。聚類距離設為2000,聚類密度閥值設為5,最后形成的主要聚類結果(如表2所示)。
通過計算結果可以看到,聚類一主要是對正品、質量、包裝方面的了解需求。聚類二側重于陶瓷工藝、材料上的要求。聚類三主要是對陶瓷的總體印象,包括質量、價格、外觀等方面。聚類四主要是陶瓷產品的質量問題方面的關注。聚類五表現(xiàn)為售后一系列信息和需求。
四、綜述與總結
我們通過了解陶瓷行業(yè)在電子商務領域的發(fā)展狀況,可以初步窺探陶瓷電子商務產品的銷售狀況。調查分析電子商務產品與用戶評論之間的關系、用戶評價重要性以及電子商務情感分析發(fā)展情況,幫助我們理清陶瓷電子商務產品用戶評價分析方法頭緒。基于語義,通過用戶評價分析方法的研究和陶瓷電子商務產品用戶評價實例分析,最終得出相應的信息和評價維度。本文研究仍然存在一些不足,還需進一步提高陶瓷電子商務產品的研究深度和廣度。以期更好地促進陶瓷行業(yè)在電子商務領域健康長遠發(fā)展。
參考文獻:
[1]董敏,王琨.基于語義分析的電子商務產品用戶評價分析與研究[J].商場現(xiàn)代化,2017,(11):64-65.
[2]侍佳慧,呂紅波.O2O移動電子商務平臺評價指標體系構建[J].黑龍江科學,2017,第8卷(4):18-20.
[3]武新麗,李柔,令狐大智.電子商務用戶評價信息有效性研究——基于淘寶服裝類商品[J].沿海企業(yè)與科技,2019,(6):8-13.
[4]顧勤.面向陶瓷行業(yè)的電子商務開發(fā)與應用[J].中國商貿,2011, (4):54-55.
[5]陳紀元.文本情感分析在電子商務中的應用探討[J].消費導刊, 2019,(3):66-67.
[6]由麗萍,王嘉敏.基于情感分析和VIKOR多屬性決策法的電子商務顧客滿意感測度[J].情報學報,2015,(10):1098-1110.
作者簡介:聶慶華(1977.10- ),女,漢族,江西景德鎮(zhèn)人,碩士,講師,研究方向:計算機應用技術