劉思佳 華南師范大學(xué)計(jì)算機(jī)學(xué)院
互聯(lián)網(wǎng)的快速發(fā)展推動(dòng)了電子商務(wù)的不斷普及,依托于電商平臺(tái)的商品不斷興起,而商品帶來的商品評(píng)論中的情感傾向性分析逐漸成為當(dāng)前的研究熱點(diǎn)。本系統(tǒng)的目的是通過充分挖掘網(wǎng)上豐富的評(píng)論資源,研究并創(chuàng)建一個(gè)具有實(shí)用性的互聯(lián)網(wǎng)商品評(píng)價(jià)情感分析系統(tǒng)。此系統(tǒng)能夠自動(dòng)分析來自互聯(lián)網(wǎng)的海量評(píng)論,同時(shí)分析結(jié)果的表達(dá)方式也因顧客的需求有所不同,這樣可以對商品的市場反饋進(jìn)行分析,為生產(chǎn)商提供熱銷品的類別,同時(shí)也幫助顧客對商品進(jìn)行了篩選。
面對如此所參差不齊的評(píng)論,商品的生產(chǎn)商或服務(wù)的提供商無法提供精準(zhǔn)滿足客戶需要的商品,從而在生產(chǎn)的過程中做了很多無用功。而依據(jù)本文設(shè)計(jì)的系統(tǒng)生產(chǎn)商和服務(wù)商能夠及時(shí)了解本企業(yè)所提供的商品或服務(wù)的反饋信息,為改善產(chǎn)品性能、提高服務(wù)質(zhì)量贏得更快和更有效的機(jī)遇,這相當(dāng)于為企業(yè)節(jié)約了大量的市場調(diào)研和市場反饋信息獲取的成本,間接地加快了企業(yè)產(chǎn)品、服務(wù)升級(jí)的進(jìn)程。
圖1 系統(tǒng)框架示意圖
2.1.1 自動(dòng)獲取評(píng)論內(nèi)容
為了提高程序運(yùn)行速度、可讀性,提高編寫抓取程序的效率,本文運(yùn)用了python的擴(kuò)展庫lxml以及xpath。XPath可用來在XML文檔中對元素和屬性進(jìn)行遍歷,可以在XML文檔中查找信息。而lxml庫則可以快速正確地分析xml文檔。將HTML看成是XML的特殊形式,所以可以使用Xpath來表示一個(gè)評(píng)論在此HTML文檔中的具體位置,并且xpath可以使用工具自動(dòng)生成,保證了準(zhǔn)確率和效率。此后使用lxml提供的方法,可以高效的提取出需要的信息。
2.1.2 預(yù)處理
經(jīng)過自動(dòng)獲取評(píng)論內(nèi)容這個(gè)步驟之后,后續(xù)重要的一步是進(jìn)行預(yù)處理。預(yù)處理包含兩個(gè)步驟,第一,去除噪音字符。此外,重復(fù)的標(biāo)點(diǎn)符號(hào)再這一步也應(yīng)該相應(yīng)的去除。由于抽取出的文本不含結(jié)構(gòu)化信息,是自然文本,所以如果存在兩個(gè)相同的標(biāo)點(diǎn),“斷句”處理勢必會(huì)造成錯(cuò)誤,影響進(jìn)一步的分析。此外空行空格也要去除。第二,“斷句”和“分詞”。漢語中要想表達(dá)一個(gè)完整的意思,最小的組成單位是一個(gè)句子,所以關(guān)鍵詞的選取必須要以“句”為基礎(chǔ),之后再逐個(gè)分析句中詞匯,若斷句或分詞錯(cuò)誤,勢必影響系統(tǒng)的最終結(jié)果。所以預(yù)處理是整個(gè)系統(tǒng)的前提,也是關(guān)鍵。
在日然語言處理過程中涉及的基本問題是詞性標(biāo)注和分詞,但因?yàn)檎Z言的復(fù)雜性,甚多情況下文本信息的提取有偏差,基于以上存在的問題,對文本進(jìn)行語義理解和語法結(jié)構(gòu)分析的時(shí)候采用了更為先進(jìn)的自然語言處理技術(shù)。為了達(dá)到更高的句中感情細(xì)膩度的表達(dá),首先對評(píng)價(jià)對象的特征進(jìn)行了挖掘,并進(jìn)一步找出其對應(yīng)的情感詞,舉例來說評(píng)價(jià)對象為餐廳的話,其特征就有環(huán)境、服務(wù)、餐飲等。
本項(xiàng)目基于自然語言處理,機(jī)器學(xué)習(xí)技術(shù),使用文本傾向性分析技術(shù),自動(dòng)分析提取評(píng)論關(guān)鍵內(nèi)容,為用戶量身定制商品特征分類規(guī)則,顏色標(biāo)記評(píng)論關(guān)鍵信息,評(píng)論結(jié)果以圖形形式顯示,最終設(shè)計(jì)并實(shí)現(xiàn)商品評(píng)論傾向性分析系統(tǒng)。使得用戶可以快速獲取海量評(píng)論信息的真正價(jià)值,其分析結(jié)果只管、清晰、界面友好??筛鶕?jù)用戶需要對商品特征進(jìn)行歸類,對于類似商品的比對功能可以給用戶提供方便,使得用戶在選購商品時(shí)更加科學(xué)、高效、方便。