国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多種自然語言的商品評(píng)論情感傾向性分析系統(tǒng)

2019-05-10 09:52劉思佳華南師范大學(xué)計(jì)算機(jī)學(xué)院
數(shù)碼世界 2019年4期
關(guān)鍵詞:傾向性預(yù)處理文檔

劉思佳 華南師范大學(xué)計(jì)算機(jī)學(xué)院

引言

互聯(lián)網(wǎng)的快速發(fā)展推動(dòng)了電子商務(wù)的不斷普及,依托于電商平臺(tái)的商品不斷興起,而商品帶來的商品評(píng)論中的情感傾向性分析逐漸成為當(dāng)前的研究熱點(diǎn)。本系統(tǒng)的目的是通過充分挖掘網(wǎng)上豐富的評(píng)論資源,研究并創(chuàng)建一個(gè)具有實(shí)用性的互聯(lián)網(wǎng)商品評(píng)價(jià)情感分析系統(tǒng)。此系統(tǒng)能夠自動(dòng)分析來自互聯(lián)網(wǎng)的海量評(píng)論,同時(shí)分析結(jié)果的表達(dá)方式也因顧客的需求有所不同,這樣可以對商品的市場反饋進(jìn)行分析,為生產(chǎn)商提供熱銷品的類別,同時(shí)也幫助顧客對商品進(jìn)行了篩選。

1 市場需求

面對如此所參差不齊的評(píng)論,商品的生產(chǎn)商或服務(wù)的提供商無法提供精準(zhǔn)滿足客戶需要的商品,從而在生產(chǎn)的過程中做了很多無用功。而依據(jù)本文設(shè)計(jì)的系統(tǒng)生產(chǎn)商和服務(wù)商能夠及時(shí)了解本企業(yè)所提供的商品或服務(wù)的反饋信息,為改善產(chǎn)品性能、提高服務(wù)質(zhì)量贏得更快和更有效的機(jī)遇,這相當(dāng)于為企業(yè)節(jié)約了大量的市場調(diào)研和市場反饋信息獲取的成本,間接地加快了企業(yè)產(chǎn)品、服務(wù)升級(jí)的進(jìn)程。

2 系統(tǒng)模塊

圖1 系統(tǒng)框架示意圖

2.1 網(wǎng)頁評(píng)論自動(dòng)獲取與預(yù)處理

2.1.1 自動(dòng)獲取評(píng)論內(nèi)容

為了提高程序運(yùn)行速度、可讀性,提高編寫抓取程序的效率,本文運(yùn)用了python的擴(kuò)展庫lxml以及xpath。XPath可用來在XML文檔中對元素和屬性進(jìn)行遍歷,可以在XML文檔中查找信息。而lxml庫則可以快速正確地分析xml文檔。將HTML看成是XML的特殊形式,所以可以使用Xpath來表示一個(gè)評(píng)論在此HTML文檔中的具體位置,并且xpath可以使用工具自動(dòng)生成,保證了準(zhǔn)確率和效率。此后使用lxml提供的方法,可以高效的提取出需要的信息。

2.1.2 預(yù)處理

經(jīng)過自動(dòng)獲取評(píng)論內(nèi)容這個(gè)步驟之后,后續(xù)重要的一步是進(jìn)行預(yù)處理。預(yù)處理包含兩個(gè)步驟,第一,去除噪音字符。此外,重復(fù)的標(biāo)點(diǎn)符號(hào)再這一步也應(yīng)該相應(yīng)的去除。由于抽取出的文本不含結(jié)構(gòu)化信息,是自然文本,所以如果存在兩個(gè)相同的標(biāo)點(diǎn),“斷句”處理勢必會(huì)造成錯(cuò)誤,影響進(jìn)一步的分析。此外空行空格也要去除。第二,“斷句”和“分詞”。漢語中要想表達(dá)一個(gè)完整的意思,最小的組成單位是一個(gè)句子,所以關(guān)鍵詞的選取必須要以“句”為基礎(chǔ),之后再逐個(gè)分析句中詞匯,若斷句或分詞錯(cuò)誤,勢必影響系統(tǒng)的最終結(jié)果。所以預(yù)處理是整個(gè)系統(tǒng)的前提,也是關(guān)鍵。

2.2 自然語言處理技術(shù)抽取文本的語義信息

在日然語言處理過程中涉及的基本問題是詞性標(biāo)注和分詞,但因?yàn)檎Z言的復(fù)雜性,甚多情況下文本信息的提取有偏差,基于以上存在的問題,對文本進(jìn)行語義理解和語法結(jié)構(gòu)分析的時(shí)候采用了更為先進(jìn)的自然語言處理技術(shù)。為了達(dá)到更高的句中感情細(xì)膩度的表達(dá),首先對評(píng)價(jià)對象的特征進(jìn)行了挖掘,并進(jìn)一步找出其對應(yīng)的情感詞,舉例來說評(píng)價(jià)對象為餐廳的話,其特征就有環(huán)境、服務(wù)、餐飲等。

3 研究成果

本項(xiàng)目基于自然語言處理,機(jī)器學(xué)習(xí)技術(shù),使用文本傾向性分析技術(shù),自動(dòng)分析提取評(píng)論關(guān)鍵內(nèi)容,為用戶量身定制商品特征分類規(guī)則,顏色標(biāo)記評(píng)論關(guān)鍵信息,評(píng)論結(jié)果以圖形形式顯示,最終設(shè)計(jì)并實(shí)現(xiàn)商品評(píng)論傾向性分析系統(tǒng)。使得用戶可以快速獲取海量評(píng)論信息的真正價(jià)值,其分析結(jié)果只管、清晰、界面友好??筛鶕?jù)用戶需要對商品特征進(jìn)行歸類,對于類似商品的比對功能可以給用戶提供方便,使得用戶在選購商品時(shí)更加科學(xué)、高效、方便。

猜你喜歡
傾向性預(yù)處理文檔
KR預(yù)處理工藝參數(shù)對脫硫劑分散行為的影響
淺談Matlab與Word文檔的應(yīng)用接口
求解奇異線性系統(tǒng)的右預(yù)處理MINRES 方法
公眾對我國足球歸化運(yùn)動(dòng)員的情感傾向性——基于大數(shù)據(jù)的微博情感分析
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
有人一聲不吭向你扔了個(gè)文檔
超重/肥胖對兒童腸套疊空氣灌腸復(fù)位的預(yù)后影響:傾向性評(píng)分匹配分析
污泥預(yù)處理及其在硅酸鹽制品中的運(yùn)用
分析我國體育新聞報(bào)道中的傾向性文獻(xiàn)綜述
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)