国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)方法的游客評論數(shù)據(jù)智能分析技術(shù)研究

2021-06-27 03:25:54馬騫
電子設(shè)計(jì)工程 2021年12期
關(guān)鍵詞:機(jī)器向量分類

馬騫

(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展與普及,電子商務(wù)逐漸被應(yīng)用于貨幣交換、商品買賣與旅游服務(wù)等多個(gè)領(lǐng)域[1-2]。在這些領(lǐng)域中,由于旅游行業(yè)嚴(yán)重依賴于資金流動(dòng)、信息傳遞與流通,所以如何利用高效率的信息引導(dǎo)普通的游客,是旅游景點(diǎn)提高經(jīng)濟(jì)效益的重要環(huán)節(jié)[3-7]。而在與互聯(lián)網(wǎng)融合的背景下,通過借鑒淘寶等商品平臺,攜程網(wǎng)或途牛等旅游服務(wù)平臺也逐漸引入針對旅游目的地的游客評價(jià)等功能,從而優(yōu)化其相應(yīng)旅游目的地的服務(wù)產(chǎn)品。然而,隨著游客數(shù)量的快速增加,對于評論數(shù)據(jù)的情感分析也逐漸成為旅游服務(wù)平臺亟待解決的技術(shù)問題[8]。目前,國內(nèi)外的學(xué)者提出一些經(jīng)典的解決方法,例如:Bo Yang 等學(xué)者通過引入機(jī)器學(xué)習(xí)方法,對互聯(lián)網(wǎng)上的觀眾影評進(jìn)行了準(zhǔn)確度較高的情感分析[9];Sanjiv Das 等學(xué)者針對投資者對股票走勢的評價(jià),建立了情感分析的計(jì)算模型[10]。然而,這些研究所提出的分析模型依然存在準(zhǔn)確度較低的問題,難以應(yīng)用到大規(guī)模的旅游服務(wù)平臺中。

為了進(jìn)一步提高游客在旅游服務(wù)平臺上的分析準(zhǔn)確度,基于支持向量機(jī)等機(jī)器學(xué)習(xí)分類算法[11],文中提出了針對游客評論數(shù)據(jù)的智能分類與分析技術(shù)。使用數(shù)據(jù)的自動(dòng)抓取技術(shù),實(shí)現(xiàn)了旅游服務(wù)平臺的數(shù)據(jù)獲取與預(yù)處理操作,通過引入支持向量機(jī)技術(shù),文中提高了分析模型的泛化能力,實(shí)現(xiàn)具有較高準(zhǔn)確度的情感分析技術(shù)。相關(guān)仿真結(jié)果表明,基于機(jī)器學(xué)習(xí)方法的游客評論數(shù)據(jù)分析技術(shù)優(yōu)于傳統(tǒng)的語義分析方法。

1 情感分類技術(shù)

在數(shù)學(xué)領(lǐng)域中,情感分類是一個(gè)映射過程。令a表示由多種數(shù)據(jù)組成的待分類集合,b表示經(jīng)過精確分類之后的類別集合,則情感分類f,可用式(1)表達(dá)。

在當(dāng)前研究中,情感分類技術(shù)主要可分為語義分析[12-14]與機(jī)器學(xué)習(xí)[15-16]兩類,其簡介如下:

1)基于語義分析的情感分類技術(shù),是通過對詞語的語義傾向進(jìn)行分析的情感分類方法,該方法需要提取、表示與統(tǒng)計(jì)詞語的語義特征。其分類流程如圖1 所示。

圖1 基于語義分析的情感分類流程圖

2)基于機(jī)器學(xué)習(xí)的情感分類技術(shù)需要使用統(tǒng)計(jì)學(xué),比較當(dāng)前數(shù)據(jù)與已定義的分類特征向量的相似程度,從而完成文本數(shù)據(jù)的情感分類。其分類流程如圖2 所示。

圖2 基于機(jī)器學(xué)習(xí)的情感分類流程圖

一般而言,基于機(jī)器學(xué)習(xí)的常用情感分類技術(shù),主要包括支持向量機(jī)(SVM)、K 近鄰與樸素貝葉斯算法等。在基于語義分析與機(jī)器學(xué)習(xí)的情感分類技術(shù)中,由于支持向量機(jī)技術(shù)具有準(zhǔn)確度較高的分類效果,故文中選用該技術(shù)對游客的評論數(shù)據(jù)進(jìn)行智能分析。

2 支持向量機(jī)技術(shù)

2.1 數(shù)據(jù)抓取

在智能分析技術(shù)中,鑒于用戶數(shù)量與關(guān)注度均較高,所以文中的訓(xùn)練集與測試集數(shù)據(jù)均來自于攜程網(wǎng)的數(shù)據(jù)庫。為快速獲取大量的數(shù)據(jù),利用Java語言在Eclipes 平臺上,分別編寫了網(wǎng)頁抓取程序Crawler 與解析數(shù)據(jù)程序Parse。利用抓取程序與用戶數(shù)據(jù),建立了由旅游景點(diǎn)信息與評論信息組成的數(shù)據(jù)表。其中,旅游景點(diǎn)信息主要由城市序號、城市名稱、游客人數(shù)、綜合評分、景點(diǎn)評分、評論數(shù)量與評價(jià)時(shí)間等組成;評論信息主要由評論序號、城市序號、城市名稱、評論內(nèi)容、游客評分、評價(jià)時(shí)間與游客姓名等組成。

2.2 預(yù)處理

為便于機(jī)器學(xué)習(xí)方法的分類與計(jì)算,文中還需要對原始的評論數(shù)據(jù)進(jìn)行必要的預(yù)處理。其中,數(shù)據(jù)預(yù)處理過程又可分為訓(xùn)練集與測試集、文本清理與初始分類流程,其詳細(xì)內(nèi)容如下。

1)訓(xùn)練集與測試集

在數(shù)據(jù)預(yù)處理的過程中,文中需要對數(shù)據(jù)庫中的原始數(shù)據(jù)進(jìn)行反復(fù)地調(diào)整與運(yùn)算,從而選取出由大量游客評論數(shù)據(jù)組成的訓(xùn)練集;同時(shí),選擇出由一定數(shù)量評論數(shù)據(jù)與分類結(jié)果組成的測試集。利用數(shù)據(jù)的自動(dòng)抓取程序,文中從攜程網(wǎng)平臺上獲取了10個(gè)旅游景點(diǎn)的在線評論數(shù)據(jù)。經(jīng)過反復(fù)地訓(xùn)練與測試,文中對多個(gè)分類器的參數(shù)進(jìn)行了優(yōu)化與改進(jìn)。

2)文本清理與初始分類

在旅游服務(wù)平臺上,原始數(shù)據(jù)的自動(dòng)抓取程序是直接復(fù)制相應(yīng)的評論內(nèi)容,導(dǎo)致了抓取的數(shù)據(jù)中包含較多英文、符號等額外信息。所以,文中需要對原始的抓取數(shù)據(jù)進(jìn)行一定的“過濾”,該過程主要由以下行為組成。

①剔除無意義的游客評論數(shù)據(jù)。其中,無意義的評論數(shù)據(jù)主要包括3 種數(shù)據(jù),即外文或符號等無法判別內(nèi)容、特別簡略而無法判斷情感傾向的內(nèi)容、包含大量廣告的評論內(nèi)容;

②精簡有意義的游客評論數(shù)據(jù)。在具有參考意義的評論數(shù)據(jù)中,大量的英文單詞或怪異的表情符號等內(nèi)容較難反映游客的真實(shí)情感傾向,需要進(jìn)行一定的精簡與優(yōu)化。

為了實(shí)現(xiàn)更加精確的評論自動(dòng)分類,文中需要對經(jīng)過清理的文本數(shù)據(jù)進(jìn)行人工初始分類,即將文本的評價(jià)內(nèi)容簡單分成積極正面評價(jià)與消極負(fù)面評價(jià)內(nèi)容,從而盡量提高分類的準(zhǔn)確度。

2.3 情感分類

當(dāng)完成原始數(shù)據(jù)的預(yù)處理后,基于機(jī)器學(xué)習(xí)的評論數(shù)據(jù)分類技術(shù)還需要執(zhí)行特征表示、特征提取與分類計(jì)算等多個(gè)流程,其詳細(xì)介紹如下。

1)特征表示

由于機(jī)器學(xué)習(xí)算法無法直接對文本數(shù)據(jù)進(jìn)行處理與運(yùn)算,所以文中利用向量空間模型表示文本數(shù)據(jù)。

一般而言,向量空間模型是使用具有權(quán)值的特征向量空間表示文本的方法。在所有文本數(shù)據(jù)中,每個(gè)文本d均由n維向量空間V的一個(gè)點(diǎn)來表示,即V(d)=(w1,…,wn)。其中,向量空間的分量wi(1 ≤i≤n)均表示文本數(shù)據(jù)在特征向量空間中的權(quán)重值。利用該方式,文中即可將游客的文本數(shù)據(jù)逐一匹配到n維的特征向量空間。

2)特征提取

由于中文的詞語總數(shù)較多,所以經(jīng)過特征表示的特征向量,仍需要進(jìn)行特征提取,從而降低特征向量的維度。目前,針對中文文本的常用特征提取方法主要有:文檔頻率統(tǒng)計(jì)、信息增益計(jì)算與交互信息統(tǒng)計(jì)等。其中,因?yàn)闄C(jī)器學(xué)習(xí)方法被用于分類計(jì)算,所以文中選用信息增益計(jì)算的方法來完成特征提取。

通常,信息增益計(jì)算是廣泛用于機(jī)器學(xué)習(xí)領(lǐng)域的特征提取方法,令t表示文檔詞語,c表示文檔類別,s表示文檔的類別數(shù)量,p(c)表示c類文檔在中文語料集合中的出現(xiàn)概率,而p(t)與表示文檔詞語t在中文語料集合中的出現(xiàn)與不出現(xiàn)的概率,分別表示文檔詞語t在c類文檔中出現(xiàn)與不出現(xiàn)的概率。則文本特征提取的計(jì)算結(jié)果I(t)如式(2)所示。

3)分類計(jì)算

為了提高評論數(shù)據(jù)的分析準(zhǔn)確度,文中選用支持向量機(jī)(SVM)技術(shù),作為評論文本數(shù)據(jù)的主要分析工具。在概率論與數(shù)理統(tǒng)計(jì)原理的基礎(chǔ)上,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為運(yùn)算基準(zhǔn)原則,SVM 的學(xué)習(xí)泛化能力更高,解決了傳統(tǒng)機(jī)器學(xué)習(xí)算法始終存在的非線性與過學(xué)習(xí)等問題。其基本思想為利用監(jiān)督學(xué)習(xí)的方法,對文本數(shù)據(jù)進(jìn)行二元線性分類。

而樣本集F的所有點(diǎn)(xi,yi)滿足以下不等式:

而在數(shù)據(jù)空間Rd中,樣本數(shù)據(jù)x到分類超平面距離l的計(jì)算方法,如式(5)所示。

通常而言,為了實(shí)現(xiàn)更加精確的分類,文中需要尋找最優(yōu)的分類超平面,而這一問題可以轉(zhuǎn)化為支持向量機(jī)二次規(guī)劃的數(shù)學(xué)計(jì)算模型。其中,該數(shù)學(xué)模型的目標(biāo)函數(shù)obj(w)如式(6)所示。

對于樣本數(shù)據(jù)集F={(xi,yi)},令i=1,2,…,s,則該數(shù)學(xué)模型的約束條件如式(7)所示。

此外,令ai表示第i個(gè)樣本對應(yīng)的拉格朗日算子,文中分別將目標(biāo)函數(shù)與約束條件細(xì)化為式(8)與式(9):

根據(jù)庫恩塔克爾定理,通過一定的推導(dǎo)可知,上述數(shù)學(xué)模型的優(yōu)化解必然滿足以下條件,如式(10)所示。

其中,在大部分樣本數(shù)據(jù)的求解過程中,ai=0 。而當(dāng)ai≠0 時(shí)的少部分樣本即為支持向量,通過推導(dǎo)與求解可得分類判別函數(shù)D(x,y),如式(11)所示。

3 仿真結(jié)果與分析

為驗(yàn)證文中提出的智能分析方法的有效性,利用攜程網(wǎng)的游客評論內(nèi)容,分別對基于語義分析與機(jī)器學(xué)習(xí)的智能分析方法進(jìn)行了仿真與分析。在仿真過程中,文中采用卡方檢驗(yàn)的方法衡量這兩種文本分析方法的優(yōu)劣。需要說明的是,所有的仿真均采用相同的樣本數(shù)據(jù)與檢驗(yàn)條件。經(jīng)過多種訓(xùn)練集與測試集等樣本數(shù)據(jù)的測試和分析,文中得到了測試集的分類正確率結(jié)果。其中,當(dāng)訓(xùn)練集樣本數(shù)據(jù)的數(shù)量分別為50、100、200 與400 時(shí),這兩種方法的測試集分類正確率,如表1 所示。

表1 測試集評論數(shù)據(jù)分類正確率結(jié)果

由表1 可知,在同樣的仿真條件下,基于機(jī)器學(xué)習(xí)方法的智能分析技術(shù)具有較高的正確率,顯著優(yōu)于傳統(tǒng)的語義分析方法,證明了文中所提分析技術(shù)的優(yōu)越性。

4 結(jié)束語

針對游客評論文本的數(shù)據(jù)分析問題,文中基于機(jī)器學(xué)習(xí)方法提出了一種文本智能分析技術(shù)。通過引入支持向量機(jī)的數(shù)據(jù)處理方法,這種智能分析技術(shù)顯著提高了游客評論數(shù)據(jù)的分類正確率,具有一定的借鑒與參考意義。然而,由于仿真條件的限制,文中并沒有對這種技術(shù)進(jìn)行大規(guī)模的仿真與分析,該技術(shù)的穩(wěn)定性表現(xiàn)無法判定,下一步將致力于解決這一問題。

猜你喜歡
機(jī)器向量分類
機(jī)器狗
向量的分解
機(jī)器狗
分類算一算
聚焦“向量與三角”創(chuàng)新題
分類討論求坐標(biāo)
未來機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
向量垂直在解析幾何中的應(yīng)用
济阳县| 习水县| 浦江县| 成武县| 罗山县| 台南县| 大姚县| 来安县| 镇康县| 孙吴县| 弋阳县| 手游| 四会市| 富源县| 宝坻区| 凤凰县| 霍城县| 顺平县| 汉沽区| 北宁市| 庆元县| 苍南县| 盐池县| 华亭县| 鸡泽县| 横山县| 思南县| 永康市| 堆龙德庆县| 犍为县| 丽水市| 且末县| 海口市| 四平市| 江油市| 永昌县| 吉首市| 清镇市| 衡山县| 通渭县| 安塞县|