国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合機(jī)器學(xué)習(xí)算法在旅游推薦中的研究與實(shí)現(xiàn)

2020-05-21 05:54:57王小芳劉樹(shù)林劉洪江
電腦知識(shí)與技術(shù) 2020年9期
關(guān)鍵詞:特征詞特征提取分類器

王小芳 劉樹(shù)林 劉洪江

摘要:針對(duì)旅游點(diǎn)評(píng)類文本存在數(shù)據(jù)量龐大等問(wèn)題,本文構(gòu)建一種SVM與Bootstrapping相融合的旅游點(diǎn)評(píng)文本情感分析算法。首先對(duì)2019年上半年攜程旅游與馬蜂窩旅游評(píng)論數(shù)據(jù)進(jìn)行采集,以得到待處理旅游點(diǎn)評(píng)文本數(shù)據(jù)集;然后利用SVM算法構(gòu)建分類器對(duì)旅游點(diǎn)評(píng)文本進(jìn)行分類,以得到情感特征詞集,隨后使用Bootstrapping算法對(duì)上述分類器進(jìn)行重構(gòu),以得到高性能分類器;最后對(duì)分析的情感特征詞集進(jìn)行模型評(píng)價(jià)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法相對(duì)于傳統(tǒng)算法而言,召回率整體提升2.3%,準(zhǔn)確率整體提升4.8%,F(xiàn)值整體提升3.46%,改進(jìn)算法分類效果較傳統(tǒng)更優(yōu),準(zhǔn)確率、召回率和加權(quán)調(diào)和平均值有提升。

關(guān)鍵詞:旅游推薦;SVM;分類器;Bootstrapping

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)09-0198-02

1 引言

隨著旅游產(chǎn)業(yè)的快速發(fā)展,旅游客戶呈爆發(fā)式增長(zhǎng),旅游網(wǎng)站普遍,旅游評(píng)論數(shù)據(jù),存在信息超載,情感表象不明確等問(wèn)題使得適宜旅游成為難題,尋找有效旅游信息顯得尤其重要。如何通過(guò)旅游評(píng)論信息實(shí)現(xiàn)精準(zhǔn)旅游推薦成為重點(diǎn)及熱點(diǎn),吸引許多專家學(xué)者探討。其中文獻(xiàn)[1]提出基于上下文感知的旅游推薦算法,將上下文信息引入推薦系統(tǒng),該算法雖成功解決信息過(guò)載的問(wèn)題,但沒(méi)有考慮用戶情緒信息,不能精確的判斷上下文情感傾向。文獻(xiàn)[2]提出基于情景上下文與信任關(guān)系的推薦算法,采用綜合考慮信任度和情景上下文信息推舉策略,該算法雖解決現(xiàn)有旅游推薦個(gè)性化不足的問(wèn)題,但沒(méi)有分析情感因素對(duì)旅游推薦的影響。文獻(xiàn)[3]提出基于標(biāo)簽的協(xié)同過(guò)濾算法,該算法用景點(diǎn)特征標(biāo)簽描述用戶興趣特征,根據(jù)用戶興趣標(biāo)簽找到相似用戶群,通過(guò)協(xié)同過(guò)濾的方法為用戶推薦感興趣的景點(diǎn),該算法雖結(jié)合協(xié)同過(guò)濾算法與基于標(biāo)簽內(nèi)容的推薦算法兩種算法的優(yōu)勢(shì),改善了推薦效果,對(duì)前期用戶的情感分析效果不佳。針對(duì)以上問(wèn)題,本文提出基于SVM與Bootstrap-ping融合的旅游評(píng)論文本情感分析算法進(jìn)行分析。

2 算法實(shí)現(xiàn)

2.1 內(nèi)容提取

本文通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)[4],對(duì)旅游的評(píng)論數(shù)據(jù)進(jìn)行采集,經(jīng)整合得到點(diǎn)評(píng)文本數(shù)據(jù)集,作為實(shí)驗(yàn)的測(cè)試及訓(xùn)練數(shù)據(jù)。

2.2 SVM實(shí)現(xiàn)S-B分類器構(gòu)建

本文利用SVM支持向量機(jī)[5]構(gòu)建小樣本S-B分類器,構(gòu)建過(guò)程分為四步,其中第一步利用ICTCLAS提取文本特征,第二步,使用IF-IDF計(jì)算詞權(quán)值以進(jìn)行文本特征表示,第三步,通過(guò)歸一化處理消除指標(biāo)差異,最后通過(guò)超平面劃分,從而實(shí)現(xiàn)小樣本分類器構(gòu)建。

2.2.1 特征提取

特征提取是將文本進(jìn)行分詞然后再提取有屬性、有情感詞的過(guò)程。本文采用中科院研發(fā)的ICTCLAS分詞系統(tǒng)實(shí)現(xiàn)文本分詞。分詞后,由于停用詞對(duì)股評(píng)分析沒(méi)有意義,為減少對(duì)文本干擾,加速處理速度,本文在進(jìn)行特提取前,先將切分后得到的停用詞從數(shù)據(jù)集中去除。然后進(jìn)行特征提取。對(duì)于文本特征提取,本文使用基于Java版本的ICTCLAS4J,其使用MyLexi-con類描述分詞模塊。

2.2.2 文本特征表示

經(jīng)特征提取后,得到多維特征詞集,然后采用特征抽取對(duì)多維特征詞集進(jìn)行降維。本文采用Topic Modeling的原理,利用映射方法將高緯度空間映射到低維空間,從而實(shí)現(xiàn)降維,維度衡量通過(guò)計(jì)算詞的權(quán)值進(jìn)行,采用TF-IDF公式對(duì)特征集進(jìn)行計(jì)算。如式(1)所示。

經(jīng)過(guò)TF-IDF計(jì)算詞的權(quán)值后,從點(diǎn)評(píng)特征集D選出具有代表性特征詞集,再對(duì)其進(jìn)行特征抽取。用構(gòu)建的情感詞典最終實(shí)現(xiàn)降維,得到具有代表性的特征詞典。

2.2.3 歸一化處理

對(duì)于不同的情感詞往往具有不同的分析指標(biāo),直接影響到分析的結(jié)果,為了消除指標(biāo)之間影響,本文采用標(biāo)準(zhǔn)歸一化和最大最小歸一化對(duì)上述結(jié)果進(jìn)行標(biāo)準(zhǔn)化處理,以解決指標(biāo)之間的可比性。經(jīng)歸一化處理后將情感詞典限制在本文需要的一定范圍內(nèi),以消除奇異樣本導(dǎo)致的不良影響,保證各指標(biāo)處于同一量級(jí),從而得到小樣本分類器。

2.2.4 超平面劃分

旅游點(diǎn)評(píng)集D經(jīng)過(guò)上述三步處理后,得到D1和D2數(shù)據(jù)集,其中訓(xùn)練集D1(包含樣本特征集S)將用于構(gòu)建S-B分類器,D2測(cè)試集,用于模型測(cè)試。

經(jīng)處理后得到的樣本特征詞集S,采用超平面進(jìn)行樣本集劃分,進(jìn)而構(gòu)建一個(gè)小規(guī)模分類器,確定正反面(即推薦與不推薦),如式(5)所示。

2.3Bootstrapping重構(gòu)S-B分類器

在傳統(tǒng)的SVM[6]文本分類算法中,構(gòu)建小規(guī)模分類器,并用此處理大規(guī)模待處理文本U,采用計(jì)算語(yǔ)義相似度的方法處理訓(xùn)練集D1中剩余的大規(guī)模待處理文本U。由于構(gòu)建的分類器規(guī)模較小,其性能很難得到可靠的保障。本文基于以上問(wèn)題提出引入Bootstrapping的本體標(biāo)注算法[7]實(shí)現(xiàn)基于小規(guī)模分類器的樣本擴(kuò)展,利用樣本特征詞集S構(gòu)建好的小規(guī)模分類器,循環(huán)地將大規(guī)模待處理文本U擴(kuò)展到分類器中,使得分類器擴(kuò)大到一定規(guī)模,且足以可靠地完成下一步測(cè)試集的測(cè)試工作。

2.4 模型評(píng)價(jià)

傳統(tǒng)SVM算法中的模型評(píng)價(jià)其評(píng)價(jià)效果和衡量準(zhǔn)確率十分出色,為得到有效的分析結(jié)果,本文采用同SVM相同模型評(píng)價(jià)方法,即使用召回率(Recall)、準(zhǔn)確率(Precision)和F值來(lái)衡量改進(jìn)算法的旅游點(diǎn)評(píng)效果,其計(jì)算公式如式(9)所示。

3 實(shí)驗(yàn)結(jié)果分析

本文采集上半年攜程與馬蜂窩旅游點(diǎn)評(píng)作為實(shí)驗(yàn)數(shù)據(jù),對(duì)傳統(tǒng)SVM算法[8]和本文所提出的改進(jìn)算法在相同實(shí)驗(yàn)環(huán)境就點(diǎn)評(píng)結(jié)果的召回率、準(zhǔn)確率和F值進(jìn)行分析評(píng)價(jià),結(jié)果如表l所示。

4 總結(jié)

基于旅游點(diǎn)評(píng)文章多文本形式與數(shù)據(jù)量龐大等問(wèn)題,本文提出SVM與Bootstrapping融合的算法對(duì)旅游點(diǎn)評(píng)文本進(jìn)行情感分析,本文先采用進(jìn)行采集,再使用SVM算法實(shí)現(xiàn)小樣本分類,然后采用Bootstrapping算法對(duì)小樣本數(shù)據(jù)進(jìn)行迭代學(xué)習(xí),形成大樣本數(shù)據(jù),最后使用評(píng)價(jià)模型對(duì)處理結(jié)果進(jìn)行評(píng)價(jià)。本算法除應(yīng)用于旅游推薦外,還可應(yīng)用于股評(píng)、智能推薦、輿情、市場(chǎng)監(jiān)管等方面。

參考文獻(xiàn):

[1]匡海麗,常亮,賓辰忠,等.上下文感知旅游推薦系統(tǒng)研究綜述[J].智能系統(tǒng)學(xué)報(bào),2019,14(4):611-618.

[2]沈記全,王磊,侯占偉,等,基于情景上下文與信任關(guān)系的旅游景點(diǎn)推薦算法[J].計(jì)算機(jī)應(yīng)用研究,2018,35(12):3640-3643.

[3]李雅美,王昌棟.基于標(biāo)簽的個(gè)性化旅游推薦[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2017,47(7):547-555.

[4]付哲,李軍.高性能正則表達(dá)式匹配算法綜述[Jl.計(jì)算機(jī)工程與應(yīng)用,2018,54(20):1-13.

[5]彭德焰,胡欣宇.基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J).物聯(lián)網(wǎng)技術(shù),2016,6(11):76-79.

[6]蕭嶸,王繼成,張福炎.支持向量機(jī)理論綜述[Jl.計(jì)算機(jī)科學(xué),2000,27(3):1-3.

[7]段宇鋒,朱雯晶,陳巧,等.樸素貝葉斯算法與Bootstrapping方法相結(jié)合的中文物種描述文本語(yǔ)義標(biāo)注研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014(5):83-89.

[8]莫倩,張渝杰,胡航麗,等,一種混合的股評(píng)觀點(diǎn)傾向性分析方法[J]。計(jì)算機(jī)工程與應(yīng)用,2011,47(19):222-225.

【通聯(lián)編輯:唐一東】

猜你喜歡
特征詞特征提取分類器
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
面向文本分類的特征詞選取方法研究與改進(jìn)
基于MED和循環(huán)域解調(diào)的多故障特征提取
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
江安县| 平武县| 司法| 博野县| 双柏县| 西充县| 昆山市| 扶风县| 潮安县| 房产| 错那县| 平和县| 沁源县| 叙永县| 陵川县| 寿宁县| 延津县| 资源县| 高陵县| 陕西省| 白朗县| 永仁县| 井研县| 巴青县| 洛浦县| 平乐县| 宝应县| 嘉义市| 连平县| 安新县| 桐梓县| 广水市| 徐水县| 佛山市| 固阳县| 丽水市| 花莲县| 双辽市| 沾化县| 华容县| 西峡县|