国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于微博內容的用戶興趣愛好分類模型

2015-08-26 02:47:51羅挺豪趙珓言杜健平唐建鵬陳榮欽
臺州學院學報 2015年3期
關鍵詞:詞庫博文分詞

高 哲,羅挺豪,趙珓言,杜健平,唐建鵬,陳榮欽

基于微博內容的用戶興趣愛好分類模型

高哲,羅挺豪,趙珓言,杜健平,唐建鵬,陳榮欽*

(臺州學院數學與信息工程學院,浙江臨海317000)

微博數據具有較好的價值,如何從海量的微博數據中自動提取用戶興趣愛好是智能推薦、微博營銷等重要基礎。在分析微博特征基礎上,采用基于微博內容的興趣愛好分類模型,通過構建興趣愛好詞典,并自動抓取微博信息進行分詞、匹配和統(tǒng)計,有效地分析出用戶的各種愛好興趣度。

微博內容;數據挖掘;興趣分類;微博營銷;分詞

微博作為一個基于用戶關系信息分享、傳播和獲取的平臺,具備速度快、信息量大、實時開放、實名制等特點,逐漸成為企業(yè)營銷的一個重要工具[1]。但微博用戶和信息規(guī)模往往很大,如截至2014年12月31日,Tw itter每月活躍用戶數為2.88億,新浪微博的月均活躍用戶數達1.757億,如何在海量的微博用戶中精準地定位用戶對象并進行智能推薦是微博營銷的關鍵問題。

企業(yè)營銷中需要考慮的一個重要問題是用戶的興趣愛好,因為它往往能夠直接反映用戶的購物趨向。興趣愛好一致的用戶,其購買的產品也往往具有較大的相似性,因此分析用戶的興趣愛好對智能推薦和微博營銷也具有重要意義。

1 相關研究

目前,已經有不少基于微博的用戶研究,盛宇[2]針對微博特定領域的用戶特征進行分析和分類,比如性別、地區(qū)、認證、博文數、轉發(fā)數、個人介紹、個人標簽、參與話題、博齡、關注度、互粉率等。王靜等人則研究了新浪微博的人氣用戶,針對名人具有關注數小,被關注數大的特征,分析了微博中的名人效應[3]。微博的核心用戶興趣相似性和挖掘也是研究的熱點[4-7],通過分析用戶所關注的人進行聚類和相似性分析,可以較好地確定興趣圈子[4]。余珊琳等人[5]則通過分析用戶瀏覽的主題網頁,在主題網頁的瀏覽時間,是否有回復來獲得用戶的興趣度,并通過興趣度的高低,采用基于粗糙K均值的用戶興趣度的用戶聚類方法對用戶進行聚類,同時實現(xiàn)對虛擬社區(qū)核心用戶的挖掘。陳海強等人則提出了基于興趣集中性的核心成員求解算法,并在豆瓣網的虛擬社區(qū)中進行了有效驗證[6]。

本文則針對微博內容能夠反映用戶興趣愛好的特點,直接對微博信息內容進行分析,從而進一步提取出用戶的興趣愛好并進行分析和統(tǒng)計。

2 興趣愛好分類模型

由于微博文本往往具有以下幾方面的特點:(1)短文本性:如新浪微博的字數限制在140個字符以內;(2)實時海量:隨著移動設備的普及,用戶隨時隨地都可能發(fā)布信息,如新浪微博每天均有數億條微博信息,信息傳播速度非常之快;(3)內容隨意:微博文本往往貼近生活,口語化較重,并充斥著各種網絡用語;(4)主動性:微博內容往往由用戶有感而發(fā),能表達用戶性格、情緒、興趣愛好等有利于營銷的重要信息;(5)話題性:用戶往往對某個共同話題持續(xù)地關注和回復,形成了上下文信息。本文從微博文本的特點出發(fā),提出了興趣愛好分類模型,整個模型如圖1所示,分為幾個步驟:(1)抓取大量與興趣愛好相關的文章并進行分詞,形成興趣愛好詞典;(2)定時抓取活躍度較高的微博用戶,并提取出用戶的微博內容并進行分詞;(3)根據興趣愛好詞典,對用戶的微博關鍵詞進行匹配和統(tǒng)計,確定用戶的興趣愛好。

圖1 用戶興趣愛好分類模型圖

2.1數據預處理

微博的數據量太大,一般需要實現(xiàn)自動抓取技術[8],這也是數據預處理的第一個重要步驟。以新浪微博為例,目前常見的微博內容抓取方法有以下三種:

(1)獲得微博官方授權,并通過提供的API進行抓?。涸谖⒉┑拈_放平臺上提交身份信息等待審核通過、新建項目、提交項目文案等資料、等待微博官方的審核、審核通過并開放特定權限。該方法的優(yōu)點是官方授權,數據質量有保障,系統(tǒng)維護方便等。缺點是要通過官方的認證審核、流程長、手續(xù)多、權限?。ú糠謹祿涌谛枰召M),限制多(如接口調用的頻率限制,每分鐘只能請求次數有限)。

(2)通過直接訪問用戶主頁,抓取源代碼:通過訪問用戶頁面源碼,并用特定的正則表達式來匹配出需要抓取的內容。優(yōu)點是實現(xiàn)方便,不受官方權限的限制,可以及時抓取微博數據,缺點是部分微博內容需要用戶登錄才能訪問,微博樣式更新后需要及時的更新正則表達式去匹配新的網站樣式。

(3)對第二種方法進行改進,先模擬登錄,再訪問用戶主頁,抓取源代碼:根據微博網站請求加密的規(guī)則,加密數據,然后再向微博的服務器發(fā)送訪問請求。優(yōu)點是可以抓取所有登錄用戶可以訪問到的數據,數據不受限制。缺點是頻繁請求會造成微博服務器的壓力,所以官方抵制這樣的做法,因此微博官方會比較頻繁的修改加密,數據請求方式,容易造成模擬登錄的失敗而導致數據抓取的失敗。

本文主要結合第(2)和(3)兩種方式進行抓取,首先嘗試方式(2)獲取數據,在失敗的情況下再嘗試方式(3),數據抓取后,還需要進行一定的處理。主要包括:

(1)字體處理:通過逐字在繁體字庫中進行二分查找將繁體字轉換為簡體字;

(2)文本過濾:微博內容中可能存在表情、圖片、視頻、語音等信息,對其進行過濾處理。

最后對數據進行中文分詞處理,主要的技術有:

(1)基于字典、詞庫匹配的分詞方法;

(2)基于詞頻度統(tǒng)計的分詞方法;

(3)基于知識理解的分詞方法等。

目前常見的分詞工具有:Lucene、ICTCLAS、IKAnalyzer、Paoding等,本文基于ICTCLAS進行中文分詞。

2.2興趣愛好詞庫構建

預先設置好各種興趣愛好類型如:體育、動漫、戶外運動、搞笑、攝影、旅游、星座、汽車、游戲、電影、電視劇、繪畫、美食、股票、購物、釣魚、閱讀、音樂、動漫、電影、音樂等,并對各種興趣愛好從互聯(lián)網上抓取相關的文章,隨后對文章進行分詞,提取出數量最多的名詞(數據表明名詞更能反映興趣愛好),如與“動漫”相關的詞語可能有“七龍珠”、“佩恩”、“宇智波”、“火影”等,與攝影相關的詞語可能有“光圈”、“光學”、“光源”、“光照”等。隨后對詞語根據詞頻進行排序,保留詞頻最高的詞語并加入相應的興趣愛好詞庫,對于各種興趣愛好都相關的詞語根據關聯(lián)度進行排序并剔除關聯(lián)度較大的詞語,因為它們不能更好的區(qū)分出興趣愛好,如:“范圍”、“范疇”、“藍色”、“行業(yè)”、“行為”等。

2.3興趣愛好挖掘和分類

首先需要對用戶的微博內容進行中文分詞,然后提取其中的名詞并統(tǒng)計其詞頻,對各個詞語在愛好詞庫中進行搜索,若命中則相應的愛好值遞增,最后對愛好結果進行排序確定微博內容的愛好值。如某用戶的微博內容中出現(xiàn)6次“火影”,4次“佩恩”,2次“光圈”,則其動漫的愛好值為10,而攝影的愛好值為2。

通過對用戶所有的微博內容進行分析,便可以確定每個用戶各種愛好值,根據愛好值進行排序后,便可以從中選擇最有興趣的用戶,從而起到精確定位用戶的功能。具體步驟為:

dealContent(content,home_url)

//對微博內容content進行分詞

String data=Nlpir.ParagraphProcess(content);

//對分詞結果通過正則表達式篩選出名詞:

Pattern pattern=Pattern.com pile("([\S]*/[n][\S]*)");

Matcher m atcher=pattern.m atcher(data);

//對名詞結果進行排序并合并:

Collections.sort(listResult);

//根據分詞結果比對字典詞庫:

hobbyResultMap.put(map.get("hobby");

//更新愛用戶愛好結果:

updateResult(hobbyResult,home_url,hobbyResultMap.get(hobbyResult),dbUtil);

在處理愛好值時,以愛好詞在該用戶總有效詞中所占的比例為重要指標,從而避免微博內容長短對結果產生的影響。如A用戶的某愛好詞是10,而總有效詞是40,B用戶的該愛好詞是30,但總有效詞是300,那么對于該愛好來說,雖然A用戶的值較小,但一般情況下認定A對該愛好更甚,因為該愛好詞所占的比例更大。

2.4結果展示

給定某一個微博平臺用戶名或者主頁地址,模型將從微博平臺獲取到相應的微博文本信息,經過分詞和統(tǒng)計后,匹配相應的興趣愛好,并對這些興趣愛好進行排序、篩選,最終形成用戶的興趣愛好度,表1給出了部分用戶的興趣愛好值。

另外,給定任何一段微博文本,模型也能將其分詞后,統(tǒng)計出各種興趣愛好,并與其他用戶進行匹配,獲得與該微博文本興趣相似度類似的用戶,從而起到智能推薦的作用。

表1 興趣愛好結果示例

3 總結

本文研究了微博內容的特點,通過構建興趣愛好詞典,自動抓取微博內容并進行分詞、匹配和統(tǒng)計,結果表明能有效的分析出用戶各種愛好的興趣度,為微博用戶智能推薦、微博營銷等奠定良好的基礎。

[1]朱濤.微博營銷的理論基礎和傳播策略[J].文化經濟,2011(24):275-277.

[2]盛宇.微博特定領域用戶外在特征研究——以新浪微博學術類用戶為例[J].情報雜志,2012(12):98-103.

[3]王靜,王地龍.基于數據挖掘的微博人氣用戶特征分析與研究[J].數字通信,2013(2):17-18.

[4]林曉麗,胡可可,胡青.基于Python的微博用戶關系挖掘研究[J].情報雜志,2014(6):145-148.

[5]余珊琳,鐘紹輝.基于粗糙K一均值用戶興趣的聚類算法[J].電腦知識與技術,2013(5):3537-3540.

[6]陳海強,程學旗,劉悅.基于用戶興趣的尋找虛擬社區(qū)核心成員的方法[J].中文信息學報,2009(3):89-94.

[7]何黎,何躍,霍葉青.微博用戶特征分析和核心用戶挖掘[J].信息系統(tǒng),2011(11):121-125.

[8]孫曉,葉嘉麒,唐陳意,等.基于多策略的新浪微博大數據抓取及應用[J].合肥工業(yè)大學學報(自然科學版),2014(10):1210-1215.

(責任編輯:耿繼祥)

The Interest Classification M odel of Users Based on M icro-blog Content

GAO Zhe,LUO Tinghao,ZHAO Jiaoyan,DU Jianping,TANG Jianpeng,CHEN Rongqin*
(School of Mathim atics and Inform ation Engineering,Taizhou University,Linhai 317000,China)

The data of Micro-blog are much useful.How to obtain user’s interest from big m icro-blog data is the basis of intelligent recommendation and m icro-blog marketing.By analyzing the characteristics of m icro-blog content,the content-based interest c lassification model is adopted.It can effectively analyze the user’s interest construcing an interest dictionary,automatically acquires the m icro-blog content,segments and matches the keywords.

m icro-blog content;data m ining;iInterest classification;m ic ro-blog marketing;w ord segm entation

10.13853/j.cnki.issn.1672-3708.2015.03.004

2015-04-23;

2015-05-11

簡介:陳榮欽(1979-),浙江臺州人,講師,碩士,主要從事圖形圖像研究。

猜你喜歡
詞庫博文分詞
第一次掙錢
結巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
誰和誰好
值得重視的分詞的特殊用法
詞庫音系學的幾個理論問題芻議
英語知識(2016年1期)2016-11-11 07:07:54
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
打電話2
環(huán)境變了,詞庫別變
電腦迷(2014年14期)2014-04-29 00:44:03
高考分詞作狀語考點歸納與疑難解析
QQ手機輸入法如何導入分類詞庫
電腦迷(2012年15期)2012-04-29 17:09:47
大港区| 洱源县| 卢湾区| 鹤岗市| 夏河县| 乐业县| 阿拉善左旗| 南溪县| 繁峙县| 沅陵县| 永仁县| 斗六市| 专栏| 三江| 柯坪县| 喀喇| 山阳县| 广南县| 庆城县| 西城区| 库尔勒市| 张北县| 晋宁县| 漳浦县| 特克斯县| 琼海市| 双辽市| 迁安市| 铜梁县| 扎鲁特旗| 大方县| 望都县| 南丰县| 六枝特区| 平山县| 浦城县| 正安县| 中宁县| 军事| 大关县| 耒阳市|