国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新聞聚合系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)初探

2013-12-29 00:00:00朱然李德華
電腦知識(shí)與技術(shù) 2013年1期

摘要:互聯(lián)網(wǎng)的迅速發(fā)展以及信息的海量增長給數(shù)據(jù)挖掘技術(shù)提供了一個(gè)廣闊的舞臺(tái),數(shù)據(jù)挖掘技術(shù)在信息檢索和個(gè)性化推薦中占據(jù)越來越重要的地位。 該文描述了一個(gè)新聞聚合系統(tǒng)的組成結(jié)構(gòu)和基本算法,包括一些文本模型和推薦算法等,可以有效地從海量信息中篩選出人們感興趣的信息。在此基礎(chǔ)上,該文提出了一種基于特征模型的推薦算法。特征模型將用戶的興趣偏好特征與新聞的屬性特征統(tǒng)一起來,方便表示和計(jì)算,為進(jìn)一步地挖掘用戶真實(shí)興趣偏好、更加準(zhǔn)確地進(jìn)行新聞推薦提供了良好的基礎(chǔ)。

關(guān)鍵詞:數(shù)據(jù)挖掘;文本模型;主題模型;特征模型;協(xié)同過濾

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)01-0148-04

科技改變著人們的生活。從前的那種早餐之后悠閑地翻閱報(bào)紙關(guān)心世界大事、晚上回家打開電視了解重要新聞的田園牧歌式的日子似乎離我們?cè)絹碓竭h(yuǎn),人們?cè)絹碓蕉嗟厥褂檬謾C(jī)、筆記本、平板電腦隨時(shí)隨地地訪問互聯(lián)網(wǎng)瀏覽自己感興趣的新聞?;ヂ?lián)網(wǎng)作為新興媒體,集免費(fèi)、即時(shí)、方便、互動(dòng)等諸多優(yōu)勢于一身,成為人們獲取新聞的主要手段,大有把電視、廣播、報(bào)紙、雜志之類的傳統(tǒng)新聞媒體掃進(jìn)歷史博物館之勢。盡管如此,盡管人們掌握著前所未有的海量信息,但仍感到前所未有的饑渴,因?yàn)樵诤A啃畔⒅蝎@取有用的信息實(shí)在猶如大海撈針一班。面對(duì)海量信息,人們感到無所適從。因此在這種環(huán)境下,數(shù)據(jù)挖掘技術(shù)被人們寄予厚望,成為當(dāng)前互聯(lián)網(wǎng)技術(shù)的研究熱點(diǎn)[22]。

基于這種情況,該文提出了一種新聞聚合系統(tǒng)的設(shè)計(jì)方案,旨在利用數(shù)據(jù)挖掘技術(shù),從海量新聞中為用戶發(fā)現(xiàn)他們真正感興趣的新聞。作為新聞聚合系統(tǒng)的概述論文,該文做了如下工作:首先,描述了新聞聚合系統(tǒng)的組成結(jié)構(gòu)和工作流程;其次,概述了該系統(tǒng)運(yùn)行過程中使用的數(shù)據(jù)挖掘技術(shù);最后,展望了該系統(tǒng)的應(yīng)用前景與接下來的工作。

1 系統(tǒng)結(jié)構(gòu)

一個(gè)新聞聚合系統(tǒng)需要完成如下任務(wù):收集互聯(lián)網(wǎng)上的新聞文檔;對(duì)新聞按照主題分類;為用戶興趣偏好并推送新聞;收集用戶反饋信息。因此根據(jù)這些任務(wù)可以將系統(tǒng)工作流程分為四個(gè)階段:新聞收集階段、新聞分類階段、用戶評(píng)估及新聞推薦階段、用戶反饋。如圖1所示。在新聞收集階段,系統(tǒng)通過一個(gè)爬蟲組件從各個(gè)新聞?wù)军c(diǎn)抓取最近新聞,將新聞按照一定的格式處理之后作為文檔保存在本地。之后,一個(gè)新聞分類組件會(huì)將這些文檔按照主題分到不同類別,如體育類,財(cái)經(jīng)類,軍事類,科技類等等。應(yīng)該注意到,一篇新聞?dòng)锌赡芡瑫r(shí)屬于不同的類別[21]。另外,我們還需要對(duì)用戶的興趣偏好進(jìn)行建模,以讓系統(tǒng)了解到用戶對(duì)哪些主題的新聞感興趣,這樣系統(tǒng)才能為用戶推薦其感興趣的新聞。當(dāng)用戶第一次使用系統(tǒng)時(shí),系統(tǒng)無法知道用戶的興趣,因此可以讓用戶選擇幾個(gè)感興趣的主題。最后,系統(tǒng)根據(jù)用戶的興趣偏好模型,運(yùn)行推薦算法,篩選出與用戶興趣偏好最匹配的一組新聞,推薦給用戶。之后,系統(tǒng)通過顯示或者隱式的方式收集用戶的反饋信息。用戶使用系統(tǒng)一段時(shí)間后,通過用戶反饋機(jī)制,系統(tǒng)可以更加精確地了解到用戶興趣,從而作出更加準(zhǔn)確地推薦決策。

2 數(shù)據(jù)挖掘技術(shù)

2.1 新聞收集階段

在新聞收集階段,系統(tǒng)需要對(duì)各個(gè)新聞?wù)军c(diǎn)的權(quán)威性進(jìn)行評(píng)估。對(duì)權(quán)威度高的站點(diǎn),系統(tǒng)會(huì)收集較多的新聞,對(duì)權(quán)威度低的站點(diǎn),我們會(huì)收集較少的新聞,甚至不收集該站點(diǎn)新聞。由于Web 不僅由頁面組成,而且還包含了從一個(gè)頁面指向另一個(gè)頁面的超鏈接,而超鏈接包含了大量人類潛在的語義,它有助于自動(dòng)分析出權(quán)威性語義。因此通過連接分析,對(duì)Web網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行挖掘,我們可以得到Web站點(diǎn)的權(quán)威度。[1]目前比較重要的鏈接分析算法有是PageRank算法和HITS算法。下面對(duì)PageRank算法做一個(gè)簡單介紹。

PageRank 的基本思想是:一個(gè)頁面被多次引用,則這個(gè)頁面很可能是重要的;一個(gè)頁面盡管沒有被多次引用;但被一個(gè)重要頁面引用;則這個(gè)頁面很可能是重要的;一個(gè)頁面的重要性被均分并被傳遞到它所引用的頁面。

我們考慮隨機(jī)網(wǎng)頁瀏覽者的行為。當(dāng)瀏覽者打開某個(gè)網(wǎng)頁之后,如果該網(wǎng)頁包含三個(gè)鏈接,他會(huì)以相同的概率訪問這三個(gè)網(wǎng)頁,即他跳轉(zhuǎn)的任一一個(gè)鏈接的概率是1/3。如果該網(wǎng)頁不存在鏈接,則他會(huì)在地址欄中隨機(jī)輸入一個(gè)地址進(jìn)行訪問。也就是說,如果一個(gè)Web圖中包含N個(gè)節(jié)點(diǎn),則瀏覽者以1/N的概率訪問Web圖中的任意一個(gè)節(jié)點(diǎn)。因此我們可以把隨機(jī)網(wǎng)頁瀏覽者的行為看作是一個(gè)馬爾可夫鏈,每一個(gè)網(wǎng)頁對(duì)應(yīng)于該鏈的一個(gè)狀態(tài)。一個(gè)馬爾可夫鏈由一個(gè)N×N的概率轉(zhuǎn)移矩陣P刻畫[2],其中每個(gè)元素在[0,1]之間,并且P中每一行的元素之和為1,每個(gè)元素值Pij代表瀏覽者在瀏覽網(wǎng)頁i之后,會(huì)以pij的概率訪問網(wǎng)頁j。

德阳市| 喀喇| 临夏县| 富阳市| 亚东县| 重庆市| 浦县| 汪清县| 禹州市| 吉林市| 资源县| 庄河市| 万年县| 清涧县| 乌海市| 赤壁市| 彝良县| 石泉县| 攀枝花市| 大同市| 通化县| 瑞安市| 沧州市| 深州市| 贡觉县| 安溪县| 靖州| 邵阳市| 乌兰察布市| 巴林左旗| 镇康县| 霍林郭勒市| 遵义市| 晋城| 章丘市| 金川县| 德安县| 修水县| 新巴尔虎右旗| 宜黄县| 潜山县|