国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

探究網(wǎng)絡(luò)用戶的數(shù)據(jù)挖掘行為

2014-04-29 00:44高超
中國電子商情 2014年12期
關(guān)鍵詞:決策樹數(shù)據(jù)挖掘特征

引言:伴隨著互聯(lián)網(wǎng)的飛速發(fā)展和用戶日益劇增的需求,關(guān)于網(wǎng)絡(luò)用戶的行為分析和數(shù)據(jù)挖掘研究從無到有的迅速的發(fā)展了起來。現(xiàn)在的輿論亂七八糟,為了引導(dǎo)輿論朝著正確的道路走下去,節(jié)約網(wǎng)絡(luò)用戶的上網(wǎng)時(shí)間,提讓用戶更好的訪問網(wǎng)站,我們對網(wǎng)絡(luò)用戶的數(shù)據(jù)行為進(jìn)行了如下探究。

前言:

網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘包含的內(nèi)容很多,有效的挖掘網(wǎng)絡(luò)信息不但可以增強(qiáng)網(wǎng)站的吸引力,還可以讓用戶更有效的利用網(wǎng)絡(luò)資源。和數(shù)據(jù)挖掘類似,社交網(wǎng)絡(luò)的用戶行為分析可以幫助決策者掌握用戶的行為特征,同時(shí)也能幫助決策者了解用戶的興趣變化,更好的發(fā)揮網(wǎng)絡(luò)的作用。

一、 數(shù)據(jù)挖掘和網(wǎng)絡(luò)用戶行為的概念

(一) 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘的另一種叫法數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases),簡稱KDD,由數(shù)據(jù)的清理,數(shù)據(jù)的集成,數(shù)據(jù)的選擇,數(shù)據(jù)的轉(zhuǎn)換,模式額發(fā)現(xiàn),模式的評(píng)估和知識(shí)的表示 七個(gè)部分組成。數(shù)據(jù)的集成,數(shù)據(jù)的選擇和數(shù)據(jù)的轉(zhuǎn)換可以劃分為一個(gè)部分,成為數(shù)據(jù)預(yù)處理階段,數(shù)據(jù)的預(yù)處理階段的效果將直接影響著數(shù)據(jù)挖掘質(zhì)量的好壞。模式的發(fā)現(xiàn)是中間階段,是運(yùn)用數(shù)據(jù)挖掘算法從數(shù)據(jù)庫中提取有效模式的階段。

常用的數(shù)據(jù)挖掘方法包括支持向量機(jī),K-Means聚類算法,聚類分析。

(二) 網(wǎng)絡(luò)用戶行為的概念

網(wǎng)絡(luò)用戶行為是指網(wǎng)絡(luò)用戶在使用網(wǎng)絡(luò)信息和資源時(shí)所表現(xiàn)出來了規(guī)律性的行為特征。對網(wǎng)絡(luò)用戶行為的研究目的就是通過一些算法和軟件對網(wǎng)絡(luò)用戶行為進(jìn)行研究分析,發(fā)現(xiàn)規(guī)律特征,進(jìn)而利用這些特征預(yù)測未來的網(wǎng)絡(luò)用戶行為,同時(shí)通過這些網(wǎng)絡(luò)用戶規(guī)律優(yōu)化網(wǎng)絡(luò)信息。

網(wǎng)絡(luò)用戶行為的特點(diǎn):一方面是它的主觀能動(dòng)性太強(qiáng),牽扯到的東西很多,它不受地域的限制,用戶之間能自由的發(fā)表意見進(jìn)行交流;一方面它知識(shí)豐富,計(jì)劃跟不上變化,用戶可以隨意的上傳資料行為信息豐富多彩;一方面網(wǎng)絡(luò)用戶特點(diǎn)鮮明,比較偏好的特征和用戶的習(xí)慣不受時(shí)間和空間的限制;一方面隱蔽性比較好,網(wǎng)絡(luò)用戶在訪問信息的時(shí)候可以隱藏自己的真實(shí)身份,并且物理傳遞介質(zhì)也具有隱藏性;最后一方面,它即存在隨機(jī)性又存在規(guī)律性,用戶行為分析就是通過用戶行為的這一特征進(jìn)行分析的。

二、 數(shù)據(jù)挖掘和用戶行為分析的聯(lián)系

不同的人有不同的興趣愛好,網(wǎng)絡(luò)用戶也是這樣的,因?yàn)榫W(wǎng)絡(luò)用戶的社會(huì)經(jīng)歷文化程度等的不同,所以網(wǎng)絡(luò)用戶的行為模式各有不同。而數(shù)據(jù)挖掘是從眾多數(shù)據(jù)中選取有用知識(shí)的過程,這些有用的數(shù)據(jù)往往是被隱藏起來的。同時(shí),數(shù)據(jù)挖掘的對象并不單一,任何數(shù)據(jù)集合都可以通過數(shù)據(jù)挖掘方法照出統(tǒng)一的規(guī)律。

數(shù)據(jù)挖掘在用戶行為分析過程中的應(yīng)用可以分為以下幾種:

(一) 推薦系統(tǒng)

推薦系統(tǒng)有兩部分組成,一部分是基于內(nèi)容的推薦,一部分是協(xié)同過濾推薦?;趦?nèi)容的推薦它依賴產(chǎn)品和信息的說明,在各大購物網(wǎng)站出現(xiàn)的頻率最高。如京東,天貓,巴里巴巴等商城。現(xiàn)階段在很多視頻網(wǎng)站也得到了廣泛的應(yīng)用,比如奇異,優(yōu)酷,土豆等網(wǎng)站。基于內(nèi)容的方法它是以信息論為理論基礎(chǔ)的,以關(guān)鍵詞和用戶比較感興趣的信息作為模型,然后再通過其他的軟件計(jì)算出用戶對于其他信息的興趣程度,然后再將符合用戶興趣程度的信息傳遞給用戶,而協(xié)同過濾是基于模型的,它是通過尋找相似的用戶進(jìn)行推廣的。

(二) 檢測入侵和防止入侵

入侵檢測和預(yù)防系統(tǒng)分為基于特征的檢測和基于異常的檢測?;谔卣鞯臋z測在檢測網(wǎng)絡(luò)流量異常上應(yīng)用比較廣泛,假如檢測異常的結(jié)果與標(biāo)準(zhǔn)模型相符合,那么該系統(tǒng)就會(huì)采取相關(guān)的措施終止該系統(tǒng)異常的運(yùn)行。這種不具有動(dòng)態(tài)性,只能對已經(jīng)存在的異常進(jìn)行檢測,對于新異常是不能進(jìn)行檢測的。而基于異常的檢測是根據(jù)正常的 行為模式特點(diǎn),如果系統(tǒng)存在異常,那么會(huì)把異常同正常行為特征相比較,進(jìn)而進(jìn)行檢測和預(yù)防。數(shù)據(jù)挖掘算法就是應(yīng)用在正常行為特征和異常特征的訓(xùn)練匹配中。

(三) 零售和電信業(yè)

在零售業(yè),數(shù)據(jù)挖掘的應(yīng)用也是很廣泛的。它用來分析處理購買者的購買行為,總結(jié)出顧客的購買模式,同時(shí)將顧客以后可能要購買的東西擺放在明顯的位置,以便顧客方便拿取,同時(shí)提高商品的銷售量。

在電信業(yè)方面,主要是幫助用戶防盜,幫助電信運(yùn)營商判斷用戶行為模式,從而提高電信運(yùn)行商的服務(wù)質(zhì)量。

數(shù)據(jù)挖掘在用戶行為分析上的應(yīng)用大體可以分為兩個(gè)方面:一方面,幫助用戶發(fā)現(xiàn)興趣特征,然后根據(jù)這些用戶特征建立用戶的興趣模型和先關(guān)的更新文件,這樣以后就可以利用數(shù)據(jù)挖掘出來的模型對以后用戶的興趣做出預(yù)判和揣測;另一方面,對用戶的興趣特征進(jìn)行識(shí)別,通過識(shí)別,然后對未來論壇和其他交流軟件上比較受關(guān)注的帖子重新置頂回歸。

三、 應(yīng)用最廣泛的數(shù)據(jù)挖掘算法

在數(shù)據(jù)挖掘算法中,應(yīng)用最廣的就是決策樹算法,它是一種歸納推理算法,它通過逼近離散值函數(shù)來對噪聲數(shù)據(jù)處理然后分析出表達(dá)式的方法來實(shí)現(xiàn)的。在這種方法中,表達(dá)式被稱為決策樹,也正是如此才被叫做決策樹算法的。

下面我們就談一下決策樹算法的特點(diǎn):一方面,種方法便于理解,因?yàn)閺氖陆虅?wù)處管理的老師并不了解數(shù)據(jù)挖掘相關(guān)的知識(shí),而決策樹算法非常形象的通過樹形結(jié)構(gòu)表示最后的分類結(jié)果。它符合人們認(rèn)識(shí)事物的一般規(guī)律;一方面決策樹算法的計(jì)算量小,復(fù)雜程度小,這樣就能提高工作人員的效率嗎,能在短時(shí)間內(nèi)解決更多的問題;最后一方面,決策樹算法能夠主次分明的表達(dá)出重點(diǎn),屬性的重要程度能被一眼看出來。

結(jié)語

隨著信息技術(shù)和通信技術(shù)的飛速發(fā)展,數(shù)據(jù)挖掘幾乎出現(xiàn)在了所有的領(lǐng)域。在解決重大策略的時(shí)候,數(shù)據(jù)挖掘往往作為一種重要的手段。它能從萬千的數(shù)據(jù)中找出有價(jià)值的信息,為決策和方案的制定提供數(shù)據(jù)和理論支持。

網(wǎng)絡(luò)用戶的行為中蘊(yùn)含著萬千的信息,不但用來反映用戶的興趣,還用來對未來的發(fā)展趨勢進(jìn)行預(yù)判,雖然數(shù)據(jù)挖掘算法一直被創(chuàng)新,但是提高數(shù)據(jù)挖掘算法的效率的任務(wù)依舊艱巨,面臨著諸多挑戰(zhàn)。另外用戶行為分析系統(tǒng)還僅處在系統(tǒng)分析階段,而具體得到應(yīng)用還有很長的路要走,需要我們對此加大研究力度。

參考文獻(xiàn)

[1]陳克寒,韓盼盼,吳健.基于用戶聚類的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J].計(jì)算機(jī)學(xué)報(bào).2013(02).

[2]高彬.大學(xué)生社交網(wǎng)站使用動(dòng)機(jī)研究——以人人網(wǎng)為例[J].學(xué)理論.2012(17).

[3]楊亮,林原,林鴻飛.于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J].中文信息學(xué)報(bào).2012(01).

[4]李澤峰,王煜.基于RBF神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則的Web文本分類規(guī)則獲取方法[J].圖書情報(bào)工作.2012(10).

(作者單位:長沙醫(yī)學(xué)院)

作者簡介:高超,男,出生于1982年3月,籍貫湖南省長沙市,就職于長沙醫(yī)學(xué)院,講師職稱

猜你喜歡
決策樹數(shù)據(jù)挖掘特征
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
如何表達(dá)“特征”
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
不忠誠的四個(gè)特征
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
抓住特征巧觀察
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于決策樹的出租車乘客出行目的識(shí)別
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用