国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

互聯(lián)網用戶的信息行為分析

2014-04-29 16:41:52鄶淑娥
中國管理信息化 2014年19期
關鍵詞:行為互聯(lián)網用戶

鄶淑娥

[摘 要] 隨著互聯(lián)網的發(fā)展及Web 2.0技術的廣泛應用, 互聯(lián)網業(yè)務得到迅速發(fā)展,互聯(lián)網已經成為人們獲取信息、表達心情、交流意見的重要場所。在互聯(lián)網智能化的過程中,互聯(lián)網用戶行為分析是一項非常重要的工作?;ヂ?lián)網用戶行為分析,從廣義上講,涉及互聯(lián)網用戶的所有行為活動,包括互聯(lián)網心理活動、互聯(lián)網社會活動和互聯(lián)網訪問活動;從狹義上講,主要涉及用戶訪問互聯(lián)網的行為規(guī)律。本文主要對互聯(lián)網用戶行為進行探索性的分析,闡述了用戶行為分析系統(tǒng)的基本需求、實現(xiàn)步驟和體系框架,以及設計和實現(xiàn)系統(tǒng)過程中應用一些關鍵技術。

[關鍵詞] 互聯(lián)網;用戶;信息;行為;分析

[中圖分類號] TP393.4 [文獻標識碼] A [文章編號] 1673 - 0194(2014)19- 0092- 03

1 引 言

互聯(lián)網用戶行為是指互聯(lián)網用戶的特點、構成及其在互聯(lián)網應用過程中行為活動上所表現(xiàn)出來的規(guī)律?;ヂ?lián)網用戶行為分析是研究互聯(lián)網用戶行為的學科,它屬于互聯(lián)網知識發(fā)現(xiàn)的范疇。與現(xiàn)實社會中的社會行為相對應,我們把發(fā)生在虛擬社會中的行為稱為“互聯(lián)網行為”?;ヂ?lián)網行為可定義為:行為主體為了實現(xiàn)某種特定的目標,采用互聯(lián)網作為手段和方法而進行的有意識的社會活動。它具有社會行為的一般特征和基本要素。但由于互聯(lián)網行為存在于虛擬空間中,所以這種在互聯(lián)網中形成的信息交流空間又具有不同于物理空間的特殊性,故互聯(lián)網用戶行為有其自身的特點即知識含量高,升級快?;ヂ?lián)網行為的主體用戶,必然具有一定的互聯(lián)網技術,具備利用互聯(lián)網的能力?;ヂ?lián)網上信息以數(shù)字化的形式存在,用戶在數(shù)據(jù)傳輸過程中改變信息的內容和形式而不留任何痕跡。

互聯(lián)網用戶行為是一個廣義的概念,是用戶在互聯(lián)網上表現(xiàn)的活動方式。關于互聯(lián)網用戶行為,一直沒有比較規(guī)范的定義和分類。根據(jù)研究的側重不同,可以從多個角度進行分類?;ヂ?lián)網實驗室就中國目前互聯(lián)網用戶群進行研究,并從應用角度對互聯(lián)網用戶行為進行了分析和分類?;ヂ?lián)網用戶行為可分成五大類:信息獲取、溝通交流、休閑娛樂、電子服務、電子商務。依照上述行為分類,對互聯(lián)網用戶群體進行細分得出10類互聯(lián)網用戶人群:純信息互聯(lián)網用戶、純溝通互聯(lián)網用戶、基本互聯(lián)網用戶、純娛樂互聯(lián)網用戶、典型娛樂互聯(lián)網用戶、信息娛樂互聯(lián)網用戶、泛娛樂互聯(lián)網用戶、互聯(lián)網工作互聯(lián)網用戶、次全能互聯(lián)網用戶以及全能互聯(lián)網用戶。

2 互聯(lián)網用戶行為分析的過程

2.1 互聯(lián)網用戶行為分析的3個階段

(1)預處理階段:預處理過程是指各種可利用數(shù)據(jù)源的使用記錄、互聯(lián)網內容和結構以及信息行為模式的數(shù)據(jù)的提取過程。預處理過程是整個行為分析過程的基礎,主要包括使用記錄預處理、內容信息預處理和結構信息預處理。這個階段面臨很多難以解決的問題?;ヂ?lián)網用戶行為分析的常見模式如下:①統(tǒng)計分析;②關聯(lián)規(guī)則;③分類;④序列分析;⑤依賴模式;⑥聯(lián)系分析。

(2)模式分析階段:模式分析是處理的最后步驟,是對模式發(fā)現(xiàn)中不感興趣的規(guī)則或模式進行過濾。最常用的分析方法是知識的查詢機制。

(3)互聯(lián)網用戶行為的模式建立階段。

2.2 互聯(lián)網用戶行為分析的詳細步驟

(1)明確互聯(lián)網行為分析的具體目標。明確目標就是確定分析的目的。對問題和目標的明確描述是正確分析的先決條件。如果想提高直接郵件推銷的用戶回應,做法可能是“提高用戶響應率”,也可能是“提高一次用戶回應的價值”,這兩做法采用的模型幾乎是完全不同的,必須做出選擇。

(2)建立行為數(shù)據(jù)庫。建立數(shù)據(jù)庫連同數(shù)據(jù)分析和數(shù)據(jù)準備兩個步驟,構成行為發(fā)現(xiàn)的核心。數(shù)據(jù)準備工作大概要花去整個數(shù)據(jù)挖掘項目50%~90%的時間和精力??梢园呀?shù)據(jù)庫分成下面幾個部分:數(shù)據(jù)收集,數(shù)據(jù)描述,數(shù)據(jù)篩選,數(shù)據(jù)質量評估,數(shù)據(jù)清理、合并與整合、構建元數(shù)據(jù)、組建數(shù)據(jù)庫。

(3)分析數(shù)據(jù)。分析的目的是找到對預測輸出影響最大的數(shù)據(jù)字段和導出字段。

(4)準備數(shù)據(jù)。這是建立模型之前的最后一步。主要包括選擇變量、選擇記錄、創(chuàng)建新變量、轉換變量等工作。

(5)建立模型。建立模型是一個反復的過程。需要對不同的模型仔細考察,以判斷哪個模型對問題解決最有效。在尋找好的模型過程中學習到的東西會啟發(fā)對數(shù)據(jù)的修改和重組,甚至改變最初對問題的定義。

(6)評價和解釋模型。模型建立好之后,必須對其結果和價值做出評價。從測試中得到的準確率只對建立模型的數(shù)據(jù)有意義。因為在實際應用中,隨著應用數(shù)據(jù)的不同,模型的準確率肯定會發(fā)生變化。

3 互聯(lián)網用戶行為分析系統(tǒng)設計

互聯(lián)網用戶行為分析系統(tǒng)是支持互聯(lián)網用戶行為的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)過程的工具。構建合理的互聯(lián)網用戶行為分析系統(tǒng)模型是互聯(lián)網用戶行為分析首要考慮的問題。過去數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的研究重點往往放在局部的具體挖掘算法上,較少對整個系統(tǒng)構建進行分析。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)系統(tǒng)是一個有機的整體,各個部分之間有著密切的關系,某種算法是為特定的數(shù)據(jù)挖掘模塊服務的,如果不認真對系統(tǒng)結構進行分析,那么必然導致各種算法之間的重復工作,各種算法只有與其他模塊緊密結合,才能充分發(fā)揮作用。

3.1 基本目標

(1)能夠對大量的數(shù)據(jù)進行分析處理。

(2)能夠對多種類型的數(shù)據(jù)進行分析處理。

(3)具有較高的效率。

(4)用戶能夠參與分析挖掘的全過程。

(5)具有動態(tài)性。

(6)必須有效地組織和管理數(shù)據(jù)。

(7)能對所發(fā)現(xiàn)的模式進行解釋和評價。

3.2 設計的原則

設計原則主要有6個:開放性原則、規(guī)范性原則、擴展性原則、安全性原則、方便性原則和高效性原則。

3.3 基本功能

(1)發(fā)現(xiàn)互聯(lián)網用戶行為的特定模式,形成有價值的知識。

(2)發(fā)現(xiàn)互聯(lián)網用戶行為形成、存在的特點和變化的規(guī)律,提高資源配置水平。

(3)發(fā)現(xiàn)互聯(lián)網用戶行為的特點和規(guī)律,提高互聯(lián)網服務水平。

4 互聯(lián)網用戶行為分析數(shù)據(jù)的收集與預處理

4.1 數(shù)據(jù)的收集

4.1.1 互聯(lián)網用戶行為分析的數(shù)據(jù)源

利用準確全面可靠的目標數(shù)據(jù)源是互聯(lián)網用戶行為分析的關鍵。在互聯(lián)網行為分析中,數(shù)據(jù)能從服務器端、客戶機端、代理服務器端以及其他組織好的數(shù)掘庫中獲取。對于調查問卷,Web數(shù)字可信度更大,也便于統(tǒng)計分析。我們可以將行為分析的數(shù)據(jù)源分為4種類型。①內容數(shù)據(jù):Web頁面的真實數(shù)據(jù)。例如,Web頁面上用戶看到的數(shù)據(jù),包括文本、圖像和聲音等。②結構數(shù)據(jù):描述內容的組織結構的數(shù)據(jù)。例如,一個頁面到另一個頁面的超鏈接信息。③用戶使用記錄數(shù)據(jù):描述Web頁面使用模式的數(shù)據(jù)。例如,IP地址、訪問的頁面和時間等。④用戶輪廓:提供用戶訪問站點的統(tǒng)計信息。

4.1.2 數(shù)據(jù)源的分類和獲取

4.1.2.1 分類

從不同數(shù)據(jù)源收集的使用記錄等數(shù)據(jù)可以視為代表了整個互聯(lián)網流量中不同的行為模式,即從單用戶、單站點的行為到多用戶、多站點的行為。為了分析用戶行為,首先我們采用IP地址來標識互聯(lián)網用戶。這是一種常用且值得推薦的方法,它的優(yōu)點是:

(1)對于直接連接在互聯(lián)網上具有唯一IP地址的計算機,IP地址可以準確標識計算機及其來源。

(2)利用IP地址跟蹤計算機,文件(Cookie)跟蹤瀏覽器。同一IP地址的計算機有可能由于同時使用多種瀏覽器而保留有多個跟蹤文件(Cookie),因此IP地址更好地標識了單獨的計算機。但通過IP地址識別用戶也存在一些問題。例如在下列情況中,通過IP地址可能難以區(qū)分用戶:單口地址/多服務器會話(一個代理服務器可能會讓訪問同一網站的多個用戶使用同一IP地址);多IP地址/單服務器會話(一些ISP隨機指定一個用戶的每個請求一個IP地址):多IP地址/單用戶(一個用戶從不同機器訪問同一站點);多代理/單用戶(一個用戶使用多于一個瀏覽器,甚至在同一機器上,也被看作是多用戶)。

4.1.2.2 獲取

(1)通過日志獲取互聯(lián)網用戶行為記錄。日志主要包括Web服務器端、代理服務器端和客戶端的系統(tǒng)審計日志與應用日志。

(2)互聯(lián)網嗅探捕獲用戶的行為信息。在信息時代,捕獲互聯(lián)網數(shù)據(jù)包是收集互聯(lián)網信息的有效方法。目前攻擊計算機系統(tǒng)的行為多數(shù)是通過互聯(lián)網進行的,通過監(jiān)控、查看出入系統(tǒng)的互聯(lián)網數(shù)據(jù)包,來捕獲口令或全部內容P數(shù)據(jù)包捕獲,也稱P數(shù)據(jù)包嗅探(互聯(lián)網嗅探器,Sniffer)或P數(shù)據(jù)包攔截。首先把網卡設置于混雜模式(Miscellaneous Mode),通過使用互聯(lián)網嗅探技術實現(xiàn)對互聯(lián)網上傳輸?shù)臄?shù)據(jù)包的捕獲與分析。

互聯(lián)網嗅探技術原理:互聯(lián)網嗅探作為一種特殊的互聯(lián)網通訊技術,一般是通過對網卡的編程來實現(xiàn)互聯(lián)網通訊的,對網卡的編程通常使用套接字(Socket)方式來進行。通常的套接字程序只能響應與自己硬件地址相匹配的或是以廣播形式發(fā)出的數(shù)據(jù)幀,對于其他形式的數(shù)據(jù)幀,比如已到達互聯(lián)網接口但卻不是發(fā)給此地址的數(shù)據(jù)幀,互聯(lián)網接口在驗證投遞地址并非自身地址之后將不引起響應,也就是說應用程序無法收取到達的數(shù)據(jù)包。而互聯(lián)網嗅探技術的目的恰恰在于從網卡接收所有經過它的數(shù)據(jù)包,這些數(shù)據(jù)包既可以是發(fā)給它自身的也可以是發(fā)往別處的。P包分析是通過原始套接字來實現(xiàn)的。捕獲到的數(shù)據(jù)包并不僅僅是單純的數(shù)據(jù)信息,而是包含IP頭、TCP頭等信息頭的最原始的數(shù)據(jù)信息,這些信息保留了它在互聯(lián)網傳輸時的原貌。通過對這些在低層傳輸?shù)脑夹畔⒌姆治隹梢缘玫接嘘P互聯(lián)網的一些信息。由于通過互聯(lián)網嗅探捕獲得到的數(shù)據(jù)包數(shù)據(jù)經過了互聯(lián)網層和傳輸層的打包,因此需要根據(jù)其附加的幀頭對數(shù)據(jù)包進行協(xié)議分析。從TCP/IP通信模型來看,Web的通信協(xié)議HTTP是處于應用層,即HTTP的通信協(xié)議是封裝在TCP報文的“數(shù)據(jù)”項中,Web服務的默認通信端口為80;因此通過對數(shù)據(jù)包記錄數(shù)據(jù)進行解析,可探知Web訪問者的互聯(lián)網行為和進行跟蹤。

4.2 數(shù)據(jù)的預處理

4.2.1 數(shù)據(jù)凈化

數(shù)據(jù)凈化,也稱數(shù)據(jù)精簡。它是指刪除Web服務器日志中與行為分析無關的冗余的數(shù)據(jù)。

4.2.2 用戶身份識別

一般采用IP地址來標識用戶。

4.2.3 會話識別

會話識別是為了發(fā)現(xiàn)同一用戶連續(xù)請求的頁面(瀏覽行為的片段)。

4.2.4 路徑補充

在識別會話過程中的一個問題是確定訪問日志中是不是有重要的請求沒有被記錄。這就是路徑補充所做的工作,解決的方法類似于用戶識別中的方法。

4.2.5 事務識別

一次用戶或服務器會話的任何語義上有意義的子集合被稱為一個事務。一般我們把Web頁分為兩類:內容頁和導航頁。內容頁是含有豐富內容信息的頁面;導航頁是為快速找到所需信息而設置的路標。

5 小 結

互聯(lián)網用戶行為分析是通過知識發(fā)現(xiàn)的方法從大量的互聯(lián)網信息中挖掘用戶的行為模式。它是一個比較新的研究領域,具有廣泛的應用前景,許多問題還有待進一步研究。筆者認為互聯(lián)網用戶行為分析的研究方向重點應放在內在機制、挖掘目標、數(shù)據(jù)集成、非結構化的數(shù)據(jù)挖掘方法、挖掘系統(tǒng)體系結構、分布式協(xié)作挖掘、挖掘效果的評價與可視化等問題上。

主要參考文獻

[1]王實,高文,等.路徑聚類:在Web站點中的知識發(fā)現(xiàn)[J].計算機研究與發(fā)展,2001(4).

[2]馬力,焦李成,劉國營.一種基于路徑象類的Web用戶訪問模式發(fā)現(xiàn)算法[J].計算機科學,2004(8).

猜你喜歡
行為互聯(lián)網用戶
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
社區(qū)老年人跌倒認知和行為調查與分析
兒童玩具設計要素
反腐敗從正人心開始
大學生在新型社交媒體上的行為習慣及引導策略研究
從“數(shù)據(jù)新聞”看當前互聯(lián)網新聞信息傳播生態(tài)
今傳媒(2016年9期)2016-10-15 22:06:04
互聯(lián)網背景下大學生創(chuàng)新創(chuàng)業(yè)訓練項目的實施
考試周刊(2016年79期)2016-10-13 23:23:28
以高品質對農節(jié)目助力打贏脫貧攻堅戰(zhàn)
中國記者(2016年6期)2016-08-26 12:52:41
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
通海县| 桐庐县| 江永县| 定远县| 景德镇市| 安吉县| 逊克县| 芦山县| 和林格尔县| 淮阳县| 南和县| 宁波市| 定安县| 师宗县| 榆中县| 中卫市| 平利县| 垣曲县| 西青区| 抚顺市| 天气| 陇南市| 福泉市| 罗田县| 商丘市| 石景山区| 吴堡县| 海宁市| 澳门| 南召县| 金乡县| 屏东县| 峡江县| 扶绥县| 澎湖县| 德惠市| 老河口市| 陕西省| 独山县| 富平县| 自贡市|