国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Web挖掘技術研究

2009-10-26 09:34許亞梅
電腦知識與技術 2009年22期
關鍵詞:搜索引擎

許亞梅

摘要:信息時代的到來,伴隨著海量數據的不斷出現,web挖掘為當今海量數據處理提供了強有力的技術手段。介紹了Web挖掘的概念,給出了Web挖掘的三種分類,并針對內容挖掘、結構挖掘、使用挖掘論述了Web挖掘在搜索引擎、電子商務、疾病防治等方面的應用。提出了Web挖掘存在的問題,最后展望了Web挖掘的未來努力方向。

關鍵詞:Web挖掘;內容挖掘;結構挖掘;使用挖掘;搜索引擎

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)22-00000-00

隨著因特網技術的不斷發(fā)展,尤其是Web的全球普及,Web上存在著海量的數據信息,互聯網日益成為人們獲取信息的有效途徑。由于Web具有無結構、動態(tài)變化等特點,給人們在網上搜索資源帶來一定的困難。

傳統(tǒng)的搜索引擎存在許多問題,例如:覆蓋面有限、誤差率和漏查率高、檢索速度不理想等。怎樣對網上的數據進行復雜的應用成了當今數據庫技術的研究熱點。

基于Web的數據挖掘(簡稱Web挖掘)是利用數據挖掘技術從Web文檔和Web活動中抽取人們感興趣的、潛在的有用模式和隱藏的信息,是合理利用網上海量數據的有效技術之一。針對包括Web頁面內容、頁面之間的結構、用戶訪問信息、電子商務信息等在內的各種Web數據,應用數據挖掘方法以發(fā)現有用的知識來幫助人們從WWW中提取知識,改進站點的設計,更好地開展電子商務。

1 Web挖掘的分類

具體來說,Web挖掘可以定義為:Web挖掘是指從大量Web文件的集合C中發(fā)現隱含的模式p。如果將C看作輸入,將p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映像:C→p。

Web是一個非常成功的基于超文本的分布式信息系統(tǒng)。Web目前涉及新聞、廣告、消費信息、教育、政府、電子商務等許多信息服務,Web包含豐富和動態(tài)的超鏈接信息,這些為數據挖掘提供了大量的資源。

一般地,Web挖掘可分為三類:Web內容挖掘、Web結構挖掘和Web使用記錄的挖掘。圖1給出了Web挖掘的分類。

1.1 Web內容挖掘(content mining)

Web內容挖掘是從文件內容或其描述中篩選知識的過程。Web文件文本內容的挖掘、面向概念索引的資源發(fā)現,以及面向代理的技術都屬于這一類。Web內容挖掘有兩種策略:直接挖掘文件的內容,或在其他工具搜索的基礎上進行改進。采用第一種策略的有鎖定網絡的查詢語言Web Log、WebOQL等,利用啟發(fā)式規(guī)則尋找個人首頁信息的Ahoy等。采用第二種策略的方法主要是對查找引擎的查詢結果作進一步的處理,得到更為精確和有用的信息。屬于此類技術的有WebSQL及對查找引擎的返回結果進行群集的技術等。

1.2 Web結構挖掘(structure mining)

傳統(tǒng)的Web搜索引擎大多數是基于關鍵字匹配的,返回的結果是包含查詢項的文檔,也有基于目錄分類的搜索引擎。這些搜索引擎的結果并不令人滿意。有些站點有意提高關鍵字出現的頻率來提高自身在搜索引擎中的重要性,破壞搜索引擎結果的客觀性和準確性。另外,有些重要的網頁并不包含查詢項。搜索引擎的分類目錄也不可能把所有的分類考慮全面,并且目錄大多靠人工維護,主觀性強,費用高,更新速度慢。

Web結構挖掘是從WWW的組織結構和鏈接關系中推導知識。Web結構挖掘的目的是發(fā)現頁面的結構和Web的結構,在此基礎上對頁面進行分類和群集從而找到權威頁面。怎樣才算是一個權威頁面呢?指向一個文檔的超鏈接體現了該文檔的被引用情況。如果大量的鏈接都指向了同一個網頁,我們就認為它是一個權威頁。這就類似于信息檢索領域,根據雜志論文的引用情況來評估論文的質量。這種方法的原理是一個作者引用另一篇論文,表示該作者對這篇論文的認可。Web不僅由頁面構成,而且還包含從一個頁面指向另一個頁面的超鏈接。超鏈接包含大量潛在的語義,它有助于分析出權威性的語義。

1.3 Web使用記錄的挖掘(usage mining)

Web服務器通常保存了對Web頁面的每一次訪問的(Web)日志項,或稱為Weblog項。它包括了所請求的URL,發(fā)出請求的IP地址,和時間戳。對基于Web的電子商務服務器,保存了大量的Web訪問日志記錄。

使用記錄實際上也是流水操作記錄的一種,它真實地記錄著訪問者對Web服務器訪問的細節(jié)情況。因此,對于這些原始數據,可以對其進行一些研究工作,如系統(tǒng)性能分析,通過Web緩存改進系統(tǒng)設計,使得頁面緩存機制更加適合實際的需要,并且可以動態(tài)適應訪問者訪問行為模式。這些分析還可以有助于建立針對個體用戶的定制Web服務。在這些分析結果的驅動下,可以使得Web具有智能性,能快速、準確地找到用戶所需信息;能為不同用戶提供不同的服務;能為用戶提供產品營銷策略信息等等。因此研究復雜的Weblog挖掘技術十分重要。Web使用記錄的挖掘通常需要經過數據預處理、模式識別、模式分析三個階段。

2 Web挖掘的應用

隨著數據挖掘技術的不斷進步,Web挖掘的應用已涉及各行各業(yè),本文主要闡述其在電子商務、疾病防治和搜索引擎三方面的應用。

2.1Web挖掘在電子商務中的應用

1)客戶分類和聚類

對Web的客戶訪問信息進行挖掘,可對客戶進行分類分析,例如根據國家或類型( .com ,.edu,.gov)進行分類分析。對客戶進行聚類分析,將客戶進行分組,分析組中客戶的共同特征,通過對客戶的分類和聚類,就可以讓銷售商更好地了解自己的客戶,向客戶提供更有針對性的服務。

2)潛在客戶的尋找

在對Web客戶的訪問信息的挖掘中,利用分類技術在互聯網上獲取未來的潛在客戶。通常獲取這些潛在客戶的市場策略,是先對已經存在的訪問者進行分類,對于一個新的訪問者,通過在Web上的分類發(fā)現,識別這個訪問者與已經分類的訪問者的一些公共的描述,從而對這個訪問者進行正確分類,從而判斷這個新的訪問者是否是一個潛在的客戶??蛻舻念愋痛_定之后,就可以對客戶動態(tài)地展示Web頁面,頁面的內容取決于客戶與銷售商提供的產品和服務的關聯。

3)客戶駐留

由于因特網無國界的特點,傳統(tǒng)客戶與銷售商之間的空間距離在電子商務中已經不復存在,每一個銷售商對于客戶來說都是一樣的。如何讓客戶在相應的網絡銷售點駐留更久,那么,銷售商就要盡量了解客戶的瀏覽行為。利用Web挖掘,就可以知道客戶的行為模式,了解客戶的興趣及需要,從而根據客戶的興趣及需要動態(tài)地調整Web頁面,以便更好地滿足客戶的需要。在因特網上的電子商務中的一個典型序列,恰好代表了一個購物者以頁面形式在網站上導航的行為,所以可運用數據挖掘中的序列模式發(fā)現技術。

2.2Web挖掘在搜索引擎中的應用

通過對網頁內容的挖掘,可以實現對網頁的聚類和分類,實現網絡信息的分類瀏覽與檢索;通過用戶使用的提問式(query)歷史分析,可以有效地進行提問擴展,提高用戶的檢索效果(查全率、查準率);運用Web挖掘技術改進關鍵詞加權算法,提高網絡信息的標引準確度,改善檢索效果。Web挖掘是目前網絡信息檢索發(fā)展的一個關鍵。

2.3 Web挖掘在疾病防治中的應用

自2003年全球出現“非典”以來,多種傳染病接踵而來。事實證明,許多疾病是可預防的,但目前這些預警工作仍很缺乏。隨著計算機信息技術的不斷發(fā)展,人類已進行了網絡時代,而且網絡技術日新月異,許多人喜歡上網寫博客,或到論壇上留言?;赪eb的挖掘技術利用其文本挖掘功能,可對博客或論壇的有用文本進行挖掘,以服務于人類。

文本挖掘是從非結構化的文本中發(fā)現潛在的概念以及概念間的相互關系。在這項技術中,最關鍵的是分詞技術,建立詞典。只有讓計算機依據詞典完成正確斷詞之后,才可以實現將非結構化信息轉化為結構化信息,然后就可以進一步研究文本之間的關系。比如通過分析Blog網頁來建立禽流感預警機制,很好地體現了Web挖掘在疾病防治中的應用。

3web挖掘的困惑

盡管業(yè)內普遍認識到web挖掘的重要性,但目前尚存在一些瓶頸。

1)一個關鍵問題是電子商務的評估指標(e-Metrics)還沒有形成一個完整的體系。所謂指標體系就要設定幾個維度來衡量電子商務網站生意的好壞。目前,有些電子商務網站已經開始定義像潛在顧客率(reach)、招攬時間(Acquisition)、潛在顧客轉化率(Conversion)等一些評估指標,美國的一些技術會議也已經開始做一些整合工作,但是要形成體系還需要一段時間。

2)資金有限。

例如,商智通公司咨詢總監(jiān)匡宏波表示,曾經有一家醫(yī)藥類電子商務網站主動找上門,提出要求想知道平臺的某類藥品(比如盤尼西林)主要銷往哪里。但盛秋戩博士也指出,就電子商務領域的總體而言,除了像亞馬遜、eBay等一些國外大型電子商務網站開始自己買工具進行挖掘之外,國內少數注意到數據挖掘技術的網站大多是自己開發(fā)做此類工作,舍得掏錢的人還不多。

3)應用領域過于狹隘。

無論廠商、集成商還是學術界,基本上都認同一個觀點,即:數據挖掘在技術上已經趨于成熟,現在更重要的就是如何拓展行業(yè)應用。 IBM軟件部中國區(qū)DB2信息管理技術經理劉晶煒表示說,數據挖掘技術已經到了一個普及化的階段,現在關鍵是要讓數據挖掘從神壇上走下來。商智通公司咨詢總監(jiān)匡宏波也表示,現在數據挖掘領域的問題都不是技術問題,也不是工具問題,而是應用問題。

1)從行業(yè)應用來看,目前大多數的用戶都來自電信、銀行、保險、稅務等領域,比如南京地稅、四川移動兩個案例就做得相當成功,應用主題則主要包含:消費者行為分析、信用評分與風險管理、欺詐行為偵測、購物籃分析等方面。綜合國內外的發(fā)展趨勢,可以看到的是,大型連鎖商店和高科技制造產業(yè)也將成為應用數據挖掘技術的重要領域。

2)從應用層次上看,大體可以分為三個層次,第一層次是把挖掘工具當作單獨的工具來用,偶爾用一下出具一個報告,不用專門建設系統(tǒng);第二層次則是把數據挖掘模塊嵌入到系統(tǒng)中,稱為部門級應用;第三層次是企業(yè)級應用,相當于把挖掘系統(tǒng)作為整個企業(yè)運營的CPU。目前,國內的數據挖掘應用是本來數量就比較少,即便是做了的,也有很多只是處于第一層次,偶爾某些用戶能夠做到第二層次。

結束語

由于Web上存在著大量的信息,Web在當今社會經濟生活中扮演著越來越重要的角色,Web挖掘的應用將越來越廣泛,用戶對高品質、個性化信息的需求也將進一步推動Web挖掘技術的研究與發(fā)展。Web挖掘是一個較熱門的研究領域,由于Web自身的特點,我們還有許多問題有待于進一步的研究與發(fā)展,例如開發(fā)更好的數據搜集機制和技術是很有必要的。在挖掘處理方面,開發(fā)新模型將更有效地鎖定Web使用記錄的增量變化和分布特性。

參考文獻:

[1] 梁循.數據挖掘算法與應用[M].北京:北京大學出版社, 2006

[2] 林杰斌,劉明德,陳湘等.數據挖掘與OLAP理論與實務[M].北京:清華大學出版社,2003

[3] 朱明.數據挖掘[M].合肥:中國科學技術大學出版社,2002

[4] 陳文偉,黃金才,趙新昱等.數據挖掘技術[M].北京:北京工業(yè)大學出版社,2002

[5] Jeffiey A.Hoffer Mary B.Prescott Fred R.McFadden著,施伯樂,楊衛(wèi)東,孫未未等譯.現代數據庫管理[M].北京:機械工業(yè)出版社,2004

[6] 夏火松.數據倉庫與數據挖掘技術[M].北京:科學出版社,2004

[7] 陳京民等.數據倉庫與數據挖掘技術[M].北京:電子工業(yè)出版社,2002

[8] http://publishblog.blogchina.com/blog/tb.b?diaryID=3442640

猜你喜歡
搜索引擎
Chrome 99 Canary恢復可移除預置搜索引擎選項
世界表情符號日
大數據分析下智能搜索引擎的構建研究
網絡搜索引擎亟待規(guī)范
網絡搜索引擎
Nutch搜索引擎在網絡輿情管控中的應用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
一種自反饋式元搜索系統(tǒng)的設計