苗 雷
(五大連池風(fēng)景區(qū)勞動(dòng)爭(zhēng)議仲裁院,黑龍江 五大連池 164155)
信息時(shí)代,數(shù)據(jù)成為一種寶貴資源,面對(duì)爆炸式信息增長(zhǎng),如何從龐大的數(shù)據(jù)流中找到有價(jià)值的數(shù)據(jù),成為信息管理工作必須要考慮的問題。Web數(shù)據(jù)挖掘技術(shù)可以快速、精準(zhǔn)搜集目標(biāo)數(shù)據(jù),為數(shù)據(jù)挑選、分析、利用提供技術(shù)支持。近年來,信息技術(shù)滲透到各個(gè)行業(yè),Web數(shù)據(jù)挖掘技術(shù)也被廣泛應(yīng)用于不同領(lǐng)域。熟練掌握該技術(shù)操作方法和應(yīng)用技巧對(duì)提升信息化管理水平、挖掘數(shù)據(jù)潛在價(jià)值有積極幫助。
Web數(shù)據(jù)庫(kù)不僅提供了基礎(chǔ)數(shù)據(jù)存儲(chǔ)與分類功能,還支持交互式信息查詢。從數(shù)據(jù)使用者角度來看,利用Web數(shù)據(jù)庫(kù)可以更加精準(zhǔn)獲取想要的數(shù)據(jù)信息,使數(shù)據(jù)利用價(jià)值得到進(jìn)一步挖掘。從組成結(jié)構(gòu)上來看,Web數(shù)據(jù)庫(kù)可以分為四個(gè)模塊,分別是支持?jǐn)?shù)據(jù)存儲(chǔ)的服務(wù)器、支持?jǐn)?shù)據(jù)調(diào)用的中間件、支持指令編輯與下達(dá)的Web服務(wù)器及用于數(shù)據(jù)展示的瀏覽器。使用Web數(shù)據(jù)庫(kù)技術(shù)時(shí),用戶打開瀏覽器在人機(jī)操作界面上編輯指令(如檢索關(guān)鍵詞),系統(tǒng)從數(shù)據(jù)庫(kù)中進(jìn)行快速匹配,將所有符合的數(shù)據(jù)按照相關(guān)性依次展示。
根據(jù)用戶需求挖掘相應(yīng)的數(shù)據(jù)是數(shù)據(jù)資源化利用的基本步驟,也是決定數(shù)據(jù)利用價(jià)值高低的關(guān)鍵因素。云技術(shù)逐漸成熟,其提高了數(shù)據(jù)挖掘效率,AI技術(shù)的成熟則提高了數(shù)據(jù)挖掘精度。多種先進(jìn)技術(shù)融合運(yùn)用使得數(shù)據(jù)挖掘技術(shù)可以在極短時(shí)間里從海量數(shù)據(jù)中檢索到目標(biāo)數(shù)據(jù),為下一步整合、統(tǒng)計(jì)、分析、利用奠定了扎實(shí)基礎(chǔ)。數(shù)據(jù)挖掘流程包括用戶自定義數(shù)據(jù)檢索范圍或設(shè)定關(guān)鍵詞,讓系統(tǒng)明確檢索目標(biāo);新建數(shù)據(jù)庫(kù),用于存放檢索、挖掘數(shù)據(jù);執(zhí)行程序,獲取數(shù)據(jù),并將挖掘到的數(shù)據(jù)按照特定標(biāo)簽進(jìn)行分類;建立數(shù)學(xué)模型,進(jìn)行數(shù)據(jù)分析。
隨著Web數(shù)據(jù)挖掘技術(shù)成熟及其在各行各業(yè)實(shí)踐應(yīng)用,其已形成比較完善的技術(shù)體系,其中較為常用的有神經(jīng)網(wǎng)絡(luò)法、決策樹法、遺傳算法、粗糙集法、關(guān)聯(lián)規(guī)則法等。以下為幾種主要的數(shù)據(jù)挖掘方法。
Web數(shù)據(jù)挖掘中,如果對(duì)檢索結(jié)果精確性要求不嚴(yán)格,又想在盡可能短的時(shí)間內(nèi)完成檢索任務(wù)、獲取目標(biāo)數(shù)據(jù),可以使用粗糙集法。除了用于數(shù)據(jù)挖掘外,其在分析數(shù)據(jù)相關(guān)性等方面也有重要應(yīng)用價(jià)值。基于粗糙集的Web數(shù)據(jù)挖掘技術(shù)優(yōu)勢(shì)是算法簡(jiǎn)單,檢索效率較高,通常不需要建立專門的檢索模型,簡(jiǎn)化了操作流程,降低了技術(shù)難度。但是也存在明顯缺陷,如挖掘到的數(shù)據(jù)可能存在明顯的離散性,在后期進(jìn)行數(shù)據(jù)分析時(shí)需要先進(jìn)行處理,保證數(shù)據(jù)連續(xù)性,才能體現(xiàn)出數(shù)據(jù)利用價(jià)值。
模糊集算法是一種用模糊集合理論對(duì)實(shí)際問題模糊性識(shí)別、判定及決策的方法。一些數(shù)據(jù)系統(tǒng)相對(duì)復(fù)雜,模糊性較強(qiáng),很多模糊集合理論都具有一種模糊屬性,這種模糊性可能導(dǎo)致結(jié)果失誤,因此數(shù)據(jù)挖掘技術(shù)實(shí)踐中,應(yīng)在模糊理論及概率統(tǒng)計(jì)基礎(chǔ)上進(jìn)行不確定性轉(zhuǎn)換?;谀:腤eb數(shù)據(jù)挖掘應(yīng)用優(yōu)勢(shì)是可以根據(jù)用戶需要和數(shù)據(jù)特點(diǎn)靈活調(diào)控模糊性,獲得想要的數(shù)據(jù),增強(qiáng)了數(shù)據(jù)本身可用性。該算法也存在缺陷,如需要提供較多參數(shù),需要建立特定數(shù)學(xué)模型,編碼難度較大等。
數(shù)據(jù)挖掘與利用中,單一的數(shù)據(jù)可用價(jià)值不高,這就需要利用數(shù)據(jù)挖掘技術(shù)將數(shù)據(jù)收集起來,根據(jù)實(shí)際需求對(duì)特定數(shù)據(jù)進(jìn)行分類、聚合,在資源整合基礎(chǔ)上,橫向或縱向?qū)ふ覕?shù)據(jù)之間的關(guān)聯(lián)性,挖掘數(shù)據(jù)潛在價(jià)值?;谏窠?jīng)網(wǎng)絡(luò)算法的Web數(shù)據(jù)挖掘,其應(yīng)用優(yōu)勢(shì)在于擁有非線性學(xué)習(xí)能力,借助非線性預(yù)測(cè)模型更加智能化地對(duì)數(shù)據(jù)進(jìn)行識(shí)別和篩選,保證所得數(shù)據(jù)的精準(zhǔn)性,它抗干擾能力強(qiáng),對(duì)防止數(shù)據(jù)信息失真也有一定作用。
數(shù)據(jù)挖掘技術(shù)已在諸多領(lǐng)域得到推廣,特別是在信息管理中應(yīng)用效果較好,無論是在檢索目標(biāo)信息、整合數(shù)據(jù)資源方面,還是在提高數(shù)據(jù)利用率、增強(qiáng)管理實(shí)效性方面均發(fā)揮了較為理想的應(yīng)用價(jià)值。
搜索引擎需要在用戶提交檢索指令后,在盡可能短的時(shí)間內(nèi)為用戶提供符合檢索要求的數(shù)據(jù)信息。使用Web數(shù)據(jù)庫(kù)數(shù)據(jù)挖掘技術(shù)在網(wǎng)頁(yè)建立的同時(shí)可以實(shí)現(xiàn)對(duì)相關(guān)信息內(nèi)容的深度挖掘,通過提問方式對(duì)用戶歷史瀏覽記錄進(jìn)行分析及處理,分析過程中可以對(duì)用戶提出的需求進(jìn)行系統(tǒng)性回答。Web數(shù)據(jù)挖掘技術(shù)處理過程中可以對(duì)關(guān)鍵詞進(jìn)行強(qiáng)化處理,不斷提高用戶信息檢索效率和引擎搜索準(zhǔn)確度。隨著Web數(shù)據(jù)挖掘技術(shù)不斷進(jìn)步,將不斷激發(fā)搜索引擎項(xiàng)目發(fā)展,為整個(gè)技術(shù)優(yōu)化奠定良好基礎(chǔ)。
為用戶提供個(gè)性化、精準(zhǔn)性服務(wù)是提高數(shù)據(jù)信息利用率的一種有效手段?;赪eb數(shù)據(jù)挖掘技術(shù)可以根據(jù)用戶以往操作指令、數(shù)據(jù)檢索偏好等基本信息,在數(shù)據(jù)智能分析基礎(chǔ)上準(zhǔn)確把握用戶需求,向用戶提供更加個(gè)性化的服務(wù)。如建立Web動(dòng)態(tài)網(wǎng)頁(yè),將數(shù)據(jù)挖掘結(jié)果在網(wǎng)頁(yè)上直觀呈現(xiàn)出來,滿足用戶個(gè)性化需求。多數(shù)情況下,用戶即使輸入關(guān)鍵詞進(jìn)行檢索,最終挖掘到的匹配數(shù)據(jù)仍有幾十甚至幾百條?;赪eb數(shù)據(jù)挖掘技術(shù)的個(gè)性化服務(wù)可以根據(jù)用戶操作偏好,優(yōu)先展示符合用戶需求的檢索結(jié)果,為用戶進(jìn)行信息管理提供更多便利。
在電子商務(wù)領(lǐng)域,數(shù)據(jù)不僅具有價(jià)值屬性,還通常與用戶個(gè)人隱私和企業(yè)商業(yè)機(jī)密相關(guān),基于Web數(shù)據(jù)挖掘技術(shù)在提高數(shù)據(jù)利用價(jià)值、了解客戶真實(shí)需求、保障數(shù)據(jù)信息隱私安全等方面發(fā)揮了不可替代的作用。如電商平臺(tái)借助數(shù)據(jù)挖掘技術(shù)掌握每一名平臺(tái)用戶瀏覽信息、檢索記錄、購(gòu)買訂單等,了解用戶需求,并在Web數(shù)據(jù)庫(kù)中給每個(gè)用戶建立獨(dú)立賬戶,當(dāng)用戶登錄電商平臺(tái)后,系統(tǒng)可以根據(jù)數(shù)據(jù)分析結(jié)果為每個(gè)用戶提供個(gè)性化頁(yè)面展示,以提高銷售量和成交率。
大數(shù)據(jù)時(shí)代,信息管理工作要求已不僅僅局限于保證數(shù)據(jù)完整與安全,而是在此基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行整合與利用,充分挖掘數(shù)據(jù)本身價(jià)值,基于這一信息管理需求,Web數(shù)據(jù)挖掘技術(shù)得到了推廣應(yīng)用。該技術(shù)能夠結(jié)合遺傳算法、模糊算法、神經(jīng)網(wǎng)絡(luò)算法等,在數(shù)據(jù)挖掘中顯著提高檢索效率和結(jié)果精度,為信息管理提供更多便利。