国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識鏈知識獲?。杭夹g(shù)實(shí)現(xiàn)與應(yīng)用舉例

2012-04-29 18:26:25張省顧新
圖書與情報(bào) 2012年6期
關(guān)鍵詞:數(shù)據(jù)挖掘文本分析

張省 顧新

摘要:知識獲取是知識鏈組建的首要目標(biāo)。文章從技術(shù)角度定義了知識鏈知識獲取,介紹了新興的知識獲取技術(shù):數(shù)據(jù)挖掘、Web挖掘、文本挖掘,并分別結(jié)合銀行業(yè)、電子商務(wù)、網(wǎng)絡(luò)新聞的知識獲取案例探討了三種挖掘技術(shù)的應(yīng)用。

關(guān)鍵詞:知識鏈知識獲取數(shù)據(jù)挖掘Web挖掘文本挖掘

中圖分類號:G250.7 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-6938(2012)06-0073-04

1引言

知識經(jīng)濟(jì)和全球化是21世紀(jì)的兩大特征。企業(yè)之間的競爭將主要依靠其聚集、整合和開發(fā)各類資源的能力。企業(yè)與大學(xué)、科研機(jī)構(gòu)、上下游企業(yè)甚至競爭對手之間通過知識流動(dòng),以實(shí)現(xiàn)知識共享和知識創(chuàng)造,這種組織之間的知識流動(dòng)形成了知識鏈(KnowledgeChain)[1]。知識鏈?zhǔn)侵R經(jīng)濟(jì)時(shí)代組織之間合作競爭的新形式,未來的競爭將不再是企業(yè)與企業(yè)之間的競爭,而是知識鏈與知識鏈之間的競爭。

知識鏈在競爭中取勝的關(guān)鍵在于形成知識優(yōu)勢[2]。一般而言,知識優(yōu)勢的形成路徑是從知識獲取到知識共享,最后是知識創(chuàng)造??梢?,知識獲取是知識鏈知識優(yōu)勢形成的邏輯起點(diǎn),它使知識鏈與外部知識網(wǎng)絡(luò)形成動(dòng)態(tài)溝通,是知識管理活動(dòng)的基礎(chǔ)和前提。通過對近十年知識獲取相關(guān)文獻(xiàn)的梳理后發(fā)現(xiàn),學(xué)者對知識獲取的研究主要集中在知識管理行為和人工智能技術(shù)兩個(gè)領(lǐng)域。本文從技術(shù)角度定義知識鏈知識獲取,集中介紹新興的知識獲取技術(shù):數(shù)據(jù)挖掘、Web挖掘和文本挖掘,并結(jié)合具體的知識獲取案例探討了知識挖掘技術(shù)的應(yīng)用,嘗試打通知識管理領(lǐng)域的技術(shù)障礙,為我國的知識管理實(shí)踐提供一個(gè)技術(shù)解決框架。

2知識鏈知識獲取技術(shù)

知識鏈知識獲取是指將用于問題求解的知識從知識源中抽取出來,并轉(zhuǎn)換成計(jì)算機(jī)可執(zhí)行的程序,最終儲存到知識鏈內(nèi)部的過程。知識鏈組建的目標(biāo)就是從外部知識源中獲取有用的知識,知識源具有多樣性,包括數(shù)據(jù)庫、人類專家、文本文獻(xiàn)等。目前尚無通用的知識獲取方法,互聯(lián)網(wǎng)時(shí)代的知識獲取技術(shù)主要是數(shù)據(jù)挖掘、Web挖掘和文本挖掘。

2.1數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘(DataMining)是指從大量隨機(jī)的、模糊的、未知的數(shù)據(jù)中提取潛在有用的信息和知識的過程。數(shù)據(jù)挖掘的目的是從復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)相互聯(lián)系和內(nèi)在規(guī)律,從無知中找出真知,從無序中找出有序,以用于商業(yè)分析和科學(xué)研究。例如,醫(yī)學(xué)研究成員嘗試從成千上萬病歷中找出某種疾病患者的共同特征,從而為治愈這種疾病提供一些幫助。數(shù)據(jù)挖掘有一些同名詞,如數(shù)據(jù)開發(fā)、知識挖掘、數(shù)據(jù)采掘等。

相對于傳統(tǒng)的數(shù)據(jù)庫查詢系統(tǒng),數(shù)據(jù)挖掘技術(shù)擁有自身明顯的優(yōu)勢。首先,數(shù)據(jù)挖掘不是利用嚴(yán)格的SQL語言來描述,因此可以隨機(jī)、即時(shí)、靈活地使用;其次,數(shù)據(jù)挖掘過程一般基于統(tǒng)計(jì)規(guī)律,不一定生成嚴(yán)格的結(jié)果集,因此能夠?qū)Q策提供更優(yōu)質(zhì)的信息;最后,數(shù)據(jù)挖掘不僅可以對數(shù)據(jù)庫原始字段進(jìn)行查詢,還可以在數(shù)據(jù)的不同層次上進(jìn)行挖掘。目前正在研制的第四代數(shù)據(jù)挖掘軟件主要特點(diǎn)是將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合,能夠挖掘移動(dòng)系統(tǒng)、嵌入式系統(tǒng)和各類計(jì)算設(shè)備產(chǎn)生的數(shù)據(jù)。

數(shù)據(jù)挖掘質(zhì)量取決于算法的設(shè)計(jì)。比較通用的算法包括:主成分分析法、粗糙集法和決策樹法。主成分分析也稱主分量分析,旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。它的任務(wù)是使數(shù)據(jù)陣簡化,用較少的變量去解釋原來數(shù)據(jù)中的大部分變異。主成分分析法適用于大樣本的量化評估分析。粗糙集法的優(yōu)勢是無需提供任何與問題無關(guān)的數(shù)據(jù),適合發(fā)現(xiàn)數(shù)據(jù)中隱含的有用規(guī)律。粗糙集先通過對條件屬性的約簡,即從決策表中消去某些列,然后消去重復(fù)的行和屬性的冗余值,將不精確或不確定的知識用已知的知識庫中的知識來(近似)刻畫。決策樹法則利用一種樹形圖作為分析工具,用決策點(diǎn)代表決策問題,用方案分枝代表可供選擇的方案,用概率分枝代表方案可能出現(xiàn)的各種結(jié)果。該方法計(jì)算損益值,因此常用于風(fēng)險(xiǎn)分析決策。

2.2Web挖掘技術(shù)

Web挖掘是數(shù)據(jù)挖掘技術(shù)在Web技術(shù)中的應(yīng)用,它是指利用數(shù)據(jù)挖掘技術(shù)在Internet上的資源中發(fā)現(xiàn)潛在的、有用的信息或模式。與傳統(tǒng)數(shù)據(jù)挖掘不同,Web挖掘的數(shù)據(jù)以TB數(shù)量計(jì)算,既有數(shù)位型(整型、實(shí)型)、布爾型,又有性質(zhì)描述數(shù)據(jù)、分類數(shù)據(jù)還有Web特有的數(shù)據(jù)類型,如url(網(wǎng)頁)地址、E-mail地址等,因此很難直接對Web網(wǎng)頁上的數(shù)據(jù)進(jìn)行挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型的Web挖掘處理流程如下[3]:

(1)查找資源:從目標(biāo)Web文檔中尋找數(shù)據(jù);(2)信息選擇和預(yù)處理:從取得的Web資源中剔除無用信息,進(jìn)行必要的分類整理;(3)模式發(fā)現(xiàn):在同一個(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間自動(dòng)進(jìn)行模式發(fā)現(xiàn);(4)模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式,該任務(wù)可由機(jī)器單獨(dú)自動(dòng)完成,也可與程序人員交互完成。

根據(jù)用戶對Web數(shù)據(jù)的需求程度不同,Web挖掘一般可分為三類,即內(nèi)容挖掘、結(jié)構(gòu)挖掘和用法挖掘。Web內(nèi)容挖掘是指從Internet文件(文檔、圖像、音頻、視頻等)獲取有價(jià)值的信息和模式。Web結(jié)構(gòu)挖掘是指從Web站點(diǎn)組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)模式和知識,Google等搜索引擎就是結(jié)構(gòu)挖掘。Web用法挖掘是指登錄用戶使用記錄挖掘,也稱訪問信息挖掘。

按照自動(dòng)化程度標(biāo)準(zhǔn),Leander等人[4](2002)將Web挖掘技術(shù)分為人工方式、半自動(dòng)化和全自動(dòng)化三種。采用人工挖掘方式的系統(tǒng)主要有:W4F、Informaia、ANDES等,采用自動(dòng)、半自動(dòng)化挖掘方式的系統(tǒng)主要有:XWRAP、WIEN、Softmealy、Stalker等。當(dāng)前Web挖掘技術(shù)在商業(yè)領(lǐng)域的應(yīng)用主要是:(1)獲取競爭對手和客戶信息;(2)發(fā)現(xiàn)用戶訪問模式;(3)反競爭情報(bào)活動(dòng)。

2.3文本挖掘技術(shù)

隨著電腦使用的普及與互聯(lián)網(wǎng)的發(fā)展,非結(jié)構(gòu)化的電子文本文檔(如學(xué)術(shù)論文、新聞文章、電子郵件、公司通告等)數(shù)量急劇增長,為了從這些知識源中挖掘有價(jià)值的知識,需要用到文本挖掘技術(shù)。文本挖掘是數(shù)據(jù)挖掘的一個(gè)新領(lǐng)域,它利用智能算法,并結(jié)合文字處理技術(shù),從文本文檔中發(fā)現(xiàn)和提取隱含的、事先未知的知識。

根據(jù)文本挖掘知識對象的種類不同,文本挖掘可以分為關(guān)聯(lián)規(guī)則抽取、語義關(guān)系挖掘、文本聚類與主題分析、趨勢分析四大類。文本挖掘研究中最成熟、應(yīng)用最廣泛的領(lǐng)域是文本聚類,它是指在沒有預(yù)先定義類別的情況下,自動(dòng)產(chǎn)生文本分類的過程。文本聚類可以作為發(fā)現(xiàn)最近鄰文檔的有效手段,也可被用于瀏覽文檔集合或組織從搜索引擎返回的文檔。

文本挖掘的過程與特定領(lǐng)域中的信息表達(dá)模型密切相關(guān),一個(gè)典型的文本挖掘過程包括文本集合的預(yù)處理(文本數(shù)據(jù)的選擇、清洗、分類、特征提取等)、索引與存儲、中間表示分析(聚類、趨勢分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等)、后處理(知識的評價(jià)與取舍、知識的解釋與知識的可視化表達(dá))等步驟[5]。

目前,中文文本挖掘研究還處在起步階段。中文文本挖掘主要采用“詞袋”法,即提取文本高頻詞構(gòu)成特征向量來表達(dá)文本特征?!霸~袋”法沒有考慮詞在文本(句子)中擔(dān)當(dāng)?shù)恼Z法和語義角色,也沒有考慮詞與詞之間的順序,丟失了大量有用信息,加之漢語中同義詞與多義詞的普遍存在,更加減弱了高頻詞向量表達(dá)文本特征的可信度[6]。因此,中文文本挖掘研究的重點(diǎn)是中文文本的構(gòu)成特點(diǎn)與特征提取機(jī)制,只有中文文本的分析技術(shù)得到突破,才能實(shí)現(xiàn)中文文本的深度挖掘。

3知識鏈知識獲取應(yīng)用

3.1數(shù)據(jù)挖掘技術(shù)在銀行業(yè)的應(yīng)用

銀行信息化發(fā)展迅速,信息系統(tǒng)成為銀行業(yè)業(yè)務(wù)開展的主要支撐平臺。從海量金融數(shù)據(jù)中抽取有價(jià)值的信息,為銀行高管正確決策提供依據(jù),是數(shù)據(jù)挖掘的重要應(yīng)用領(lǐng)域。國際知名銀行如匯豐銀行、富士銀行和花旗銀行都是數(shù)據(jù)挖掘技術(shù)應(yīng)用的先行者。具體應(yīng)用主要在以下兩個(gè)方面:

(1)客戶管理。數(shù)據(jù)挖掘技術(shù)可以在客戶尋找、客戶保留和客戶服務(wù)優(yōu)化等銀行客戶管理周期各階段提供支持。如銀行可以通過分析客戶的交易習(xí)慣、交易頻率和交易額度等數(shù)據(jù)來判明客戶的忠誠度,也可以在客戶信息中進(jìn)行聚類分析找到可盈利目標(biāo)群。

(2)風(fēng)險(xiǎn)管理。數(shù)據(jù)挖掘可以應(yīng)用在信用風(fēng)險(xiǎn)評估上,方式一是構(gòu)建信用評級模型,對信用卡申請人和貸款申請人的風(fēng)險(xiǎn)進(jìn)行量化評分;方式二是檢測信用卡的異常使用,預(yù)防商業(yè)欺詐造成的損失。

3.2Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用

知識經(jīng)濟(jì)時(shí)代,網(wǎng)上交易正改變著人們的商務(wù)習(xí)慣和商務(wù)理念。顧客在Web站點(diǎn)上的注冊信息、瀏覽信息、購物信息都隱藏著自己的商務(wù)行為模式,也蘊(yùn)藏著巨大的商機(jī)。合理運(yùn)用Web挖掘技術(shù),有助于電子商務(wù)企業(yè)及時(shí)獲得零售商、合作商、中間商以及競爭對手的信息,有助于發(fā)現(xiàn)潛在客戶、用戶和市場,以實(shí)現(xiàn)個(gè)性化的市場服務(wù),提高市場競爭力。

Web挖掘在電子商務(wù)中的主要方法有統(tǒng)計(jì)分析、知識發(fā)現(xiàn)、預(yù)測模型三種。統(tǒng)計(jì)分析是利用大數(shù)法則,發(fā)現(xiàn)Web數(shù)據(jù)的規(guī)律,并進(jìn)一步解釋這些規(guī)律,為管理戰(zhàn)略提供依據(jù)。通常使用的方法有線性分析和非線性分析、連續(xù)回歸分析和邏輯回歸分析、單變量和多變量分析以及時(shí)間序列分析等[8]。知識發(fā)現(xiàn)是數(shù)據(jù)挖掘的高級過程,用于確定數(shù)據(jù)中有效、新穎、潛在有用、基本可理解的模式的特定過程,例如賓館酒店通過對消費(fèi)特別高和特別低的顧客進(jìn)行偏離模式分析,可以發(fā)現(xiàn)一些有趣的消費(fèi)模式。預(yù)測模型假設(shè)消費(fèi)者行為具有重復(fù)性和規(guī)律性,通過建立模型預(yù)測下一個(gè)時(shí)點(diǎn)消費(fèi)數(shù)量或消費(fèi)選擇。

3.3文本挖掘技術(shù)在網(wǎng)絡(luò)新聞中的應(yīng)用

網(wǎng)絡(luò)新聞具有海量性、即時(shí)性、交互性和超文本等特征。網(wǎng)絡(luò)新聞的文本挖掘,可以實(shí)現(xiàn)對新聞資料的自動(dòng)組織、生成專題,以滿足網(wǎng)絡(luò)用戶檢索新聞信息的需要。網(wǎng)絡(luò)新聞文本挖掘的內(nèi)容主要有三個(gè)方面:主題發(fā)現(xiàn)與跟蹤、熱點(diǎn)趨勢檢測、事件預(yù)測規(guī)則的發(fā)現(xiàn)。

4結(jié)語

運(yùn)用數(shù)據(jù)挖掘、Web挖掘和文本挖掘技術(shù),知識鏈可以從外部知識源獲取知識形成自己的知識倉庫和知識地圖,但是要想贏得知識優(yōu)勢和競爭優(yōu)勢,知識鏈還必須實(shí)現(xiàn)成員之間知識的充分共享,最終通過知識創(chuàng)造保持核心能力。本文主要基于技術(shù)層面研究知識鏈知識獲取,未來知識獲取發(fā)展的趨勢將是技術(shù)和行為的融合,知識管理者不僅要對信息和人進(jìn)行管理,更要將信息處理能力和人的創(chuàng)新能力相互結(jié)合,以增強(qiáng)組織對環(huán)境的適應(yīng)能力。當(dāng)前的知識管理系統(tǒng)的研發(fā)正在朝著這個(gè)方向發(fā)展,如IBM開發(fā)的Lotus系統(tǒng)和微軟公司開發(fā)的SharePointPortalServer系統(tǒng)都實(shí)現(xiàn)了人、場所、事務(wù)的有機(jī)關(guān)聯(lián)。

參考文獻(xiàn):

[1]顧新.知識鏈管理-基于生命周期的組織之間知識鏈管理框架模型研究[M].成都:四川大學(xué)出版社,2008.

[2]張省,顧新.知識鏈知識優(yōu)勢的形成與評價(jià)研究[J].情報(bào)資料工作,2012,(3):24-28.

[3]胡潔,彭穎紅.企業(yè)信息化與知識工程[M].上海:上海交通大學(xué)出版社,2009.

[4]LeanderA.,Riberio-NetoB.,SilvaA.Abriefsurveyofwebdataextractiontools[J].SIGMODRecord,2002,31(2):84-93.

[5]諶志群,張國煊.文本挖掘研究進(jìn)展[J].模式識別與人工智能,2005,18(1):65-74.

[6]諶志群,張國煊.文本挖掘與中文文本挖掘模型研究[J].情報(bào)科學(xué),2007,25(7):1046-1051.

[7]李小慶.銀行數(shù)據(jù)挖掘與知識發(fā)現(xiàn)技術(shù)全景分析[J].華南金融電腦,2010,(11):44-47.

[8]SrivastavaJ,CooleyR,DeshpandeM.Webusagemining:Discoveryandapplicationofusagepatternsfromwebdata[J].ACMSIGKDDExploration,2002,(2):76-88.

[9]凌傳繁.Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].情報(bào)雜志,2006,(1):93-95.

[10]阮光冊.基于文本挖掘的網(wǎng)絡(luò)媒體報(bào)道研究[J].圖書情報(bào)工作網(wǎng)刊,2011,(6):24-31.

作者簡介:張?。?981-),男,綿陽師范學(xué)院法學(xué)與社會學(xué)院講師,四川大學(xué)工商管理學(xué)院博士研究生,研究方向:知識管理;顧新(1968-),男,四川大學(xué)工商管理學(xué)院教授,研究方向:企業(yè)管理、技術(shù)經(jīng)濟(jì)及管理、教育經(jīng)濟(jì)與管理。

猜你喜歡
數(shù)據(jù)挖掘文本分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
隱蔽失效適航要求符合性驗(yàn)證分析
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
原平市| 通榆县| 珠海市| 遂宁市| 哈尔滨市| 曲沃县| 称多县| 常熟市| 惠州市| 逊克县| 慈利县| 定州市| 灵璧县| 湖口县| 滨州市| 阳朔县| 桂林市| 阳山县| 城固县| 合川市| 永泰县| 盐池县| 丁青县| 封丘县| 梅州市| 亳州市| 巨鹿县| 永善县| 虎林市| 吴堡县| 柘城县| 镇巴县| 德化县| 洛南县| 克东县| 连平县| 清水县| 平遥县| 佛教| 塔城市| 桓仁|