胡春美
摘要
隨著信息化的發(fā)展,我們邁入了大數(shù)據(jù)的時代,在海量的形式多樣的數(shù)據(jù)中能夠高速、高效的獲取有價值的信息,是如今面臨的重要課題。對于很多專有領(lǐng)域來說,領(lǐng)域知識也變得越來越豐富,本體的應(yīng)用能使領(lǐng)域術(shù)語,概念和認(rèn)知通過統(tǒng)一的框架得以分享。研究本體在大數(shù)據(jù)時代的應(yīng)用,可以提高知識的利用效率,具有一定的現(xiàn)實意義。
【關(guān)鍵詞】本體 大數(shù)據(jù) 專有領(lǐng)域
隨著計算機硬件的成本降低,性能提高,為海量數(shù)據(jù)的存儲提供了物質(zhì)基礎(chǔ)。同時,云計算的出現(xiàn),更是為大數(shù)據(jù)的存儲和計算提供了便利。有了海量數(shù)據(jù),那么如何對數(shù)據(jù)進(jìn)行有效利用是另一個重要的研究課題。數(shù)據(jù)檢索以及數(shù)據(jù)挖掘?qū)W科有專門的算法對數(shù)據(jù)進(jìn)行有效的處理及利用,本體作為知識組織的一種形式,對領(lǐng)域中的知識進(jìn)行表示,并與各種算法相結(jié)合,可以對大數(shù)據(jù)的相關(guān)研究起到一定的作用。
1 本體的定義
Gruber于1993年提出的本體的定義在業(yè)界首次獲得一致認(rèn)可,他指出“本體是概念模型的明確的規(guī)范說明”。而后在此基礎(chǔ)上一個新的定義被Brost提出,即本體是共享概念模型的明確的形式化規(guī)范說明,該定義目前使用較為廣泛,它其中包含了四層的含義:概念化,形式化,明確性和共享。
2 本體在知識檢索中的應(yīng)用
全文檢索是一種將文件中所有的文本內(nèi)容與檢索項匹配的文字資料檢索方法。信息檢索出現(xiàn)了很多模型,其中比較經(jīng)典的有:布爾模型,概率模型,向量空間模型,概念檢索模型。在大數(shù)據(jù)時代,由于大數(shù)據(jù)在存儲,收集,分析及檢索方面與傳統(tǒng)數(shù)據(jù)存在著區(qū)別,信息檢索也需要進(jìn)行相應(yīng)的變革。在某個領(lǐng)域的檢索系統(tǒng)中,常常會融入本體進(jìn)行研究,以提高檢索模型的查全率和查準(zhǔn)率。基于本體的查詢詞擴展,是較為常見的研究方向。該方法在一定程度上克服了傳統(tǒng)查詢詞擴展的語義性差、主題性差等缺點。這方面的研究很多,其核心思想大致如下:
(1)檢索系統(tǒng)需對用戶輸入的查詢內(nèi)容進(jìn)行預(yù)處理,獲得相關(guān)的查詢詞集。
(2)對查詢詞集中的關(guān)鍵詞進(jìn)行分析,根據(jù)領(lǐng)域本體知識庫,劃分成本體概念集合與非本體概念集合。
(3)對本體概念集合中的概念詞按照一定的方式進(jìn)行語義查詢擴展。
(4)通過閾值對擴展詞進(jìn)行篩選。
上述的基本過程中,可能會存在一些缺點,近年來的研究中從不同的角度對基于本體的查詢詞擴展結(jié)合實際的需求進(jìn)行了改善。
另外一個研究方向就是本體概念相似度的計算,主要的概念相似度計算方法有基于距離的概念相似度計算,基于屬性的概念相似度計算,混合式概念相似度計算。尋找合適的相似度計算方法用于計算查詢詞和擴展詞的相似度,調(diào)整擴展詞的權(quán)重,會使查詢結(jié)果更優(yōu)?;诒倔w的文檔的語義標(biāo)注也是研究的熱點,對文檔進(jìn)行語義標(biāo)注后,可以把文檔隱含的語義信息顯式的表現(xiàn)出來,可以為檢索的智能推理提供基礎(chǔ)。
3 本體在數(shù)據(jù)挖掘中的應(yīng)用
數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。在各個領(lǐng)域中,比如教育、航天、銀行、證券、電信等,數(shù)據(jù)挖掘也開始廣泛應(yīng)用。銀行可以通過一定的機器學(xué)習(xí)算法預(yù)測客戶是否有跑路的嫌疑。如今,數(shù)據(jù)挖掘已經(jīng)在各個領(lǐng)域中得到了應(yīng)用,但是可能相關(guān)的技術(shù)人員并不是各個領(lǐng)域的專業(yè)人才,會給數(shù)據(jù)挖掘的推廣造成一定的障礙。針對這種現(xiàn)狀,將本體思想與技術(shù)引入到數(shù)據(jù)挖掘過程中,用領(lǐng)域本體表示領(lǐng)域背景知識,可以在一定程度上輔助技術(shù)人員進(jìn)行數(shù)據(jù)挖掘使數(shù)據(jù)得到有效利用獲取有價值的信息。如果認(rèn)為數(shù)據(jù)挖掘的基本過程如圖1所示。
傳統(tǒng)數(shù)據(jù)挖掘被認(rèn)為有三個方面的缺陷:規(guī)則過載、脫離情境、沒有合理使用領(lǐng)域?qū)<抑R,容易受數(shù)據(jù)挖掘者個人的挖掘偏好影響。將本體適當(dāng)?shù)膽?yīng)用在數(shù)據(jù)挖掘的各個階段,將領(lǐng)域知識融入到數(shù)據(jù)挖掘的過程中,可以更好的通過數(shù)據(jù)挖掘過程獲取有價值的信息。本體在數(shù)據(jù)預(yù)處理階段的應(yīng)用,基于本體的數(shù)據(jù)挖掘算法的改進(jìn)等都是比較常見的融入本體進(jìn)行研究的方向。比如,基于本體的文本聚類算法的研究,該方法可以有效地減少文本特征向量的維數(shù),同時提高文本聚類效果以及聚類結(jié)果的可解釋性。
4 總結(jié)
學(xué)者的各種研究,最終的目的都是希望在大數(shù)據(jù)中對數(shù)據(jù)進(jìn)行有效并且高效的利用,得到所需的高價值的信息從而服務(wù)于企業(yè)或者領(lǐng)域的發(fā)展。由于領(lǐng)域具有專業(yè)性,將本體應(yīng)用到領(lǐng)域大數(shù)據(jù)的相關(guān)研究中,具有一定的研究價值。
參考文獻(xiàn)
[1]林志陽.基于OWL語義本體的推理與存儲研究[D].海南大學(xué),2008.
[2]時念云,楊晨.基于領(lǐng)域本體的語義標(biāo)注方法研究[J].計算機工程與設(shè)計,2007(24):5985-5987.
[3]王棟,向陽,張波.本體在數(shù)據(jù)挖掘系統(tǒng)中的應(yīng)用研究[J].計算機工程與應(yīng)用,2009,45(05):11-12+15.
[4]聞中慧.數(shù)據(jù)挖掘中的本體應(yīng)用研究綜述[J].軟件導(dǎo)刊,2012,11(07):104-106.