領(lǐng)域本體在大數(shù)據(jù)時代的應(yīng)用

2018-02-28 11:19胡春美

電子技術(shù)與軟件工程 2018年21期

胡春美

摘要

隨著信息化的發(fā)展，我們邁入了大數(shù)據(jù)的時代，在海量的形式多樣的數(shù)據(jù)中能夠高速、高效的獲取有價值的信息，是如今面臨的重要課題。對于很多專有領(lǐng)域來說，領(lǐng)域知識也變得越來越豐富，本體的應(yīng)用能使領(lǐng)域術(shù)語，概念和認(rèn)知通過統(tǒng)一的框架得以分享。研究本體在大數(shù)據(jù)時代的應(yīng)用，可以提高知識的利用效率，具有一定的現(xiàn)實意義。

【關(guān)鍵詞】本體大數(shù)據(jù) 專有領(lǐng)域

隨著計算機硬件的成本降低，性能提高，為海量數(shù)據(jù)的存儲提供了物質(zhì)基礎(chǔ)。同時，云計算的出現(xiàn)，更是為大數(shù)據(jù)的存儲和計算提供了便利。有了海量數(shù)據(jù)，那么如何對數(shù)據(jù)進(jìn)行有效利用是另一個重要的研究課題。數(shù)據(jù)檢索以及數(shù)據(jù)挖掘?qū)W科有專門的算法對數(shù)據(jù)進(jìn)行有效的處理及利用，本體作為知識組織的一種形式，對領(lǐng)域中的知識進(jìn)行表示，并與各種算法相結(jié)合，可以對大數(shù)據(jù)的相關(guān)研究起到一定的作用。

1 本體的定義

Gruber于1993年提出的本體的定義在業(yè)界首次獲得一致認(rèn)可，他指出“本體是概念模型的明確的規(guī)范說明”。而后在此基礎(chǔ)上一個新的定義被Brost提出，即本體是共享概念模型的明確的形式化規(guī)范說明，該定義目前使用較為廣泛，它其中包含了四層的含義：概念化，形式化，明確性和共享。

2 本體在知識檢索中的應(yīng)用

全文檢索是一種將文件中所有的文本內(nèi)容與檢索項匹配的文字資料檢索方法。信息檢索出現(xiàn)了很多模型，其中比較經(jīng)典的有：布爾模型，概率模型，向量空間模型，概念檢索模型。在大數(shù)據(jù)時代，由于大數(shù)據(jù)在存儲，收集，分析及檢索方面與傳統(tǒng)數(shù)據(jù)存在著區(qū)別，信息檢索也需要進(jìn)行相應(yīng)的變革。在某個領(lǐng)域的檢索系統(tǒng)中，常常會融入本體進(jìn)行研究，以提高檢索模型的查全率和查準(zhǔn)率。基于本體的查詢詞擴展，是較為常見的研究方向。該方法在一定程度上克服了傳統(tǒng)查詢詞擴展的語義性差、主題性差等缺點。這方面的研究很多，其核心思想大致如下：

（1）檢索系統(tǒng)需對用戶輸入的查詢內(nèi)容進(jìn)行預(yù)處理，獲得相關(guān)的查詢詞集。

（2）對查詢詞集中的關(guān)鍵詞進(jìn)行分析，根據(jù)領(lǐng)域本體知識庫，劃分成本體概念集合與非本體概念集合。

（3）對本體概念集合中的概念詞按照一定的方式進(jìn)行語義查詢擴展。

（4）通過閾值對擴展詞進(jìn)行篩選。

上述的基本過程中，可能會存在一些缺點，近年來的研究中從不同的角度對基于本體的查詢詞擴展結(jié)合實際的需求進(jìn)行了改善。

另外一個研究方向就是本體概念相似度的計算，主要的概念相似度計算方法有基于距離的概念相似度計算，基于屬性的概念相似度計算，混合式概念相似度計算。尋找合適的相似度計算方法用于計算查詢詞和擴展詞的相似度，調(diào)整擴展詞的權(quán)重，會使查詢結(jié)果更優(yōu)?；诒倔w的文檔的語義標(biāo)注也是研究的熱點，對文檔進(jìn)行語義標(biāo)注后，可以把文檔隱含的語義信息顯式的表現(xiàn)出來，可以為檢索的智能推理提供基礎(chǔ)。

3 本體在數(shù)據(jù)挖掘中的應(yīng)用

數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān)，并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)（依靠過去的經(jīng)驗法則）和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。在各個領(lǐng)域中，比如教育、航天、銀行、證券、電信等，數(shù)據(jù)挖掘也開始廣泛應(yīng)用。銀行可以通過一定的機器學(xué)習(xí)算法預(yù)測客戶是否有跑路的嫌疑。如今，數(shù)據(jù)挖掘已經(jīng)在各個領(lǐng)域中得到了應(yīng)用，但是可能相關(guān)的技術(shù)人員并不是各個領(lǐng)域的專業(yè)人才，會給數(shù)據(jù)挖掘的推廣造成一定的障礙。針對這種現(xiàn)狀，將本體思想與技術(shù)引入到數(shù)據(jù)挖掘過程中，用領(lǐng)域本體表示領(lǐng)域背景知識，可以在一定程度上輔助技術(shù)人員進(jìn)行數(shù)據(jù)挖掘使數(shù)據(jù)得到有效利用獲取有價值的信息。如果認(rèn)為數(shù)據(jù)挖掘的基本過程如圖1所示。

傳統(tǒng)數(shù)據(jù)挖掘被認(rèn)為有三個方面的缺陷：規(guī)則過載、脫離情境、沒有合理使用領(lǐng)域?qū)＜抑R，容易受數(shù)據(jù)挖掘者個人的挖掘偏好影響。將本體適當(dāng)?shù)膽?yīng)用在數(shù)據(jù)挖掘的各個階段，將領(lǐng)域知識融入到數(shù)據(jù)挖掘的過程中，可以更好的通過數(shù)據(jù)挖掘過程獲取有價值的信息。本體在數(shù)據(jù)預(yù)處理階段的應(yīng)用，基于本體的數(shù)據(jù)挖掘算法的改進(jìn)等都是比較常見的融入本體進(jìn)行研究的方向。比如，基于本體的文本聚類算法的研究，該方法可以有效地減少文本特征向量的維數(shù)，同時提高文本聚類效果以及聚類結(jié)果的可解釋性。

4 總結(jié)

學(xué)者的各種研究，最終的目的都是希望在大數(shù)據(jù)中對數(shù)據(jù)進(jìn)行有效并且高效的利用，得到所需的高價值的信息從而服務(wù)于企業(yè)或者領(lǐng)域的發(fā)展。由于領(lǐng)域具有專業(yè)性，將本體應(yīng)用到領(lǐng)域大數(shù)據(jù)的相關(guān)研究中，具有一定的研究價值。

參考文獻(xiàn)

[1]林志陽.基于OWL語義本體的推理與存儲研究[D].海南大學(xué)，2008.

[2]時念云，楊晨.基于領(lǐng)域本體的語義標(biāo)注方法研究[J].計算機工程與設(shè)計，2007（24）：5985-5987.

[3]王棟，向陽，張波.本體在數(shù)據(jù)挖掘系統(tǒng)中的應(yīng)用研究[J].計算機工程與應(yīng)用，2009，45（05）：11-12+15.

[4]聞中慧.數(shù)據(jù)挖掘中的本體應(yīng)用研究綜述[J].軟件導(dǎo)刊，2012，11（07）：104-106.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

領(lǐng)域本體在大數(shù)據(jù)時代的應(yīng)用