国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

領(lǐng)域本體在大數(shù)據(jù)時代的應(yīng)用

2018-02-28 11:19胡春美
電子技術(shù)與軟件工程 2018年21期
關(guān)鍵詞:本體數(shù)據(jù)挖掘檢索

胡春美

摘要

隨著信息化的發(fā)展,我們邁入了大數(shù)據(jù)的時代,在海量的形式多樣的數(shù)據(jù)中能夠高速、高效的獲取有價值的信息,是如今面臨的重要課題。對于很多專有領(lǐng)域來說,領(lǐng)域知識也變得越來越豐富,本體的應(yīng)用能使領(lǐng)域術(shù)語,概念和認(rèn)知通過統(tǒng)一的框架得以分享。研究本體在大數(shù)據(jù)時代的應(yīng)用,可以提高知識的利用效率,具有一定的現(xiàn)實意義。

【關(guān)鍵詞】本體 大數(shù)據(jù) 專有領(lǐng)域

隨著計算機硬件的成本降低,性能提高,為海量數(shù)據(jù)的存儲提供了物質(zhì)基礎(chǔ)。同時,云計算的出現(xiàn),更是為大數(shù)據(jù)的存儲和計算提供了便利。有了海量數(shù)據(jù),那么如何對數(shù)據(jù)進(jìn)行有效利用是另一個重要的研究課題。數(shù)據(jù)檢索以及數(shù)據(jù)挖掘?qū)W科有專門的算法對數(shù)據(jù)進(jìn)行有效的處理及利用,本體作為知識組織的一種形式,對領(lǐng)域中的知識進(jìn)行表示,并與各種算法相結(jié)合,可以對大數(shù)據(jù)的相關(guān)研究起到一定的作用。

1 本體的定義

Gruber于1993年提出的本體的定義在業(yè)界首次獲得一致認(rèn)可,他指出“本體是概念模型的明確的規(guī)范說明”。而后在此基礎(chǔ)上一個新的定義被Brost提出,即本體是共享概念模型的明確的形式化規(guī)范說明,該定義目前使用較為廣泛,它其中包含了四層的含義:概念化,形式化,明確性和共享。

2 本體在知識檢索中的應(yīng)用

全文檢索是一種將文件中所有的文本內(nèi)容與檢索項匹配的文字資料檢索方法。信息檢索出現(xiàn)了很多模型,其中比較經(jīng)典的有:布爾模型,概率模型,向量空間模型,概念檢索模型。在大數(shù)據(jù)時代,由于大數(shù)據(jù)在存儲,收集,分析及檢索方面與傳統(tǒng)數(shù)據(jù)存在著區(qū)別,信息檢索也需要進(jìn)行相應(yīng)的變革。在某個領(lǐng)域的檢索系統(tǒng)中,常常會融入本體進(jìn)行研究,以提高檢索模型的查全率和查準(zhǔn)率。基于本體的查詢詞擴展,是較為常見的研究方向。該方法在一定程度上克服了傳統(tǒng)查詢詞擴展的語義性差、主題性差等缺點。這方面的研究很多,其核心思想大致如下:

(1)檢索系統(tǒng)需對用戶輸入的查詢內(nèi)容進(jìn)行預(yù)處理,獲得相關(guān)的查詢詞集。

(2)對查詢詞集中的關(guān)鍵詞進(jìn)行分析,根據(jù)領(lǐng)域本體知識庫,劃分成本體概念集合與非本體概念集合。

(3)對本體概念集合中的概念詞按照一定的方式進(jìn)行語義查詢擴展。

(4)通過閾值對擴展詞進(jìn)行篩選。

上述的基本過程中,可能會存在一些缺點,近年來的研究中從不同的角度對基于本體的查詢詞擴展結(jié)合實際的需求進(jìn)行了改善。

另外一個研究方向就是本體概念相似度的計算,主要的概念相似度計算方法有基于距離的概念相似度計算,基于屬性的概念相似度計算,混合式概念相似度計算。尋找合適的相似度計算方法用于計算查詢詞和擴展詞的相似度,調(diào)整擴展詞的權(quán)重,會使查詢結(jié)果更優(yōu)?;诒倔w的文檔的語義標(biāo)注也是研究的熱點,對文檔進(jìn)行語義標(biāo)注后,可以把文檔隱含的語義信息顯式的表現(xiàn)出來,可以為檢索的智能推理提供基礎(chǔ)。

3 本體在數(shù)據(jù)挖掘中的應(yīng)用

數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。在各個領(lǐng)域中,比如教育、航天、銀行、證券、電信等,數(shù)據(jù)挖掘也開始廣泛應(yīng)用。銀行可以通過一定的機器學(xué)習(xí)算法預(yù)測客戶是否有跑路的嫌疑。如今,數(shù)據(jù)挖掘已經(jīng)在各個領(lǐng)域中得到了應(yīng)用,但是可能相關(guān)的技術(shù)人員并不是各個領(lǐng)域的專業(yè)人才,會給數(shù)據(jù)挖掘的推廣造成一定的障礙。針對這種現(xiàn)狀,將本體思想與技術(shù)引入到數(shù)據(jù)挖掘過程中,用領(lǐng)域本體表示領(lǐng)域背景知識,可以在一定程度上輔助技術(shù)人員進(jìn)行數(shù)據(jù)挖掘使數(shù)據(jù)得到有效利用獲取有價值的信息。如果認(rèn)為數(shù)據(jù)挖掘的基本過程如圖1所示。

傳統(tǒng)數(shù)據(jù)挖掘被認(rèn)為有三個方面的缺陷:規(guī)則過載、脫離情境、沒有合理使用領(lǐng)域?qū)<抑R,容易受數(shù)據(jù)挖掘者個人的挖掘偏好影響。將本體適當(dāng)?shù)膽?yīng)用在數(shù)據(jù)挖掘的各個階段,將領(lǐng)域知識融入到數(shù)據(jù)挖掘的過程中,可以更好的通過數(shù)據(jù)挖掘過程獲取有價值的信息。本體在數(shù)據(jù)預(yù)處理階段的應(yīng)用,基于本體的數(shù)據(jù)挖掘算法的改進(jìn)等都是比較常見的融入本體進(jìn)行研究的方向。比如,基于本體的文本聚類算法的研究,該方法可以有效地減少文本特征向量的維數(shù),同時提高文本聚類效果以及聚類結(jié)果的可解釋性。

4 總結(jié)

學(xué)者的各種研究,最終的目的都是希望在大數(shù)據(jù)中對數(shù)據(jù)進(jìn)行有效并且高效的利用,得到所需的高價值的信息從而服務(wù)于企業(yè)或者領(lǐng)域的發(fā)展。由于領(lǐng)域具有專業(yè)性,將本體應(yīng)用到領(lǐng)域大數(shù)據(jù)的相關(guān)研究中,具有一定的研究價值。

參考文獻(xiàn)

[1]林志陽.基于OWL語義本體的推理與存儲研究[D].海南大學(xué),2008.

[2]時念云,楊晨.基于領(lǐng)域本體的語義標(biāo)注方法研究[J].計算機工程與設(shè)計,2007(24):5985-5987.

[3]王棟,向陽,張波.本體在數(shù)據(jù)挖掘系統(tǒng)中的應(yīng)用研究[J].計算機工程與應(yīng)用,2009,45(05):11-12+15.

[4]聞中慧.數(shù)據(jù)挖掘中的本體應(yīng)用研究綜述[J].軟件導(dǎo)刊,2012,11(07):104-106.

猜你喜歡
本體數(shù)據(jù)挖掘檢索
Abstracts and Key Words
對姜夔自度曲音樂本體的現(xiàn)代解讀
2019年第4-6期便捷檢索目錄
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
專利檢索中“語義”的表現(xiàn)
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
國際標(biāo)準(zhǔn)檢索
國際標(biāo)準(zhǔn)檢索
阳信县| 隆德县| 法库县| 南昌县| 德州市| 清河县| 普宁市| 黔南| 怀集县| 抚顺市| 砚山县| 抚松县| 通许县| 高州市| 沙雅县| 五寨县| 闸北区| 南乐县| 尤溪县| 萝北县| 邢台市| 安平县| 临城县| 墨江| 那曲县| 加查县| 罗山县| 庆安县| 水富县| 临沭县| 西宁市| 慈溪市| 沙洋县| 榆林市| 辽宁省| 封丘县| 曲松县| 宜兰市| 顺义区| 富川| 探索|