国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SWOT 分析的非結(jié)構(gòu)化數(shù)據(jù)文本分類算法

2022-10-19 06:59:10易曉宇易綿竹
科技創(chuàng)新與應(yīng)用 2022年29期
關(guān)鍵詞:結(jié)構(gòu)化數(shù)據(jù)挖掘分類

易曉宇,易綿竹

(信息工程大學(xué)洛陽(yáng)校區(qū),河南 洛陽(yáng) 471000)

網(wǎng)絡(luò)是一個(gè)互動(dòng)的、超鏈接的、異質(zhì)的、分布的和動(dòng)態(tài)的信息傳播渠道。網(wǎng)絡(luò)的體量從各領(lǐng)域的角度來(lái)看都是相當(dāng)龐大的,而且在日常電子活動(dòng)中的滲透迫使人們改變和擴(kuò)大現(xiàn)有的基于信息的技術(shù)革命,并建立一個(gè)新的基于知識(shí)的時(shí)代。為用戶提供信息源的提煉技術(shù)已經(jīng)變得越來(lái)越必要。相關(guān)文獻(xiàn)報(bào)道,網(wǎng)絡(luò)上約有80%的信息是以非結(jié)構(gòu)化的形式存在的,如電子郵件、新聞文章和網(wǎng)頁(yè)[1]。結(jié)構(gòu)化數(shù)據(jù)類似于機(jī)器語(yǔ)言,使信息的操作和管理更加直接;而非結(jié)構(gòu)化數(shù)據(jù)通常是自然語(yǔ)言文本,沒有嚴(yán)格的語(yǔ)義結(jié)構(gòu)或數(shù)據(jù)庫(kù)格式。顯而易見,如果能夠立即將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),那么從非結(jié)構(gòu)化數(shù)據(jù)中理解情報(bào)就會(huì)更加簡(jiǎn)單。

向跨領(lǐng)域的分析人員提供有針對(duì)性的信息。其囊括了信息檢索系統(tǒng)用來(lái)發(fā)現(xiàn)知識(shí)的自然語(yǔ)言處理和數(shù)據(jù)挖掘技術(shù)。使用分類算法智能地挖掘文本得到了廣泛的研究。研究主要調(diào)查了在挖掘非結(jié)構(gòu)化數(shù)據(jù)過程中采用的文本分類算法,并對(duì)各分類算法的優(yōu)勢(shì)、劣勢(shì)、機(jī)會(huì)和威脅(SWOT)的使用趨勢(shì)進(jìn)行了結(jié)論性的分析。主要在情感分析的應(yīng)用領(lǐng)域探討這些算法,在一篇文獻(xiàn)中,情感分析基本上是作為一個(gè)典型的文本分類任務(wù)來(lái)研究的。圖譜中可以確定未開發(fā)的社交媒體技術(shù)和這些算法在各社交媒體中的使用程度,相關(guān)研究人員可以更為方便地了解基于機(jī)器學(xué)習(xí)的社交媒體情感分析領(lǐng)域已完成的工作。

1 知識(shí)發(fā)現(xiàn)框架分類法

信息密集型應(yīng)用要求科研人員從典型的文檔檢索發(fā)展到“知識(shí)”發(fā)現(xiàn)。傳統(tǒng)的發(fā)現(xiàn)框架包括自動(dòng)發(fā)現(xiàn)目標(biāo)知識(shí)的新方法,這些方法來(lái)自數(shù)據(jù)挖掘、信息檢索、自然語(yǔ)言處理、人工智能、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)等研究領(lǐng)域。重要的分類法如下。

1.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘被定義為從大型數(shù)據(jù)集或數(shù)據(jù)庫(kù)中提取隱含的、未知和潛在有用信息的非簡(jiǎn)單抽取方法。用來(lái)從結(jié)構(gòu)化的數(shù)據(jù)集合中識(shí)別和提取新穎、有效及可理解的模式。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取或挖掘知識(shí)。

1.2 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)

知識(shí)發(fā)現(xiàn)是在數(shù)據(jù)中發(fā)現(xiàn)新穎、有趣和有用模式的過程。數(shù)據(jù)挖掘通常被認(rèn)為是在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)過程中的一個(gè)重要步驟。因此,數(shù)據(jù)挖掘和數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)常被當(dāng)作同義詞。

1.3 信息檢索

一個(gè)典型的信息檢索任務(wù)是用戶在特定情況下為解決其當(dāng)前問題所需的檢索。網(wǎng)絡(luò)信息檢索(IR)可以被定義為將IR 的理論和方法應(yīng)用于萬(wàn)維網(wǎng)。其涉及IR 的技術(shù)和實(shí)際應(yīng)用。

1.4 信息抽取

信息抽取(IE)可以使信息檢索更加精確,因?yàn)槠湓诩?xì)粒度層面上工作,通過從檢索到的文件中提取相關(guān)的事實(shí),將使用IR 系統(tǒng)檢索到的相關(guān)文件集合轉(zhuǎn)化為可以有效理解和分析的信息。IE 包括命名實(shí)體識(shí)別(NER)和關(guān)系抽取等子任務(wù)。因此,IE 可以用來(lái)改善IR 過程中的索引部分。

1.5 網(wǎng)絡(luò)挖掘

網(wǎng)絡(luò)挖掘是指使用數(shù)據(jù)挖掘技術(shù)自動(dòng)檢索、提取和評(píng)估(規(guī)范化/分析)信息,以便從網(wǎng)絡(luò)文件中發(fā)現(xiàn)知識(shí)[2]。數(shù)字革命產(chǎn)生了巨量數(shù)據(jù),促進(jìn)了利用智能算法從其中發(fā)掘出有價(jià)值知識(shí)的需求。由于網(wǎng)絡(luò)數(shù)據(jù)的異質(zhì)性、半結(jié)構(gòu)性、分布性、時(shí)變性和多維性,自動(dòng)發(fā)現(xiàn)目標(biāo)知識(shí)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

為確定一個(gè)有價(jià)值的知識(shí)發(fā)現(xiàn)框架,數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)、信息檢索、信息抽取和網(wǎng)絡(luò)挖掘都有明確的不同目標(biāo),卻又相互補(bǔ)充。網(wǎng)絡(luò)挖掘中,信息檢索和信息抽取作為預(yù)處理文本數(shù)據(jù)的子任務(wù),應(yīng)用數(shù)據(jù)挖掘算法促進(jìn)有用模式的發(fā)現(xiàn)。另外,網(wǎng)絡(luò)挖掘可以提高IR 系統(tǒng)的精度,并以更好的組織方式呈現(xiàn)檢索結(jié)果。網(wǎng)絡(luò)挖掘是數(shù)據(jù)挖掘過程的延伸,網(wǎng)絡(luò)挖掘過程的主要組成部分包括:信息檢索模塊,用于檢索相關(guān)文件;信息抽取模塊,用于從檢索到的文件中選擇有不同數(shù)據(jù),并將其轉(zhuǎn)化為形式表示;泛化模塊,主要使用數(shù)據(jù)挖掘方法自動(dòng)發(fā)現(xiàn)多個(gè)網(wǎng)絡(luò)文件的模式;分析模塊,用于分析數(shù)據(jù)。

網(wǎng)絡(luò)信息的多樣性將網(wǎng)絡(luò)挖掘分為3 個(gè)大類,即網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘和網(wǎng)絡(luò)使用挖掘。文本挖掘是網(wǎng)絡(luò)內(nèi)容挖掘的一種類型,是從文本中獲取知識(shí)的過程。其也被稱為文本數(shù)據(jù)挖掘(TDM)和文本數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDT),是匯編、組織和分析大型文件集的過程,為分析和決策者提供信息。區(qū)分文本挖掘和數(shù)據(jù)挖掘主要是考慮數(shù)據(jù)庫(kù)的特點(diǎn),在文本挖掘中是非結(jié)構(gòu)化的數(shù)據(jù),在數(shù)據(jù)挖掘中是結(jié)構(gòu)化的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)指的是具有高度組織性的信息,這樣的信息在關(guān)系型數(shù)據(jù)庫(kù)中是無(wú)縫的,可以通過簡(jiǎn)單、直接的搜索引擎算法或其他搜索操作進(jìn)行搜索;而非結(jié)構(gòu)化數(shù)據(jù)基本上是相反的[3]。非結(jié)構(gòu)化數(shù)據(jù)在編譯時(shí)更為耗時(shí)和耗力。

2 文本挖掘過程

文本挖掘是從語(yǔ)料庫(kù)中識(shí)別新信息的過程,主要是為了在文本中發(fā)現(xiàn)用戶以前未知的知識(shí)。文本數(shù)據(jù)主要是非結(jié)構(gòu)化數(shù)據(jù),挖掘這種類型的數(shù)據(jù)主要涉及將非結(jié)構(gòu)化的數(shù)據(jù)系統(tǒng)地轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),并使用專門的數(shù)據(jù)挖掘技術(shù)發(fā)掘出隱藏的知識(shí)。因此,文本挖掘中的智能是基于自然語(yǔ)言處理技術(shù)(NLP),NLP可以作為一種預(yù)處理技術(shù)來(lái)獲取數(shù)據(jù),并初步了解數(shù)據(jù)中存在的模式。因此,文本挖掘=統(tǒng)計(jì)NLP(結(jié)構(gòu)化數(shù)據(jù))+數(shù)據(jù)挖掘(模式發(fā)現(xiàn))。文本挖掘的通用策略包括預(yù)處理(消除停頓詞、詞根等)、使用各種統(tǒng)計(jì)或語(yǔ)義方法選擇特征,以及使用適當(dāng)?shù)臄?shù)據(jù)挖掘建模及算法(分類或聚類或回歸技術(shù))[4],最終預(yù)測(cè)出具有可解釋性和可行性能的模型。分類或聚類算法是2 種關(guān)鍵的數(shù)據(jù)挖掘方法。分類是一種有監(jiān)督學(xué)習(xí),在特征的基礎(chǔ)上為實(shí)例分配預(yù)先設(shè)定的標(biāo)簽,需要訓(xùn)練數(shù)據(jù)。聚類是一種無(wú)監(jiān)督學(xué)習(xí),不需要訓(xùn)練數(shù)據(jù),在特征的基礎(chǔ)上對(duì)類似的實(shí)例進(jìn)行分組。

本研究的重點(diǎn)是確定用于文本數(shù)據(jù)挖掘的分類算法,僅考慮使用分類算法挖掘過程的每個(gè)步驟。步驟依次為:文本預(yù)處理(句法/語(yǔ)義文本)—特征生成(詞袋)—特征選擇過程(簡(jiǎn)單計(jì)數(shù)統(tǒng)計(jì))—數(shù)據(jù)挖掘監(jiān)督/無(wú)監(jiān)督/半監(jiān)督學(xué)習(xí)算法(分類/聚類)—結(jié)果分析與預(yù)測(cè)模型。

2.1 文本轉(zhuǎn)換

將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的知識(shí)發(fā)現(xiàn)方法,包括2 個(gè)子任務(wù),即文本預(yù)處理和特征生成。預(yù)處理將文件轉(zhuǎn)換為適合分類任務(wù)的表示。一般來(lái)說,文本可以用2 種方式表示,即用詞包表示,每個(gè)文檔被表示為一組詞,以及其在文檔中的相關(guān)頻率(詞頻)(基本上與集合中的詞的順序無(wú)關(guān))或直接表示為字符串,即每個(gè)文檔是一個(gè)詞的序列。大多數(shù)文本分類方法使用詞包表示法[5]。

在分析非結(jié)構(gòu)化文本之前需要進(jìn)行清洗。常見的文本清洗任務(wù)包括用空格替換特殊字符和標(biāo)點(diǎn)符號(hào)、規(guī)范化大小寫、刪除重復(fù)字符和消除用戶自定或內(nèi)置的停用詞及詞干化。因此,文本數(shù)據(jù)清洗基本上是文本預(yù)處理的一個(gè)子任務(wù),文本數(shù)據(jù)清洗包括的子任務(wù)有數(shù)據(jù)整合、數(shù)據(jù)還原、特征選擇及數(shù)字?jǐn)?shù)據(jù)離散化。

2.2 特征選擇

文本特征的高維度和不相關(guān)特征(噪聲)的存在,分類之前需要完成的基本任務(wù)之一是特征選擇。方面級(jí)情感分析的主要任務(wù)是抽取對(duì)象(特征)和極性詞。特征選擇方法從文檔中去除非信息術(shù)語(yǔ),提高分類效果并降低計(jì)算的復(fù)雜性。常用的特征選擇方法有:基尼指數(shù)(Gini Index)、信息增益(IG)、互信息(MI)、χ2統(tǒng)計(jì)(CHI)、文檔頻率閾值(Term Frequency)、Tf-idf。特征轉(zhuǎn)換方法有:監(jiān)督LSI、線性判別分析和廣義奇異值分解。特征選擇方法的目的是通過刪除與分類無(wú)關(guān)的詞減少特征集的大小,降低維度,提高分類的準(zhǔn)確性。

2.3 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是網(wǎng)絡(luò)挖掘的歸納任務(wù),可以自動(dòng)發(fā)現(xiàn)多個(gè)網(wǎng)絡(luò)文件的模式。分類是文本數(shù)據(jù)挖掘研究中重要任務(wù)之一。其本質(zhì)上是根據(jù)文檔的內(nèi)容將其歸入預(yù)先確定的類別的過程,通常包括2 個(gè)步驟:模型構(gòu)建和模型使用。

2.3.1 模型構(gòu)建

為了描述一組用于分類的預(yù)定類別,需要使用分類規(guī)則、決策樹或數(shù)學(xué)公式來(lái)表示訓(xùn)練集,構(gòu)建一個(gè)模型。

2.3.2 模型使用

上述模型用于對(duì)未來(lái)或未知對(duì)象進(jìn)行分類。測(cè)試樣本的已知標(biāo)簽與模型的分類結(jié)果進(jìn)行比較。測(cè)試集獨(dú)立于訓(xùn)練集,否則就會(huì)出現(xiàn)過擬合。模型的準(zhǔn)確性是通過準(zhǔn)確率評(píng)定,準(zhǔn)確率是指被該模型正確分類的測(cè)試集樣本的百分比。

2.4 結(jié)果分析

建立預(yù)測(cè)模型后,下一步就是驗(yàn)證或解釋挖掘出來(lái)的模式。更具體地說,其對(duì)應(yīng)于從網(wǎng)絡(luò)上獲得的知識(shí)的解釋、驗(yàn)證和可視化[6]。算法的性能可以通過以下參數(shù)來(lái)衡量:訓(xùn)練時(shí)間、測(cè)試時(shí)間、分類準(zhǔn)確度、精確度、召回率、微平均、宏平均和平衡點(diǎn)(精確度=召回率)。目標(biāo)是實(shí)現(xiàn)分類高質(zhì)量和高計(jì)算效率。

3 挖掘非結(jié)構(gòu)化數(shù)據(jù)的分類算法

分類算法的目標(biāo)是將文本歸入一個(gè)預(yù)先設(shè)定的類別中。其定義為:給定一個(gè)訓(xùn)練數(shù)據(jù)集D={X1,…,XN},數(shù)據(jù)集中的每條記錄均被貼上一個(gè)類別值,這個(gè)類別值是從一組由{1…k}為索引的K 個(gè)不同離散值中抽取的。訓(xùn)練數(shù)據(jù)用來(lái)構(gòu)建分類模型,該模型將基礎(chǔ)記錄中的特征與類別標(biāo)簽之一聯(lián)系起來(lái)。對(duì)于類別未知的特定測(cè)試實(shí)例,訓(xùn)練模型用來(lái)預(yù)測(cè)該實(shí)例的類別標(biāo)簽。為了給本研究提供一個(gè)結(jié)論性的工作,采用SWOT(優(yōu)勢(shì)、劣勢(shì)、機(jī)會(huì)和威脅)分析。SWOT 可以快速進(jìn)行戰(zhàn)略分析,通常用來(lái)了解當(dāng)前的情況或計(jì)劃,評(píng)估相對(duì)機(jī)會(huì),分析領(lǐng)域內(nèi)外的所有積極和消極因素[7]。隨著情感分析應(yīng)用于商業(yè)與政府,SWOT 適用于評(píng)估、理解和評(píng)價(jià)相對(duì)機(jī)會(huì)。表1列舉了在文本挖掘相關(guān)研究中的分類算法。

表1 文本數(shù)據(jù)挖掘中分類算法的SWOT 分析

每種分類算法都有自己的優(yōu)勢(shì)和劣勢(shì)。目前,預(yù)訓(xùn)練模型因使自然語(yǔ)言處理由原來(lái)的手工調(diào)參、依靠專家的階段,進(jìn)入到可以大規(guī)模、可復(fù)制的大工業(yè)施展的階段而興起。而且預(yù)訓(xùn)練模型從單語(yǔ)言、擴(kuò)展到多語(yǔ)言、多模態(tài)任務(wù)。

情感分析是人們對(duì)某個(gè)實(shí)體的意見、態(tài)度和情感的計(jì)算研究。其將人們的情緒劃分為消極、積極、中性的基本極性。從用戶意見中得到分?jǐn)?shù),概括出用戶的觀點(diǎn)。情感分析描述了一個(gè)自然語(yǔ)言處理問題,將意見性文本與事實(shí)性文本區(qū)分開來(lái),如果是前者,則確定其極性。同時(shí),從應(yīng)用層面考慮,情感挖掘在社交網(wǎng)絡(luò)的趨勢(shì)上是可行的。從20 世紀(jì)90 年代中期提出情感分析,“社會(huì)網(wǎng)絡(luò)”仍在熱議中。研究用戶在不同的討論門戶上所持有的觀點(diǎn),這也是情感分析在思考人群行為方面所發(fā)揮的不可或缺的作用。所有用戶在網(wǎng)絡(luò)上產(chǎn)生的數(shù)據(jù)都被稱為社會(huì)媒體內(nèi)容,這些進(jìn)入動(dòng)態(tài)網(wǎng)絡(luò)的數(shù)據(jù)沒有任何格式或順序可循。從其流動(dòng)的數(shù)量和種類來(lái)看,是“大數(shù)據(jù)”的一部分。

4 結(jié)論

從海量的大數(shù)據(jù)中挖掘和分析信息,是一個(gè)高效的決策過程?;仡櫽糜谥悄芡诰蚍墙Y(jié)構(gòu)化數(shù)據(jù)的主要文本分類算法的應(yīng)用情況,并從各算法的優(yōu)勢(shì)、劣勢(shì)、機(jī)會(huì)和威脅(SWOT)方面對(duì)其使用趨勢(shì)進(jìn)行了結(jié)論性的分析報(bào)告。探討了這些算法的應(yīng)用范圍,即情感分析為一種典型的文本分析。其目的是了解基于機(jī)器學(xué)習(xí)的社交媒體情感分析領(lǐng)域的任務(wù),確定該領(lǐng)域有待解決的問題和研究空白。

猜你喜歡
結(jié)構(gòu)化數(shù)據(jù)挖掘分類
分類算一算
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
吉木萨尔县| 伊春市| 游戏| 深水埗区| 西青区| 师宗县| 汶上县| 新竹县| 柯坪县| 中阳县| 惠安县| 桂林市| 松潘县| 漾濞| 河曲县| 高州市| 三门峡市| 武威市| 大竹县| 电白县| 叙永县| 南康市| 武强县| 丁青县| 潢川县| 成安县| 共和县| 阆中市| 长沙县| 舒兰市| 秦安县| 金溪县| 子长县| 蚌埠市| 丘北县| 乌海市| 新昌县| 分宜县| 舞阳县| 建宁县| 东港市|