楊凡 任丹 丁函
摘 ?要: 大數(shù)據(jù)時(shí)代的到來,為人們帶來大量的文本信息,而如何在文本信息中搜尋有效信息,成為人們關(guān)注重點(diǎn)。文本分類技術(shù)是一項(xiàng)以人工技能為基礎(chǔ)的新型技術(shù),其能夠根據(jù)語義分析將計(jì)算機(jī)技術(shù)文本進(jìn)行科學(xué)分類,幫助人們獲得其想要的信息,滿足群眾的需求。對(duì)此,文章基于語義分析,探討了文本分類技術(shù)的應(yīng)用。
關(guān)鍵詞: 語義分析;計(jì)算機(jī)技術(shù);文本分類
中圖分類號(hào): TP391.1 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.06.017
本文著錄格式:楊凡,任丹,丁函. 計(jì)算機(jī)技術(shù)文本分類中的語義分析算法的實(shí)踐探討[J]. 軟件,2019,40(6):7880
【Abstract】: The arrival of the era of big data has brought a lot of text information to people, and how to search for effective information in text information has become the focus of attention. Text classification technology is a new technology based on artificial skills. It can scientifically classify computer technical texts according to semantic analysis, helping people to get the information they want and meet the needs of the masses. In this regard, the article based on semantic analysis, explores the application of text classification technology.
【Key words】: Semantic analysis; Computer technology; Text classification
0 ?引言
文本分類技術(shù)[1]作為人工智能的一部分,是大數(shù)據(jù)時(shí)代衍生出的新技術(shù),語義分析是腳本編譯過程的邏輯階段,審查源程序的上下文是否存在語義錯(cuò)誤,為代碼的生成收集其所需的信息。當(dāng)前,在文本分析技術(shù)應(yīng)用時(shí),常用的文本分類算法主要有:決策樹、神經(jīng)網(wǎng)絡(luò)、Rocchio、KNN、最大熵、遺傳算法等[2],隨著數(shù)據(jù)信息的不斷增多,文本信息的碎片化越發(fā)嚴(yán)重,傳統(tǒng)的文本分析算法已經(jīng)無法滿足需求。對(duì)此,文章探討了語義分析算法在文本分類中的應(yīng)用。
1 ?國(guó)內(nèi)外對(duì)文本分類的發(fā)展
文本分類,國(guó)外對(duì)其的研究較早,在上世紀(jì)五十年代,IBM公司就提出了以詞頻統(tǒng)計(jì)對(duì)文本進(jìn)行分類,在文本分類方面取得了開創(chuàng)性成果,之后,國(guó)外對(duì)文本分類展開深入研究,由實(shí)驗(yàn)室到商業(yè)應(yīng)用,取得了顯著成效。上世紀(jì)九十年代之前,文本分類主要有專業(yè)人員實(shí)現(xiàn),以純?nèi)斯し绞竭_(dá)到文本分類目的,耗費(fèi)時(shí)間長(zhǎng),效率較低。九十年代以后,文本分類的重要性越發(fā)凸顯,傳統(tǒng)人工分類方式被淘汰,以機(jī)器學(xué)習(xí)成為文本分類的新模式,不需要專家判斷,即可完成文本分類,分類效率顯著提高。
國(guó)外在文本分類領(lǐng)域研究較早,并取得了顯著成果,如:Web網(wǎng)絡(luò)自動(dòng)分類系統(tǒng),新聞稿件的自動(dòng)投稿系統(tǒng)等。
相對(duì)來講,我國(guó)在文本分類方面研究較晚,因?yàn)橹杏⑽牡牟町?,僅能參考國(guó)外研究成果,卻不能完全采用。同時(shí),計(jì)算機(jī)設(shè)計(jì)以西方國(guó)家語言為主,文字編碼存在較大問題,為此,我國(guó)多位學(xué)者加大力度研究,并于上世紀(jì)八十年代解決漢字編碼這一難點(diǎn),推動(dòng)了我國(guó)文本分類的發(fā)展。當(dāng)前,我國(guó)常用文檔分類方式大致可分為兩種:其一,基于統(tǒng)計(jì)學(xué)進(jìn)行分類,以機(jī)器學(xué)習(xí)原理,對(duì)文本進(jìn)行分類,該方式與文檔語義信息沒有直接關(guān)聯(lián)性。其二,基于語義對(duì)文本進(jìn)行分類,利用文檔的語義將文本內(nèi)容分為不同種類。文章對(duì)語義分析在文本分類中的應(yīng)用展開探析。
2 ?文本分類的概念與過程
文本分類,主要是利用計(jì)算機(jī)以一定的標(biāo)準(zhǔn)對(duì)文本進(jìn)行自動(dòng)分類標(biāo)記,文本分類通常包含有文本表達(dá)、分類器選擇、分類器訓(xùn)練、分類結(jié)果評(píng)價(jià)、反饋等[3],其中,文本表達(dá)又被分為文本預(yù)處理、索引、統(tǒng)計(jì)以及特征抽取。預(yù)處理,主要是將原始文本的格式進(jìn)行統(tǒng)一,為后續(xù)處理奠定基礎(chǔ);索引,主要是將文檔分解,形成基本處理單元,以此降低后續(xù)處理開銷;統(tǒng)計(jì),主要包括詞頻的統(tǒng)計(jì),單詞、概念與分類的概率;特征抽取,由文檔中抽取特征,展現(xiàn)文檔主題。因?yàn)槲谋痉诸愔饕且勒辗诸愇臋n的內(nèi)容進(jìn)行劃分的,用以數(shù)學(xué)中的術(shù)語表示;若文檔集D=(d1, d2, d3,…, dn),其中,dn表示第n個(gè)文檔,將C代表文檔種類,C=(c1, c2, c3,…, ci),其中,ci代表擁有i個(gè)文檔種類。假設(shè)文檔集與文檔種類間有如下函數(shù)映射:D*C→{True, False},尋找目標(biāo)可依照如下公式:D*C→{True, False},其中,代表分類器。若(d5, c7)=True,則代表文本d5被歸入c7中;若(d5, c7)=False,則表示d5不屬于c7。
文本分類[4]主要包含以下兩步:使用訓(xùn)練數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練;使用測(cè)試數(shù)據(jù)對(duì)分類器進(jìn)行評(píng)價(jià)。具體步驟如下:其一,應(yīng)確定訓(xùn)練與測(cè)試文檔,保障兩種文檔的標(biāo)簽化;其二,將訓(xùn)練文檔預(yù)處理;其三,以特征選擇得到特征向量,保障特征向量能夠有效區(qū)分多個(gè)文檔,優(yōu)化特征子集;其四,將分類算法所支持的訓(xùn)練數(shù)據(jù)文件進(jìn)行輸出,如:別名稱、特征詞、數(shù)字編號(hào)等的輸出,以此滿足分類算法學(xué)習(xí)對(duì)格式的需求;其五,對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)處理,通過分詞、去停詞,對(duì)最優(yōu)的特種子集進(jìn)行加載,刪除特征子集外的單詞,以此保障測(cè)試數(shù)據(jù)的準(zhǔn)確性。其六,將分類算法所支持且量化的測(cè)試數(shù)據(jù)文件進(jìn)行輸出,使分類算法學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,以此取得文本分類器。最后,利用測(cè)試數(shù)據(jù),對(duì)分類器精度進(jìn)行驗(yàn)證。
3 ?分析計(jì)算機(jī)技術(shù)文本分類的需求
3.1 ?基本流程
在計(jì)算機(jī)技術(shù)文本分類時(shí),因計(jì)算機(jī)本身的智能性,在識(shí)別文本分類時(shí),并不需要另外添加更智能的識(shí)別方式,以傳統(tǒng)的語義分析模式即可。語義分析的應(yīng)用,通過對(duì)文本關(guān)鍵詞的組合,準(zhǔn)確識(shí)別文本內(nèi)容,并將文本分為不同的種類。文章以五百字符內(nèi)的自然文本為例,探討了語義分析對(duì)其的分類。通常,自然文本多用于對(duì)網(wǎng)絡(luò)頁面文本進(jìn)行分析,也被應(yīng)用于識(shí)別內(nèi)容文本與代碼段,內(nèi)容文本主要是指捕捉的超文本標(biāo)識(shí)代碼。其具體流程圖如圖1所示。
3.2 ?基本模塊
語義分析法是一種傳統(tǒng)腳本編譯算法,通常情況下,語義分析只能對(duì)人工輸入的特定文本進(jìn)行分類,且識(shí)別關(guān)鍵詞較少,大多在80-120個(gè)之間。然而,在對(duì)自然文本分類時(shí),如此規(guī)模根本無法滿足自然文本500字符的需求?;诖?,為在自然文本分類中發(fā)揮語義分析的作用,筆者選擇了采用三層識(shí)別,以此將自然文本準(zhǔn)確劃分為不同模塊,模塊H圖如圖2所示。
第一,在文本中選擇適當(dāng)?shù)年P(guān)鍵詞,識(shí)別超文本內(nèi)的標(biāo)識(shí)段數(shù)據(jù),將數(shù)據(jù)剔除。第二,根據(jù)互聯(lián)網(wǎng)中自學(xué)習(xí)關(guān)鍵詞,識(shí)別自然文本中的關(guān)鍵詞,并依照詞頻與關(guān)聯(lián)度判斷其的價(jià)值。第三,依照自學(xué)習(xí)的關(guān)鍵詞,對(duì)自然文本的概念進(jìn)行識(shí)別,對(duì)不同的文本段進(jìn)行識(shí)別,并依照其相似度歸納文本段。
3.3 ?數(shù)據(jù)比較
在比較模塊中,若輸入數(shù)據(jù)A1.1,則該數(shù)據(jù)可看做是前置比較的關(guān)鍵詞,數(shù)據(jù)的作用主要是:幫助字段輔助識(shí)別字符串。如:在超文本的文本標(biāo)識(shí)中,將數(shù)據(jù)輸入其中,則數(shù)據(jù)能夠幫助識(shí)別標(biāo)識(shí)字符串。
在比較模塊中,輸入數(shù)據(jù)A1.2,則該數(shù)據(jù)可看做是一次比較的關(guān)鍵詞,數(shù)據(jù)來源于自然文本,是文本中常見字符串,極易被用戶搜索。通過對(duì)海量信息進(jìn)行比較,所得字符串既該部分字符串。其中,海量信息的主要來源是互聯(lián)網(wǎng)。
在比較模塊中,輸入數(shù)據(jù)A1.3,則該數(shù)據(jù)可看作是補(bǔ)充比較的關(guān)鍵詞,該數(shù)據(jù)主要來源是A1.2,通過語義分析得到了數(shù)據(jù)A1.3。
由上文可知,語義分析之所以在自然文本分析中有效應(yīng)用,選擇的是三層計(jì)算,在語義分析應(yīng)用時(shí),面對(duì)文本的多層架構(gòu),應(yīng)通過不限制遞歸法,保障語義分析對(duì)文本的識(shí)別與分類[5]。因此,比較模塊的數(shù)據(jù)流較為簡(jiǎn)單。若將AL1看做比較模塊輸出的數(shù)據(jù)流,則AL1被成為是比較結(jié)果字符串。雖然,語義分析的應(yīng)用,并不能像人腦一樣對(duì)計(jì)算機(jī)文本進(jìn)行有效識(shí)別,但是,字符串所提供的鏡像,也能夠?qū)δ:Z言識(shí)別并通過對(duì)比對(duì)文本準(zhǔn)確分類,識(shí)別效率明顯高于人工,識(shí)別質(zhì)量并不低。
4 ?語義分析算法的設(shè)計(jì)
在比較模塊中,前置比較主要是對(duì)超文本的對(duì)比計(jì)算,其運(yùn)用的算法為語義分析,是當(dāng)前文本分類中最經(jīng)典的算法。在一次比較和補(bǔ)充比較中,采用的算法時(shí)語義分析的延伸,以此保障語義分析法在自然語言文本分析中更為適用。本文在采用語義分析法比較自然語言的文本時(shí),因使用了最小CPU,并引入RAM資源,所得的軟件更為高效,也更適用于現(xiàn)在互聯(lián)網(wǎng)的云服務(wù)中。
4.1 ?超文本對(duì)比函數(shù)算法
該種算法可直接通過以下編碼進(jìn)行計(jì)算。
4.2 ?實(shí)現(xiàn)數(shù)據(jù)邏輯網(wǎng)絡(luò)
數(shù)據(jù)邏輯網(wǎng)絡(luò),主要是指在數(shù)據(jù)庫(kù)采用數(shù)據(jù)結(jié)構(gòu),實(shí)現(xiàn)數(shù)據(jù)的一種邏輯網(wǎng)絡(luò),在網(wǎng)絡(luò)中,每個(gè)數(shù)據(jù)都擁有若干上級(jí)數(shù)據(jù)、若干下級(jí)數(shù)據(jù)。其中每組數(shù)據(jù)不超過30字符,既15個(gè)漢字。上級(jí)數(shù)據(jù)與下級(jí)數(shù)據(jù)大多采用專用字段進(jìn)行存儲(chǔ),字段主要采用管理方式為二維數(shù)組管理。其中,二維數(shù)組中主要包含有30個(gè)字符的目標(biāo)字符串、響應(yīng)頻率、最后的響應(yīng)時(shí)間。
在計(jì)算機(jī)文本分類中,語義分析的應(yīng)用,為保障數(shù)據(jù)邏輯網(wǎng)絡(luò)調(diào)用的充分,可選擇全新的遍歷算法,對(duì)兩個(gè)二維數(shù)組進(jìn)行分別遍歷,通過逐一比較與計(jì)算,最終得出正確結(jié)果。同時(shí),在對(duì)其他詞語中的詞頻進(jìn)行比較時(shí),應(yīng)重視二維數(shù)組的維護(hù)與更新。
4.3 ?文本相似度評(píng)估算法
在對(duì)相似文本進(jìn)行評(píng)估時(shí),語義分析法的應(yīng)用能夠準(zhǔn)確計(jì)算出P值,以此準(zhǔn)確展現(xiàn)兩種文本的相似度[6]。第一步,可比較兩種文本的關(guān)鍵詞,通過分析關(guān)鍵詞的詞頻,檢驗(yàn)兩者相似度。首先,語義分析法會(huì)對(duì)關(guān)鍵詞所在位置進(jìn)行檢驗(yàn),并通過相關(guān)軟件對(duì)檢驗(yàn)結(jié)果進(jìn)行處理,得出值域。此時(shí)可直接對(duì)結(jié)果匯總,生成規(guī)范的表格。同時(shí),對(duì)于輸入文本內(nèi)的關(guān)鍵詞詞頻進(jìn)行分詞,檢驗(yàn)分詞所處位置,并利用相關(guān)軟件對(duì)檢驗(yàn)結(jié)果進(jìn)行處理,得出值域。然后對(duì)結(jié)果進(jìn)行匯總,生成規(guī)范的表格。第二步,對(duì)第一步中得到的兩個(gè)數(shù)據(jù)表格以及系統(tǒng)內(nèi)存儲(chǔ)的數(shù)據(jù)表進(jìn)行檢驗(yàn),得到P值。若P值小于0.05,則表示兩個(gè)文本相似。若將兩個(gè)完全相同的自然文本進(jìn)行語義分析,通過上述步驟,所得P值無限接近于零,可見,語義分析算法具有較高的識(shí)別能力。
5 ?總結(jié)
大數(shù)據(jù)時(shí)代的不斷深入,數(shù)據(jù)生成逐漸增多,想要在大量數(shù)據(jù)中尋找有效數(shù)據(jù)越發(fā)困難。對(duì)此,文章主要探討了語義分析法在計(jì)算機(jī)技術(shù)文本中的應(yīng)用,并實(shí)現(xiàn)了不采用神經(jīng)網(wǎng)絡(luò)遞歸算法,即可獲得較高效率的軟件系統(tǒng),以期拋磚引玉,推動(dòng)語義分析法的廣泛應(yīng)用。
參考文獻(xiàn)
[1] 曹鋒, 張代遠(yuǎn). 文本分類技術(shù)研究[J]. 電腦知識(shí)與技術(shù), 2009(32): 9023-9025.
[2] 杜隆胤. 基于語義分析在計(jì)算機(jī)技術(shù)文本分類中的應(yīng)用研究[J]. 現(xiàn)代電子技術(shù), 2016(5): 147-148.
[3] 許澤文. 基于語義分析的半監(jiān)督文本分類技術(shù)研究[J]. 北京工業(yè)大學(xué), 2017(6): 117-117.
[4] 戚后林, 顧磊. 概率潛在語義分析的KNN文本分類算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2017(6): 112-112.
[5] 季鐸, 畢臣, 蔡?hào)|風(fēng). 基于類別信息優(yōu)化的潛在語義分析分類技術(shù)[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào), 2015(4): 112-114.
[6] 徐沛娟. 中文文本分類相關(guān)算法的研究與實(shí)現(xiàn)[J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2009(4): 790-794.