王丁
摘? ?要:在大數(shù)據(jù)時代下,自然語言處理技術(shù)是高效獲取數(shù)據(jù)的關(guān)鍵技術(shù),也是人工智能領(lǐng)域的重要研究方向。自然語言處理涵蓋學(xué)科領(lǐng)域較廣,涉及數(shù)學(xué)、語言學(xué)、計算機(jī)等多學(xué)科知識,其實質(zhì)是在計算機(jī)科學(xué)與人工智能融合發(fā)展背景下形成的一種信息處理技術(shù)。本文分析了自然語言處理技術(shù)體系的整體框架,以及自然語言處理技術(shù)的主流方法,并研究了自然語言處理技術(shù)的應(yīng)用領(lǐng)域,期望對推進(jìn)自然語言處理技術(shù)的發(fā)展與應(yīng)用有所幫助。
關(guān)鍵詞:自然語言處理技術(shù)? 機(jī)器學(xué)習(xí)? 深度學(xué)習(xí)? 卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)03(a)-0141-02
隨著機(jī)器學(xué)習(xí)方法的不斷發(fā)展,傳統(tǒng)的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)都對自然語言處理技術(shù)產(chǎn)生了深遠(yuǎn)影響。與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,基于深度學(xué)習(xí)的自然語言處理技術(shù)更具有應(yīng)用優(yōu)勢,可通過運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)對語言特征的自動學(xué)習(xí),適用于復(fù)雜的自然語言處理領(lǐng)域,使自然語言處理技術(shù)在信息檢索、智能問答、機(jī)器翻譯等方面發(fā)揮出更大的應(yīng)用價值。
1? 自然語言處理技術(shù)體系的整體框架
自然語言處理技術(shù)是讓計算機(jī)學(xué)習(xí)、理解并生成人類語言的一種技術(shù),以實現(xiàn)對人類語言的智能化處理,提高數(shù)據(jù)處理效率,輔助人們解決各種文本處理問題。自然語言處理的整體框架主要包括以下四個方面:(1)篇章級。包括適用于單文檔分析的文檔分類技術(shù)、文檔主題抽取技術(shù)、文檔結(jié)構(gòu)分析技術(shù)、文檔語義表示技術(shù),以及適用于多文檔分析的文檔聚類技術(shù)、文本相似度技術(shù)、PLSA主題模型技術(shù)等。(2)短串級。包括是適用于短串變換的同義詞替換技術(shù)、語義歸一化技術(shù)、糾錯技術(shù)、省略技術(shù),適用于短串解析的結(jié)構(gòu)分析技術(shù)、Term重要性技術(shù),以及適用于短串語義表示的短串語義表示技術(shù)、短串主題分析技術(shù)等。(3)Term級。包括適用于詞法分析的分詞技術(shù)、未登錄詞識別技術(shù)、詞性標(biāo)注技術(shù),適用于Term語義表示的屬性、語義,以及適用于Term關(guān)系的antology構(gòu)建技術(shù)、詞匯關(guān)系計算技術(shù)、同義關(guān)系技術(shù)等。(4)數(shù)據(jù)。主要來源于底層資源、公共數(shù)據(jù)、知識庫和詞典。
2? 自然語言處理技術(shù)的主流方法
2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的自然語言處理技術(shù)
自然語言處理可將處理任務(wù)進(jìn)行分類,形成多個子任務(wù),傳統(tǒng)的機(jī)械學(xué)習(xí)方法可利用SVM(支持向量機(jī)模型)、Markov(馬爾科夫模型)、CRF(條件隨機(jī)場模型)等方法對自然語言中多個子任務(wù)進(jìn)行處理,進(jìn)一步提高處理結(jié)果的精度。但是,從實際應(yīng)用效果上來看,仍存在著以下不足:(1)傳統(tǒng)機(jī)器學(xué)習(xí)訓(xùn)練模型的性能過于依賴訓(xùn)練集的質(zhì)量,需要人工標(biāo)注訓(xùn)練集,降低了訓(xùn)練效率。(2)傳統(tǒng)機(jī)器學(xué)習(xí)模型中的訓(xùn)練集在不同領(lǐng)域應(yīng)用會出現(xiàn)差異較大的應(yīng)用效果,削弱了訓(xùn)練的適用性,暴露出學(xué)習(xí)方法單一的弊端。若想讓訓(xùn)練數(shù)據(jù)集適用于多個不同領(lǐng)域,則要耗費(fèi)大量人力資源進(jìn)行人工標(biāo)注。(3)在處理更高階、更抽象的自然語言時,機(jī)器學(xué)習(xí)無法人工標(biāo)注出來這些自然語言特征,使得傳統(tǒng)機(jī)器學(xué)習(xí)只能學(xué)習(xí)預(yù)先制定的規(guī)則,而不能學(xué)規(guī)則之外的復(fù)雜語言特征。
2.2 基于深度學(xué)習(xí)的自然語言處理技術(shù)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一大分支,在自然語言處理中需應(yīng)用深度學(xué)習(xí)模型,如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等,通過對生成的詞向量進(jìn)行學(xué)習(xí),以完成自然語言分類、理解的過程。與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,基于深度學(xué)習(xí)的自然語言處理技術(shù)具備以下優(yōu)勢:(1)深度學(xué)習(xí)能夠以詞或句子的向量化為前提,不斷學(xué)習(xí)語言特征,掌握更高層次、更加抽象的語言特征,滿足大量特征工程的自然語言處理要求。(2)深度學(xué)習(xí)無需專家人工定義訓(xùn)練集,可通過神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)高層次特征。
以短文本情感分析為例,在基于傳統(tǒng)機(jī)器學(xué)習(xí)的自然語言處理中,普遍存在著因多義詞引起的歧義問題,以及上下文信息缺乏問題,降低了短文本情感分析結(jié)果的準(zhǔn)確性。而基于卷積神經(jīng)網(wǎng)絡(luò)的自然語言處理技術(shù),能夠?qū)鹘y(tǒng)基于單詞層面的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,加入單詞和句子方面的特征,構(gòu)建起基于單詞加句子的卷積神經(jīng)網(wǎng)絡(luò)模型,通過輸入向量化后的句子矩陣,提取更高抽象度的特征,并對相應(yīng)的分類函數(shù)和全連接層進(jìn)行結(jié)果分類,從句子整體角度出發(fā)理解多義詞的含義以及整句語義,以完成文本情感分析過程。由此可見,基于卷積神經(jīng)網(wǎng)絡(luò)的自然語言處理技術(shù)能夠減少網(wǎng)絡(luò)模型的工作量,提高對比分析的性能。
3? 自然語言處理技術(shù)的應(yīng)用領(lǐng)域
3.1 應(yīng)用于檢索領(lǐng)域
在檢索領(lǐng)域中,自然語言處理技術(shù)的應(yīng)用體現(xiàn)在提高檢索結(jié)果精確度方面。常規(guī)的搜索引擎存在如下缺陷,即用戶以關(guān)鍵詞的方式進(jìn)行檢索時,會出現(xiàn)大量無關(guān)的信息,不但影響了檢索效率,而且還會占用一定的資源。而自然語言處理技術(shù)的應(yīng)用,能夠使搜索引擎更好地理解用戶需求,檢索效率隨之提升。通過自然語言處理技術(shù)能夠使搜索引擎變得更加智能化。
3.2 應(yīng)用于數(shù)據(jù)整合領(lǐng)域
在數(shù)據(jù)整合領(lǐng)域中,自然語言處理技術(shù)的應(yīng)用體現(xiàn)在提高數(shù)據(jù)處理質(zhì)量方面。通過建立語料庫,可對不同類型的自然語言進(jìn)行處理,在此基礎(chǔ)上能夠使出輸出的指令得到優(yōu)化,給IT技術(shù)的擴(kuò)展應(yīng)用創(chuàng)造有利條件。同時,依托自然語言處理技術(shù)搭建相關(guān)的平臺,按照具體的交互需要,構(gòu)建相應(yīng)的處理系統(tǒng),在深入研究語法、語義等技術(shù)的基礎(chǔ)上,增強(qiáng)平臺的實用性,由此可使數(shù)據(jù)處理質(zhì)量得到大幅度提升,自然語言處理技術(shù)的應(yīng)用優(yōu)勢在此得以顯現(xiàn)。
3.3 應(yīng)用于語音識別領(lǐng)域
在語音識別領(lǐng)域中,自然語言處理技術(shù)的應(yīng)用主要體現(xiàn)在提高語音識別系統(tǒng)有效性方面,借助語音能夠?qū)χ悄茉O(shè)備進(jìn)行操控。如在飛機(jī)的飛行控制系統(tǒng)中應(yīng)用語音控制操縱桿系統(tǒng)后,飛行員只需要輸入語音指令,便可對飛機(jī)的飛行進(jìn)行操控。由于不同的飛行員具有不同的語音習(xí)慣,為對語音進(jìn)行準(zhǔn)確識別,系統(tǒng)能夠在線學(xué)習(xí),對相關(guān)的數(shù)據(jù)進(jìn)行整合。該系統(tǒng)在飛機(jī)上的運(yùn)用,為智能化飛行任務(wù)的完成提供了條件,彰顯出自然語言處理技術(shù)的價值。
3.4 應(yīng)用于醫(yī)學(xué)領(lǐng)域
在醫(yī)學(xué)領(lǐng)域中,自然語言處理技術(shù)的應(yīng)用主要體現(xiàn)在醫(yī)學(xué)影像報告的信息提取中。通過自然語言處理技術(shù)能夠?qū)蟾嬷杏欣脙r值的信息提取出來,并進(jìn)行整合,從而發(fā)現(xiàn)報告與臨床信息之間存在的聯(lián)系,為醫(yī)師分析影像報告提供幫助。在應(yīng)用自然語言處理技術(shù)對影像報告中的信息進(jìn)行提取時,計算機(jī)會先對詞匯進(jìn)行分割,并對詞根進(jìn)行判別,完成詞匯概念的識別,通過分析詞匯的語義,得到相應(yīng)的醫(yī)學(xué)概念;特征提取完畢后,計算機(jī)會對提取結(jié)果進(jìn)行自動檢索,看其中是否存在目標(biāo)概念,并判斷是否能夠基于這一概念推導(dǎo)出臨床結(jié)局;完成特征加工后,要為計算機(jī)提供標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行訓(xùn)練,提高其穩(wěn)定性和準(zhǔn)確性。
4? 結(jié)語
總而言之,自然語言處理技術(shù)是信息檢索和人工智能研究領(lǐng)域中的關(guān)鍵技術(shù)。自然語言處理技術(shù)要基于深度學(xué)習(xí)方法進(jìn)行不斷改進(jìn),以期在自然語言處理任務(wù)上達(dá)到更好的處理效果,并確保自然語言處理技術(shù)能夠廣泛應(yīng)用于信息檢索、數(shù)據(jù)整合、語言識別和醫(yī)學(xué)等領(lǐng)域,從而促進(jìn)人工智能在更多領(lǐng)域得以成功應(yīng)用。
參考文獻(xiàn)
[1] 王凌燕.自然語言處理技術(shù)的重要性研究[J].信息通信,2019(11):102-103.
[2] 麥家健,朱凌峰,莫毅宇,等.基于自然語言處理技術(shù)的警務(wù)情報文本挖掘分析[J].中國安防,2019(9):142-143.
[3] 葛運(yùn)東,陳洪梅,姚建民.自然語言處理的技術(shù)和產(chǎn)業(yè)應(yīng)用現(xiàn)狀與趨勢分析[J].產(chǎn)業(yè)與科技論壇,2019(9):150-151.
[4] 許鑫.自然語言處理技術(shù)在電網(wǎng)預(yù)案生成中的應(yīng)用[J].云南電力技術(shù),2019(8):82-83.
[5] 鄧金.基于自然語言處理技術(shù)的郵件檢測系統(tǒng)[J].數(shù)字技術(shù)與應(yīng)用,2019(6):24-25.