自然語言處理綜述

2019-03-26 07:08:52

福建質(zhì)量管理 2019年9期

(西南大學(xué)榮昌校區(qū)商貿(mào)學(xué)院重慶 400000)

一、概述

自然語言處理(Natural Language Processing,NLP)是數(shù)據(jù)科學(xué)里的一個分支，它的主要覆蓋的內(nèi)容是：以一種智能與高效的方式，對文本數(shù)據(jù)進(jìn)行系統(tǒng)化分析、理解與信息提取的過程。通過使用NLP以及它的組件，我們可以管理非常大塊的文本數(shù)據(jù)，或者執(zhí)行大量的自動化任務(wù)，并且解決各式各樣的問題，如自動摘要，機器翻譯，命名實體識別，關(guān)系提取，情感分析，語音識別，以及主題分割等等。

二、自然語言處理的應(yīng)用

鑒于深度學(xué)習(xí)日漸成熟，它的無監(jiān)督學(xué)習(xí)與深度挖掘深層次特征的能力使得自然語言處理能夠應(yīng)用于實踐來解決現(xiàn)實問題。下面將從詞性標(biāo)注，句法分析，情感分析，機器翻譯等幾個方面對近幾年的應(yīng)用技術(shù)進(jìn)行綜述。

(一)詞性標(biāo)注

詞性標(biāo)注(Part-of-Speech tagging 或POS tagging)，又稱詞類標(biāo)注或者簡稱標(biāo)注，是指為分詞結(jié)果中的每個單詞標(biāo)注一個正確的詞性的程序，也即確定每個詞是名詞、動詞、形容詞或其他詞性的過程。

2018年Elaheh S,Deyuan G等使用最先進(jìn)的加速器，自動處理器和FPGA，提出了一種高效的POS標(biāo)記方法，得出更多樣化的目標(biāo)那幾和語料庫越大，POS標(biāo)記的準(zhǔn)確性就會越高，而增加規(guī)則的數(shù)量只會增加較小的計算開銷。

(二)句法分析

Cereda P R M,Miura N K2018年提出一種基于規(guī)則的自然語言句子改寫系統(tǒng)[1]，利用一種主動技術(shù)對自然語言句子進(jìn)行策略分析。將句子的依賴結(jié)構(gòu)分解為一個語法樹。引入重寫系統(tǒng)和基于層次重寫的句法分析方法，將分析本身化成成若干抽象層次，以層次結(jié)構(gòu)的方式處理。該方法較好地解決了句子的句法敏感性問題，減少了語言處理中相互依賴結(jié)構(gòu)的可能性。同年，F(xiàn)aiza Qanber Ali通過實驗得出[2]，對象是一個實體或參與者，它經(jīng)歷了行為執(zhí)行者所做的動作。從句法上講，阿拉伯語的賓語可以是同源的，使役的或伴隨的，而英語的并于可以是直接賓語，間接賓語或補語。這個結(jié)論在結(jié)合英語自然語言處理經(jīng)驗中，促進(jìn)了對阿拉伯語的自然語言處理的發(fā)展。

(三)情感分析

情感分析(Sentiment Analysis,SA)又稱傾向性分析。2018年，Ravishankar,N.,Shriram等提出了一個基于語法規(guī)則的推文情感分類的n-gram模型[3]，并運用TF-IDF，否定規(guī)則和形容詞規(guī)則對情緒進(jìn)行分類[9]。根據(jù)他們的報告結(jié)果，形容詞規(guī)則比TF-IDF和否定規(guī)則產(chǎn)生更好的準(zhǔn)確率，高達(dá)64.72%。Leila Arras,Gregoire Montavon等提出一種特殊的傳播規(guī)則[4]，將分層關(guān)聯(lián)傳播(LRP)的應(yīng)用擴展到遞歸神經(jīng)網(wǎng)絡(luò)。該項技術(shù)被實驗證明比之前流行的基于梯度的相關(guān)方法有更好的結(jié)果。

(四)機器翻譯

2017年，Melvin Johnson,Mike Schuster等與谷歌翻譯團(tuán)隊合作提出了一種利用單神經(jīng)機器翻譯(NMT)支持使用單一模型的多語言NMT系統(tǒng)[5]。該模型使用單編譯碼器來驗證真正多語言翻譯的使用，而將該模型投入生產(chǎn)的產(chǎn)品將是自然語言處理史上第一部論證零數(shù)據(jù)翻譯可能性的作品。同年，Zhaopeng Tu,Yang Liu等人在波束搜索策略中發(fā)現(xiàn)非常大的光束產(chǎn)生的效果更差[6]，波束搜索中應(yīng)存在一個最佳光束寬度的“最佳點”，認(rèn)為進(jìn)一步研究超參數(shù)在波束搜索中的魯棒性對NMT的研究具有重要意義。

三、問題與展望

(一)難點與問題

1.指代消歧

即句子中的指代詞還原，因為語料庫中的語料并不足夠，此外，盡管消歧問題被多方研究，但目前仍沒有較高正確率的模型。

2.二義性

有些句子，往往有多種理解方式，其中以兩種理解方式的最為常見，稱二義性。這涉及情感句模問題。而因為個體表達(dá)差異，所以語言表達(dá)的句子沒有規(guī)范的模型，也即情感句模庫即使已經(jīng)包含大量句模仍不能保證句子斷句準(zhǔn)確性。

3.OOV問題

隨著詞嵌入技術(shù)大熱后，使用預(yù)訓(xùn)練的詞向量似乎成為了一個主流。但文本數(shù)據(jù)中的詞很可能不在預(yù)訓(xùn)練好的詞表里面，此即OOV(out of vocabulary)。目前主流方法是要么當(dāng)做UNK處理，要么生成隨機向量或零向量處理，當(dāng)然都存在一定的弊端。更合理的是用subword和char-CNN。

4.文本生成的評價指標(biāo)

目前文本生成的評價指標(biāo)多用BLEU或者ROUGE，但這兩個指標(biāo)都是基于n-gram的，也就是說會判斷生成的句子與標(biāo)簽句子詞粒度上的相似度。這用在文本摘要和對話生成中會有很大的問題。

(二)中文自然語言處理問題

因為目前先進(jìn)的，前沿的研究都是由國外學(xué)者領(lǐng)導(dǎo)主持，所以大多數(shù)自然語言處理的研究成果可以說是對英語的自然語言處理。對于國內(nèi)而言，自然語言處理方面的研究沒有突破性地發(fā)展，而且存在研究數(shù)據(jù)不足，研究實力較國外學(xué)者還有較大差距問題，除此之外，我國是一個多民族國家，這就意味著我們不但要考慮到普通話的處理，還有少數(shù)民族的語言處理。

四、結(jié)束語

自然語言處理作為人機交互的關(guān)鍵性技術(shù)，雖然已經(jīng)隨著深度學(xué)習(xí)的發(fā)展而得到飛躍進(jìn)步，但這些進(jìn)步幾乎都是以英語為處理對象。而中文比之英語，又將會有更多的新問題。因此中文自然語言處理的研究主力只可能是以中文為母語的國內(nèi)學(xué)者。因此國內(nèi)學(xué)者能否解決好中文自然語言處理中的實體歧義，情感分析，句模庫，語料庫等問題很大程度地決定了中文自然語言處理的研究進(jìn)度快慢。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡