自然語言處理的現(xiàn)狀研究與未來發(fā)展初探

2022-12-18 11:24柴海倫

中文信息 2022年9期

柴海倫

（杭州師范大學，浙江杭州 310000）

一、自然語言處理技術的概念、應用及任務

1.什么是自然語言處理

自然語言處理是研究“如何使人和計算機二者之間采取自然語言并進行合理有效溝通”的集語言學以及計算機科學為一體的數(shù)據(jù)科學，簡而言之就是：機器語言能和自然語言之間有效切換交流、溝通的一座橋梁，用來實現(xiàn)“人機交流”的目的。它并不是一般的自然語言，而是針對人工智能以及計算機科學領域的重要發(fā)展方向。它是數(shù)據(jù)科學領域最受歡迎，也是最熱門的課題之一。

2.自然語言處理的應用

自然語言處理主要應用于：信息搜索、機翻、問答自動化、語音識別、文本自動摘要以及情感分析等，隨著不斷地發(fā)展，將會有更多要應用的領域[1]。

3.自然語言處理的核心任務

自然語言處理的核心任務就是：期望人工智能機器如同人一樣，與人類能產(chǎn)生正常的語言和理解能力。將非人類語言的數(shù)據(jù)轉換成人類能理解的語言格式。

二、自然語言處理的發(fā)展“軌跡”

1.萌芽期

美國工程師韋弗最先提出自然語言處理技術中的“機器翻譯”的方案。按當時社會環(huán)境而言，自然語言處理最先產(chǎn)生于語言翻譯領域，在計算機未被發(fā)明出來前，翻譯工作都是由人工承擔的，但隨著對自然語言處理的客觀需求，促使了人們對計算機語言翻譯工作的提出和改進。

2.發(fā)展期

20世紀中期，法國數(shù)學家沃古瓦在原有的基礎上，創(chuàng)建出了一套全新完整的計算機翻譯步驟，并將其運用到了實際的法語和俄語的翻譯工作中，獲得了較好的成果。但由于人類自然語言的不同，以及即便是相同詞語，其表達出的意思也可能不同，從而導致翻譯出來的語句原意差異性非常大。1974年，英國人工智能專家Y.A.威爾克斯設計出的另一套翻譯系統(tǒng)，可讀性較高最具代表性，在當時的環(huán)境以及對未來的發(fā)展中具有非常大的突破性。

上述工作主要是自然語言處理技術的“機器翻譯”。1972年，維諾格拉德的SHRDLU系統(tǒng)將語言分析和知識推理結合在了一起，這對于自然語言處理的研究方向邁出了一大步。同年，伍茲提出擴充轉移網(wǎng)絡（ATN），并建成了LUNAR系統(tǒng)。ATN還成了現(xiàn)今自然語言處理研究中廣泛采用的方法。

3.繁榮期

20世紀末，自然語言處理技術終于從誕生走向繁榮，并具有兩大特征：規(guī)模性大以及真實可用性強。規(guī)模性大意味對該技術的發(fā)展和改革需要有更深層次的要求；真實可用性強說明對于文本處理內容需要更加的豐富。由此可見，規(guī)模性和真實可用性二者缺一不可，相輔相成。而該技術之所以能夠不斷改革和發(fā)展進入繁榮期，也說明了人們的生活已離不開科技，進而促使了網(wǎng)絡技術的不斷發(fā)展和壯大。而且計算機技術也必將會隨著國際互聯(lián)網(wǎng)的日益發(fā)展逐漸走向成熟。

三、“自然語言處理”的現(xiàn)狀及影響

1.自然語言處理的發(fā)展現(xiàn)狀

現(xiàn)階段，自然語言處理技術的主要發(fā)展趨向是：人工智能、語言工程、數(shù)據(jù)處理以及科學認知。從目前來看，除數(shù)據(jù)處理之外，其他三類主要受實驗室的限制，而數(shù)據(jù)處理則有可能是未來應用方向發(fā)展最多的技術。

如今專業(yè)領域上的文本翻譯、搜索引擎、文字錄入等研究成果已經(jīng)很大程度為人類提供了可靠的輔助性幫助。但隨著日漸增長的迫切需求，如信息服務、情報信息處理、國家安全和通信、網(wǎng)站內容管理，語義表示與計算等，針對這些方面的研究工作仍任重道遠。目前正在進行中的部分研究也還缺少堅實的理論基礎，從而暴露出很多問題。要想發(fā)展出真正更加實用的技術還需要很長時間，在此基礎上也需要針對這些理論知識進行更深入的探討。

2.自然語言處理技術面臨的現(xiàn)實問題

第一，跨模態(tài)語言理解（語言智能）存在局限性。機器人和人類對于常識性問題無法產(chǎn)生“共鳴”。人可以直接對手機發(fā)出具體指令，如“查找附近餐飲店”，手機助手就會標注出附近餐飲的全部位置。但若人對手機發(fā)出“餓了”的指令，手機助手則會無動于衷。就是因為機器人無法擁有和人類相同的常識，除非將所有常識性問題搬到系統(tǒng)中。但設計者不可能做到把所有人類常識問題總結出來并輸入到AI系統(tǒng)中，這對目前來說是不現(xiàn)實的。換言之，目前的系統(tǒng)可能連三四歲孩童的語言和理解能力都達不到。

第二，低資源問題。對于標注數(shù)據(jù)資源缺乏的問題，自然語言處理還沒有辦法能夠解決。針對這些不能被解決的資源問題，除卻專業(yè)知識的加入整合，人工標注數(shù)據(jù)也不失為一個好方法，也能對數(shù)據(jù)加強有一定的幫助。這點是如何讓自然語言處理技術變得更“廣”的問題。

3.自然語言處理對現(xiàn)實的影響

目測從現(xiàn)在以及未來很長一段時間，人類都將處于大數(shù)據(jù)時代的階段。而大數(shù)據(jù)想要體現(xiàn)出其本身的價值，就肯定離不開人工智能技術以及機器的學習；同樣人工智能想要體現(xiàn)出優(yōu)勢也必須以大數(shù)據(jù)為基礎，二者相輔相成。很多大企業(yè)雖然都擁有屬于自己的海量數(shù)據(jù)庫，并運用人工智能技術進而展現(xiàn)出它的價值。但若單從數(shù)據(jù)量本身來看，或許目前最大的數(shù)據(jù)量應該是互聯(lián)網(wǎng)上的茫茫網(wǎng)頁，目前針對這些網(wǎng)頁的利用率還是比較淺的，還具備很大的挖掘價值，每個網(wǎng)頁幾乎都有定量的文本內容，這些網(wǎng)頁絕大部分得靠文本來展現(xiàn)其核心內容，這些文本內容都是自然語言。那么研究自然語言處理的價值就相當大了，只有更好的自然語言處理方法才能深度挖掘網(wǎng)頁價值并創(chuàng)造出更大的價值。

根據(jù)目前情況來看，人工智能技術的發(fā)展情況很不錯，最火的應用應屬于圖像、語言方向等，在文本處理方面相對還比較欠缺。因此，對于圖像和語言方向無論是技術還是人才都將進入相對平緩的階段，文本處理即將登上舞臺。

機器理解自然語言的含義對人工智能來說是非常重要的，機器要實現(xiàn)智能化，若連人類語言都無法理解，如何才能體現(xiàn)出其智能之處，難道讓兩個機器之間交流信息便稱這就是智能？總而言之，對于自然語言處理的研究會讓大家的生活越來越方便，金融、電商或醫(yī)療等各大領域也讓自然語言處理技術得到了廣泛的應用。

四、自然語言處理技術的研究方向

針對自然語言處理的研究方向以及涉及范圍非常廣。如信息提取、系統(tǒng)問答、機翻、文字校對或編輯、語音合成或識別等。

第一，提取信息。從特定的文本中提取出如人物、時間、地點、原因以及結果等重要信息。換言之就是要讓機器了解某人在某時因某原因做了某事，以及產(chǎn)生了何種結果。

第二，文本生成。讓機器人如同人類一般能夠使用自然語言進行表達和寫作。

第三，問答系統(tǒng)。人為通過對計算機提出問題，由計算機的問答系統(tǒng)利用自動搜索等方法作出精準的答案。這需要計算機對自然語言查詢語句進行語義分析，從而在眾多候選答案中找出最佳答案。

第四，對話系統(tǒng)?？赏ㄟ^與用戶進行問答聊天完成任務。為了能更智能化需要系統(tǒng)具備多輪對話的能力。

第五，機器翻譯。將源語言文本輸入到系統(tǒng)內，從而自動獲得另一種想要的語言文本。機翻的方法截止到目前已逐漸形成了比較嚴謹?shù)囊惶左w系。

第六，輿情分析。將收集到的海量信息，通過系統(tǒng)自動化對互聯(lián)網(wǎng)上的輿論導向加以分析，以此來實現(xiàn)能及時應對輿情的目的。

第七，信息過濾。通過系統(tǒng)將符合條件的信息進行自動識別和過濾。如將互聯(lián)網(wǎng)有害信息的自動化過濾，保護信息安全做好防護工作。

五、自然語言處理的技術應用

1.采用NLP技術支持的AI系統(tǒng) 追蹤客戶的“反饋信息”

為了了解顧客對自己店面的真實反饋并與顧客進行真實互動，美國一家連鎖酒店使用NLP技術支持的人工智能系統(tǒng)進行網(wǎng)絡跟蹤，并根據(jù)顧客在互聯(lián)網(wǎng)上留下的評論等反饋信息進行相應的整改。到目前為止，AI系統(tǒng)已經(jīng)做出了95%的準確判斷，幫助門店實現(xiàn)了良好的“溝通”效果。

2.幫客戶節(jié)省“一萬小時”的工作時間

美國某IT集團每個月都會收到近10萬個入站請求，出于這個原因，他們創(chuàng)建了“數(shù)字工作者”的智能機器，用來閱讀這些電子郵件，讀取并單獨回復。對于更復雜的問題，則交給人類工程師解決。自該數(shù)字工人“上崗”以來，每月為工程師節(jié)省了近1萬小時的工作時間，大大提高了工作效率。

3.將NLP技術納入醫(yī)療領域的應用開發(fā)

NLP語音識別技術正變得越來越成熟，因此被應用于醫(yī)療臨床。這項技術與醫(yī)學領域的深入結合使醫(yī)生從繁重的電子健康記錄中解放出來，在護理病人方面更有效。

六、自然語言處理的發(fā)展趨勢

站在新時代的互聯(lián)網(wǎng)“風口”，自然語言處理技術在未來幾年將產(chǎn)生整體動態(tài)影響，發(fā)展趨勢將不可限量。對于跨模態(tài)的融合以及對各專業(yè)領域的需求及解決方案，人機智能互動也將有突破性的變化。

1.“符號表示”轉變?yōu)椤胺植际奖硎尽?/h3>
自然語言處理是由詞匯和符號體現(xiàn)的，因此當出現(xiàn)兩個詞性接近，但詞形不同的詞語時，計算機就會判定它們是不同的詞語。這給現(xiàn)實中的應用帶來了很大的不便。因此，如果在一個語義當中，改變傳統(tǒng)的思路，采用組合詞語相結合的方法，就能計算出不同級別的語言單元間的相似性。運用這種新型方法再進行深度學習也會帶來很大的轉變。

2.從淺到深的學習模式

淺層學習是按步驟走，可能還僅停留在低級認知的層次；直接的深層學習則是一步到位的端到端（end—to—end），而從淺到深的學習基于對淺層模型的學習。大部分語言信息用“稀疏”表示，從而會導致“維數(shù)災難”類的問題；而“密集向量”表示則取得了較好的效果。這一大趨勢是由詞嵌入和深度學習模式的成功引發(fā)的。

3.從封閉到開放的NLP（自然語言處理）技術平臺化

NLP技術非常復雜，不僅要處理與之相關的專業(yè)性問題，還要考慮到和其他領域相結合可能產(chǎn)生的問題，所以就顯得更加瑣碎。NLP技術領域的研究數(shù)據(jù)和程序從以前的封閉，程序員不愿分享成果，到如今的開放狀態(tài)，都揭示了其使用門檻越來越低，無論是大型企業(yè)還是各大高校也都愿意提供更多的平臺。從另一角度來看，NLP技術的發(fā)展也將會越來越好。

4.從人工創(chuàng)建到自動化構成的語言知識

美國某公司預做金融預測，結果只招聘與計算機和數(shù)學方面的人才。這恰好說明一個問題：計算機是運用現(xiàn)有算法解決存在的問題，并非是同人類高手進行對決學習。從人工創(chuàng)建到自動化構建NLP技術領域，以前需要的大量顯性知識，如今可采用自動化方法來構建，比如自動發(fā)現(xiàn)詞匯與詞匯之間的關系，像人類身上的血管一般融入各個方面。

5.從通用到場景化，將機器人與特定場景相結合

自從助手Siri“出道”后，國內也開始跟隨潮流做語音助手，但因為“只能聽得到，但卻聽不懂”所以很快就下馬了，這也導致后續(xù)服務跟不上，實用性也不夠強。如今是將特定場景和機器人結合一起，進行人機對話的任務，非常具有趣味性和實用價值。

6.“淺層分析”過渡到“深度理解”的文本推理

谷歌推出的自動化測試機器人，已經(jīng)識別并報告出廣泛使用的項目中存在的漏洞。該技術的工作原理是：通過讓其閱讀并查找軟件應用程序中的大量隨機數(shù)據(jù)并進行分析其輸出異常的問題，從而測試它是否能解決出現(xiàn)的BUG，反過來也能為開發(fā)人員提供可能存在的錯誤應用程序代碼。這非常具有難度，但也證明了該技術的重要性。

7.從事實性文本分析到情感文本分析

目前文本情感分析已涵蓋了文本挖掘、抽取信息、機器學習等多個領域，而且這一技術已經(jīng)得到了較為廣泛的應用，如商業(yè)和輿情方面。相較于事實性文本，文本情感分析更受群眾歡迎。

8.從傳統(tǒng)媒體“轉型”到社交媒體

從傳統(tǒng)媒體過渡到社交媒體說明互聯(lián)網(wǎng)技術的不斷發(fā)展，如今人們還會用社交媒體做股票以及票房的預測，它與日常生活更加息息相關。從長遠角度來看，人文社會和互聯(lián)網(wǎng)技術相結合更具有歷史意義。自然語言處理作為最基礎也最為重要的技術，其未來的發(fā)展前景自然是無限與廣闊的。

9.從規(guī)范文本到自由文本

近幾年文本生成作為NLP領域的另一大重要技術，從利用范本構建文本轉變成如今的自由文本，研究價值和其意義都是非常大的。

10.NLP與行業(yè)領域深度結合從而創(chuàng)造更大價值

隨著自然語言處理技術的不斷發(fā)展，目前已被廣泛應用到各個行業(yè)中。因這些專業(yè)領域對NLP技術的需求非常大，所以NLP技術勢必會發(fā)展得越來越好。

結語

在如今21世紀的信息科技化時代，隨著互聯(lián)網(wǎng)的不斷進步和發(fā)展，自然語言處理技術也會被不斷的拓展到不同領域及應用，更會成為引領科技領域發(fā)展的焦點。它對我國科技乃至世界科技的進步和發(fā)展都具有極大的意義并具有深遠影響。從人類日常生活到其他專業(yè)領域都離不開它。上述對于自然語言處理技術的現(xiàn)狀研究以及未來發(fā)展均展開了深入探析，從中可以得知：對于自然語言處理的研究，未來更著重于與多領域的結合以及未來的實用性，此研究對未來的發(fā)展極具重要意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡