国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自然語言處理的現(xiàn)狀研究與未來發(fā)展初探

2022-12-18 11:24柴海倫
中文信息 2022年9期
關鍵詞:領域人工智能文本

柴海倫

(杭州師范大學,浙江 杭州 310000)

一、自然語言處理技術的概念、應用及任務

1.什么是自然語言處理

自然語言處理是研究“如何使人和計算機二者之間采取自然語言并進行合理有效溝通”的集語言學以及計算機科學為一體的數(shù)據(jù)科學,簡而言之就是:機器語言能和自然語言之間有效切換交流、溝通的一座橋梁,用來實現(xiàn)“人機交流”的目的。它并不是一般的自然語言,而是針對人工智能以及計算機科學領域的重要發(fā)展方向。它是數(shù)據(jù)科學領域最受歡迎,也是最熱門的課題之一。

2.自然語言處理的應用

自然語言處理主要應用于:信息搜索、機翻、問答自動化、語音識別、文本自動摘要以及情感分析等,隨著不斷地發(fā)展,將會有更多要應用的領域[1]。

3.自然語言處理的核心任務

自然語言處理的核心任務就是:期望人工智能機器如同人一樣,與人類能產(chǎn)生正常的語言和理解能力。將非人類語言的數(shù)據(jù)轉換成人類能理解的語言格式。

二、自然語言處理的發(fā)展“軌跡”

1.萌芽期

美國工程師韋弗最先提出自然語言處理技術中的“機器翻譯”的方案。按當時社會環(huán)境而言,自然語言處理最先產(chǎn)生于語言翻譯領域,在計算機未被發(fā)明出來前,翻譯工作都是由人工承擔的,但隨著對自然語言處理的客觀需求,促使了人們對計算機語言翻譯工作的提出和改進。

2.發(fā)展期

20世紀中期,法國數(shù)學家沃古瓦在原有的基礎上,創(chuàng)建出了一套全新完整的計算機翻譯步驟,并將其運用到了實際的法語和俄語的翻譯工作中,獲得了較好的成果。但由于人類自然語言的不同,以及即便是相同詞語,其表達出的意思也可能不同,從而導致翻譯出來的語句原意差異性非常大。1974年,英國人工智能專家Y.A.威爾克斯設計出的另一套翻譯系統(tǒng),可讀性較高最具代表性,在當時的環(huán)境以及對未來的發(fā)展中具有非常大的突破性。

上述工作主要是自然語言處理技術的“機器翻譯”。1972年,維諾格拉德的SHRDLU系統(tǒng)將語言分析和知識推理結合在了一起,這對于自然語言處理的研究方向邁出了一大步。同年,伍茲提出擴充轉移網(wǎng)絡(ATN),并建成了LUNAR系統(tǒng)。ATN還成了現(xiàn)今自然語言處理研究中廣泛采用的方法。

3.繁榮期

20世紀末,自然語言處理技術終于從誕生走向繁榮,并具有兩大特征:規(guī)模性大以及真實可用性強。規(guī)模性大意味對該技術的發(fā)展和改革需要有更深層次的要求;真實可用性強說明對于文本處理內容需要更加的豐富。由此可見,規(guī)模性和真實可用性二者缺一不可,相輔相成。而該技術之所以能夠不斷改革和發(fā)展進入繁榮期,也說明了人們的生活已離不開科技,進而促使了網(wǎng)絡技術的不斷發(fā)展和壯大。而且計算機技術也必將會隨著國際互聯(lián)網(wǎng)的日益發(fā)展逐漸走向成熟。

三、“自然語言處理”的現(xiàn)狀及影響

1.自然語言處理的發(fā)展現(xiàn)狀

現(xiàn)階段,自然語言處理技術的主要發(fā)展趨向是:人工智能、語言工程、數(shù)據(jù)處理以及科學認知。從目前來看,除數(shù)據(jù)處理之外,其他三類主要受實驗室的限制,而數(shù)據(jù)處理則有可能是未來應用方向發(fā)展最多的技術。

如今專業(yè)領域上的文本翻譯、搜索引擎、文字錄入等研究成果已經(jīng)很大程度為人類提供了可靠的輔助性幫助。但隨著日漸增長的迫切需求,如信息服務、情報信息處理、國家安全和通信、網(wǎng)站內容管理,語義表示與計算等,針對這些方面的研究工作仍任重道遠。目前正在進行中的部分研究也還缺少堅實的理論基礎,從而暴露出很多問題。要想發(fā)展出真正更加實用的技術還需要很長時間,在此基礎上也需要針對這些理論知識進行更深入的探討。

2.自然語言處理技術面臨的現(xiàn)實問題

第一,跨模態(tài)語言理解(語言智能)存在局限性。機器人和人類對于常識性問題無法產(chǎn)生“共鳴”。人可以直接對手機發(fā)出具體指令,如“查找附近餐飲店”,手機助手就會標注出附近餐飲的全部位置。但若人對手機發(fā)出“餓了”的指令,手機助手則會無動于衷。就是因為機器人無法擁有和人類相同的常識,除非將所有常識性問題搬到系統(tǒng)中。但設計者不可能做到把所有人類常識問題總結出來并輸入到AI系統(tǒng)中,這對目前來說是不現(xiàn)實的。換言之,目前的系統(tǒng)可能連三四歲孩童的語言和理解能力都達不到。

第二,低資源問題。對于標注數(shù)據(jù)資源缺乏的問題,自然語言處理還沒有辦法能夠解決。針對這些不能被解決的資源問題,除卻專業(yè)知識的加入整合,人工標注數(shù)據(jù)也不失為一個好方法,也能對數(shù)據(jù)加強有一定的幫助。這點是如何讓自然語言處理技術變得更“廣”的問題。

3.自然語言處理對現(xiàn)實的影響

目測從現(xiàn)在以及未來很長一段時間,人類都將處于大數(shù)據(jù)時代的階段。而大數(shù)據(jù)想要體現(xiàn)出其本身的價值,就肯定離不開人工智能技術以及機器的學習;同樣人工智能想要體現(xiàn)出優(yōu)勢也必須以大數(shù)據(jù)為基礎,二者相輔相成。很多大企業(yè)雖然都擁有屬于自己的海量數(shù)據(jù)庫,并運用人工智能技術進而展現(xiàn)出它的價值。但若單從數(shù)據(jù)量本身來看,或許目前最大的數(shù)據(jù)量應該是互聯(lián)網(wǎng)上的茫茫網(wǎng)頁,目前針對這些網(wǎng)頁的利用率還是比較淺的,還具備很大的挖掘價值,每個網(wǎng)頁幾乎都有定量的文本內容,這些網(wǎng)頁絕大部分得靠文本來展現(xiàn)其核心內容,這些文本內容都是自然語言。那么研究自然語言處理的價值就相當大了,只有更好的自然語言處理方法才能深度挖掘網(wǎng)頁價值并創(chuàng)造出更大的價值。

根據(jù)目前情況來看,人工智能技術的發(fā)展情況很不錯,最火的應用應屬于圖像、語言方向等,在文本處理方面相對還比較欠缺。因此,對于圖像和語言方向無論是技術還是人才都將進入相對平緩的階段,文本處理即將登上舞臺。

機器理解自然語言的含義對人工智能來說是非常重要的,機器要實現(xiàn)智能化,若連人類語言都無法理解,如何才能體現(xiàn)出其智能之處,難道讓兩個機器之間交流信息便稱這就是智能?總而言之,對于自然語言處理的研究會讓大家的生活越來越方便,金融、電商或醫(yī)療等各大領域也讓自然語言處理技術得到了廣泛的應用。

四、自然語言處理技術的研究方向

針對自然語言處理的研究方向以及涉及范圍非常廣。如信息提取、系統(tǒng)問答、機翻、文字校對或編輯、語音合成或識別等。

第一,提取信息。從特定的文本中提取出如人物、時間、地點、原因以及結果等重要信息。換言之就是要讓機器了解某人在某時因某原因做了某事,以及產(chǎn)生了何種結果。

第二,文本生成。讓機器人如同人類一般能夠使用自然語言進行表達和寫作。

第三,問答系統(tǒng)。人為通過對計算機提出問題,由計算機的問答系統(tǒng)利用自動搜索等方法作出精準的答案。這需要計算機對自然語言查詢語句進行語義分析,從而在眾多候選答案中找出最佳答案。

第四,對話系統(tǒng)??赏ㄟ^與用戶進行問答聊天完成任務。為了能更智能化需要系統(tǒng)具備多輪對話的能力。

第五,機器翻譯。將源語言文本輸入到系統(tǒng)內,從而自動獲得另一種想要的語言文本。機翻的方法截止到目前已逐漸形成了比較嚴謹?shù)囊惶左w系。

第六,輿情分析。將收集到的海量信息,通過系統(tǒng)自動化對互聯(lián)網(wǎng)上的輿論導向加以分析,以此來實現(xiàn)能及時應對輿情的目的。

第七,信息過濾。通過系統(tǒng)將符合條件的信息進行自動識別和過濾。如將互聯(lián)網(wǎng)有害信息的自動化過濾,保護信息安全做好防護工作。

五、自然語言處理的技術應用

1.采用NLP技術支持的AI系統(tǒng) 追蹤客戶的“反饋信息”

為了了解顧客對自己店面的真實反饋并與顧客進行真實互動,美國一家連鎖酒店使用NLP技術支持的人工智能系統(tǒng)進行網(wǎng)絡跟蹤,并根據(jù)顧客在互聯(lián)網(wǎng)上留下的評論等反饋信息進行相應的整改。到目前為止,AI系統(tǒng)已經(jīng)做出了95%的準確判斷,幫助門店實現(xiàn)了良好的“溝通”效果。

2.幫客戶節(jié)省“一萬小時”的工作時間

美國某IT集團每個月都會收到近10萬個入站請求,出于這個原因,他們創(chuàng)建了“數(shù)字工作者”的智能機器,用來閱讀這些電子郵件,讀取并單獨回復。對于更復雜的問題,則交給人類工程師解決。自該數(shù)字工人“上崗”以來,每月為工程師節(jié)省了近1萬小時的工作時間,大大提高了工作效率。

3.將NLP技術納入醫(yī)療領域的應用開發(fā)

NLP語音識別技術正變得越來越成熟,因此被應用于醫(yī)療臨床。這項技術與醫(yī)學領域的深入結合使醫(yī)生從繁重的電子健康記錄中解放出來,在護理病人方面更有效。

六、自然語言處理的發(fā)展趨勢

站在新時代的互聯(lián)網(wǎng)“風口”,自然語言處理技術在未來幾年將產(chǎn)生整體動態(tài)影響,發(fā)展趨勢將不可限量。對于跨模態(tài)的融合以及對各專業(yè)領域的需求及解決方案,人機智能互動也將有突破性的變化。

1.“符號表示”轉變?yōu)椤胺植际奖硎尽?/h3>

自然語言處理是由詞匯和符號體現(xiàn)的,因此當出現(xiàn)兩個詞性接近,但詞形不同的詞語時,計算機就會判定它們是不同的詞語。這給現(xiàn)實中的應用帶來了很大的不便。因此,如果在一個語義當中,改變傳統(tǒng)的思路,采用組合詞語相結合的方法,就能計算出不同級別的語言單元間的相似性。運用這種新型方法再進行深度學習也會帶來很大的轉變。

2.從淺到深的學習模式

淺層學習是按步驟走,可能還僅停留在低級認知的層次;直接的深層學習則是一步到位的端到端(end—to—end),而從淺到深的學習基于對淺層模型的學習。大部分語言信息用“稀疏”表示,從而會導致“維數(shù)災難”類的問題;而“密集向量”表示則取得了較好的效果。這一大趨勢是由詞嵌入和深度學習模式的成功引發(fā)的。

3.從封閉到開放的NLP(自然語言處理)技術平臺化

NLP技術非常復雜,不僅要處理與之相關的專業(yè)性問題,還要考慮到和其他領域相結合可能產(chǎn)生的問題,所以就顯得更加瑣碎。NLP技術領域的研究數(shù)據(jù)和程序從以前的封閉,程序員不愿分享成果,到如今的開放狀態(tài),都揭示了其使用門檻越來越低,無論是大型企業(yè)還是各大高校也都愿意提供更多的平臺。從另一角度來看,NLP技術的發(fā)展也將會越來越好。

4.從人工創(chuàng)建到自動化構成的語言知識

美國某公司預做金融預測,結果只招聘與計算機和數(shù)學方面的人才。這恰好說明一個問題:計算機是運用現(xiàn)有算法解決存在的問題,并非是同人類高手進行對決學習。從人工創(chuàng)建到自動化構建NLP技術領域,以前需要的大量顯性知識,如今可采用自動化方法來構建,比如自動發(fā)現(xiàn)詞匯與詞匯之間的關系,像人類身上的血管一般融入各個方面。

5.從通用到場景化,將機器人與特定場景相結合

自從助手Siri“出道”后,國內也開始跟隨潮流做語音助手,但因為“只能聽得到,但卻聽不懂”所以很快就下馬了,這也導致后續(xù)服務跟不上,實用性也不夠強。如今是將特定場景和機器人結合一起,進行人機對話的任務,非常具有趣味性和實用價值。

6.“淺層分析”過渡到“深度理解”的文本推理

谷歌推出的自動化測試機器人,已經(jīng)識別并報告出廣泛使用的項目中存在的漏洞。該技術的工作原理是:通過讓其閱讀并查找軟件應用程序中的大量隨機數(shù)據(jù)并進行分析其輸出異常的問題,從而測試它是否能解決出現(xiàn)的BUG,反過來也能為開發(fā)人員提供可能存在的錯誤應用程序代碼。這非常具有難度,但也證明了該技術的重要性。

7.從事實性文本分析到情感文本分析

目前文本情感分析已涵蓋了文本挖掘、抽取信息、機器學習等多個領域,而且這一技術已經(jīng)得到了較為廣泛的應用,如商業(yè)和輿情方面。相較于事實性文本,文本情感分析更受群眾歡迎。

8.從傳統(tǒng)媒體“轉型”到社交媒體

從傳統(tǒng)媒體過渡到社交媒體說明互聯(lián)網(wǎng)技術的不斷發(fā)展,如今人們還會用社交媒體做股票以及票房的預測,它與日常生活更加息息相關。從長遠角度來看,人文社會和互聯(lián)網(wǎng)技術相結合更具有歷史意義。自然語言處理作為最基礎也最為重要的技術,其未來的發(fā)展前景自然是無限與廣闊的。

9.從規(guī)范文本到自由文本

近幾年文本生成作為NLP領域的另一大重要技術,從利用范本構建文本轉變成如今的自由文本,研究價值和其意義都是非常大的。

10.NLP與行業(yè)領域深度結合 從而創(chuàng)造更大價值

隨著自然語言處理技術的不斷發(fā)展,目前已被廣泛應用到各個行業(yè)中。因這些專業(yè)領域對NLP技術的需求非常大,所以NLP技術勢必會發(fā)展得越來越好。

結語

在如今21世紀的信息科技化時代,隨著互聯(lián)網(wǎng)的不斷進步和發(fā)展,自然語言處理技術也會被不斷的拓展到不同領域及應用,更會成為引領科技領域發(fā)展的焦點。它對我國科技乃至世界科技的進步和發(fā)展都具有極大的意義并具有深遠影響。從人類日常生活到其他專業(yè)領域都離不開它。上述對于自然語言處理技術的現(xiàn)狀研究以及未來發(fā)展均展開了深入探析,從中可以得知:對于自然語言處理的研究,未來更著重于與多領域的結合以及未來的實用性,此研究對未來的發(fā)展極具重要意義。

猜你喜歡
領域人工智能文本
在808DA上文本顯示的改善
領域·對峙
基于doc2vec和TF-IDF的相似文本識別
人工智能與就業(yè)
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
新常態(tài)下推動多層次多領域依法治理初探
如何快速走進文本
肯定與質疑:“慕課”在基礎教育領域的應用
3D 打印:先進制造領域的必爭之地
建德市| 普兰县| 阿勒泰市| 启东市| 天峻县| 柳州市| 衢州市| 古蔺县| 娱乐| 长兴县| 桑植县| 夹江县| 靖边县| 和田县| 木兰县| 南丹县| 临朐县| 滨海县| 望都县| 普兰县| 南康市| 宁武县| 从化市| 临城县| 汝南县| 金塔县| 舞钢市| 太白县| 调兵山市| 临夏市| 杭锦后旗| 恩平市| 和静县| 南康市| 临桂县| 新晃| 武川县| 琼中| 兴城市| 苏州市| 峨边|