柴海倫
(杭州師范大學,浙江 杭州 310000)
自然語言處理是研究“如何使人和計算機二者之間采取自然語言并進行合理有效溝通”的集語言學以及計算機科學為一體的數(shù)據(jù)科學,簡而言之就是:機器語言能和自然語言之間有效切換交流、溝通的一座橋梁,用來實現(xiàn)“人機交流”的目的。它并不是一般的自然語言,而是針對人工智能以及計算機科學領域的重要發(fā)展方向。它是數(shù)據(jù)科學領域最受歡迎,也是最熱門的課題之一。
自然語言處理主要應用于:信息搜索、機翻、問答自動化、語音識別、文本自動摘要以及情感分析等,隨著不斷地發(fā)展,將會有更多要應用的領域[1]。
自然語言處理的核心任務就是:期望人工智能機器如同人一樣,與人類能產(chǎn)生正常的語言和理解能力。將非人類語言的數(shù)據(jù)轉換成人類能理解的語言格式。
美國工程師韋弗最先提出自然語言處理技術中的“機器翻譯”的方案。按當時社會環(huán)境而言,自然語言處理最先產(chǎn)生于語言翻譯領域,在計算機未被發(fā)明出來前,翻譯工作都是由人工承擔的,但隨著對自然語言處理的客觀需求,促使了人們對計算機語言翻譯工作的提出和改進。
20世紀中期,法國數(shù)學家沃古瓦在原有的基礎上,創(chuàng)建出了一套全新完整的計算機翻譯步驟,并將其運用到了實際的法語和俄語的翻譯工作中,獲得了較好的成果。但由于人類自然語言的不同,以及即便是相同詞語,其表達出的意思也可能不同,從而導致翻譯出來的語句原意差異性非常大。1974年,英國人工智能專家Y.A.威爾克斯設計出的另一套翻譯系統(tǒng),可讀性較高最具代表性,在當時的環(huán)境以及對未來的發(fā)展中具有非常大的突破性。
上述工作主要是自然語言處理技術的“機器翻譯”。1972年,維諾格拉德的SHRDLU系統(tǒng)將語言分析和知識推理結合在了一起,這對于自然語言處理的研究方向邁出了一大步。同年,伍茲提出擴充轉移網(wǎng)絡(ATN),并建成了LUNAR系統(tǒng)。ATN還成了現(xiàn)今自然語言處理研究中廣泛采用的方法。
20世紀末,自然語言處理技術終于從誕生走向繁榮,并具有兩大特征:規(guī)模性大以及真實可用性強。規(guī)模性大意味對該技術的發(fā)展和改革需要有更深層次的要求;真實可用性強說明對于文本處理內容需要更加的豐富。由此可見,規(guī)模性和真實可用性二者缺一不可,相輔相成。而該技術之所以能夠不斷改革和發(fā)展進入繁榮期,也說明了人們的生活已離不開科技,進而促使了網(wǎng)絡技術的不斷發(fā)展和壯大。而且計算機技術也必將會隨著國際互聯(lián)網(wǎng)的日益發(fā)展逐漸走向成熟。
現(xiàn)階段,自然語言處理技術的主要發(fā)展趨向是:人工智能、語言工程、數(shù)據(jù)處理以及科學認知。從目前來看,除數(shù)據(jù)處理之外,其他三類主要受實驗室的限制,而數(shù)據(jù)處理則有可能是未來應用方向發(fā)展最多的技術。
如今專業(yè)領域上的文本翻譯、搜索引擎、文字錄入等研究成果已經(jīng)很大程度為人類提供了可靠的輔助性幫助。但隨著日漸增長的迫切需求,如信息服務、情報信息處理、國家安全和通信、網(wǎng)站內容管理,語義表示與計算等,針對這些方面的研究工作仍任重道遠。目前正在進行中的部分研究也還缺少堅實的理論基礎,從而暴露出很多問題。要想發(fā)展出真正更加實用的技術還需要很長時間,在此基礎上也需要針對這些理論知識進行更深入的探討。
第一,跨模態(tài)語言理解(語言智能)存在局限性。機器人和人類對于常識性問題無法產(chǎn)生“共鳴”。人可以直接對手機發(fā)出具體指令,如“查找附近餐飲店”,手機助手就會標注出附近餐飲的全部位置。但若人對手機發(fā)出“餓了”的指令,手機助手則會無動于衷。就是因為機器人無法擁有和人類相同的常識,除非將所有常識性問題搬到系統(tǒng)中。但設計者不可能做到把所有人類常識問題總結出來并輸入到AI系統(tǒng)中,這對目前來說是不現(xiàn)實的。換言之,目前的系統(tǒng)可能連三四歲孩童的語言和理解能力都達不到。
第二,低資源問題。對于標注數(shù)據(jù)資源缺乏的問題,自然語言處理還沒有辦法能夠解決。針對這些不能被解決的資源問題,除卻專業(yè)知識的加入整合,人工標注數(shù)據(jù)也不失為一個好方法,也能對數(shù)據(jù)加強有一定的幫助。這點是如何讓自然語言處理技術變得更“廣”的問題。
目測從現(xiàn)在以及未來很長一段時間,人類都將處于大數(shù)據(jù)時代的階段。而大數(shù)據(jù)想要體現(xiàn)出其本身的價值,就肯定離不開人工智能技術以及機器的學習;同樣人工智能想要體現(xiàn)出優(yōu)勢也必須以大數(shù)據(jù)為基礎,二者相輔相成。很多大企業(yè)雖然都擁有屬于自己的海量數(shù)據(jù)庫,并運用人工智能技術進而展現(xiàn)出它的價值。但若單從數(shù)據(jù)量本身來看,或許目前最大的數(shù)據(jù)量應該是互聯(lián)網(wǎng)上的茫茫網(wǎng)頁,目前針對這些網(wǎng)頁的利用率還是比較淺的,還具備很大的挖掘價值,每個網(wǎng)頁幾乎都有定量的文本內容,這些網(wǎng)頁絕大部分得靠文本來展現(xiàn)其核心內容,這些文本內容都是自然語言。那么研究自然語言處理的價值就相當大了,只有更好的自然語言處理方法才能深度挖掘網(wǎng)頁價值并創(chuàng)造出更大的價值。
根據(jù)目前情況來看,人工智能技術的發(fā)展情況很不錯,最火的應用應屬于圖像、語言方向等,在文本處理方面相對還比較欠缺。因此,對于圖像和語言方向無論是技術還是人才都將進入相對平緩的階段,文本處理即將登上舞臺。
機器理解自然語言的含義對人工智能來說是非常重要的,機器要實現(xiàn)智能化,若連人類語言都無法理解,如何才能體現(xiàn)出其智能之處,難道讓兩個機器之間交流信息便稱這就是智能?總而言之,對于自然語言處理的研究會讓大家的生活越來越方便,金融、電商或醫(yī)療等各大領域也讓自然語言處理技術得到了廣泛的應用。
針對自然語言處理的研究方向以及涉及范圍非常廣。如信息提取、系統(tǒng)問答、機翻、文字校對或編輯、語音合成或識別等。
第一,提取信息。從特定的文本中提取出如人物、時間、地點、原因以及結果等重要信息。換言之就是要讓機器了解某人在某時因某原因做了某事,以及產(chǎn)生了何種結果。
第二,文本生成。讓機器人如同人類一般能夠使用自然語言進行表達和寫作。
第三,問答系統(tǒng)。人為通過對計算機提出問題,由計算機的問答系統(tǒng)利用自動搜索等方法作出精準的答案。這需要計算機對自然語言查詢語句進行語義分析,從而在眾多候選答案中找出最佳答案。
第四,對話系統(tǒng)??赏ㄟ^與用戶進行問答聊天完成任務。為了能更智能化需要系統(tǒng)具備多輪對話的能力。
第五,機器翻譯。將源語言文本輸入到系統(tǒng)內,從而自動獲得另一種想要的語言文本。機翻的方法截止到目前已逐漸形成了比較嚴謹?shù)囊惶左w系。
第六,輿情分析。將收集到的海量信息,通過系統(tǒng)自動化對互聯(lián)網(wǎng)上的輿論導向加以分析,以此來實現(xiàn)能及時應對輿情的目的。
第七,信息過濾。通過系統(tǒng)將符合條件的信息進行自動識別和過濾。如將互聯(lián)網(wǎng)有害信息的自動化過濾,保護信息安全做好防護工作。
為了了解顧客對自己店面的真實反饋并與顧客進行真實互動,美國一家連鎖酒店使用NLP技術支持的人工智能系統(tǒng)進行網(wǎng)絡跟蹤,并根據(jù)顧客在互聯(lián)網(wǎng)上留下的評論等反饋信息進行相應的整改。到目前為止,AI系統(tǒng)已經(jīng)做出了95%的準確判斷,幫助門店實現(xiàn)了良好的“溝通”效果。
美國某IT集團每個月都會收到近10萬個入站請求,出于這個原因,他們創(chuàng)建了“數(shù)字工作者”的智能機器,用來閱讀這些電子郵件,讀取并單獨回復。對于更復雜的問題,則交給人類工程師解決。自該數(shù)字工人“上崗”以來,每月為工程師節(jié)省了近1萬小時的工作時間,大大提高了工作效率。
NLP語音識別技術正變得越來越成熟,因此被應用于醫(yī)療臨床。這項技術與醫(yī)學領域的深入結合使醫(yī)生從繁重的電子健康記錄中解放出來,在護理病人方面更有效。
站在新時代的互聯(lián)網(wǎng)“風口”,自然語言處理技術在未來幾年將產(chǎn)生整體動態(tài)影響,發(fā)展趨勢將不可限量。對于跨模態(tài)的融合以及對各專業(yè)領域的需求及解決方案,人機智能互動也將有突破性的變化。
自然語言處理是由詞匯和符號體現(xiàn)的,因此當出現(xiàn)兩個詞性接近,但詞形不同的詞語時,計算機就會判定它們是不同的詞語。這給現(xiàn)實中的應用帶來了很大的不便。因此,如果在一個語義當中,改變傳統(tǒng)的思路,采用組合詞語相結合的方法,就能計算出不同級別的語言單元間的相似性。運用這種新型方法再進行深度學習也會帶來很大的轉變。
淺層學習是按步驟走,可能還僅停留在低級認知的層次;直接的深層學習則是一步到位的端到端(end—to—end),而從淺到深的學習基于對淺層模型的學習。大部分語言信息用“稀疏”表示,從而會導致“維數(shù)災難”類的問題;而“密集向量”表示則取得了較好的效果。這一大趨勢是由詞嵌入和深度學習模式的成功引發(fā)的。
NLP技術非常復雜,不僅要處理與之相關的專業(yè)性問題,還要考慮到和其他領域相結合可能產(chǎn)生的問題,所以就顯得更加瑣碎。NLP技術領域的研究數(shù)據(jù)和程序從以前的封閉,程序員不愿分享成果,到如今的開放狀態(tài),都揭示了其使用門檻越來越低,無論是大型企業(yè)還是各大高校也都愿意提供更多的平臺。從另一角度來看,NLP技術的發(fā)展也將會越來越好。
美國某公司預做金融預測,結果只招聘與計算機和數(shù)學方面的人才。這恰好說明一個問題:計算機是運用現(xiàn)有算法解決存在的問題,并非是同人類高手進行對決學習。從人工創(chuàng)建到自動化構建NLP技術領域,以前需要的大量顯性知識,如今可采用自動化方法來構建,比如自動發(fā)現(xiàn)詞匯與詞匯之間的關系,像人類身上的血管一般融入各個方面。
自從助手Siri“出道”后,國內也開始跟隨潮流做語音助手,但因為“只能聽得到,但卻聽不懂”所以很快就下馬了,這也導致后續(xù)服務跟不上,實用性也不夠強。如今是將特定場景和機器人結合一起,進行人機對話的任務,非常具有趣味性和實用價值。
谷歌推出的自動化測試機器人,已經(jīng)識別并報告出廣泛使用的項目中存在的漏洞。該技術的工作原理是:通過讓其閱讀并查找軟件應用程序中的大量隨機數(shù)據(jù)并進行分析其輸出異常的問題,從而測試它是否能解決出現(xiàn)的BUG,反過來也能為開發(fā)人員提供可能存在的錯誤應用程序代碼。這非常具有難度,但也證明了該技術的重要性。
目前文本情感分析已涵蓋了文本挖掘、抽取信息、機器學習等多個領域,而且這一技術已經(jīng)得到了較為廣泛的應用,如商業(yè)和輿情方面。相較于事實性文本,文本情感分析更受群眾歡迎。
從傳統(tǒng)媒體過渡到社交媒體說明互聯(lián)網(wǎng)技術的不斷發(fā)展,如今人們還會用社交媒體做股票以及票房的預測,它與日常生活更加息息相關。從長遠角度來看,人文社會和互聯(lián)網(wǎng)技術相結合更具有歷史意義。自然語言處理作為最基礎也最為重要的技術,其未來的發(fā)展前景自然是無限與廣闊的。
近幾年文本生成作為NLP領域的另一大重要技術,從利用范本構建文本轉變成如今的自由文本,研究價值和其意義都是非常大的。
隨著自然語言處理技術的不斷發(fā)展,目前已被廣泛應用到各個行業(yè)中。因這些專業(yè)領域對NLP技術的需求非常大,所以NLP技術勢必會發(fā)展得越來越好。
在如今21世紀的信息科技化時代,隨著互聯(lián)網(wǎng)的不斷進步和發(fā)展,自然語言處理技術也會被不斷的拓展到不同領域及應用,更會成為引領科技領域發(fā)展的焦點。它對我國科技乃至世界科技的進步和發(fā)展都具有極大的意義并具有深遠影響。從人類日常生活到其他專業(yè)領域都離不開它。上述對于自然語言處理技術的現(xiàn)狀研究以及未來發(fā)展均展開了深入探析,從中可以得知:對于自然語言處理的研究,未來更著重于與多領域的結合以及未來的實用性,此研究對未來的發(fā)展極具重要意義。