国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

走向智能時代的語言信息化產(chǎn)業(yè)

2016-05-30 10:48:04郭玉箐徐俊王海峰
語言戰(zhàn)略研究 2016年6期
關鍵詞:深度神經(jīng)網(wǎng)絡機器翻譯搜索引擎

郭玉箐?徐俊?王海峰

提 要 語言文字是信息最主要的載體,語言文字的信息化是實現(xiàn)國家信息化戰(zhàn)略目標的基礎。在語言信息化產(chǎn)業(yè)中,搜索引擎和機器翻譯是最具代表性且已經(jīng)實現(xiàn)大規(guī)模產(chǎn)業(yè)化的兩大領域。本文以這兩個領域為例,詳細解讀語言信息化技術和產(chǎn)業(yè)如何應對互聯(lián)網(wǎng)時代的新機遇和新挑戰(zhàn),并展望語言信息化產(chǎn)業(yè)的智能化趨勢。

關鍵詞 搜索引擎;機器翻譯;深度神經(jīng)網(wǎng)絡

Abstract In recent years there has been an enormous boom in Computational Intelligence in Information Systems. This paper attempts to provide rich information and professional observation about the recent progress made in adapting Chinese language processing and computing industry to the new challenges arisen from rapid advancement of the Internet as well as the worldwide proliferation of mobile devices and social media. In the process of language digitization, search engine and machine translation are the two major typical areas pertinent to large scale industrialization. Through tracing the developing trajectory of these two areas as exemplar cases, we attempt to demonstrate how language digitization as a technology and industry deals with a range of new challenges, including intelligent applications and big data, such as business intelligence, social analytics, data/text mining, machine learning, text summarization and information retrieval. In conclusion, we are optimistic for the future of the fields in achieving even better quality based on paradigm shift away from linguistic/rule-based methods towards empirical/data-driven methods which have been made possible by the availability of large amounts of training data and large computational resources.

Key words search engine; machine translation; deep neural network

互聯(lián)網(wǎng)技術和產(chǎn)業(yè)的飛速發(fā)展,不僅使信息量呈爆炸式增長,更帶來了豐富多變的語言現(xiàn)象,對語言信息化技術提出了新的需求和挑戰(zhàn),驅動搜索引擎、機器翻譯等語言信息處理技術和產(chǎn)業(yè)的快速發(fā)展。近年來,隨著云計算、大數(shù)據(jù)處理、深度學習等技術的進步,更加智能化的互動型產(chǎn)品也由實驗室階段逐步走向市場化。本文以搜索引擎和機器翻譯為例,闡述互聯(lián)網(wǎng)時代背景下語言信息化面臨的問題、解決的技術手段和前進的方向。

一、互聯(lián)網(wǎng)時代的新機遇與新挑戰(zhàn)

語言文字的數(shù)字化徹底改變了人們使用語言文字的方式,從學術論文、會議紀要、工作匯報到生活日記,幾乎所有書寫的場合均可以使用計算機來完成。數(shù)字化極大地便利了語言信息的編輯處理,也為語言信息的高效傳遞奠定了必要的基礎。數(shù)字化的語言信息幾乎沒有重量、沒有體積,互聯(lián)網(wǎng)的興起使得語言信息的傳遞沒有了距離,從而極大地降低了語言信息傳遞的成本,空前地提升了語言信息傳遞的效率。互聯(lián)網(wǎng)的迅猛發(fā)展,深刻地改變了語言信息獲取和傳播的方式,帶來了海量規(guī)模的數(shù)據(jù)和多元化的信息資源,產(chǎn)生了大量新的語言現(xiàn)象和問題,這為語言信息化產(chǎn)業(yè)發(fā)展帶來了新的機遇,同時也向語言信息處理技術提出了新的挑戰(zhàn)。

(一)新模式

互聯(lián)網(wǎng)時代不僅催生了新型的信息承載形式——網(wǎng)站,也帶來了信息獲取和傳播方式的革命性變化。

在早期的門戶網(wǎng)站時代,網(wǎng)站在信息傳播中居主導地位,網(wǎng)站是信息匯總和發(fā)布的平臺,語言信息從網(wǎng)站單向傳播給用戶。在中國,新浪、網(wǎng)易、搜狐等一批門戶網(wǎng)站的首頁曾是用戶獲取信息的大門。

此后,用戶在信息傳播中由單純的閱讀者越來越多地參與到信息的建設中,普通用戶既是網(wǎng)站信息的閱讀者又是網(wǎng)站信息的貢獻者,語言信息開始在網(wǎng)站和用戶之間雙向傳播,即進入了交互網(wǎng)站時代。wiki、百科、知道、博客等新型網(wǎng)站開始大量涌現(xiàn)。交互式網(wǎng)站允許用戶以多種形式參與網(wǎng)站內容的編輯。博客網(wǎng)站一般允許用戶在網(wǎng)站留言評論,網(wǎng)站所有者(博主)可以回復評論。以百度知道為代表的問答類網(wǎng)站提供了一個網(wǎng)友之間相互答疑解惑的平臺,有相同或相似疑惑的用戶可以通過其他用戶的回答獲得信息。交互網(wǎng)站逐步發(fā)展,衍生出社交網(wǎng)站。網(wǎng)站的角色徹底淡化,成為一個信息多向交互的通路,社交網(wǎng)站改變了之前以信息為中心的傳遞模式,隨著以微信為代表的微型通信服務平臺的出現(xiàn),用戶和用戶之間可以直接交流觀點,可以分享朋友圈的信息,徹底實現(xiàn)了以用戶為中心的信息傳遞模式,語言信息傳播的途徑被完全打通。

(二)新資源

隨著信息傳播方式的演進,互聯(lián)網(wǎng)上語言信息資源的特點也呈現(xiàn)出變化:從規(guī)模大到來源多、變化快。

短短數(shù)年之間,互聯(lián)網(wǎng)就積累了海量網(wǎng)頁,這些是語言信息處理重要的語料來源?;ヂ?lián)網(wǎng)的規(guī)模有多大?恐怕很難有人能給出一個精確的數(shù)字。但可以肯定的是,互聯(lián)網(wǎng)上所蘊含的信息已經(jīng)遠大于世界上所有圖書館所擁有的信息的總和。百度作為世界上最大的中文搜索引擎,抓取到的網(wǎng)頁數(shù)量已達到千億量級。這些海量規(guī)模的網(wǎng)頁,本身即是信息獲取的來源,同時也真實地體現(xiàn)了各種語言現(xiàn)象,基于這些超大規(guī)模的語料庫,可以進行統(tǒng)計分析,并從中抽取語言特征和規(guī)律。

交互式網(wǎng)站帶來的是用戶生成內容,這是互聯(lián)網(wǎng)時代的新生語言信息和資源。UGC數(shù)據(jù)可細分為三類,即知識分享數(shù)據(jù)、博客和微博數(shù)據(jù)以及社區(qū)/論壇數(shù)據(jù)。知識分享型資源,如wikipedia、百度百科等在線百科類資源,由人工編輯,相對內容準確、噪聲較少,對于實體識別、信息抽取和自動文摘等語言信息化技術具有重要價值。博客/微博近年來越來越成為普通網(wǎng)民展示和表達自我的方式。根據(jù)2015年新浪第三季度財報,截至2015年9月30日,新浪微博月活躍用戶數(shù)已經(jīng)達到2.12億人。博客/微博數(shù)據(jù)的最大特點在于其內容的個性化、主觀性以及時效性。這些特點使其在語言信息處理的很多方向上可以被加以研究和應用,例如用戶個性化興趣模型的構建、博客和微博內容的個性化推薦、主觀性內容的情感傾向性分析、熱點事件及輿情的檢測與跟蹤等。社區(qū)/論壇數(shù)據(jù)內容豐富,從社區(qū)和論壇的發(fā)帖、回帖數(shù)據(jù)中可以抽取問答知識,提供問答資源的檢索與推薦,或是對問答資源的數(shù)據(jù)質量進行自動評估。

(三)新問題

互聯(lián)網(wǎng)在提供給我們豐富多樣的資源和數(shù)據(jù)的同時,也提出了諸多的問題和挑戰(zhàn),具體體現(xiàn)在以下兩個方面:

其一,應對快速涌現(xiàn)的新的語言現(xiàn)象,包括:新詞(如“給力”“雷人”),新概念(如“80后”“啃老族”),新專名(如“筷子兄弟”“旭日陽剛”),新用法(如“粉絲”“圍脖”),以及大量的網(wǎng)絡語言甚至“火星文”等。UGC數(shù)據(jù)的膨脹催化了新的語言現(xiàn)象的出現(xiàn),同時也給自然語言處理技術帶來了很多新課題。只有準確地對新詞進行切分,對新概念/新專名進行挖掘,對新用法進行統(tǒng)計,對網(wǎng)絡語言進行改寫和規(guī)范化,才能夠滿足信息抽取、機器翻譯、自動問答等應用需求。

其二,數(shù)據(jù)噪聲的過濾與糾錯。互聯(lián)網(wǎng)數(shù)據(jù)的一大特點是信息的質量良莠不齊,具體體現(xiàn)在網(wǎng)頁數(shù)據(jù)中含有為數(shù)不少的不實新聞、虛假廣告、“軟文”等內容;在UGC數(shù)據(jù)中更是含有非常多的主觀性內容。因此在利用互聯(lián)網(wǎng)數(shù)據(jù)的時候應首先考慮數(shù)據(jù)內容的真實性、可信度、主觀性等方面,否則便容易受到錯誤或不實信息的誤導。此外,互聯(lián)網(wǎng)信息中還含有很多失范現(xiàn)象,主要體現(xiàn)為錯用別字、同音近音替代、表達隨意、句法不規(guī)則等。這些失范現(xiàn)象給語言信息處理的一系列底層技術,包括分詞、詞性標注、句法分析等提出了難題。因此一方面需要考慮如何對不實信息進行甄別,另一方面也要考慮如何對噪聲數(shù)據(jù)進行糾錯和過濾。(Sun et al. 2010)

互聯(lián)網(wǎng)時代,語言信息以驚人的速度增加,千禧年左右廣為引述的一句話很好地闡釋了這個時代的特征:“近30年來,人類生產(chǎn)的信息已超過過去5000年信息生產(chǎn)的總和?!倍聦嵣?,這個速度仍在加快,最新的數(shù)據(jù)顯示,人類近四五年產(chǎn)生的信息已經(jīng)超過過去5000年信息生產(chǎn)的總和。在浩如煙海的信息之中,如何將人們同所需要的信息連接起來就成為互聯(lián)網(wǎng)時代語言信息化的核心目標。

二、搜索引擎

語言信息爆炸增長給用戶便捷獲取信息帶來了嚴峻挑戰(zhàn),如何高效搜索到所需信息成為語言信息化的焦點,直接帶動了搜索引擎行業(yè)的蓬勃發(fā)展。

(一)傳統(tǒng)搜索模式

搜索引擎是指按照一定的策略從互聯(lián)網(wǎng)上收集信息,在對信息進行組織和處理后,為用戶提供檢索服務,并將相關信息展示給用戶的系統(tǒng)?;ヂ?lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類目錄查詢非常流行,網(wǎng)站分類目錄由人工整理維護,精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡要描述,分類放置到不同目錄下。用戶查詢時,通過一層層的點擊來查找自己想找的網(wǎng)站。目錄查詢方式的效率顯然遠高于盲目的“地毯式搜索”,但是人工維護這樣一個目錄勢必難以適應互聯(lián)網(wǎng)語言信息數(shù)據(jù)的爆炸式增長。

此后,以谷歌搜索、百度搜索為代表的新一代搜索引擎推出了基于關鍵詞的全文檢索模式,搜索引擎對從互聯(lián)網(wǎng)上收集到的網(wǎng)頁數(shù)據(jù)進行信息提取并組織建立索引庫,然后依據(jù)查詢的關鍵詞在索引庫中檢索出相關網(wǎng)頁,并對網(wǎng)頁和查詢詞的相關度進行評價后返回結果。大致包括以下三個步驟:

1.搜集信息:搜索引擎利用稱為“網(wǎng)絡蜘蛛”的自動搜索機器人爬取每個網(wǎng)頁的超鏈接。機器人程序順著的超鏈接,從一個網(wǎng)站爬到另一個網(wǎng)站,就像日常生活中所說的“一傳十,十傳百……”,從少數(shù)幾個網(wǎng)頁開始,沿著網(wǎng)頁上的超鏈接,機器人便可以遍歷互聯(lián)網(wǎng)上的絕大部分開放網(wǎng)頁。

2. 整理信息:搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進行編排。這個過程稱為“創(chuàng)建索引”,具體包括去除重復網(wǎng)頁、分詞、提取關鍵詞,并使用一種名為“倒排索引”的技術建立索引庫。如果信息是不按任何規(guī)則隨意堆放在搜索引擎的數(shù)據(jù)庫中,那么每次查找信息都得把整個數(shù)據(jù)庫完全翻查一遍,這樣即使是再快的計算機系統(tǒng)也沒有用。有了索引,搜索引擎就不用重新翻查所有保存的信息而迅速定位到所要的資料。

3.接受查詢:用戶輸入關鍵詞進行查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時每刻都要接到來自大量用戶發(fā)出的查詢,并根據(jù)這些查詢檢索索引數(shù)據(jù)庫,快速找到與用戶需求匹配的網(wǎng)頁,在對網(wǎng)頁進行相關性排序后返回給用戶。目前,搜索引擎返回結果主要是以網(wǎng)頁鏈接的形式提供的,通過這些鏈接,用戶便能到達含有自己所需資料的網(wǎng)頁。通常搜索引擎會在這些鏈接下提供一小段來自這些網(wǎng)頁的摘要信息,以幫助用戶判斷此網(wǎng)頁是否含有自己需要的內容。

(二)現(xiàn)代搜索引擎

雖然基于關鍵詞的全文搜索引擎較之早期的目錄索引無論在網(wǎng)頁數(shù)據(jù)搜集還是在用戶檢索效率上都有了質的飛躍,但是隨著互聯(lián)網(wǎng)海量信息的快速增長,由原來的以單一的文本信息為主發(fā)展成為文本、語音、圖像等多模態(tài)的信息處理。同時,用戶的需求也從關鍵詞搜索為主的信息獲取向著基于語義理解的自動問答、輔助決策等智能交互的方向發(fā)展。這對現(xiàn)代搜索引擎提出了更高的要求,首先由于信息量急劇膨脹,要求返回排序結果更為準確;隨著搜索廣度和深度的提高,要求對返回結果有匯總和聚合的能力,或者對于用戶問題能夠直接給出答案,實現(xiàn)“即搜即得”;更進一步,現(xiàn)代搜索引擎要能真正理解用戶需求,基于用戶行為實現(xiàn)個性化推薦和引導,即“不搜即得”。它有如下兩大特點:

1. 更準確的結果排序

優(yōu)質的搜索引擎返回的結果應該和用戶查詢具有緊密的基礎相關性,此外還要考慮結果的權威性、時效性、多樣性等,反映用戶的個性化需求并過濾作弊結果。準確的結果排序依賴于分詞、詞性標注、命名實體識別、詞匯重要度、詞匯相關度計算等自然語言處理、機器學習和大數(shù)據(jù)挖掘技術。

由于網(wǎng)絡語言具有碎片化及口語化的特點,要求現(xiàn)代搜索引擎具有更強的語義表達能力,包括拼寫糾錯、詞干提取、繁簡轉換、數(shù)字格式統(tǒng)一、同義詞發(fā)現(xiàn)、近義表達歸一化等。例如“明天傷害的天氣”,對于這個查詢,糾錯技術需要自動甄別出其中可能存在的輸入錯誤:“傷害”應為“上海”。針對口語化結構靈活的用語,需要復述和改寫技術,一種方法是借鑒機器翻譯的思路,將查詢改寫看作是同一種語言間的翻譯問題,將用戶的冷門查詢“翻譯”成同義熱門查詢;或者通過從互聯(lián)網(wǎng)資源中抽取復述短語(Bhagat & Ravichandran 2008),對相似意圖的語句進行聚類和歸一。如“請問明天上海的天氣怎么樣啊”是很口語化的查詢,在語義上等同于“明天上海天氣”這個更常規(guī)化的句子。進一步,還可以基于當前日期對“明天”進行解釋,以便于精確查詢。

近年來深度神經(jīng)網(wǎng)絡(DNN)技術再次獲得人們的廣泛關注,在自然語言處理中,主要使用DNN技術學習詞匯的語義表達,即在大量語料統(tǒng)計的基礎上,將詞匯映射為一個低維連續(xù)向量,稱之為詞嵌入(Bengio et al. 2003)?;谠~嵌入的表示方式,不僅一定程度上可以使意義相似的詞具有相似的向量,還可以容易地表征詞匯之間的類比關系,如果以W(“**”)表示“**”這個詞的向量,則有W(“女人”)-W(“男人”)≈W(“王后”)-W(“國王”),利用詞嵌入的這種屬性,可以更好地對詞匯之間的“相關/互斥”關系建模。同時,DNN技術可以充分利用幾十億用戶的點擊行為數(shù)據(jù)進行模型訓練,通過自動學習獲取用戶查詢與網(wǎng)頁相似性特征,從而有效地提升返回結果排序的準確性。

準確的返回結果不僅指與查詢語句的相似度,也包括對用戶個人信息的匹配度。例如,同是“蘋果”這條查詢,不同用戶的需求可能不同,包括水果、蘋果公司、蘋果筆記本電腦、蘋果手機或者名為《蘋果》的電影等不同的可能。每一個用戶的職業(yè)、年齡、興趣愛好等個人特征很大程度上決定了該用戶預期看到什么樣的搜索結果。即使是同一個用戶搜索“蘋果”,他想得到的搜索結果也可能不盡相同,因為用戶在搜索時所處地點和狀態(tài)也是影響其搜索需求的重要因素。為了使返回結果契合用戶查詢,需要用戶建模技術,包括個性化和場景化建模。所謂個性化建模,是指針對每個人的屬性(如性別、年齡等)、狀態(tài)(如上學、求職等)、興趣(如喜歡科幻電影、搖滾音樂等)、消費習慣(如經(jīng)常購買電子產(chǎn)品等)等方面建立模型。例如,“中學生”在搜索引擎的查詢中常會出現(xiàn)“試卷”“成績”“考試”等關注點,“大學生”的查詢里面常會出現(xiàn)“考研”“四級”“簡歷”等關注點,“上班族”的查詢里面常會出現(xiàn)“搜房”“稅率”“人事”等關注點。場景化建模則是指針對時間、地點、上下文語境甚至輸入終端等條件建立模型。只有準確全面地了解用戶信息,才能正確理解用戶的意圖、預測用戶的行為,從而提供準確匹配用戶需求的搜索結果。

2. 更直觀的答案展示

對于現(xiàn)代化搜索引擎的另一個要求是,不應當只是給出搜索結果列表,讓用戶自己從中查找想要的信息,而是要做到真正理解用戶問題,直接給出答案,找到服務。在這個需求驅動下,一種稱之為知識圖譜的關系網(wǎng)絡應運而生。知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的標識符來標志,用屬性—值對來刻畫實體的內在特性,用關系來連接兩個實體并刻畫它們之間的聯(lián)系。知識圖譜的構建通常從包括百科類數(shù)據(jù)在內的多種數(shù)據(jù)源分別獲取候選實體及其屬性信息,從網(wǎng)頁和文本中抽取兩個實體間的關系(Banko et al. 2007)。知識圖譜的構建依賴于實體識別、實體對齊、屬性歸一化等自然語言處理技術及遠距離監(jiān)督學習等機器學習技術。

當用戶查詢與一個命名實體相關的問題時,基于構建好的知識圖譜,可以通過卡片等特殊形式展現(xiàn)問題中涉及的實體及其各種屬性。例如,用戶詢問“火車是誰發(fā)明的”,搜索引擎直接返回答案“斯蒂芬森”及其別名、國籍、出生地、出生日期等相關信息,給用戶以更加直觀的滿足。

圖1 “火車是誰發(fā)明的”搜索答案

此外,知識圖譜還可以賦予搜索引擎簡單的推理計算能力。比如,查詢“180以上的男明星”,可以推測出這里的“180”是指人的身高,并據(jù)此搜索圖譜中所有身高在180cm以上的男明星,給出符合問題的答案集合。

是非型問題,如“寶寶能吃海參嗎”“羽絨服能不能水洗”,以及觀點類問題,如“寶寶打嗝兒怎么辦”“紅燒肉怎么做”等,是知識圖譜不擅長的,此時需要深度問答技術。深度問答技術在自動分析問句需求和類型的基礎上,利用搜索技術從網(wǎng)頁中自動挖掘到一批候選答案,之后過濾、計算每個答案的相關性分數(shù)和可信度,最后排序輸出可信度高的答案。其中不僅需要搜索結果聚合技術,還涉及自動文摘技術。例如,詢問“wifi密碼怎么改”,搜索引擎可以查找到“百度知道”中含有的相關答案,并對答案進行整理和摘要,基于匯總的結果生成步驟式的可讀性強的答案。

3. 更高效的用戶引導

現(xiàn)代搜索引擎,除了根據(jù)關鍵詞相關性排序返回結果列表,還應具有查詢引導機制,即根據(jù)用戶信息和搜索歷史,推薦相關高質量的查詢給用戶,引導用戶瀏覽相關內容,讓用戶更快地得到所求。

高效的推薦引導,往往充分利用大數(shù)據(jù)挖掘技術,根據(jù)用戶過往的搜索會話和點擊日志等預測用戶的關注點,準確擴展出與用戶輸入搜索意圖相似或相關的高質量查詢,引導用戶進行新的搜索。例如,搜索“青藏高原”后,百度搜索識別出這是一首李娜的歌曲,猜測用戶對李娜的歌曲感興趣,則在主頁面的右側醒目地推薦“李娜的熱門歌曲”,引導用戶繼續(xù)點擊。而當用戶搜索“小威”的時候,右側也會推薦“李娜”,但這次推薦的不是歌唱家李娜,而是網(wǎng)球明星李娜,這是依靠大數(shù)據(jù)實現(xiàn)的實體消歧技術。此外,每個推薦實體的下面都會有一行灰色的小字,稱為“推薦理由”,目的是給用戶呈現(xiàn)更豐富的信息,同時也可以增加吸引力,讓用戶對推薦的內容更感興趣。

推薦引導不僅可以在搜索完成后,還可以貫穿在用戶查詢操作的過程中,即用戶已經(jīng)開始在搜索框中輸入關鍵詞但輸入還未完成的階段。此時最常采用的方式是使用suggestion(簡寫為sug)的方式,結合用戶當前輸入,向用戶推薦完整的高質量查詢。優(yōu)質的sug,需結合用戶輸入的上下文動態(tài)變化,例如用戶在前一個查詢中輸出了“百度股價”,之后再輸入“谷歌”時,根據(jù)上下文預測用戶查詢的是“谷歌股價”,并將其列在sug的首位;而如果用戶前一個查詢是“百度翻譯”,則再次輸入“谷歌”時,sug的首位則變?yōu)椤肮雀璺g”。此外,還有“點擊后推薦”,即當用戶點擊后回到搜索結果頁時,在用戶點擊過的結果下為用戶推薦相關查詢。“上翻推薦”,當用戶上翻搜索結果頁時,隨著用戶上翻網(wǎng)頁的同時,向用戶推薦相關查詢。還有更為醒目的通欄“瀏覽式引導”等。這些都為提升用戶體驗、激發(fā)用戶需求、加速信息傳遞和獲取的效率提供了很好的手段。

回顧互聯(lián)網(wǎng)的發(fā)展歷程,搜索引擎不愧為其中發(fā)展最為迅速的領域之一,如今,提供多語言搜索服務的谷歌公司的市值已突破5000億美元,僅次于蘋果公司位列全球企業(yè)第二。在中文搜索市場上,百度則一直獨占鰲頭,每天響應著來自世界上100多個國家和地區(qū)的幾十億次搜索請求。毫不夸張地說,沒有搜索引擎,也就沒有互聯(lián)網(wǎng)的今天。

三、機器翻譯

機器翻譯綜合多種語言的詞法、句法、語義分析和生成等技術,一直被公認為自然語言處理研究最難的課題之一,也是人工智能領域的終極目標之一。同時,機器翻譯又有著廣闊的應用場景,可以帶來豐厚的經(jīng)濟效益和社會效益。

(一)發(fā)展簡史

早在計算機誕生之時,美國洛克菲勒基金會副總裁W. Weaver就提出并和英國工程師A.D.Booth討論過利用計算機進行語言自動翻譯的想法。1954年1月7日,美國喬治敦大學和IBM公司在IBM701上進行了第一次機器翻譯試驗,真正標志著機器翻譯在人類歷史上的出現(xiàn)。在中國,1956年機器翻譯被列入中國科學工作發(fā)展規(guī)劃。1957年,中國科學院語言研究所與計算技術研究所正式合作開展俄漢機器翻譯試驗,這可以說是中文信息處理的第一項工程。此后,機器翻譯經(jīng)歷了20世紀50年代到60年代前半期不斷上升的發(fā)展期,到1966年,美國科學院語言自動處理咨詢委員會(簡稱ALPAC委員會)公布了一個題為《語言與機器》的報告,該報告全面否定了機器翻譯的可行性,機器翻譯發(fā)展陷入了停滯期。直至70年代中期,各國科技情報交流日趨頻繁,計算機科學、語言學研究特別是計算機硬件性能大幅度提高,驅動機器翻譯研究逐漸走向復蘇。這一時期,機器翻譯技術以基于規(guī)則的方法為主,在“中間語言”模式的基礎上進行源語言分析和目標語言生成方法的探索(董振東 2000)。

進入90年代,商業(yè)和信息的全球化使得對翻譯的需求空前增加,機器翻譯進入快速發(fā)展的時期。在中國,隨著中軟公司率先推出“譯星”翻譯軟件,“雅信”“通譯”“華建”“東方快譯”等產(chǎn)品相繼上市,實現(xiàn)了機器翻譯的產(chǎn)品化和商業(yè)化。這時的機器翻譯研究被新興的基于語料庫的方法向前推進著,由IBM公司研究人員提出的統(tǒng)計翻譯模型替代基于規(guī)則的方法成為主流,此外,日本著名的機器翻譯專家長尾真提出的基于實例的機器翻譯方法也具有比較廣泛的影響。在翻譯形式上,除了自動翻譯,還出現(xiàn)了更貼近實用化的計算機輔助翻譯工具,比如Trados公司的Translator Workbench,國內交大銘泰公司的雅信CAT系統(tǒng)等。這些系統(tǒng)融合了文本處理和出版軟件、術語管理以及翻譯記憶庫等,可以輔助專業(yè)翻譯人員提高工作效率,對傳統(tǒng)語言翻譯產(chǎn)業(yè)產(chǎn)生了極大的沖擊和影響。

(二)互聯(lián)網(wǎng)機器翻譯

隨著互聯(lián)網(wǎng)的發(fā)展和經(jīng)濟全球化時代的到來,克服語言障礙、實現(xiàn)跨語言自由溝通的需求日益凸顯。網(wǎng)絡時代對機器翻譯技術提出了新的挑戰(zhàn):(1)互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模和翻譯需求的激增,導致翻譯系統(tǒng)計算負荷加重;(2)互聯(lián)網(wǎng)數(shù)據(jù)復雜多樣,語言資源噪聲大,領域分布不均,大多數(shù)小語種語言數(shù)據(jù)稀缺,翻譯知識獲取困難;(3)語言歧義現(xiàn)象多,語義理解困難,難以構建高質量翻譯系統(tǒng)。

在這樣的背景下,2010年初,百度組建了機器翻譯團隊,研發(fā)基于互聯(lián)網(wǎng)大數(shù)據(jù)的機器翻譯系統(tǒng)。2011年6月30日,百度機器翻譯服務正式上線,經(jīng)過幾年的不懈努力,不斷實現(xiàn)機器翻譯領域技術難題的突破:(1)構建了基于互聯(lián)網(wǎng)大數(shù)據(jù)的分布式機器翻譯模型,快速響應高負荷翻譯需求;(2)將百度最先進的搜索技術與翻譯技術相結合,基于網(wǎng)頁檢索、網(wǎng)站權威性計算、大數(shù)據(jù)挖掘、新詞偵測等技術,從海量的互聯(lián)網(wǎng)網(wǎng)頁中獲取高質量翻譯知識。同時提出了基于“樞軸語言(pivot

language)”的機器翻譯模型,攻克了機器翻譯中小語種覆蓋和語言快速遷移的難題;(3)2015年5月,百度上線了世界上第一個基于深度學習的大規(guī)模線上機器翻譯系統(tǒng)(He et al. 2016),并結合百度已有的多種主流翻譯模型,包括傳統(tǒng)的基于規(guī)則、基于實例、基于統(tǒng)計等翻譯策略,發(fā)揮多種方法的各自優(yōu)勢,減少語言語義歧義,大幅提升了翻譯效果。目前百度翻譯可支持漢語、英語、西班牙語、日語、韓語、法語、俄語等27種語言,702個翻譯方向,每天響應近億次的翻譯請求,在全球擁有超過5億的用戶。百度翻譯語種目前已覆蓋全球超過88%的國家和地區(qū),惠及47億世界人口。機器翻譯技術的突破為人們生活帶來各種便利,小到出國旅游、科技文獻翻譯,大到國際貿易、跨語言文化交流,用戶可以通過百度機器翻譯,解決衣食住行中遇到的各種語言難題。

此外,百度還通過開放API(應用程序編寫接口),支持了華為、金山、OPPO、敦煌網(wǎng)等上萬家第三方翻譯應用,有力地提升了中國企業(yè)的開放創(chuàng)新能力,帶動了相關產(chǎn)業(yè)的繁榮與發(fā)展。2015年,百度與中科院自動化所、中科院計算所、浙江大學、哈爾濱工業(yè)大學和清華大學共同研發(fā)的“基于大數(shù)據(jù)的互聯(lián)網(wǎng)機器翻譯核心技術及產(chǎn)業(yè)化”項目,憑借最廣泛的全球使用人群及其實用價值,榮獲了國家科學技術進步二等獎。

機器翻譯研究已走過半個多世紀歷程,人類對機器翻譯的探索和渴求始終沒有停止過。兼通文理、統(tǒng)合技術與藝術的學科魅力吸引了無數(shù)的研究者獻身其中;促進跨語言交流的顯著作用和巨大的應用價值吸引了大量的機構投資其中?;ヂ?lián)網(wǎng)的普及和廣泛應用進一步推動了機器翻譯技術和產(chǎn)品的發(fā)展?,F(xiàn)代機器翻譯技術和產(chǎn)品正在逐步改變人們的工作、生活以及國際交往,并服務“一帶一路”國家戰(zhàn)略,讓世界各地的人們自由交流,在全球范圍內獲取資訊和服務,創(chuàng)造顯著的經(jīng)濟價值和社會效益。

四、理解語言,擁有智能

根據(jù)第36次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,截至2015年6月,中國互聯(lián)網(wǎng)普及率為48.8%,網(wǎng)民規(guī)模達6.68億,其中手機網(wǎng)民規(guī)模達5.94億。這標志著中國已經(jīng)進入了移動互聯(lián)網(wǎng)的時代。由于移動設備屏幕更小,鍵盤輸入不夠便捷,對使用文字以外的符號,如語音、圖片等多模態(tài)的人機交互方式的需求越來越顯著,特別是使用語音交互的方式逐漸普及。得益于深度學習技術在語音識別及合成中取得的成功,以及互聯(lián)網(wǎng)所能提供的海量語音及文字數(shù)據(jù),語音技術的效果得到了迅速提升,并已廣泛應用于各類互聯(lián)網(wǎng)產(chǎn)品中。根據(jù)《2015中國智能語音產(chǎn)業(yè)發(fā)展白皮書》,2015年全球智能語音產(chǎn)業(yè)規(guī)模達到61.2億美元,其中語音領域的傳統(tǒng)龍頭企業(yè)Nuance的市場份額在迅速下降,而谷歌、微軟、蘋果、百度、科大訊飛等公司的語音技術及產(chǎn)品則迅猛發(fā)展。借助語音交互技術的語音助手、智能車載、智能家具和可穿戴設備的應用將變得越來越普遍。

無論是搜索引擎還是機器翻譯,其使用場景和交互手段都朝著多模態(tài)、多維度的方向發(fā)展,用戶的需求則朝著基于內容的語義理解和基于用戶理解的智能交互和個性化服務的方向演變。例如,百度翻譯不僅集成了語音識別和合成,還集成了文字識別和圖像識別,這樣中國人在國外的餐館點餐時,就可以對外文菜單上的文字進行識別和翻譯,也可以對手機拍的照片中的食物進行識別和翻譯。隨著手機以及智能眼鏡、智能手表等可穿戴設備的普及,用戶可以隨時隨地用各種方式發(fā)起搜索請求。更加智能化擬人化的交互手段和服務方式,比如多輪對話和智能機器人,開始占據(jù)越來越多的比例。

繼谷歌在今年I/O大會上公布了智能即時通信應用Allo,全球幾大科技公司陸續(xù)推出了各自的虛擬助理,包括蘋果Siri、微軟小冰 & Cortana、百度度秘等。這些虛擬助手各有特色,Siri主打智能語音與硬件控制,可以看作 iPhone/iPad/Mac 的貼身小管家;Cortana 背靠微軟 Wndows 操作系統(tǒng),扮演著辦公室助理的角色,而小冰更像一個呆萌的少女,擅長賣萌聊天;Allo 中內置的 Google Assistant可以看作Google Now的升級版,植根于谷歌強大的個人賬號體系,主打服務的強個性化;而度秘則根植于百度搜索及O2O戰(zhàn)略,致力于更好地連接人與信息、人與服務。

從搜索引擎到問答系統(tǒng)、再到虛擬助手,語言信息化技術和產(chǎn)品正朝著人性化和智能化的方向不斷演進,這得益于計算機和移動互聯(lián)設備的不斷革新,云計算、大數(shù)據(jù)處理能力的不斷增強,自然語言處理、語音圖像技術的不斷進步。近年來,深度學習技術在視覺、聽覺以及圍棋博弈等領域都展現(xiàn)出了無堅不摧的能力。在機器翻譯等自然語言處理任務中,雖然深度學習也比過往各種方法都行之有效,但對比在識別領域中取得的顯著成效不免相形見絀(Manning 2015)。這是因為文本理解與語音圖像的模式識別有著本質區(qū)別,語言作為知識的載體,承載了復雜的信息量,具有高度的抽象性,對語言的理解屬于認知的范疇,不能僅靠模式匹配的方式完成。另一方面,深度學習采用的層次結構從大規(guī)模數(shù)據(jù)中自發(fā)學習的黑盒模式是不可解釋的,即知道是什么,卻無法解釋為什么,然而以語言為媒介的人與人之間的溝通應是建立在相互理解的基礎上的。

歸根到底,語言信息處理技術不應該只聚焦于數(shù)據(jù)模型的能力,更應該關注語言和認知本身的問題,例如:如何系統(tǒng)化地表示語言的習得和變化規(guī)律;是否存在適用于人類各語種的通用的抽象語義結構;能夠對個體類別進行抽象泛化的基本概念的范疇和力度是什么;適于進行推理計算的常識知識應如何進行表示等。尤其是句法分析標準、語義結構規(guī)范、知識表示方式,它們是計算機理解自然語言和實現(xiàn)智能化的基礎。這些問題一方面需要對大量真實語言現(xiàn)象進行統(tǒng)計和總結,一方面也需要傳統(tǒng)語言學工作者在理論上進行探索,予以引導。

面向智能化的語言信息處理技術的發(fā)展,勢必要借助于語言學、計算機科學、數(shù)學、腦科學和認知科學等多學科的共同促進,才可能實現(xiàn)計算機與人之間自然高效的交流?!袄斫庹Z言,擁有智能,改變世界”,是語言信息化技術和產(chǎn)業(yè)發(fā)展的終極目標,即讓計算機理解人類的語言,打造真正擁有智能的產(chǎn)品,最終改變人們的生活,構建和諧美好的世界。

參考文獻

董振東 2000 《中國機器翻譯的世紀回顧》,《中國計算機世界》第1期。

Banko, Michele, Michael J. Cafarella, Stephen Soderland, Matt Broadhead, and Oren Etzioni. 2007. Open Information Extraction from the Web. Proceedings of IJCAI, 2670-2676.

Bengio, Yoshua, Réjean Ducharme, Pascal Vincent, and Christian Jauvin. 2003. A Neural Probabilistic Language Model. Journal of Machine Learning Research 3(6), 1137-1155.

Bhagat, Rahul and Deepak Ravichandran. 2008. Large Scale Acquisition of Paraphrases for Learning Surface Patterns. Proceedings of ACL, 674-682.

He, Wei, Zhongjun He, Hua Wu, and Haifeng Wang. 2016. Improved Neural Machine Translation with Smt Features. Proceedings of AAAI Conference on Artificial Intelligence.

Manning, Christopher D. 2015. Computational Linguistics and Deep Learning. Computational Linguistics 41(4), 699-705.

Sun, Xu, Jianfeng Gao, Daniel Micol, and Chris Quirk. 2010. Learning Phrase-Based Spelling Error Models from Clickthrough Data. Proceedings of ACL, 266-274.

責任編輯:劉玥妍

猜你喜歡
深度神經(jīng)網(wǎng)絡機器翻譯搜索引擎
試論基于深度神經(jīng)網(wǎng)絡的汽車車型識別問題
深度神經(jīng)網(wǎng)絡的發(fā)展現(xiàn)狀
互聯(lián)網(wǎng)+新時代下人機翻譯模式研究
考試周刊(2017年2期)2017-01-19 09:13:50
“語聯(lián)網(wǎng)+行業(yè)” 助力中國偉大復興
考試周刊(2017年2期)2017-01-19 09:12:54
大數(shù)據(jù)背景下石油科技翻譯
智富時代(2016年12期)2016-12-01 17:03:10
基于深度神經(jīng)網(wǎng)絡的身份識別研究
機器翻譯不可盲取
基于深度學習的目標反饋識別系統(tǒng)
網(wǎng)絡搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
许昌县| 克山县| 九江市| 徐汇区| 陕西省| 长兴县| 宝鸡市| 任丘市| 施甸县| 乌拉特前旗| 永川市| 西盟| 依兰县| 壤塘县| 麻栗坡县| 棋牌| 阳城县| 林口县| 武邑县| 商洛市| 皮山县| 百色市| 淅川县| 突泉县| 彰武县| 玛沁县| 理塘县| 洛阳市| 肇源县| 丘北县| 宿迁市| 鲁甸县| 故城县| 广丰县| 信宜市| 荥经县| 麻阳| 吉木萨尔县| 外汇| 罗平县| 阿克苏市|