国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自然語言處理的技術(shù)和產(chǎn)業(yè)應(yīng)用現(xiàn)狀與趨勢分析

2019-03-19 12:10葛運東陳洪梅姚建民
產(chǎn)業(yè)與科技論壇 2019年17期
關(guān)鍵詞:實例圖譜譯文

□葛運東 陳洪梅 姚建民

本文分析了自然語言處理的基礎(chǔ)技術(shù)、基本應(yīng)用,并依據(jù)技術(shù)覆蓋面和深度,選擇機器翻譯為例,從主流翻譯系統(tǒng)存在的不足,分析機器翻譯現(xiàn)狀和趨勢,進而反思自然語言處理產(chǎn)業(yè)應(yīng)用的現(xiàn)狀和發(fā)展趨勢。

一、自然語言處理基礎(chǔ)技術(shù)

(一)分詞。分詞即將句子通過各種算法轉(zhuǎn)換成詞語串的過程。分詞的難點有命名實體識別、交叉歧義、未登錄詞識別、領(lǐng)域歧義、多源異構(gòu)數(shù)據(jù)的融合及多種粒度分詞等。命名實體識別將文本中的實體按類標記出來,例如人名、公司名、地區(qū)、基因和蛋白質(zhì)的名字等。

(二)詞性標注。詞性是詞匯基本的語法屬性。詞性標注就是確定給定句子中每個詞的詞性并加以標注的過程。詞性標注的難點在于歧義的消除,比如漢字“把”有介詞(“你能把他怎么樣?”)、量詞(“一把匕首”)、動詞(“把酒言歡”、“把門兒”)、名詞(“刀把兒”、“話把兒”)。

(三)句法分析。句法分析即確定句子語法結(jié)構(gòu),生成句子中詞匯之間的依存句法樹。句法分析是實現(xiàn)最終目標的關(guān)鍵環(huán)節(jié)。常見的句法分析有句法結(jié)構(gòu)分析、依存關(guān)系分析等。以獲取整個句子的句法結(jié)構(gòu)為目的的稱為完全句法分析,而以獲得局部成分為目的的語法分析稱為局部分析。通過依存句法分析,生成句子的依存句法樹,該句法樹描述詞語之間依存關(guān)系、搭配關(guān)系,搭配關(guān)系是語義相關(guān)聯(lián)。

(四)語義分析。語義分析即學(xué)習(xí)并理解文本蘊含的語義內(nèi)容。依據(jù)不同的語言單位,語義分析可以分為詞匯級、句子級以及篇章級三種。詞匯級聚焦如何獲取詞語粒度的語義,句子級分析整個句子級文本表達的語義,篇章級分析文本的內(nèi)在結(jié)構(gòu)及文本單元間的相互語義關(guān)系。

(五)篇章分析。篇章分析即確定篇章結(jié)構(gòu)、分析篇章特征。其中基本結(jié)構(gòu)分析是篇章內(nèi)部關(guān)系各種結(jié)構(gòu)的分析,包含了功能、邏輯、指代、話題、事件等結(jié)構(gòu)。篇章特征主要包含了意圖、可接受、信息、情景以及跨篇章等各方面的特征。

(六)自然語言生成。自然語言生成是指計算機根據(jù)一些關(guān)鍵信息并聯(lián)合機器表達形式,生成高質(zhì)量的像人一樣寫作的自然語言文本內(nèi)容的技術(shù)。常見的生成方法有基于規(guī)則的方法、基于知識檢索的方法以及基于深度學(xué)習(xí)的方法等。

二、自然語言處理的應(yīng)用技術(shù)

自然語言處理一方面可以用于文本處理,服務(wù)于大數(shù)據(jù)應(yīng)用,另一方面自身也有信息抽取、問答、機器寫作、對話、機器翻譯、閱讀理解等應(yīng)用技術(shù),可用于信息檢索、科技服務(wù)、人工智能、在線教育、醫(yī)療專家系統(tǒng)、金融分析等方方面面。

(一)信息抽取、知識圖譜構(gòu)建。信息抽取即生成文本的結(jié)構(gòu)化信息。結(jié)構(gòu)化信息點從文本中抽取后以統(tǒng)一的形式集成起來。信息抽取不進行整篇文檔的全面理解,而是重點分析文本中包含相關(guān)信息的部分。

知識圖譜構(gòu)建是自然語言研究領(lǐng)域的熱點,包含了實體識別、實體屬性識別、事件抽取、關(guān)系抽取、概念實例化及規(guī)則學(xué)習(xí)等。其中的主要任務(wù)包括知識的建模、圖譜構(gòu)建、融合、推理計算以及賦能等。

(二)智能問答和智能寫作。智能問答涉及理解語言內(nèi)涵、推敲問答的意圖、挖掘與問答貼切的相關(guān)知識,問答系統(tǒng)主要包含問答分類、分析、理解,答案的匹配、檢索、生成等功能。

智能寫作是指計算機利用算法和自然語言生成器撰寫文本的過程,比如新聞寫作,計算機利用人類專家預(yù)先設(shè)計好的算法模型快速搜尋與主題相關(guān)的信息,將其匯總到知識庫,再提煉有價值的信息,形成新聞報道。

(三)智能對話。智能對話分為開放域、封閉域兩種對話系統(tǒng)。該領(lǐng)域面臨上下文篇章建模、對話狀態(tài)轉(zhuǎn)移、領(lǐng)域知識建模等各種問題。智能對話是商用最廣泛的自然語言處理技術(shù),應(yīng)答機器人、智能音箱、客服機器人等在市場上大量涌現(xiàn)。

三、機器翻譯存在的問題分析和展望

機器翻譯是人工智能皇冠上的明珠,是自然語言處理領(lǐng)域所有關(guān)鍵技術(shù)的綜合應(yīng)用,突出反映自然語言處理技術(shù)存在的不足和未來需要研發(fā)的方向。同聲傳譯系統(tǒng)已經(jīng)在世界大會上引人注目的付諸應(yīng)用,但就像百度吳華博士的觀點:要先解決語義理解,機器翻譯才可能取代人類。

根據(jù)翻譯實踐中的經(jīng)驗,對機器翻譯常見問題的典型實例做了分析匯總,一方面揭示機器翻譯技術(shù)的不足,更探討自然語言處理技術(shù)面臨的問題。

(一)最合適的譯文不在詞典或語料中出現(xiàn),需要在詞條譯文基礎(chǔ)上靈活編制。一些詞匯或短語譯文不能武斷拷貝或映射,要根據(jù)上下文搭配靈活應(yīng)對。比如Make或Produce這類通用詞,生成譯文后要做適當修飾,符合目標語語感,如實例1。

實例1:universities were faced with significant pressure to produce innovative results……

詞典中動詞produce的譯文(vt.&vi.產(chǎn)生;生產(chǎn);制作;創(chuàng)作;vt.制造;出示;引起;[經(jīng)濟學(xué)]生利)并不適合本句的上下文搭配,需要根據(jù)其主語“universities”和賓語“results”,靈活翻譯為“研發(fā)”。produce這類詞的譯文非常靈活,依賴于搭配的主語和賓語,make、last等詞語也類似。

(二)詞典中譯文是解釋性的,實際譯文需要靈活調(diào)整。詞典中一些詞條的譯文是解釋性的,不適合機器翻譯直接用于目標譯文生成,需要根據(jù)上下文環(huán)境做靈活處理,不能靠詞典譯文拷貝。比如:

實例2:But the most important to a visually oriented species like human beings is ocular data.

實例2中,ocular(詞典譯文:adj.眼的;眼睛的;可以看見的;看得到的)翻譯成“眼數(shù)據(jù)”、“看得到的數(shù)據(jù)”都不恰當,翻譯為“視覺數(shù)據(jù)”更符合上下文語義環(huán)境。這涉及詞義選擇,也涉及習(xí)慣短語以及在理解源語言語義的基礎(chǔ)上對目標語詞匯和句子的組織。

(三)領(lǐng)域適應(yīng)最終是個語義分析問題。領(lǐng)域適應(yīng)通常根據(jù)詞匯同現(xiàn)信息建模,融合短上下文和長上下文。但根據(jù)以下實例可以判斷,簡單上下文統(tǒng)計仍然替代不了語義分析。

實例3:Because GPS signals are blocked inside of buildings and SLAM capable LADAR units are too heavy and/or expensive for most applications.

實例3中包含大量的電子領(lǐng)域術(shù)語,但application的譯文恰恰不能選擇電子領(lǐng)域常用的“應(yīng)用程序”。這種不足可能是領(lǐng)域欠擬合,但領(lǐng)域過擬合也同樣會導(dǎo)致詞意選擇錯誤。句子上下文的微妙語義差別很難用簡單的詞頻等信息刻畫,需要引入更深層的語義信息。

(四)專名、縮略語消歧需要借助知識圖譜,簡單上下文解決不了。一些專名、縮略語消歧需要根據(jù)廣泛上下文,構(gòu)建知識圖譜或關(guān)系網(wǎng)絡(luò)才能消除歧義,比如AP-NCC。

實例4:In an AP-NCC poll,44 percent of people supported the police using drones……

通過互聯(lián)網(wǎng)查詢,該AP-NCC的原文是Associated Press-National Constitution Center,而不是同樣形式的其它縮寫。這些專名或縮略語消歧已經(jīng)完全不是翻譯問題,而是知識圖譜、關(guān)系網(wǎng)絡(luò)的建構(gòu)或語義理解,往往需要非常詳細的知識圖譜及關(guān)系網(wǎng)絡(luò)等信息。

(五)翻譯是由多個分離過程組織的知識圖譜轉(zhuǎn)換。復(fù)雜句型需要理解源語言的每個子句,結(jié)合語法和語義分析,恰當調(diào)整子句順序和修飾關(guān)系,才能生成合理的譯文子句、整句。子句間的修飾關(guān)系往往涉及知識圖譜或者語義關(guān)系。

實例5:First and foremost,drones change the way that we see.

翻譯既涉及到子句的調(diào)序,更需要語義分析才能決定子句間的修飾關(guān)系或者具體詞匯的含義。翻譯不僅需要句法分析、依存分析,也包含前文提到的譯文選擇同樣的問題,是綜合性非常強的分析和生成過程。

四、結(jié)語

梳理了自然語言處理的基礎(chǔ)技術(shù)和應(yīng)用技術(shù),以影響廣泛、技術(shù)模塊復(fù)雜、實現(xiàn)難度最大的機器翻譯技術(shù)為例,分析了目前技術(shù)路線和實現(xiàn)方法存在的不足。

未來自然語言處理技術(shù)應(yīng)該從如下領(lǐng)域深度研發(fā):研究新的自然語言處理模型,進一步提高機器翻譯的理解能力。更細粒度更大規(guī)模的知識庫建設(shè)。更要從目標語語義出發(fā),基于實例或語言模型對譯文進行修飾。自然語言處理和音頻、視頻等更多信息結(jié)合,多渠道、多媒體信息促進歧義消解,進一步提高自然語言處理的質(zhì)量。

猜你喜歡
實例圖譜譯文
Stem cell-based 3D brain organoids for mimicking,investigating,and challenging Alzheimer’s diseases
繪一張成長圖譜
譯文摘要
補腎強身片UPLC指紋圖譜
I Like Thinking
主動對接你思維的知識圖譜
完形填空Ⅱ
完形填空Ⅰ
雜草圖譜
譯文
武义县| 鸡东县| 永新县| 习水县| 建瓯市| 梅河口市| 莎车县| 遂溪县| 三明市| 年辖:市辖区| 渝北区| 白沙| 永春县| 新源县| 乾安县| 奉贤区| 太仓市| 吉林省| 淳安县| 西丰县| 武乡县| 沧州市| 九台市| 彩票| 茂名市| 娄烦县| 嘉禾县| 佳木斯市| 嘉义县| 三亚市| 镇江市| 仁布县| 乐陵市| 白水县| 清河县| 靖宇县| 崇州市| 本溪| 扎鲁特旗| 阜阳市| 静安区|