国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

除了做數(shù)學(xué)題,人工智能還能改作文了

2018-01-22 17:02:29李嘉文
第一財(cái)經(jīng) 2018年4期
關(guān)鍵詞:小冰阿里巴巴人工智能

李嘉文

2017年12月,浙江外國(guó)語學(xué)院國(guó)際學(xué)院,來自俄羅斯、韓國(guó)、贊比亞等6個(gè)國(guó)家的11位外國(guó)留學(xué)生各自完成了一篇題為《我的愛好》的中文作文。最終,對(duì)于其中一篇不到200字的文章,“老師”圈出了8處語法和用詞錯(cuò)誤,比如它指出了“會(huì)教給外國(guó)人學(xué)習(xí)中文”中的“會(huì)教給”有語序錯(cuò)誤,應(yīng)改為“教會(huì)”—整個(gè)批改時(shí)間只用了幾十秒。

沒錯(cuò),這篇作文的批改工作是由一位特殊的老師—阿里巴巴的人工智能(AI)系統(tǒng)完成的,這是為了測(cè)試系統(tǒng)中的自然語言處理能力而做的一次嘗試。

或許你還記得2017年6月,人工智能系統(tǒng)參加過中國(guó)的高考(詳情請(qǐng)參見2017年6月19日刊《機(jī)器人考生來了,但它可能更想當(dāng)老師》),半年后,它不僅已從“考生”升級(jí)到了“老師”,還挑戰(zhàn)了對(duì)于計(jì)算機(jī)系統(tǒng)來說更難處理的作文—要知道,此前的人工智能解答的可都是數(shù)學(xué)題,即使如此,一旦遇到文字過多的題目就很容易讀不懂。

在圖像識(shí)別、聲音識(shí)別這兩個(gè)領(lǐng)域,AI技術(shù)已經(jīng)發(fā)展得比較成熟了。系統(tǒng)處理圖像和聲音的錯(cuò)誤率基本低于5%,這樣的錯(cuò)誤率代表著機(jī)器在這方面的能力已經(jīng)可以超越人類。而此次AI批閱中文作文,則意味著AI對(duì)于人類語言的處理也開始變得越來越精準(zhǔn)。

據(jù)阿里巴巴的相關(guān)工程師介紹,AI系統(tǒng)閱卷的第一步即掃描試卷,隨后將掃描圖像轉(zhuǎn)化為文字顯示在電腦上,接下來AI系統(tǒng)會(huì)對(duì)中文語言部分作出處理,采用代表不同意義的符號(hào)在試卷內(nèi)容上圈出多詞、缺詞、錯(cuò)詞和詞序等錯(cuò)誤。

此前,阿里巴巴的AI系統(tǒng)已經(jīng)學(xué)習(xí)了幾十萬字的中文語言,通過掃描儀讀取試卷信息,利用文本識(shí)別技術(shù)將信息轉(zhuǎn)換成文本,之后啟動(dòng)自然語言處理算法分析,并識(shí)別出錯(cuò)位類型和位置,最后批注在試卷上。

這其中包括手寫文字圖像識(shí)別轉(zhuǎn)化、識(shí)別用詞以及語法錯(cuò)誤等步驟。針對(duì)第一步手寫文字的圖像轉(zhuǎn)化,阿里巴巴團(tuán)隊(duì)使用的文本識(shí)別方式是光學(xué)字符(OCR)識(shí)別技術(shù)。這并非新興技術(shù)。早在1960年代,關(guān)于字符識(shí)別的研究就開始了。不過目前識(shí)別難度依舊存在。因?yàn)槊總€(gè)人手寫的文字都各不相同,有的人寫字很潦草,而有的人書寫風(fēng)格自成一體,甚至有些手寫字連人類都很難識(shí)別出來,對(duì)于機(jī)器來說,要窮盡各種各樣的個(gè)性化字體是很難的。

批閱的第二步是讓機(jī)器理解語言,即語義分析。人類的語言非常復(fù)雜,有時(shí)候文字傳達(dá)的并不是字面意思本身,一句話背后還可能隱藏了高興、憤怒、驚喜這樣的情感,而有時(shí)語言背后還有專業(yè)領(lǐng)域,比方說天體物理、量子物理,很多表述是在一個(gè)完整的知識(shí)體系中的表述?!八匀绾巫層?jì)算機(jī)理解一個(gè)多樣化的人類世界的語言,要做到正確識(shí)別它,正確回應(yīng)它,還需要進(jìn)一步優(yōu)化。”阿里巴巴iDST-NLP團(tuán)隊(duì)的自然語言基礎(chǔ)技術(shù)高級(jí)算法專家李林琳對(duì)《第一財(cái)經(jīng)周刊》說。

阿里巴巴iDST-NLP團(tuán)隊(duì)負(fù)責(zé)人、自然語言處理首席科學(xué)家司羅在接受媒體采訪時(shí)也認(rèn)為,中文語法診斷的挑戰(zhàn)性就在于中文語言知識(shí)豐富、語法多樣,而人在判斷一句話是否有錯(cuò)誤時(shí),會(huì)用到長(zhǎng)期積累的知識(shí)體系,比如一句話是否通順、兩個(gè)詞是否可以搭配、語義上是否成立等。相比之下,機(jī)器目前接受的訓(xùn)練數(shù)據(jù)有限,要達(dá)到人類水準(zhǔn)還是有很大的差距。這或許也是為什么“AI老師”如今只能批改詞句相對(duì)簡(jiǎn)單的留學(xué)生作文的原因。

實(shí)際上,在阿里巴巴的AI系統(tǒng)批改作文之前,微軟的人工智能語音助手“小冰”已在2016年嘗試過寫作文,甚至還在2017年出版了詩(shī)集。

“小冰”的寫詩(shī)能力基于對(duì)1920年后519位現(xiàn)代詩(shī)人創(chuàng)作的上千首詩(shī)的學(xué)習(xí),其訓(xùn)練次數(shù)達(dá)到1萬次,一次學(xué)習(xí)時(shí)間大約是0.6分鐘。據(jù)“小冰”全球項(xiàng)目負(fù)責(zé)人李笛介紹,“小冰”已具備包括文本、語音、圖像、視頻和全時(shí)語音感官等在內(nèi)的完整的人工智能感官系統(tǒng),以及知識(shí)圖譜,所以在經(jīng)過數(shù)次迭代后,它已擁有人工智能創(chuàng)作者所需要的特征。

但不同于能被證明的命題或能被推論的定理,人工智能系統(tǒng)目前還無法像人一樣自主地聯(lián)想,而且,文學(xué)創(chuàng)作會(huì)調(diào)動(dòng)寫作者的經(jīng)歷、追憶、愿景等元素,這些在AI創(chuàng)作的作品中是無法體現(xiàn)出來的—正如AI批改作文時(shí)遇到的問題。但拋開創(chuàng)意性的部分,語言畢竟有一定規(guī)律可循,而這是系統(tǒng)可以掌握的。

阿里巴巴的AI系統(tǒng)也接受了語義理解的訓(xùn)練,其學(xué)習(xí)資料大部分來自于阿里巴巴各大事業(yè)部積累的數(shù)據(jù)。

比如最主要的電商平臺(tái)。一個(gè)電商平臺(tái)會(huì)積累大量商家和消費(fèi)者端的數(shù)據(jù)—商品、品牌以及型號(hào)數(shù)據(jù),以及用戶在平臺(tái)產(chǎn)生的購(gòu)買行為數(shù)據(jù)。例如,用戶在購(gòu)買了一個(gè)單反相機(jī)后又購(gòu)買了一個(gè)鏡頭,那么平臺(tái)就會(huì)產(chǎn)生一種數(shù)據(jù)之間的邏輯:?jiǎn)畏聪鄼C(jī)和鏡頭之間有某種屬性的關(guān)系。在一定的處理和標(biāo)記下,這些都可以作為AI系統(tǒng)平常的學(xué)習(xí)素材。

當(dāng)然,對(duì)于技術(shù)解決方案來說,數(shù)據(jù)的獲取僅僅是開端,要把這部分?jǐn)?shù)據(jù)利用起來還需要技術(shù)團(tuán)隊(duì)做好“標(biāo)注”工作。目前很多公司會(huì)采用人工標(biāo)注手段。李林琳認(rèn)為,對(duì)訓(xùn)練數(shù)據(jù)做全面的整體標(biāo)注還是需要尋找專業(yè)人士甚至是語言學(xué)家,但這種方式會(huì)帶來很大的成本和較長(zhǎng)的周期。因此,阿里巴巴團(tuán)隊(duì)會(huì)盡量減少全人工標(biāo)注的數(shù)據(jù)量,采用一種更高效和經(jīng)濟(jì)的方式—從海量的用戶行為日志中挖掘半標(biāo)注數(shù)據(jù)。

還是以電商平臺(tái)為例。比如用戶在淘寶等平臺(tái)上搜索的關(guān)鍵字是“三生三世十里桃花手鏈”,而用戶實(shí)際點(diǎn)擊的商品的標(biāo)題是“三生三世十里桃花楊冪同款手鏈”,其中重疊字符串“三生三世十里桃花”就很可能成為AI系統(tǒng)掌握的一個(gè)新概念。也就是說,通過海量的用戶行為數(shù)據(jù),自動(dòng)生成了機(jī)器學(xué)習(xí)模型依賴的數(shù)據(jù)。

這也顯示出AI提高文本識(shí)別精確率后的商用場(chǎng)景。在阿里巴巴集團(tuán)內(nèi)部,通過利用這種技術(shù)識(shí)別錯(cuò)別字或文字缺漏,可以優(yōu)化電商平臺(tái)的搜索體驗(yàn)。很多電商用戶在搜索產(chǎn)品時(shí)經(jīng)常會(huì)打錯(cuò)別字,還會(huì)出現(xiàn)讀音相近帶來的錯(cuò)誤,“舉個(gè)例子,比如二年醇常會(huì)被說成二娘醇,我們的語法診斷糾錯(cuò)技術(shù)可以對(duì)這種錯(cuò)別字做識(shí)別?!崩盍至照f。

由此,它還可以擴(kuò)展到應(yīng)用范圍更廣的客戶服務(wù)領(lǐng)域。由于電商和O2O平臺(tái)的發(fā)展,很多公司對(duì)客服人員的需求不斷加大,但與此同時(shí)它們卻長(zhǎng)期面臨客服人員的缺口?!叭绻幸粋€(gè)可以精準(zhǔn)理解人類語言的工具幫助企業(yè)減輕客戶服務(wù)負(fù)擔(dān),對(duì)于企業(yè)來說,他們肯定有很強(qiáng)的采購(gòu)意愿?!崩盍至照f。目前市場(chǎng)上已經(jīng)有了小i機(jī)器人、智齒科技、網(wǎng)易七魚這些產(chǎn)品,它們背后都采用了自然語言技術(shù)。

當(dāng)然,在李林琳的眼中,經(jīng)過不斷進(jìn)化的“AI老師”,另一個(gè)目標(biāo)是能走入教育市場(chǎng),甚至有一天進(jìn)入媒體及出版行業(yè),成為我們身邊的“校對(duì)老師”—相比創(chuàng)意性寫作,這可能是人工智能在該領(lǐng)域更切實(shí)地應(yīng) 用。

猜你喜歡
小冰阿里巴巴人工智能
阿里巴巴與四十大盜
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
第六代微軟小冰正式發(fā)布
小冰在“浙江24 小時(shí)”干了些什么活
錢江晚報(bào)來了“小冰”——一張都市報(bào)在“Al+新聞”上的探索和突破
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
阿里巴巴:股大大,權(quán)大大,還是錢大大?
為什么是阿里巴巴?
米林县| 崇信县| 和平县| 衡阳县| 方城县| 沂南县| 卢龙县| 眉山市| 阜宁县| 隆安县| 津南区| 华安县| 龙里县| 江城| 灵璧县| 旌德县| 罗城| 穆棱市| 庐江县| 南雄市| 新田县| 金堂县| 沙坪坝区| 安顺市| 金昌市| 白水县| 贵阳市| 云龙县| 黔南| 石屏县| 建始县| 日照市| 枣强县| 江川县| 万年县| 观塘区| 余干县| 广东省| 汝城县| 出国| 敖汉旗|