李 斌,王浩暢
(1.湖南科技大學(xué),湖南 湘潭 411201;
2.東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
近年來(lái),隨著人們對(duì)人工智能技術(shù)的開(kāi)發(fā)與研究,它在全球都受到了廣泛關(guān)注,人工智能技術(shù)不僅在科技方面有著不可替代的作用,而且在教育教學(xué)領(lǐng)域也有著非常廣闊的前景。中國(guó)對(duì)人工智能的重視已上升為國(guó)家戰(zhàn)略層面,不僅于2017年發(fā)布的《新媒體聯(lián)盟地平線報(bào)告:2017高等教育版》中表示:人工智能對(duì)今后的教育發(fā)展將產(chǎn)生重要影響[1],而且于2018年4月召開(kāi)的全國(guó)教育信息化工作會(huì)議中也提到“人工智能化領(lǐng)跑教育信息化2.0”[2]。不僅國(guó)內(nèi)對(duì)人工智能教育領(lǐng)域應(yīng)用十分重視,國(guó)外還專門針對(duì)這一領(lǐng)域設(shè)有權(quán)威學(xué)術(shù)期刊——《人工智能教育應(yīng)用國(guó)際雜志》(International Journal of Artificial Intelligence in Education)。在這些信息的推波助瀾下,越來(lái)越多的高校和科研機(jī)構(gòu)都對(duì)“人工智能+教育”進(jìn)行了系統(tǒng)開(kāi)發(fā)和深入研究。未來(lái),人工智能技術(shù)與教育的融合將成為必然趨勢(shì)。
人工智能技術(shù)、信息技術(shù)和教育技術(shù)是實(shí)現(xiàn)“人工智能+教育”的三大技術(shù)支持。其中,機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、圖像識(shí)別等技術(shù)都是人工智能技術(shù)和信息技術(shù)的整合;相關(guān)的教育技術(shù)有:教學(xué)設(shè)計(jì)、課程建設(shè)、教學(xué)方法等內(nèi)容[3]。這些技術(shù)為人工智能在教育領(lǐng)域中的應(yīng)用奠定了技術(shù)基礎(chǔ)。隨著中國(guó)國(guó)際地位的不斷提高,以及漢語(yǔ)國(guó)際教育在全球范圍的大力推廣,全世界掀起一股漢語(yǔ)熱的風(fēng)潮,促使越來(lái)越多的外國(guó)學(xué)生選擇來(lái)華進(jìn)行漢語(yǔ)學(xué)習(xí)。雖然學(xué)習(xí)漢語(yǔ)已經(jīng)成為一種趨勢(shì),但是對(duì)外漢語(yǔ)教師極為匱乏,不僅如此,單一的漢語(yǔ)教學(xué)模式、課上課下缺少?gòu)?qiáng)化練習(xí)過(guò)程、教師教學(xué)任務(wù)繁重以及缺少真實(shí)的語(yǔ)言練習(xí)環(huán)境等限制條件,從根本上制約了漢語(yǔ)學(xué)習(xí)者的學(xué)習(xí)。
由于計(jì)算機(jī)在語(yǔ)言教學(xué)中的應(yīng)用,即計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(Computer Assisted Language Learning,CALL)可以使學(xué)習(xí)者突破時(shí)間和空間的限制進(jìn)行有效的語(yǔ)言學(xué)習(xí)和訓(xùn)練,便于學(xué)習(xí)者充分利用碎片時(shí)間進(jìn)行個(gè)性化學(xué)習(xí)。一時(shí)間內(nèi),國(guó)內(nèi)外學(xué)者和科學(xué)家開(kāi)發(fā)了許多漢語(yǔ)學(xué)習(xí)軟件,并進(jìn)行深入研究,研究?jī)?nèi)容主要集中在應(yīng)用開(kāi)發(fā)與設(shè)計(jì)、具體功能設(shè)計(jì)與實(shí)現(xiàn)、應(yīng)用調(diào)查分析、具體內(nèi)容分析與設(shè)計(jì)、應(yīng)用效果分析等方面。
目前,漢語(yǔ)學(xué)習(xí)軟件種類繁多,大多數(shù)軟件都涵蓋了課件音頻、視頻的播放、漢字書(shū)寫和發(fā)音教學(xué)、詞匯學(xué)習(xí)等方面的內(nèi)容,但由于在設(shè)計(jì)、技術(shù)、語(yǔ)言情境等方面上仍存不足,造成對(duì)外漢語(yǔ)學(xué)習(xí)者的學(xué)習(xí)支持力度不夠。對(duì)于語(yǔ)言學(xué)習(xí)來(lái)說(shuō),語(yǔ)境是至關(guān)重要的,學(xué)習(xí)語(yǔ)言的最佳路徑就是在真實(shí)的語(yǔ)境中進(jìn)行一對(duì)一對(duì)話,然而利用智能聊天機(jī)器人系統(tǒng)就可以實(shí)現(xiàn)創(chuàng)設(shè)真實(shí)的或模擬的漢語(yǔ)學(xué)習(xí)環(huán)境,主要運(yùn)用人工智能中的自然語(yǔ)言處理技術(shù),創(chuàng)設(shè)出真實(shí)的語(yǔ)境,讓學(xué)習(xí)者與機(jī)器人用自然語(yǔ)言進(jìn)行對(duì)話。智能聊天機(jī)器人是人工智能領(lǐng)域中的一個(gè)重要研究方向,它是通過(guò)模擬自然語(yǔ)言來(lái)與人類進(jìn)行對(duì)話。人們學(xué)習(xí)語(yǔ)言的目的是為了交流,而學(xué)習(xí)語(yǔ)言的最佳途徑也是通過(guò)對(duì)話來(lái)學(xué)習(xí)交流,將聊天機(jī)器人與漢語(yǔ)學(xué)習(xí)相結(jié)合,開(kāi)發(fā)具有理解功能的交互式人機(jī)對(duì)話漢語(yǔ)學(xué)習(xí)環(huán)境,對(duì)于提高對(duì)話和漢語(yǔ)表達(dá)能力,以及提高對(duì)外漢語(yǔ)教學(xué)質(zhì)量有著舉足輕重的地位和實(shí)踐價(jià)值?;谝陨显颍P者開(kāi)發(fā)了基于聊天機(jī)器人的智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)。
隨著人工智能技術(shù)的熱潮席卷全世界各個(gè)領(lǐng)域,人工智能技術(shù)在教育領(lǐng)域的應(yīng)用逐漸具有了不可替代的作用,因此,越來(lái)越多的國(guó)內(nèi)外研究者對(duì)在語(yǔ)言教學(xué)領(lǐng)域中使用人工智能技術(shù)產(chǎn)生了濃厚興趣。探討人工智能技術(shù)如何與語(yǔ)言教學(xué)領(lǐng)域進(jìn)行有機(jī)結(jié)合,不僅能極大地推動(dòng)人工智能技術(shù)的進(jìn)步,還能夠促進(jìn)整個(gè)語(yǔ)言教學(xué)科研領(lǐng)域的發(fā)展。
黃曉潔[4](2006)提出輔助閱讀系統(tǒng)和輔助教材編寫系統(tǒng)的設(shè)計(jì)構(gòu)想,從理論層面和模型構(gòu)想上探索利用自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)對(duì)外漢語(yǔ)輔助教學(xué)系統(tǒng)。盧丹丹[5](2009)提出基于人工智能技術(shù)的大學(xué)英語(yǔ)輔助教學(xué)系統(tǒng),主要包括兩個(gè)部分:一是基于專家系統(tǒng)理論的教師英語(yǔ)輔助教學(xué)專家系統(tǒng)模塊;二是基于BP神經(jīng)網(wǎng)絡(luò)模型的學(xué)生自主學(xué)習(xí)系統(tǒng)模塊。安靜[6](2011)利用數(shù)據(jù)挖掘技術(shù)及人工智能中的專家系統(tǒng)理論,實(shí)現(xiàn)英語(yǔ)輔助教學(xué)系統(tǒng)。微軟首席研究官瑞克·拉希德(Rick Rashid)在2012年11月演示了計(jì)算機(jī)“同聲傳譯”系統(tǒng),該系統(tǒng)不僅能將英文翻譯成中文,還可以模擬說(shuō)話者的語(yǔ)音語(yǔ)調(diào),該技術(shù)對(duì)實(shí)時(shí)口譯和語(yǔ)言學(xué)習(xí)等方面有很大幫助。陳穎[7](2013)利用自然語(yǔ)言理解、機(jī)器學(xué)習(xí)和智能搜索等人工智能技術(shù),嘗試設(shè)計(jì)針對(duì)中學(xué)英語(yǔ)教學(xué)的人工智能系統(tǒng),并探索該系統(tǒng)的具體實(shí)施條件和實(shí)現(xiàn)。郝丹[8](2015)通過(guò)將多媒體技術(shù)與自然語(yǔ)言處理技術(shù)相結(jié)合,開(kāi)發(fā)漢語(yǔ)學(xué)習(xí)系統(tǒng),實(shí)現(xiàn)漢語(yǔ)基礎(chǔ)知識(shí)學(xué)習(xí)模塊、專題瀏覽模塊以及語(yǔ)句學(xué)習(xí)、新聞?wù)颓楦蟹治鋈齻€(gè)結(jié)合自然語(yǔ)言處理技術(shù)的工具助手模塊。微軟亞洲研究院于2016年開(kāi)發(fā)的微軟小英,是一款英語(yǔ)口語(yǔ)學(xué)習(xí)和訓(xùn)練軟件,融合了自然語(yǔ)言處理、語(yǔ)音識(shí)別和語(yǔ)音合成等人工智能技術(shù),主要通過(guò)情景模擬、情境對(duì)話和跟讀訓(xùn)練等功能,幫助英語(yǔ)學(xué)習(xí)者完善發(fā)音、熟練口語(yǔ),以及快速建立日常英語(yǔ)溝通能力。孫雅琳[9](2018)利用人工智能中的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù),實(shí)現(xiàn)對(duì)大學(xué)英語(yǔ)技能訓(xùn)練系統(tǒng)中的口語(yǔ)主觀表達(dá)題的智能批改,將對(duì)減輕教師批改壓力、指導(dǎo)學(xué)生學(xué)習(xí)有很大幫助。賈積有博士[10]自主設(shè)計(jì)研發(fā)的“希賽可”,是一個(gè)模擬英語(yǔ)語(yǔ)言交流情境的智能英語(yǔ)學(xué)習(xí)系統(tǒng),將自然語(yǔ)言處理、智能代理等人工智能技術(shù)應(yīng)用于英語(yǔ)教學(xué)領(lǐng)域,該系統(tǒng)主要包括“希賽可”聊天機(jī)器人、“希賽可”教學(xué)平臺(tái)和“希賽可”背單詞軟件三個(gè)部分[11]。楊曉瓊等[12]介紹的批改網(wǎng),是一款基于自然語(yǔ)言處理、人工智能等技術(shù)實(shí)現(xiàn)的在線自動(dòng)英語(yǔ)作文批改系統(tǒng),通過(guò)分析學(xué)生英語(yǔ)書(shū)面作文,檢測(cè)出其中的錯(cuò)誤,并即時(shí)給出評(píng)分、改善建議以及內(nèi)容分析結(jié)果,學(xué)生可根據(jù)提示自主修改多次提交,直至達(dá)到滿意為止,這種方式將有助于提升學(xué)生的英語(yǔ)寫作能力。不僅研究者在語(yǔ)言教學(xué)領(lǐng)域上運(yùn)用人工智能技術(shù)非常重視,國(guó)內(nèi)外研究機(jī)構(gòu)和學(xué)者也組織了許多相關(guān)會(huì)議和語(yǔ)言評(píng)測(cè),進(jìn)一步促進(jìn)人工智能技術(shù)在語(yǔ)言教學(xué)領(lǐng)域的應(yīng)用。
計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)的自然語(yǔ)言處理研討會(huì)(Natural Language Processing for Computer Assisted Language Learning,NLP4CALL)由北歐語(yǔ)言技術(shù)協(xié)會(huì)(Northern European Association of Language Technology,NEALT)組織,從2012年開(kāi)始,每年舉行一次,致力于將自然語(yǔ)言處理和語(yǔ)音技術(shù)集成到CALL系統(tǒng)中,更好地理解和應(yīng)用語(yǔ)言,從而使CALL智能化,將該研究領(lǐng)域取名為智能計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(ICALL),主要探討研究?jī)?nèi)容如下:使用NLP工具來(lái)測(cè)試第二語(yǔ)言習(xí)得(SLA)理論和教學(xué)理論;利用SLA理論和教學(xué)實(shí)踐在ICALL工具中建模。從2016年起,將語(yǔ)言習(xí)得研究的自然語(yǔ)言處理研討會(huì)(Natural Language Processing for Research in Language Acquisition,NLP4LA)聯(lián)合在一起舉辦,目的是為研究語(yǔ)言習(xí)得過(guò)程中出現(xiàn)的理論和方法問(wèn)題的研究人員提供一個(gè)會(huì)議場(chǎng)所,包括經(jīng)驗(yàn)和實(shí)驗(yàn)研究以及基于NLP的應(yīng)用。語(yǔ)言與智能高峰論壇(Language & Intelligence Summit)由中國(guó)中文信息學(xué)會(huì)和中國(guó)計(jì)算機(jī)學(xué)會(huì)聯(lián)合舉辦,2016年在北京首次召開(kāi),每年舉行一次。該高峰論壇主要探討語(yǔ)言與智能領(lǐng)域的新發(fā)展和新技術(shù),目的在于向全世界介紹國(guó)際語(yǔ)言與人工智能領(lǐng)域的發(fā)展趨勢(shì)和創(chuàng)新成果,進(jìn)一步推動(dòng)國(guó)內(nèi)語(yǔ)言與人工智能技術(shù)領(lǐng)域的發(fā)展。
北京洪堡論壇(BHF)于2013年11月創(chuàng)辦,由德國(guó)洪堡基金會(huì)和對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)共同主辦,每年9月在中國(guó)舉行。第六屆北京洪堡論壇于2018年9月在對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)舉行,以“綠色經(jīng)濟(jì)·文化傳承·教育2035”為主題,將從多角度、多方位、多領(lǐng)域探討,其中包含“人工智能與語(yǔ)言研究”主題論壇,主要有以下議題:人工智能技術(shù)在語(yǔ)言研究和翻譯領(lǐng)域的應(yīng)用、語(yǔ)言研究對(duì)人工智能研究的可能貢獻(xiàn)、人工智能與語(yǔ)言學(xué)發(fā)展的歷史關(guān)系等。
語(yǔ)言測(cè)試與評(píng)價(jià)國(guó)際研討會(huì)(International Conference on Language Testing and Assessment,ICLTA)是由教育部考試中心舉辦的年度學(xué)術(shù)會(huì)議,從2015年開(kāi)始,該會(huì)議旨在及時(shí)傳遞國(guó)內(nèi)外語(yǔ)言測(cè)試領(lǐng)域的最新研究成果和研究動(dòng)態(tài)及未來(lái)的發(fā)展趨勢(shì),將成為具有中國(guó)特色的現(xiàn)代外語(yǔ)能力評(píng)測(cè)體系。該會(huì)議主要圍繞語(yǔ)言能力標(biāo)準(zhǔn)的制定、語(yǔ)言教師的教學(xué)能力及測(cè)評(píng)素養(yǎng)、外語(yǔ)測(cè)試改革與發(fā)展以及人工智能技術(shù)在語(yǔ)言測(cè)評(píng)中的應(yīng)用等議題進(jìn)行深入的交流和研討。
通過(guò)以上研究成果發(fā)現(xiàn),人工智能技術(shù)應(yīng)用于語(yǔ)言教學(xué)有利于學(xué)習(xí)者自主學(xué)習(xí)和訓(xùn)練;便于教師教學(xué)和研究,以及減輕教師日常工作中面臨的各種任務(wù),例如語(yǔ)法錯(cuò)誤標(biāo)記、論文評(píng)分、創(chuàng)建測(cè)試和練習(xí)等;及時(shí)反饋有效增強(qiáng)學(xué)生學(xué)習(xí)。目前,大部分研究者利用人工智能技術(shù)對(duì)英語(yǔ)輔助學(xué)習(xí)進(jìn)行探索和研究,然而對(duì)漢語(yǔ)輔助學(xué)習(xí)的研究少之又少,更沒(méi)有以對(duì)話形式系統(tǒng)地對(duì)學(xué)習(xí)者進(jìn)行漢語(yǔ)輔助學(xué)習(xí)。因此,該文主要研究如何將智能聊天機(jī)器人和漢語(yǔ)學(xué)習(xí)相結(jié)合,利用聊天機(jī)器人系統(tǒng)輔助漢語(yǔ)學(xué)習(xí),提供即時(shí)反饋,創(chuàng)設(shè)真實(shí)、交互的語(yǔ)言學(xué)習(xí)環(huán)境,讓學(xué)習(xí)者在模擬真實(shí)的語(yǔ)境中通過(guò)與聊天機(jī)器人對(duì)話來(lái)提高語(yǔ)言交流能力,實(shí)現(xiàn)學(xué)習(xí)效率最大化。
系統(tǒng)主要以情境學(xué)習(xí)理論、建構(gòu)主義等教育理論,以及人工智能中的自然語(yǔ)言處理技術(shù)為指導(dǎo),設(shè)計(jì)開(kāi)發(fā)了基于聊天機(jī)器人的智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)。
情境學(xué)習(xí)理論認(rèn)為,學(xué)習(xí)不僅僅是一個(gè)個(gè)體性的意義建構(gòu)的心理過(guò)程,而更是一個(gè)社會(huì)性的、實(shí)踐性的、以差異資源為中介的參與過(guò)程[13-14]。它關(guān)注學(xué)習(xí)對(duì)認(rèn)知條件的依賴性,強(qiáng)調(diào)創(chuàng)建合適的情境來(lái)激發(fā)學(xué)習(xí)動(dòng)機(jī),鼓勵(lì)學(xué)習(xí)者參與到相關(guān)的社會(huì)活動(dòng)中來(lái)進(jìn)行練習(xí),有效地掌握語(yǔ)言[15-16]。情境學(xué)習(xí)理論強(qiáng)調(diào)學(xué)習(xí)者需要在知識(shí)實(shí)際應(yīng)用的真實(shí)情境中學(xué)習(xí),對(duì)于漢語(yǔ)語(yǔ)言學(xué)習(xí),最好的方法是讓學(xué)習(xí)者融入真實(shí)的日常生活情境中,借助恰當(dāng)?shù)恼Z(yǔ)言情境交流促成漢語(yǔ)學(xué)習(xí)。該智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)為學(xué)習(xí)者創(chuàng)設(shè)了一個(gè)類似真實(shí)的漢語(yǔ)學(xué)習(xí)情境,在模擬真實(shí)的情境下,通過(guò)與聊天機(jī)器人進(jìn)行場(chǎng)景對(duì)話練習(xí),從而能有效地促進(jìn)漢語(yǔ)學(xué)習(xí)者的漢語(yǔ)學(xué)習(xí)水平,并靈活應(yīng)用于實(shí)際生活中。
建構(gòu)主義學(xué)習(xí)理論認(rèn)為,知識(shí)不是通過(guò)教師傳授得到的,而是學(xué)習(xí)者在一定的情境,即社會(huì)文化背景下,借助其他人(包括教師和學(xué)習(xí)伙伴)的幫助,利用必要的學(xué)習(xí)資料,通過(guò)意義建構(gòu)的方式而獲得[17]。建構(gòu)主義學(xué)習(xí)理論是以學(xué)習(xí)者為中心,強(qiáng)調(diào)學(xué)習(xí)者的主觀能動(dòng)性,然而基于聊天機(jī)器人的智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)正體現(xiàn)學(xué)習(xí)者是學(xué)習(xí)主體的思想,強(qiáng)調(diào)學(xué)習(xí)過(guò)程是學(xué)習(xí)者積極主動(dòng)構(gòu)建的過(guò)程。建構(gòu)主義還強(qiáng)調(diào)情境對(duì)漢語(yǔ)習(xí)得的意義構(gòu)建的重要性,學(xué)習(xí)總是與一定的情境相聯(lián)系的,即應(yīng)創(chuàng)建與學(xué)習(xí)者的實(shí)踐生活相近的學(xué)習(xí)情境和相應(yīng)的交流活動(dòng),可以使學(xué)習(xí)者在這樣的語(yǔ)言環(huán)境和交流中完成意義建構(gòu)。該智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)將學(xué)習(xí)者置于特定的情境之中,通過(guò)和聊天機(jī)器人的相互交流,使學(xué)習(xí)者在交互的情境中利用自己已有的經(jīng)驗(yàn)基礎(chǔ)去主動(dòng)獲取當(dāng)前學(xué)習(xí)到的新知識(shí),從而完成意義建構(gòu),進(jìn)而提高學(xué)習(xí)者對(duì)漢語(yǔ)學(xué)習(xí)的積極性和主動(dòng)性,以及漢語(yǔ)語(yǔ)言運(yùn)用能力。
聊天機(jī)器人系統(tǒng)的核心技術(shù)是自然語(yǔ)言處理技術(shù),自然語(yǔ)言處理是將人類之間交流溝通所用的語(yǔ)言經(jīng)過(guò)處理轉(zhuǎn)化為機(jī)器所能理解的機(jī)器語(yǔ)言,進(jìn)而實(shí)現(xiàn)人際間相互交流[18]。它是一門綜合性的交叉學(xué)科,涉及到計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)和數(shù)學(xué)等領(lǐng)域的知識(shí)。該聊天機(jī)器人涉及到中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)鍵詞提取等自然語(yǔ)言處理技術(shù)。利用自然語(yǔ)言處理技術(shù)的對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)的特點(diǎn)是不僅具有自然語(yǔ)言生成與理解能力,并且在學(xué)習(xí)過(guò)程中模擬真實(shí)的語(yǔ)言環(huán)境,利用簡(jiǎn)單流暢的人機(jī)交互界面方式與機(jī)器人進(jìn)行漢語(yǔ)對(duì)話交流,激發(fā)學(xué)習(xí)者的自主學(xué)習(xí)能力,通過(guò)創(chuàng)設(shè)自然的語(yǔ)言交流環(huán)境,達(dá)到對(duì)學(xué)習(xí)者所學(xué)知識(shí)的鞏固與反饋,提高學(xué)習(xí)效率。
智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)主要側(cè)重于對(duì)話練習(xí),為漢語(yǔ)對(duì)話提供場(chǎng)景模擬,為學(xué)習(xí)者提供對(duì)話練習(xí)的模擬語(yǔ)境,通過(guò)聊天機(jī)器人技術(shù)來(lái)實(shí)現(xiàn)對(duì)話質(zhì)量良好的漢語(yǔ)對(duì)話練習(xí),幫助用戶提升漢語(yǔ)水平。該文主要使用句子詞語(yǔ)切分和基于向量空間模型的計(jì)算實(shí)現(xiàn)句子語(yǔ)義相似匹配的對(duì)話檢索方法,利用TF-IDF算法將句子切分轉(zhuǎn)為利用關(guān)鍵詞表征的向量,構(gòu)造語(yǔ)句的空間向量模型后,通過(guò)計(jì)算兩個(gè)向量的余弦相似度來(lái)獲取用戶輸入文本和語(yǔ)料庫(kù)中問(wèn)題Questions的相似度,根據(jù)相似度得分進(jìn)行排序,選擇得分最高的Questions對(duì)應(yīng)的回復(fù)Answer作為回答反饋給用戶,達(dá)到聊天的目的?;诹奶鞕C(jī)器人的智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)是一個(gè)能夠檢索語(yǔ)料庫(kù)產(chǎn)生回復(fù)和用戶進(jìn)行漢語(yǔ)聊天的系統(tǒng),系統(tǒng)結(jié)構(gòu)和流程如圖1所示。系統(tǒng)構(gòu)成主要包括:輸入預(yù)處理、自然語(yǔ)言理解、中文-拼音匹配、對(duì)話管理、答案生成、輸出處理。
圖1 基于聊天機(jī)器人的智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)結(jié)構(gòu)
輸入預(yù)處理模塊主要負(fù)責(zé)對(duì)學(xué)習(xí)者輸入的文本進(jìn)行前期的處理,然后交由自然語(yǔ)言理解模塊進(jìn)行處理。
自然語(yǔ)言理解模塊主要通過(guò)中分分詞、詞性標(biāo)注、關(guān)鍵字提取等技術(shù),理解用戶輸入問(wèn)句的語(yǔ)義,從完整語(yǔ)句中提取出需要的信息,產(chǎn)生一個(gè)特定的語(yǔ)義表示。此語(yǔ)義表示是一個(gè)或多個(gè)關(guān)鍵字,并將其轉(zhuǎn)換為向量的形式。該系統(tǒng)采用了中國(guó)科學(xué)院計(jì)算機(jī)技術(shù)研究所研發(fā)的NLPIR-ICTCLAS漢語(yǔ)分詞系統(tǒng)[19],實(shí)現(xiàn)將語(yǔ)句進(jìn)行分詞、詞性標(biāo)注和關(guān)鍵詞提取等功能。NLPIR-ICTCLAS漢語(yǔ)分詞系統(tǒng)采用基于層疊隱馬爾可夫模型CHMM(Cascaded Hidden Markov Model),其分詞正確率達(dá)97.58%[8],所以最終采用該漢語(yǔ)分詞系統(tǒng)。
中文-拼音匹配模塊首先檢測(cè)學(xué)習(xí)者輸入的文本是否符合格式要求,利用正則表達(dá)式匹配所有中文字符,然后根據(jù)規(guī)則將中文字符與詞典中的詞條進(jìn)行逐一匹配。本模塊主要是按照順序方向來(lái)對(duì)語(yǔ)句進(jìn)行掃描,按最大詞優(yōu)先的匹配優(yōu)先策略,完成中文字符切分,最后從微軟提供的語(yǔ)言包ChnCharInfo.dll讀取拼音,實(shí)現(xiàn)漢字轉(zhuǎn)拼音及顯示聲調(diào)的功能。該語(yǔ)言包庫(kù)功能強(qiáng)大,對(duì)于多音字都能轉(zhuǎn)換出來(lái)。
對(duì)話管理模塊是整個(gè)系統(tǒng)的核心,主要通過(guò)檢索關(guān)鍵詞,利用TF-IDF算法計(jì)算詞語(yǔ)權(quán)重,并將用戶輸入的句子進(jìn)行向量表達(dá),計(jì)算句子的相似度。接著進(jìn)行知識(shí)匹配,在對(duì)話模板語(yǔ)料庫(kù)中尋找到與之相匹配的問(wèn)句模板,然后按照對(duì)應(yīng)的應(yīng)答模板將此答案模型交由答案生成模板進(jìn)行進(jìn)一步的處理。該系統(tǒng)聊天機(jī)器人對(duì)話模板語(yǔ)料庫(kù)(問(wèn)題-答案對(duì))的構(gòu)建主要以基于人工模板和規(guī)則的方法實(shí)現(xiàn),模板匹配的任務(wù)就是從對(duì)話模板語(yǔ)料庫(kù)中檢索出與學(xué)習(xí)者輸入的文本最相關(guān)的問(wèn)題,檢索通過(guò)基于關(guān)鍵詞的匹配方法,從中選擇回復(fù)效果最好的語(yǔ)句返回給用戶。
TF-IDF(即詞頻-逆文檔頻率)經(jīng)常應(yīng)用在信息檢索和文本處理等領(lǐng)域,由Jones[20]首次提出。該算法的實(shí)現(xiàn)原理是將句子分成若干個(gè)詞語(yǔ),每個(gè)詞語(yǔ)對(duì)句子的重要程度是由語(yǔ)料庫(kù)中出現(xiàn)該詞語(yǔ)的文檔數(shù)和該詞語(yǔ)在句子中出現(xiàn)的次數(shù)共同決定的,如果一個(gè)詞語(yǔ)在句子中出現(xiàn)的次數(shù)越多,在語(yǔ)料庫(kù)中含有這個(gè)詞語(yǔ)的文檔數(shù)越少,則表明該詞語(yǔ)對(duì)句子具有很強(qiáng)的代表性。其中,TF指的是詞在句子中出現(xiàn)的次數(shù),IDF是一個(gè)詞語(yǔ)普遍重要性的度量,利用TF*IDF來(lái)表示詞語(yǔ)在句子中的權(quán)重,其計(jì)算公式如下:
(1)
逆文檔頻率(IDF)=
(2)
詞語(yǔ)在句子中的權(quán)重(TF-IDF)=TF×IDF
(3)
(4)
由式(4)可知,Sim(T,T')的值越大,說(shuō)明兩者的相似度越高,反之則越低。相似性的得分范圍在[0,1],將得分最高的問(wèn)題Questions文本相對(duì)應(yīng)的回復(fù)Answer輸出給用戶。對(duì)話模板語(yǔ)料庫(kù)中包含特定主題語(yǔ)料和開(kāi)放主題語(yǔ)料,特定主題語(yǔ)料適合于初級(jí)學(xué)習(xí)者,該庫(kù)增加了回答引導(dǎo)功能,在特定對(duì)話場(chǎng)景中通過(guò)機(jī)器人提問(wèn)引導(dǎo)學(xué)習(xí)者進(jìn)一步學(xué)習(xí)漢語(yǔ),機(jī)器人回復(fù)的內(nèi)容是多樣化的,有效增加了聊天的趣味性。開(kāi)放主題語(yǔ)料的聊天話題沒(méi)有限制,聊天方式也沒(méi)有限制,可由機(jī)器人提問(wèn),也可學(xué)習(xí)者提問(wèn),模擬了在現(xiàn)實(shí)生活中人與人之間的聊天形式的語(yǔ)境,更有利于學(xué)習(xí)者對(duì)話訓(xùn)練,并靈活應(yīng)用于實(shí)際生活中。聊天機(jī)器人的語(yǔ)料庫(kù)規(guī)模越大,質(zhì)量越高,返回的答案將越精準(zhǔn),效果越好。語(yǔ)料庫(kù)中數(shù)據(jù)的獲取主要通過(guò)以下兩種方法實(shí)現(xiàn):一是通過(guò)對(duì)軟件或網(wǎng)站的解析,利用八爪魚(yú)采集器進(jìn)行數(shù)據(jù)爬取,整合所有數(shù)據(jù)之后進(jìn)行處理和清洗,然后存儲(chǔ)在數(shù)據(jù)庫(kù)中;二是從網(wǎng)絡(luò)中查找一些相關(guān)開(kāi)源的中文聊天語(yǔ)料,在此基礎(chǔ)上進(jìn)行修改和優(yōu)化,從而進(jìn)一步擴(kuò)充語(yǔ)料庫(kù)的規(guī)模以及提高語(yǔ)料數(shù)據(jù)的質(zhì)量。
答案生成模塊的主要任務(wù)是從當(dāng)前對(duì)話答案模型中提取出最終答案,然后將其與中文-拼音匹配模塊中輸出的拼音進(jìn)行合成,將回復(fù)文本交由輸出處理模塊。
輸出處理模塊主要負(fù)責(zé)將文本答案輸出給用戶,這將完成了學(xué)習(xí)者與聊天機(jī)器人一次完整的對(duì)話流程。該智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)的設(shè)計(jì)充分考慮到了情境學(xué)習(xí)在漢語(yǔ)學(xué)習(xí)中的重要作用,融合情境學(xué)習(xí)和建構(gòu)主義學(xué)習(xí)理論,突出以學(xué)習(xí)者為中心,學(xué)習(xí)者可以隨時(shí)與聊天機(jī)器人進(jìn)行交流,在情境對(duì)話中,系統(tǒng)能模擬現(xiàn)實(shí)生活中的真實(shí)對(duì)話情境,使學(xué)習(xí)者進(jìn)行對(duì)話練習(xí)時(shí)能更好地掌握對(duì)話的實(shí)際使用方法,能有效地激發(fā)學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī),提高學(xué)習(xí)興趣,幫助學(xué)習(xí)者在構(gòu)建的語(yǔ)言學(xué)習(xí)情境中對(duì)拼音、漢字、詞語(yǔ)及情境對(duì)話形成直觀的認(rèn)識(shí),并完成對(duì)漢語(yǔ)對(duì)話的意義建構(gòu)。
基于聊天機(jī)器人的智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)應(yīng)用在對(duì)外漢語(yǔ)教學(xué)上,具有如下特點(diǎn):
(1)實(shí)時(shí)聊天。學(xué)習(xí)者可以在任何時(shí)間通過(guò)電腦打開(kāi)系統(tǒng),并和該系統(tǒng)進(jìn)行聊天,前提是此電腦必須安裝此系統(tǒng)軟件。學(xué)習(xí)者在使用系統(tǒng)的過(guò)程中不受時(shí)間、地點(diǎn)及聊天內(nèi)容的約束,目前該系統(tǒng)僅支持文本輸入、輸出方式,聊天方式側(cè)重于對(duì)話訓(xùn)練,根據(jù)學(xué)習(xí)者輸入的語(yǔ)句,理解此語(yǔ)句的語(yǔ)義,然后在模板庫(kù)找到相對(duì)應(yīng)的問(wèn)題-答案對(duì),生成答案返回給學(xué)習(xí)者,保障對(duì)話的流暢進(jìn)行。
(2)靈活即時(shí)反饋。學(xué)習(xí)者向系統(tǒng)輸入文本時(shí),聊天機(jī)器人都會(huì)即時(shí)給出合適的輸出響應(yīng),當(dāng)學(xué)習(xí)者連續(xù)提出相同問(wèn)題時(shí),聊天機(jī)器人輸出的答案是靈活多樣的,不是單一死板的,這樣,學(xué)習(xí)者可從眾多反饋結(jié)果中選擇自己認(rèn)為合適的答案,并用于日常對(duì)話中。
(3)拼音聲調(diào)顯示。此功能根據(jù)學(xué)習(xí)者輸入的文本產(chǎn)生對(duì)應(yīng)的拼音和聲調(diào)。對(duì)于那些漢語(yǔ)初學(xué)者,可以通過(guò)拼音和聲調(diào)來(lái)進(jìn)行對(duì)話和學(xué)習(xí),從而達(dá)到較好的學(xué)習(xí)效果。
(4)對(duì)話場(chǎng)景選擇。學(xué)習(xí)者可以根據(jù)自己的漢語(yǔ)能力水平選擇相應(yīng)的對(duì)話場(chǎng)景來(lái)進(jìn)行學(xué)習(xí),包括特定主題的聊天和開(kāi)放主題的聊天,通過(guò)選擇不同的對(duì)話場(chǎng)景,能使學(xué)習(xí)者沉浸在不同的情境中。特定主題的聊天適合于初級(jí)學(xué)習(xí)者,由于漢語(yǔ)水平不高、不愿多談、缺乏自信,跟聊天機(jī)器人的對(duì)話則不多,所以需要由聊天機(jī)器人引導(dǎo),在某一特定主題進(jìn)行限制性對(duì)話。對(duì)于高級(jí)學(xué)習(xí)者則適合于開(kāi)放主題的聊天,由于這些學(xué)習(xí)者對(duì)漢語(yǔ)熟練、比較健談,所以選擇開(kāi)放主題無(wú)限制的聊天,進(jìn)一步提高漢語(yǔ)會(huì)話水平。
(5)真實(shí)、輕松的語(yǔ)言學(xué)習(xí)環(huán)境。該系統(tǒng)為學(xué)習(xí)者創(chuàng)建了一個(gè)輕松愉快的語(yǔ)言學(xué)習(xí)環(huán)境,能夠在一對(duì)一的交流過(guò)程中,有效地減少因面部表情、性別、種族、社會(huì)地位等因素的影響,緩解學(xué)習(xí)者緊張情緒,增強(qiáng)自信心[21-22]。因此,該系統(tǒng)不僅能調(diào)動(dòng)漢語(yǔ)學(xué)習(xí)者的學(xué)習(xí)主動(dòng)性,更能激發(fā)學(xué)習(xí)熱情和對(duì)話練習(xí)動(dòng)機(jī),使他們能夠流利地使用漢語(yǔ)。通過(guò)與聊天機(jī)器人之間的對(duì)話,模擬真實(shí)情景的學(xué)習(xí),幫助學(xué)習(xí)者更好地掌握對(duì)話的實(shí)際使用方法,從而達(dá)到學(xué)以致用的目的。為了檢驗(yàn)智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)的設(shè)計(jì)及應(yīng)用實(shí)踐效果,主要采用問(wèn)卷調(diào)查的形式對(duì)系統(tǒng)進(jìn)行評(píng)價(jià)與反饋,隨機(jī)抽取本校國(guó)際教育學(xué)院多名留學(xué)生作為對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)的試應(yīng)用對(duì)象,并要求他們對(duì)系統(tǒng)使用效果與收獲做出評(píng)價(jià)。
學(xué)習(xí)者使用效果與收獲主要從情感態(tài)度、知識(shí)與技能兩個(gè)層面展開(kāi),從調(diào)查結(jié)果可以看出,學(xué)習(xí)者的漢語(yǔ)學(xué)習(xí)態(tài)度和學(xué)習(xí)能力都得到了一定的提高。學(xué)習(xí)者能夠在漢語(yǔ)對(duì)話中增強(qiáng)自信,提高學(xué)習(xí)漢語(yǔ)的興趣,并且能夠?qū)W到實(shí)用的會(huì)話句型和知識(shí),對(duì)漢語(yǔ)交流的流利程度,以及漢語(yǔ)表達(dá)都有所提高。從中可以發(fā)現(xiàn),學(xué)習(xí)者使用系統(tǒng)進(jìn)行漢語(yǔ)學(xué)習(xí)時(shí),讓學(xué)習(xí)者處于一個(gè)類似真實(shí)的交互式人機(jī)對(duì)話漢語(yǔ)學(xué)習(xí)環(huán)境中,能有效地提高學(xué)習(xí)者的漢語(yǔ)水平,但在場(chǎng)景主題的個(gè)數(shù)、場(chǎng)景對(duì)話的長(zhǎng)度、對(duì)話回答的質(zhì)量等方面還需要加以強(qiáng)化。
在基于聊天機(jī)器人的智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)中,要注重其系統(tǒng)功能方面的設(shè)計(jì)和實(shí)現(xiàn),同時(shí),也要注重運(yùn)用教育理論和教學(xué)方法,在這些基礎(chǔ)上,使整個(gè)系統(tǒng)結(jié)構(gòu)更加科學(xué)、合理,為學(xué)習(xí)者提供一個(gè)個(gè)性化、真實(shí)的語(yǔ)言學(xué)習(xí)環(huán)境。該系統(tǒng)的創(chuàng)新之處表現(xiàn)在理論和實(shí)踐兩個(gè)方面。理論上將情境學(xué)習(xí)理論和建構(gòu)主義學(xué)習(xí)理論應(yīng)用到了對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)中,實(shí)現(xiàn)了一個(gè)直觀形象可互動(dòng)的語(yǔ)言交流學(xué)習(xí)環(huán)境。實(shí)踐上將聊天機(jī)器人與漢語(yǔ)學(xué)習(xí)系統(tǒng)相結(jié)合,也是將人工智能技術(shù)應(yīng)用到教育領(lǐng)域,通過(guò)自然語(yǔ)言的方式進(jìn)行人機(jī)對(duì)話,輔助學(xué)習(xí)者漢語(yǔ)會(huì)話的學(xué)習(xí)。
就目前而言,該智能對(duì)外漢語(yǔ)學(xué)習(xí)系統(tǒng)仍需要進(jìn)一步進(jìn)行完善和提高。例如:提高對(duì)話的準(zhǔn)確率,擴(kuò)充對(duì)話語(yǔ)料庫(kù)的規(guī)模,以及使用關(guān)鍵詞檢索與基于語(yǔ)義相似度匹配結(jié)合的方法,使聊天機(jī)器人回復(fù)的效果更好、質(zhì)量更高;增加對(duì)話場(chǎng)景的個(gè)數(shù),并控制如何展開(kāi)聊天話題;根據(jù)用戶各異的學(xué)習(xí)風(fēng)格創(chuàng)建適合的、獨(dú)特的談話類型,從而使談話具有個(gè)性化,以此發(fā)揮學(xué)習(xí)者的自主性,支持個(gè)性化學(xué)習(xí),增加學(xué)習(xí)者的信心,并激發(fā)其學(xué)習(xí)興趣;對(duì)于不同水平的漢語(yǔ)學(xué)習(xí)者,如何讓他們更快和更好地適應(yīng);研究語(yǔ)音識(shí)別技術(shù),并將其結(jié)合到該系統(tǒng)中,使用戶能夠用語(yǔ)音功能進(jìn)一步進(jìn)行漢語(yǔ)學(xué)習(xí),提高漢語(yǔ)對(duì)話和口語(yǔ)水平等。