朱衛(wèi)平,林 海,謝 榕,趙小剛
(1.武漢大學(xué) 計算機(jī)學(xué)院,湖北 武漢 430079;2.武漢大學(xué) 國家網(wǎng)絡(luò)安全學(xué)院,湖北 武漢 430079)
智能問答系統(tǒng)是一種能夠理解用戶提出的自然語言問題并快速給出答案的軟件系統(tǒng)。隨著互聯(lián)網(wǎng)和軟件技術(shù)的快速發(fā)展,人們在日常生活工作中積累了大量的數(shù)據(jù),如何從這些寶貴的數(shù)據(jù)中快速獲得有益的信息和知識是一項(xiàng)具有挑戰(zhàn)性的問題。智能問答系統(tǒng)是進(jìn)行該項(xiàng)工作的重要手段,它在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,通過對用戶提出的問題進(jìn)行句法分析和語義理解,對問題進(jìn)行分類匹配,從知識庫或網(wǎng)絡(luò)中抽取出最準(zhǔn)確的候選答案并返回給用戶。
智能問答系統(tǒng)在課程教學(xué)中可以發(fā)揮重要的作用。在與學(xué)生進(jìn)行問答的過程中,教師會對常見的知識難點(diǎn)和要點(diǎn)做詳細(xì)解答,學(xué)生也會針對自己不懂的內(nèi)容向教師請教。但實(shí)際上,學(xué)生提出的大多數(shù)問題都是類似的,只是語言的表述形式不同。教師必然沒有時間和精力對每個學(xué)生提的問題都做詳盡的解答。有的學(xué)生對知識點(diǎn)存在疑問,但并不會詢問教師,這毫無疑問會影響教學(xué)質(zhì)量和效率。另一方面,教師作為教育教學(xué)改革的實(shí)踐者,在互聯(lián)網(wǎng)+教育時代,信息化教學(xué)能力成為其專業(yè)素養(yǎng)的基本組成部分,是教師專業(yè)發(fā)展的主要任務(wù)[1]。通過開發(fā)教學(xué)智能問答系統(tǒng),能夠很好地將教學(xué)問答過程信息化,提高教學(xué)質(zhì)量和教學(xué)效率,適應(yīng)信息化教學(xué)的新模式。
教學(xué)問答是課程教學(xué)的重要組成部分。傳統(tǒng)的教學(xué)問答環(huán)節(jié)包括課堂提問和課后提問兩部分。其中課堂問答環(huán)節(jié)主要是教師要求學(xué)生回答相關(guān)問題,或者根據(jù)學(xué)生的提問進(jìn)行解答;而課下問答環(huán)節(jié)則是學(xué)生當(dāng)面找教師解答問題,或通過QQ、微信、電子郵件、課程網(wǎng)站等渠道向教師詢問自己不懂的問題。傳統(tǒng)的教學(xué)問答過程存在以下一些問題。
(1)所問知識點(diǎn)內(nèi)容相同,但形式多變。一些學(xué)生提出的問題往往是大家都會感到疑惑的知識點(diǎn),這些知識點(diǎn)也是以往學(xué)生疑惑的知識點(diǎn)。學(xué)生問的問題往往是同一個問題,只是表述的形式不同,教師可能需要對同一類問題做出多次解答。
(2)教學(xué)問答沒有分享與互動。學(xué)生課下尋求教師對專業(yè)性的知識進(jìn)行解惑,這個過程只解決了個人的疑問,導(dǎo)致只有少數(shù)學(xué)生了解該知識點(diǎn),這對教師的教學(xué)指導(dǎo)是一種浪費(fèi)。另外,在教學(xué)的過程中,有的學(xué)生比較積極主動,但也存在有的學(xué)生不愿與教師交流[2],自己在課堂上不懂的問題也不積極主動與同學(xué)交流,導(dǎo)致自己對疑惑點(diǎn)沒有徹底理解。
(3)多種信息工具造成的信息孤島。一般教師會建微信、QQ 群等為學(xué)生答疑解惑,但由于其本質(zhì)是一種聊天工具,教師對專業(yè)性的知識回答往往會被學(xué)生的聊天信息淹沒,對教學(xué)問答的精華也沒有統(tǒng)計與整理。同時,由于各種問答信息工具并不聯(lián)通,對于學(xué)生信息查詢和集成造成了較大的困難。
(4)教學(xué)問答占用了較多的教學(xué)時間。高校教師的教學(xué)任務(wù)大都十分繁重,不少教師不僅需要教授多個班級的課程,還需要講授多門不同的專業(yè)課程;大部分導(dǎo)師還需要在科研、學(xué)?;顒拥确矫嫱度朐S多時間和精力。由于學(xué)生提問眾多,若需要對每個學(xué)生提出的問題進(jìn)行詳細(xì)解答,將占用大量的教學(xué)時間。這不僅增加了教師的教學(xué)負(fù)擔(dān),還會造成教學(xué)質(zhì)量的下降。
一種解決以上問題的比較理想的方式是提供一種在線的教學(xué)智能問答系統(tǒng),能夠解答學(xué)生在課堂上的常見問題,教師能夠發(fā)布常見問題的解答,所有學(xué)生的歷史問題都保留到系統(tǒng)中,學(xué)生和教師的所有解答也保留到系統(tǒng)中,作為構(gòu)建課程知識問答的基礎(chǔ)。
智能問答系統(tǒng)涉及多門學(xué)科,包括計算機(jī)科學(xué)、語言學(xué)、統(tǒng)計學(xué)等。其具體關(guān)鍵技術(shù)包括中文分詞、問題語義分析、短文本分類、問句相似度計算、答案抽取等?,F(xiàn)有問答系統(tǒng)的類別主要包括聊天機(jī)器人、基于知識庫的問答系統(tǒng)、問答式檢索系統(tǒng)、基于自由文本的問答系統(tǒng)等[3]。
本文提出的教學(xué)智能問答系統(tǒng)采用知識問答庫與網(wǎng)絡(luò)搜索相結(jié)合的方式,通過將課程知識點(diǎn)與常見問題相結(jié)合構(gòu)成常見問答庫,對相似問題給出相近的答案,通過軟件服務(wù)的方式提供底層的問答服務(wù),為構(gòu)建多樣化的教學(xué)問答平臺提供穩(wěn)健的底層架構(gòu)。其基本的系統(tǒng)架構(gòu)見圖1。
該問答系統(tǒng)主要分為3 部分:問題處理模塊、本地答案檢索模塊和網(wǎng)絡(luò)答案檢索模塊。其中,問題處理模塊的主要功能是對問題進(jìn)行分類并處理,涉及關(guān)鍵詞抽取、關(guān)鍵詞擴(kuò)展等技術(shù);本地答案檢索模塊主要從自定義問答集和從網(wǎng)絡(luò)爬取的數(shù)據(jù)中進(jìn)行問答和檢索,使用基于Word2Vec 的詞向量加權(quán)模型構(gòu)建問句向量并計算向量之間的相似度得到問題的相似度;網(wǎng)絡(luò)檢索模塊從多個百科知識庫和多個網(wǎng)絡(luò)搜索引擎中搜尋候選答案,進(jìn)行信息過濾和最終答案的提取并返回給用戶。
具體而言,本文首先對問題使用HanLP 進(jìn)行中文分詞,在分詞的過程中去除停用詞,然后從問題中提取出關(guān)鍵詞。例如對問題“什么是人工智能?”,提取出的關(guān)鍵詞為“人工智能”。在對問題進(jìn)行相似性計算的時候,本文采用基于Word2Vec 的CBOW 模型來訓(xùn)練Word2Vec 詞向量。系統(tǒng)基于這些詞向量進(jìn)行加權(quán)計算得到問句向量,計算用戶輸入的問題句的向量和本地問答庫中問題的向量,并計算兩個向量之間的余弦值,從而求得問題的相似度。在計算問題相似度的時候,本系統(tǒng)進(jìn)行了關(guān)鍵詞的擴(kuò)展。經(jīng)過實(shí)踐測試發(fā)現(xiàn),系統(tǒng)對相似類問題能夠做出正確的回答,如對“什么是極差”與“極差的定義是什么”這種不同表述形式的相似問題,都能給出相同的答案。
圖1 智能問答處理流程
通過測試發(fā)現(xiàn),如果對問題庫每一條問題都進(jìn)行相似度計算,效率十分低下。本文按照商務(wù)智能教材的知識章節(jié)對問題進(jìn)行分類:商務(wù)智能概論、描述性分析、預(yù)測性分析、規(guī)范性分析、大數(shù)據(jù)概念和工具、商務(wù)智能案例分析,總共從網(wǎng)絡(luò)中爬取了10 000 多條問答數(shù)據(jù)構(gòu)成基本的問答庫,使用卡方檢測算法計算詞語的卡方值,并保留卡方值較高的詞作為特征,然后使用卡方檢測算法對樸素貝葉斯分類模型的訓(xùn)練得到問題分類模型。
當(dāng)本地問答庫中沒有滿意的答案時,系統(tǒng)選擇從網(wǎng)絡(luò)中選取候選答案。針對定義類問題,例如“什么是機(jī)器學(xué)習(xí)?”,智能問答系統(tǒng)對問題進(jìn)行語法分析后發(fā)現(xiàn)該問題屬于定義類問題,則會抽取“機(jī)器學(xué)習(xí)”這個名詞作為關(guān)鍵詞,從百度百科、互動百科及CN-DBpedia 知識庫中查找相關(guān)的詞條并返回對該名詞的詳細(xì)定義。當(dāng)為非定義類問題時,系統(tǒng)會借助搜索引擎返回的答案片段進(jìn)行過濾抽取,并使用基于詞頻模型、基于bigram 模型及基于skip-gram 模型這3 個組合模型計算候選答案的評分結(jié)果,將最準(zhǔn)確的答案返回給用戶。在對答案的分析中,系統(tǒng)可能存在一個問題擁有多個答案的情況。針對這種情況,本文使用K-Means 算法對候選答案集進(jìn)行聚類分析,并找出其中隱含的關(guān)鍵信息,如答案主題、答案關(guān)鍵詞等。
基于智能問答的教學(xué)系統(tǒng)體現(xiàn)出如下特點(diǎn)和優(yōu)勢。
(1)可擴(kuò)展性強(qiáng)。教學(xué)智能問答系統(tǒng)提供底層的問答服務(wù),在其上可以構(gòu)建諸如教學(xué)智能問答機(jī)器人、教學(xué)智能問答Web 系統(tǒng),甚至可以開發(fā)手機(jī)應(yīng)用或微信小程序等作為問答系統(tǒng)的交互前臺。這種靈活的構(gòu)建方式將教學(xué)問答的信息化建設(shè)成本降到最低,其易于擴(kuò)展的特性也使教學(xué)問答系統(tǒng)能夠覆蓋師生的日常生活。
(2)信息化程度高。教學(xué)智能問答系統(tǒng)在系統(tǒng)構(gòu)建上,從網(wǎng)絡(luò)中自動爬取與課程專業(yè)相關(guān)的問答知識和專業(yè)性詞條數(shù)據(jù)。在利用智能問答系統(tǒng)進(jìn)行課程知識點(diǎn)的問答過程中,所有的問答環(huán)節(jié)全程通過互聯(lián)網(wǎng)進(jìn)行,用戶只需通過系統(tǒng)進(jìn)行自然語言形式的提問即可得到想要的信息,將傳統(tǒng)的教學(xué)問答徹底信息化。
(3)教學(xué)互動性強(qiáng)。通過使用教學(xué)智能問答系統(tǒng),學(xué)生可以通過一問一答的方式進(jìn)行課程知識點(diǎn)的問答,也可以通過對教學(xué)問答系統(tǒng)發(fā)布自己的問題,邀請教師或者同學(xué)作答,保證返回的答案獲得師生最為廣泛的認(rèn)可。學(xué)生可以在系統(tǒng)上反饋?zhàn)约簩處熓谡n過程中的疑惑點(diǎn),而教師能夠通過該系統(tǒng)看到學(xué)生提出的疑惑點(diǎn),教師對問題進(jìn)行解答之后,可以通知學(xué)生,并將該問題的解答開放給所有用戶。
筆者將該智能問答教學(xué)系統(tǒng)應(yīng)用到商務(wù)智能、模式識別課程的教學(xué)過程之中。該系統(tǒng)可輔助教師進(jìn)行多種教學(xué)工作,包括基礎(chǔ)教學(xué)信息發(fā)布與查詢(如課程信息查詢、任課老師信息查詢、助教信息查詢、通知發(fā)布、課件發(fā)布、作業(yè)發(fā)布等)、課程知識教學(xué)和全天候答疑、問答信息統(tǒng)計分析、學(xué)習(xí)資源自動爬取與分析等功能。在基礎(chǔ)教學(xué)信息發(fā)布與查詢中,學(xué)生可以通過問答式的方法獲取必要的課程信息以及課件、作業(yè)等資料。而在課程知識教學(xué)和全天候答疑中,可以對學(xué)習(xí)內(nèi)容加深認(rèn)識、鞏固和提高。為了解決學(xué)生有時提的問題無法完全匹配內(nèi)容文字的問題,筆者進(jìn)一步采用了兩個增強(qiáng)措施:一是將知識內(nèi)容按課程章節(jié)進(jìn)行了分類,加強(qiáng)文本分析的準(zhǔn)確度;二是提供了一個功能可以查看所有現(xiàn)有內(nèi)置或已經(jīng)回答的答疑內(nèi)容。而在問答信息統(tǒng)計分析和學(xué)習(xí)資源自動爬取與分析等功能中,筆者對現(xiàn)有問答信息知識庫的內(nèi)容進(jìn)行持續(xù)性的增強(qiáng),并對學(xué)生的學(xué)習(xí)情況進(jìn)行統(tǒng)計分析,方便教師和學(xué)生掌握學(xué)習(xí)情況。在該系統(tǒng)應(yīng)用過程中,筆者內(nèi)置了數(shù)千條相關(guān)信息,并指導(dǎo)學(xué)生使用網(wǎng)絡(luò)爬蟲技術(shù)對十余種學(xué)生常用網(wǎng)絡(luò)數(shù)據(jù)源上萬條相關(guān)信息進(jìn)行了爬取。整個系統(tǒng)的使用人數(shù)超過500 人,點(diǎn)擊率上萬,學(xué)生普遍覺得相應(yīng)的問答式學(xué)習(xí)方法不僅能提升學(xué)生興趣,并且能有效提升學(xué)習(xí)效果。
基于智能問答的教學(xué)系統(tǒng)不僅是一個問答站點(diǎn),其系統(tǒng)的高可擴(kuò)展性、高可用性能夠使其與現(xiàn)有課程教學(xué)相結(jié)合,提供更為前瞻的教學(xué)改進(jìn)方案。筆者設(shè)想了以下的擴(kuò)展方案。
1)與學(xué)校圖書館系統(tǒng)相結(jié)合。
高校都有自己的圖書管理系統(tǒng),但該系統(tǒng)只能在圖書館使用或內(nèi)網(wǎng)使用,對圖書管理系統(tǒng)不了解的用戶,難以查詢相關(guān)的圖書和文獻(xiàn)??梢詫⒅悄軉柎鹣到y(tǒng)與學(xué)校圖書管理系統(tǒng)相結(jié)合,用戶只需在智能問答系統(tǒng)中提出針對圖書或文獻(xiàn)的問題,即可推薦與問題相關(guān)的書籍和文獻(xiàn)等信息。這樣學(xué)生就可以使用智能問答系統(tǒng)實(shí)時查詢圖書館藏信息,方便了學(xué)生對圖書資料的查詢,可以調(diào)動學(xué)生借閱圖書的積極性。
2)教學(xué)問答獎勵機(jī)制。
學(xué)生可以通過智能問答系統(tǒng)對其他學(xué)生提出的問題進(jìn)行專業(yè)性的解答,系統(tǒng)綜合學(xué)生的解答次數(shù)、解答的滿意度、教師對答案評價等指標(biāo),對積極參與問答環(huán)節(jié)的學(xué)生給予學(xué)業(yè)或榮譽(yù)上的獎勵機(jī)制,比如作為平時成績的一項(xiàng)評價指標(biāo)、獲得教學(xué)問答之星稱號、派發(fā)問答紅包等。這樣既能調(diào)動學(xué)生參與課程問答的積極性,又能使學(xué)生從對課程的問答中學(xué)到新知識,理解課程知識點(diǎn)。
3)與多媒體聯(lián)動。
現(xiàn)有的教學(xué)過程中,教師通常會根據(jù)PPT教授知識,有的實(shí)驗(yàn)課程也會錄制視頻進(jìn)行更直觀的教學(xué),而這些只能在課堂或課下自行拷貝觀看。通過智能問答系統(tǒng),教師可以將這些教學(xué)課件和視頻等多媒體信息上傳到問答系統(tǒng)中,智能問答系統(tǒng)的表現(xiàn)方式不僅有文字,還有語音、圖像、視頻等多媒體信息。通過這些多媒體的教學(xué)展示,能夠更生動地展示課程信息,解答課程知識點(diǎn),做到教育資源的互聯(lián)互動。
本研究對在高校課程教學(xué)和答疑過程中自動化、智能化程度不足的問題設(shè)計了一套可以通過人工智能方法進(jìn)行教學(xué)和答疑的系統(tǒng)。該系統(tǒng)在實(shí)際教學(xué)問答工程中有效地提高了教師和學(xué)生的工作效率和學(xué)習(xí)效果。在今后的工作中,筆者將繼續(xù)深入探討和研究利用問答系統(tǒng)對教學(xué)環(huán)節(jié)進(jìn)行教學(xué)信息化的持續(xù)建設(shè)。