何怡
【文章摘要】
網(wǎng)絡(luò)教育和網(wǎng)絡(luò)教學(xué)平臺(tái)隨著互聯(lián)網(wǎng)的飛速發(fā)展而發(fā)展。網(wǎng)絡(luò)教育平臺(tái)中對(duì)智能答疑系統(tǒng)的研究和探索一直是業(yè)內(nèi)的重點(diǎn)。本文就E-learning教學(xué)平臺(tái)中智能答疑系統(tǒng)的架構(gòu)進(jìn)行來(lái)搭建,并重點(diǎn)對(duì)答疑系統(tǒng)的知識(shí)庫(kù)設(shè)計(jì)中的推理決策樹(shù)機(jī)制進(jìn)行了探討。
【關(guān)鍵詞】
智能答疑;知識(shí)庫(kù);推理決策樹(shù)
中圖分類號(hào):TP319
時(shí)至今日,互聯(lián)網(wǎng)正給我們的生活帶來(lái)越來(lái)越多的便利,同時(shí)也給我們的學(xué)習(xí)和工作帶來(lái)更為廣闊的學(xué)習(xí)渠道。正因如此,各種網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)和網(wǎng)絡(luò)教育平臺(tái)也給我們的生活和學(xué)習(xí)帶來(lái)前所未有的便利?,F(xiàn)在在教育領(lǐng)域中,國(guó)內(nèi)外科研人員對(duì)于人工智能技術(shù)的應(yīng)用和推廣做出了深入的研究,出現(xiàn)了很多優(yōu)秀的智能答疑系統(tǒng)。
然而,就中文的智能答疑系統(tǒng)而言,由于中文本身的博大精深,普遍存在著以下問(wèn)題: 1.全文遍歷部分截取的方式使得答案不準(zhǔn)確;2.系統(tǒng)在智能分詞上的表現(xiàn)不盡如人意;3.不同用戶對(duì)問(wèn)題描述的角度和語(yǔ)言不同給系統(tǒng)的理解帶來(lái)了很大的問(wèn)題。4.系統(tǒng)普遍不具備自我完善功能;當(dāng)然,所有的智能答疑系統(tǒng)都無(wú)法做到盡善盡美。我們通過(guò)對(duì)智能答疑系統(tǒng)和網(wǎng)絡(luò)教學(xué)平臺(tái)的研究,對(duì)其中存在的一些普遍問(wèn)題做了研究和探討,在此我們對(duì)數(shù)據(jù)庫(kù)中的答案庫(kù)進(jìn)行討論和研究。
在我們對(duì)網(wǎng)絡(luò)教學(xué)平臺(tái)的研究中的,智能答疑系統(tǒng)是我們急需解決的問(wèn)題的重中之重。在對(duì)智能答疑系統(tǒng)的研究中,我們的流程進(jìn)行設(shè)計(jì)如下:
1.首先學(xué)員在網(wǎng)上先提出問(wèn)題,2.當(dāng)服務(wù)器收到問(wèn)題再反饋給解答系統(tǒng),3.系統(tǒng)對(duì)學(xué)員提出的問(wèn)題再分門別類,4.分門別類后,再按類型問(wèn)題做出相應(yīng)的分析和解答。在這樣的流程設(shè)計(jì)中系統(tǒng)提取問(wèn)題的途徑是對(duì)關(guān)鍵詞的提取和擴(kuò)展。綜上所述,在這種情況下系統(tǒng)可以直接搜索相關(guān)文檔中的答案,如答案和問(wèn)題請(qǐng)求相匹配,則可以把答案返回給學(xué)員。如反饋的答案不是最佳答案,則返回文檔庫(kù)重新搜索更高層問(wèn)題和答案。所以這樣就可以看出,知識(shí)庫(kù)的設(shè)計(jì)是系統(tǒng)平臺(tái)中最為關(guān)鍵的問(wèn)題就。
通過(guò)對(duì)智能答疑系統(tǒng)的實(shí)際運(yùn)行過(guò)程中,最初的問(wèn)題是由于投入的物力和人力十分有限,知識(shí)庫(kù)中的答案不會(huì)在最初時(shí)就能滿足所有學(xué)員的需求。所以,如何才能從知識(shí)庫(kù)現(xiàn)有問(wèn)題和答案中尋找出更合適學(xué)員的答案,是我們目前最需要解決的問(wèn)題。為了使用數(shù)據(jù)挖掘引擎對(duì)系統(tǒng)的關(guān)聯(lián)提問(wèn)與解答的知識(shí)庫(kù)進(jìn)行數(shù)據(jù)挖掘,我們使用了微軟發(fā)布的Analysis Services引擎。通過(guò)這一工具,可以發(fā)掘用戶的知識(shí)點(diǎn)掌握情況及隱含的的關(guān)鍵詞信息。對(duì)用戶知識(shí)庫(kù)的設(shè)計(jì)又可以分為以下幾種: 1、解決答案庫(kù)solution,2、疑難問(wèn)題庫(kù)oquession,3、需要解決的問(wèn)題庫(kù)quession隨著系統(tǒng)逐步的完善和對(duì)學(xué)員問(wèn)題的不斷積累,問(wèn)題與答案的數(shù)據(jù)會(huì)越來(lái)越多。如果系統(tǒng)運(yùn)行中答疑效果非常好,服務(wù)器的相關(guān)數(shù)據(jù)也會(huì)越來(lái)越多。
依據(jù)上文所敘述設(shè)計(jì)的系統(tǒng)架構(gòu),學(xué)員提出問(wèn)題請(qǐng)求后,答疑系統(tǒng)會(huì)對(duì)數(shù)據(jù)庫(kù)查詢并產(chǎn)生相關(guān)問(wèn)題集Qunion。再針對(duì)學(xué)員提出的問(wèn)題,對(duì)Qunion進(jìn)行分門別類,查詢到相應(yīng)答案后再將答案返回給學(xué)員。如返回答案與用戶的問(wèn)題請(qǐng)求不太相匹配,則可再次提出問(wèn)題并提交,系統(tǒng)則會(huì)再次根據(jù)學(xué)員提出的問(wèn)題進(jìn)行更高層次的推理和查詢,而推理查詢的依據(jù)就是智能答疑推理的概率決策樹(shù)系統(tǒng)進(jìn)行分析。
那么什么是決策樹(shù)呢?我們先說(shuō)下決策樹(shù)的構(gòu)造,決策樹(shù)的構(gòu)造都是從上到下的構(gòu)造。任何事件或決策(即自然狀態(tài))都可能引出多個(gè)事件,每個(gè)事件則都會(huì)造成不同的結(jié)果,把這些因一個(gè)決策而引發(fā)的不同結(jié)果分支畫(huà)成一張圖時(shí)就很像是一棵樹(shù)上的每個(gè)枝干,因此也就是決策樹(shù)的由來(lái)。
決策樹(shù)所表達(dá)的就是一種展示類似在什么條件下會(huì)得到什么值的一種規(guī)則的方法。以本系統(tǒng)為例,當(dāng)學(xué)員在網(wǎng)上提出問(wèn)題時(shí),智能答疑系統(tǒng)就會(huì)通過(guò)推理得出答案再將答案返回給學(xué)員,返回的答案可能對(duì)學(xué)員有用,也可能因?yàn)楦鞣N原因不是學(xué)員所想要的,例如學(xué)員對(duì)提出的問(wèn)題所用的語(yǔ)言、詞組的歧義性、系統(tǒng)的關(guān)聯(lián)規(guī)則以及知識(shí)庫(kù)的建設(shè)更新等各方面的問(wèn)題對(duì)結(jié)果產(chǎn)生的差異較大,這種情況就形成決策樹(shù)的另外一條分支,繼續(xù)應(yīng)用決策樹(shù)系統(tǒng)進(jìn)行細(xì)化深入。以此類推,最終對(duì)各種可能出現(xiàn)的情況進(jìn)行較為全面的解決和分析。
各種決策樹(shù)也不完全相同,決策樹(shù)算法之間有著不同的差異,“差異”衡量方式的區(qū)別也就是決策樹(shù)算法的主要區(qū)別。對(duì)本系統(tǒng)的問(wèn)題,我們采用概率決策樹(shù)算法的方式來(lái)解決。通常情況下,我們需要把問(wèn)題的切分看成是一組數(shù)據(jù)分為幾份,份與份之間應(yīng)保持不盡相同,但同一份內(nèi)的數(shù)量應(yīng)該盡量相同。
以概率形式表示答案是否正確的不確定性也就是概率決策樹(shù)的主要特征。決策樹(shù)中每個(gè)節(jié)點(diǎn)代表一個(gè)答案節(jié)點(diǎn),就本系統(tǒng)而言,我們?cè)O(shè)點(diǎn)節(jié)點(diǎn)的先驗(yàn)概率為0.5,即答案正確和錯(cuò)誤的概率就是各占百分之五十。從學(xué)員初次提出問(wèn)題,數(shù)據(jù)庫(kù)就不斷接收學(xué)員提出的查詢信息或最佳答案設(shè)置信息,并進(jìn)行分層逐步篩選。就整個(gè)推理過(guò)程而言,運(yùn)算呈推理決策樹(shù)形式體現(xiàn)。具體推算過(guò)程如圖1所示:
成立。退出否。繼續(xù)展開(kāi)下級(jí)節(jié)點(diǎn)是。退出否,繼續(xù)展開(kāi)下級(jí)節(jié)點(diǎn)是。退出否。繼續(xù)展開(kāi)退出否。轉(zhuǎn)到待解區(qū)知識(shí)層應(yīng)用層舉例層拓展層用戶提出問(wèn)題生成的相關(guān)問(wèn)題組Qunion
決策樹(shù)進(jìn)行初始化后建立根節(jié)點(diǎn)(即初始事件)概率為我們?cè)O(shè)定的0.5,此時(shí)等待相應(yīng)用戶的進(jìn)一步操作時(shí),有兩種可能,即學(xué)員認(rèn)為答案滿意,不進(jìn)入下層查詢;學(xué)員不滿意,則進(jìn)入下層查詢。根據(jù)系統(tǒng)對(duì)題目涉及的知識(shí)層次分類可知,一次數(shù)據(jù)挖掘最多只需要4層細(xì)化的查詢即可完成。
中文智能答疑系統(tǒng)的設(shè)計(jì)中,歧義性和命中率的問(wèn)題一直困擾著廣大設(shè)計(jì)者。利用推理決策樹(shù)機(jī)制,可以在命中率這一問(wèn)題上得到一定的改善,提高系統(tǒng)的性能和效率。
【參考文獻(xiàn)】
[1]韓家煒,孟小峰,王靜,李盛恩.Web挖掘研究.計(jì)算機(jī)研究與發(fā)展.2001.4:405~414
[2]汪啟軍,申瑞民.基于Web的遠(yuǎn)程教育系統(tǒng)模型的研究.計(jì)算機(jī)工程.2000.12:157~159
[3]蘇群,申瑞民,王武,基于知識(shí)樹(shù)的概化預(yù)處理和關(guān)聯(lián)模式挖掘的智能答疑模型[J],計(jì)算機(jī)工程,2006,(17).
[4]MSDN library. Microsoft決策樹(shù)算法. http://msdn.microsoft.com/zh-cn/library/ms175312.aspx, 2008-05-14.