張俊飛
摘要:針對(duì)傳統(tǒng)信息檢索的低準(zhǔn)確率、低問(wèn)句理解現(xiàn)象,提出基于領(lǐng)域本體的自動(dòng)問(wèn)答系統(tǒng)DO2AS,通過(guò)本體的創(chuàng)建,中文問(wèn)句的預(yù)處理,獲取問(wèn)句主干語(yǔ)法結(jié)構(gòu),并與語(yǔ)料問(wèn)句模型相似計(jì)算,抽取二元成分進(jìn)行SPARQL語(yǔ)義檢索。文章以《數(shù)據(jù)結(jié)構(gòu)》課程中“樹(shù)”章節(jié)為例,分析了知識(shí)點(diǎn)間關(guān)系,創(chuàng)建了領(lǐng)域樹(shù)本體,對(duì)問(wèn)句分析、語(yǔ)義檢索,從而抽取答案。實(shí)驗(yàn)結(jié)果驗(yàn)證了系統(tǒng)的可行性,同時(shí)分析了中文自然語(yǔ)言問(wèn)句處理過(guò)程中遇到的困難,為后續(xù)的研究提供方向。
關(guān)鍵詞:本體;分詞;淺層語(yǔ)義分析;模板匹配;SPARQL
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)32-0184-03
信息檢索是當(dāng)前從網(wǎng)絡(luò)獲取信息的重要途徑。隨著機(jī)器學(xué)習(xí)、知識(shí)圖譜、自然語(yǔ)言處理等人工智能技術(shù)的發(fā)展,信息檢索在信息采集、索引、查詢處理和結(jié)果排序等檢索環(huán)節(jié)都有很大改善,檢索性能有很好的提高。然而隨著信息化的大眾普及,網(wǎng)絡(luò)信息資源越來(lái)越多,信息之間關(guān)聯(lián)性增強(qiáng)了,出現(xiàn)了“信息組織局部有序而整體無(wú)序”[1]現(xiàn)象。傳統(tǒng)的檢索式問(wèn)答和社區(qū)問(wèn)答難以實(shí)現(xiàn)知識(shí)間的理解,不能真正把握用戶意圖,并且采用關(guān)鍵詞檢索到的答案包含很多語(yǔ)義不相關(guān)的信息,無(wú)法保證準(zhǔn)確的檢索到用戶信息。區(qū)別現(xiàn)有搜索引擎,自動(dòng)問(wèn)答是信息服務(wù)的一種高級(jí)形式,呈現(xiàn)用戶的不再是基于關(guān)鍵詞匹配排序的文檔列表,而是精準(zhǔn)的問(wèn)題答案。自美國(guó)IBM Watson自動(dòng)問(wèn)答機(jī)器人轟動(dòng)業(yè)界,以自然語(yǔ)言為問(wèn)答方式的移動(dòng)助手如蘋果公司Siri、微軟Cortana等噴井式涌現(xiàn)。自動(dòng)問(wèn)答提供面向自然語(yǔ)言的友好界面,是一種理想的問(wèn)題解決方法,是當(dāng)前的熱點(diǎn)研究。[2]
近年來(lái),更多研究者熱衷于利用本體技術(shù)、語(yǔ)義網(wǎng)、自然語(yǔ)言處理技術(shù)等新型技術(shù)實(shí)現(xiàn)基于本體知識(shí)庫(kù)的語(yǔ)義自動(dòng)問(wèn)答檢索。本體是共享概念模型的形式化規(guī)范說(shuō)明。[3]把客觀世界的現(xiàn)象抽象成為概念模型,明確概念間的約束,共享網(wǎng)絡(luò)中,形式化概念表述便于計(jì)算機(jī)處理。面向某一領(lǐng)域的本體具有一定的表達(dá)習(xí)慣、規(guī)律,根據(jù)領(lǐng)域特點(diǎn)添加特有的處理機(jī)制,可以對(duì)該領(lǐng)域知識(shí)有效地進(jìn)行知識(shí)表示和表達(dá),如中科院研發(fā)的紅樓夢(mèng)人物關(guān)系問(wèn)答系統(tǒng)[4],清華大學(xué)的EasyNav校園導(dǎo)航系統(tǒng)[5]。面向自動(dòng)問(wèn)答的本體分類,按照RDF數(shù)量集可分為:?jiǎn)我籖DF數(shù)據(jù)集、分布式RDF數(shù)據(jù)集、面向整個(gè)數(shù)據(jù)網(wǎng)。[6]單一RDF數(shù)據(jù)集為領(lǐng)域本體,在當(dāng)前研究最多,如李紅梅等[7]利用本體表示產(chǎn)品設(shè)計(jì)知識(shí)庫(kù),問(wèn)句語(yǔ)義特征匹配算法實(shí)現(xiàn)本體查詢,樊孝忠等[8]構(gòu)建了基于銀行領(lǐng)域本體的自動(dòng)問(wèn)答系統(tǒng)。分布式RDF數(shù)據(jù)集因涉及多個(gè)不同模式的RDF數(shù)據(jù)集,實(shí)現(xiàn)起來(lái)比較復(fù)雜。如歐石燕等[9]在圖書館領(lǐng)域?qū)⒆匀徽Z(yǔ)言問(wèn)句轉(zhuǎn)化為結(jié)構(gòu)化SPARQL查詢語(yǔ)句,從相互關(guān)聯(lián)的五個(gè)RDF數(shù)據(jù)集中提取特定答案。面向整個(gè)數(shù)據(jù)網(wǎng)本體目前還不太成熟。
本文提出一種基于受限域課程本體的知識(shí)自動(dòng)問(wèn)答系統(tǒng)DO2AS解決方案,使用本體語(yǔ)言描述課程《數(shù)據(jù)結(jié)構(gòu)》“樹(shù)”章節(jié)結(jié)構(gòu)化基本知識(shí),形成由RDF三元組有向圖知識(shí)結(jié)構(gòu)的本體知識(shí)庫(kù);通過(guò)用戶自然語(yǔ)言問(wèn)句預(yù)處理如分詞處理、命名實(shí)體識(shí)別、謂語(yǔ)消歧、問(wèn)句分類并疑問(wèn)詞歸一化處理等操作實(shí)現(xiàn)自然語(yǔ)言問(wèn)句向結(jié)構(gòu)化問(wèn)句轉(zhuǎn)化;再由句法依存分析、問(wèn)句模板匹配相似度算法等處理構(gòu)建本體SPARQL查詢語(yǔ)句,最終在本體知識(shí)庫(kù)中推理匹配精準(zhǔn)答案。
1 基于領(lǐng)域本體的問(wèn)答系統(tǒng)模型設(shè)計(jì)與實(shí)現(xiàn)
中文自然語(yǔ)言處理是通過(guò)可量化的方法對(duì)中文自然語(yǔ)言單位進(jìn)行分析、提取、加工、存儲(chǔ)等操作。D.Moldovan指出,對(duì)用戶語(yǔ)義理解可以導(dǎo)致問(wèn)答系統(tǒng)78%的錯(cuò)誤。[10]中文自然語(yǔ)言處理在自動(dòng)問(wèn)答系統(tǒng)中處于核心地位,因此DO2AS系統(tǒng)模型設(shè)計(jì)主要含有三大部分:第一部分基于本體的用戶問(wèn)句信息預(yù)處理,涉及到問(wèn)句的分詞處理、命名實(shí)體識(shí)別、謂語(yǔ)消歧、問(wèn)句分類與疑問(wèn)詞歸一化。通過(guò)預(yù)處理為問(wèn)句理解語(yǔ)法結(jié)構(gòu)分析提供基礎(chǔ);第二部分問(wèn)句理解,即語(yǔ)法結(jié)構(gòu)分析,獲取問(wèn)句語(yǔ)法結(jié)構(gòu)標(biāo)記,構(gòu)建問(wèn)句句型模板,利用相似度計(jì)算,找到與問(wèn)句句型模板相似度最高的語(yǔ)料句型模板,從而獲取本體三元組信息中的二元信息數(shù)據(jù);第三部分運(yùn)用SPARQL查詢語(yǔ)言,結(jié)合二元信息進(jìn)行語(yǔ)義檢索與推理獲取答案。在整個(gè)系統(tǒng)設(shè)計(jì)流程中,需要同義詞詞庫(kù)、停用詞詞庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)、相似度算法、本體知識(shí)庫(kù)等支持環(huán)境。自動(dòng)問(wèn)答DO2AS系統(tǒng)模型設(shè)計(jì)如圖1所示。
1.1 基于本體的用戶問(wèn)句預(yù)處理
本體的表現(xiàn)形式常見(jiàn)有:RDF、RDFS、OWL。一個(gè)RDF文檔就是一個(gè)有向圖,描述一個(gè)實(shí)體-屬性-值的三元組;RDFS通過(guò)添加語(yǔ)義結(jié)構(gòu)擴(kuò)展了RDF;OWL是建立在前兩者之上萬(wàn)維網(wǎng)本體語(yǔ)言,具有更加豐富的語(yǔ)法。本體數(shù)據(jù)的來(lái)源可以基于客觀事物創(chuàng)建或從其他數(shù)據(jù)庫(kù)中轉(zhuǎn)化。常用創(chuàng)建本體的軟件有Protégé、Apollo、WebODE等;轉(zhuǎn)化工具有D2RQ、SquirrelRDF、OpenLink Virtuoso等,將關(guān)系型數(shù)據(jù)庫(kù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),映射到本體的類和屬性上,供語(yǔ)義操作。本研究采用開(kāi)源Protégé軟件工具,依照斯坦福大學(xué)研發(fā)的七步法[11],實(shí)現(xiàn)對(duì)課程單一領(lǐng)域本體的創(chuàng)建,以O(shè)WL為表現(xiàn)形式。用戶問(wèn)句具有自然語(yǔ)言隨意性、表達(dá)方式多樣性等特點(diǎn),需要把用戶問(wèn)句與構(gòu)建的知識(shí)庫(kù)本體進(jìn)行映射處理,形成結(jié)構(gòu)化三元組形式。
1) 命名實(shí)體識(shí)別
命名實(shí)體識(shí)別主要目的是實(shí)現(xiàn)查詢對(duì)象與本體實(shí)體的映射。中文自然語(yǔ)言問(wèn)題對(duì)象描述具有任意性,而本體實(shí)體處理具有專一性,為了規(guī)范自然語(yǔ)言實(shí)體名描述,更好地進(jìn)行句型模板匹配,更加準(zhǔn)確獲取三元組中數(shù)據(jù)信息,命名實(shí)體識(shí)別采用領(lǐng)域?qū)嶓w對(duì)象詞庫(kù)和同義詞替換實(shí)現(xiàn)二者之間的映射。映射公式1中,x為查詢語(yǔ)句中實(shí)體表達(dá),SQLquery(namedentity,x)為x對(duì)應(yīng)的本體中命名實(shí)體表達(dá)在數(shù)據(jù)庫(kù)中的呈現(xiàn)形式。
2) 本體屬性消歧
本體采用RDF來(lái)形式化元數(shù)據(jù)。一個(gè)RDF語(yǔ)句由資源、屬性、屬性值構(gòu)成的主謂賓三元組。謂詞屬于三元組中屬性概念詞,自然語(yǔ)言問(wèn)題對(duì)象屬性描述的任意性和本體創(chuàng)建后的專一性存在不匹配問(wèn)題是謂詞消歧要解決的。本體屬性有兩種:數(shù)據(jù)屬性和對(duì)象屬性。三元組中的謂詞部分由屬性值充當(dāng),一般是由固有動(dòng)詞、名詞等構(gòu)成?,F(xiàn)有的詞庫(kù)已具備對(duì)固有動(dòng)詞、名詞等的識(shí)別,但還需補(bǔ)充領(lǐng)域本體專有詞匯,最后還需要把謂詞替換為本體構(gòu)建采用的屬性詞匯,如Data Properties和Object Properties中定義的屬性。
屬性消歧使得任意性的問(wèn)句謂詞歸一化到本體創(chuàng)建的屬性關(guān)系上,便于形成SPARQL查詢語(yǔ)句,也是為提高句型模板匹配準(zhǔn)確性,從而有效地提取SPARQL查詢所需的二元組信息。本體屬性映射公式2中,x為查詢語(yǔ)句中屬性表達(dá),SQLquery(ontologyattributes,x)為x對(duì)應(yīng)的本體中屬性表達(dá)在數(shù)據(jù)庫(kù)中的呈現(xiàn)形式。
3) 問(wèn)句分類與疑問(wèn)詞歸一化
問(wèn)句類型的劃分,實(shí)現(xiàn)了對(duì)問(wèn)句的歸類,每種類型都有對(duì)應(yīng)許多疑問(wèn)詞。如定義類問(wèn)題對(duì)應(yīng)的疑問(wèn)詞包括有:什么是、是什么、何謂、叫什么等。通過(guò)問(wèn)句分類,梳理類型疑問(wèn)詞匯,對(duì)疑問(wèn)詞匯的映射實(shí)現(xiàn)疑問(wèn)詞歸一到特定問(wèn)句類型,再進(jìn)行語(yǔ)法依存分析。疑問(wèn)詞歸一到問(wèn)句策略降低了檢索范圍,提高了句型模板匹配效率。疑問(wèn)詞映射公式3中,x為查詢疑問(wèn)詞,Sparql(ontologyquestionwords,x)為x對(duì)應(yīng)的本體主題資源的注釋信息。
4) 同義詞映射算法設(shè)計(jì)
5) 分詞處理
中文問(wèn)句分詞處理是把問(wèn)句序列分割成若干詞語(yǔ),是問(wèn)題答疑的基礎(chǔ)工作。目前主流的中文分詞算法有:1依照詞典的機(jī)械分詞,用已存在的語(yǔ)料詞典和中文語(yǔ)句匹配,進(jìn)行語(yǔ)句分割。無(wú)詞典的中文統(tǒng)計(jì)分詞,按照在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)越多的漢字或者詞組進(jìn)行分詞處理。本研究中涉及命名實(shí)體和疑問(wèn)詞語(yǔ)料詞典,因此選擇基于詞典的IK2012中文機(jī)械分詞算法。
IK2012分詞器是結(jié)合詞典分詞和文法分析算法的中文分詞組件,包含智能分詞和最細(xì)粒度分詞。通過(guò)配置文件IKAnalyzer.cfg.xml實(shí)現(xiàn)對(duì)外部停用詞詞典和擴(kuò)展分詞詞典的加載,從而實(shí)現(xiàn)分詞過(guò)程中剔除停用詞和增加擴(kuò)展詞典的分詞。在測(cè)試系統(tǒng)環(huán)境下,IK2012的分詞效果如下表1所示。
1.2 用戶問(wèn)句理解
淺層語(yǔ)義分析和“深層”目標(biāo)是對(duì)立的。當(dāng)前計(jì)算機(jī)語(yǔ)音學(xué)研究在復(fù)雜語(yǔ)言環(huán)境下,受到束縛收效甚微。[12]淺層語(yǔ)義分析摒棄了語(yǔ)言關(guān)系的復(fù)雜性,通過(guò)標(biāo)簽體系等語(yǔ)義框架對(duì)句子成分和結(jié)構(gòu)進(jìn)行標(biāo)注,為解決復(fù)雜自然語(yǔ)言提供了新的途徑。
1) 句法依存分析
Stanford Parser是知名度較高的句法分析軟件,由斯坦福大學(xué)研發(fā)的句法分析工具,采用依存文法和上下文無(wú)關(guān)文法PCFG[13]相結(jié)合算法進(jìn)行句法結(jié)構(gòu)解析。解析結(jié)果產(chǎn)生兩種數(shù)據(jù)結(jié)構(gòu):2語(yǔ)法樹(shù),如表2中語(yǔ)法樹(shù)部分內(nèi)容;語(yǔ)義間的依存關(guān)系,如表2中依存關(guān)系部分內(nèi)容。本研究利用Stanford Parser解析分詞后的問(wèn)句,得到問(wèn)句語(yǔ)法依存關(guān)系結(jié)構(gòu),獲取語(yǔ)法標(biāo)記形成問(wèn)句模板,與已存在的句型模板進(jìn)行相似度計(jì)算。
2) 問(wèn)句模型匹配
問(wèn)句模型匹配是自動(dòng)問(wèn)答核心技術(shù)層。只有精準(zhǔn)匹配成功,才可以準(zhǔn)確獲取語(yǔ)義三元組中的二元數(shù)據(jù)信息,才能夠構(gòu)建SPARQL查詢語(yǔ)句。匹配的過(guò)程也是相似度計(jì)算的過(guò)程,不僅要考慮問(wèn)句模板和已知句型模板的句法標(biāo)記的重合度,還要考慮模板中語(yǔ)序上相似性。自然語(yǔ)言的隨意性可能使得不同語(yǔ)序的問(wèn)句表達(dá)相同意思。句法標(biāo)記的重合度計(jì)算采用余弦定理算法,語(yǔ)序相似性利用編輯距離算法計(jì)算。通過(guò)兩種算法結(jié)合使用求解與問(wèn)句模板最匹配的句型模板,獲取本體知識(shí)庫(kù)三元組數(shù)據(jù)中的二元數(shù)據(jù)信息,進(jìn)行語(yǔ)義查詢。問(wèn)句模型匹配算法公式7如下所示。
1.3 SPARQL查詢語(yǔ)句
SPARQL是針對(duì)RDF設(shè)計(jì)的查詢語(yǔ)言和數(shù)據(jù)獲取協(xié)議。按照?qǐng)D模式去匹配本體中的三元組集合,實(shí)現(xiàn)對(duì)主謂賓數(shù)據(jù)的獲取。在圖模式的查詢語(yǔ)句中,應(yīng)在三元組查詢?cè)刈兞壳疤砑印??”。如以現(xiàn)有成熟的三元存儲(chǔ)庫(kù)DBpedia中數(shù)據(jù)為例,查詢BaronWayBuilding的地理位置語(yǔ)句如下。
2 實(shí)驗(yàn)
目前國(guó)內(nèi)還沒(méi)有權(quán)威的中文問(wèn)答系統(tǒng)評(píng)測(cè)平臺(tái),針對(duì)本研究領(lǐng)域本體,還沒(méi)有開(kāi)源的測(cè)評(píng)數(shù)據(jù)集供系統(tǒng)模型測(cè)試驗(yàn)證。因此依據(jù)“百度知道”,以數(shù)據(jù)結(jié)構(gòu)“樹(shù)”為關(guān)鍵詞搜索出相關(guān)問(wèn)題,并對(duì)相關(guān)問(wèn)題進(jìn)行分類,構(gòu)建110道數(shù)據(jù)集。信息檢索領(lǐng)域通常采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F1值(F1-measure)作為檢索結(jié)果的指標(biāo)。準(zhǔn)確率是用來(lái)衡量檢測(cè)系統(tǒng)的查準(zhǔn)率的指標(biāo),準(zhǔn)確率值越大說(shuō)明實(shí)驗(yàn)的檢索效果越好,反之效果越差。召回率是用來(lái)衡量檢測(cè)系統(tǒng)查全率的指標(biāo)。F1值是召回率與準(zhǔn)確率的綜合體現(xiàn),當(dāng)F1值較高時(shí)說(shuō)明檢索方法效果較好。[14]
對(duì)比測(cè)試步驟設(shè)計(jì)如下:
步驟1:為110道數(shù)據(jù),設(shè)計(jì)相同意思,但不同表達(dá)的問(wèn)句。
步驟2:以設(shè)計(jì)的問(wèn)句作為查詢語(yǔ)句進(jìn)行答案檢索。系統(tǒng)界面、語(yǔ)義檢索過(guò)程界面見(jiàn)圖2、3。
步驟3:對(duì)問(wèn)答測(cè)試中檢索到的答案進(jìn)行人工判斷。
步驟4:根據(jù)判斷結(jié)果,分析測(cè)試指標(biāo),完成系統(tǒng)的評(píng)估測(cè)試。
從表3數(shù)據(jù)分析結(jié)果可以得出:在110個(gè)測(cè)試問(wèn)句中,DO2AS系統(tǒng)在三種類型問(wèn)題的檢索中,F(xiàn)1值達(dá)到70%以上趨于穩(wěn)定,然而P、R、F1三個(gè)檢測(cè)指標(biāo)相對(duì)還是偏低,分析原因發(fā)現(xiàn)有以下幾點(diǎn):3領(lǐng)域本體知識(shí)庫(kù)數(shù)據(jù)稀疏。本體不能夠完全的涵蓋整個(gè)領(lǐng)域知識(shí)點(diǎn),導(dǎo)致查詢某知識(shí)點(diǎn)時(shí)無(wú)法對(duì)本體中三元組信息很好的擴(kuò)展;語(yǔ)料句型模板不夠充分。自然語(yǔ)言具有很強(qiáng)的任意性,中文尤其。語(yǔ)料句型模板不能夠滿足對(duì)問(wèn)句語(yǔ)法結(jié)構(gòu)的全部梳理,使得部分問(wèn)句無(wú)法匹配到精準(zhǔn)的語(yǔ)料句型模板;問(wèn)句模板匹配算法差異。匹配算法設(shè)計(jì)的好壞直接影響到語(yǔ)料模板的準(zhǔn)確匹配,從而影響查詢本體三元組中二元信息的精確度。
3 結(jié)論
面向中文領(lǐng)域本體自動(dòng)答疑,本文采用Protégé工具構(gòu)建《數(shù)據(jù)結(jié)構(gòu)》中“樹(shù)”知識(shí)點(diǎn)本體知識(shí)庫(kù),通過(guò)語(yǔ)法依存分析,提取自然語(yǔ)言問(wèn)句中的主干結(jié)構(gòu),與問(wèn)句模型匹配獲取三元組中的二元成分,然后在本體中查詢出精確答案。在自動(dòng)問(wèn)答DO2AS系統(tǒng)實(shí)現(xiàn)過(guò)程中,運(yùn)用到了中文分詞技術(shù)、Stanford Parser、同義詞算法、余弦定理算法、編輯距離算法、語(yǔ)義檢索、本體創(chuàng)建等技術(shù)的組合使用。實(shí)驗(yàn)證實(shí)了其自動(dòng)答疑的準(zhǔn)確性,同時(shí)也分析了自然語(yǔ)言問(wèn)句處理過(guò)程中遇到的問(wèn)題,為后續(xù)研究提供了方向。
參考文獻(xiàn):
[1] 楊月華,杜軍平,平源. 基于本體的智能信息檢索系統(tǒng)[J]. 軟件學(xué)報(bào),2015,26(07):1675-1687.
[2] Lopez V,Uren V,Sabou M,et al.Is Question Answering fit for the Semantic Web?:A survey.[J].Semantic Web,2011,2(2):125-155.
[3] Gruber T R.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993,5(2):199-220.
[4] 王樹(shù)西,劉群,白碩. 一個(gè)人物關(guān)系問(wèn)答的專家系統(tǒng)[J]. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2003(1):31-36.
[5] 黃寅飛, 鄭方, 燕鵬舉,等. 校園導(dǎo)航系統(tǒng)EasyNav的設(shè)計(jì)與實(shí)現(xiàn)[J]. 中文信息學(xué)報(bào), 2001, 15(4):35-40.
[6][9] 歐石燕,唐振貴. 面向圖書館關(guān)聯(lián)數(shù)據(jù)的自動(dòng)問(wèn)答技術(shù)研究[J]. 中國(guó)圖書館學(xué)報(bào),2015(6):44-60.
[7] 李紅梅,丁晟春. 基于本體和設(shè)計(jì)情景的產(chǎn)品設(shè)計(jì)領(lǐng)域知識(shí)問(wèn)答系統(tǒng)研究[J].情報(bào)理論與實(shí)踐,2015,38(01):130-134.
[8] 樊孝忠,李宏喬,李良富,等. 銀行領(lǐng)域漢語(yǔ)自動(dòng)問(wèn)答系統(tǒng)BAQS的研究與實(shí)現(xiàn)[J].北京理工大學(xué)學(xué)報(bào),2004(6):528-532.
[10] Moldovan D,Pasca M,Harabagiu S.Performance issues and error analysis in an open-domain question answering system[J]. Acm Transactions on Information Systems, 2003, 21(2):133-154.
[11] Noy N F, Mcguinness D L.Ontology development 101:A guide to creating your first ontology[J].And Stanford Medical Informatics,2001.
[12] 陳耀東,王挺,陳火旺.淺層語(yǔ)義分析研究[J].計(jì)算機(jī)研究與發(fā)展,2008,S1:321-325.
[13] 林穎,史曉東,郭鋒.一種基于概率上下文無(wú)關(guān)文法的漢語(yǔ)句法分析[J].中文信息學(xué)報(bào),2006,2:1-7+32.
[14] 張倩,劉懷亮.一種基于半監(jiān)督學(xué)習(xí)的短文本分類方法[J].現(xiàn)代圖書情報(bào)技術(shù),2013(2):30-35.
【通聯(lián)編輯:王力】