国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)述的中文自然語言接口

2016-05-14 09:34:53張俊馳胡婕劉夢赤
計算機(jī)應(yīng)用 2016年5期
關(guān)鍵詞:復(fù)述機(jī)器學(xué)習(xí)

張俊馳 胡婕 劉夢赤

摘要:針對傳統(tǒng)以句法分析為主的數(shù)據(jù)庫自然語言接口系統(tǒng)識別用戶語義準(zhǔn)確率不高,且需要大量人工標(biāo)注訓(xùn)練語料的問題,提出了一種基于復(fù)述的中文自然語言接口(NLIDB)實(shí)現(xiàn)方法。首先提取用戶語句中表征數(shù)據(jù)庫實(shí)體詞,建立候選樹集及對應(yīng)的形式化自然語言表達(dá);其次由網(wǎng)絡(luò)問答語料訓(xùn)練得到的復(fù)述分類器篩選出語義最相近的表達(dá);最后將相應(yīng)的候選樹轉(zhuǎn)換為結(jié)構(gòu)化查詢語句(SQL)。實(shí)驗表明該方法在美國地理問答語料(GeoQueries880)、餐飲問答語料(RestQueries250)上的F1值分別達(dá)到83.4%、90%,均優(yōu)于句法分析方法。通過對比實(shí)驗結(jié)果發(fā)現(xiàn)基于復(fù)述方法的數(shù)據(jù)庫自然語言接口系統(tǒng)能更好地處理用戶與數(shù)據(jù)庫的語義鴻溝問題。

關(guān)鍵詞:數(shù)據(jù)庫自然語言接口;詞向量;復(fù)述;自然語言表達(dá);機(jī)器學(xué)習(xí)

中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A

Abstract:In this paper, a novel method for Chinese Natural Language Interface of Database (NLIDB) based on Chinese paraphrase was proposed to solve the problems of traditional methods based on syntactic parsing which cannot obtain high accuracy and need a lot of manual label training corpus. First, key entities of user statements in databases were extracted, and candidate tree sets and their tree expressions were generated. Then most relevant semantic expressions were filtered by paraphrase classifier which was obtained from the Internet Q&A training corpus. Finally, candidate trees were translated into Structured Query Language (SQL). F1 score was respectively 83.4% and 90% on data sets of Chinese America Geography (GeoQueries880) and Questions about Restaurants (RestQueries250) by using the proposed method, better than syntactic based method. The experimental results demonstrate that the NLIDB based on paraphrase can handle the semantic gaps between users and databases better.

Key words:Natural Language Interface of DataBase (NLIDB); word vector; paraphrase; natural language expression; machine learning

0 引言

隨著現(xiàn)代信息技術(shù)的發(fā)展以及數(shù)據(jù)的海量式增長,人們希望以更自然、便捷的方式從數(shù)據(jù)庫中獲取信息,數(shù)據(jù)庫自然語言接口(Natural Language Interface of DataBase, NLIDB)應(yīng)運(yùn)而生,旨在幫助用戶使用熟悉的自然語言(如中文)從結(jié)構(gòu)化存儲系統(tǒng)中獲取信息,消除計算機(jī)與人之間的“隔閡”。

Rodolfo等[1]從不同角度分析、總結(jié)了目前主流的NLIDB系統(tǒng),大體分為兩類:一類是以規(guī)則匹配、句法分析或語義規(guī)則[2-6]等為主要技術(shù)手段,分析用戶查詢語義然后轉(zhuǎn)換為結(jié)構(gòu)化查詢語言(Structured Query Language, SQL),即自然語言到SQL的直接映射;另一類是首先將自然語言翻譯成一種中間層表示的邏輯查詢語言,再轉(zhuǎn)換為SQL[7-9],這種方法由于具有數(shù)據(jù)庫無關(guān)、領(lǐng)域適應(yīng)性等特點(diǎn),成為近年來該領(lǐng)域研究的熱點(diǎn)。然而,以上方法的難點(diǎn)在于需要直接處理用戶靈活多變的查詢語義,由于目前詞法分析、句法分析技術(shù)尚未達(dá)到足夠高的正確率,語義分析階段的錯誤將導(dǎo)致最后生成的SQL不符合用戶查詢意圖。

近來,一些學(xué)者將NLIDB轉(zhuǎn)換為最優(yōu)結(jié)構(gòu)篩選問題,即對用戶輸入首先生成可能的候選結(jié)構(gòu)集,再借用規(guī)則或統(tǒng)計學(xué)方法對其排序,最后取分?jǐn)?shù)最高的候選結(jié)構(gòu)轉(zhuǎn)換為SQL[10-13]。目前上述方法主要依賴人工編寫規(guī)則以及標(biāo)注語料,不便于跨領(lǐng)域使用。根據(jù)文獻(xiàn)[1]總結(jié)的查詢問題發(fā)現(xiàn),僅依靠輸入語句與數(shù)據(jù)庫模式很多情況無法篩選出正確結(jié)構(gòu),例如,問句“有多少人居住于亞拉巴馬州?”“亞拉巴馬州有多少公民?”“亞拉巴馬州的人數(shù)幾何?”查詢目標(biāo)都應(yīng)匹配到數(shù)據(jù)庫屬性“人口”。為彌補(bǔ)這種語義差異,文獻(xiàn)[14-15]使用信息抽取方法從大規(guī)模文本中學(xué)習(xí)出詞匯與知識庫實(shí)體之間的映射關(guān)系,但實(shí)際中,該方法受限于知識庫的大小以及信息抽取的準(zhǔn)確度。

綜合以上問題,本文提出了一種基于復(fù)述的中文自然語言接口(Paraphrase Natural Language Interface, PaNLI)實(shí)現(xiàn)方法。PaNLI使用網(wǎng)絡(luò)問答平臺提供的大量“類似問題”“相關(guān)知識”作為復(fù)述(paraphrases)訓(xùn)練語料,這些語料涉及領(lǐng)域廣泛且來自用戶的真實(shí)提問,訓(xùn)練得到的復(fù)述分類器能更好地解決NLIDB語義鴻溝問題。PaNLI首先提取出句子中可映射到數(shù)據(jù)庫元素的實(shí)體詞,并通過子樹遍歷等操作得到候選樹集與初始排序;其次根據(jù)候選結(jié)構(gòu)匹配的屬性句法類別結(jié)合規(guī)則模板生成若干個形式化的自然語言表達(dá);最后利用訓(xùn)練得到的支持向量機(jī)模型(Support Vector Machine, SVM)分類器計算輸入語句與形式化自然語言表達(dá)的語義相關(guān)度,重新排序候選樹集,將得到的最優(yōu)候選樹轉(zhuǎn)換為SQL。

使用機(jī)器學(xué)習(xí)方法處理分類問題時,關(guān)鍵點(diǎn)在于對問題抽取合適的特征表示,以往句子表示通常使用詞袋模型,即不考慮詞語順序以及關(guān)聯(lián)信息。本文提出一種富語義的句子級特征表示方法,使用Word2Vec工具[16]在大量未標(biāo)注文本上訓(xùn)練得到詞語的低維向量表示,結(jié)合依存句法分析結(jié)果,得到句子的多維語義特征表示。實(shí)驗表明該特征表示方法能有效提高復(fù)述分類精度。

1 系統(tǒng)組成

數(shù)據(jù)庫自然語言接口PaNLI系統(tǒng)結(jié)構(gòu)如圖1所示,主要由以下4個模塊構(gòu)成:1)候選集生成;2)形式化自然語言表達(dá)構(gòu)造;3)最優(yōu)自然語言表達(dá)與候選樹篩選;4)候選樹轉(zhuǎn)換為SQL語句。

1.1 數(shù)據(jù)庫預(yù)處理

數(shù)據(jù)庫預(yù)處理包含索引以及模式圖建立。為提高查全率,首先,采用基于信息檢索的細(xì)粒度分詞方法[17]對數(shù)據(jù)庫中的模式及實(shí)例分詞建立索引;其次,將數(shù)據(jù)庫模式G(V,E)視為一個有向圖結(jié)構(gòu),其中V包含關(guān)系名以及屬性名兩種節(jié)點(diǎn),E分為關(guān)系屬性邊和主鍵外鍵邊。對E中每條邊e賦予一個0~1的權(quán)值ω(e),值越高表明連通性越強(qiáng),本文依據(jù)包含e的實(shí)例數(shù)量與實(shí)例總量的比值來設(shè)置邊的初始權(quán)值。

1.2 候選結(jié)構(gòu)建立

文獻(xiàn)[10]以句子的依存句法分析為輸入,生成多個候選SQL語句,使用機(jī)器學(xué)習(xí)方法計算SQL與句子短語結(jié)構(gòu)樹之間的相似程度,該方法不足之處在于SQL語句與自然語言從結(jié)構(gòu)以及語法上都有很大差異,雖然可以將兩者以樹結(jié)構(gòu)表示,但是其所表達(dá)的語義無法證明具有相似性。

本文中,該模塊使用預(yù)建立的詞表匹配出用戶輸入語句中的數(shù)據(jù)庫實(shí)體詞,以此生成包含正確語義結(jié)構(gòu)的候選樹集。對每一個候選樹,根據(jù)其匹配屬性的句法類別結(jié)合規(guī)則模板構(gòu)造出若干形式化自然語言表達(dá),使得語義相似度計算發(fā)生在同類型語言中,計算結(jié)果更加合理。

1.3 復(fù)述分類器

該模塊利用網(wǎng)絡(luò)問答平臺提供的主題類似問題作為原始語料,首先使用分類方法過濾掉部分雜質(zhì)語句,在篩選出的語料中人工標(biāo)注少量復(fù)述問句對;然后應(yīng)用半監(jiān)督學(xué)習(xí)方法擴(kuò)充復(fù)述語料;最后訓(xùn)練得到一個基于支持向量機(jī)的排序復(fù)述分類器。本文使用該分類器對生成的自然語言表達(dá)按照語義相近程度排序,該方法提供了兩方面的優(yōu)勢:1)復(fù)述方法避免了對用戶的原語句直接語義分析,使得轉(zhuǎn)換的正確率不會過于依賴預(yù)定義規(guī)則以及句法分析的正確率;2)用戶時常隱晦地表達(dá)查詢謂詞,例如,問句“有多少人居住在亞拉巴馬州?”其中“居住”與屬性“人口”有語義關(guān)聯(lián)關(guān)系,復(fù)述方法尤為適合解決這種語義鴻溝問題。

1.4 結(jié)構(gòu)化查詢語句生成

SQL生成是將經(jīng)過篩選的符合預(yù)定義的語義規(guī)則(見第2章)的候選結(jié)構(gòu)樹,按照數(shù)據(jù)庫模式圖進(jìn)行調(diào)整(包括插入路徑缺失節(jié)點(diǎn)、屬性關(guān)系名替換等)轉(zhuǎn)換為數(shù)據(jù)庫能直接執(zhí)行的結(jié)構(gòu)化查詢語句的過程。將候選結(jié)構(gòu)樹轉(zhuǎn)換為SQL的方法與生成自然語言表達(dá)的方法類似,故本文不再單獨(dú)描述。

2 候選樹集生成

給定一個輸入查詢語句q及數(shù)據(jù)庫DB,首先抽取出若干可映射到數(shù)據(jù)庫元素的實(shí)體詞WD以及對應(yīng)的數(shù)據(jù)庫元素S,其次由WD生成符合語義規(guī)則的候選樹集Tq。在關(guān)系數(shù)據(jù)庫中,定義數(shù)據(jù)庫元素S包括關(guān)系名R、屬性名A以及屬性值V。為簡化生成過程,預(yù)先將具有固定表達(dá)的聚類函數(shù)詞(如,最多、總和、平均值等)以及邏輯操作詞(如,大于、等于、并且等)分離出來。

生成算法的基本思想是通過子樹移動操作來遍歷(WD,S)可能的樹結(jié)構(gòu),考慮到候選樹集隨著WD增加呈指數(shù)級增長,在子樹移動的過程中根據(jù)模式圖以及語義規(guī)則裁剪掉不可能生成正確結(jié)構(gòu)的子樹。候選樹生成算法表述如下:

3 形式化自然語言表達(dá)構(gòu)造

以往的NLIDB系統(tǒng)側(cè)重于自然語言到結(jié)構(gòu)化語句的單方向研究,而一個用戶友好的系統(tǒng)應(yīng)同時具備逆向翻譯功能[19],即把執(zhí)行語句以用戶熟悉的語言呈現(xiàn)。本文中,該逆向過程除了用于結(jié)果呈現(xiàn),更重要的作用是作為候選樹篩選的“中間自然語言”,使用復(fù)述方法計算語義相似度。

文獻(xiàn)[20]使用基于圖的多種合并方法將SQL轉(zhuǎn)換為自然語言表達(dá)。這里,候選樹是由模式圖路徑生成得到的直觀結(jié)構(gòu),僅需使用若干固定模板即可完成轉(zhuǎn)換。表1中歸納了形式化自然語言表達(dá)構(gòu)造模板(加粗的詞為表格中S(a)類別),其中關(guān)系名、屬性值、聚類函數(shù)、操作符由S(r)、S(v)、AGGR、OPR表示,S(a)為屬性名的句法類別。生成的問句分為兩類,分別以“……是多少”、“……是什么”結(jié)尾或以疑問詞“哪些……”開頭,然后關(guān)系名S(r)作為句子描述部分的起始詞,其后包含屬性值S(v)、聚類函數(shù)AGGR、操作符OPR,本文根據(jù)模式中屬性名S(a)所屬的句法類別(NP、VP等)構(gòu)造句子順序并添加必要的結(jié)構(gòu)助詞。

在生成的候選樹結(jié)構(gòu)中,根節(jié)點(diǎn)關(guān)系名作為句子描述部分的起始詞,若其直接子節(jié)點(diǎn)包含屬性值則使用第一種類型的問句模板,否則使用以“哪些”開頭的第二種模板。屬性值S(v)通常作為條件限定where的組成部分,從而不包含S(v)子節(jié)點(diǎn)的關(guān)系名或?qū)傩悦鳛榫渲械牟樵兡康模湓谀0逯芯o靠疑問代詞。當(dāng)候選樹的結(jié)構(gòu)較復(fù)雜時,本文使用模板合并的方法構(gòu)造長問句,例如圖2中的候選樹(c),結(jié)合表1的模板規(guī)則1、4生成問句“哪些州的面積大于猶他州的面積,其人口是多少?”,合并過程中使用代詞“其”連接多條規(guī)則,避免生成冗余的自然語言表達(dá)。

數(shù)據(jù)庫模式中每個主外鍵關(guān)系R都有一個R′與其互為逆關(guān)系(例如,“首都”和“所屬國家”)。對每一個候選結(jié)構(gòu)樹t,本文生成具有相同語義的結(jié)構(gòu)樹t′,其中關(guān)系R由R′替代。由逆關(guān)系建立的候選結(jié)構(gòu)使用不同的規(guī)則模板生成自然語句,實(shí)體在規(guī)則中交換主語和賓語位置。最后將t′生成的自然語句添加到結(jié)構(gòu)樹t的對應(yīng)形式化自然語言表達(dá)集中。對美國地理問答數(shù)據(jù)集(GeoQueries880),每條用戶查詢,平均對應(yīng)生成132條形式化自然語句。

4 復(fù)述方法

復(fù)述,通俗來講,就是對相同語義的不同表達(dá)[21],在機(jī)器翻譯、自動問答、信息抽取以及自然語言生成等領(lǐng)域有著諸多應(yīng)用[22],但目前復(fù)述語料抽取方法不夠完善,構(gòu)建一個含有大量復(fù)述句對的語料庫周期長且資源獲取困難。

在NLIDB系統(tǒng)研究中,本文主要關(guān)注問句形式的復(fù)述語料,通過對百度知道、搜狗問問等平臺的觀察發(fā)現(xiàn),大量具有相同含義的提問以“類似問題”“相關(guān)知識”等形式在主題頁面中展現(xiàn),

例如,百度知道用戶的提問“有多少人居住在上海?”,該頁面的其他類似問題包括“上?,F(xiàn)在住的人口有多少?”“居住于上海的,目前大概有多少人口?”等。對于搜索引擎本身,其后臺積累了大量用戶搜索、提問日志,通過聚類、挖掘等操作可以將具有類似語義的提問歸結(jié)起來,本文以頁面中的提問以及類似問題作為一個基本塊(平均包含1條主題問句以及5條類似問題),大量抽取以塊為單位的復(fù)述訓(xùn)練語料。

4.1 語料處理

從網(wǎng)絡(luò)上抽取得到的原始語料中包含枚舉、事實(shí)、概念等多種問題類型,NLIDB系統(tǒng)不同于自動問答系統(tǒng),不能處理例如“中國為什么要進(jìn)行改革開放?”這種概念性問題。本文將問題類型分為可處理(枚舉、需求、事實(shí)、是非)與不可處理(概念、推薦、評價)兩類,使用復(fù)旦中文問答系統(tǒng)問題標(biāo)注集作為語料,按照文獻(xiàn)[23]中的方法訓(xùn)練得到一個二值分類器,過濾掉不可處理問題及其類似問題,由于該分類目的是篩選出不可處理的雜質(zhì)語料,減少人工篩選工作量,其分類準(zhǔn)確度不會影響最后結(jié)果。篩選出的可處理數(shù)據(jù)中以塊為基礎(chǔ)使用少量人工標(biāo)注出語義相同(復(fù)述語料標(biāo)記為1)以及語義不同(非復(fù)述語料標(biāo)記問0)的問句對,最后得到4800條人工標(biāo)注訓(xùn)練集。網(wǎng)絡(luò)問答平臺中用戶提問覆蓋多個領(lǐng)域,對于自然語言接口系統(tǒng),通過觀察發(fā)現(xiàn)領(lǐng)域相關(guān)聯(lián)的問答語料更能提升系統(tǒng)轉(zhuǎn)換效果,從而對訓(xùn)練復(fù)述集,本文根據(jù)其在網(wǎng)絡(luò)平臺中的所屬類別將問句分類。實(shí)際應(yīng)用時,針對不同的查詢領(lǐng)域本文選擇不同的分類復(fù)述語料。

4.2 訓(xùn)練數(shù)據(jù)擴(kuò)充

在人工標(biāo)注的少量復(fù)述語料基礎(chǔ)上,本文使用基于協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法擴(kuò)充訓(xùn)練語料,其核心思想是:對于一個未標(biāo)注樣本,如果SVM、隨機(jī)森林以及最大熵中兩個分類器的判別一致,則將該樣本進(jìn)行標(biāo)記,并將其納入另一個分類器的訓(xùn)練樣本;如此重復(fù)迭代,直至所有訓(xùn)練樣本都被標(biāo)記或者三個分類器不再有變化。

4.3 向量空間模型

在模型訓(xùn)練之前需使用合適的方法表示句子,傳統(tǒng)的文本處理方法詞袋模型(BagOfWords, BOW),將文本拆解為單詞,以單詞作為矢量空間的維度,以每個單詞在文本中出現(xiàn)的頻率作為文本矢量對應(yīng)維度的值。BOW的缺點(diǎn)是忽略了詞語在文本中出現(xiàn)的先后次序,并且沒有考慮詞語的語義信息(實(shí)驗5.2節(jié))。

詞向量模型最早由Hinton提出,它將所有詞映射到一個低維實(shí)數(shù)向量空間,語義相近的詞在向量空間中的距離也更近。本文使用文獻(xiàn)[16]所提出的Word2Vec工具設(shè)置窗口大小為5的CBOW模型以及hierarchical softmax方法,在中文維基百科上訓(xùn)練得到詞語語義的Word Embedding模型。Word2Vec是一個無隱含層的神經(jīng)網(wǎng)絡(luò),直接訓(xùn)練詞的N維(本文中設(shè)置N為50)實(shí)數(shù)向量與內(nèi)部節(jié)點(diǎn)向量的條件概率。訓(xùn)練結(jié)果中,任意兩個詞的語義相關(guān)程度可以通過計算兩個詞對應(yīng)向量的余弦相似度得到。

除了詞向量,本文同時還考慮依存句法關(guān)系的低維向量特征表示。本文使用斯坦福依存句法分析器[24],依存弧標(biāo)記δ={amod,tmod,nsubj,csubj,dobj,…}是相對離散的標(biāo)簽集合,也有類似詞語的語義相關(guān)性。例如amod(形容詞修飾)與num(數(shù)詞修飾)更相近而不是nsubj(名詞性主語)。本文使用與詞語相似的方法,將訓(xùn)練語料中的依存關(guān)系標(biāo)記映射到向量空間模型,窗口大小設(shè)為3。

4.4 句子特征提取

特征提取是采用統(tǒng)計機(jī)器學(xué)習(xí)方法解決分類問題中至關(guān)重要的一個部分。本文所面向的處理對象是相對簡短的問句,問句中通常包含較少的詞,因此所含特征信息也相對較少。實(shí)際訓(xùn)練中本文考慮問句3方面的特征:詞、詞性以及依存句法關(guān)系。由于問句長度為變量,而訓(xùn)練特征維度固定,本文提出一種句子特征提取算法,結(jié)合Transitionbased句法分析[25]思想提取特征詞,添加對應(yīng)的詞性以及依存關(guān)系特征,算法具體表述如下:

算法2 Feature_Selection。

輸入 經(jīng)過分詞的復(fù)述問句對,詞性標(biāo)注,依存句法關(guān)系,Word Embedding模型,特征詞數(shù)N。

輸出 K維特征。

第一步 候選詞添加。跟隨文獻(xiàn)[25],對arcstandard句法分析系統(tǒng)本文選擇棧緩沖區(qū)(stack and buffer)中前3個詞加入候選詞集,并將依存關(guān)系中的SUBJ、OBJ以及MOD類型所包含的詞加入隊列Queue1及Queue2。

第二步 特征詞添加。循環(huán)地從Queue1及Queue2中分別取出第一個詞性為核心詞性(名詞、動詞、形容詞或疑問代詞)的詞語w1和w2,計算其在詞向量空間上的余弦相似度θ,若θ大于閾值參數(shù)τ(0<τ<1),則將w1,w2分別添加到詞語列表wordList1與wordList2中,當(dāng)詞語長度大于N時結(jié)束循環(huán)。如果計算得到θ小于參數(shù)τ,則加入備選列表backList1與backList2。

第三步 補(bǔ)足特征詞。若某個結(jié)果列表中的詞語數(shù)量小于3則分別計算其備選列表中的詞與另條問句中的核心詞性的詞向量距離,并取相似度最高的詞補(bǔ)足結(jié)果列表。若此時仍結(jié)果列表仍不足N個詞,則將句中剩余詞按上述方法添加。

第四步 特征生成。對每條問句,取結(jié)果列表中的N個詞的實(shí)數(shù)向量總和的平均值、對應(yīng)的詞性標(biāo)注以及依存關(guān)系類型以連接方式添加到特征向量中。

實(shí)驗中發(fā)現(xiàn),特征詞數(shù)為3時,在系統(tǒng)運(yùn)行效率以及準(zhǔn)確度上的平衡最好。

4.5 最優(yōu)結(jié)構(gòu)樹篩選

根據(jù)第4.4節(jié)提取的特征,本文使用基于徑向基核函數(shù)(Radial Basis Function,RBF)的SVM模型訓(xùn)練得到復(fù)述分類器。由于支持向量機(jī)為判別式模型,不能直接計算特征與類別的聯(lián)合概率,本文使用基于投票的SVM方法[26]得到語義相似度值P(Nt),從而候選樹的總得分由如下公式得到:

5 實(shí)驗結(jié)果與分析

5.1 實(shí)驗數(shù)據(jù)與設(shè)置

實(shí)驗包括2部分:首先是基于SVM的復(fù)述問句分類精度測試,主要觀察不同大小數(shù)據(jù)集以及不同特征組合對復(fù)述分類效果的影響,測試數(shù)據(jù)為從百度知道、搜狗問問等平臺抽取的“類似問題”“相關(guān)知識”經(jīng)過問題處理、擴(kuò)充最后得到57000條問句對,其中正例38150條(問句對為復(fù)述),反例18850條(問句對不為復(fù)述)。

其次,自然語言到SQL轉(zhuǎn)換的系統(tǒng)測試。由于目前中文方面缺少統(tǒng)一的NLIDB系統(tǒng)測試平臺,本文將英文中常用的問答測試集,美國地理問答語料(GeoQueries880)以及餐飲問答語料(RestQueries250)經(jīng)過多人翻譯、校對得到漢語問答測試集,簡稱Geo880CN、Rest250CN。為對比本文PaNLI系統(tǒng)的效果,本文使用當(dāng)時在英文GeoQueries880上取得最好成績的Precise [27]及基于句法分析的樹核函數(shù)系統(tǒng)[10]作為基準(zhǔn),測試在不同大小、不同領(lǐng)域數(shù)據(jù)集的轉(zhuǎn)換效果。

PaNLI以及對比系統(tǒng)實(shí)現(xiàn)使用Java語言編寫,JDK版本為1.8。實(shí)驗代碼運(yùn)行于Linux系統(tǒng)FedoraLiveDesktopx86,CPU 2.6GHz雙核Inter Corei5,8GB 1600MHz DDR3L內(nèi)存。

5.2 復(fù)述分類測試

特征詞數(shù)N是實(shí)現(xiàn)復(fù)述問句準(zhǔn)確分類的重要因素,同時為保證系統(tǒng)實(shí)際運(yùn)行有效性,實(shí)驗將測試上述因素對分類準(zhǔn)確度及一條查詢語句轉(zhuǎn)換時間的影響。實(shí)驗使用數(shù)據(jù)集的80%作為訓(xùn)練集,剩余20%作為測試集,使用LIBSVM作為訓(xùn)練及測試工具,RBF核函數(shù)懲罰因子參數(shù)C設(shè)為1。

由表2知,隨著特征詞數(shù)增加,系統(tǒng)耗時等幅增加,意味著對用戶較長的等待時間,當(dāng)詞數(shù)達(dá)到5個時分類準(zhǔn)確率開始下降,此時過多詞數(shù)使得特征維數(shù)增加,并且引入數(shù)據(jù)雜質(zhì)(如,句中“的”“是”等停用詞)。實(shí)際應(yīng)用中本文選擇特征詞數(shù)為3,在系統(tǒng)運(yùn)行效率以及準(zhǔn)確度上的平衡較好。

表3給出了多種特征組合下,SVM采用不同核函數(shù)的分類精度,選取的特征包括問句詞袋模型表示(BOW)、詞向量模型(Word Embedding)、詞性標(biāo)注(PartOfSpeech,POS)、依存句法關(guān)系枚舉表示(Dependency Relation)及實(shí)數(shù)向量表示(Dependency Embedding)。

由表3可以看出,使用詞向量模型、詞性及依存關(guān)系組合作為特征,在不同大小數(shù)據(jù)集上的分類精度都好于其他特征組合,相對于傳統(tǒng)的詞袋模型,詞向量特征對分類效果有顯著提升。依存關(guān)系枚舉表示與向量空間表示也對結(jié)果準(zhǔn)確度影響,一種直觀理解是,具有相似的上下文句法關(guān)系的標(biāo)記在語義上更相近,在分類時這種相似性如同詞語,能更好地捕捉句子特征。在4種核函數(shù)中,RBF核函數(shù)在數(shù)據(jù)量增大的情況分類效果更好,因而在系統(tǒng)測試中,使用基于RBF核函數(shù)的SVM作為復(fù)述分類器。

5.3 系統(tǒng)測試

該部分測試系統(tǒng)將自然語言轉(zhuǎn)換為SQL語句的效果,實(shí)驗中本文將數(shù)據(jù)Geo880CN按照句子長度以及句子數(shù)量切分為Geo100CN、Geo250CN、Geo500CN、Geo660CN、Geo880CN五種數(shù)據(jù)集,句子數(shù)量以及句子長度依次遞增,其中Geo880CN包含所有的880條問句,餐飲數(shù)據(jù)Rest250CN直接使用全部250條查詢作測試。評價指標(biāo)選擇數(shù)據(jù)挖掘中常用的F1值:

F1=2*P*RP+R(3)

其中:P為準(zhǔn)確度,即測試語句中正確轉(zhuǎn)換為SQL語句的數(shù)量占所有測試語句數(shù)量的比例;R為召回率,指正確轉(zhuǎn)換為SQL語句的數(shù)量與能夠正確識別并轉(zhuǎn)換的查詢語句數(shù)量比值。

由圖3可以看出本文提出的復(fù)述方法PaNLI與樹核函數(shù)法,Precise在Geo880CN五種切分?jǐn)?shù)據(jù)集上F1值的變化。實(shí)驗結(jié)果表明在美國地里問答數(shù)據(jù)集上復(fù)述方法PaNLI在不同大小的數(shù)據(jù)集上優(yōu)于樹核函數(shù)方法與圖匹配方法,當(dāng)問句數(shù)量增加到880時,復(fù)述方法F1值為83.4%,與其他系統(tǒng)相比下降更平穩(wěn)。樹核函數(shù)由于人工編寫語料有限,某些語義差異無法涵蓋。基于最大流匹配的Precise系統(tǒng)主要依賴圖結(jié)構(gòu)的搜索及字符串表層對應(yīng),而使用漢語數(shù)據(jù)集測試時同一個問題有多種表達(dá)方式,難以直接匹配,從而表現(xiàn)較差。PaNLI訓(xùn)練語料來源于網(wǎng)絡(luò)平臺上用戶的真實(shí)提問,對復(fù)述問句捕捉更好,即使用戶表達(dá)方法不同,很多情況下本文也能篩選出正確的候選結(jié)構(gòu)。

表4為本文所建系統(tǒng)在餐飲問答語料(Rest250CN)上的查詢轉(zhuǎn)換結(jié)果。相較樹核函數(shù),PaNLI在準(zhǔn)確度上略低1.7%,原因是Rest250CN包含更多復(fù)雜長問句,例如“在柏林市的弗雷德里希大街有哪些餐館的面條做的比較好吃?”,這些句子在短語結(jié)構(gòu)樹上與文獻(xiàn)[10]提出的SQLTree相似度較高,更易篩選出正確SQL,但缺點(diǎn)是訓(xùn)練階段需提供正確、完整的SQLTree。召回率方面復(fù)述方法比樹核函數(shù)高5%,PaNLI更易識別出具有相同含義的形容詞、動詞,比如復(fù)述語料“……好吃嗎?”與“……哪個更美味”其中“好吃”與“美味”有較隱晦的相似性,從而幫助系統(tǒng)更多識別出能夠轉(zhuǎn)換的查詢。綜上所述,相比其他NLIDB系統(tǒng),本文提出的基于復(fù)述方法的PaNLI有如下幾點(diǎn)優(yōu)勢:1)訓(xùn)練語料來源于網(wǎng)絡(luò),語義覆蓋面更廣,具有領(lǐng)域適應(yīng)性;2)人工干預(yù)部分只需少量篩選復(fù)述語料,較編寫大量邏輯表達(dá)式以及語法規(guī)則成本更低;3)本文復(fù)述方法更適用于漢語多樣化的口語表達(dá),能有效避免語言本身歧義性以及詞法分析、句法分析錯誤導(dǎo)致最后生成SQL錯誤,語義鴻溝問題更少。

6 結(jié)語

本文提出的基于復(fù)述NLIDB系統(tǒng)實(shí)現(xiàn)方法,避免了對用戶語句的直接分析,利用網(wǎng)絡(luò)問答語料訓(xùn)練得到的復(fù)述分類器篩選出語義最相近的自然語言表達(dá)。網(wǎng)絡(luò)問答語料覆蓋面廣且易于獲取,避免費(fèi)時的人工標(biāo)注操作。在訓(xùn)練過程中,提出一種結(jié)合依存句法分析器的句子級別特征提取方法。實(shí)驗表明該句子特征表示能有效提高分類準(zhǔn)確度,在測試集上均超過現(xiàn)有取得較好效果的系統(tǒng)。在今后的研究中進(jìn)一步引入機(jī)器學(xué)習(xí)中深度學(xué)習(xí)方法,提取句子深層次特征,提高分類準(zhǔn)確度。

參考文獻(xiàn):

[1]RODOLFO A, JUAN J, MARCO A, et al. Natural language interfaces to databases: an analysis of the state of the art[C]// Recent Advances on Hybrid Intelligent Systems. Berlin: Springer, 2013, 451:463-480.

[2]AHMAD R, KHAN M, ALI R. Efficient transformation of natural language query to SQL for Urdu[C]// Proceedings of the 2nd Conference on Language and Technology. [S.l.]: Society for Natural Language Processing, 2009:53-60.

[3]POPESCU A, ARMANASU A, ETZIONI O, et al. Modern natural language interfaces to databases: composing statistical parsing with semantic tractability[C]// Proceedings of the 20th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2004:141-147.

[4]孟小峰, 王珊. 中文數(shù)據(jù)庫自然語言查詢系統(tǒng)NCHIQL設(shè)計與實(shí)現(xiàn)[J]. 計算機(jī)研究與發(fā)展, 2001, 38(9):1080-1086. (MENG X F, WANG S. Design and implementation of a Chinese natural language interface to database (NCHIQL) [J]. Computer Research and Development,2001, 38(9): 1080-1086.)

[5]RODOLFO A, JUAN J, MARCO A. Semantic model for improving the performance of natural language interfaces to databases[C]// Proceedings of the 10th Mexican International Conference on Advances in Artificial Intelligence, LNCS 7094. Berlin: SpringerVerlag, 2011: 277-290.

[6]許龍飛, 楊曉昀, 唐世渭. 基于受限漢語的數(shù)據(jù)庫自然語言接口技術(shù)研究[J]. 軟件學(xué)報, 2002, 13(4):537-544.(XU L F, YANG X Y, TANG S W. Study on a database natural language interface technique based on restrictive Chinese[J]. Journal of Software, 2002, 13(4): 537-544.)

[7]MINOCK M, OLOFSSON P, NSLUND A. Towards building robust natural language interfaces to databases[C]// Proceedings of the 13th International Conference on Natural Language and Information Systems: Applications of Natural Language to Information Systems. Berlin: SpringerVerlag, 2008, 5039:187-198.

[8]WARREN D, PEREIRA F. An efficient easily adaptable system for interpreting natural language queries[J]. Computational Linguistics, 1982,8(3/4):110-122.

[9]WEISCHEDEL R. A hybrid approach to representation in the Janus natural language processor[C]// Proceedings of the 27th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 1989:193-202.

[10]GIORDANI A, MOSCHITTI A. Automatic generation and reranking of SQLderived answers to NL questions[C]// Proceedings of the 2nd International Workshop on Trustworthy Eternal Systems via Evolving Software, Data and Knowledge, Volume 379 of the series Communications in Computer and Information Science. Berlin: SpringerVerlag, 2013: 59-76.

[11]LI F, JAGADISH H. Constructing an interactive natural language interface for relational databases[J]. Proceedings of the VLDB Endowment,2014,8(1):73-84

[12]POON H. Grounded unsupervised semantic parsing[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013:1-10.

[13]GIORDANI A, MOSCHITTI A. Generating SQL queries using natural language syntactic dependencies and metadata[C]// Proceedings of the 17th International Conference on Applications of Natural Language to Information Systems, LNCS 7337. Berlin: Springer, 2012:164-170.

[14]BERANT J, CHOU A, FROSTIG R, et al. Semantic parsing on freebase from questionanswer pairs[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013:1533-1544.

[15]CAI Q, YATES A. Largescale semantic parsing via schema matching and lexicon extension[C]// Proceedings of the Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2013:423-433.

[16]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]// Proceedings of the Advances in Neural Information Processing Systems. Nevada: NIPS, 2013: 3111-3119.

[17]曹勇剛, 曹羽中, 金茂忠,等. 面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J]. 軟件學(xué)報, 2006, 17(3):356-363. (CAO Y G, CAO Y Z, JIN M Z, et al. Information retrieval oriented adaptive Chinese word segmentation system[J]. Journal of Software,2006, 17(3):356-363.)

[18]ESPAABOQUERA S, CASTROBLEDA M, ZAMORAMARTNEZ F, et al. Efficient viterbi algorithms for lexical tree based models[C]// Proceedings of the 2007 International Conference on Advances in Nonlinear Speech Processing. Berlin: SpringerVerlag, 2007, 4885:179-187.

[19]SIMITSIS A, IOANNIDIS Y. DBMSs should talk back too[C]// Proceedings of the 4th Biennal Conference on Innovative Data Systems Research. [S.l.]: arXiv, 2009:62-70.

[20]KOUTRIKA G, SIMITSIS A, IOANNIDIS Y E. Explaining structured queries in natural language[C]// Proceedings of the 2010 IEEE 26th International Conference on Data Engineering. Piscataway, NJ: IEEE, 2010:333-344.

[21]BARZILAY R, MCKEOWN K. Extracting paraphrases from a parallel corpus[C]// Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2002:50-57.

[22]趙世奇, 劉挺, 李生. 復(fù)述技術(shù)研究[J]. 軟件學(xué)報, 2009, 20(8):2124-2137.(ZHAO S Q, LIU T, LI S. Research on paraphrasing technology[J]. Journal of Software, 2009, 20(8):2124-2137.)

[23]ZHANG D. Question classification using support vector machines[C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research & Development in Information Retrieval. New York: ACM, 2003:26-32.

[24]CHANG P, TSENG H, JURAFSKY D, et al. Discriminative reordering with Chinese grammatical relations features[C]// Proceedings of the 3rd Workshop on Syntax and Structure in Statistical Translation. Stroudsburg, PA: Association for Computational Linguistics, 2009: 51-59.

[25]ZHANG Y, NIVRE J. Transitionbased dependency parsing with rich nonlocal features[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011:188-193.

[26]SHEN L, JOSHI A K. An SVM based voting algorithm with application to parse reranking[C]// Proceedings of the 7th Conference on Natural Language Learning at HLTNAACL. Stroudsburg, PA: Association for Computational Linguistics, 2003:9-16.

[27]POPESCU A M, ETZIONI O, KAUTZ H. Towards a theory of natural language interfaces to databases[C]// Proceedings of the 8th International Conference on Intelligent User Interfaces. New York: ACM, 2003: 149-157.

猜你喜歡
復(fù)述機(jī)器學(xué)習(xí)
淺談低年級數(shù)學(xué)教學(xué)中的復(fù)述策略
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
借助復(fù)述培養(yǎng)學(xué)生的英語表達(dá)能力
薛法根老師指導(dǎo)學(xué)生“復(fù)述”藝術(shù)之微探
考試周刊(2016年16期)2016-03-31 02:34:18
淺談英語口語訓(xùn)練三部曲
长垣县| 古田县| 邹平县| 三门峡市| 舒兰市| 周至县| 赣榆县| 化州市| 承德县| 临泉县| 始兴县| 文山县| 左云县| 萍乡市| 邛崃市| 遂宁市| 阿巴嘎旗| 安仁县| 永定县| 宿松县| 洪湖市| 华安县| 黑河市| 特克斯县| 贵德县| 类乌齐县| 邛崃市| 盐城市| 青冈县| 孟连| 盐源县| 金乡县| 南康市| 布尔津县| 郓城县| 永寿县| 金溪县| 电白县| 福泉市| 红原县| 布尔津县|