基于非句處理的旅游業(yè)語言查詢系統(tǒng)的研究與設(shè)計(jì)

2015-01-20 11:44:23馬婷婷

電腦知識(shí)與技術(shù) 2014年36期

摘要：隨著旅游行業(yè)的迅猛發(fā)展，從早期的紙質(zhì)資料查詢逐步向語言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便，文章主要介紹了語音識(shí)別系統(tǒng)的原理、語音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。

關(guān)鍵詞：語音識(shí)別系統(tǒng)；非句；分詞算法

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）36-8754-02

隨著旅游業(yè)的快速發(fā)展，地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求，人們對(duì)基于語音識(shí)別理論的“所說即所得”的語音電子查詢系統(tǒng)的需要越來越強(qiáng)烈。但已有的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。

非句指的是在語音識(shí)別結(jié)果里識(shí)別出來的文本無法構(gòu)成完整語句，摻雜了識(shí)別錯(cuò)誤導(dǎo)致語法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié)，導(dǎo)致人或機(jī)器無法用正常的自然語言知識(shí)形成正確的理解。因此，只有找到好的非句分析知識(shí)和方法，才能更有效的傳遞這些錯(cuò)誤或者脫節(jié)，消除其對(duì)于人機(jī)交互的阻力。

2 語音識(shí)別系統(tǒng)

語言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng)，包括語音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語音識(shí)別系統(tǒng)的原理圖見圖1：

圖1 語音識(shí)別系統(tǒng)原理圖

本文的目標(biāo)是對(duì)語音識(shí)別后的文本，采用自然語言理解的方法從語法、語義和語用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析，選擇適合的分詞算法，盡量減少非句的出現(xiàn)，提高輸出結(jié)果的正確率。語音識(shí)別后處理系統(tǒng)圖見圖2：

圖2 語音識(shí)別后處理系統(tǒng)圖

3 分詞算法

語言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語文本中有許多切分歧義字段。歧義字段是指在分詞過程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如，“供應(yīng)商品”該語句可以切分為“火車＼站”或“火＼車站”兩種，字段“火車站”為交集型歧義型字段。而語句“景區(qū)區(qū)間車”可以切分為“景區(qū)＼區(qū)間＼車”和“景區(qū)＼區(qū)間車”兩種，字段“區(qū)間車”為組合型歧義字段。

常用的切分方法有正向最大匹配算法（FMM）、逆向最大匹配算法（RMM）和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的，那么分詞結(jié)果無歧義，是正確的；如果得到的結(jié)果不一樣，說明存在歧義，將產(chǎn)生非句，并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同，如果詞條數(shù)目不同，依據(jù)長(zhǎng)詞優(yōu)先的原則，選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果；如果詞條數(shù)目不同，則采用計(jì)算語義關(guān)聯(lián)強(qiáng)度的方法，得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3：

圖3 雙向最大匹配算法流程圖

4 測(cè)試結(jié)果

將旅游業(yè)語言查詢系統(tǒng)按照語句含義分成住宿、就餐、景點(diǎn)、問路、加油站、停車場(chǎng)6類。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語句進(jìn)行錄音，生成語言識(shí)別后文本，采用不同方法測(cè)試，測(cè)試結(jié)果如表1。

表1 不同方法測(cè)試結(jié)果對(duì)比表

[不同測(cè)試方法＼&準(zhǔn)確率＼&基于正向最大匹配算法的結(jié)果＼&92.31%＼&基于逆向最大匹配算法的結(jié)果＼&94.42%＼&歧義處理后的結(jié)果＼&96.43%＼&]

5 結(jié)論

隨著旅游行業(yè)語音查詢系統(tǒng)的普及，人們對(duì)這種“所說即所得”的要求越來越高，利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn)，提高了輸出準(zhǔn)確性。

參考文獻(xiàn)：

[1] 王中立.漢語自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào)，2006（3）：118-121.

[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程，2012（36）：9912-9918.

[3] 李偉，吳及，呂萍.基于前后向語言模型的語音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用，2010（10）：7-10.

[4] 魏莎莎，熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息，2010，26（10）：190-192.

關(guān)鍵詞：語音識(shí)別系統(tǒng)；非句；分詞算法

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）36-8754-02

2 語音識(shí)別系統(tǒng)

圖1 語音識(shí)別系統(tǒng)原理圖

圖2 語音識(shí)別后處理系統(tǒng)圖

3 分詞算法

圖3 雙向最大匹配算法流程圖

4 測(cè)試結(jié)果

表1 不同方法測(cè)試結(jié)果對(duì)比表

5 結(jié)論

參考文獻(xiàn)：

[1] 王中立.漢語自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào)，2006（3）：118-121.

[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程，2012（36）：9912-9918.

[3] 李偉，吳及，呂萍.基于前后向語言模型的語音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用，2010（10）：7-10.

[4] 魏莎莎，熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息，2010，26（10）：190-192.

關(guān)鍵詞：語音識(shí)別系統(tǒng)；非句；分詞算法

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）36-8754-02

2 語音識(shí)別系統(tǒng)

圖1 語音識(shí)別系統(tǒng)原理圖

圖2 語音識(shí)別后處理系統(tǒng)圖

3 分詞算法

圖3 雙向最大匹配算法流程圖

4 測(cè)試結(jié)果

表1 不同方法測(cè)試結(jié)果對(duì)比表

5 結(jié)論

參考文獻(xiàn)：

[1] 王中立.漢語自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào)，2006（3）：118-121.

[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程，2012（36）：9912-9918.

[3] 李偉，吳及，呂萍.基于前后向語言模型的語音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用，2010（10）：7-10.

[4] 魏莎莎，熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息，2010，26（10）：190-192.

電腦知識(shí)與技術(shù)2014年36期

電腦知識(shí)與技術(shù)的其它文章: 云計(jì)算安全管理手段研究; 核心網(wǎng)絡(luò)虛擬化的相關(guān)關(guān)鍵技術(shù)研究; 基于Mac OS X操作系統(tǒng)的數(shù)據(jù)備份問題研究; 使用聚類算法構(gòu)建學(xué)習(xí)模型; 網(wǎng)上書店訂單數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)分析; 嵌入式數(shù)據(jù)庫SQLite在采煤機(jī)監(jiān)控系統(tǒng)中的應(yīng)用

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于非句處理的旅游業(yè)語言查詢系統(tǒng)的研究與設(shè)計(jì)