国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于非句處理的旅游業(yè)語言查詢系統(tǒng)的研究與設(shè)計(jì)

2015-01-20 11:44:23馬婷婷
電腦知識(shí)與技術(shù) 2014年36期

摘要:隨著旅游行業(yè)的迅猛發(fā)展,從早期的紙質(zhì)資料查詢逐步向語言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便,文章主要介紹了語音識(shí)別系統(tǒng)的原理、語音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。

關(guān)鍵詞:語音識(shí)別系統(tǒng);非句;分詞算法

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8754-02

隨著旅游業(yè)的快速發(fā)展,地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求,人們對(duì)基于語音識(shí)別理論的“所說即所得”的語音電子查詢系統(tǒng)的需要越來越強(qiáng)烈。但已有的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。

非句指的是在語音識(shí)別結(jié)果里識(shí)別出來的文本無法構(gòu)成完整語句,摻雜了識(shí)別錯(cuò)誤導(dǎo)致語法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié),導(dǎo)致人或機(jī)器無法用正常的自然語言知識(shí)形成正確的理解。因此,只有找到好的非句分析知識(shí)和方法,才能更有效的傳遞這些錯(cuò)誤或者脫節(jié),消除其對(duì)于人機(jī)交互的阻力。

2 語音識(shí)別系統(tǒng)

語言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),包括語音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語音識(shí)別系統(tǒng)的原理圖見圖1:

圖1 語音識(shí)別系統(tǒng)原理圖

本文的目標(biāo)是對(duì)語音識(shí)別后的文本,采用自然語言理解的方法從語法、語義和語用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析,選擇適合的分詞算法,盡量減少非句的出現(xiàn),提高輸出結(jié)果的正確率。語音識(shí)別后處理系統(tǒng)圖見圖2:

圖2 語音識(shí)別后處理系統(tǒng)圖

3 分詞算法

語言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語文本中有許多切分歧義字段。歧義字段是指在分詞過程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如,“供應(yīng)商品”該語句可以切分為“火車\站”或“火\車站”兩種,字段“火車站”為交集型歧義型字段。而語句“景區(qū)區(qū)間車”可以切分為“景區(qū)\區(qū)間\車”和“景區(qū)\區(qū)間車”兩種,字段“區(qū)間車”為組合型歧義字段。

常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的,那么分詞結(jié)果無歧義,是正確的;如果得到的結(jié)果不一樣,說明存在歧義,將產(chǎn)生非句,并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同,如果詞條數(shù)目不同,依據(jù)長(zhǎng)詞優(yōu)先的原則,選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果;如果詞條數(shù)目不同,則采用計(jì)算語義關(guān)聯(lián)強(qiáng)度的方法,得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3:

圖3 雙向最大匹配算法流程圖

4 測(cè)試結(jié)果

將旅游業(yè)語言查詢系統(tǒng)按照語句含義分成住宿、就餐、景點(diǎn)、問路、加油站、停車場(chǎng)6類。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語句進(jìn)行錄音,生成語言識(shí)別后文本,采用不同方法測(cè)試,測(cè)試結(jié)果如表1。

表1 不同方法測(cè)試結(jié)果對(duì)比表

[不同測(cè)試方法\&準(zhǔn)確率\&基于正向最大匹配算法的結(jié)果\&92.31%\&基于逆向最大匹配算法的結(jié)果\&94.42%\&歧義處理后的結(jié)果\&96.43%\&]

5 結(jié)論

隨著旅游行業(yè)語音查詢系統(tǒng)的普及,人們對(duì)這種“所說即所得”的要求越來越高,利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn),提高了輸出準(zhǔn)確性。

參考文獻(xiàn):

[1] 王中立.漢語自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào),2006(3):118-121.

[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程,2012(36):9912-9918.

[3] 李偉,吳及,呂萍.基于前后向語言模型的語音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010(10):7-10.

[4] 魏莎莎,熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息,2010,26(10):190-192.

摘要:隨著旅游行業(yè)的迅猛發(fā)展,從早期的紙質(zhì)資料查詢逐步向語言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便,文章主要介紹了語音識(shí)別系統(tǒng)的原理、語音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。

關(guān)鍵詞:語音識(shí)別系統(tǒng);非句;分詞算法

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8754-02

隨著旅游業(yè)的快速發(fā)展,地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求,人們對(duì)基于語音識(shí)別理論的“所說即所得”的語音電子查詢系統(tǒng)的需要越來越強(qiáng)烈。但已有的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。

非句指的是在語音識(shí)別結(jié)果里識(shí)別出來的文本無法構(gòu)成完整語句,摻雜了識(shí)別錯(cuò)誤導(dǎo)致語法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié),導(dǎo)致人或機(jī)器無法用正常的自然語言知識(shí)形成正確的理解。因此,只有找到好的非句分析知識(shí)和方法,才能更有效的傳遞這些錯(cuò)誤或者脫節(jié),消除其對(duì)于人機(jī)交互的阻力。

2 語音識(shí)別系統(tǒng)

語言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),包括語音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語音識(shí)別系統(tǒng)的原理圖見圖1:

圖1 語音識(shí)別系統(tǒng)原理圖

本文的目標(biāo)是對(duì)語音識(shí)別后的文本,采用自然語言理解的方法從語法、語義和語用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析,選擇適合的分詞算法,盡量減少非句的出現(xiàn),提高輸出結(jié)果的正確率。語音識(shí)別后處理系統(tǒng)圖見圖2:

圖2 語音識(shí)別后處理系統(tǒng)圖

3 分詞算法

語言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語文本中有許多切分歧義字段。歧義字段是指在分詞過程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如,“供應(yīng)商品”該語句可以切分為“火車\站”或“火\車站”兩種,字段“火車站”為交集型歧義型字段。而語句“景區(qū)區(qū)間車”可以切分為“景區(qū)\區(qū)間\車”和“景區(qū)\區(qū)間車”兩種,字段“區(qū)間車”為組合型歧義字段。

常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的,那么分詞結(jié)果無歧義,是正確的;如果得到的結(jié)果不一樣,說明存在歧義,將產(chǎn)生非句,并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同,如果詞條數(shù)目不同,依據(jù)長(zhǎng)詞優(yōu)先的原則,選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果;如果詞條數(shù)目不同,則采用計(jì)算語義關(guān)聯(lián)強(qiáng)度的方法,得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3:

圖3 雙向最大匹配算法流程圖

4 測(cè)試結(jié)果

將旅游業(yè)語言查詢系統(tǒng)按照語句含義分成住宿、就餐、景點(diǎn)、問路、加油站、停車場(chǎng)6類。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語句進(jìn)行錄音,生成語言識(shí)別后文本,采用不同方法測(cè)試,測(cè)試結(jié)果如表1。

表1 不同方法測(cè)試結(jié)果對(duì)比表

[不同測(cè)試方法\&準(zhǔn)確率\&基于正向最大匹配算法的結(jié)果\&92.31%\&基于逆向最大匹配算法的結(jié)果\&94.42%\&歧義處理后的結(jié)果\&96.43%\&]

5 結(jié)論

隨著旅游行業(yè)語音查詢系統(tǒng)的普及,人們對(duì)這種“所說即所得”的要求越來越高,利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn),提高了輸出準(zhǔn)確性。

參考文獻(xiàn):

[1] 王中立.漢語自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào),2006(3):118-121.

[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程,2012(36):9912-9918.

[3] 李偉,吳及,呂萍.基于前后向語言模型的語音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010(10):7-10.

[4] 魏莎莎,熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息,2010,26(10):190-192.

摘要:隨著旅游行業(yè)的迅猛發(fā)展,從早期的紙質(zhì)資料查詢逐步向語言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便,文章主要介紹了語音識(shí)別系統(tǒng)的原理、語音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。

關(guān)鍵詞:語音識(shí)別系統(tǒng);非句;分詞算法

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8754-02

隨著旅游業(yè)的快速發(fā)展,地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求,人們對(duì)基于語音識(shí)別理論的“所說即所得”的語音電子查詢系統(tǒng)的需要越來越強(qiáng)烈。但已有的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。

非句指的是在語音識(shí)別結(jié)果里識(shí)別出來的文本無法構(gòu)成完整語句,摻雜了識(shí)別錯(cuò)誤導(dǎo)致語法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié),導(dǎo)致人或機(jī)器無法用正常的自然語言知識(shí)形成正確的理解。因此,只有找到好的非句分析知識(shí)和方法,才能更有效的傳遞這些錯(cuò)誤或者脫節(jié),消除其對(duì)于人機(jī)交互的阻力。

2 語音識(shí)別系統(tǒng)

語言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),包括語音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語音識(shí)別系統(tǒng)的原理圖見圖1:

圖1 語音識(shí)別系統(tǒng)原理圖

本文的目標(biāo)是對(duì)語音識(shí)別后的文本,采用自然語言理解的方法從語法、語義和語用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析,選擇適合的分詞算法,盡量減少非句的出現(xiàn),提高輸出結(jié)果的正確率。語音識(shí)別后處理系統(tǒng)圖見圖2:

圖2 語音識(shí)別后處理系統(tǒng)圖

3 分詞算法

語言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語文本中有許多切分歧義字段。歧義字段是指在分詞過程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如,“供應(yīng)商品”該語句可以切分為“火車\站”或“火\車站”兩種,字段“火車站”為交集型歧義型字段。而語句“景區(qū)區(qū)間車”可以切分為“景區(qū)\區(qū)間\車”和“景區(qū)\區(qū)間車”兩種,字段“區(qū)間車”為組合型歧義字段。

常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的,那么分詞結(jié)果無歧義,是正確的;如果得到的結(jié)果不一樣,說明存在歧義,將產(chǎn)生非句,并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同,如果詞條數(shù)目不同,依據(jù)長(zhǎng)詞優(yōu)先的原則,選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果;如果詞條數(shù)目不同,則采用計(jì)算語義關(guān)聯(lián)強(qiáng)度的方法,得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3:

圖3 雙向最大匹配算法流程圖

4 測(cè)試結(jié)果

將旅游業(yè)語言查詢系統(tǒng)按照語句含義分成住宿、就餐、景點(diǎn)、問路、加油站、停車場(chǎng)6類。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語句進(jìn)行錄音,生成語言識(shí)別后文本,采用不同方法測(cè)試,測(cè)試結(jié)果如表1。

表1 不同方法測(cè)試結(jié)果對(duì)比表

[不同測(cè)試方法\&準(zhǔn)確率\&基于正向最大匹配算法的結(jié)果\&92.31%\&基于逆向最大匹配算法的結(jié)果\&94.42%\&歧義處理后的結(jié)果\&96.43%\&]

5 結(jié)論

隨著旅游行業(yè)語音查詢系統(tǒng)的普及,人們對(duì)這種“所說即所得”的要求越來越高,利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn),提高了輸出準(zhǔn)確性。

參考文獻(xiàn):

[1] 王中立.漢語自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào),2006(3):118-121.

[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程,2012(36):9912-9918.

[3] 李偉,吳及,呂萍.基于前后向語言模型的語音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010(10):7-10.

[4] 魏莎莎,熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息,2010,26(10):190-192.

靖安县| 威远县| 翼城县| 安化县| 龙山县| 临安市| 双城市| 称多县| 民县| 娱乐| 永善县| 高邮市| 泾阳县| 阜宁县| 河南省| 北海市| 法库县| 黄冈市| 塘沽区| 涡阳县| 满洲里市| 塔河县| 宣城市| 青冈县| 营口市| 天台县| 南和县| 天镇县| 沙雅县| 芦山县| 新建县| 昆明市| 乌拉特前旗| 肇州县| 灵川县| 沁阳市| 锡林浩特市| 祥云县| 科尔| 宜兰县| 甘孜|