摘要:隨著旅游行業(yè)的迅猛發(fā)展,從早期的紙質(zhì)資料查詢逐步向語言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便,文章主要介紹了語音識(shí)別系統(tǒng)的原理、語音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。
關(guān)鍵詞:語音識(shí)別系統(tǒng);非句;分詞算法
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8754-02
隨著旅游業(yè)的快速發(fā)展,地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求,人們對(duì)基于語音識(shí)別理論的“所說即所得”的語音電子查詢系統(tǒng)的需要越來越強(qiáng)烈。但已有的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。
非句指的是在語音識(shí)別結(jié)果里識(shí)別出來的文本無法構(gòu)成完整語句,摻雜了識(shí)別錯(cuò)誤導(dǎo)致語法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié),導(dǎo)致人或機(jī)器無法用正常的自然語言知識(shí)形成正確的理解。因此,只有找到好的非句分析知識(shí)和方法,才能更有效的傳遞這些錯(cuò)誤或者脫節(jié),消除其對(duì)于人機(jī)交互的阻力。
2 語音識(shí)別系統(tǒng)
語言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),包括語音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語音識(shí)別系統(tǒng)的原理圖見圖1:
圖1 語音識(shí)別系統(tǒng)原理圖
本文的目標(biāo)是對(duì)語音識(shí)別后的文本,采用自然語言理解的方法從語法、語義和語用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析,選擇適合的分詞算法,盡量減少非句的出現(xiàn),提高輸出結(jié)果的正確率。語音識(shí)別后處理系統(tǒng)圖見圖2:
圖2 語音識(shí)別后處理系統(tǒng)圖
3 分詞算法
語言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語文本中有許多切分歧義字段。歧義字段是指在分詞過程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如,“供應(yīng)商品”該語句可以切分為“火車\站”或“火\車站”兩種,字段“火車站”為交集型歧義型字段。而語句“景區(qū)區(qū)間車”可以切分為“景區(qū)\區(qū)間\車”和“景區(qū)\區(qū)間車”兩種,字段“區(qū)間車”為組合型歧義字段。
常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的,那么分詞結(jié)果無歧義,是正確的;如果得到的結(jié)果不一樣,說明存在歧義,將產(chǎn)生非句,并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同,如果詞條數(shù)目不同,依據(jù)長(zhǎng)詞優(yōu)先的原則,選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果;如果詞條數(shù)目不同,則采用計(jì)算語義關(guān)聯(lián)強(qiáng)度的方法,得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3:
圖3 雙向最大匹配算法流程圖
4 測(cè)試結(jié)果
將旅游業(yè)語言查詢系統(tǒng)按照語句含義分成住宿、就餐、景點(diǎn)、問路、加油站、停車場(chǎng)6類。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語句進(jìn)行錄音,生成語言識(shí)別后文本,采用不同方法測(cè)試,測(cè)試結(jié)果如表1。
表1 不同方法測(cè)試結(jié)果對(duì)比表
[不同測(cè)試方法\&準(zhǔn)確率\&基于正向最大匹配算法的結(jié)果\&92.31%\&基于逆向最大匹配算法的結(jié)果\&94.42%\&歧義處理后的結(jié)果\&96.43%\&]
5 結(jié)論
隨著旅游行業(yè)語音查詢系統(tǒng)的普及,人們對(duì)這種“所說即所得”的要求越來越高,利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn),提高了輸出準(zhǔn)確性。
參考文獻(xiàn):
[1] 王中立.漢語自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào),2006(3):118-121.
[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程,2012(36):9912-9918.
[3] 李偉,吳及,呂萍.基于前后向語言模型的語音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010(10):7-10.
[4] 魏莎莎,熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息,2010,26(10):190-192.
摘要:隨著旅游行業(yè)的迅猛發(fā)展,從早期的紙質(zhì)資料查詢逐步向語言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便,文章主要介紹了語音識(shí)別系統(tǒng)的原理、語音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。
關(guān)鍵詞:語音識(shí)別系統(tǒng);非句;分詞算法
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8754-02
隨著旅游業(yè)的快速發(fā)展,地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求,人們對(duì)基于語音識(shí)別理論的“所說即所得”的語音電子查詢系統(tǒng)的需要越來越強(qiáng)烈。但已有的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。
非句指的是在語音識(shí)別結(jié)果里識(shí)別出來的文本無法構(gòu)成完整語句,摻雜了識(shí)別錯(cuò)誤導(dǎo)致語法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié),導(dǎo)致人或機(jī)器無法用正常的自然語言知識(shí)形成正確的理解。因此,只有找到好的非句分析知識(shí)和方法,才能更有效的傳遞這些錯(cuò)誤或者脫節(jié),消除其對(duì)于人機(jī)交互的阻力。
2 語音識(shí)別系統(tǒng)
語言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),包括語音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語音識(shí)別系統(tǒng)的原理圖見圖1:
圖1 語音識(shí)別系統(tǒng)原理圖
本文的目標(biāo)是對(duì)語音識(shí)別后的文本,采用自然語言理解的方法從語法、語義和語用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析,選擇適合的分詞算法,盡量減少非句的出現(xiàn),提高輸出結(jié)果的正確率。語音識(shí)別后處理系統(tǒng)圖見圖2:
圖2 語音識(shí)別后處理系統(tǒng)圖
3 分詞算法
語言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語文本中有許多切分歧義字段。歧義字段是指在分詞過程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如,“供應(yīng)商品”該語句可以切分為“火車\站”或“火\車站”兩種,字段“火車站”為交集型歧義型字段。而語句“景區(qū)區(qū)間車”可以切分為“景區(qū)\區(qū)間\車”和“景區(qū)\區(qū)間車”兩種,字段“區(qū)間車”為組合型歧義字段。
常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的,那么分詞結(jié)果無歧義,是正確的;如果得到的結(jié)果不一樣,說明存在歧義,將產(chǎn)生非句,并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同,如果詞條數(shù)目不同,依據(jù)長(zhǎng)詞優(yōu)先的原則,選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果;如果詞條數(shù)目不同,則采用計(jì)算語義關(guān)聯(lián)強(qiáng)度的方法,得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3:
圖3 雙向最大匹配算法流程圖
4 測(cè)試結(jié)果
將旅游業(yè)語言查詢系統(tǒng)按照語句含義分成住宿、就餐、景點(diǎn)、問路、加油站、停車場(chǎng)6類。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語句進(jìn)行錄音,生成語言識(shí)別后文本,采用不同方法測(cè)試,測(cè)試結(jié)果如表1。
表1 不同方法測(cè)試結(jié)果對(duì)比表
[不同測(cè)試方法\&準(zhǔn)確率\&基于正向最大匹配算法的結(jié)果\&92.31%\&基于逆向最大匹配算法的結(jié)果\&94.42%\&歧義處理后的結(jié)果\&96.43%\&]
5 結(jié)論
隨著旅游行業(yè)語音查詢系統(tǒng)的普及,人們對(duì)這種“所說即所得”的要求越來越高,利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn),提高了輸出準(zhǔn)確性。
參考文獻(xiàn):
[1] 王中立.漢語自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào),2006(3):118-121.
[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程,2012(36):9912-9918.
[3] 李偉,吳及,呂萍.基于前后向語言模型的語音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010(10):7-10.
[4] 魏莎莎,熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息,2010,26(10):190-192.
摘要:隨著旅游行業(yè)的迅猛發(fā)展,從早期的紙質(zhì)資料查詢逐步向語言電子查詢系統(tǒng)發(fā)展。針對(duì)目前常用的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句——給人們?cè)谑褂脮r(shí)造成的不便,文章主要介紹了語音識(shí)別系統(tǒng)的原理、語音識(shí)別后處理系統(tǒng)以及針對(duì)非句中歧義的處理方法——分詞算法。
關(guān)鍵詞:語音識(shí)別系統(tǒng);非句;分詞算法
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8754-02
隨著旅游業(yè)的快速發(fā)展,地圖等紙質(zhì)資料已經(jīng)不能滿足人們快速、全面的獲取信息的需求,人們對(duì)基于語音識(shí)別理論的“所說即所得”的語音電子查詢系統(tǒng)的需要越來越強(qiáng)烈。但已有的語音查詢系統(tǒng)中經(jīng)常存在不準(zhǔn)確性——非句。
非句指的是在語音識(shí)別結(jié)果里識(shí)別出來的文本無法構(gòu)成完整語句,摻雜了識(shí)別錯(cuò)誤導(dǎo)致語法不正確、不完整的或者錯(cuò)誤的句子。非句存在某些錯(cuò)誤或者脫節(jié),導(dǎo)致人或機(jī)器無法用正常的自然語言知識(shí)形成正確的理解。因此,只有找到好的非句分析知識(shí)和方法,才能更有效的傳遞這些錯(cuò)誤或者脫節(jié),消除其對(duì)于人機(jī)交互的阻力。
2 語音識(shí)別系統(tǒng)
語言識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),包括語音特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三種主要技術(shù)。傳統(tǒng)的語音識(shí)別系統(tǒng)的原理圖見圖1:
圖1 語音識(shí)別系統(tǒng)原理圖
本文的目標(biāo)是對(duì)語音識(shí)別后的文本,采用自然語言理解的方法從語法、語義和語用三個(gè)方面對(duì)識(shí)別的內(nèi)容進(jìn)行正確分析,選擇適合的分詞算法,盡量減少非句的出現(xiàn),提高輸出結(jié)果的正確率。語音識(shí)別后處理系統(tǒng)圖見圖2:
圖2 語音識(shí)別后處理系統(tǒng)圖
3 分詞算法
語言查詢系統(tǒng)中產(chǎn)生非句的一個(gè)重要原因是漢語文本中有許多切分歧義字段。歧義字段是指在分詞過程中采用不同的切分規(guī)則后產(chǎn)生多種切分結(jié)果后產(chǎn)生歧義。常見的歧義從構(gòu)成形式上可以分為交集型歧義和組合型歧義兩種。例如,“供應(yīng)商品”該語句可以切分為“火車\站”或“火\車站”兩種,字段“火車站”為交集型歧義型字段。而語句“景區(qū)區(qū)間車”可以切分為“景區(qū)\區(qū)間\車”和“景區(qū)\區(qū)間車”兩種,字段“區(qū)間車”為組合型歧義字段。
常用的切分方法有正向最大匹配算法(FMM)、逆向最大匹配算法(RMM)和全切分法三種。該文采用的是雙向最大匹配算法。即分別對(duì)所需要切分的語句進(jìn)行正向和逆向最大匹配后將兩種結(jié)果進(jìn)行比較。如果兩種方法得到的結(jié)果是一樣的,那么分詞結(jié)果無歧義,是正確的;如果得到的結(jié)果不一樣,說明存在歧義,將產(chǎn)生非句,并需要處理歧義。判斷兩種結(jié)果詞條數(shù)目是否相同,如果詞條數(shù)目不同,依據(jù)長(zhǎng)詞優(yōu)先的原則,選擇詞條數(shù)目少的分詞結(jié)果作為分詞結(jié)果;如果詞條數(shù)目不同,則采用計(jì)算語義關(guān)聯(lián)強(qiáng)度的方法,得到最準(zhǔn)確的分詞結(jié)果。流程圖如圖3:
圖3 雙向最大匹配算法流程圖
4 測(cè)試結(jié)果
將旅游業(yè)語言查詢系統(tǒng)按照語句含義分成住宿、就餐、景點(diǎn)、問路、加油站、停車場(chǎng)6類。利用錄音軟件選擇多人按照上述6個(gè)方面各選200個(gè)語句進(jìn)行錄音,生成語言識(shí)別后文本,采用不同方法測(cè)試,測(cè)試結(jié)果如表1。
表1 不同方法測(cè)試結(jié)果對(duì)比表
[不同測(cè)試方法\&準(zhǔn)確率\&基于正向最大匹配算法的結(jié)果\&92.31%\&基于逆向最大匹配算法的結(jié)果\&94.42%\&歧義處理后的結(jié)果\&96.43%\&]
5 結(jié)論
隨著旅游行業(yè)語音查詢系統(tǒng)的普及,人們對(duì)這種“所說即所得”的要求越來越高,利用雙向最大匹配算法的分詞方法大大減少了非句的出現(xiàn),提高了輸出準(zhǔn)確性。
參考文獻(xiàn):
[1] 王中立.漢語自動(dòng)分詞中切分歧義及處理技術(shù)[J].許昌學(xué)院學(xué)報(bào),2006(3):118-121.
[2] 李翠霞.現(xiàn)代計(jì)算機(jī)智能識(shí)別技術(shù)處理自然語言研究的應(yīng)用與進(jìn)展[J].科學(xué)技術(shù)與工程,2012(36):9912-9918.
[3] 李偉,吳及,呂萍.基于前后向語言模型的語音識(shí)別詞圖生產(chǎn)算法[J].計(jì)算機(jī)應(yīng)用,2010(10):7-10.
[4] 魏莎莎,熊海靈.中文分詞中的歧義識(shí)別處理策略[J].微計(jì)算機(jī)信息,2010,26(10):190-192.