謝文慧, 易榮慶, 彭 濤,3
(1. 吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長春 130012; 2. 國網(wǎng)吉林省電力有限公司, 長春 130022;3. 吉林大學(xué) 符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室, 長春 130012)
文本拼寫糾錯(cuò)在搜索引擎(如百度、 Google)、 在線查詢及Word拼寫校對(duì)等領(lǐng)域應(yīng)用廣泛. 拼寫糾錯(cuò)就是查找并糾正在文本輸入過程中出現(xiàn)的錯(cuò)誤. 英文文本錯(cuò)誤類型一般分為非詞錯(cuò)誤和真詞錯(cuò)誤兩類. 非詞錯(cuò)誤, 即文本中的單詞在詞典中并不存在, 單詞拼寫有誤, 這類錯(cuò)誤一般是由于打字輸入錯(cuò)誤, 或作者對(duì)所需字詞的正確拼寫不清楚所致, 非詞錯(cuò)誤的檢錯(cuò)、 糾錯(cuò)方法相對(duì)成熟. 真詞錯(cuò)誤, 即拼錯(cuò)字符串為有效單詞, 該單詞在詞典中存在, 但由該單詞所在的句子存在句法或語義錯(cuò)誤, 真詞錯(cuò)誤的檢查及校對(duì)要比非詞錯(cuò)誤的檢查及校對(duì)更困難.
網(wǎng)絡(luò)的發(fā)展使得資源輸入形式多樣化, 但鍵盤輸入仍是最主要的輸入方式. 而鍵盤輸入難免會(huì)遇到疏忽遺漏, 導(dǎo)致文本的拼寫錯(cuò)誤和內(nèi)容錯(cuò)誤. 這類錯(cuò)誤通常是結(jié)合單詞間的相似度及單詞間的編輯距離進(jìn)行糾正. Levenshtein[1]提出了4種編輯操作: 插入、 刪除、 置換和交換. 對(duì)真詞錯(cuò)誤的校正通常是根據(jù)上下文進(jìn)行拼寫校正, 通過待糾錯(cuò)單詞前后的單詞及其詞性檢錯(cuò)和糾錯(cuò). 句法分析(Parsing)[2]是對(duì)句子中的詞語語法功能進(jìn)行分析. 對(duì)文本處理需求的增加使得句法分析的作用更突出, 句法分析在自然語言處理中應(yīng)用廣泛, 如機(jī)器翻譯[3]、 信息抽取[4]、 問答系統(tǒng)[5]等. 因此, 句法分析的概念可以運(yùn)用到真詞糾錯(cuò)中, 利用待糾錯(cuò)單詞與其前后詞的搭配判斷該單詞是否使用正確, 若不正確, 則進(jìn)行糾錯(cuò). 依存分析[6]能彌補(bǔ)n-gram模型僅適用于局部糾錯(cuò)的缺陷, 可以分析遠(yuǎn)距離詞語之間的關(guān)系, 對(duì)文本全局糾錯(cuò)有較好的效果. 此外, 對(duì)于一個(gè)依存分析器, 無論輸入的句子語法結(jié)構(gòu)是否正確, 都會(huì)返回該句子對(duì)應(yīng)的依存關(guān)系列表.
目前, 已有許多針對(duì)不同語言的拼寫校正模型, 如匈牙利語[7]、 阿拉伯語[8]、 哈薩克語[9]、 希臘語[10]、 漢語[11]等. 本文研究英語文本的拼寫糾錯(cuò). Kukich[12]提出的拼寫糾錯(cuò)包括非詞錯(cuò)誤和真詞錯(cuò)誤. Levenshtein[1]提出了使用Levenshtein距離對(duì)候選單詞進(jìn)行評(píng)分, 即計(jì)算一個(gè)字符串進(jìn)行編輯操作得到候選單詞的操作次數(shù). Levenshtein算法對(duì)不同單詞進(jìn)行一次編輯操作得到的編輯距離為常數(shù), Lhoussain等[13]為克服這個(gè)限制, 對(duì)編輯距離進(jìn)行加權(quán), 提出了基于語言模型的加權(quán)拼寫糾正系統(tǒng), 用于阿拉伯語的拼寫糾錯(cuò)過程. Soleh等[14]使用反向詞典(forward reversed dictionary)和相似概率兩種替代方法進(jìn)行糾錯(cuò), 并將拼錯(cuò)字符串視為觀察狀態(tài), 候選詞視為隱藏狀態(tài), 通過使用隱Markov模型對(duì)候選詞進(jìn)行排序, 進(jìn)而進(jìn)行拼寫糾錯(cuò). 對(duì)于真詞錯(cuò)誤, Bergsma等[15]提出一個(gè)基于上下文的n-gram拼寫校正模型, 利用有監(jiān)督和無監(jiān)督方法, 對(duì)具有多個(gè)上下文語義信息的拼錯(cuò)字符串進(jìn)行拼寫校正任務(wù), 其中, 有監(jiān)督方法將消歧誤差減少了20%~24%. Lapata等[16]將詞匯消歧算法用于與上下文有關(guān)的真詞糾錯(cuò)過程, 例如“defect”和“detect”都是有效單詞, 均可以在詞典中找到, 該方法基于上下文詞匯和語法語義信息, 從候選詞集合中選擇最適合的單詞進(jìn)行拼寫糾錯(cuò). Samanta等[17]將候選詞及其相鄰單詞構(gòu)成三元組, 進(jìn)而得到二進(jìn)制推薦分?jǐn)?shù), 若單詞某一位置出現(xiàn)拼寫錯(cuò)誤, 則拼錯(cuò)的字符串通過在錯(cuò)誤字符的位置進(jìn)行一次編輯操作生成一組真實(shí)單詞, 最后使用基于規(guī)則的方法對(duì)候選詞排序得到拼寫糾錯(cuò)建議.
拼寫錯(cuò)誤是在搜索引擎查詢過程中的常見現(xiàn)象. Gao等[18]將用于標(biāo)準(zhǔn)書面文本的噪聲拼寫模型進(jìn)行擴(kuò)展, 增加了特征合并、 分布式訓(xùn)練和基于短語的糾錯(cuò)模型, 以解決搜索查詢中具有挑戰(zhàn)性的問題, 該方法中每個(gè)擴(kuò)展方法相對(duì)于基準(zhǔn)方法都有顯著改進(jìn). Duan等[19]對(duì)查詢完成時(shí)的在線拼寫校正問題進(jìn)行了研究, 訓(xùn)練一種以無監(jiān)督方式獲取用戶拼寫行為的模型, 結(jié)合多種啟發(fā)式算法擴(kuò)展搜索空間. Hasan等[20]提出了基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法來糾正電子商務(wù)領(lǐng)域的用戶搜索查詢錯(cuò)誤. Leacock等[21]提出的編輯輔助工具對(duì)于第二語言學(xué)習(xí)者非常有益, 不但在寫作方面有所改進(jìn), 且可通過有價(jià)值的反饋學(xué)習(xí)語言. Xu等[22]將依存分析用于具有網(wǎng)絡(luò)規(guī)模語料庫的n-gram模型中, 使數(shù)據(jù)稀疏性問題得到改善, 將語法、 語義特征引入n-gram糾錯(cuò)模型會(huì)使錯(cuò)誤的修正率較當(dāng)前最先進(jìn)水平提高了12.4%.
基于上述分析, 本文提出一種基于鍵盤距離和依存分析的拼寫糾錯(cuò)模型SpellKD, 從鍵盤輸入和句法分析上對(duì)英文文本進(jìn)行拼寫糾錯(cuò). 鍵盤按鍵距離較近以及輸入者的粗心, 經(jīng)常會(huì)導(dǎo)致輸入單詞字母的拼寫錯(cuò)誤, 鑒于此, 本文采用基于鍵盤按鍵距離的單詞拼寫糾錯(cuò)方法, 通過編輯操作構(gòu)造候選詞, 根據(jù)鍵盤距離和編輯距離得到候選集中每個(gè)候選詞的鄰近權(quán)值. 由于輸入者的英文水平存在差異, 輸入的單詞可能為不符合語法或語義的單詞, 因此, 本文將依存分析引入到拼寫糾錯(cuò)中, 結(jié)合上下文的詞匯, 從語義的角度對(duì)候選詞進(jìn)行排序, 通過拼錯(cuò)字符串與句中單詞間的依存關(guān)系, 將其與依存關(guān)系對(duì)庫中的依存關(guān)系對(duì)進(jìn)行匹配, 得到依存關(guān)系權(quán)值. 此外, 利用詞頻特征提高拼寫糾錯(cuò)的準(zhǔn)確率. 最后, 結(jié)合鄰近權(quán)值、 依存關(guān)系權(quán)值及詞頻對(duì)候選詞的推薦總分進(jìn)行排序, 給出拼寫建議.
非詞錯(cuò)誤是指拼寫錯(cuò)誤的字符串不是一個(gè)有效的單詞, 詞典中不包括該字符串. 將輸入的英文單詞與詞典中單詞進(jìn)行匹配, 若匹配, 則將其視為正確單詞; 若不匹配, 則將其視為拼寫錯(cuò)誤的字符串, 并對(duì)其進(jìn)行糾錯(cuò). 對(duì)于拼寫錯(cuò)誤的字符串, 使用替換、 插入、 刪除和交換4種操作[23]進(jìn)行候選集構(gòu)造, 若構(gòu)造的候選字符串在詞典中存在, 則留作候選詞; 若構(gòu)造的候選字符串在詞典中不存在, 則將其刪除. 在構(gòu)造候選集前, 本文根據(jù)如圖1所示的鍵盤布局, 定義鍵盤距離.
圖1 鍵盤布局Fig.1 Keyboard layout
定義1(鍵盤距離,KeyboardDis) 給定鍵盤上的兩個(gè)字母li和lj, 鍵盤距離的計(jì)算方法如下:
1) 若li與lj相鄰, 則KeyboardDis(li,lj)=1;
2) 若li與lj不相鄰, 則li和lj的鍵盤距離為它們之間的最短路徑值;
3) 若li與lj相同, 則KeyboardDis(li,lj)=0.5.
當(dāng)編輯距離為1時(shí), 候選集構(gòu)造方法如下:
1) 替換. 將拼錯(cuò)字符串每個(gè)位置的字母依次替換成其他25個(gè)字母構(gòu)成候選詞, 候選詞與拼錯(cuò)字符串的單詞距離為替換的兩個(gè)字母之間的鍵盤距離. 例如, 單詞“red”被拼錯(cuò)為字符串“rwd”, “red”和字符串“rwd”的單詞距離為字母“w”和字母“e”的鍵盤距離, 即為1.
2) 插入. 將拼錯(cuò)字符串不同位置依次插入26個(gè)字母構(gòu)成候選詞, 候選詞與拼錯(cuò)字符串之間的單詞距離為插入的字母與其相鄰兩個(gè)字母之間的最小鍵盤距離, 若插入字母僅有一個(gè)相鄰字母, 則插入字母與該相鄰字母之間的鍵盤距離為候選詞與拼錯(cuò)字符串之間的單詞距離. 例如, 單詞“alone”被拼錯(cuò)為字符串“alne”, “alone”與字符串“alne”的單詞距離為字母“o”與其相鄰的字母“l(fā)”和“n”的最小鍵盤距離, 字母“o”和“l(fā)”的鍵盤距離為1, 字母“o”和“n”的鍵盤距離為2, 所以候選詞“alone”與拼錯(cuò)字符串“alne”的單詞距離為1.
3) 刪除. 將拼錯(cuò)字符串每個(gè)位置的字母依次刪除構(gòu)成候選詞, 候選詞與拼錯(cuò)字符串之間的單詞距離為刪除的字母與其相鄰兩個(gè)字母之間的最小鍵盤距離, 若刪除字母僅有一個(gè)相鄰字母, 則刪除字母與該相鄰字母之間的鍵盤距離為候選詞與拼錯(cuò)字符串之間的單詞距離.
4) 交換. 將拼錯(cuò)字符串相鄰位置字母交換構(gòu)成候選詞, 候選詞與拼錯(cuò)字符串之間的單詞距離為交換的兩個(gè)字母之間的鍵盤距離.
(1)
(2)
依存分析文法[24]分析了句子結(jié)構(gòu), 從語法上描述了句子中詞與詞之間的依存關(guān)系, 這種關(guān)系有方向且不受距離限制. 主要包含acomp,advcl,amod,conj及appos等49種依存關(guān)系. 例如, 一個(gè)句子“Bills on ports and immigration were submitted by Senator Brownback, Republican of Kansas”的依存關(guān)系結(jié)構(gòu)如圖2所示. 圖2中兩兩單詞間對(duì)應(yīng)的依存關(guān)系對(duì)列于表1.
表1 圖2對(duì)應(yīng)的依存關(guān)系對(duì)
圖2 例句對(duì)應(yīng)的依存關(guān)系Fig.2 Dependency relationship of corresponding sentence
無論輸入的句子是否符合句法結(jié)構(gòu), 依存分析器都會(huì)給出句中單詞間的依存關(guān)系, 基于此, 本文構(gòu)建依存關(guān)系對(duì)庫, 對(duì)有依存關(guān)系的詞對(duì)進(jìn)行依存關(guān)系權(quán)值計(jì)算. 若w為拼錯(cuò)字符串, 則w構(gòu)成的候選集為CS={cw1,cw2,…,cwk,…,cwm}. 在一個(gè)句子中, 與候選詞具有依存關(guān)系的單詞集合為RW={rw1,rw2,…,rwi,…,rwp}, 其中p為與候選詞具有依存關(guān)系的單詞總數(shù), 它們之間相應(yīng)的依存關(guān)系序列為R={r1,r2,…,ri,…,rp}, 則與候選詞cwk具有依存關(guān)系ri的單詞rwi和候選詞cwk的依存關(guān)系概率dw的計(jì)算公式為
(3)
其中:N(cwk,rwi|ri)表示依存關(guān)系庫中候選詞cwk與單詞rwi具有依存關(guān)系ri的依存關(guān)系對(duì)數(shù)量;N(*,rwi|ri)表示依存關(guān)系庫中與單詞rwi具有關(guān)系ri的所有單詞數(shù)量. 依存關(guān)系庫是按照依存原則組織在一起的關(guān)系對(duì)集合. 由于語料庫的規(guī)模及其所包含的語言現(xiàn)象有限, 從而導(dǎo)致產(chǎn)生數(shù)據(jù)稀疏現(xiàn)象, 即在語料庫規(guī)模較小的條件下, 構(gòu)建的依存關(guān)系庫不夠完善, 大多數(shù)候選詞和與其具有依存關(guān)系的單詞對(duì)在依存關(guān)系庫中出現(xiàn)的次數(shù)很少, 甚至不出現(xiàn). 在實(shí)際應(yīng)用中, 由于數(shù)據(jù)稀疏性, 會(huì)出現(xiàn)大量依存關(guān)系對(duì)為空的現(xiàn)象, 進(jìn)而影響拼寫糾錯(cuò)性能和效果. 因此, 本文采用加一平滑方法[25]解決數(shù)據(jù)稀疏性問題. 應(yīng)用加一平滑方法得到的依存關(guān)系權(quán)值計(jì)算公式為
(4)
其中:V表示和單詞rwi具有依存關(guān)系ri的單詞集合; |V|表示集合中單詞的數(shù)量.
SpellKD模型考慮了鍵盤距離、 依存關(guān)系及詞頻進(jìn)行拼寫糾錯(cuò), 本文給出了鄰近權(quán)值與依存關(guān)系權(quán)值的計(jì)算過程. 結(jié)合以上三部分, 候選詞的推薦分?jǐn)?shù)score計(jì)算公式為
score=α×pw′+β×dw′+γ×fw,
(5)
其中:pw′為歸一化的鄰近權(quán)值;dw′表示平滑后的依存關(guān)系權(quán)值;fw為候選詞的詞頻權(quán)值;α,β和γ分別為鄰近權(quán)值、 依存關(guān)系權(quán)值和詞頻權(quán)值的加權(quán)因子, 且α+β+γ=1, 本文中γ=0.2. 候選詞的詞頻權(quán)值計(jì)算公式為
(6)
其中: count(cwk)表示詞典中單詞cwk的數(shù)量; max {count(w)}表示詞典中數(shù)量最多的單詞總數(shù). SpellKD模型的流程如圖3所示.
圖3 SpellKD模型的流程Fig.3 Flow chart of SpellKD model
下面使用SpellKD拼寫糾錯(cuò)模型, 在Brown語料庫、 Gutenberg語料庫和Inaugural語料庫上進(jìn)行測(cè)試及對(duì)比分析.
作為語言學(xué)類的一般文本收藏語料庫, Brown語料庫是一個(gè)百萬詞級(jí)的英文語料庫. Gutenberg語料庫主要包含古騰堡項(xiàng)目電子文本檔案的部分文本, 該項(xiàng)目目前約有36 000本免費(fèi)的電子圖書. Inaugural語料庫是55個(gè)文本的集合, 每個(gè)文本都是一個(gè)總統(tǒng)的演說稿. 表2列出了3個(gè)語料庫的規(guī)模以及對(duì)應(yīng)依存關(guān)系對(duì)的數(shù)量.
表2 語料庫規(guī)模及對(duì)應(yīng)依存關(guān)系對(duì)數(shù)量
本文在每個(gè)語料庫上隨機(jī)選擇100個(gè)句子作為測(cè)試集, 其余文本用于構(gòu)造依存關(guān)系對(duì)庫. 在每個(gè)句子中隨機(jī)選擇一個(gè)單詞, 并隨機(jī)生成編輯距離為1~5的字符串作為拼寫錯(cuò)誤的單詞.
對(duì)于鍵盤距離的計(jì)算, 共需要325對(duì)字母間的距離, 在實(shí)驗(yàn)中提前給出. 在依存分析處理過程中, 調(diào)用Stanford大學(xué)的JAVA語言工具包(https://stanfordnlp.github.io/CoreNLP/)對(duì)句子進(jìn)行依存分析處理. 分析得到的結(jié)果經(jīng)預(yù)處理后為三元組形式, 表示為(關(guān)系的名稱, 主導(dǎo)詞, 依賴詞), 如句子“Bill is big”中有依存關(guān)系對(duì)(cop,big,is).
輸入測(cè)試集文本對(duì)句子進(jìn)行處理. 將句子中每個(gè)單詞與詞典匹配, 為詞典中不存在的單詞構(gòu)造候選集, 計(jì)算候選集中每個(gè)候選詞的鄰近權(quán)值、 依存關(guān)系權(quán)值、 詞頻權(quán)值, 用式(5)計(jì)算推薦分?jǐn)?shù), 推薦分?jǐn)?shù)前三名的單詞作為修改建議. 計(jì)算前三個(gè)單詞中包含正確單詞的準(zhǔn)確率Precision、 召回率Recall和F-Measure值. 準(zhǔn)確率、 召回率和F-Measure值的計(jì)算公式如下:
其中:CC表示被認(rèn)為拼寫錯(cuò)誤并提出正確修改意見的單詞集合, 即識(shí)別正確、 且修改正確的單詞集合;CW表示被認(rèn)為拼寫錯(cuò)誤但提出了錯(cuò)誤修改意見的單詞集合, 即識(shí)別正確、 但修改錯(cuò)誤的單詞集合;RW表示原來正確、 但被修改錯(cuò)誤的單詞集合. 本文固定詞頻權(quán)值的加權(quán)因子為0.2, 鄰近權(quán)值的加權(quán)因子為α, 依存關(guān)系權(quán)值的加權(quán)因子為0.8-α. 為了驗(yàn)證SpellKD模型的拼寫糾錯(cuò)效果, 分別給出隨著α的變化, SpellKD模型在3個(gè)不同語料庫中對(duì)應(yīng)的Precision,Recall和F-Measure值的變化曲線, 結(jié)果如圖4所示.
圖4 隨著α的變化, SpellKD模型在3個(gè)語料庫中對(duì)應(yīng)的Precision,Recall和F-Measure值Fig.4 Corresponding Precision, Recall and F-Measure values of SpellKD model on three corpuses with change of α
F-Measure值為準(zhǔn)確率和召回率的調(diào)和平均值, 圖4(A)為在Inaugural語料庫上使用SpellKD模型對(duì)測(cè)試集進(jìn)行拼寫糾錯(cuò)得到的Precision,Recall和F-Measure值, 當(dāng)α=0.7時(shí),F-Measure值達(dá)到最大, 同時(shí)準(zhǔn)確率最高, 為100%. 由圖4(A)可見, 當(dāng)α=0.7時(shí), 給出對(duì)于錯(cuò)誤單詞的拼寫意見排序, 前三個(gè)拼寫意見中必包含正確的單詞; 圖4(B)為在Brown語料庫上使用SpellKD模型對(duì)測(cè)試集進(jìn)行拼寫糾錯(cuò)得到的Precision,Recall和F-Measure值, 當(dāng)α=0.6時(shí),F-Measure值達(dá)到最大, 同時(shí)準(zhǔn)確率最高; 圖4(C)為在Gutenberg語料庫上使用SpellKD模型對(duì)測(cè)試集進(jìn)行糾錯(cuò)得到的Precision,Recall和F-Measure值, 當(dāng)α=0.3時(shí),F-Measure值達(dá)到最大, 同時(shí)準(zhǔn)確率最高. 在3個(gè)語料庫中, 當(dāng)α=0時(shí), SpellKD模型采用依存分析和詞頻信息進(jìn)行糾錯(cuò); 當(dāng)α=0.8時(shí), 模型采用基于鍵盤距離和詞頻信息進(jìn)行糾錯(cuò), 這兩種情形對(duì)應(yīng)的拼寫糾錯(cuò)效果都不理想. 當(dāng)語料庫規(guī)模較小時(shí), 如Inaugural語料庫, 此時(shí)構(gòu)造的依存關(guān)系庫中關(guān)系對(duì)較少, 依存關(guān)系對(duì)于拼寫糾錯(cuò)模型的影響相對(duì)較小, 鄰近權(quán)值的加權(quán)因子較大, 可得到較好的糾錯(cuò)效果. 當(dāng)語料庫規(guī)模較大時(shí), 構(gòu)造的依存關(guān)系庫中關(guān)系對(duì)較多, 此時(shí), 結(jié)合鍵盤距離和依存分析可獲得較好的糾錯(cuò)效果.
下面將SpellKD模型與Word糾錯(cuò)方法進(jìn)行對(duì)比實(shí)驗(yàn), 將SpellKD模型和Word糾錯(cuò)方法分別在3個(gè)語料庫中進(jìn)行測(cè)試. 模型對(duì)應(yīng)的準(zhǔn)確率分別列于表3和表4. 當(dāng)?shù)谝粋€(gè)候選詞為正確單詞時(shí), SpellKD模型和Word糾錯(cuò)方法對(duì)應(yīng)的準(zhǔn)確率列于表3; 當(dāng)前三個(gè)候選詞中包含正確單詞時(shí), SpellKD模型和Word糾錯(cuò)方法對(duì)應(yīng)的準(zhǔn)確率列于表4. 由表3可見, 當(dāng)α選取合適值時(shí), SpellKD模型的準(zhǔn)確率明顯高于Word糾錯(cuò)對(duì)應(yīng)的準(zhǔn)確率, 準(zhǔn)確率約提高14%; 由表4可見, SpellKD模型結(jié)合鍵盤距離和依存分析可顯著提高拼寫糾錯(cuò)的準(zhǔn)確率.
表3 當(dāng)?shù)谝粋€(gè)候選詞為正確單詞時(shí), SpellKD模型和Word糾錯(cuò)方法的準(zhǔn)確率
下面給出一個(gè)利用SpellKD模型進(jìn)行拼寫糾錯(cuò)的案例分析. 例如: 句子“They would still be paic by the patient”中, 單詞“paid”被錯(cuò)拼為字符串“paic”, SpellKD模型的運(yùn)行結(jié)果列于表5. 由表5可見, 推薦分?jǐn)?shù)最高的候選詞為paid, 為正確的修改意見.
表4 當(dāng)前三個(gè)候選詞為正確單詞時(shí), SpellKD模型和Word糾錯(cuò)方法的準(zhǔn)確率
表5 句子“They would still be paic by the patient”運(yùn)行結(jié)果
綜上可見, 本文提出的拼寫糾錯(cuò)模型SpellKD, 主要考慮了鍵盤結(jié)構(gòu)和單詞間的語義關(guān)系. 根據(jù)鍵盤距離進(jìn)行拼寫糾錯(cuò)可發(fā)現(xiàn)很多在輸入過程由于失誤而產(chǎn)生的拼寫錯(cuò)誤. 通過依存分析構(gòu)建語料庫中的依存關(guān)系對(duì), 能識(shí)別單詞間的語義關(guān)系, 進(jìn)行拼寫糾錯(cuò). 將依存分析應(yīng)用到拼寫糾錯(cuò)中是一個(gè)新的嘗試, 可從語義關(guān)系的角度發(fā)現(xiàn)并糾正產(chǎn)生的錯(cuò)誤. 實(shí)驗(yàn)結(jié)果表明, SpellKD模型通過結(jié)合鍵盤距離和依存分析可有效進(jìn)行拼寫糾錯(cuò).