鐘聲 黎苗苗
摘 要:隨著我們社會信息的日趨復(fù)雜,人們在制作個人信息時難免出現(xiàn)一些拼寫格式上的錯誤。這些錯誤雖小,但常常給人們帶來不必要的損失。隨著科學(xué)技術(shù)的發(fā)展和統(tǒng)計學(xué)習(xí)方法的有效應(yīng)用,近年來,自然語言處理技術(shù)已經(jīng)成為語義搜索以及人工智能的重要研究方向。自然語言處理的重難點是對英文文本中單詞與語法的錯誤進行檢測與糾正。本論文基于kettle這個最新軟件,通過將數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過程,對數(shù)據(jù)進行統(tǒng)一的格式處理。
關(guān)鍵詞:數(shù)據(jù)庫;JAVA;kettle
一、系統(tǒng)背景
近些年隨著科學(xué)技術(shù)的日益發(fā)展,新的技術(shù)更新?lián)Q代,眾多領(lǐng)域如語音識別、OCR識別都對拼寫錯誤展開了迫切的研究。令人欣慰的是已經(jīng)有部分成果轉(zhuǎn)換成了商品。在全球范圍內(nèi),我們能看到Expert Ease公司推出的Deal Proof產(chǎn)品。這款產(chǎn)品嵌入了英文拼寫檢查功能。與此同時,Newton公司推出的Proofread產(chǎn)品也同樣具有英文單詞拼寫檢查系統(tǒng)。
本文首先介紹英文拼寫檢查中的錯誤類型以及檢錯糾錯方法,并利用一種方法及其改進算法實現(xiàn)一簡單的英文拼寫檢查系統(tǒng)。
二、系統(tǒng)目標(biāo)
三、應(yīng)用技術(shù)介紹
(1)java技術(shù)。Java語言以它獨特的魅力贏得了世界上大部分程序員的認(rèn)可,他良好的跨平臺性,可移植性,安全性等優(yōu)點使之風(fēng)靡全球。SUN公司(2009年4月并入甲骨文公司)最初開發(fā)Java語言是為了解決智能家用電器的控制和通信問題。隨著Internet的發(fā)展,Sun公司逐步將Java語言改造成適合計算機網(wǎng)絡(luò)應(yīng)用的程序設(shè)計語言。目前Java語言已經(jīng)成為網(wǎng)絡(luò)程序設(shè)計的主流編程語言之一,在全球云計算和移動互聯(lián)網(wǎng)的產(chǎn)業(yè)環(huán)境下,Java更具備了顯著的優(yōu)勢和廣闊的發(fā)展前景。
(2)Kettle技術(shù)。Kettle這個單詞翻譯成中文名字為茶壺的意思,是BI為解決pentaho項目設(shè)計的一個子項目,作為一項專業(yè)的ETL工具,目前的易用性不是特別好,但是相對于其他的ETL工具,Kettle工具除了開源免費以外,它的功能性,穩(wěn)定性還是很不錯的。此外,由于整個pentaho平臺都是使用java語言進行開發(fā),所以Kettle本身就具備了跨平臺性的特點,編輯出來的成果也能在各個操作系統(tǒng)上正常運行,這是Kettle軟件最大的優(yōu)點。同時,ETL工具采用JDBC標(biāo)準(zhǔn),對數(shù)據(jù)庫的兼容性要比ODBC、OLE/DB工具要好得多。Kettle工具由四個部分:Chef,Spoon,Kitchen,Pan組成。這四個部分聽起來名字有點奇怪,更像是一些廚房用具,那么組成Kettle工具的四個部分分別是什么東西呢,官方文檔給出了這樣的解釋:
kettle是一個ETL工具,名字是“Kettle E.T.T.L. Environment”的首字母組成的縮寫,chef是用來設(shè)計job的一個圖形用戶界面,設(shè)計出來的job是用放到ketchen里面執(zhí)行的,spoon是來設(shè)計transformation的GUI,然后transformation是放到pan里面執(zhí)行的,kitchen和pan說白了就是執(zhí)行我們編出來的ETL包的工具,因為kettle是跨平臺的嘛,所以把執(zhí)行環(huán)境獨立出來,我是這樣理解的。
上面提到了transformation和job這兩樣?xùn)|西,在Kettle中的一個ETL包其實就是一個job,而一個job則由一個或者多個transformation組合而成。在transformation中則包含了數(shù)據(jù)的輸入輸出、轉(zhuǎn)換、連接、聚合等各種判斷處理綜合在一起。而我們實現(xiàn)FTP/HTTP傳輸、外部程序調(diào)用和執(zhí)行Ttransformation等都是我們的job的組件。
(3)SQL數(shù)據(jù)庫。簡單的來說數(shù)據(jù)庫就是指數(shù)據(jù)倉庫的意思,即一個存放數(shù)據(jù)的地方。我們周圍有很多東西都是有數(shù)據(jù)庫的蹤跡。例如我們手機的通訊錄就是一個小的數(shù)據(jù)庫,而我們的圖書館則更像一個大型數(shù)據(jù)庫。較小的數(shù)據(jù)庫可以用手工實現(xiàn)增刪改查的應(yīng)用,但是大型數(shù)據(jù)庫的管理必須依托計算機的高精準(zhǔn)計算。目前計算機主要應(yīng)用的三大領(lǐng)域:數(shù)據(jù)處理、科學(xué)計算、過程控制中,數(shù)據(jù)處理所占的比重達到了70%。數(shù)據(jù)庫技術(shù)也在20世紀(jì)60年代作為最新技術(shù)應(yīng)運而生。
(4)項目管理工具。Microsoft Project 2003 里面所有的項目信息都是集中有序的管理的,進而為所有的項目提供一個精準(zhǔn)的描繪。Microsoft Project 2003可以分別支持企業(yè)級別和項目組級別的項目管理,常用的包括資源管理、任務(wù)調(diào)度、跟蹤、報表、小組協(xié)議等, 同時強有力的標(biāo)準(zhǔn)化數(shù)據(jù)定義。
四、系統(tǒng)分析
(1)用戶特點.用戶一般為有部分計算機使用經(jīng)驗的管理員,對計算機有一定使用技能,熟悉計算機操作。
(2)假定和:約束。假定數(shù)據(jù)庫容量夠大,所有的數(shù)據(jù)中拼寫問題都能得到糾正。
(3)環(huán)境支持:
①運行環(huán)境支持:瀏覽器,計算機(CPU PII以上,內(nèi)存1G上)。
②軟件環(huán)境
③硬件環(huán)境:CPU PII以上,內(nèi)存1G上,聯(lián)網(wǎng)支持,印機。
五、功能實現(xiàn)
數(shù)據(jù)中拼寫錯誤的檢查與糾正這個課題,就是在數(shù)據(jù)中錯誤信息進行糾錯。本次我就常出現(xiàn)的拼寫錯誤中大小寫問題和拼寫過程中的格式問題,進行演示糾正。首先準(zhǔn)備了有錯誤信息的表格,導(dǎo)入到kettle中,經(jīng)過以excel導(dǎo)入程序,發(fā)現(xiàn)錯誤信息,糾正錯誤信息,以excel導(dǎo)出程序。從而完成拼寫錯誤的糾正。
六、設(shè)計心得
本次設(shè)計中,實現(xiàn)了數(shù)據(jù)中拼寫錯誤的檢查與糾正。操作演示的過程中,也用到了最新相關(guān)的軟件,這大大節(jié)約了編寫代碼的時間。用戶在運用此軟件進行操作時,容易上手,這大大節(jié)約了時間,提高辦事效率。
新技術(shù)的不斷產(chǎn)生,需要我們不斷鞥信自己的知識,以最簡單的方法,解決問題,以最小的投資獲得最大的回報。
作者簡介:鐘聲(1990—),男,江西萍鄉(xiāng)人,研究生,助教,主要研究方向:數(shù)字媒體。