王洪香
摘要:從編碼出發(fā),分析了在Java中可能會產(chǎn)生編碼問題的兩個環(huán)節(jié),并對不同情況給出了有效的解決方法。
關鍵詞:Java漢字編碼字符集
在Java語言的應用中,對字符的支持并非如同Java Soft的標準規(guī)范中所宣稱的那樣完美,尤其是中文字符集,所以在開發(fā)過程涉及到對漢字的處理時經(jīng)常會出現(xiàn)亂碼,給開發(fā)人員帶來諸多不便。
1常見的字符編碼
計算機中存儲、處理和傳送的數(shù)據(jù)是二進制的形式。各種文字、符號也必須用二進制數(shù)編碼來表示,因此出現(xiàn)了一些不同形式的字符編碼。
(1)IS08859-1碼
IS08859-1碼屬于單字節(jié)編碼,最多能表示的字符范圍是0-255,應用于英文系列。由于是單字節(jié)編碼,和計算機內(nèi)表示單位一致,所以很多時候,仍舊使用IS08859-1編碼來表示。而且在很多協(xié)議上,默認使用該編碼。
(2)GB2312編碼
GB2312編碼是中華人民共和國國家標準漢字信息交換用編碼,是由國家標準總局發(fā)布的關于簡化漢字的編碼,通行于中國大陸地區(qū)及新加坡,簡稱國標碼。兩個字節(jié)中,第一個字節(jié)(高字節(jié))的值為區(qū)號值加32(20H),第二個字符(低字節(jié))的值為位號值32(20H),用這兩個值來表示一個漢字的編碼。該字符集是一般中文操作系統(tǒng)默認的字符集。
(3)GBK編碼
GBK編碼是GB2312的擴展,是向上兼容的。它的編碼范圍是0x8140至0xfefe,其所有字符都可以一一映射至U-nicode2.0,實際上Java提供了對GBK字符集的支持。
(4)Unicode編碼
Unicode編碼是微軟提出的解決多國字符問題的多字節(jié)等長16位編碼,它對英文字符采取前面加“O”字節(jié)的策略實現(xiàn)等長兼容。如“A”字符的ASCII碼為0x41,Unicode碼為0x00,0x41。所以如果將高位字節(jié)去除,可以近似地將Uni-code轉換為IS08859-1,它是Java內(nèi)碼的編碼方式。
2 Java程序運行中出現(xiàn)的“?”和一些亂碼的由來
(1)將字符的Unicode碼轉換成本地字符集碼
下面的程序在將Unicode字符集轉換成“IS08859-1”字符集時出現(xiàn)了“?”號。
程序1:
從上面程序中可以看出。由于Java中的字符采用是的Unicode編碼,每個字符都占用兩個字節(jié),直接把每個字符中的內(nèi)容對應著的整數(shù)打印出來,顯示的結果就是這字符的Unicode碼。String類中的getBytes方法,是將Unicode碼的字符串中的每個字符數(shù)字,轉換成該字符在指定的字符集下的數(shù)字,最后將這些數(shù)字存放到一個字節(jié)數(shù)組中返回。將一個字符的Unicode碼轉換成某種本地字符集碼的過程叫編碼。程序中的byte[]buf=strChina.getBytes(“is08859-1”)語句就是將Unicode碼轉換成了“IS08859-1”了。由于目標代碼集中不存在對應代碼,則得到的結果都是“3t”Hex值中的“3t”在Java中的用System.out.println(“u0031”)語句輸出的結果就是“?”,這就是我們在Java程序中經(jīng)??吹降摹?”號的由來。
(2)將本地字符集碼轉換成Unicode碼
在下面的程序中完成的是將鍵盤字節(jié)輸入流中的每個字節(jié)讀到一個字節(jié)數(shù)組中,然后將字節(jié)數(shù)組中的數(shù)據(jù)當作某種本地字符集碼轉換成Unicode碼的字符串,此過程為解碼。
程序2:
從程序中看出,存有“遼工大”三個字符的GB2312碼的字節(jié)數(shù)組,使用IS08859-1解碼后的Unicode字符串的字符并不是原來的三個字符的Unicode碼,而是被解碼成了六個字符,每個字符的低字節(jié)的內(nèi)容都是原來字節(jié)數(shù)組中的數(shù)據(jù),而高字節(jié)都是0。程序中打印的b4所對應的字符在內(nèi)容中實際上是兩個字節(jié)00b4。因此在解碼時出現(xiàn)了一些除“?”以外的亂碼。
3解決的方法
對于程序1,由于當前系統(tǒng)默認的編碼方式是GB2312碼,將程序中的語句:
4結束語
對于前面提到的字符編碼的轉換不僅存在于Java應用中,也存在于JSP和Servlet的應用中,有時還會出現(xiàn)這兩個過程的疊加。甚至是兩個過程的反復疊加,因此Java應用中會產(chǎn)生一些與平臺相關的問題,在程序的開發(fā)過程一定要引起注意。