国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Java程序中亂碼的由來及解決方法

2007-08-25 01:30王洪香
智能計算機與應用 2007年4期
關鍵詞:數(shù)組字符解碼

王洪香

摘要:從編碼出發(fā),分析了在Java中可能會產(chǎn)生編碼問題的兩個環(huán)節(jié),并對不同情況給出了有效的解決方法。

關鍵詞:Java漢字編碼字符集

在Java語言的應用中,對字符的支持并非如同Java Soft的標準規(guī)范中所宣稱的那樣完美,尤其是中文字符集,所以在開發(fā)過程涉及到對漢字的處理時經(jīng)常會出現(xiàn)亂碼,給開發(fā)人員帶來諸多不便。

1常見的字符編碼

計算機中存儲、處理和傳送的數(shù)據(jù)是二進制的形式。各種文字、符號也必須用二進制數(shù)編碼來表示,因此出現(xiàn)了一些不同形式的字符編碼。

(1)IS08859-1碼

IS08859-1碼屬于單字節(jié)編碼,最多能表示的字符范圍是0-255,應用于英文系列。由于是單字節(jié)編碼,和計算機內(nèi)表示單位一致,所以很多時候,仍舊使用IS08859-1編碼來表示。而且在很多協(xié)議上,默認使用該編碼。

(2)GB2312編碼

GB2312編碼是中華人民共和國國家標準漢字信息交換用編碼,是由國家標準總局發(fā)布的關于簡化漢字的編碼,通行于中國大陸地區(qū)及新加坡,簡稱國標碼。兩個字節(jié)中,第一個字節(jié)(高字節(jié))的值為區(qū)號值加32(20H),第二個字符(低字節(jié))的值為位號值32(20H),用這兩個值來表示一個漢字的編碼。該字符集是一般中文操作系統(tǒng)默認的字符集。

(3)GBK編碼

GBK編碼是GB2312的擴展,是向上兼容的。它的編碼范圍是0x8140至0xfefe,其所有字符都可以一一映射至U-nicode2.0,實際上Java提供了對GBK字符集的支持。

(4)Unicode編碼

Unicode編碼是微軟提出的解決多國字符問題的多字節(jié)等長16位編碼,它對英文字符采取前面加“O”字節(jié)的策略實現(xiàn)等長兼容。如“A”字符的ASCII碼為0x41,Unicode碼為0x00,0x41。所以如果將高位字節(jié)去除,可以近似地將Uni-code轉換為IS08859-1,它是Java內(nèi)碼的編碼方式。

2 Java程序運行中出現(xiàn)的“?”和一些亂碼的由來

(1)將字符的Unicode碼轉換成本地字符集碼

下面的程序在將Unicode字符集轉換成“IS08859-1”字符集時出現(xiàn)了“?”號。

程序1:

從上面程序中可以看出。由于Java中的字符采用是的Unicode編碼,每個字符都占用兩個字節(jié),直接把每個字符中的內(nèi)容對應著的整數(shù)打印出來,顯示的結果就是這字符的Unicode碼。String類中的getBytes方法,是將Unicode碼的字符串中的每個字符數(shù)字,轉換成該字符在指定的字符集下的數(shù)字,最后將這些數(shù)字存放到一個字節(jié)數(shù)組中返回。將一個字符的Unicode碼轉換成某種本地字符集碼的過程叫編碼。程序中的byte[]buf=strChina.getBytes(“is08859-1”)語句就是將Unicode碼轉換成了“IS08859-1”了。由于目標代碼集中不存在對應代碼,則得到的結果都是“3t”Hex值中的“3t”在Java中的用System.out.println(“u0031”)語句輸出的結果就是“?”,這就是我們在Java程序中經(jīng)??吹降摹?”號的由來。

(2)將本地字符集碼轉換成Unicode碼

在下面的程序中完成的是將鍵盤字節(jié)輸入流中的每個字節(jié)讀到一個字節(jié)數(shù)組中,然后將字節(jié)數(shù)組中的數(shù)據(jù)當作某種本地字符集碼轉換成Unicode碼的字符串,此過程為解碼。

程序2:

從程序中看出,存有“遼工大”三個字符的GB2312碼的字節(jié)數(shù)組,使用IS08859-1解碼后的Unicode字符串的字符并不是原來的三個字符的Unicode碼,而是被解碼成了六個字符,每個字符的低字節(jié)的內(nèi)容都是原來字節(jié)數(shù)組中的數(shù)據(jù),而高字節(jié)都是0。程序中打印的b4所對應的字符在內(nèi)容中實際上是兩個字節(jié)00b4。因此在解碼時出現(xiàn)了一些除“?”以外的亂碼。

3解決的方法

對于程序1,由于當前系統(tǒng)默認的編碼方式是GB2312碼,將程序中的語句:

4結束語

對于前面提到的字符編碼的轉換不僅存在于Java應用中,也存在于JSP和Servlet的應用中,有時還會出現(xiàn)這兩個過程的疊加。甚至是兩個過程的反復疊加,因此Java應用中會產(chǎn)生一些與平臺相關的問題,在程序的開發(fā)過程一定要引起注意。

猜你喜歡
數(shù)組字符解碼
JAVA稀疏矩陣算法
Python實現(xiàn)圖片轉字符畫
解碼 四十五度仰望天空
JAVA玩轉數(shù)學之二維數(shù)組排序
文化解碼
正則表達式快速入門
圖片輕松變身ASCⅡ藝術畫
文化 解碼
文明 解碼
更高效用好 Excel的數(shù)組公式
观塘区| 金昌市| 高邑县| 原阳县| 凤城市| 江门市| 齐齐哈尔市| 通化市| 太原市| 马山县| 留坝县| 海兴县| 中山市| 门头沟区| 新余市| 宁远县| 新河县| 陵川县| 博野县| 昌黎县| 宁晋县| 陇南市| 个旧市| 灵川县| 太仆寺旗| 黄骅市| 瓮安县| 即墨市| 鄂伦春自治旗| 达拉特旗| 灵石县| 许昌市| 巴林右旗| 图们市| 贡嘎县| 托克托县| 姚安县| 集安市| 鄄城县| 罗甸县| 仪陇县|