[转载]编码的解决

dtrex

浏览: 138127 次
性别:
来自: 北京

最近访客更多访客>>

xmgcoffee

scholltop

walkerdean

chenjinjun40422p

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

JavaScript 应用服务器中国移动 Android Web

http://www.blogjava.net/nokiaguy/archive/2008/07/19/216024.html

哈佛校训

此刻打盹，你将做梦；而此刻学习，你将圆梦。

本文为原创，如需转载，请注明作者和出处，谢谢！

一、 Java 编码是怎么回事？

对于使用中文以及其他非拉丁语系语言的开发人员来说，经常会遇到字符集编码问题。对于 Java语言来说，在其内部使用的是 UCS2编码（ 2个字节的 Unicode编码）。这种编码并不属于某个语系的语言编码，它实际上是一种编码格式的世界语。在这个世界上所有可以在计算机中使用的语言都有对应的 UCS2编码。

正是因为 Java采用了 UCS2，因此，在 Java中可以使用世界上任何国家的语言来为变量名、方法名、类起名，如下面代码如下：

class 中国
{
     public String 雄起()
    {
          return " 中国雄起 " ;
    }
}

中国祖国 = new 中国();
System.out.println(祖国.雄起());

哈哈，是不是有点象“中文编程”。实际上，也可以使用其他的语言来编程，如下面用韩文和日文来定义个类：

class 수퍼맨
{
public void スーパーマン() {

}
}

实际上，由于 Java内部使用的是 UCS2编码格式，因为， Java并不关心所使用的是哪种语言，而只要这种语言在 UCS2中有定义就可以。

在 UCS2编码中为不同国家的语言进行了分页，这个分页也叫“代码页”或“编码页”。中文根据包含中文字符的多少，分了很多代码页，如 cp935、 cp936等，然而，这些都是在 UCS2中的代码页名，而对于操作系统来说，如微软的 windows，一开始的中文编码为 GB2312，后来扩展成了 GBK。其实 GBK和 cp936是完全等效的，用它们哪个都行。

二、 Java 编码转换

上面说了这么多，在这一部分我们做一些编码转换，看看会发生什么事情。

先定义一个字符串变量：

String gbk = " 中国 "; // “中国”在 Java内部是以 UCS2格式保存的

用下面的语言输出一定会输出中文：

System.out.println(gbk);

实现上，当我们从 IDE输入“中国”时，用的是 java源代码文件保存的格式，一般是 GBK，有时也可是 utf-8，而在 Java编译程序时，会不由分说地将所有的编码格式转换成 utf-8编码，读者可以用 UltraEdit或其他的二进制编辑器打开上面的“中国 .class”，看看所生成的二进制是否有 utf-8的编码（ utf-8和 ucs2之间的转换非常容易，因为 utf-8和 ucs2之间是用公式进行转换的，而不是到代码页去查，这就相当于将二进制转成 16进制一样， 4个字节一组）。如“中国”的 utf-8编码按着 GBK解析就是“涓浗 ”。如下图所示。

如果使用下面的语言可以获得“中国”的 utf-8字节，结果是 6（一个汉字由 3个字节组成）

System.out.println(gbk.getBytes("utf-8").length);

下面的代码将输出“涓浗 ”。

System.out.println(new String(gbk.getBytes("utf-8"), "gbk"));

由于将“中国“的 utf-8编码格式按着 gbk解析，所以会出现乱码。

如果要返回中文的 UCS2编码，可以使用下面的代码：

System.out.println(gbk.getBytes("unicode")[2]);

System.out.println(gbk.getBytes("unicode")[3]);

前两个字节是标识位，要从第 3个字节开始。还有就是其他的语言使用的编码的字节顺序可能不同，如在 C#中可以使用下面的代码获得“中国“的 UCS2编码：

String s = " 中 ";

MessageBox.Show(ASCIIEncoding.Unicode.GetBytes(s)[0].ToString());

MessageBox.Show(ASCIIEncoding.Unicode.GetBytes(s)[1].ToString());

使用上面的 java代码获得的“中“的 16进制 UCS2编码为 4E2D，而使用 C#获得的相应的 ucs2编码为 2D4E，这只是 C#和 Java编码内部使用的问题，并没有什么关系。但在 C#和 Java互操作时要注意这一点。

如果使用下面的 java编码将获得 16进制的“中”的 GBK编码：

System.out.println(Integer.toHexString(0xff & xyz.getBytes("gbk")[0]));

System.out.println(Integer.toHexString(0xff & xyz.getBytes("gbk")[1]));

“中”的 ucs2编码为 2D4E， GBK编码为 D6D0

读者可访问如下的 url自行查验：

http://unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP936.TXT

当然，感兴趣的读者也可以试试其他语言的编码，如“人类”的韩语是“ 인간의 ”，如下面的代码将输出“ 인간의 ”的 cp949和 ucs2编码，其中 cp949是韩语的代码页。

String korean = " 인간의 " ; // 共三个韩文字符，我们只测试第一个“인”

System.out.println(Integer.toHexString( 0xff & korean.getBytes( " unicode " )[ 2 ]));

System.out.println(Integer.toHexString( 0xff & korean.getBytes( " unicode " )[ 3 ]));

System.out.println(Integer.toHexString( 0xff & korean.getBytes( " Cp949 " )[ 0 ]));

System.out.println(Integer.toHexString( 0xff & korean.getBytes( " Cp949 " )[ 1 ]));

上面代码的输出结果如下：

也就是说“ 인 ”的 ucs2 编码为 C778 ， cp949 的编码为 C0CE ，要注意的是，在 cp949 中， ucs2 编码也有 C0CE ，不要弄混了。读者可以访问下面的 url 来验证：

http://unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP949.TXT
 
Java支持的编码格式

三、属性文件

Java中的属性文件只支持 iso-8859-1编码格式，因此，要想在属性文件中保存中文，就必须使用 UCS2编码格式（ "uxxxx），因此，出现了很多将这种编码转换成可视编码和工具，如 Eclipse中的一些属性文件编辑插件。

实际上， "uxxxx编码格式在 java和 C#中都可以使用，如下面的语句所示：

String name= ""u7528"u6237"u540d"u4e0d"u80fd"u4e3a"u7a7a" ;

System.out.println(name);

上面代码将输出“用户名不能为空”的信息。将 "uxxxx 格式显示成中文非常简单，那么如何将中文还原成 "uxxxxx 格式呢？下面的代码完成了这个工作：

String ss = " 用户名不能为空 " ;
byte [] uncode = ss.getBytes( " Unicode " );
int x = 0xff ;
String result = "" ;
for ( int i = 2 ; i < uncode.length; i ++ )
{
     if (i % 2 == 0 ) result += " \\u " ;
    String abc = Integer.toHexString(x & uncode[i]);
    result += abc.format( " %2s " , abc).replaceAll( " " , " 0 " );
}
System.out.println(result);

上面的代码将输出如下结果：

\u7528\u6237\u540d\u4e0d\u80fd\u4e3a\u7a7a

好了，现在可以利用这个技术来实现一个属性文件编辑器了。

四、 Web 中的编码问题

大家碰到最多的编码问题就是在 Web 应用中。先让我们看看下面的程序：

<% @ page language = " java "   pageEncoding = " utf-8 " %>

   < html >
       < head >

       </ head >

       < body >
           < form action ="servlet/MyPost" method ="post" >
               < input type ="text" name ="user" />
               < p />
               < input type ="submit"   value ="提交" />
           </ form >

       </ body >
   </ html >

下面是个 Servlet ：

package servlet;

  import java.io.IOException;
  import java.io.PrintWriter;
  import javax.servlet.ServletException;
  import javax.servlet.http.HttpServlet;
  import javax.servlet.http.HttpServletRequest;
  import javax.servlet.http.HttpServletResponse;

   public class MyPost extends HttpServlet
  {

       public void doPost(HttpServletRequest request, HttpServletResponse response)
              throws ServletException, IOException
      {
          String user = request.getParameter( " user " );
          System. out .println(user);
      }
  }

如果中 main.jsp中输入中文后，向 MyPost提交，在控制台中会输出“ ä¸ å½”，一看就是乱码。如果将 IE的当前编码设成其他的，如由 utf-8改为 gbk，仍然会出现乱码，只是乱得不一样而已。这是因为客户端提交数据时是根据浏览器当前的编码格式来提交的，如浏览器当前为 gbk编码，就以 gbk编码格式来提交。这本身是不会出现乱码的，问题就出在 Web服务器接收数据的时候， HttpServletRequest在将客户端传来的数据转成 ucs2码上出了问题。在默认情况下，是按着 iso-8859-1 编码格式来转的，而这种编码格式并不支持中文，所以也就无法正常显示中文了，解决这个问题的方法是用和客户端浏览器当前编码格式一致的编码来转换，如果是 utf-8，则在 doPost方法中应该用以下的语句来处理：

request.setCharacterEncoding("utf-8");

为了对每一个 Servlet都起作用，可以将上面的语句加到 filter里。

另外，我们一般使用象 MyEclipse 一样的 IDE 来编写 jsp 文件，这样的工具会根据 pageEncoding 属性将 jsp 文件保存成相应的编码格式，但如果要使用象记事本一样的简单的编辑器来编写 jsp 文件，如果 pageEncoding 是 utf-8 ，而在默认时，记事本会将文件保存成 iso-8859-1 （ ascii ）格式，但在 myeclipse 里，如果文件中有中文，它是不允许我们保存成不支持中文的编码格式的，但记事本并不认识 jsp ，因此，这时在 ie 中就无法正确显示出中文了。除非用记事本将其保存在 utf-8 格式。如下图：

华章培训网视频教程：实现Android版的多功能日历

《Android/OPhone开发完全讲义》（本书版权已输出到台湾）
样章和目录下载
 互动网当当网卓越亚马逊

《人人都玩开心网：Ext JS+Android+SSH整合开发Web与移动SNS》
样章下载
互动网

乐博Android手机客户端（新浪微博）发布

<script type="text/javascript"> var _gaq = _gaq || []; _gaq.push(['_setAccount', 'UA-16915591-1']); _gaq.push(['_trackPageview']); (function() { var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true; ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s); })(); </script>

posted on 2008-07-19 13:45 银河使者阅读(4556) 评论(16) 编辑收藏所属分类: java 、web 、原创

# re: Java编码问题解决方案大揭密 2008-07-19 14:54 Skywalker

good 回复更多评论

# re: Java编码问题解决方案大揭密 2008-07-19 15:02 BeanSoft

厉害收藏! 回复更多评论

# re: Java编码问题解决方案大揭密[未登录] 2008-07-19 16:36 James

LZ研究的还不错。不过研究的还是不够深入啊。
说说Web中的情况：
request.setCharacterEncoding("utf-8");这个方法对与Tomcat这样的服务器，有些版本就是不起作用的啦。
还有个，就是你的jsp例子中的FORM提交，LZ不知道有没有研究过JavaScript中的提交情况，其实你也可以在网页中的charset不是 UTF-8的情况下，将所有传到服务器的内容全部编码成UTF-8的。这个需要用到JavaScript的encodeURIComponent方法，具体的用法可以GOOGLE一下。
其实关于乱码有更好的解决方法，给大家提个思路：
在客户端将所有的中文全部编码成一种可反编码的编码，比如Unicode的码，用一定的标识符间隔区分，然后在服务器端将接收到的编码过的内容再反编码成实际的内容。这样就可以忽略编码的不同了…… 回复更多评论

# re: Java编码问题解决方案大揭密 2008-07-19 16:46 银河使者

@James
不好意思，我的程序都是在tomcat6里调试通过的，再说这些都是servlet规范规定的，所有的web服务器必须遵循。如果某个web服务器不遵循，那么web程序也就无法在其上正常运行了。

web乱码的问题非常多回复更多评论

# re: Java编码问题解决方案大揭密[未登录] 2008-07-19 16:50 James

LZ可以试验一下Tomcat5，5当中设置request.setCharacterEncoding("utf-8")就是没有效果的。
前段时间一直在搞编码的统一问题，测试过程中遇到的情况。这样设置就没有效果回复更多评论

# re: Java编码问题解决方案大揭密[未登录] 2008-07-19 16:52 James

补充一个，Servlet是规定了，不过有些服务器在实现这些Servlet的时候就不遵循啊，这让开发人员很是郁闷啊。
比如，response.setCharacterEncoding(String charset);这个方法在有些版本的WebLogic服务器中就没有实现它，结果导致你使用这个方法的话，在某版本的Weblogic服务器中就没有效果，而且会抛Error 回复更多评论

# re: Java编码问题解决方案大揭密 2008-07-19 16:59 银河使者

@James

我的程序是在tomcat6调试通过的，你说的可能是tomcat5以前的版本，但那应该是这些版本的bug，从理论上，是必须支持这个功能的，否则web程序是无法在这些web服务器上运行的。但很遗憾，我没有碰到过这些版本的tomcat。

至于web乱码问题，我只是简单提了一下，本文的目的并不是解决web乱码问题。而是让读者了解java内部编码的问题。如果了解了java编码原理，你认为web乱码问题，甚至其他的乱码问题还能算是问题吗？

你说的没错，用form提交是产生乱码问题的一种原因，而用httpxmlrequest提交也会产生乱码。这种情况下最好使用encodeURI或 encodeURIComponent将中文编成%xxxx的形式，然后在服务端使用java.net.URLDecoder.decode方法进行解码。

象在struts里的actionform，都可能会产生乱码问题。

还有就是在http请求头或响应头中传中文，也会出现乱码问题。这些只要了解了java的编码体系，都可以迎刃而解。

最后总结一下：

一般编码传送可以采用两种方式：
1、直接编码。就是采用utf-8、gbk等形式。这样在服务端可以使用setCharacterEncoding指定相应的编码。
2、使用url形式的编码。如%xxxx
如果使用<form>的话，会根据当前浏览器的编码确定发送的中文编码。
如果用javascript，会以utf-8编码发送。回复更多评论

# re: Java编码问题解决方案大揭密 2008-07-19 17:05 银河使者

如果response.setCharacterEncoding不好使，可以试试response.setContentType("text/html;charset=utf-8");

如果都不好使，就想别的方法，方法还是有的呢，可以用%xxxx形式，或是看一下setCharacterEncoding是怎么弄的，自已处理一下。回复更多评论

# re: Java编码问题解决方案大揭密 2008-07-19 17:06 银河使者

没有办法，由于做服务器的大多都是老外，它们永远不会有编码问题的，所以估计request.setCharacterEncoding方法就成了可选实现的功能的，但我想国产的web服务器应该都支持，如apusic 。回复更多评论

# re: Java编码问题解决方案大揭密[未登录] 2008-07-19 17:24 James

@银河使者
你总结的各种编码的原理和过程很不错，对Java的编码也是研究颇多。
只是你说的解决方案不是一个通用的解决之道，要针对不同的情况来区别对待。
下面是我针对你采用的两种方式的一点提醒，希望对看到这篇文章的人有点用
1、直接编码。服务器端使用setCharacterEncoding指定相应的编码，注意服务器的版本，比如Tomcat5.0版本中就不支持这个方法，设置后会没有任何效果，使用的时候注意测试一下。如果不行，解决方法之一是换高版本的Tomcat，第二是用编码转换，在Tomcat中的默认流编码是 ISO-8859-1的，只用进行一个转码操作也就可以了。例：String pipeStr = new String(rawStr.getBytes("ISO-8859-1"), "UTF-8");//UTF-8可以改成自己想要的编码
2、如果代码中拼凑的URL用到中文字符的时候，可以考虑用一个encodeURI或encodeURIComponent，方便服务器端进行统一的UTF-8 解码。如果JavaScript与服务器端进行交互，需要对返回的数据，比如JSON数据进行处理的话，在服务器端需要对返回数据做好编码工作，比如是通过response写出的，需要加response.setContentType("charset=XXX");来保证返回的数据的编码，使得 JavaScript能够正常解析。另外，如果有JavaScript文件是通过服务器端的Servlet动态生成再传回客户端的话，建议 JavaScript的编码应于客户端的头中的编码一致，不然会出现JavaScript文件中的内容乱码的现象，尽管JavaScript某些时候能正常使用，但是还是没有乱码的好啊。

PS：银河使者对编码研究的挺深，有机会可以交流心得…… 回复更多评论

# re: Java编码问题解决方案大揭密[未登录] 2008-07-19 17:31 James

现在主流的服务器都是国外的，是苦了我们啊，没办法啊……
国内的服务器做的好的又有几个呢？apusic还可以，可是毕竟力量还是不够强大啊。
大家也就是总结这些东西的使用经验和注意点…… 回复更多评论

# re: Java编码问题解决方案大揭密 2008-07-19 18:30 银河使者

@ James
不错，你的第一种方法是比我的通用，因为你的方法是通过String类进行编码转换的，而我的是通过web服务器所提供的 setCharacterEncoding方法实现编码转换的。由于String类是jdk的标准类，所以这种转换方式和web服务器无关，任何基于 java的程序（包括桌面程序）都可以使用这种方式进行转换。
而且将其以ISO-8859-1取出，实际上用iso-8859-1往外取字节，就相当于是不经过转换，直接取出来了，如将“中国"的utf-8编码“0xe4, 0xb8, 0xad,0xe5,0x9b, 0xbd”直接用iso-8859-1保存在String中（注意，不是将其转换成ucs2，而是直接用utf-8共6个字节将其保存在String 中），代码如下：

byte[] utf8 = new byte[]{(byte)0xe4, (byte)0xb8, (byte)0xad,(byte) 0xe5, (byte)0x9b, (byte)0xbd};
String zg = new String(utf8, "iso-8859-1");
String sss = new String(zg.getBytes("iso-8859-1"), "utf-8"); // 不能用utf-8
String zg1 = new String(sss.getBytes("utf-8"), "utf-8");
System.out.println(sss);
System.out.println(zg1);

其中 String zg = new String(utf8, "iso-8859-1");的作用就是将“中国”的6个utf-8编码直接保存在String中，在这种情况下，不能使用 zg.getBytes("utf-8")获得字节，因为getBytes方法功能是将String中的ucs2编码(4个字节）转换成utf-8编码的 6个字节，而现在String中是6个字节的utf-8，而不是4个字节的ucs2，如果这时再用utf-8的话，java就会将这6个字节的utf-8 编码当成了3个ucs2编码（2个字节为一个ucs2编码），所以就会出现乱码了。

而用zg.getBytes("iso- 8859-1")就是将这6个字节的utf-8编码按原样取出，然后用 new String(zg.getBytes("iso-8859-1"), "utf-8");将这6个字节按着utf-8格式转换成了java内部使用的ucs2编码。（实际上utf-8编码并没有真正转化为ucs2，因为这样太占资源了，在程序中还可能有很多英文字符，因此，utf-8就直接放到那了，反正将它转换成ucs也很容易）。

而在sss中的编码就已经是utf-8（ucs2）了，因此，必须使用下面的代码获得字节数组：
sss.getBytes("utf-8") 回复更多评论

# re: Java编码问题解决方案大揭密 2008-07-19 18:41 银河使者

要注意的一点就是getBytes和String都具有编码转换功能。
getBytes是将ucs2转换成其他的编码，而String是将其他的编码转换成ucs2编码回复更多评论

# re: Java编码问题解决方案大揭密 2008-07-19 18:42 银河使者

如果直接用getBytes("unicode")，就直接把ucs2编码得出来了。

如果用下面的代码：
zg.getBytes("unicode");

由于zg是以iso-8859-1保存的，因此，按着字节输出，就会有下面的结果：

0
e4
0
b8
0
ad
0
e5
0
9b
0
bd

这也说明iso-8859-1的编码转换成ucs2后，第一个字节补0 回复更多评论

# re: Java编码问题解决方案大揭密 2008-07-19 19:13 银河使者

我看到网上关于在servlet中向客户端输出中文字符时乱码解决方案一般是通过如下的代码解决：

response.setCharacterEncoding("utf-8");
或
response.setContentType("text/html;charset=utf-8");

但关键是web服务器转换字节时是否读取了这个设置的字符集编码呢？如果未读取，等于没设。所以最通用的方法是采用如同的代码解决向客户端中文乱码的问题：

String ss = "中华人民共和国";

String utf8 = new String(ss.getBytes("utf-8"), "iso-8859-1");
response.setCharacterEncoding("iso-8859-1");
response.getWriter().write(utf8);

分享到：

javafx web数据交换 | ROR_find查询

2010-08-25 15:34
浏览 860
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论