日期:2014-05-16  浏览次数:20345 次

中文化和国际化问题权威解析之七:JS中的escape、encodeURI、encodeURIComponent解惑

面一篇文档《中文化和国际化问题权威解析之五:URL编码/Misc 》主要是从服务端、浏览器两个角度来看待URL编码;除此之外,我们还可能在客户端执行一些js脚本来进行URL编码,与此相关的最主要的三个js function为:
escape(): 采用ISO Latin字符集对指定的字符串进行编码。所有的空格符、标点符号、特殊字符以及其他非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符 在字符集表里面的编码的16进制数字)。比如,空格符对应的编码是%20。unescape方法与此相反。不会被此方法编码的字符: @ * / +
encodeURI():把URI字符串采用UTF-8编码格式转化成escape格式的字符串。不会被此方法编码的字符:! @ # $& * ( ) = : / ; ? + '
encodeURIComponent(): 把URI字符串采用UTF-8编码格式转化成escape格式的字符串。与encodeURI()相比,这个方法将对更多的字符进行编码,比如 / 等字符。所以如果字符串里面包含了URI的几个部分的话,不能用这个方法来进行编码,否则 / 字符被编码之后URL将显示错误。不会被此方法编码的字符:! * ( )

这是目前互联网上随处可见的对这3个function的解释,很多文章里面还附带了英文便于对照;对escape还有一些文档这么解释:直接使用"%"加字符的Unicode内码来表示字符;
比如:escape("我是中国人") = %u6211%u662F%u4E2D%u56FD%u4EBA
这几句话MS很简单、明了,但细思之下发现有几点疑惑,比如:

  • 1. Escape中ISO Latin指什么,是ISO-5899-1?但怎么会另一种解释中说是Unicode内码?
  • 2. 三个function的编码结果是否会依赖于html内部的content-type或meta中的charset?

于是,我用如下这段html代码进行测试,文件格式为ANSI/ASCII;

view plain copy to clipboard print ?
  1. < head >
  2. < meta http-equiv = content -type content = "text/html;charset=XXX" >
  3. </ head >
  4. < script language = 'javascript' >
  5. document.write(escape('/我爱')+'< br /> ');
  6. document.write(encodeURI('/我爱')+'< br /> ');
  7. document.write(encodeURIComponent('/我爱')+'< br /> ');
  8. document.write(escape('http://mall.alisoft.com/我爱')+'< br /> ');
  9. document.write(encodeURI('http://mall.alisoft.com/我爱')+'< br /> ');
  10. document.write(encodeURIComponent('http://mall.alisoft.com/我爱')+'< br /> ');
  11. </ script >

将代码中charset设置为不同的字符编码,得到的结果却是完全不一样!
测试结果为:

?

友情链接: 爱易网 云虚拟主机技术 云服务器技术 程序设计技术 开发网站 APP开发教程
Copyright © 2013-2024 爱易网页 当前在线:786人  网站在7时36分20秒内访问总人数:89946人 当前 60.87%  粤ICP备18100884号-2
字符编码 测试结果