日期:2014-05-18  浏览次数:20678 次

网页中汉字编码的问题
用一个抓取工具抓取网站的html源文件,html文件用txt文件保存。
结果发现如果用记事本打开就是正常的,但如果用写字板打开就变成了怪字。
比如:
<title> 强国论坛 </title>     ->     <title> 寮哄浗璁哄潧 </title>
网页头有编码提示信息:
<meta   http-equiv= "Content-Type "   content= "text/html;   charset=UTF-8 ">
但如果我把 <title> 强国论坛 </title> 复制粘贴到一个新建的txt文档中,则再用记事本或
写字板打开都是     <title> 强国论坛 </title>   。

请问各位大虾
(1)这是什么原因?utf-8编码与unicode编码怎么转换?
(2)另外弱弱的问一句如何在stringbuffer里输入一个空行?
      就是
                StringBuffer   buffer=new   StringBuffer();
                                buffer.append(?);
      append什么能在buffer里输入一个空行?

------解决方案--------------------
空行 "/r/n "可以吗?
------解决方案--------------------
UTF-8不能改成GB2312吗 ?
------解决方案--------------------
StringBuffer里换行是buffer.append( "\n ");
空一行就是buffer.append( "\n\n ");两个呵呵
------解决方案--------------------
利用读取一行的string的getByte方法,把编码转成gb2312就可以了。
stringbuffer会加入null值的。你写段代码测一下就知道了。