网页中汉字编码的问题
用一个抓取工具抓取网站的html源文件,html文件用txt文件保存。
结果发现如果用记事本打开就是正常的,但如果用写字板打开就变成了怪字。
比如:
<title> 强国论坛 </title> -> <title> 寮哄浗璁哄潧 </title>
网页头有编码提示信息:
<meta http-equiv= "Content-Type " content= "text/html; charset=UTF-8 ">
但如果我把 <title> 强国论坛 </title> 复制粘贴到一个新建的txt文档中,则再用记事本或
写字板打开都是 <title> 强国论坛 </title> 。
请问各位大虾
(1)这是什么原因?utf-8编码与unicode编码怎么转换?
(2)另外弱弱的问一句如何在stringbuffer里输入一个空行?
就是
StringBuffer buffer=new StringBuffer();
buffer.append(?);
append什么能在buffer里输入一个空行?
------解决方案--------------------空行 "/r/n "可以吗?
------解决方案--------------------UTF-8不能改成GB2312吗 ?
------解决方案--------------------StringBuffer里换行是buffer.append( "\n ");
空一行就是buffer.append( "\n\n ");两个呵呵
------解决方案--------------------利用读取一行的string的getByte方法,把编码转成gb2312就可以了。
stringbuffer会加入null值的。你写段代码测一下就知道了。