日期:2014-05-20  浏览次数:20839 次

用dom解析html文件
用dom解析html文件,dom本来是用来解析xml文件的,没有出什么问题,但是用来解析html文件出现了编码问题...
自己修改了一下,出现了下面等等几个问题
Invalid byte 2 of 2-byte UTF-8 sequence
Server returned HTTP response code: 503 for

虽然知道是编码问题,就是不知道怎么解决...我需要解析html文件
对XML文件的解决方法是<?xml version="1.0" encoding="UTF-8"?>改为<?xml version="1.0" encoding="GBK"?>
但是html怎么解决啊?????????
求助~~~~~
或者大家给个解析html文件的代码给我,谢谢~~~~


------解决方案--------------------
<?xml version="1.0" encoding="GB2312"?>
在不行的话 页面显示的时候,点击 鼠标右键 --> 编辑-->Unicode(UTF-8)
你试试
------解决方案--------------------
解析html不是dom的强项,解析dom应该使用htmlParser与正则的方式