网页抓取怎么除去注释
网站抓取来源比较多,有些网站会在部分页面不定期加上不同的注释,导致抓取结果里面包含了代码,如果统一将注释去掉?求解决方案
------解决方案--------------------str.replaceAll("<!--.*?-->", "");
------解决方案--------------------str.replaceAll("<!--.*?-->", "");
试试这个
------解决方案--------------------楼主想去掉"<!-- -->",可以用楼上两位的代码
------解决方案--------------------str.replaceAll("<!--.*?-->", "");