日期:2014-05-20  浏览次数:20636 次

求助!去除重复出现多次并内部内容长度变化的字符串的办法
字符串:
<table>
<!--abc-->
<table>
   <tr>
     <td>正文内容</td>
   </tr>
</table>
<!--abcdef-->
<!--afgafah-->
<table>
   <tr>
     <td>正文内容</td>
   </tr>
   <tr>
     <td>正文内容</td>
   </tr>
   <tr>
     <td>正文内容</td>
   </tr>
</table>
<!--afheyjm-->
<table>
   <tr>
     <td>正文内容</td>
   </tr>
   <tr>
     <td>正文内容</td>
   </tr>
</table>
</table>

需去除的就是<!--长度变化的字符串-->
这是在httpclient和jsoup的使用过程中出现的问题。看看有没有高手能解决一下。类似注释一样的字符串很影响结果。

------解决方案--------------------
如果你使用jsoup来处理信息的话,没道理注释会影响结果啊,你程序逻辑有问题吧?

不过非要处理可以试试看:
html = html.replaceAll("<!--(.*?)-->", "$1");
------解决方案--------------------
$1表示正则捕获到的第一组这里的$1就是注释的内容。
例如<!--abcdef-->就会被替换为abcdef,<!--abc-->就会被替换为abc
楼主是要把整个注释的去掉的话。可以用空