请教各位高手!去页面所有标签!然后去掉只留内容!
我现在面临的困难是:现在别人给我一段代码(以html代码为例),此段代码含有比较多的标签属性:例如 有如下代码片段:
<body>
<h1>hello</h1>
<table name="tbName" border="1">
<tr id="trId">
<td>Cotent</td>
</tr>
</table>
</body>
我这是要获取其中的
<body>
<h1>
</h1>
<table name="tbName" border="1">
<tr id="trId">
<td>
</td>
</tr>
</table>
</body>
取出来这些标签之后再把这些标签去掉!也就是使之为空,只留其中的内容部分!有哪位高手有好的方法给与指教!小弟非常感激!
------解决方案--------------------str.replaceAll("<.?*>","");
------解决方案--------------------用正则应该可以,html,wml形式都差不多
Java code
Pattern p = Pattern.compile("<[^>]+>|</[^>]+>",Pattern.CASE_INSENSITIVE );
String htmlContent = "...<body>.....</body>..."
Matcher m = p.matcher(htmlContent);
String content = m.replaceAll("");