怎样用正则表达式提取网页文本
比如其中一段如下:
//--------------------------------
<tr>
<td height= '2 ' colspan= '2 '> </td>
</tr>
<tr>
<td colspan= '2 '> 办理护照延期须提供如下材料:
<P> 1、提供本人所持中国护照原件及其资料页的复印件; </P>
<P> 2、交二寸证件照片一张; </P>
<P> 3、填写“中 <A class=keylink href= "http://www.chuguo.cn/info/stationsearch.aspx?key=华人&ddl=-1&ddlcountry=-1 " target=_blank> <FONT color=#0000ff> 华人 </FONT> </A> 民共和国护照/旅行证/海员证/回国证明申请表”一份; </P>
<P> 4、交验获准在加拿大居留、工作或学习的证件(如:PERMANENT RESIDENT CARD、WORK PERMIT、STUDY PERMIT)原件并提供其复印件; </P>
<P> 5、获加拿大永久居民身份满3年且尚未领取枫叶卡者,还须提供未入加拿大国籍的证明。此证明可向下列地址申请: <BR> CITIZENSHIP AND IMMIGRATION CANADA <BR> CASE PROCESSING CENTER SYDNEY <BR> P. O. BOX 7000 SYDNEY, NOVA SCOTIA B1P 6V6 <BR> </P> <IFRAME ID= 'google5 ' src= '/include/google5.htm ' frameborder= '0 ' scrolling= 'no ' width= '480 ' height= '70 '> </IFRAME> </td>
</tr>
//-------------------
如何提取出里面的纯文本内容,不含标签。
------解决方案-------------------- <textarea name=textarea1>
//--------------------------------
<tr>
<td height= '2 ' colspan= '2 '> </td>
</tr>
<tr>
<td colspan= '2 '> 办理护照延期须提供如下材料:
<P> 1、提供本人所持中国护照原件及其资料页的复印件; </P>
<P> 2、交二寸证件照片一张; </P>
<P> 3、填写“中 <A class=keylink href= "http://www.chuguo.cn/info/stationsearch.aspx?key=华人&ddl=-1&ddlcountry=-1 " target=_blank> <FONT color=#0000ff> 华人 </FONT> </A> 民共和国护照/旅行证/海员证/回国证明申请表”一份; </P>
<P> 4、交验获准在加拿大居留、工作或学习的证件(如:PERMANENT RESIDENT CARD、WORK PERMIT、STUDY PERMIT)原件并提供其复印件; </P>
<P> 5、获加拿大永久居民身份满3年且尚未领取枫叶卡者,还须提供未入加拿大国籍的证明。此证明可向下列地址申请: <BR> CITIZENSHIP AND IMMIGRATION CANADA <BR> CASE PROCESSING CENTER SYDNEY <BR> P. O. BOX 7000 SYDNEY, NOVA SCOTIA B1P 6V6 <BR> </P> <IFRAME ID= 'google5 ' src= '/include/google5.htm ' frameborder= '0 ' scrolling= 'no ' width= '480 ' height= '70 '> </IFRAME> </td>
</tr>
//-------------------
</textarea>
<script>
var str=textarea1.value;
str=str.replace(/ <[^> ]*?> /ig, " ");
alert(str);
</script>
------解决方案--------------------━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
※以下是引用楼主 younkersoft(younkersoft) 在2007-05-07 16:06:18 的发言:
──────────────────────────────────────────
就是想求出取
" <tr> <td height= '2 ' colspan= '2 '> </td> </tr> <tr> <td colspan= '2 '> "
与
" <IFRAME ID= 'google5 ' src= '/include/google5.htm ' frameborder= '0 ' scrolling= 'no ' width= '480 ' height= '70 '> </IFRAME> </td> </tr> "
之间内容的一个正则表达式
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
<textarea id= "Text ">
测试用的干扰字符
<tr>
<td height= '2 ' colspan= '2 '> </td>
</tr>
<tr>
<t