日期:2014-05-20  浏览次数:20680 次

【java求助】以下需求如何写 java 正则表达式
1.  font style="color:#c30">[图文]</font> E+H公司在我校区设立优秀学子奖学金</a></li><li><span style="white-space:nowrap;color:#09f">
2.   </span><a href=news_show.asp?id=10857>评论员文章:坚守教学质量生命线</a></li><li><span style="white-space:nowrap;color:#09f"> 

我想刮网页中指定内容,这两行是具有代表性的目标字符串,分别想获得这两个内容:
1.  E+H公司在我校区设立优秀学子奖学金
2.  评论员文章:坚守教学质量生命线

第一个内容并不是全中文,算是所有中比较特殊的;第二个并没有图文,所以其HTML源码中也没有类似<font></font>之类的;其他的基本是带图文,中文标题。
对应标题链接为省力只是逐一提取了id :<a href=news_show.asp?id=10857>
所以需要一个能够一次符合的正则表达式提取所有标题
万望前辈们能够指点一二。
小生在此谢过
------解决方案--------------------
还木有人么。。
------解决方案--------------------
还是木有。。
------解决方案--------------------
已自行解决,在共有的"id="出开始提取,最后使用split筛选去<font>.*?</font>字段,这样大家就相同了。
然后用统一的一个正则表达式就可以按序将标题提取出来