日期:2014-05-18  浏览次数:20639 次

关于JAVA抓取网页信息
小弟今天遇到一个问题,关于用JAVA抓取网页信息,我想抓取指定的网页信息,比如说标题,正文,我想把目标地址HTML网页抓取到然后解析XML,但是XML的节点也太多了,不知道该怎样截取到我想要的信息,求各位大神帮帮忙,告诉我下该怎么截取到我想要的信息,小弟在此谢谢了,可以的话叫我Q356142739.

------解决方案--------------------
你想要那些重要信息就抓取那些。
------解决方案--------------------
一般把源码抓下来后 勇正则表达式筛选
------解决方案--------------------
这个应该网络上有一大把现成的DEMO吧
------解决方案--------------------
建议获取到html之后,用dom4j去解析xml,可以参考http://www.ibm.com/developerworks/cn/xml/x-dom4j.html
------解决方案--------------------
解析html方法很多,我用的是Jsoup,值域找到你想要的内容,这个就比较麻烦了,要用些正文提取的手段,这种手段没有公认的有效成果,一般都是通过正文内容特征等等来搞