网页信息采集
初学,自己做的项目中,需要进行主流门户网站的信息分类采集存入数据库,供需要时检索。
但对网页爬取不太了解。
请教懂得大神们,这个是要自己写爬去程序+正则过滤(如果是怎样去学习或有什么开源可以借鉴),还是能借用些第三方工具。
请指条明路给在下,不胜感激。
------解决方案--------------------jsoup
------解决方案--------------------神器jsoup你值得拥有
------解决方案--------------------用jsoup试试看,就是一个工具!
------解决方案--------------------套路都差不多。
1,模拟浏览器请求返回数据
2,解析自已需要的数据项。