日期:2014-05-17  浏览次数:20593 次

java 登陆后抓取网页内容
单位里有一个接口,用的是apache的一个包,具体叫啥我也不清楚(别人写的)

接口的功能:
1:先输入登陆名和密码,查看是否登陆成功(都是由接口的代码完成)
2:登陆成功后去刷新一个页面,从页面里取出数据!

接口存在的问题:
1:总是没事丢数据,抓取的网页里有,但是取不出来,重新取一遍就能取出来!!所以一丢单子,客户就来找我......

我想问的问题:
1:还有哪些技术(或者框架)可以实现网页抓取啊!!登陆在先,不登陆取不了!
2:网上有人说webharvest可以,但没有找到例子,哪位大哥给一个先模拟登陆,再取数据的webharvest例子呗.

------解决方案--------------------

------解决方案--------------------
用Apache commons-httpclient,最新的叫做Apache httpcomponent client,可以实现登录、网页抓取等功能。
------解决方案--------------------
还没注意,apache都给提供登录更能了
------解决方案--------------------
不需要什么框架,自己写就是了,使用socket编程,不过登陆时有些情况比较复杂,特别是有很多网站的登陆需要验证码,那样的话,还得做一个效果比较稳定的图片识别程序,另外有些网站不允许站外提交表单,所以要实现一个通用的方法还是比较复杂的。
------解决方案--------------------
lz能否把源代共享一下?我现在急切需要这个程序,自己又写不出!
------解决方案--------------------
顶...