使用java做网络爬虫中获取网页数据的问题
最近在做一个搜索项目,所以刚开始学习网络爬虫的内容,使用java开发的
在爬去哪儿的机票信息时,发现页面显示的机票信息并不在页面源代码中出现,
导致即使下载了该页面也无法获得页面内的机票信息
所以在这里想问一下对于这种动态产生结果的网站,要如何处理才能用网络爬虫获得那部分的数据
可以的话,也请大家告知这种动态产生结果是如何是实现的
求高手指教,在此先谢过大家
ps:由于第一次在此发帖,不知是否应该发在这个版区,若有不妥,请版主指出,再做修改
------解决方案--------------------
sleep就sleep吧,如果觉得速度慢可以试试加进程. 线程我试过不明显, 加进程应该可以解决. 用不同的客户端去跑,每个跑不同的链接,汇总数据push到你统一的数据集中.