爬虫-Java教程-爱易网页

爬虫

日期：2014-05-20　浏览次数：20793 次

爬虫求助
我在搜集数据的时候ip被一些网站封锁了，现在不能搜集这些网站的数据了，但是急着用这些数据！求助啊！！怎么样解封额！谢啦！（我用的是commons-httpclient-3.1）

重点：httpclient被封锁，但是浏览器却依然可以正常访问

已经尝试过的思路：
1 ip代理
结果：失效，透明代理依然会被封锁，匿名代理和超匿代理被禁止访问，是不可用的

2 访问速度控制
结果：无效，网站的防爬策略是基于流量的，哪怕我模拟人工的访问方式，流量过大依然会被封锁

预尝试方法：
1 有两个外网ip，在这两个之间切换
缺陷：封锁和解锁的时间不能平衡，比如说爬行2分钟就会被封锁，但是要15分钟才能解锁
2 有一个外网ip是动态分配的，当被封锁后，重新拨号获取新的外网ip
缺陷：考虑到爬虫的运行效率，这样的处理怕是效率太低了，达不到爬虫应用的应用效果

大家谁有更好的思路或者方法

------解决方案--------------------
加一句下面这个代码
URLConnection conn=name.openConnection();
conn.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows XP; DigExt)");
------解决方案--------------------
啊，我那是自己写的爬虫，没用什么外加的jar
我写的是爬csdn上发的代码段
------解决方案--------------------
嗯，我没用他的httpClient
他的解决乱码问题挺不方便的
我自己写，感觉自己用着挺舒服
他的好多方法需要看api
------解决方案--------------------
会乱码，我用几年了都没问题

探讨

嗯，我没用他的httpClient
他的解决乱码问题挺不方便的
我自己写，感觉自己用着挺舒服
他的好多方法需要看api

------解决方案--------------------
7楼
那个它下什么都不乱码吗？是我是我用错了？
还是版本问题啊
愿意留下QQ吗？和楼主
------解决方案--------------------
最近我也想写个爬虫的，以前写过一个爬机票的，就像去哪儿那样的，就用的是动态ip ，断开重连。
最好的方法是有几个，然后同时进行收集资料，一个ip肯定不行。效率太低。

个人技术博客：http://www.happyalaric.com

探讨
我在搜集数据的时候ip被一些网站封锁了，现在不能搜集这些网站的数据了，但是急着用这些数据！求助啊！！怎么样解封额！谢啦！（我用的是commons-httpclient-3.1）

重点：httpclient被封锁，但是浏览器却依然可以正常访问

已经尝试过的思路：
1 ip代理
结果：失效，透明代理依然会被封锁，匿名代理和超匿代理被禁止访问，是不可用的

2 访问速度控制
结果：……

------解决方案--------------------
#9 博客真帅
------解决方案--------------------
有些爬不了的，要一个个分析，例如：我在防止爬虫的页面上使用JAVASCRIPT，用户点击超链接会动态添加一个参数进去，如果你用爬虫则无这个参数，除非你分析我的JAVASCRIPT把需要加参数的链接处理一下。
------解决方案--------------------
12楼把你网址发下，我试试

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

爬虫

相关资料更多>

推荐阅读更多>