想用java做个爬虫，有些有关问题问下大家-Java教程-爱易网页

想用java做个爬虫，有些有关问题问下大家

日期：2014-05-20　浏览次数：21280 次

想用java做个爬虫，有些问题问下大家
想爬取一些购物信息
比如当当网、卓越亚马逊网站
这些网站允许爬虫爬吗？有没有什么限制之类的或者有没有提供接口？
还是什么网站都能爬的？

------解决方案--------------------
只要你能用浏览器打开的网站一般都可以
------解决方案--------------------

探讨

引用:

结贴，我上代码
上代码我就结贴

------解决方案--------------------
需要下载apache的httpclient包
这个包可以模拟客户端去爬取网页的信息，具体返回的是html树结构，需要自己解析其中的内容。
现在好像java6自带有httpclient包，但是没用过。以前作毕业设计的时候用过apache的httpclient
做过机票抓取。
如果是ajax网站，则采用Jrex缓冲网页文件，存储在本地，在解析。
思路大概就是如此，google也有很多资料，可以搜搜'apache httpclient例子'

------解决方案--------------------
爬他说增加他的访问量啊,为什么要禁止.
------解决方案--------------------

探讨
引用:

引用:

结贴，我上代码
上代码我就结贴

你们死锁了？

------解决方案--------------------
爬虫。。熟悉又陌生的名字