想用java做个爬虫,有些问题问下大家
想爬取一些购物信息
比如当当网、卓越亚马逊网站
这些网站允许爬虫爬吗?有没有什么限制之类的或者有没有提供接口?
还是什么网站都能爬的?
------解决方案--------------------只要你能用浏览器打开的网站一般都可以
------解决方案--------------------
------解决方案--------------------需要下载apache的httpclient包
这个包可以模拟客户端去爬取网页的信息,具体返回的是html树结构,需要自己解析其中的内容。
现在好像java6自带有httpclient包,但是没用过。以前作毕业设计的时候用过apache的httpclient
做过机票抓取。
如果是ajax网站,则采用Jrex缓冲网页文件,存储在本地,在解析。
思路大概就是如此,google也有很多资料,可以搜搜'apache httpclient例子'
------解决方案--------------------爬他说增加他的访问量啊,为什么要禁止.
------解决方案--------------------
------解决方案--------------------爬虫。。熟悉又陌生的名字