日期:2014-05-18  浏览次数:20833 次

关于网络抓取的,希望给点思路
想做个小程序,实现从网上抓取某些图书的信息,比如图片、价格。

貌似这些只有几个大的网站才有比如当当

但是怎么样才能从当当网下载我需要的图书的页面?

http://product.dangdang.com/product.aspx?product_id=20910562

比如这本书,我怎么才能得到product_id...

如果有别的可行的思路,也可以。

------解决方案--------------------
我去年做过一个,抓取京东、当当、卓越亚马逊的图书信息的,如果有需要,留一个邮箱,发给你参考一下吧。

主要思路就是模拟请求-》获取html-》解析

但是问题就是,当要抓取的页面结构发生变化的时候,代码也要跟着变动。

这个代码如果现在抓取不到数据的话, 你可以自己debug一下, 很可能是因为对方页面结构变动之后,没有正确匹配的关系。

记得给给我分哦。。。