日期:2014-05-17  浏览次数:20411 次

如何抓取网站的内容
http://sse1.paipai.com/s-rwlsl--1-48-80---3-4-3----2-2--128-0-0-PTAG,20084.2.2.html
这是在拍拍网搜索T恤的结果页,每一页有52个商品,如何获取这52张图片和他们的价格,是否需要用到正则,如果是..要怎么写,还是说拍拍网有API可调用

------解决方案--------------------
用正则去匹配是次傻(最傻的做法是字符串匹配)的做法
建议你通过Html DOM去解析,HtmlAgilityPack是一个不错的解析工具
------解决方案--------------------
赞成用HtmlAgilityPack.dll 搜索一下使用方法,不用写正则,很方便获取到节点的数据
------解决方案--------------------
获取图片: <img init_src="(.*?)" height="200" width="200" alt="" />
获取标题: CheckAuction\(\d+,'\S+','\d+','(.*?)'\)" itemprop="name">