日期:2014-05-20  浏览次数:20730 次

关于QQ、网易等网站新闻评论的抓取问题
比如QQ的 http://comment5.news.qq.com/comment_group.htm?site=news&id=30290178
它的这些评论是怎么放进去的呀? 我点查看源代码看不到这些评论的内容

我想些个程序来爬这些评论的内容 但不知道怎么爬 连它所对应的URL都不知道  
貌似这些新闻网站的评论都是这么做的,难道是为了防止别人抓取吗,还是有其他用意?

菜鸟求教啊

------解决方案--------------------
能爬到的。。只要能显示出来的东西我都能爬到
------解决方案--------------------
还在用正则表达式来采集啊。

现在用DOM对象来采集才行了,因为ajax应用太广泛了。

把网页解析成DOM对象以后才能把ajax显示的内容也采集。

自己搜索一下吧,网络很多这种信息。
------解决方案--------------------
看来现在爬数据很热哦,我想爬天涯的帖子,每次跟帖都很累。有人有想法吗?交流下。
------解决方案--------------------
这些数据是动态加载出来的,源码是看不到的。