日期:2014-05-16  浏览次数:21228 次

有没有一种方法能够下载iis和apache等web服务器里所有的网页
最近在毕业设计题目是p2p网络爬虫,心想与其是自己费那么大力气爬网页判重,不如直接从dns服务器获得所有域名的ip然后,再在所有ip的web服务器下载所有web,不知道可不可能实现

------解决方案--------------------
想法不错。等你开发~~下一个bill。异想天开,首先dns服务器你没办法,其次网站你也没办法下载。
------解决方案--------------------
现在的服务器大多是多个域名对应一个IP地址,如果用你的想法肯定好多网站都访问不到,
况且域名或IP访问到的效果是一样的
我们仅能做客户端的浏览,是服务器执行完后送给我们的,我们是被动接收的.
网络爬虫必须是一张一张的HTML代码信息抓取,然后你在过滤掉不需要的部分
------解决方案--------------------
楼主的想法真的是很大胆,支持下

记得在apache服务器下有一个设置是可以浏览目录结构的,你只要在服务器上设置下,就能够下载该站的所有文件了,怎么样,是否可行?
------解决方案--------------------
网站下载器