爬虫程序提取页面问题!!!!
我用爬虫程序得到了一个HTML页面,如下:
<html >
<head >
<META HTTP-EQUIV="Refresh" CONTENT="0;url=geren.asp;charset=gb2312" >
</head >
</html >
现在我想获取geren.asp页面,该如何处理,请各位高手给点意见!
------解决方案--------------------spiders
有3个URL列表的
等待列表,已搜列表,正在搜得列表
从正在搜列表里取1个地址开始抓网页,把该网页所有地址存在一个等待LIST里面(首先检查有没有重复地址并和已搜列表对比)
通过解析页面HTML得到URL地址,如:geren.asp
获取这个页面就是用SPIDER 抓 当前URL/geren.asp