爬虫程序提取页面有关问题！-Java教程-爱易网页

爬虫程序提取页面有关问题！

日期：2014-05-18　浏览次数：20610 次

爬虫程序提取页面问题！！！！
我用爬虫程序得到了一个HTML页面，如下：
<html >
<head >
<META HTTP-EQUIV="Refresh" CONTENT="0;url=geren.asp;charset=gb2312" >
</head >
</html >
现在我想获取geren.asp页面，该如何处理，请各位高手给点意见！

------解决方案--------------------
spiders
有3个URL列表的

等待列表，已搜列表，正在搜得列表

从正在搜列表里取1个地址开始抓网页，把该网页所有地址存在一个等待LIST里面（首先检查有没有重复地址并和已搜列表对比）

通过解析页面HTML得到URL地址，如：geren.asp

获取这个页面就是用SPIDER 抓当前URL/geren.asp

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

爬虫程序提取页面有关问题！

相关资料更多>

推荐阅读更多>