日期:2014-05-20  浏览次数:20696 次

散分之余的小问题
关于采集问题的构思

------解决方案--------------------
jf
------解决方案--------------------
关注
------解决方案--------------------
这个。。。jf
------解决方案--------------------
DB
------解决方案--------------------
这个需要对相关网页的结构有一个分析,比如HTML中产品名称前后有些什么特征,产品介绍有什么特征,报价有什么特征,如果分页,分页的链接有什么特征。 

对于每条记录我们设置一个标志,标志分为:正常、未执行、分析出错、IP地址限制等等。

只有将所有信息写到数据库之后才将标志设置为正常,这样就可以根据标志知道哪些没有正常执行,下次执行的时候继续执行。

至于表结构你可以根据人家HTML代码分页,哪些有特征并且是你需要的就添加相应字段。

还可以分析网页的结构,从目录页开始,采用多线程去抓取和分析,并负责添加到数据库。
------解决方案--------------------
jf 帮顶
------解决方案--------------------
我是来接分的~
------解决方案--------------------
帮顶~
------解决方案--------------------
jf
------解决方案--------------------
不明白楼主在说什么
或许是因为本鸟太菜了吧
帮忙顶一下
------解决方案--------------------
探讨
jf