散分之余的小问题
关于采集问题的构思
------解决方案--------------------jf
------解决方案--------------------关注
------解决方案--------------------这个。。。jf
------解决方案--------------------DB
------解决方案--------------------这个需要对相关网页的结构有一个分析,比如HTML中产品名称前后有些什么特征,产品介绍有什么特征,报价有什么特征,如果分页,分页的链接有什么特征。
对于每条记录我们设置一个标志,标志分为:正常、未执行、分析出错、IP地址限制等等。
只有将所有信息写到数据库之后才将标志设置为正常,这样就可以根据标志知道哪些没有正常执行,下次执行的时候继续执行。
至于表结构你可以根据人家HTML代码分页,哪些有特征并且是你需要的就添加相应字段。
还可以分析网页的结构,从目录页开始,采用多线程去抓取和分析,并负责添加到数据库。
------解决方案--------------------jf 帮顶
------解决方案--------------------我是来接分的~
------解决方案--------------------帮顶~
------解决方案--------------------jf
------解决方案--------------------不明白楼主在说什么
或许是因为本鸟太菜了吧
帮忙顶一下
------解决方案--------------------