日期:2014-05-18  浏览次数:20569 次

JSP程序如何采集网站下所有页面的标题,特急,立即加分
各位高手,我第一次来CSDN,希望大家多多帮助和关照,让我感受一下这网站的名气和效率


用jsp程序如何采集某个网站下所有页面的标题,把采集到的网页标题和该网页的链接地址输入到数据库里


就是说在表单里输入一个网站的域名,就可以采集这个页面下所有链接的页面的网页标题.

比如说:我在表单里输入http://www.sina.com,就可以采集到www.sina.com下所有链接页面的网页标题,把采集到的网页标题和该网页的链接地址录入到数据库里


有什么最优化的办法和要应用什么样的代码来实现

------解决方案--------------------
网页爬虫啊?Google一下,大把。
------解决方案--------------------
XML
------解决方案--------------------
可以采用网页爬虫,但是对于LZ是否能实现持怀疑态度.现在的网页大多是HTML格式的,写法很混乱不规范,很难保证抓到的信息是你要的.如果是XML就完全没问题