爬虫提取网页上的数据,该如何解决-Java教程-爱易网页

爬虫提取网页上的数据,该如何解决

日期：2014-05-20　浏览次数：20709 次

爬虫提取网页上的数据
爬虫提取网页上的数据谢谢,重谢,有解决方法马上结贴

------解决方案--------------------
首先你得先控制你要截取的东西.标题,内容,,作者...
然后你得根据不同的网站定义不同的截取方法,,必然xx网的标题前是<div class=title>这是标题</div>
那么你的标题截取就应该从<div class=title>开始....</div>结束...其实爬虫就是一个过滤的过程,,
看你如何过滤了
------解决方案--------------------
网络爬虫,不停的在网络上爬，然后建立索引你搜索的时候是到索引库中去找的，直接根绝关键词找到相应的索引.

兴趣可以看一下Lucene(Java的，相应的有Lucene.NET)
------解决方案--------------------
是做搜索还是采集
搜索用LUCENE
采集用HTTPCLIENT
------解决方案--------------------
java有个htmlPase类可以很方便的操作网页数据
给你个地址自己看吧
http://hi.baidu.com/shenxiaolei_it/blog/item/bd41f3fb78f913126d22eb50.html
------解决方案--------------------
http://www.locoy.com/locoy/2008/0123/down-55.html这是一个很好的采集器..你可以下下来用用..看看人家是怎么做的
jf..
jf
jf
jf.......................

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关资料更多>

hibernate4中session的update方法不受spring治理

怎么解决该有关问题: signer information does not match signer information

josepbus 环解决方案

有没可能在dao层写hql语句实现注册提交同时添加两张表？该如何处理

请教c++中lpctstr对应JAVA什么类型

怎么让网页设计人员和后台业务人员工作互相独立

java.lang.NumberFormatException: For input string: 急需帮助

J2EE项目代码编撰规范

请教达人byte数据类型，怎么正确赋值

香港全能空间免费试用15天香港高速云虚拟主机PHP/ASP/NET送MSSQL和MYSQL

爬虫提取网页上的数据,该如何解决

相关资料更多>

推荐阅读更多>