日期:2014-05-20  浏览次数:20615 次

网页信息提取
哪位大神能帮小弟一个忙,我是刚开始学java,现在老师让我做一个将某个纯文字的网页的某些参数值自动提取后存入数据库,要求定时提取,因为对方网站数据库有权限不能进入,只能抓取网页上的数据,它上面的数据也是定时更新的,参数是这样的例如:张三  90分,我要取的就是那个人,和90分提取下来存入数据库,现在小弟就是漫无目的的看,希望哪个大神给指点一下都需要哪些函数,或者给小弟一个大概的模板,一个思路,需要学习网页的哪些知识等,这样可以提高点效率,多谢了!

------解决方案--------------------
这事以前我经常干,从人家网站抓图链接下载到本地。
首先一个for便利,遍历所有要访问的网页。
for里面进行url请求,获取网页的代码
最后用正则提取(当然这里不推荐正则,大数据量的情况下正则写不好的话很慢的)或者.indexOf(str1, 10)配合sustring(int,int)来获取
------解决方案--------------------
Jsoup抓取,很简单,就几行代码。
------解决方案--------------------
Jsoup抓取,很简单,就几行代码。用过jquery就会用这个,抓抓抓抓