日期:2014-05-17  浏览次数:20647 次

看见了就进来吧!
需求:由于数据库部分乱码 所以必须根据备份把表改过来  
由于数据量比较大,所以只能通过代码解决问题
乱码的部分 是一个url里的某个h标签的值 
目前存在的问题就是: 已经有技术可以通过url爬取到整个源代码,现在就是怎么获取到那个h标签的值,然后通过sql 语句把整个表中列都update过来?


我目前的想法 在java中拼写sql 先获得所有的url 集合 然后遍历集合 通过方法 获取源代码 
然后获取h标签的值 然后update 修改一下 
因为爬取下来的代码是字符串 怎么获取h标签的值   求思路,


------解决方案--------------------
jsoup,查一下就知道了
------解决方案--------------------
一个开源的解析html的工具包,能解析html代码并转化为dom对象,自己试试,很简单,网上找一下
------解决方案--------------------
应该是转化为document对象,刚说错了
------解决方案--------------------
你爬取之后没有对你的返回文本数据进行处理啊,跟你的需求返回文本可以用正则来匹配,可以用截取,符合xml格式的也可以用document解析啊