日期:2014-05-20  浏览次数:20669 次

求一个能够读取网页纯文本内容的程序
http://www.360doc.com/content/11/0511/02/1947337_115852644.shtml
请参照里面输入URL的那个
就是我要求输入URL
能够输出提纯后的纯文本,以str或者.txt文本文本输出都可以

------解决方案--------------------
http://blog.csdn.net/huxiweng/article/details/6722997

这是爬图片或者超链接的一个列子,你直接输出html就可以了,就是不用节点过滤。网上代码也很多的。

------解决方案--------------------
用正则表达式,把非汉字替换掉就行啦。。

Java code

String str = "as柔柔弱弱dfa点点滴滴dfwe";
str = str.replaceAll("[^\u4e00-\u9fa5]+", "\n");
System.out.println(str);

------解决方案--------------------
百度htmlParse
------解决方案--------------------
用htmlparser获取到网页内容 然后自己用正则表达式去匹配吧
------解决方案--------------------
根据lz的需求,可以这么做了,使用httpClient模拟请求http 然后,获取返回的内容,再把返回内容中的,纯文本取出就可。