日期:2014-05-17  浏览次数:20869 次

htmlparser提取网页正文
Java代码 复制代码
  1. mport?org.htmlparser.Parser;? ??
  2. import?org.htmlparser.beans.StringBean;? ??
  3. import?org.htmlparser.filters.NodeClassFilter;? ??
  4. import?org.htmlparser.parserapplications.StringExtractor;? ??
  5. import?org.htmlparser.tags.BodyTag;? ??
  6. import?org.htmlparser.util.NodeList;? ??
  7. import?org.htmlparser.util.ParserException;? ??
  8. ? ??
  9. public?class?GetContent?{? ??
  10. ???? ??
  11. ????public?void?getContentUsingStringBean(String?url)?{? ??
  12. ????????StringBean?sb?=?new?StringBean();? ??
  13. ????????sb.setLinks(true);??????????? ??
  14. ????????sb.setCollapse(true);?? ??
  15. ????????sb.setReplaceNonBreakingSpaces(true);//?If?true?regular?space? ??
  16. ????????sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");? ??
  17. ????????System.out.println("The?Content?is?:\n"?+?sb.getStrings());? ??
  18. ? ??
  19. ????}? ??
  20. ???? ??
  21. ????public?void?getContentUsingStringExtractor(String?url,?boolean?link)?{? ??
  22. ????????StringExtractor?se?=?new?StringExtractor(url);? ??
  23. ????????String?text?=?null;? ??
  24. ????????try?{? ??
  25. ????????????text?=?se.extractStrings(link);? ??
  26. ????????????System.out.println(