htmlparser提取网页正文
- mport?org.htmlparser.Parser;? ??
-
import?org.htmlparser.beans.StringBean;? ??
-
import?org.htmlparser.filters.NodeClassFilter;? ??
-
import?org.htmlparser.parserapplications.StringExtractor;? ??
-
import?org.htmlparser.tags.BodyTag;? ??
-
import?org.htmlparser.util.NodeList;? ??
-
import?org.htmlparser.util.ParserException;? ??
- ? ??
-
public?class?GetContent?{? ??
- ???? ??
-
????public?void?getContentUsingStringBean(String?url)?{? ??
-
????????StringBean?sb?=?new?StringBean();? ??
-
????????sb.setLinks(true);??????????? ??
-
????????sb.setCollapse(true);?? ??
-
????????sb.setReplaceNonBreakingSpaces(true);??
-
????????sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");? ??
-
????????System.out.println("The?Content?is?:\n"?+?sb.getStrings());? ??
- ? ??
- ????}? ??
- ???? ??
-
????public?void?getContentUsingStringExtractor(String?url,?boolean?link)?{? ??
-
????????StringExtractor?se?=?new?StringExtractor(url);? ??
-
????????String?text?=?null;? ??
-
????????try?{? ??
- ????????????text?=?se.extractStrings(link);? ??
-
????????????System.out.println(
免责声明: 本文仅代表作者个人观点,与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。