htmlparser提取网页本文-HTML教程-爱易网页

日期：2014-05-17　浏览次数：20935 次

htmlparser提取网页正文

Java代码

mport?org.htmlparser.Parser;? ??
import?org.htmlparser.beans.StringBean;? ??
import?org.htmlparser.filters.NodeClassFilter;? ??
import?org.htmlparser.parserapplications.StringExtractor;? ??
import?org.htmlparser.tags.BodyTag;? ??
import?org.htmlparser.util.NodeList;? ??
import?org.htmlparser.util.ParserException;? ??
? ??
public?class?GetContent?{? ??
???? ??
????public?void?getContentUsingStringBean(String?url)?{? ??
????????StringBean?sb?=?new?StringBean();? ??
????????sb.setLinks(true);??????????? ??
????????sb.setCollapse(true);?? ??
????????sb.setReplaceNonBreakingSpaces(true);//?If?true?regular?space? ??
????????sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");? ??
????????System.out.println("The?Content?is?:\n"?+?sb.getStrings());? ??
? ??
????}? ??
???? ??
????public?void?getContentUsingStringExtractor(String?url,?boolean?link)?{? ??
????????StringExtractor?se?=?new?StringExtractor(url);? ??
????????String?text?=?null;? ??
????????try?{? ??
????????????text?=?se.extractStrings(link);? ??
????????????System.out.println(

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。