htmlparser提取网页正文
    
- mport?org.htmlparser.Parser;? ??
 
- 
import?org.htmlparser.beans.StringBean;? ??
 
- 
import?org.htmlparser.filters.NodeClassFilter;? ??
 
- 
import?org.htmlparser.parserapplications.StringExtractor;? ??
 
- 
import?org.htmlparser.tags.BodyTag;? ??
 
- 
import?org.htmlparser.util.NodeList;? ??
 
- 
import?org.htmlparser.util.ParserException;? ??
 
- ? ??
 
- 
public?class?GetContent?{? ??
 
- ???? ??
 
- 
????public?void?getContentUsingStringBean(String?url)?{? ??
 
- 
????????StringBean?sb?=?new?StringBean();? ??
 
- 
????????sb.setLinks(true);??????????? ??
 
- 
????????sb.setCollapse(true);?? ??
 
- 
????????sb.setReplaceNonBreakingSpaces(true);??
 
- 
????????sb.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");? ??
 
- 
????????System.out.println("The?Content?is?:\n"?+?sb.getStrings());? ??
 
- ? ??
 
- ????}? ??
 
- ???? ??
 
- 
????public?void?getContentUsingStringExtractor(String?url,?boolean?link)?{? ??
 
- 
????????StringExtractor?se?=?new?StringExtractor(url);? ??
 
- 
????????String?text?=?null;? ??
 
- 
????????try?{? ??
 
- ????????????text?=?se.extractStrings(link);? ??
 
- 
????????????System.out.println(
 
 
                        
                     
                    
                    
                        免责声明: 本文仅代表作者个人观点,与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。