用HtmlParser 写个简略的 news爬虫-HTML教程-爱易网页

用HtmlParser 写个简略的 news爬虫

日期：2014-05-17　浏览次数：20823 次

用HtmlParser 写个简单的 news爬虫

有一段时间没写博客了，这几天回到学校我同学要赶着交毕业设计，让我帮他写个爬虫，专门抓搜狐的新闻，我用过爬虫，但是从来没有自己写过爬虫，于是Google了一下，找到了一篇不错的文章：使用 HttpClient 和 HtmlParser 实现简易爬虫　 .　参考里面的代码，自己写了个简易的搜狐新闻爬虫。

　　爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻，然后将新闻添加到数据库中。

　　代码其实很简单的：

　　LinkParser.java

import com.sohu.SohuNews; import java.util.HashSet; import java.util.Set; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.NodeClassFilter; import org.htmlparser.filters.OrFilter; import org.htmlparser.tags.LinkTag; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; /** 　*　这个类是用来搜集新闻链接地址的。将符合正则表达式的URL添加到URL数组中。　* @author guanminglin 　*/ public class LinkParser { 　　　 // 获取一个网站上的链接,filter 用来过滤链接　　　 public static Set<String> extracLinks(String url, LinkFilter filter) { 　　　　　　　 Set<String> links = new HashSet<String>(); 　　　　　　　 try { 　　　　　　　　　　　 Parser parser = new Parser(url); 　　　　　　　　　　　 parser.setEncoding("gb2312"); 　　　　　　　　　　　 // 过滤 <frame >标签的 filter，用来提取 frame 标签里的 src 属性所表示的链接　　　　　　　　　　　 NodeFilter frameFilter = new NodeFilter() { 　　　　　　　　　　　　　　　 public boolean accept(Node node) { 　　　　　　　　　　　　　　　　　　　 if (node.getText().startsWith("frame src=")) { 　　　　　　　　　　　　　　　　　　　　　　　 return true; 　　　　　　　　　　　　　　　　　　　 } else { 　　　　　　　　　　　　　　　　　　　　　　　 return false; 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 }; 　　　　　　　　　　　 // OrFilter 来设置过滤 <a> 标签，和 <frame> 标签　　　　　　　　　　　 OrFilter linkFilter = new OrFilter(new NodeClassFilter( 　　　　　　　　　　　　　　　　　　　 LinkTag.class), frameFilter); 　　　　　　　　　　　 // 得到所有经过过滤的标签　　　　　　　　　　　 NodeList list = parser.extractAllNodesThatMatch(linkFilter); 　　　　　　　　　　　 for (int i = 0; i < list.size(); i++) { 　　　　　　　　　　　　　　　 Node tag = list.elementAt(i); 　　　　　　　　　　　　　　　 if (tag instanceof LinkTag)// <a> 标签　　　　　　　　　　　　　　　 { 　　　　　　　　　　　　　　　　　　　 LinkTag link = (LinkTag) tag; 　　　　　　　　　　　　　　　　　　　 String linkUrl = link.getLink();// url 　　　　　　　　　　　　　　　　　　　 if (filter.accept(linkUrl)) { 　　　　　　　　　　　　　　　　　　　　　　　 links.add(linkUrl); 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　 } else// <frame> 标签　　　　　　　　　　　　　　　 { 　　　　　　　　　　　　　　　　　　　 // 提取 frame 里 src 属性的链接如 <frame src="test.html"/> 　　　　　　　　　　　　　　　　　　　 String frame = tag.getText(); 　　　　　　　　　　　　　　　　　　　 int start = frame.indexOf("src="); 　　　　　　　　　　　　　　　　　　　 frame = frame.substring(start); 　　　　　　　　　　　　　　　　　　　 int end = frame.indexOf(" "); 　　　　　　　　　　　　　　　　　　　 if (end == -1) { 　　　　　　　　　　　　　　　　　　　　　　　 end = frame.indexOf(">"); 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　　　　　 String frameUrl = frame.substring(5, end - 1); 　　　　　　　　　　　　　　　　　　　 if (filter.accept(frameUrl)) { 　　　　　　　　　　　　　　　　　　　　　　　 links.add(frameUrl); 　　　　　　　　　　　　　　　　　　　 } 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 } 　　　　　　　 } catch (ParserException e) { 　　　　　　　　　　　 e.printStackTrace(); 　　　　　　　 } 　　　　　　　 return links; 　　　 } 　　　 public void doParser(String url) { 　　　　　　　 SohuNews news = new SohuNews(); 　　　　　　　 Set<String> links = LinkParser.extracLinks( 　　　　　　　　　　　　　　　 url, new LinkFilter() { 　　　　　　　　　　　 //提取以 http://news.sohu.com 开头的链接　　　　　　　　　　　 public boolean accept(String url) { 　　　　　　　　　　　　　　　 if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) { 　　　　　　　　　　　　　　　　　　　 return true; 　　　　　　　　　　　　　　　 } else { 　　　　　　　　　　　　　　　　　　　 return false; 　　　　　　　　　　　　　　　 } 　　　　　　　　　　　 } 　　　　　　　 }); 　　　　　　　 //循环迭代出连接，然后提取该连接中的新闻。　　　　　　　 for (String link : links) { 　　　　　　　　　　　 System.out.println(link); 　　　　　　　　　　　 news.parser(link); //解析连接　　　　　　　　　　　　　　　　　　 } 　　　 } 　　　 //测试主页新闻，可以得到主页上所有符合要求的网页地址，并进行访问。　　　 public static void main(String[] args) { 　　　　　　　 String url = "http://news.sohu.com/"; 　　　　


                    
                        
                            上一篇： 说说标准系列目录 

                            下一篇： CSS鼠标式样 
                        
                    


                    
                        免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
                    

                    


    
        相关资料更多>
    
    
        

            
                  
                      
                         psd转html学习札记2 
                   
                
                  
                      
                         W3C宣布HTML5轨范正式完工，耗时三年 
                   
                
                  
                      
                         怎么在网页下快速显示大量的文本 
                   
                
                  
                      
                         Firefox上操作html对象 
                   
                
                  
                      
                         CSS兑现星状评分效果 – CSS Star Rating 
                   
                
                  
                      
                         为何界面上的div如何都无法居中 
                   
                
                  
                      
                         FF上多个表单的提交有关问题 
                   
                
                  
                      
                         绝对推荐，HTML5与JQuery组合的幻灯片 
                   
                
                  
                      
                         CSS有关DIV background的有关问题



                
                    
                    

                    
                    
                    
                    

      
        推荐阅读更多>
      
      
          
        
                       
                             IE对CSS的点染引擎hasLayout 
                    
                       
                             传智播客 张鹏 带你一周hold住htmlcss 第17讲 css语法 
                    
                       
                             html5菜单折纸成效 
                    
                       
                             主页展示FLASH怎样插入主页? 
                    
                       
                             百度的手机web应用的宽度和高度自适应如何弄 
                    
                       
                             同一个页面为啥ie6显示正常，而ie8和火狐浏览器显示不正常 
                    
                       
                             html生成界面与显示不同解决方案 
                    
                       
                             一个图片按钮提交的奇怪有关问题 
                    
                       
                             百度mapApi进阶教程-弹出信息窗口5.html 
                    
                       
                             关于radio对象的属性,该如何处理 
                    
                       
                             承接dhtmlxtree的div设置了overflow但不见滚动条 
                    
                       
                             HTML5基础，第二部分：组织页面的输入 
                    
                       
                             Dreamweaver8入门 做了一个很简单的静态网页 但是浏览不出来，请 
                    
                       
                             HTML5+CSS3制作可自动获得焦点和支持语音输入的超酷搜索框 
                    
                       
                             网页设计中很主要的概念div+浮动. 
                    
                       
                             CSS3卡通片播放时间-速度分析 
                    
                       
                             动态生成html页面（2） 
                    
                       
                             CSS3资料上载 
                    
                       
                             帮忙看上css 
                    
                       
                             CSS文档源与块级元素(block)内联元素(inline)那点事