利用HtmlParser开展网页信息提取[原创]-HTML教程-爱易网页

利用HtmlParser开展网页信息提取[原创]

日期：2014-05-17　浏览次数：21209 次

利用HtmlParser进行网页信息提取[原创]

1.1 概述

在开发工作中，往往有些需求是需要获取某些网页中的内容。针对这一问题，目前可以采用先获取网页内容，然后对网页内容进行解析，并重新排版的方式来解决。

1.2 资源

?? 1） JDK 1.5.06

?? 2) ?HTMLParser2.0

地址：http://sourceforge.net/project/showfiles.php?group_id=24399&package_id=47712

2 对网页内容的获取和解析

2.1 HTTPLook的使用

??? 在我们模仿IE访问之前，我们首先需要知道每次请求的包头信息和请求方式以及发送的内容，并且需要知道，响应包的包头和响应内容，这样我们才能完整正确的发送请求。这个步骤我们可以采用一个小工具HTTPLook来实现，HTTPLook可以实现对请求和响应的监视。HTTPLook在网上可以随意下载，我下载的地址是http://www.crsky.com/soft/3786.html，下载完成后双击安装，一路NEXT即可，软件的主界面如下。