日期:2014-05-17 浏览次数:20680 次
1.1 概述
在开发工作中,往往有些需求是需要获取某些网页中的内容。针对这一问题,目前可以采用先获取网页内容,然后对网页内容进行解析,并重新排版的方式来解决。
1.2 资源
?? 1) JDK 1.5.06
?? 2) ?HTMLParser2.0
地址:http://sourceforge.net/project/showfiles.php?group_id=24399&package_id=47712
2 对网页内容的获取和解析
2.1 HTTPLook的使用
??? 在我们模仿IE访问之前,我们首先需要知道每次请求的包头信息和请求方式以及发送的内容,并且需要知道,响应包的包头和响应内容,这样我们才能完整正确的发送请求。这个步骤我们可以采用一个小工具HTTPLook来实现,HTTPLook可以实现对请求和响应的监视。HTTPLook在网上可以随意下载,我下载的地址是http://www.crsky.com/soft/3786.html,下载完成后双击安装,一路NEXT即可,软件的主界面如下。
??????
? 在操作之前,点解上图中的绿色箭头即可。
2.2 获取网页内容
我们可以采用java.net包中的HttpURLConnection类和URL类来产生和发送请求,并且获取网页。只要流程包括
1)设置采用POST方式时候,发送的请求内容
2)设置请求地址
3)打开链接
4)获取COOKIE,这一步可以有也可以没有,如果在HTTPLook截获的请求信息中包含COOKIE时,这是需要次步。