日期:2014-05-16  浏览次数:20386 次

java平台利用jsoup开发包,抓取优酷视频播放地址与图片地址等信息。

/********************************************************************************************
 * author:conowen@大钟                                                                                                                          
 * E-mail:conowen@hotmail.com

 *site:http://www.idealpwr.com/  

 *深圳市动力思维科技发展有限公司                                                                                                         
 * http://blog.csdn.net/conowen                                                                                                              
 * 注:本文为原创,仅作为学习交流使用,转载请标明作者及出处。     

 ********************************************************************************************/

一: 项目目的

         最近项目设计到网联网视频采集聚合,写了一个关于互联网视频的信息爬虫的小程序,以youku在线视频网站为例,实现一个java平台下的应用程序,动态抓取互联网视频信息保存到本地xml文件,构建一个多媒体播放源中心。


二:项目第三方库:

1、jsoup (HTML代码解析器)


     jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

·从一个URL,文件或字符串中解析HTML;

·使用DOM或CSS选择器来查找、取出数据;

·可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

官方地址:http://jsoup.org/


2、jdom (XML构建于解析工具)

通过jdom,可以很容易地构建符合规范的xml文件,并且,jdom提供对xml文件的快速解析。

官方地址:http://jdom.org/


三:开发大体过程:

如youku(优酷)在线视频播放网站,本身就做了互联网视频聚合,就是旗下的soku,以下就已soku为例


如电视剧所对应的url地址为:http://www.soku.com/channel/teleplaylist_0_0_0_1_1.html

通过浏览器查看这个页面的HTML代码分析可知

<div class="item">
			<ul class="p pv">