HtmlAgilityPack 爬虫批量获取百度音乐上载地址一-HTML教程-爱易网页

日期：2014-05-17　浏览次数：21150 次

HtmlAgilityPack 爬虫批量获取百度音乐下载地址一

最近对爬虫比较感兴趣。刚上手C#。于是想试试用C#实现一个爬虫，获取百度音乐的下载地址。本文没什么技术含量。只是个人兴趣，所以不厌其烦写下过程，让有兴趣的做一个参考。

如图百度音乐的首页

我以抓取新歌Top100这个榜单上的10首歌的下载地址为例说一下整个过程。

它对应的源代码是

这里我们看到在歌曲的名字上有一个超链接。”/song/31496563” 实际上是指向这首歌的歌词和基本信息的页面。注意<a> 标签中有一个sid值也是31496563

进入下载页面后，打开的是http://music.baidu.com/song/31496563/download

这里假设所有歌曲的下载页面地址是 http://music.baidu.com/song/歌曲的sid/download

依次查看了其他几首歌的下载页面，基本可以确定是这样了。

接着我们看源代码

下载按钮对应了一个超链接。点击这个链接，浏览器就直接跳出了下载的文件。

实际上歌曲的地址就是那个 link= 后面的地址

http://zhangmenshiting.baidu.com/data2/music/31626527/314965631355824861128.mp3?xcode=16ac04c627eeedb317e77954bed13215

这个是可以通过迅雷-新建任务来下载的。

那么我们的流程是

1 解析百度音乐主页获取到具体一首歌的 sid 值

2 根据sid值就能找到对应的歌曲下载页面

3 解析歌曲下载页面找到下载按钮对应的超链接

4 取超链接的link后面的地址作为最终有效的下载地址

5 保存有效下载地址并输出为txt文本

6 将txt文本内容通过迅雷新建任务实现下载

7 收工。

整个流程的思路搞清楚了。可以开始准备动手编码了。

编码之前。要考虑一个问题。网页内容的加载，用什么，解析用什么。之前在写QQ空间日志下载的时候，是用C++实现的。下载网页，内容解析完全是基于字符串的操作。如果现在还用字符串查找，再搜索，截断这种原始的操作一定会崩溃的。

在网上找到一个口碑极好的C# dll，HtmlAgilityPack.dll，用它来下载网页并转换为节点进行操作，个中强大非三言两语能说完。

HtmlAgilityPack.DLL是基于XPath操作的。XPath的简介和语法见http://www.w3school.com.cn/xpath/

现在基于XPath的基础上，再看一遍主页的源代码

这次我们着重看这个节点的分布。

用XPath来描述新歌Top100里面的内容，就是

./html[1]/body[1]/div[4]/div[1]/div[1]/div[2]/div[3]/div[1]/div[1]

如果不知道它代表什么意思，看起来就有些诡异。实际上它的意思就是 html标签下面的第一个body标签下面的第四个div如此类推。

为了分析html和xpath之间的关系。我又单独写了一个XPath分析工具可以查看到这样的效果

这个意思就是提取出

. ./html[1]/body[1]/div[4]/div[1]/div[1]/div[2]/div[3]/div[1]/div[1] 节点下面 <a>标签中的所有 sid

假设sid就是 31496563 那么下载页面就是

http://music.baidu.com/song/31496563/download 要找这个页面中的下载按钮对应的超链接，可以用Xpath表达式再提取出其中的a标签的href属性值就能得到包含歌曲下载地址的字符串了

在工具中查看

./html[1]/body[1]/div[1]/div[2] 中a标签的title就能得到歌手名和歌曲名了

在工具中查看

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。