本教程我们以天空下载站为例,简要说明下新云的采集规则,适合入门新手,高手请飘过。
其实规则并不难,自己多试试就会了。
现在请把新云后台打开,我们一起来看看采集规则是怎么写的。
首先进入新云管理系统后台,在“
文章中心”找到“
文章采集管理"这一项,选择顶部的”
添加采集项目“,如果你设置了其他的栏目,那么请选择对应的栏目进入。这次采集我们以这个:
http://www2.skycn.com/sort/sort0200wz_indate_DESC_1.html天空下载站这个栏目作为目标站。
项目名称:天空下载站
目标站点URL:http://www2.skycn.com/所属分类:选择你所要添加到的栏目。所属专题:假如你设置了专题,也可以选择。远程列表URL:http://www2.skycn.com/sort/sort010000_indate_DESC_1.html其他的不用管,点下一步,我们来看列表文件的采集代码:在目标页面空白处点右键,点”查看源文件”调出列表页面的源代码,我们根据列表页面很容易看出,文章列表的开始部分就在:
<tr>
<td valign="top">
<table width="564" border="0" cellspacing="0" cellpadding="0">
<tr>
再来看获取列表结束代码:
</table>
<table width="550" border="0" align="center" cellpadding="0" cellspacing="0">
<tr>
获取连接开始代码:
<a href='
获取连接结束代码:
'><strong>
下一步,我们来看文章页面的规则。在写的过程中要注意“代码的唯一性”。
http://www2.skycn.com/article/6681.html
点开内容页面,同样的方法调出内容的“源文件”。
获取文章标题开始代码:因为<title></title>中间的代码比较乱,我们可以选择文章部分的TITLE,代码如下:
<td height="40" align="center" bgcolor="#F7F7F7"><strong><font size="2">
获取文章标题结束代码:</font></strong></td>
获取文章内容开始代码:
<td align="center"><table width="96%" border="0" cellspacing="0" cellpadding="0">
&