日期:2011-06-11  浏览次数:20426 次

  这些天我一直在做站,感觉每个站都手动去更新,发文章,感觉好累呀,感觉是应该要买个站群软件。由于在百度了侠客站群站群系统,看了一下发现已经更换为年付了现在想起真后悔去年没着手呀,我联系www.xiake5.com上的企业QQ,估计是下班了吧,没人应我。于是就在群里问谁用了侠客的站群,一哥们说他用的,挺好的,而且现在还有免费版本,于是在www.xiake5.com/v3.rar下载免费版,就开始了侠客第一次。

  首先感觉a5的小程程给我了这么一次尝试的机会,呵呵!拿到授权的第一时间,就是开软件,更新了一会吧,打开后,发现啥都不懂。于是点开帮助,边看边学,其实也很简单,有官方制作的 教程。不过我在选择发布模块的时候,头两头真没搞懂,就是utf8这东东,我看到教程里面选择的这个,是因为他的程序是utf8 的,我的是gbk 的,不知道选择哪个,点连接的时候,说错误,后来在模块里面,看到有gbk的,试着选择了那个,结果 成功了,后来无意中,又选择了utf8,结果也是成功的,不知道是我先前操作有误还是怎么回事,呵呵,现在已经发布了100来篇文章了,接下来开始搞个抓取模块试下了。

  第一步:

  1。设置抓取模式(蜘蛛爬行)

  2。点击”流程1“开始进入设置。

  备注:蜘蛛爬行主要分二个步骤即流程1(抓取文章页的URL) 和流程2(抓取文章内容).

  下面为:点击流程1,按钮后的窗口。

  第二步:配置URL抓取参数

  1。浏览器中打开我们要采集的网页。

  2。查看网页的编码编码方式。操作台下:在打开的网页中,右击-->查看源代码-->查找"charset",如下图所示。“=”号之后的就是编码了。(当然,1,2步,也可以不要,那么我在选编码方式时,就选择自动识别即可。)

  3。现在正式配置(上面二步,可不要)。

  点击“内容页地址提取”按钮后弹出的窗口。接下的操作见下图的操作序号。

  备注:下面有三个很重要的步骤(即5,6,7步)。这样设置的目的是因为提取的链接中有些不是文章页的链接,所以我们要将这些链接过掉。其中结果必须包含中,我们设置文章页的url特性,结果不包含中,设置非文章页的特性。

  至些,文章页的URL提取规则配置,已经完成了,我们依次保存。进入下一步,“内容提取参数”配置.

  第三步:

  点击按钮,打开的窗口,按窗口的配置及顺序进行操作。

  点击测试后,出来的窗口(即提取的结果)

  至此,整个过程就完成了,我们依次,保存各个窗口,即可。

  下面是使用上面制作的模块,侠客站群日志窗口的输出及文章库中采集到的文章,效果上来说,还是不错的. ^_^有图有真相了。。。