日期:2011-09-23 浏览次数:20551 次
影视剧情介绍方面的网站属于数量泛滥,但是缺乏精品的一类。内容原创的网站不多,更多是收集各地分散的影视资源加以汇总。尤其是电视剧介绍,经常是分集连载方式,这就使得站长需要不断关注正在更新的剧集,一集一集补充上去,难以一步到位。维护影视剧情网站更是偷懒不得,必须保持更新,否则内容很快过时。
本人运行影视剧情站一段时间就遇到这个问题,一部电视剧的介绍前前后后更新多次,尤其是热播剧,不断追加内容直至完整。
建站初期为了尽快充实全站内容,需要收集整理大量的影视介绍文字,除了人工整理编辑之外,也尝试过一点内容采集,然后进行二次编辑修改,这样就可以为用户提供足够丰富完整的电影与电视剧内容,这个过程也是费了点头脑,简要叙述一下吧。
浏览学习大量同类网站以后,发现tvmao在影视剧情搜索方面的排名非常好,毕竟是百度open的名站,内容也相当丰富,二话不说,先从tvmao借鉴些内容。
tvmao的影视剧情部分算是比较容易采集,页面模板固定、正文内容没有干扰,看起来没有任何防采集处理。实际采集过程略微一波三折,总体说来采集障碍不大。
说下采集tvmao的经过,我的网站使用美国空间,tvmao应该是浙江电信的空间。第一阶段我是直接在国外的空间上运行采集工具(远程采集),最直接的采集然后数据入库,因为国外连国内,速度不算很快,不过还比较稳,大约采集了一两千部电视剧剧情,遭遇第一次杯具:服务器的IP被tvmao封了。
服务器IP被对方封禁以后迟迟不见解封,应该是tvmao对这个IP永久屏蔽了,更换服务器IP肯定是行不通,总不能封一次换一个,于是想到本地执行采集,然后远程写入服务器的数据库,前提是数据库允许远程访问。随后的实践证明这种采集(本地采集+远程入库)方案比较可行,但是也会有点遗憾,因为我的服务器在国外,而我在国内采集到的内容要远程写入国外的数据库,会发现远程写入的速度比较慢,因为写入过程实际包括了查询、插入、更新、删除的多个数据库操作过程,这些过程都通过远程访问执行就导致整个采集过程变慢。更严重的是远程操作数据库过程中不定时出现数据库连接进程超时之类的问题,导致写入失败。
如果我的服务器在国内,访问速度够快,也许上述方案可行,先留作备用方案吧。
静下心来又学了一点采集原理,实施了第三套方案(远程采集+http代理),还是在国外的服务器上执行采集,只是对采集工具做了一点伪装:使用http代理,伪造文件头、访问来路等等。随后的采集过程中发现,真正起作用的是http代理,在采集工具中设置http代理,选用电信IP的代理,因为tvmao的网站使用电信空间,这样采集下来发现速度比第一套无代理的采集更快,感觉真是痛快。
第三套方案采集一两千部电视剧以后又发现问题,http代理的IP也会被tvmao屏蔽,但并非永久屏蔽,猜测应该是tvmao的网站程序作了一些处理,就是发现一个IP短时间内访问的页面太多,就会屏蔽一段时间,即使我采用了几十个代理随机轮换采集,仍然在一段时间以后会出现采集不到的情况。后来还不定时地发现采集内容不完整,例如tvmao的电视剧分集介绍每页3集,假设每集有十几句话,实际采集到的只有每集一句话,晕,怎么会这样????或者一部电视剧30集,采集回来发现漏掉好多集,给这部电视剧重新采集一遍,能够弥补几集,仍有遗漏。
所以第三套(远程采集+http代理)方案在采集tvmao的时候最终遭遇了不能完整采集页面的问题,作为猜测,或许是代理服务器的问题,也或许tvmao采取了一些反采集措施,首先tvmao不可能完全屏蔽这些代理服务器的IP,否则搜索引擎的爬虫也会遭遇同样问题,因此针对采集者IP返回不完整的页面内容,而这几乎不影响搜索引擎对页面基本内容的抓取,因为tvmao的权重很高,它的页面只需要一个title,甚至不需要任何正文内容,就能占据很好的搜索排名(这仅仅是猜测,也许tvmao不会这么小气)。
而且使用http代理的另一个问题是并非每个代理都100%可用,随时可能不稳定,同时我使用的并非匿名http代理,对方可以很容易查到我的服务器IP,还是比较容易被屏蔽或防范的。
实施第四套采集方案,本地采集+本地入库,然后在把本地库打包上传到网站空间,导入。这也是不得已的办法,本地采集可以随时更换本机IP,所以不担心IP被封,实际操作时也发现这样采集到的页面内容100%完整,不再出现上一方案丢三落四的情况(所以我始终不明白为什么远程+代理的采集会有时候采集不到完整内容),而且采集速度最快。
最终就是通过第四套(本地采集+本地入库)的方式完成了tvmao影视剧情的采集,1万1千多部电视剧,接近20
万分集介绍,以及接近4万部电影的介绍,还有n多的演员表。
总结一下这段采集经历,
1,远程采集、无代理,这种方案最直接,适用于完全不设防的目标网站;
2,本地采集+远程入库,勉强可行的方案,如果网站空间访问速度够快,比如国内的空间,同时数据库支持远程访问,应该也是非常好的办法(本人没有亲测)。
3,远程采集+http代理,可用于防采集措施相对简单的网站,实际上即使用了http代理,考虑到通常不是匿名代理,因此网站空间的真实IP仍然会被对方检查到,略加技术处理就可以防采集。如果采集量不大、采集不是很频繁,这种方式不错。
4,本地采集+本地入库,单单从采集速度与采集效果来看,这是针对tvmao采集的最好手段。因为采集速度快,访问目标网站的频率很高,如果目标站严格限定同一IP的访问频率,例如10秒钟访问10张网页,99.9%的真实用户访问网页不会这么快,所以快速采集实际上很容易被发现并且屏蔽。庆幸的是采集与搜索引擎的爬虫机理相似,使得对方顾忌误杀爬虫所以就给了采集者机会。可以这么说,能够被搜索引擎顺利爬取的网站都比较容易采集。
网站内容初步丰富以后就是后续不断更新完善,电影部分比较简单,一次整理好就基本OK,电视剧部分需要关注一些尚未完整的剧集,做下记录,定时进行补充直至完善。
前段时间新闻一直在说国家大力促进文化产业繁荣大发展,电影与电视剧行业必将发展更快,关注影视内容的用户将越来越多,希望我的剧情站能够跟上这一波潮流从而获得不错的人气。
新站还说不上更多心得与经验,仅是一点分享,自我感觉水平非常有限,期待与更多有这方面爱好的朋友交流学习,期望遇得高人指点,本人qq 1559648233,希望与各位站长朋友多多交流:-)