日期:2011-08-14 浏览次数:20641 次
很多新虫友最近都感觉资源获取越来越难,总是说我们除非官方赠送的百万资源都不知道该怎么去搞资源,搞不到资源那还该如何去做外链呢?其实chongseo在很早的“文章采集与网址抓取”一文就说到过,也在YY培训里讲到过,虫虫营销助手的资源抓取方法就是利用的搜索引擎语法去进行资源的抓取的,只要稍稍懂得搜索引擎语法,那么抓取资源就是件非常轻松的事儿,不管是用来抓取资源,还是查询自己网站收录或者竞争对手收录、网站情况都个非常容易的事儿,那么废话少说了,该怎么样利用搜索引法去找资源呢?跟chongseo一起来看下吧!
一、inrul指令
这个指令打眼儿一看就知道包含两层意思,一个是in,也包含意思,还有一个url,也是网址意思,大家也可以理解成某个url地址页面中或url地址中包含某个关键词。如我要查询本站资讯中心有多少收录,那用到的语法就是site:www.chongseo.com inrul:news,那么得到结果就是本站所有资讯中的收录,这时inurl的作用就是url地址包含某个关键词,再如我们都知道我常用论坛有discuz论坛,通常大部分论坛都在底部保留一个版权,那么我们可以用inrul:powered by discuz得到有关某个url页面出现powered by discuz返回结果了,这样我就能通过这条指令获取大多论坛资源了。
二、intitle指令
intitle指令非常好理解,直接用笨方法拆开来理解,就是得到的结果页面title即标题中里面含有您要搜索的关键词页面,如intitle:博客群发,那么得到结果就是所有页面标题中出现博客群发,目前,gg和baidu都支持这个指令。最初的时候chongseo也是经常使用这个指令去搜集抓取资源,非常适合新手,但得到资源不是非常精确。
三、双引号作用
把搜索词放在双引号中,代表绝对精确匹配搜索,如搜索“论坛群发”也就是搜索最后结果回返的页论坛群发全部的词,包含关键词字中顺序也是必须一样的,一般大家在搜索引擎加双引号搜索的时候,百度都会提示是否去除双引号,而且GG不会有这个提示,因此双引号是否加上直接影响搜索结果数量,建议大家在虫虫软件使用不做双引号的使用,因为是资源在抓取之后,我们最终还是再要验证过滤的。
四、其它指令
这里将其它一些都包含到这里,因为大多数虫友应该都知道,比如site命令,这是我们大家常用的查询网站收录有多少的,domain指令用来查询相关有多少(GG不支持),link指令查询有多少外链的(百度不支持),-号命令,就是去除无关的关键词等,这些大家应该都能熟练运用,当然还有些比较多的指令,chongseo在这里就不多讲了,因为抓取的时候用的不多,需要了解的可以百度下搜索引擎语法,去看下,下面就是几种命令的组合使用了。
五、组合使用抓取资源
我们了解搜索引擎语法这后,抓取资源就比较简单了,但一定要灵活运用,比如我想获取竞争我的竞争对手有多少外链,并获取对手外链资源,那么我们可以使用domain:www.xiake5.com -site:www.xiake5.com这个组合去得到对手外链链资源,(注意在GG中domain要换成link)这条指令在虫虫软件也集成到抓取规则中了,大家可以去看点盗链功能看下,还有上面提到的powered by discuz是得到很多的论坛资源,我们发现在搜索个指令的时候不能精确哪些是discuzNT,哪些是discuzX论坛,假如我们要精确到discuzX,那么我们可以使用关键词 powered by Discuz! X2 inurl:forum.php,这条指令,有人要问为什么要出现forum.php,我们可以打开大多数的discuzX,发现很多论坛都有这个页面,那么可以将这个页面作为这种类型来进行搜索,如果发现discuzX论坛还有其它页面特征,也可以将forum.php更换为其它页面,大家都要我去观察每种论坛结构特点,这样对资源抓取的时候也是非常有用的。
最后,知道了搜索引擎语法以后资源抓取就不用再发愁了,我们只需要我们写好的规则批量导入虫虫中进行开始抓取就可以了,还有不明白的可以下载我们的视频教程进行观看,更多问题可以加入虫虫软件售前群72235417进行咨询。