浏览次数3161
- 什么叫Robots呢,其实就是一个协议(也称为爬虫协议、机器人协议等),简单的可以理解为告诉那些蜘蛛,我的网站哪些可以抓取,哪些页面不能抓取。对于一个网站写一个robots是非常有必要的。
- 查看网站有没有写robots,很简单,你可以在你的你的网址上加上robots.txt,举个例子你想要查看 www.yefanseo.com这个网站有没有写robots,那么你只需要在这个网址的后面加上robots.txt,就像这样www.yefanseo.com/robots.txt就可以查看了,查出来是这样的,如下图所示:
- 那么一个网站的robots到底该怎么写呢?
其实他是有规律的,下面让我们来认识一下:
User-agent: * (表示所有的蜘蛛)
那么如果你是想针对某一种搜索引擎呢,那么只需要把*改成相应的蜘蛛就可以了,如下图:
User-agent: Baiduspider(百度蜘蛛)
还有其他的,也是改成相应的蜘蛛就可以了,常用的有 谷歌蜘蛛:Googlebot、360蜘蛛:360Spider、SOSO蜘蛛:Sosospider、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!、有道蜘蛛:YoudaoBot、搜狗蜘蛛:Sogou News Spider、MSN蜘蛛:msnbot、必应蜘蛛:bingbot等等;
那么接下来就是写你不想被抓取的页面了:
Disallow: / (后面跟上你不希望被抓取的页面)
Disallow: /wp-* (表示不允许抓取这个以wp- 为开始的所有的文件页面)
- 这里面有一些需要注意规则
Disallow: /admin
Disallow: /admin/
Disallow: /admin的匹配度比Disallow: /admin/的匹配度更广泛,前者可以匹配到/admin/,/admin.html,/admin.htm等,而后者局限匹配admin这个目录。
也可以理解为 前者包含后者,后者包含于前者。
标签
上篇文章:站长必装的翻墙工具免费申请入口
简爱 老湿,经常神龙不见首啊。能不能有张照片给人看看? 平时都是带墨镜和口罩的吗?