您好,游客注册登录繁體
seo网络营销大神学习: 618234418
首页 >> 常见问题 >> 如何写网站robots.txt

如何写网站robots.txt

江西SEO 2015-05-09 1
浏览次数2519
  • 什么叫Robots呢,其实就是一个协议(也称为爬虫协议、机器人协议等),简单的可以理解为告诉那些蜘蛛,我的网站哪些可以抓取,哪些页面不能抓取。对于一个网站写一个robots是非常有必要的。
  • 查看网站有没有写robots,很简单,你可以在你的你的网址上加上robots.txt,举个例子你想要查看 www.yefanseo.com这个网站有没有写robots,那么你只需要在这个网址的后面加上robots.txt,就像这样www.yefanseo.com/robots.txt就可以查看了,查出来是这样的,如下图所示:

robots.txt

  • 那么一个网站的robots到底该怎么写呢

其实他是有规律的,下面让我们来认识一下:

 

User-agent: *  (表示所有的蜘蛛)

 

那么如果你是想针对某一种搜索引擎呢,那么只需要把*改成相应的蜘蛛就可以了,如下图:

 

User-agent: Baiduspider(百度蜘蛛)

 

还有其他的,也是改成相应的蜘蛛就可以了,常用的有 谷歌蜘蛛:Googlebot、360蜘蛛:360Spider、SOSO蜘蛛:Sosospider、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!、有道蜘蛛:YoudaoBot、搜狗蜘蛛:Sogou News Spider、MSN蜘蛛:msnbot、必应蜘蛛:bingbot等等;

那么接下来就是写你不想被抓取的页面了:

Disallow: /  (后面跟上你不希望被抓取的页面)

Disallow: /wp-*  (表示不允许抓取这个以wp- 为开始的所有的文件页面)

 

 

  • 这里面有一些需要注意规则

Disallow: /admin

Disallow: /admin/

 

Disallow: /admin的匹配度比Disallow: /admin/的匹配度更广泛,前者可以匹配到/admin/,/admin.html,/admin.htm等,而后者局限匹配admin这个目录。
也可以理解为 前者包含后者,后者包含于前者。

全部评论:1
1#
iloveyou2016年5月2日下午12:49 回复

简爱 老湿,经常神龙不见首啊。能不能有张照片给人看看? 平时都是带墨镜和口罩的吗?