注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

背归鸿

博闻强记,厚积薄发!

 
 
 

日志

 
 

robot.txt的写法  

2013-04-08 12:48:21|  分类: 网站制作 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

其实robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。

那么robots.txt语法到底有哪些呢?

robots.txt语法有三个语法和两个通配符。

三个语法:

1.首先要定义网站被访问的搜索引擎是那些。

User-agent:(定义搜索引擎)
语法:User-agent: * 或 搜索引擎的蜘蛛名称

例子:User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取)
User-agent:*(定义所有搜索引擎)

2:屏蔽搜索引擎爬去语法

Disallow:(禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。

写法:DisAllow:/文件夹目录/ (表示禁止蜘蛛爬取网站的其中一个目录)
或 DisAllow:/文件名称 (表示禁止蜘蛛爬取网站的其中一个页面)

例如:Disallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)
Disallow:/help.html (禁止蜘蛛爬去help.html页面)

整套语法示范:
User-agent: *
Disallow:/目录1/ (禁止所有搜索引擎的蜘蛛爬取站点的目录1)
Disallow:/目录2/ (禁止所有搜索引擎的蜘蛛爬取站点的目录2)

3:允许搜索引擎爬去语法

Allow:(允许语法) 用来定义允许蜘蛛爬取的页面或子目录

例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Allow:/admin/abc.html(“/” 表示根目录下,允许蜘蛛爬去admin目录中的abc.html页面)

两个通配符:

匹配符”$”和 “*”
$ 通配符:匹配URL结尾的字符; * 通配符:匹配0个或多个任意字符;

例子1:
允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址,代码如下:
User-agent: *
Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)

例2:
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,代码如下:
User-agent: *
Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)

  评论这张
 
阅读(358)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017