于田SEO培训
关键词不能为空

位置:SEO培训 > 经验分享 > robots文件怎么写,robots正确设置教程

robots文件怎么写,robots正确设置教程

作者:于田SEO
日期:2019-09-25 09:02:49
阅读:

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclusionProtocol),网站通过Robots协议告知搜索引擎什么页面可以爬取,什么页面不可以爬取。

robots文件怎么写

Robots.txt文件的重要性

robots.txt是搜索引擎蜘蛛浏览网站时要查询的第一个文件,而且会根据robots.txt文件的內容来爬行网站。在某种程度上说,它的一个任务就是具体指导蜘蛛爬行,降低搜索引擎蜘蛛的工作量。当搜索引擎蜘蛛浏览网站时,它会最先查验该网站根目录下是不是存在robots.txt文件,假如该文件存在,搜索引擎蜘蛛就会依照该文件中的內容来明确爬行的范围;假如该文件找不到,则所有的搜索引擎蜘蛛将可以浏览网站上所有没有被口令保护的页面。一般 搜索引擎对网站派出的蜘蛛是有配额的,多大规模的网站放出多少蜘蛛。

假如我们不配备robots文件,那么蜘蛛赶到网站之后会无目的的爬行,导致的一个结果就是,需要它爬行的目录,没有爬行到,不需要爬行的,也就是我们不愿被百度收录的內容却被爬行并放出快照。从seo优化角度而言,一份好的Robots文件可以规定搜索引擎蜘蛛哪些內容可以爬取,什么內容不可以爬取,这也为搜索引擎节省了很多的搜索资源,针对搜索引擎而言毫无疑问是比较喜欢的,同时还可以让搜索引擎对我们的网站增加友好度。以及网站的动态链接统一化,相同路径有益于集中权重。从我自身而言,可以保护私人信息不会被公开,比如:网站隐私、后台用户信息等。

Robots.txt文件的写法

User-agent:**代表所有搜索引擎; 

也可指定搜索引擎,如指定百度,User-agent:BaiduspiderDisallow:/a/这里定义是禁止抓取a目录下面的所有内容; 

Disallow:/cgi-bin/*.htm禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录); 

Disallow:/*?*禁止访问网站中所有包含问号(?)的网址Disallow:/.jpg$禁止抓取网页所有的.jpg格式的图片; 

Disallow:/ab/adc.html禁止爬取ab文件夹下面的adc.html文件。 

Allow:/cgi-bin/a/这里定义是允许爬寻cgi-bin目录下面的a目录Allow:/tmp这里定义是允许爬寻tmp的整个目录; 

Allow:.htm$允许访问以”.htm”为后缀的URL; 

Allow:.gif$允许抓取网页和gif格式图片; 

Sitemap:网站地图,告诉爬虫这个页面是网站地图。 

符号名词解释: 

(1)*通配符:代表所有的。例如: 

User-Agent:*就是表示对所有的蜘蛛 

Allow:/skin/*表示允许包括/skin/文件夹以下的所以文件 

(2)$终止符:表示结束。例如不允许抓取.js结尾的文件,写成:Disallow:/*.js$ 

robots写法注意点:冒号后面有一个空格,必须全英文模式书写,字母大小写要注意,这是比较严谨的,需要特别注意。

于田SEO提供SEO培训、织梦二次开发、织梦SEO插件(评论、TAG、百度小程序等)

技术交流QQ群:369741991

于田SEO微信/QQ:8767951

    说点什么吧
    • 全部评论(0
      还没有评论,快来抢沙发吧!
    • wuli眼鼻嘴(553648551) 评论 robots文件怎么写robo:请教个问题nbsp; robots文件 屏蔽掉一个目录 这个目录被收录的文章 后面会变成什么样的 会被百度清掉 还是会在那边?
    • 徐凯(493654527) 评论 robots文件怎么写robo:三级域名与主域名不在同一个空间,对主域名进行robots,那么三级域名一起生效吗? 管理员回复: 不会,robots仅对当前域名生效
    SEO头条