账号注册找回密码
  微信登录

奇瑰网社区

通过Robots.txt学会与蜘蛛交谈的策略

[复制链接]

1597

主题

3863

帖子

3734

积分

论坛元老

Rank: 6Rank: 6

G币
0
信用
0
体力
-46
发表于 2020-7-22 20:44:25 | 显示全部楼层 |阅读模式
 Robots.txt对于任何一个从事SEO研究工作的人都是至关重要的,因为透过 Robots.txt 我们可以直接与搜索引擎蜘蛛进行对话,告诉他们哪些可以抓取,哪些不可以抓取。

一、为什么Robots.txt?
在进行SEO操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。

二、一些常见的问题和知识点
1、蜘蛛在发现一个网站的时候,第一步是抓取网站的Robots.txt文件(当然官方上是这么说的,有时候也会出现不遵守的情况);
2、建议所有的网站都要设置Robots.txt文件,如果你认为网站上所有内容都是重要的,你可以建立一个空的robots.txt文件;

三、在robots.txt文件中设置网站地图
你可以在robots.txt中添加网站的地图,告诉蜘蛛网站地图所在的地址。你可以像这样来添加:
Sitemap:http://www.seowhy.com/map.xml(支持链接形式:xml、html,一般建议使用xml形式)

四、Robots.txt的顺序
在蜘蛛协议中,Disallow 与 Allow是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。
引擎蜘蛛程序会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL,一个例子可以让你更清楚明白:

User-agent: * Allow: /seowhy/bbs Disallow: /seowhy/
  这个情况下,蜘蛛/seowhy/bbs目录可以正常抓取,但/seowhy/目录的文件无法抓取。通过这种方式可以允许蜘蛛访问特定目录中的部分url。
我们对调下位置观察一下。


User-agent: * Disallow: /seowhy/ Allow: /seowhy/bbs
  /seowhy/目录出现在第一行,禁止抓取目录下的所有文件,那么第二行的Allow就无效,因为第一行中已经禁止抓取seowhy目录下的所有文件,而bbs目录正好位于seowhy目录下。因此匹配不成功。

五、Robots.txt路径问题
在蜘蛛协议中,Allow和Disallow后面可以跟两种路径形式,即绝对链接、相对链接。绝对链接就是完整的URL形式,而相对链接只针对根目录。

六、斜杠问题
Disallow: /seowhy 表示禁止抓取seowhy这个目录下的所有文件,如seowhy/1.html、seowhy/sdgdsg.php;
Disallow: /seowhy/ 表示禁止抓取seowhy这个目录,而seowhy.1.html、seowhy/sdgdsg.php是可以抓取的。




上一篇:SEO人员应具备标题设计的技巧
下一篇:浅析谷歌收录骤减,收录越来越少现象
使用高级回帖 (可批量传图、插入视频等)

发表回复

您需要登录后才可以回帖 登录 | 账号注册   微信登录

本版积分规则   Ctrl + Enter 快速发布  

发帖时请遵守我国法律,网站会将有关你发帖内容、时间以及发帖IP地址等记录保留,只要接到合法请求,即会将信息提供给有关政府机构。
Powered by Discuz! X3.4 ( 粤ICP备20013252号-1  
Copyright © 2014-2020 奇瑰网 All Rights Reserved.
快速回复 返回顶部 返回列表