SEARCH

网站的Robots协议该如何编写

2018年05月13日

Robots是各大搜索引擎公认的隐私网页保护权益,融网SEO优化工程师认为,如果你的站点有某些页面不想让搜索引擎抓取到,可以选择屏蔽该类URL这也是最基本网站建设知识,搜索引擎就不会将屏蔽的页面进行开放。Robots协议写到禁止不要搜索引擎抓取但是搜索引擎的蜘蛛可能还会抓取,但是不一定会将内容放出来。

  

对于站点内容页面较少其实可以选择不屏蔽抓取,屏蔽抓取的目的大致分为两个:

1.该类数据不能对外公布

2.节省网站自身抓取配额

  

如果是出于隐私角度完全可以将内容设置加密,比如用户需要登录后才能看到完整的内容,像这些内容搜索引擎就无法完整的抓取到,通过这个原理只要不想被搜索引擎抓取到可以选择登录后才能看到内容,这样就能轻易的避免搜索引擎的蜘蛛进行抓取。

  

节省网站的抓取配额,对于小站来说配额是充足的。也不会出现大量的无效页面或者广告以及低俗的内容。


网站的Robots协议该如何写


robots.txt 正确写法和规范写法

  

如果需要屏蔽一些页面不能让搜索引擎抓取到的内容,还是可以通过robots来解决。但是有个重点需要注意,屏蔽的这些页面URL结构如果完整的写robots里面就非常容易暴露给竞争对手,相信很多的中大型站点是有很多的页面没有在网站首页或者其他页面给予链接入口。但是为了测试或者其他原因选择了暂时屏蔽就会给予竞争对手更多研究的方向。所以在robots里面还存在一个非常大安全隐患,如果将所有不必要的页面都选择屏蔽那为什么还要进行建立,屏蔽写作robots文件里面未必是件好事。

  

也可以使用另外一种方式进行屏蔽,比如写作meta信息里面;

  

也可以进行屏蔽。

也能有效的进行屏蔽抓取

常见的robots.txt文件协议都是这样的;


User-agent: *

Allow: /*.html
  
Disallow: /?id=*
  
Disallow: /admin

Sitemap: https://rongkeji.cn/sitemap.xml
或
Sitemap: https://rongkeji.cn/sitemap.html

  

1.告知所有的搜索引擎蜘蛛,这里的*代表的所有的搜索引擎种类

  

2.但不允许抓取带“?id=*”的URL,* 为通配符指?id=所有表示

  

3.不允许抓取”/admin ”该文件下的内容,一般为不为人知的目录,比如后台、接口

  

4.抓取网站的sitemap地址,可以是html、xml、php、txt

  

告诉搜索引擎不愿意被抓取到的页面URL结构填写在robots文件中,允许收录的就可以不写。


提高搜索引擎出图率,容许抓取文章或文件夹内的图片。


User-agent: *

Allow: /*.html

Allow: /*.png*

Allow: /*.jpg*

Allow: /*.jpeg*

Allow: /*.gif*
  
Disallow: /?id=*
  
Disallow: /admin

Sitemap: https://rongkeji.cn/sitemap.xml
或
Sitemap: https://rongkeji.cn/sitemap.html


如上:allow容许抓取png、jpg、JPEG、gif等图片,为什么尾部要添加 * 通配符,是因为有的网站有图片裁剪,比如 /lbotu.jpg!w640h,这里我们容许抓去。


如果开启云存储就需要在云存储图就添加一个robots文件,内容如下:


User-agent: *

Allow: /*.png*

Allow: /*.jpg*

Allow: /*.jpeg*

Allow: /*.gif*
  
Allow: /robots.txt

Allow: /img/

Disallow: /


allow容许抓取图片就不用解释了,/img/是图片文件夹路径,如:/img/lbotu.jpg

disallow : / 为不容许抓取根目录,但是 allow 放行 /img/


就简单说到这里,robots是活学活用的,也希望对大家有帮助,谢谢!

Contact

大同市城区西环路168号

致力于做服务最好的网站建设公司

将 " 策划+创意+体验+技术 " 完美融合 !

Wechat