网站如何屏蔽搜索引擎蜘蛛的抓取-曦曦SEO

网站如何屏蔽搜索引擎蜘蛛的抓取

成都SEO作者:曦曦SEO时间:2022-02-22 22:25:13来源:成都seo浏览:323

  百度蜘蛛抓取网站,网页能被搜索引擎收录,当用户搜索时,可以给网站带来一定的SEO流量。那么,如果我们不想让搜索引擎抓取收录该怎么办?

  在这个时候,如果只想抓取想要在搜索引擎中搜索的内容。像用户隐私和背景信息一样,不希望被搜索引擎被抓取和收录。有两种解决此问题的最佳方法,如下所示:

  i、Robots协议文件屏蔽百度蜘蛛抓取

  Robots协议是放置在网站根目录中的协议文件,可以通过以下URL地址访问:http://网站地址/Robots Txt。当百度蜘蛛抓取网站时,会先访问这个文件。Robots告诉蜘蛛什么可以抓,什么不能抓。

  Robots协议文件的设置相对简单,可以通过三个参数进行设置:用户代理、不允许和允许。

  用户代理:不同搜索引擎的声明;

  不允许:不允许爬网的目录或页面;

  允许:允许被抓取的目录或页面通常可以被省略而不被写入,因为不写的内容不允许被抓取,那么就可以被抓取;

  比如:不想让百度抓取网站的所有CSS文件,比如数据目录和SEO标签HTML页面.

  如上所述,用户代理声明的蜘蛛名称是指百度蜘蛛。无法抓取“/*.Below CSS”,首先,前面的/指的是根目录,也就是说,域名*是一个通配符,代表任何内容。这意味着所有的文档都是有序的,不能在CSS的末尾抓取任何东西。可以经历以下两种情况,逻辑是一样的。

  如果想检查上一个robots文件是否正确,可以访问本文“检查robots是否正确的工具简介”。有详细的工具来检查设置。

  2、通过403状态代码,限制内容输出并屏蔽蜘蛛抓取

  403状态码是HTTP协议中网页返回的状态码。当搜索引擎遇到403状态码时,知道这种页面有权限限制,不能去。例如,如果需要登录以查看内容,搜索引擎本身将不会登录。当返回403时,也知道这些是权限设置页面,无法阅读内容。当然,就不会收录。

  当返回403状态代码时,应该有一个类似404页面的页面。提示用户或蜘蛛他们想要做什么来访问这些页面。两者缺一不可。只能提示页面,状态码返回200,这是百度蜘蛛的大量重复页面。有403个状态代码,但返回的内容不同,这不是很友好。

  最后,对于Robots协议,曦曦SEO想补充一点:“现在,搜索引擎将通过网页的布局和布局来识别网页的体验友好性。如果阻止抓取CSS文件和与布局相关的JS文件,搜索引擎将不知道网页布局是好是坏。因此,建议不要阻止蜘蛛抓取这些内容。”。

  今天的分享到此为止。曦曦SEO希望能帮助大家。当然,以上两种设置对除百度蜘蛛外的所有蜘蛛都有效,所以在设置时要小心一点。


文章作者:曦曦SEO
文章标题:网站如何屏蔽搜索引擎蜘蛛的抓取
文章链接:http://www.snjkrh.cn/2176.html

添加回复:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。