http://www.ggseo123.com

怎么让谷歌搜索引擎蜘蛛不抓取我们不想让其抓取的页面?

怎么让谷歌搜索引擎蜘蛛不抓取我们不想让其抓取的页面?
怎么让谷歌搜索引擎蜘蛛不抓取我们不想让其抓取的页面?

若为非敏感信息,则可以使用 robots.txt 阻止不必要的抓取。

“robots.txt”文件会告诉搜索引擎是否可以访问您网站的各个部分并执行抓取。此文件必须命名为“robots.txt”,且应位于网站的根目录下。被 robots.txt 阻止的网页也可能会被抓取,因此您应使用更安全的方法保护敏感网页。
您可能不希望网站的某些页面被抓取,因为这些页面显示在搜索引擎的搜索结果中可能对用户无用。如果您希望阻止搜索引擎抓取您的网页,Google Search Console 可提供便捷的 robots.txt 生成器帮助您创建此文件。请注意,如果您的网站使用了子域名,并且您希望谷歌不要抓取特定子域名上的某些网页,那么您必须为该子域名单独创建一个 robots.txt 文件。

应避免的做法:

1、不要让谷歌抓取内部搜索结果页。用户不喜欢点击搜索引擎结果后却又被转到您网站上的另一个搜索结果页上。

2、允许抓取由代理服务器创建的网址。

若为敏感信息,则请使用更安全的方法。

要阻止用户访问敏感或机密信息,Robots.txt 并不是一个适当或有效的方式。它只会告知运行良好的抓取工具不要抓取相应网页,却不会阻止您的服务器将这些网页发送给请求它们的浏览器。

其中一个原因是:如果互联网上的某处恰好存在指向这些被禁止访问的网址的链接,那么搜索引擎仍然能够引用这些网址。此外,未同意遵守《漫游器排除标准》的不合规搜索引擎或流氓搜索引擎可能会违反您的 robots.txt 文件中的指令。最后,用户可能会出于好奇查看您的 robots.txt 文件中的目录或子目录,并猜测您不想让人看见的内容的网址。

在这些情况下,如果您只是希望网页不显示在谷歌中,则可使用 noindex 标记,无需担心任何用户会通过链接访问该网页。然而,为了做到真正的安全,您应该使用合适的授权方法将网页从网站上彻底移除。

以上就是小编介绍的一篇文章:怎么让谷歌搜索引擎蜘蛛不抓取我们不想让其抓取的页面?如果有任何问题与需求可联系我们!
 

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关文章阅读