在wordpress建站或者是做SEO站内优化时,经常会遇到一些不友好的爬虫进行网站抓取,这样很容易导致网站访问流量过大,有些配置不高的就很容易宕机。因此如何处理?
可以采用Robots.txt文件来进行屏蔽,告知这些爬虫不要来抓。
示例爬虫说明
从上图看可以得出这是假蜘蛛,可以直接将IP ping下,如图:
毫无疑问,这种属于假蜘蛛,因为IP地址与UA Bytespider的真实爬虫地址不符的,一般字节蜘蛛会有详细的UA及IP字段,所以这种可以直接禁止爬。那具体怎么书写robots规则?
禁止爬虫抓取规则书写
以Wordpress为例,要在WordPress中配置robots.txt文件以满足您的需求,可以按照以下规则编写文件内容:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /inc/
Disallow: /lib/
Disallow: /css/
Disallow: /js/
User-agent: AhrefsBot
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Bytespider
Disallow: /
这段代码的意思是:
- 对于所有的搜索引擎爬虫 (User-agent: *),禁止访问/wp-admin/(后台)、/wp-includes/、/wp-content/plugins/、/wp-content/themes/、/inc/、/lib/、/css/ 和 /js/ 目录。
- 不允许Ahrefs和Google、Bytespider的爬虫访问网站的任何页面(Disallow: /)。
- 由于您希望其他搜索引擎能够访问网站的根目录,但前面的规则已经禁止了对/wp-…/目录的访问,因此这里不需要额外的规则来允许访问根目录。
默认情况下,如果没有显式禁止某个目录,则爬虫可以访问它。此外,如果您有一个位于根目录的sitemap.xml文件,您可以像这样明确允许爬虫访问它:Sitemap: http://example.com/sitemap.xml
请将上述代码添加到您的robots.txt文件中,并确保sitemap.xml文件的实际URL与您网站的域名相匹配。
以上就是飞小优为您介绍的屏蔽百度之外的其他搜索引擎访问根目录方法教程与实例讲解。更多问题请留言或邮件我们!