semrush这个蜘蛛天天不间断的爬 怎样屏蔽 semrush.com ?

这家伙 频繁爬取
访问日志里全是 Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html) 
 
天天爬取出的一堆日志文件

产生不必要的流量支出

这个蜘蛛类似于扫描器不受控

垃圾蜘蛛列表

  1. SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。现在竟然还出了中国业务,中国网站被爬的更严重了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。
  2. DotBot, 这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽
  3. AhrefsBot, 这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。
  4. MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。
  5. MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。
  6. MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
  7. BLEXBot, 这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议

屏蔽方法

对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了

User-agent: DataForSeoBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: Adsbot
Disallow: /
User-agent: Barkrowler
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /

2022.3.20更新

Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/) 这个鸟蜘蛛不遵守规则,禁止了也爬。

对于不尊许robots规则的蜘蛛,目前能够屏蔽的方法就是根据useragent或者ip来禁止了。

PHP

养蜂人

2 Responses

  1. PHP说道:

    又来一个 compatible; Adsbot/3.1; +https://seostar.co/robot/
    再更新一个
    User-agent: Adsbot
    Disallow: /

  2. PHP说道:

    这几天又出来一个爬的比较疯狂的
    compatible; Barkrowler/0.9; +https://babbar.tech/crawler
    直接禁止吧,希望它遵守爬虫规则
    User-agent: Barkrowler
    Disallow: /

发表回复

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据