Warum sind semrushbot und ahrefsbot standardmäßig blockiert?

Ich habe den Coverage-Bericht in der Google Search Console überprüft und festgestellt, dass viele unserer Forenseiten durch die robots.txt-Datei blockiert sind. Daher habe ich die robots.txt-Datei geprüft. Dabei habe ich festgestellt, dass semrushbot und ahrefsbot standardmäßig blockiert sind:

Mir ist bekannt, dass dies zwei weit verbreitete SEO-Tools sind. Warum werden deren Bots blockiert?

Weil diese Bots „ressourcenschluckende Bot-Schweine

Vielen Dank für die Informationen!

Ich habe ein weiteres Problem festgestellt. Vielleicht kannst du dazu auch deine Einschätzung abgeben. :slight_smile:

Ich weiß, dass Discourse Benutzerseiten standardmäßig blockiert, aber in meinem Bericht zur Abdeckung in der Google Search Console sind dennoch einige Benutzerseiten indiziert. Das ist aus Googles Sicht ein Problem, da all diese Seiten nicht indiziert werden sollten:

Vielen Dank!

Dies wurde kürzlich mit

behoben. Kannst du dein Discourse aktualisieren und erneut verifizieren?

@osioke Danke für deine Antwort! Ich glaube, unsere installierte Version hat die Funktion bereits? Denn mir ist aufgefallen, dass die Korrektur im Januar eingefügt wurde.

Könntest du bitte überprüfen, ob ich auf die neueste Version upgraden muss, um diese Funktion zu erhalten?

Es schadet meiner Meinung nach nicht, ein Update durchzuführen, aber ja, diese Korrektur sollte in deiner installierten Version enthalten sein. Ich würde versuchen, das Update durchzuführen und die Verifizierung erneut vorzunehmen, es sei denn, du möchtest aus einem anderen Grund kein Update durchführen.

Weil sie schlecht sind? Sie verursachen eine hohe Serverlast ohne erkennbaren Nutzen, und unsere Kunden haben bei ihren Tarifen Pageview-Limits.

Klingt gut. Wir aktualisieren gerade. Hoffentlich funktioniert alles nach dem Update. Ich melde mich und halte dich auf dem Laufenden. :slight_smile: Danke!

Nur zur Klarstellung: Gibt es wirklich keine Möglichkeit, semrushbot und SEO Spider wieder freizuschalten? Wir benötigen sie für SEO-Audits. Wir haben versucht, beide aus /admin/customize/robots zu entfernen (auch mit Allow:), aber in Screaming Frog erhalten wir weiterhin einen 429-Fehler. Oder ist dieser 429-Fehler ein separates Problem? Ihre Einschätzung wäre uns sehr hilfreich.

429-Fehler bedeuten, dass diese Crawler drosselt werden. Discourse hat standardmäßig einige Drosselmechanismen aktiviert, um Missbrauch zu verhindern. Weitere Informationen dazu finden Sie hier.

Hast du das schon versucht (ersetze aber deinen Container-Namen)?

Hinweis: Du kannst dies auch in der Admin-Oberfläche konfigurieren:

# docker exec -it socket-only bash
root@socket-only:/# rails c
[1] pry(main)> SiteSetting.blocked_crawler_user_agents
=> "mauibot|semrushbot|ahrefsbot|blexbot|seo spider"
[2] pry(main)> SiteSetting.blocked_crawler_user_agents = ""
=> ""
[3] pry(main)> SiteSetting.blocked_crawler_user_agents
=> ""
[4] pry(main)> 

Siehe auch:

Siehe auch:

  def self.allow_crawler?(user_agent)
    return true if SiteSetting.allowed_crawler_user_agents.blank? &&
      SiteSetting.blocked_crawler_user_agents.blank?
...
...

Wie du dem Code entnehmen kannst, führt das Setzen dieser beiden Site-Einstellungen auf „blank“ dazu, dass keine Blockierung stattfindet:

  • SiteSetting.allowed_crawler_user_agents
  • SiteSetting.blocked_crawler_user_agents

Ich empfehle dir, dies nicht zu ändern, da diese von Discourse Core standardmäßig blockierten Bots robots.txt nicht einhalten. Es ist jedoch deine Website, und du kannst tun, was du möchtest. Es gibt einen guten Grund, warum sie im Core blockiert sind.

Trotzdem bietet dir Discourse über die Site-Einstellungen in der Benutzeroberfläche die Möglichkeit, diese Bots „freizugeben".