Ich habe den Coverage-Bericht in der Google Search Console überprüft und festgestellt, dass viele unserer Forenseiten durch die robots.txt-Datei blockiert sind. Daher habe ich die robots.txt-Datei geprüft. Dabei habe ich festgestellt, dass semrushbot und ahrefsbot standardmäßig blockiert sind:
Ich habe ein weiteres Problem festgestellt. Vielleicht kannst du dazu auch deine Einschätzung abgeben.
Ich weiß, dass Discourse Benutzerseiten standardmäßig blockiert, aber in meinem Bericht zur Abdeckung in der Google Search Console sind dennoch einige Benutzerseiten indiziert. Das ist aus Googles Sicht ein Problem, da all diese Seiten nicht indiziert werden sollten:
@osioke Danke für deine Antwort! Ich glaube, unsere installierte Version hat die Funktion bereits? Denn mir ist aufgefallen, dass die Korrektur im Januar eingefügt wurde.
Es schadet meiner Meinung nach nicht, ein Update durchzuführen, aber ja, diese Korrektur sollte in deiner installierten Version enthalten sein. Ich würde versuchen, das Update durchzuführen und die Verifizierung erneut vorzunehmen, es sei denn, du möchtest aus einem anderen Grund kein Update durchführen.
Nur zur Klarstellung: Gibt es wirklich keine Möglichkeit, semrushbot und SEO Spider wieder freizuschalten? Wir benötigen sie für SEO-Audits. Wir haben versucht, beide aus /admin/customize/robots zu entfernen (auch mit Allow:), aber in Screaming Frog erhalten wir weiterhin einen 429-Fehler. Oder ist dieser 429-Fehler ein separates Problem? Ihre Einschätzung wäre uns sehr hilfreich.
429-Fehler bedeuten, dass diese Crawler drosselt werden. Discourse hat standardmäßig einige Drosselmechanismen aktiviert, um Missbrauch zu verhindern. Weitere Informationen dazu finden Sie hier.
def self.allow_crawler?(user_agent)
return true if SiteSetting.allowed_crawler_user_agents.blank? &&
SiteSetting.blocked_crawler_user_agents.blank?
...
...
Wie du dem Code entnehmen kannst, führt das Setzen dieser beiden Site-Einstellungen auf „blank“ dazu, dass keine Blockierung stattfindet:
SiteSetting.allowed_crawler_user_agents
SiteSetting.blocked_crawler_user_agents
Ich empfehle dir, dies nicht zu ändern, da diese von Discourse Core standardmäßig blockierten Bots robots.txt nicht einhalten. Es ist jedoch deine Website, und du kannst tun, was du möchtest. Es gibt einen guten Grund, warum sie im Core blockiert sind.
Trotzdem bietet dir Discourse über die Site-Einstellungen in der Benutzeroberfläche die Möglichkeit, diese Bots „freizugeben".