Perché semrushbot e ahrefsbot sono bloccati di default?

Jamie_Liu1 · 14 Luglio 2020, 8:57am

Stavo controllando il rapporto di copertura di Google Search Console e ho notato che molte delle nostre pagine del forum sono bloccate da robots.txt. Quindi ho controllato il file robots.txt. Ho scoperto che semrushbot e ahrefsbot sono bloccati per impostazione predefinita:

So che si tratta di due strumenti SEO molto diffusi: perché bloccare i loro bot?

neounix · 14 Luglio 2020, 9:03am

Perché quei bot sono “parassiti che risucchiano risorse”, che offrono un valore molto basso ai siti web rispetto alla quantità di risorse che consumano.

Ovviamente, puoi personalizzare il file robots.txt di Discourse e consentirli se lo desideri; ma noi blocciamo questi bot sui nostri siti molto prima che Discourse fosse rilasciato e continuiamo a tenerli bloccati.

Nota (Modificata):

Ho dimenticato di menzionare che molti di questi “parassiti che risucchiano risorse” non rispettano robots.txt e devono essere bloccati a livello di HTTP User Agent. Blocciamo questi “parassiti irrispettosi che risucchiano risorse” utilizzando mod_rewrite a livello di reverse proxy, in generale (una delle tante buone ragioni per operare dietro un reverse proxy, a proposito).

Jamie_Liu1 · 14 Luglio 2020, 9:29am

Grazie mille per le informazioni!

Ho riscontrato un altro problema e forse puoi condividere anche il tuo punto di vista su di esso.

So che Discourse ha bloccato le pagine utente per impostazione predefinita, ma nel mio rapporto sulla copertura di Google Search Console sono ancora indicizzate alcune pagine utente, il che è un problema agli occhi di Google, poiché tutte queste pagine non dovrebbero essere indicizzate:

Grazie!

osioke · 14 Luglio 2020, 12:35pm

Questo è stato risolto di recente con

Puoi aggiornare il tuo Discourse e riconfermare?

Jamie_Liu1 · 15 Luglio 2020, 2:14am

@osioke Grazie per la risposta! Credo che la nostra versione installata abbia già questa funzionalità? Ho notato che la correzione è stata commitata a gennaio.

Potresti verificare se è necessario aggiornare all’ultima versione per avere questa funzionalità?

osioke · 15 Luglio 2020, 7:03am

Secondo me non fa male aggiornare, ma sì, quella correzione dovrebbe essere presente nella tua versione installata. Proverei ad aggiornare e a verificare di nuovo, a meno che tu non voglia aggiornare per qualche altro motivo.

codinghorror · 15 Luglio 2020, 9:41pm

Perché sono inutili? Aggiungono un carico significativo al server senza alcun beneficio evidente, e i nostri clienti hanno limiti di visualizzazione delle pagine nei loro piani.

Jamie_Liu1 · 16 Luglio 2020, 2:13am

Sembra tutto a posto. Stiamo aggiornando ora. Speriamo che dopo l’aggiornamento tutto funzioni. Ti farò sapere e ti terrò aggiornato. Grazie!

trying2survive · 2 Dicembre 2020, 3:30pm

Solo per chiarire: non c’è alcun modo per sbloccare semrushbot e seo spider? Ne abbiamo bisogno per l’audit SEO. Abbiamo provato a rimuoverli entrambi da /admin/customize/robots (abbiamo anche provato con Allow:), ma otteniamo un errore 429 in Screaming Frog. Oppure questo errore 429 è un problema separato? Apprezziamo molto i vostri chiarimenti.

Johani · 2 Dicembre 2020, 4:34pm

Gli errori 429 indicano che questi crawler stanno subendo limitazioni della velocità. Discourse ha alcune limitazioni attivate di default per prevenire abusi. Puoi leggere ulteriori informazioni a riguardo qui.

neounix · 3 Dicembre 2020, 9:35am

Hai provato questo (ma sostituisci con il nome del tuo container)?

Nota: puoi anche configurarlo nell’interfaccia di amministrazione:

# docker exec -it socket-only bash
root@socket-only:/# rails c
[1] pry(main)> SiteSetting.blocked_crawler_user_agents
=> "mauibot|semrushbot|ahrefsbot|blexbot|seo spider"
[2] pry(main)> SiteSetting.blocked_crawler_user_agents = ""
=> ""
[3] pry(main)> SiteSetting.blocked_crawler_user_agents
=> ""
[4] pry(main)>

Vedi anche:

github.com/discourse/discourse

config/site_settings.yml

d1d87b6fa

# Available options:
#
# default            - The default value of the setting. For upload site settings, use the id of the upload seeded in db/fixtures/010_uploads.rb.
# client             - Set to true if the javascript should have access to this setting's value.
# refresh            - Set to true if clients should refresh when the setting is changed.
# min                - For a string setting, the minimum length. For an integer setting, the minimum value.
# max                - For a string setting, the maximum length. For an integer setting, the maximum value.
# regex              - A regex that the value must match.
# validator          - The name of the class that will be use to validate the value of the setting.
# allow_any          - For choice settings allow items not specified in the choice list (default true)
# secret             - Set to true if input type should be password and value needs to be scrubbed from logs (default false).
# enum               - The setting has a fixed set of allowed values, and only one can be chosen.
#                      Set to the class name that defines the set.
# locale_default     - A hash which overrides according to `SiteSetting.default_locale`.
#                      The key should be as the same as possible value of default_locale.
#
#
# type: email    - Must be a valid email address.
# type: username - Must match the username of an existing user.
# type: list     - A list of values, chosen from a set of valid values defined in the choices option.

This file has been truncated. show original

Vedi anche:

  def self.allow_crawler?(user_agent)
    return true if SiteSetting.allowed_crawler_user_agents.blank? &&
      SiteSetting.blocked_crawler_user_agents.blank?
...
...

github.com/discourse/discourse

lib/crawler_detection.rb

e0d923225

# frozen_string_literal: true

module CrawlerDetection
  WAYBACK_MACHINE_URL = "archive.org"

  def self.to_matcher(string, type: nil)
    escaped = string.split('|').map { |agent| Regexp.escape(agent) }.join('|')

    if type == :real && Rails.env == "test"
      # we need this bypass so we properly render views
      escaped << "|Rails Testing"
    end

    Regexp.new(escaped, Regexp::IGNORECASE)
  end

  def self.crawler?(user_agent, via_header = nil)
    return true if user_agent.nil? || user_agent&.include?(WAYBACK_MACHINE_URL) || via_header&.include?(WAYBACK_MACHINE_URL)

    # this is done to avoid regenerating regexes

This file has been truncated. show original

Come puoi vedere dal codice, se imposti queste due impostazioni del sito su “vuoto”, non ci sarà alcun blocco:

SiteSetting.allowed_crawler_user_agents
SiteSetting.blocked_crawler_user_agents

Ti consiglio di non modificare queste impostazioni perché questi bot, bloccati di default dal nucleo di Discourse, non rispettano il file robots.txt; tuttavia, è il tuo sito e puoi fare come preferisci. C’è un buon motivo per cui sono bloccati nel nucleo.

Detto questo, Discourse ti offre la possibilità di “sbloccarli” utilizzando le tue impostazioni del sito nell’interfaccia utente.

Argomento		Risposte	Visualizzazioni
Handling Bingbot Feature	29	7516	Novembre 20, 2020
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4702	Dicembre 2, 2023
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	253	Dicembre 18, 2024
Why there are lots of Disallow rule in robots.txt? Support	34	4666	Dicembre 22, 2020
How to protect myself from bots crawling my Discourse instance? Support	6	1638	Gennaio 17, 2022

Perché semrushbot e ahrefsbot sono bloccati di default?

Argomenti correlati