Perché semrushbot e ahrefsbot sono bloccati di default?

Stavo controllando il rapporto di copertura di Google Search Console e ho notato che molte delle nostre pagine del forum sono bloccate da robots.txt. Quindi ho controllato il file robots.txt. Ho scoperto che semrushbot e ahrefsbot sono bloccati per impostazione predefinita:

So che si tratta di due strumenti SEO molto diffusi: perché bloccare i loro bot?

Perché quei bot sono “parassiti che risucchiano risorse”, che offrono un valore molto basso ai siti web rispetto alla quantità di risorse che consumano.

Ovviamente, puoi personalizzare il file robots.txt di Discourse e consentirli se lo desideri; ma noi blocciamo questi bot sui nostri siti molto prima che Discourse fosse rilasciato e continuiamo a tenerli bloccati.

:slight_smile:


Nota (Modificata):

Ho dimenticato di menzionare che molti di questi “parassiti che risucchiano risorse” non rispettano robots.txt e devono essere bloccati a livello di HTTP User Agent. Blocciamo questi “parassiti irrispettosi che risucchiano risorse” utilizzando mod_rewrite a livello di reverse proxy, in generale (una delle tante buone ragioni per operare dietro un reverse proxy, a proposito).

Grazie mille per le informazioni!

Ho riscontrato un altro problema e forse puoi condividere anche il tuo punto di vista su di esso. :slight_smile:

So che Discourse ha bloccato le pagine utente per impostazione predefinita, ma nel mio rapporto sulla copertura di Google Search Console sono ancora indicizzate alcune pagine utente, il che è un problema agli occhi di Google, poiché tutte queste pagine non dovrebbero essere indicizzate:

Grazie!

Questo è stato risolto di recente con

Puoi aggiornare il tuo Discourse e riconfermare?

@osioke Grazie per la risposta! Credo che la nostra versione installata abbia già questa funzionalità? Ho notato che la correzione è stata commitata a gennaio.

Potresti verificare se è necessario aggiornare all’ultima versione per avere questa funzionalità?

Secondo me non fa male aggiornare, ma sì, quella correzione dovrebbe essere presente nella tua versione installata. Proverei ad aggiornare e a verificare di nuovo, a meno che tu non voglia aggiornare per qualche altro motivo.

Perché sono inutili? Aggiungono un carico significativo al server senza alcun beneficio evidente, e i nostri clienti hanno limiti di visualizzazione delle pagine nei loro piani.

Sembra tutto a posto. Stiamo aggiornando ora. Speriamo che dopo l’aggiornamento tutto funzioni. Ti farò sapere e ti terrò aggiornato. :slight_smile: Grazie!

Solo per chiarire: non c’è alcun modo per sbloccare semrushbot e seo spider? Ne abbiamo bisogno per l’audit SEO. Abbiamo provato a rimuoverli entrambi da /admin/customize/robots (abbiamo anche provato con Allow:), ma otteniamo un errore 429 in Screaming Frog. Oppure questo errore 429 è un problema separato? Apprezziamo molto i vostri chiarimenti.

Gli errori 429 indicano che questi crawler stanno subendo limitazioni della velocità. Discourse ha alcune limitazioni attivate di default per prevenire abusi. Puoi leggere ulteriori informazioni a riguardo qui.

Hai provato questo (ma sostituisci con il nome del tuo container)?

Nota: puoi anche configurarlo nell’interfaccia di amministrazione:

# docker exec -it socket-only bash
root@socket-only:/# rails c
[1] pry(main)> SiteSetting.blocked_crawler_user_agents
=> "mauibot|semrushbot|ahrefsbot|blexbot|seo spider"
[2] pry(main)> SiteSetting.blocked_crawler_user_agents = ""
=> ""
[3] pry(main)> SiteSetting.blocked_crawler_user_agents
=> ""
[4] pry(main)> 

Vedi anche:

Vedi anche:

  def self.allow_crawler?(user_agent)
    return true if SiteSetting.allowed_crawler_user_agents.blank? &&
      SiteSetting.blocked_crawler_user_agents.blank?
...
...

Come puoi vedere dal codice, se imposti queste due impostazioni del sito su “vuoto”, non ci sarà alcun blocco:

  • SiteSetting.allowed_crawler_user_agents
  • SiteSetting.blocked_crawler_user_agents

Ti consiglio di non modificare queste impostazioni perché questi bot, bloccati di default dal nucleo di Discourse, non rispettano il file robots.txt; tuttavia, è il tuo sito e puoi fare come preferisci. C’è un buon motivo per cui sono bloccati nel nucleo.

Detto questo, Discourse ti offre la possibilità di “sbloccarli” utilizzando le tue impostazioni del sito nell’interfaccia utente.