Stavo controllando il rapporto di copertura di Google Search Console e ho notato che molte delle nostre pagine del forum sono bloccate da robots.txt. Quindi ho controllato il file robots.txt. Ho scoperto che semrushbot e ahrefsbot sono bloccati per impostazione predefinita:
Perché quei bot sono “parassiti che risucchiano risorse”, che offrono un valore molto basso ai siti web rispetto alla quantità di risorse che consumano.
Ovviamente, puoi personalizzare il file robots.txt di Discourse e consentirli se lo desideri; ma noi blocciamo questi bot sui nostri siti molto prima che Discourse fosse rilasciato e continuiamo a tenerli bloccati.
Nota (Modificata):
Ho dimenticato di menzionare che molti di questi “parassiti che risucchiano risorse” non rispettano robots.txt e devono essere bloccati a livello di HTTP User Agent. Blocciamo questi “parassiti irrispettosi che risucchiano risorse” utilizzando mod_rewrite a livello di reverse proxy, in generale (una delle tante buone ragioni per operare dietro un reverse proxy, a proposito).
Ho riscontrato un altro problema e forse puoi condividere anche il tuo punto di vista su di esso.
So che Discourse ha bloccato le pagine utente per impostazione predefinita, ma nel mio rapporto sulla copertura di Google Search Console sono ancora indicizzate alcune pagine utente, il che è un problema agli occhi di Google, poiché tutte queste pagine non dovrebbero essere indicizzate:
@osioke Grazie per la risposta! Credo che la nostra versione installata abbia già questa funzionalità? Ho notato che la correzione è stata commitata a gennaio.
Secondo me non fa male aggiornare, ma sì, quella correzione dovrebbe essere presente nella tua versione installata. Proverei ad aggiornare e a verificare di nuovo, a meno che tu non voglia aggiornare per qualche altro motivo.
Perché sono inutili? Aggiungono un carico significativo al server senza alcun beneficio evidente, e i nostri clienti hanno limiti di visualizzazione delle pagine nei loro piani.
Solo per chiarire: non c’è alcun modo per sbloccare semrushbot e seo spider? Ne abbiamo bisogno per l’audit SEO. Abbiamo provato a rimuoverli entrambi da /admin/customize/robots (abbiamo anche provato con Allow:), ma otteniamo un errore 429 in Screaming Frog. Oppure questo errore 429 è un problema separato? Apprezziamo molto i vostri chiarimenti.
Gli errori 429 indicano che questi crawler stanno subendo limitazioni della velocità. Discourse ha alcune limitazioni attivate di default per prevenire abusi. Puoi leggere ulteriori informazioni a riguardo qui.
def self.allow_crawler?(user_agent)
return true if SiteSetting.allowed_crawler_user_agents.blank? &&
SiteSetting.blocked_crawler_user_agents.blank?
...
...
Come puoi vedere dal codice, se imposti queste due impostazioni del sito su “vuoto”, non ci sarà alcun blocco:
SiteSetting.allowed_crawler_user_agents
SiteSetting.blocked_crawler_user_agents
Ti consiglio di non modificare queste impostazioni perché questi bot, bloccati di default dal nucleo di Discourse, non rispettano il file robots.txt; tuttavia, è il tuo sito e puoi fare come preferisci. C’è un buon motivo per cui sono bloccati nel nucleo.
Detto questo, Discourse ti offre la possibilità di “sbloccarli” utilizzando le tue impostazioni del sito nell’interfaccia utente.