Fico imaginando como é para pessoas que usam auto-hospedagem lidar com crawlers que praticamente fazem DDoS sem parar, especialmente em instâncias dentro do Fediverse.
Acho que um bom primeiro passo é quantificar para você mesmo o quão grande é esse problema usando a métrica “novas” visualizações de página:
Se você estiver vendo algo como 60% de tráfego não humano, isso provavelmente está bom e você não precisa tomar nenhuma atitude.
Se for 95%… sim, pode ser hora de começar a investigar soluções.
Configurar Blocked crawler user agents é um amigo do administrador. O tráfego de lixo não é um grande problema com o Discourse porque a carga não é tão pesada. Mas eu bani um punhado dos piores porque realmente não gosto do modelo de negócios deles. Todo mundo está reclamando de como as empresas de IA estão roubando conteúdo, o que elas realmente estão fazendo, mas as empresas de SEO são muito piores — e seus bots são realmente gananciosos.
Mas também estou usando geo-blocking, porque posso. Existem pelo menos meia dúzia de países que são fontes de knockers e outros atores maliciosos. Mas se um fórum é para um público global, isso não é possível, é claro.
Com meus sites WordPress, o mesmo é feito usando Nginx com a ajuda do Varnish.
No momento, a proporção de humanos vs. bots é algo como 50/50 no meu fórum.