Fico imaginando como é para pessoas que usam auto-hospedagem lidar com crawlers que praticamente fazem DDoS sem parar, especialmente em instâncias dentro do Fediverse.
Acho que um bom primeiro passo é quantificar para você mesmo o quão grande é esse problema usando a métrica “novas” visualizações de página:
Se você estiver vendo algo como 60% de tráfego não humano, isso provavelmente está bom e você não precisa tomar nenhuma atitude.
Se for 95%… sim, pode ser hora de começar a investigar soluções.
Configurar Blocked crawler user agents é um amigo do administrador. O tráfego de lixo não é um grande problema com o Discourse porque a carga não é tão pesada. Mas eu bani um punhado dos piores porque realmente não gosto do modelo de negócios deles. Todo mundo está reclamando de como as empresas de IA estão roubando conteúdo, o que elas realmente estão fazendo, mas as empresas de SEO são muito piores — e seus bots são realmente gananciosos.
Mas também estou usando geo-blocking, porque posso. Existem pelo menos meia dúzia de países que são fontes de knockers e outros atores maliciosos. Mas se um fórum é para um público global, isso não é possível, é claro.
Com meus sites WordPress, o mesmo é feito usando Nginx com a ajuda do Varnish.
No momento, a proporção de humanos vs. bots é algo como 50/50 no meu fórum.
Gostaria de poder dizer que tenho alguma solução gratuita, ou que não envolva algum serviço externo. Coloquei meu maior fórum por trás da CDN da bunny.net. Eles têm um plano gratuito generoso. Mas para esse fórum, eu pago os $10/mês para ter o serviço de segurança deles. Ele me permite bloquear rastreadores (crawlers), DDoS e geograficamente. Como CDNs, eles são realmente baratos e eficazes, e não são a CloudFlare. Muitas pessoas no fediverso os avaliam bem.
Tenho um gráfico do serviço Shield deles. (Eu sou um n00b, apenas 1 gráfico por resposta ) No primeiro, houve 484 mil conexões de bots de um total de 2 milhões de conexões. Eu tinha acabado de migrar para a CDN e não tinha nenhum filtro ou bloqueio ativado. O próximo mostra 11 mil bots e 90 mil bloqueados devido a listas de acesso (eu bloqueio China e Rússia e talvez alguns outros). Então, são cerca de 100 mil de bots em um total de 700 mil requisições naquela semana.
A Cloudflare sempre foi legal comigo e eu nunca precisei pagar por serviços anti-bot. Isso, juntamente com as novidades deles, como o anti-IA, é ótimo e o que me mantém como cliente e promotor deles, eu acho. Não quer que raspadores de IA roubem seus dados? Basta usar uma de suas regras gerenciadas (embora seja totalmente possível usar apenas um robots.txt normal, como eu faço no meu site)
Se essas startups realmente ouvem e respeitam o arquivo é outra história, mas é bom que elas estejam tentando pelo menos. Nenhum dos meus sites teve problemas com bots no passado e eu ainda estou repetidamente satisfeito com a capacidade de bloquear explorações comuns do WordPress diretamente lá depois de ler meus logs.
O Facebook (meta) fez algo parecido, se eu desativar o ‘AI crawlers control’ o meta simplesmente faz 9 mil requisições por hora, então a única maneira é bloqueá-los a todos.
No fediverso eu não tenho tido esses problemas há um tempo, mas estou esperando por mais atualizações do activitypub porque mesmo que eu não estivesse tendo problemas com ele, minha largura de banda seria afetada à toa.
Este não é o lugar para discutir os méritos do CloudFlare, mas meu problema com eles não são pessoas boas como você. Meu problema com eles são todas as pessoas ruins com quem eles estão perfeitamente dispostos a fazer negócios. Qualquer pessoa no mundo da cibersegurança que combate malware e botnets vê o CloudFlare aparecer muito. Da mesma forma, qualquer pessoa que combate extremistas online sabe com que frequência o CloudFlare protegerá sites extremistas onde outros provedores não o farão. Não é que eles sejam ineficazes ou que sejam muito caros. É a falta de moral na seleção de sua clientela.