Como os auto-hospedados aqui estão lidando com crawlers ruins?

eisammy · Abril 10, 2025, 4:02pm

Lendo este tópico: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Fico imaginando como é para pessoas que usam auto-hospedagem lidar com crawlers que praticamente fazem DDoS sem parar, especialmente em instâncias dentro do Fediverse.

Bas · Abril 11, 2025, 8:20am

Acho que um bom primeiro passo é quantificar para você mesmo o quão grande é esse problema usando a métrica “novas” visualizações de página:

Se você estiver vendo algo como 60% de tráfego não humano, isso provavelmente está bom e você não precisa tomar nenhuma atitude.
Se for 95%… sim, pode ser hora de começar a investigar soluções.

Jagster · Abril 11, 2025, 8:57am

Configurar Blocked crawler user agents é um amigo do administrador. O tráfego de lixo não é um grande problema com o Discourse porque a carga não é tão pesada. Mas eu bani um punhado dos piores porque realmente não gosto do modelo de negócios deles. Todo mundo está reclamando de como as empresas de IA estão roubando conteúdo, o que elas realmente estão fazendo, mas as empresas de SEO são muito piores — e seus bots são realmente gananciosos.

Mas também estou usando geo-blocking, porque posso. Existem pelo menos meia dúzia de países que são fontes de knockers e outros atores maliciosos. Mas se um fórum é para um público global, isso não é possível, é claro.

Com meus sites WordPress, o mesmo é feito usando Nginx com a ajuda do Varnish.

No momento, a proporção de humanos vs. bots é algo como 50/50 no meu fórum.

Jagster · Abril 11, 2025, 8:59am

A propósito, a tag não está correta, eu suponho.

RGJ · Abril 11, 2025, 9:22am

Concordo, a tag de IA tem um ícone de plugin, então presumo que seja apenas para o plugin de IA. Eu a removi.

O conteúdo do crawler é fortemente armazenado em cache, então, na prática, nunca vi eles conseguirem fazer um DDoS.

Você está realmente tendo problemas de desempenho por causa disso?

Tópico		Respostas	Visualizações
Smarter handling of random crawler traffic Feature	2	3538	29 de Março de 2018
Controlling Web Crawlers For a Site Site Management how-to	10	2484	19 de Julho de 2025
Too many Crawlers, is that a problem? Data & reporting	6	2535	25 de Junho de 2020
How to deal with sudden high “Other traffic” in site analytics? Support	8	242	28 de Agosto de 2025
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4555	2 de Dezembro de 2023

Como os auto-hospedados aqui estão lidando com crawlers ruins?

Tópicos relacionados