Como os auto-hospedados aqui estão lidando com crawlers ruins?

Lendo este tópico: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Fico imaginando como é para pessoas que usam auto-hospedagem lidar com crawlers que praticamente fazem DDoS sem parar, especialmente em instâncias dentro do Fediverse.

2 curtidas

Acho que um bom primeiro passo é quantificar para você mesmo o quão grande é esse problema usando a métrica “novas” visualizações de página:

Se você estiver vendo algo como 60% de tráfego não humano, isso provavelmente está bom e você não precisa tomar nenhuma atitude.
Se for 95%… sim, pode ser hora de começar a investigar soluções.

Configurar Blocked crawler user agents é um amigo do administrador. O tráfego de lixo não é um grande problema com o Discourse porque a carga não é tão pesada. Mas eu bani um punhado dos piores porque realmente não gosto do modelo de negócios deles. Todo mundo está reclamando de como as empresas de IA estão roubando conteúdo, o que elas realmente estão fazendo, mas as empresas de SEO são muito piores — e seus bots são realmente gananciosos.

Mas também estou usando geo-blocking, porque posso. Existem pelo menos meia dúzia de países que são fontes de knockers e outros atores maliciosos. Mas se um fórum é para um público global, isso não é possível, é claro.

Com meus sites WordPress, o mesmo é feito usando Nginx com a ajuda do Varnish.

No momento, a proporção de humanos vs. bots é algo como 50/50 no meu fórum.

1 curtida

A propósito, a tag não está correta, eu suponho.

Concordo, a tag de IA tem um ícone de plugin, então presumo que seja apenas para o plugin de IA. Eu a removi.

O conteúdo do crawler é fortemente armazenado em cache, então, na prática, nunca vi eles conseguirem fazer um DDoS.

Você está realmente tendo problemas de desempenho por causa disso?

5 curtidas

Gostaria de poder dizer que tenho alguma solução gratuita, ou que não envolva algum serviço externo. Coloquei meu maior fórum por trás da CDN da bunny.net. Eles têm um plano gratuito generoso. Mas para esse fórum, eu pago os $10/mês para ter o serviço de segurança deles. Ele me permite bloquear rastreadores (crawlers), DDoS e geograficamente. Como CDNs, eles são realmente baratos e eficazes, e não são a CloudFlare. Muitas pessoas no fediverso os avaliam bem.

Tenho um gráfico do serviço Shield deles. (Eu sou um n00b, apenas 1 gráfico por resposta :slight_smile: ) No primeiro, houve 484 mil conexões de bots de um total de 2 milhões de conexões. Eu tinha acabado de migrar para a CDN e não tinha nenhum filtro ou bloqueio ativado. O próximo mostra 11 mil bots e 90 mil bloqueados devido a listas de acesso (eu bloqueio China e Rússia e talvez alguns outros). Então, são cerca de 100 mil de bots em um total de 700 mil requisições naquela semana.

Depois:

2 curtidas

Eu estava, mas criei algumas regras para lidar com isso.

Chandler Bing: 'Sim, mas eu sou muito mais rápido'

A Cloudflare sempre foi legal comigo e eu nunca precisei pagar por serviços anti-bot. Isso, juntamente com as novidades deles, como o anti-IA, é ótimo e o que me mantém como cliente e promotor deles, eu acho. Não quer que raspadores de IA roubem seus dados? Basta usar uma de suas regras gerenciadas (embora seja totalmente possível usar apenas um robots.txt normal, como eu faço no meu site)

.. versus uma regra gerenciada genérica, muito melhor..

Se essas startups realmente ouvem e respeitam o arquivo é outra história, mas é bom que elas estejam tentando pelo menos. Nenhum dos meus sites teve problemas com bots no passado e eu ainda estou repetidamente satisfeito com a capacidade de bloquear explorações comuns do WordPress diretamente lá depois de ler meus logs.

1 curtida

O Facebook (meta) fez algo parecido, se eu desativar o ‘AI crawlers control’ o meta simplesmente faz 9 mil requisições por hora, então a única maneira é bloqueá-los a todos.

No fediverso eu não tenho tido esses problemas há um tempo, mas estou esperando por mais atualizações do activitypub porque mesmo que eu não estivesse tendo problemas com ele, minha largura de banda seria afetada à toa.


Absolutamente correto, estou usando um servidor lemmy que usa CF e o administrador deles postou este tutorial:


O mesmo aqui, minhas regras atuais são:

not (cf.client.bot and (lower(http.user_agent) contains "googlebot" or lower(http.user_agent) contains "bingbot")) and ip.src != IP_BYPASS

E com base naquele servidor lemmy acima:

(starts_with(http.user_agent, "Mozilla/") and http.request.version in {"HTTP/1.0" "HTTP/1.1" "HTTP/1.2" "SPDY/3.1"} and any(http.request.headers["accept"][*] contains "text/html") and http.user_agent wildcard r"HeadlessChrome/*" and http.request.uri.path contains "/xmlrpc.php" and http.request.uri.path contains "/wp-config.php" and http.request.uri.path contains "/wlwmanifest.xml" and ip.src.asnum in {200373 198571 26496 31815 18450 398101 50673 7393 14061 205544 199610 21501 16125 51540 264649 39020 30083 35540 55293 36943 32244 6724 63949 7203 201924 30633 208046 36352 25264 32475 23033 31898 210920 211252 16276 23470 136907 12876 210558 132203 61317 212238 37963 13238 2639 20473 63018 395954 19437 207990 27411 53667 27176 396507 206575 20454 51167 60781 62240 398493 206092 63023 213230 26347 20738 45102 24940 57523 8100 8560 6939 14178 46606 197540 397630 9009 11878 49453 29802} and http.user_agent wildcard r"Mozilla/*" and not cf.client.bot and not ip.src in {BYPASS_IP_1 RANGE_IP.0/23 RANGE_IP_2/24}) or (ip.src.country in {"T1" "XX"}) or (http.request.version in {"HTTP/1.0" "SPDY/3.1" "HTTP/1.2"})

Para mim é o suficiente.

Essas regras me ajudaram a passar por um DDos (não sei se foi bem isso) no último mês.

Este não é o lugar para discutir os méritos do CloudFlare, mas meu problema com eles não são pessoas boas como você. Meu problema com eles são todas as pessoas ruins com quem eles estão perfeitamente dispostos a fazer negócios. Qualquer pessoa no mundo da cibersegurança que combate malware e botnets vê o CloudFlare aparecer muito. Da mesma forma, qualquer pessoa que combate extremistas online sabe com que frequência o CloudFlare protegerá sites extremistas onde outros provedores não o farão. Não é que eles sejam ineficazes ou que sejam muito caros. É a falta de moral na seleção de sua clientela.

3 curtidas