Vendo tráfego de usuários anônimos e crawlers, embora o site seja privado

Eu ajudo a administrar uma instância privada do Discourse e não pude deixar de notar que há algum tráfego registrado de usuários anônimos e de rastreadores da web aparecendo no meu painel. Agora que olho mais de perto, vejo que isso já acontecia antes, mas em quantidades menores.

Tenho a opção “login obrigatório” ativada e configuramos nosso SSO para permitir logins apenas para usuários que atendem a certos critérios. Há outra configuração que eu deveria marcar? Obrigado! : )

Não deve haver nada adicional que você precise fazer… esse tráfego de rastreador provavelmente vem de bots acessando community.yoursite.com/login. Se você verificar community.example.com/admin/reports/web_crawlers, poderá ver com que frequência rastreadores específicos acessam seu site.

Existem algumas coisas que você pode fazer para reduzir o tráfego de rastreadores…

  • Tente bloquear o acesso de rastreadores ao /login no arquivo robots.txt (community.example.com/admin/customize/robots)… você provavelmente verá uma redução no tráfego de rastreadores (embora não seja completa, pois existem rastreadores que não seguem o robots.txt)

  • Verifique os maiores infratores em /admin/reports/web_crawlers e adicione os user-agents deles à configuração do site blocked crawler user agents

Além do que Kris escreveu, haverá também uma solicitação anônima para a página de login ou a página inicial do seu site no início de cada solicitação de login SSO.

As páginas de Termos de Uso e Privacidade do seu site também provavelmente podem ser acessadas por usuários anônimos.

Se você estiver usando um VPS ou tiver o Nginx (o Apache também funciona, mas o Nginx é mais fácil :wink: ) na frente do Discourse, bloquear bots fica muito mais simples. A interface do Discourse não é tão fácil de usar porque há muitos bots por aí. O arquivo robots.txt é quase inútil, pois poucos o seguem, nem mesmo o Google.

O problema não são os atacantes tentando acessar seu Discourse. O que eles realmente procuram é:

  • Centenas de script kiddies testando se você tem WordPress e explorando vulnerabilidades, na sua maioria antigas, mas ainda assim existentes
  • Raspadores de SEO e outros spiders tentando analisar seu conteúdo, principalmente porque querem lucrar com isso
  • E, claro, os mecanismos de busca

Esses não causam danos reais, como invasões, mas atendê-los custa dinheiro puro.

O problema é que seu servidor precisa responder a todos eles. Em pouco tempo, a maioria da carga virá de bots, não de usuários reais. É perfeitamente normal ter entre 50 e 500 bots para cada usuário real.

E você pagará por tudo isso.

Não tenho audiência global porque meus sites, incluindo o Discourse, são totalmente em finlandês. Por isso, tenho uma ferramenta poderosa, mas que só pode ser usada em VPS: bloqueio geográfico.

Peço desculpas aos nossos amigos da Rússia, China, Índia, Paquistão, Irã, Iraque e Vietnã, mas quando bloqueei seus países, minha carga de bots caiu cerca de 90%.

A luta contra os bots é interminável. E as ferramentas do Discourse, quando o fórum não é privado, são muito limitadas. Mas, certamente, é melhor do que nada.

Não me entenda mal. Não estou dizendo que um aplicativo deve fazer algo que é responsabilidade do servidor. Estou apenas afirmando que você não pode depender apenas do Discourse.