Crawler não identificado com alto volume de visualizações de página

Olá a todos!

Ao analisarmos a contagem de visualizações de página do nosso crawler, parece haver uma entrada não identificada que acumula mais de 500 mil visualizações de página em um mês:

Existe alguma maneira fácil de descobrir o que isso pode ser? Parece ter uma média de 10.000 a 15.000+ acessos por dia.

Se você está no nosso suporte de e-mail de hospedagem, podemos lidar com isso para você.

Somos um projeto FLOSS auto-hospedado, então imagino que isso esteja fora de questão :slight_smile:

Sei que poderia adicionar mais filtros e pedir ao nosso especialista em infraestrutura para analisar mais logs — só estava me perguntando se alguém mais já tinha visto isso antes.

Verifique os logs do nginx (access.log) para solicitações que vieram com esse user agent e o respectivo IP.

Acabei de me encontrar pessoalmente com nosso principal SysAdmin e descobri. É o HAProxy fazendo uma verificação de saúde a cada 5 segundos :joy:

Os checks de saúde devem definir um User Agent adequado, para que isso não ocorra novamente. Além disso, você pode usar a rota /srv/status para verificações de saúde.

“Sim, deveria, mas sou preguiçoso.” - SysAdmin

Vou ver o que posso fazer. Obrigado!