Bot MegaIndex fez cerca de 4.000 pageviews em um dia

EricGT · Fevereiro 10, 2022, 10:35pm

Para sua informação

Para aqueles que ficam de olho nas visualizações de página de seus sites, em 02/07/2022 nosso site viu cerca de 4.000 visualizações de página do bot MegaIndex.ru. Definitivamente se destacou.

IAmGav · Fevereiro 10, 2022, 10:59pm

você poderia bloqueá-lo ou desacelerá-lo

EricGT · Fevereiro 11, 2022, 1:05am

Obrigado pela informação.

Eu não estava fazendo uma pergunta, mas apontando para outros ficarem atentos. Parece ser um novo crawler que não distribui seus acessos ao longo do tempo. Talvez esta tenha sido a primeira vez que ele viu nosso site, então fez todas as páginas, mas se continuar com esses acessos massivos um dia, vou investigar mais.

codinghorror · Fevereiro 11, 2022, 1:43am

Obrigado pelo aviso. Esses bots / indexadores da web / web spiders mal escritos podem realmente sobrecarregar um servidor!

Mr.X_Mr.X · Fevereiro 11, 2022, 5:06am

Notei isso também. É o bot que faz a maioria das pageviews na minha instância e logo depois vem Seekport (35 mil pageviews em um dia) e mj12bot. Estou sofrendo DOS às vezes por causa deles. O recurso anti-bot do Cloudflare me ajudou a limitar a maioria desses bots sem muita monitoração.

Jonathan5 · Fevereiro 11, 2022, 8:21am

É possível desacelerar todos os rastreadores — adicionando efetivamente um crawl-delay do robots.txt?

Jagster · Fevereiro 12, 2022, 7:36pm

Não. Pouquíssimos seguem o robots.txt e ainda menos obedecem ao atraso.

Jonathan5 · Fevereiro 12, 2022, 7:50pm

Que pena. Seria um bom recurso para o Discourse.

Por curiosidade, o sistema existente (permitindo bloquear todos os crawlers, mas adicionando um atraso de rastreamento apenas para uma lista finita) funciona via disallow e crawl-delay do robots.txt?

Isso é outra questão completamente diferente. Embora, pessoalmente, eu tenha achado o crawl-delay em outro site eficaz.

Jagster · Fevereiro 12, 2022, 7:56pm

Apenas com bots white hat, e não há muitos. Todos os outros, a proporção de bons contra ruins é mais ou menos 1:100, não se importam com o que você tem ou não tem no robots.txt. Os melhores parecem apenas para descobrir onde um sysadmin/webmaster não quer mostrar e esses seguem essas direções imediatamente.

(Na verdade, está agindo como uma tag html O Discourse não deveria usar apenas <> para isso, na minha opinião)

Bots de SEO são os que se comportam muito mal. Mas a maioria está informando um user agent falso feito por script kiddies.

Pode-se parar totalmente muitos bots, mas isso deve ser feito no servidor, não no nível do aplicativo.

Jonathan5 · Fevereiro 12, 2022, 8:00pm

Isso é tudo, aliás. Minha experiência tem sido diferente e eu gostaria que o Discourse permitisse a configuração do crawl-delay sem ter que nomear rastreadores individuais.

Canapin · Março 2, 2022, 2:05pm

Tenho um pico de rastreadores também.

Como posso identificar qual(is) rastreador(es) está(ão) abusando das visualizações de página?

codinghorror · Março 2, 2022, 10:04pm

É um dos relatórios integrados na página de relatórios.

Canapin · Março 2, 2022, 10:49pm

Obrigado, encontrei.

User Agent	Pageviews
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)	5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)	872

Então esses picos são do MJ21bot e Nexus 5X Build, que é um bot legítimo do Google após verificar seu IP nos logs do nginx.

Alguma ideia de por que eles fariam tantas pageviews? O MJ12bot também parece legítimo (pelo menos é o que minhas pesquisas no Google dizem…). Note que o fórum está online, mas requer login para ver o conteúdo. Ele será aberto ao público em alguns dias.

Às vezes, vejo picos de crawlers nos meus fóruns, mas eles duram apenas um ou dois dias e desaparecem por um longo tempo.

Exemplos:

Jagster · Março 2, 2022, 11:25pm

Verifique os IPs. É também um dos falsos mais usados. Além disso, é totalmente inútil para você, como todos os chamados bots de SEO.

Canapin · Março 4, 2022, 1:08pm

Eu não sei quase nada sobre crawlers. Os crawlers oficiais do Google não são úteis em relação a SEO? Desculpe se estou começando a fugir do assunto.

EricGT · Março 5, 2022, 8:19am

Como fui eu quem iniciou o tópico, não vejo sua pergunta como fora do tópico. Minha postagem foi um aviso e você está apenas tentando entender melhor os detalhes da informação.

Embora eu não seja um especialista em SEO, se você quer que as pessoas encontrem seu site usando um motor de busca, então você precisa permitir que o rastreador do motor de busca rastreie seu site para construir e atualizar seus índices.

O problema é que alguns rastreadores não estão levando os usuários a um site e, se for esse o caso e você não quiser acessos excessivos à página, você pediria que eles não rastreassem seu site usando robots.txt. No entanto, maus motores de busca ignorarão o robots.txt e, em seguida, será necessário usar regras de firewall e outras coisas. O problema então se torna o velho problema de que, se alguém quiser ter acesso a um site aberto (sem login), é difícil bloqueá-lo porque eles mudam de identidade a cada vez. Se você optar por exigir login, isso geralmente reduz o número de pessoas que se inscreverão.

Em relação à postagem original, não vi outro aumento massivo de um dia nas visualizações de página devido ao MeagIndex ou a outro rastreador desde o valor atípico relatado.

EricGT · Agosto 13, 2022, 12:21pm

Atualização: 13/08/2022

O bot visitou nosso site novamente em 04/08/2022 (site do crawler)

Relatório: Pageviews Consolidadas

Relatório: User Agents do Web Crawler

Relatório: Principal Fonte de Tráfego

Claramente, permitir que o bot MegaIndex.ru/2.0 indexe o site não parece estar gerando tráfego para o site.
Nota: Pelo que sei, yandex.ru é diferente de Megaindex.ru.

Para bloquear crawlers, existe o robots.txt que, como observado

https://<Discoruse site>/admin/customize/robots

mas nem todos os crawlers respeitarão o robots.txt.

Como observado acima por IAmGav, existem outras configurações de crawler.

Jagster · Agosto 14, 2022, 5:10pm

robots.txt não serve para impedir bots. É uma diretriz para bots que se comportam bem. Estes devem parar no nível do servidor. Uma das maiores razões pelas quais meu discourse está atrás de um proxy reverso.

EricGT · Janeiro 11, 2023, 8:51am

Em 22/12/2022, https://bot.seekport.com, que é um novo bot desconhecido para mim, realizou uma quantidade excessiva de visualizações de página.

kinetiksoft · Janeiro 11, 2023, 12:16pm

O pico de atividade de crawlers semi-regulares é algo usual. Nós mesmos os dividimos por:

Crawlers regulares de mecanismos de busca legítimos
Crawlers irregulares de mecanismos de busca novos/personalizados
Crawlers direcionados de concorrentes ou quaisquer outros “pesquisadores” que possam usar efetivamente seus dados rastreados para seus propósitos.

Com base em nossa experiência, não há necessidade de se preocupar e se proteger de ser rastreado, a menos que você não queira que suas informações sejam usadas para qualquer finalidade ou que você experimente cargas severas no servidor por causa disso. No final, se o seu fórum/projeto for público, sempre haverá uma maneira de coletar seus dados públicos para qualquer finalidade

Tópico		Respostas	Visualizações
Pageviews from Anonymous Users have exploded but Google Analytics showed no traffic growth. How to find about where the increase come from? Data & reporting	23	2384	5 de Janeiro de 2021
Has anyone seen the OpenAI web crawler GPTBot visit their site? Community Building	11	1930	23 de Junho de 2025
Sudden drop in traffic Community Building	40	4208	15 de Dezembro de 2022
Handling Bingbot Feature	29	7438	20 de Novembro de 2020
Anonymous views suddenly very high Data & reporting	48	1236	10 de Dezembro de 2025

Bot MegaIndex fez cerca de 4.000 pageviews em um dia

Tópicos relacionados