Para sua informação
Para aqueles que ficam de olho nas visualizações de página de seus sites, em 02/07/2022 nosso site viu cerca de 4.000 visualizações de página do bot MegaIndex.ru. Definitivamente se destacou.
Para sua informação
Para aqueles que ficam de olho nas visualizações de página de seus sites, em 02/07/2022 nosso site viu cerca de 4.000 visualizações de página do bot MegaIndex.ru. Definitivamente se destacou.
Obrigado pela informação.
Eu não estava fazendo uma pergunta, mas apontando para outros ficarem atentos. Parece ser um novo crawler que não distribui seus acessos ao longo do tempo. Talvez esta tenha sido a primeira vez que ele viu nosso site, então fez todas as páginas, mas se continuar com esses acessos massivos um dia, vou investigar mais.
Obrigado pelo aviso. Esses bots / indexadores da web / web spiders mal escritos podem realmente sobrecarregar um servidor!
Notei isso também. É o bot que faz a maioria das pageviews na minha instância e logo depois vem Seekport (35 mil pageviews em um dia) e mj12bot. Estou sofrendo DOS às vezes por causa deles. O recurso anti-bot do Cloudflare me ajudou a limitar a maioria desses bots sem muita monitoração.
É possível desacelerar todos os rastreadores — adicionando efetivamente um crawl-delay do robots.txt?
Não. Pouquíssimos seguem o robots.txt e ainda menos obedecem ao atraso.
Que pena. Seria um bom recurso para o Discourse.
Por curiosidade, o sistema existente (permitindo bloquear todos os crawlers, mas adicionando um atraso de rastreamento apenas para uma lista finita) funciona via disallow e crawl-delay do robots.txt?
Isso é outra questão completamente diferente. Embora, pessoalmente, eu tenha achado o crawl-delay em outro site eficaz.
Apenas com bots white hat, e não há muitos. Todos os outros, a proporção de bons contra ruins é mais ou menos 1:100, não se importam com o que você tem ou não tem no robots.txt. Os melhores parecem apenas para descobrir onde um sysadmin/webmaster não quer mostrar e esses seguem essas direções imediatamente.
(Na verdade, está agindo como uma tag html
O Discourse não deveria usar apenas <> para isso, na minha opinião)
Bots de SEO são os que se comportam muito mal. Mas a maioria está informando um user agent falso feito por script kiddies.
Pode-se parar totalmente muitos bots, mas isso deve ser feito no servidor, não no nível do aplicativo.
Isso é tudo, aliás. Minha experiência tem sido diferente e eu gostaria que o Discourse permitisse a configuração do crawl-delay sem ter que nomear rastreadores individuais.
Tenho um pico de rastreadores também.
Como posso identificar qual(is) rastreador(es) está(ão) abusando das visualizações de página?
É um dos relatórios integrados na página de relatórios.
Obrigado, encontrei.
| User Agent | Pageviews |
|---|---|
| Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 5514 |
| Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) | 5212 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 1427 |
| Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) | 872 |
Então esses picos são do MJ21bot e Nexus 5X Build, que é um bot legítimo do Google após verificar seu IP nos logs do nginx.
Alguma ideia de por que eles fariam tantas pageviews? O MJ12bot também parece legítimo (pelo menos é o que minhas pesquisas no Google dizem…). Note que o fórum está online, mas requer login para ver o conteúdo. Ele será aberto ao público em alguns dias.
Às vezes, vejo picos de crawlers nos meus fóruns, mas eles duram apenas um ou dois dias e desaparecem por um longo tempo.
Exemplos:
Verifique os IPs. É também um dos falsos mais usados. Além disso, é totalmente inútil para você, como todos os chamados bots de SEO.
Eu não sei quase nada sobre crawlers. Os crawlers oficiais do Google não são úteis em relação a SEO? Desculpe se estou começando a fugir do assunto.
Como fui eu quem iniciou o tópico, não vejo sua pergunta como fora do tópico. Minha postagem foi um aviso e você está apenas tentando entender melhor os detalhes da informação.
Embora eu não seja um especialista em SEO, se você quer que as pessoas encontrem seu site usando um motor de busca, então você precisa permitir que o rastreador do motor de busca rastreie seu site para construir e atualizar seus índices.
O problema é que alguns rastreadores não estão levando os usuários a um site e, se for esse o caso e você não quiser acessos excessivos à página, você pediria que eles não rastreassem seu site usando robots.txt. No entanto, maus motores de busca ignorarão o robots.txt e, em seguida, será necessário usar regras de firewall e outras coisas. O problema então se torna o velho problema de que, se alguém quiser ter acesso a um site aberto (sem login), é difícil bloqueá-lo porque eles mudam de identidade a cada vez. Se você optar por exigir login, isso geralmente reduz o número de pessoas que se inscreverão.
Em relação à postagem original, não vi outro aumento massivo de um dia nas visualizações de página devido ao MeagIndex ou a outro rastreador desde o valor atípico relatado.
Atualização: 13/08/2022
O bot visitou nosso site novamente em 04/08/2022 (site do crawler)
Relatório: Pageviews Consolidadas
Relatório: User Agents do Web Crawler
Relatório: Principal Fonte de Tráfego
Claramente, permitir que o bot MegaIndex.ru/2.0 indexe o site não parece estar gerando tráfego para o site.
Nota: Pelo que sei, yandex.ru é diferente de Megaindex.ru.
Para bloquear crawlers, existe o robots.txt que, como observado
https://<Discoruse site>/admin/customize/robots
mas nem todos os crawlers respeitarão o robots.txt. ![]()
Como observado acima por IAmGav, existem outras configurações de crawler.
robots.txt não serve para impedir bots. É uma diretriz para bots que se comportam bem. Estes devem parar no nível do servidor. Uma das maiores razões pelas quais meu discourse está atrás de um proxy reverso.
Em 22/12/2022, https://bot.seekport.com, que é um novo bot desconhecido para mim, realizou uma quantidade excessiva de visualizações de página.
O pico de atividade de crawlers semi-regulares é algo usual. Nós mesmos os dividimos por:
Com base em nossa experiência, não há necessidade de se preocupar e se proteger de ser rastreado, a menos que você não queira que suas informações sejam usadas para qualquer finalidade ou que você experimente cargas severas no servidor por causa disso. No final, se o seu fórum/projeto for público, sempre haverá uma maneira de coletar seus dados públicos para qualquer finalidade ![]()