MegaIndex bot hizo alrededor de 4.000 pageviews en un día

EricGT · 10 Febrero, 2022 22:35

Para tu información

Para aquellos que vigilan las páginas vistas de sus sitios, el 02/07/2022 nuestro sitio recibió unas 4.000 páginas vistas del bot MegaIndex.ru. Definitivamente destacó.

IAmGav · 10 Febrero, 2022 22:59

podrías bloquearlo o ralentizarlo

EricGT · 11 Febrero, 2022 01:05

Gracias por la información.

No estaba haciendo una pregunta, sino señalándolo a otros para que estuvieran atentos. Parece ser un nuevo rastreador que no distribuye sus accesos a lo largo del tiempo. Quizás esta fue la primera vez que vio nuestro sitio, por lo que accedió a todas las páginas, pero si continúa con estos accesos masivos en un día, investigaré más.

codinghorror · 11 Febrero, 2022 01:43

Gracias por el aviso. ¡Estos bots / indexadores web / arañas web mal escritos pueden realmente aplastar un servidor!

Mr.X_Mr.X · 11 Febrero, 2022 05:06

También lo he notado. Es el bot el que genera la mayoría de las visitas a mi instancia y, justo después, viene Seekport (35.000 visitas en un día) y mj12bot. A veces sufro ataques de denegación de servicio (DoS) por su culpa. La función anti-bot de Cloudflare me ha ayudado a limitar la mayoría de estos bots sin mucha supervisión.

Jonathan5 · 11 Febrero, 2022 08:21

¿Es posible ralentizar todos los rastreadores, añadiendo efectivamente un crawl-delay de robots.txt?

Jagster · 12 Febrero, 2022 19:36

No. Muy pocos siguen el robots.txt y aún menos respetan el retraso.

Jonathan5 · 12 Febrero, 2022 19:50

Es una lástima. Sería una buena función para Discourse.

Por curiosidad, ¿el sistema existente (que te permite bloquear a todos los rastreadores pero solo añadir un retraso de rastreo a una lista finita) funciona a través de disallow y crawl-delay de robots.txt?

Ese es un asunto completamente diferente. Aunque, personalmente, he encontrado que crawl-delay en otro sitio ha sido efectivo.

Jagster · 12 Febrero, 2022 19:56

Solo con bots de sombrero blanco, y no hay demasiados. Todos los demás, la proporción de buenos contra malos es más o menos 1:100, no les importa lo que tengas o no tengas en robots.txt. Los mejores parecen solo para descubrir dónde un administrador de sistemas/webmaster no quiere mostrarse y esos toman esas direcciones de inmediato.

(Realmente, actúa como una etiqueta html Discourse no debería usar solo <> para eso, en mi opinión)

Los bots de SEO son los que se portan realmente mal. Pero la mayoría está diciendo un user agent falso hecho por script kiddies.

Se puede detener totalmente a muchos bots, pero eso debería hacerse en el servidor, no a nivel de aplicación.

Jonathan5 · 12 Febrero, 2022 20:00

Eso es todo, por cierto. Mi experiencia ha sido diferente y me gustaría que Discourse permitiera establecer crawl-delay sin tener que nombrar rastreadores individuales.

Canapin · 2 Marzo, 2022 14:05

También tengo un pico de rastreadores.

¿Cómo puedo identificar qué rastreador(es) está abusando de las vistas de página?

codinghorror · 2 Marzo, 2022 22:04

Es uno de los informes integrados en la página de informes.

Canapin · 2 Marzo, 2022 22:49

Gracias, lo encontré.

Agente de usuario	Vistas de página
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)	5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)	872

Así que estos picos son de MJ21bot y Nexus 5X Build, que es un bot legítimo de Google después de verificar su IP en los registros de nginx.

¿Alguna idea de por qué harían tantas vistas de página? MJ12bot también parece legítimo (al menos, eso es lo que dicen mis búsquedas en Google…). Tenga en cuenta que el foro está en línea, pero requiere un inicio de sesión para ver el contenido. Se abrirá al público en unos días.

A veces veo picos de rastreadores en mis foros, pero solo duran uno o dos días y desaparecen durante mucho tiempo.

Ejemplos:

Jagster · 2 Marzo, 2022 23:25

Comprueba las IP. Es también una de las más usadas falsas. Además, es totalmente inútil para ti, como todos los llamados bots de SEO.

Canapin · 4 Marzo, 2022 13:08

No sé casi nada sobre los rastreadores. ¿Los rastreadores oficiales de Google no son útiles en cuanto al SEO? Disculpa si empiezo a desviarme del tema.

EricGT · 5 Marzo, 2022 08:19

Como soy quien inició el tema, no considero que tu pregunta se salga del tema. Mi publicación fue informativa y tú solo intentas comprender mejor los detalles de la información.

Aunque no soy un experto en SEO, si quieres que la gente encuentre tu sitio a través de un motor de búsqueda, necesitas permitir que el rastreador del motor de búsqueda rastree tu sitio web para construir y actualizar sus índices.

El problema es que algunos rastreadores no dirigen a los usuarios a un sitio y, si ese es el caso y no quieres visitas excesivas a la página, pedirías que no rastreen tu sitio usando robots.txt. Sin embargo, los malos motores de búsqueda ignorarán robots.txt y entonces habrá que usar reglas de firewall y demás. El problema entonces se convierte en el viejo problema de que si alguien quiere acceder a un sitio abierto (sin inicio de sesión), es difícil bloquearlo porque cambian de identidad cada vez. Si se requiere inicio de sesión, a menudo eso reduce el número de personas que se registrarán.

Con respecto a la publicación original, no he visto otro aumento masivo de un día en las visitas a la página debido a MeagIndex u otro rastreador desde el valor atípico reportado.

EricGT · 13 Agosto, 2022 12:21

Actualización: 13/08/2022

El bot visitó nuestro sitio nuevamente el 04/08/2022 (sitio del rastreador)

Informe: Vistas de página consolidadas

Informe: Agentes de usuario del rastreador web

Informe: Fuente principal de tráfico

Claramente, permitir que el bot MegaIndex.ru/2.0 indexe el sitio no parece estar generando tráfico al sitio.
Nota: Por lo que sé, yandex.ru es diferente de Megaindex.ru.

Para bloquear rastreadores existe robots.txt que, como se señaló

https:///admin/customize/robots

pero no todos los rastreadores respetarán robots.txt.

Como señaló arriba IAmGav, existen otras configuraciones de rastreador.

Jagster · 14 Agosto, 2022 17:10

robots.txt no es para detener bots. Es una guía para bots que se comportan bien. Estos deberían detenerse a nivel de servidor. Una de las razones más importantes por las que mi discourse está detrás de un proxy inverso.

EricGT · 11 Enero, 2023 08:51

El 22/12/2022 https://bot.seekport.com, que es un bot nuevo y desconocido para mí, realizó una cantidad desmesurada de visitas a páginas.

kinetiksoft · 11 Enero, 2023 12:16

Los picos de actividad de rastreadores semirregulares son algo habitual. Nosotros mismos los dividimos en:

Rastreadores regulares de motores de búsqueda legítimos.
Rastreadores irregulares de motores de búsqueda nuevos/personalizados.
Rastreadores dirigidos por competidores o cualquier otro “investigador” que pueda utilizar eficazmente los datos rastreados para sus fines.

Según nuestra experiencia, no es necesario preocuparse ni protegerse de ser rastreado, a menos que no desee que su información se utilice para ningún fin o experimente cargas de servidor graves debido a ello. Al final, si su foro/proyecto es público, siempre habrá una forma de recopilar sus datos públicos para cualquier propósito

Tema		Respuestas	Vistas
Pageviews from Anonymous Users have exploded but Google Analytics showed no traffic growth. How to find about where the increase come from? Data & reporting	23	2385	5 Enero 2021
Has anyone seen the OpenAI web crawler GPTBot visit their site? Community Building	11	1932	23 Junio 2025
Sudden drop in traffic Community Building	40	4211	15 Diciembre 2022
Handling Bingbot Feature	29	7440	20 Noviembre 2020
Anonymous views suddenly very high Data & reporting	48	1238	10 Diciembre 2025

MegaIndex bot hizo alrededor de 4.000 pageviews en un día

Temas relacionados