MegaIndex bot hizo alrededor de 4.000 pageviews en un día

Para tu información

Para aquellos que vigilan las páginas vistas de sus sitios, el 02/07/2022 nuestro sitio recibió unas 4.000 páginas vistas del bot MegaIndex.ru. Definitivamente destacó.

7 Me gusta

podrías bloquearlo o ralentizarlo

5 Me gusta

Gracias por la información.

No estaba haciendo una pregunta, sino señalándolo a otros para que estuvieran atentos. Parece ser un nuevo rastreador que no distribuye sus accesos a lo largo del tiempo. Quizás esta fue la primera vez que vio nuestro sitio, por lo que accedió a todas las páginas, pero si continúa con estos accesos masivos en un día, investigaré más.

4 Me gusta

Gracias por el aviso. ¡Estos bots / indexadores web / arañas web mal escritos pueden realmente aplastar un servidor!

13 Me gusta

También lo he notado. Es el bot el que genera la mayoría de las visitas a mi instancia y, justo después, viene Seekport (35.000 visitas en un día) y mj12bot. A veces sufro ataques de denegación de servicio (DoS) por su culpa. La función anti-bot de Cloudflare me ha ayudado a limitar la mayoría de estos bots sin mucha supervisión.

5 Me gusta

¿Es posible ralentizar todos los rastreadores, añadiendo efectivamente un crawl-delay de robots.txt?

2 Me gusta

No. Muy pocos siguen el robots.txt y aún menos respetan el retraso.

2 Me gusta

Es una lástima. Sería una buena función para Discourse.

Por curiosidad, ¿el sistema existente (que te permite bloquear a todos los rastreadores pero solo añadir un retraso de rastreo a una lista finita) funciona a través de disallow y crawl-delay de robots.txt?

Ese es un asunto completamente diferente. Aunque, personalmente, he encontrado que crawl-delay en otro sitio ha sido efectivo.

2 Me gusta

Solo con bots de sombrero blanco, y no hay demasiados. Todos los demás, la proporción de buenos contra malos es más o menos 1:100, no les importa lo que tengas o no tengas en robots.txt. Los mejores parecen solo para descubrir dónde un administrador de sistemas/webmaster no quiere mostrarse y esos toman esas direcciones de inmediato.

(Realmente, actúa como una etiqueta html :thinking: Discourse no debería usar solo <> para eso, en mi opinión)

Los bots de SEO son los que se portan realmente mal. Pero la mayoría está diciendo un user agent falso hecho por script kiddies.

Se puede detener totalmente a muchos bots, pero eso debería hacerse en el servidor, no a nivel de aplicación.

2 Me gusta

Eso es todo, por cierto. Mi experiencia ha sido diferente y me gustaría que Discourse permitiera establecer crawl-delay sin tener que nombrar rastreadores individuales.

2 Me gusta

También tengo un pico de rastreadores.

¿Cómo puedo identificar qué rastreador(es) está abusando de las vistas de página?

4 Me gusta

Es uno de los informes integrados en la página de informes.

3 Me gusta

Gracias, lo encontré.

​ Agente de usuario Vistas de página
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) 5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) 872

Así que estos picos son de MJ21bot y Nexus 5X Build, que es un bot legítimo de Google después de verificar su IP en los registros de nginx.

¿Alguna idea de por qué harían tantas vistas de página? MJ12bot también parece legítimo (al menos, eso es lo que dicen mis búsquedas en Google…). Tenga en cuenta que el foro está en línea, pero requiere un inicio de sesión para ver el contenido. Se abrirá al público en unos días.

A veces veo picos de rastreadores en mis foros, pero solo duran uno o dos días y desaparecen durante mucho tiempo.

Ejemplos:

3 Me gusta

Comprueba las IP. Es también una de las más usadas falsas. Además, es totalmente inútil para ti, como todos los llamados bots de SEO.

3 Me gusta

No sé casi nada sobre los rastreadores. ¿Los rastreadores oficiales de Google no son útiles en cuanto al SEO? Disculpa si empiezo a desviarme del tema.

3 Me gusta

Como soy quien inició el tema, no considero que tu pregunta se salga del tema. Mi publicación fue informativa y tú solo intentas comprender mejor los detalles de la información.

Aunque no soy un experto en SEO, si quieres que la gente encuentre tu sitio a través de un motor de búsqueda, necesitas permitir que el rastreador del motor de búsqueda rastree tu sitio web para construir y actualizar sus índices.

El problema es que algunos rastreadores no dirigen a los usuarios a un sitio y, si ese es el caso y no quieres visitas excesivas a la página, pedirías que no rastreen tu sitio usando robots.txt. Sin embargo, los malos motores de búsqueda ignorarán robots.txt y entonces habrá que usar reglas de firewall y demás. El problema entonces se convierte en el viejo problema de que si alguien quiere acceder a un sitio abierto (sin inicio de sesión), es difícil bloquearlo porque cambian de identidad cada vez. Si se requiere inicio de sesión, a menudo eso reduce el número de personas que se registrarán.

Con respecto a la publicación original, no he visto otro aumento masivo de un día en las visitas a la página debido a MeagIndex u otro rastreador desde el valor atípico reportado.

2 Me gusta

Actualización: 13/08/2022

El bot visitó nuestro sitio nuevamente el 04/08/2022 (sitio del rastreador)

Informe: Vistas de página consolidadas

Informe: Agentes de usuario del rastreador web

Informe: Fuente principal de tráfico

Claramente, permitir que el bot MegaIndex.ru/2.0 indexe el sitio no parece estar generando tráfico al sitio.
Nota: Por lo que sé, yandex.ru es diferente de Megaindex.ru.


Para bloquear rastreadores existe robots.txt que, como se señaló

https:///admin/customize/robots

pero no todos los rastreadores respetarán robots.txt. :slightly_frowning_face:


Como señaló arriba IAmGav, existen otras configuraciones de rastreador.

4 Me gusta

robots.txt no es para detener bots. Es una guía para bots que se comportan bien. Estos deberían detenerse a nivel de servidor. Una de las razones más importantes por las que mi discourse está detrás de un proxy inverso.

4 Me gusta

El 22/12/2022 https://bot.seekport.com, que es un bot nuevo y desconocido para mí, realizó una cantidad desmesurada de visitas a páginas.

2 Me gusta

Los picos de actividad de rastreadores semirregulares son algo habitual. Nosotros mismos los dividimos en:

  • Rastreadores regulares de motores de búsqueda legítimos.
  • Rastreadores irregulares de motores de búsqueda nuevos/personalizados.
  • Rastreadores dirigidos por competidores o cualquier otro “investigador” que pueda utilizar eficazmente los datos rastreados para sus fines.

Según nuestra experiencia, no es necesario preocuparse ni protegerse de ser rastreado, a menos que no desee que su información se utilice para ningún fin o experimente cargas de servidor graves debido a ello. Al final, si su foro/proyecto es público, siempre habrá una forma de recopilar sus datos públicos para cualquier propósito :slight_smile:

3 Me gusta