Para tu información
Para aquellos que vigilan las páginas vistas de sus sitios, el 02/07/2022 nuestro sitio recibió unas 4.000 páginas vistas del bot MegaIndex.ru. Definitivamente destacó.
Para tu información
Para aquellos que vigilan las páginas vistas de sus sitios, el 02/07/2022 nuestro sitio recibió unas 4.000 páginas vistas del bot MegaIndex.ru. Definitivamente destacó.
Gracias por la información.
No estaba haciendo una pregunta, sino señalándolo a otros para que estuvieran atentos. Parece ser un nuevo rastreador que no distribuye sus accesos a lo largo del tiempo. Quizás esta fue la primera vez que vio nuestro sitio, por lo que accedió a todas las páginas, pero si continúa con estos accesos masivos en un día, investigaré más.
Gracias por el aviso. ¡Estos bots / indexadores web / arañas web mal escritos pueden realmente aplastar un servidor!
También lo he notado. Es el bot el que genera la mayoría de las visitas a mi instancia y, justo después, viene Seekport (35.000 visitas en un día) y mj12bot. A veces sufro ataques de denegación de servicio (DoS) por su culpa. La función anti-bot de Cloudflare me ha ayudado a limitar la mayoría de estos bots sin mucha supervisión.
¿Es posible ralentizar todos los rastreadores, añadiendo efectivamente un crawl-delay de robots.txt?
No. Muy pocos siguen el robots.txt y aún menos respetan el retraso.
Es una lástima. Sería una buena función para Discourse.
Por curiosidad, ¿el sistema existente (que te permite bloquear a todos los rastreadores pero solo añadir un retraso de rastreo a una lista finita) funciona a través de disallow y crawl-delay de robots.txt?
Ese es un asunto completamente diferente. Aunque, personalmente, he encontrado que crawl-delay en otro sitio ha sido efectivo.
Solo con bots de sombrero blanco, y no hay demasiados. Todos los demás, la proporción de buenos contra malos es más o menos 1:100, no les importa lo que tengas o no tengas en robots.txt. Los mejores parecen solo para descubrir dónde un administrador de sistemas/webmaster no quiere mostrarse y esos toman esas direcciones de inmediato.
(Realmente, actúa como una etiqueta html
Discourse no debería usar solo <> para eso, en mi opinión)
Los bots de SEO son los que se portan realmente mal. Pero la mayoría está diciendo un user agent falso hecho por script kiddies.
Se puede detener totalmente a muchos bots, pero eso debería hacerse en el servidor, no a nivel de aplicación.
Eso es todo, por cierto. Mi experiencia ha sido diferente y me gustaría que Discourse permitiera establecer crawl-delay sin tener que nombrar rastreadores individuales.
También tengo un pico de rastreadores.
¿Cómo puedo identificar qué rastreador(es) está abusando de las vistas de página?
Es uno de los informes integrados en la página de informes.
Gracias, lo encontré.
| Agente de usuario | Vistas de página |
|---|---|
| Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 5514 |
| Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) | 5212 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 1427 |
| Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) | 872 |
Así que estos picos son de MJ21bot y Nexus 5X Build, que es un bot legítimo de Google después de verificar su IP en los registros de nginx.
¿Alguna idea de por qué harían tantas vistas de página? MJ12bot también parece legítimo (al menos, eso es lo que dicen mis búsquedas en Google…). Tenga en cuenta que el foro está en línea, pero requiere un inicio de sesión para ver el contenido. Se abrirá al público en unos días.
A veces veo picos de rastreadores en mis foros, pero solo duran uno o dos días y desaparecen durante mucho tiempo.
Ejemplos:
Comprueba las IP. Es también una de las más usadas falsas. Además, es totalmente inútil para ti, como todos los llamados bots de SEO.
No sé casi nada sobre los rastreadores. ¿Los rastreadores oficiales de Google no son útiles en cuanto al SEO? Disculpa si empiezo a desviarme del tema.
Como soy quien inició el tema, no considero que tu pregunta se salga del tema. Mi publicación fue informativa y tú solo intentas comprender mejor los detalles de la información.
Aunque no soy un experto en SEO, si quieres que la gente encuentre tu sitio a través de un motor de búsqueda, necesitas permitir que el rastreador del motor de búsqueda rastree tu sitio web para construir y actualizar sus índices.
El problema es que algunos rastreadores no dirigen a los usuarios a un sitio y, si ese es el caso y no quieres visitas excesivas a la página, pedirías que no rastreen tu sitio usando robots.txt. Sin embargo, los malos motores de búsqueda ignorarán robots.txt y entonces habrá que usar reglas de firewall y demás. El problema entonces se convierte en el viejo problema de que si alguien quiere acceder a un sitio abierto (sin inicio de sesión), es difícil bloquearlo porque cambian de identidad cada vez. Si se requiere inicio de sesión, a menudo eso reduce el número de personas que se registrarán.
Con respecto a la publicación original, no he visto otro aumento masivo de un día en las visitas a la página debido a MeagIndex u otro rastreador desde el valor atípico reportado.
Actualización: 13/08/2022
El bot visitó nuestro sitio nuevamente el 04/08/2022 (sitio del rastreador)
Informe: Vistas de página consolidadas
Informe: Agentes de usuario del rastreador web
Informe: Fuente principal de tráfico
Claramente, permitir que el bot MegaIndex.ru/2.0 indexe el sitio no parece estar generando tráfico al sitio.
Nota: Por lo que sé, yandex.ru es diferente de Megaindex.ru.
Para bloquear rastreadores existe robots.txt que, como se señaló
https:///admin/customize/robots
pero no todos los rastreadores respetarán robots.txt. ![]()
Como señaló arriba IAmGav, existen otras configuraciones de rastreador.
robots.txt no es para detener bots. Es una guía para bots que se comportan bien. Estos deberían detenerse a nivel de servidor. Una de las razones más importantes por las que mi discourse está detrás de un proxy inverso.
El 22/12/2022 https://bot.seekport.com, que es un bot nuevo y desconocido para mí, realizó una cantidad desmesurada de visitas a páginas.
Los picos de actividad de rastreadores semirregulares son algo habitual. Nosotros mismos los dividimos en:
Según nuestra experiencia, no es necesario preocuparse ni protegerse de ser rastreado, a menos que no desee que su información se utilice para ningún fin o experimente cargas de servidor graves debido a ello. Al final, si su foro/proyecto es público, siempre habrá una forma de recopilar sus datos públicos para cualquier propósito ![]()