Le bot MegaIndex a effectué environ 4 000 visites de pages en une journée

Pour information

Pour ceux qui surveillent les pages vues de leur site, le 02/07/2022, notre site a vu environ 4 000 pages vues provenant du bot MegaIndex.ru. Cela s’est vraiment démarqué.

7 « J'aime »

vous pourriez soit le bloquer, soit le ralentir

5 « J'aime »

Merci pour l’info.

Je ne posais pas de question, mais je le signalais aux autres pour qu’ils gardent l’œil ouvert. Il semble s’agir d’un nouveau robot d’exploration qui n’étale pas ses requêtes dans le temps. C’était peut-être la première fois qu’il voyait notre site, il a donc visité toutes les pages, mais s’il continue avec ces requêtes massives un jour donné, j’enquêterai davantage.

4 « J'aime »

Merci pour l’avertissement. Ces bots / indexeurs web / robots d’exploration mal écrits peuvent vraiment mettre à genoux un serveur !

13 « J'aime »

Je l’ai remarqué aussi. C’est le bot qui effectue la plupart des pages vues sur mon instance, suivi de près par Seekport (35 000 pages vues en une journée) et mj12bot. Je subis parfois des attaques par déni de service (DoS) à cause d’eux. La fonction anti-bot de Cloudflare m’a aidé à limiter la plupart de ces bots sans trop de surveillance.

5 « J'aime »

Est-il possible de ralentir tous les robots d’exploration — en ajoutant efficacement un crawl-delay robots.txt ?

2 « J'aime »

Non. Très peu suivent le robots.txt et encore moins respectent le délai.

2 « J'aime »

C’est dommage. Ce serait une bonne fonctionnalité pour Discourse.

Par curiosité, le système existant (vous permettant de bloquer tous les robots d’exploration mais de n’ajouter un délai d’exploration qu’à une liste finie) fonctionne-t-il via disallow et crawl-delay dans robots.txt ?

C’est une question entièrement différente. Bien que, personnellement, j’aie trouvé crawl-delay efficace sur un autre site.

2 « J'aime »

Seulement avec des bots en « white hat », et il n’y en a pas beaucoup. Tous les autres, le ratio bon contre mauvais est plus ou moins de 1:100, ils se soucient peu de ce que vous avez ou n’avez pas dans robots.txt. Les meilleurs \u003cgrin\u003e semblent juste chercher à savoir où un administrateur système/webmaster ne veut pas montrer et ils prennent ces directions immédiatement.

(Vraiment, \u003c grin \u003e agit comme une balise html :thinking: Discourse ne devrait pas utiliser juste \u003c \u003e pour cela, à mon avis)

Les bots SEO sont vraiment mal élevés. Mais la majorité indique un faux user agent fabriqué par des script kiddies.

On peut arrêter totalement de nombreux bots mais cela devrait se faire au niveau du serveur, pas au niveau de l’application.

2 « J'aime »

Ceci dit, mon expérience a été différente et j’aimerais que Discourse permette de définir un crawl-delay sans avoir à nommer des robots d’exploration individuels.

2 « J'aime »

J’ai aussi une recrudescence de robots d’exploration.

Comment puis-je identifier quel(s) robot(s) d’exploration abuse(nt) des vues de page ?

4 « J'aime »

C’est l’un des rapports intégrés sur la page des rapports.

3 « J'aime »

Merci, je l’ai trouvé.

Agent utilisateur Vues de page
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) 5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) 872

Donc ces pics proviennent de MJ21bot et Nexus 5X Build qui est un bot Google légitime après avoir vérifié son IP dans les logs nginx.

Une idée pourquoi ils feraient autant de vues de page ? MJ12bot semble légitime aussi (du moins, c’est ce que disent mes recherches Google…). Notez que le forum est en ligne, mais nécessite une connexion pour voir le contenu. Il sera ouvert au public dans quelques jours.

Je vois parfois des pics de crawlers sur mes forums, mais ils ne durent qu’un ou deux jours et disparaissent pendant longtemps.

Exemples :

3 « J'aime »

Vérifiez les adresses IP. C’est aussi l’un des faux bots les plus utilisés. De plus, il vous est totalement inutile, comme tous les soi-disant bots de référencement.

3 « J'aime »

Je ne connais pratiquement rien aux robots d’exploration. Les robots officiels de Google ne sont-ils pas utiles en matière de référencement ? Désolé si je commence à sortir du sujet.

3 « J'aime »

Comme c’est moi qui ai lancé le sujet, je ne trouve pas votre question hors sujet. Mon message était une information et vous essayez simplement de mieux comprendre les détails de l’information.

Bien que je ne sois pas un expert en SEO, si vous voulez que les gens trouvent votre site en utilisant un moteur de recherche, vous devez autoriser le robot d’exploration du moteur de recherche à explorer votre site pour construire et mettre à jour ses index.

Le problème est que certains robots d’exploration n’orientent pas les utilisateurs vers un site et, dans ce cas, si vous ne voulez pas de visites excessives, vous leur demanderez de ne pas explorer votre site en utilisant robots.txt. Cependant, les mauvais moteurs de recherche ignoreront robots.txt et il faudra alors utiliser des règles de pare-feu et autres. Le problème devient alors le vieux problème que si quelqu’un veut accéder à un site ouvert (sans connexion), il est difficile de le bloquer car il change d’identité à chaque fois. Si l’on opte pour une connexion obligatoire, cela réduit souvent le nombre de personnes qui s’inscriront.

Concernant le message original, je n’ai pas vu d’autre augmentation massive du nombre de pages vues en un jour due à MeagIndex ou à un autre robot d’exploration depuis l’anomalie signalée.

2 « J'aime »

Mise à jour : 13/08/2022

Le bot a visité notre site le 04/08/2022 (site de crawler)

Rapport : Vues de page consolidées

Rapport : Agents utilisateurs du robot d’exploration Web

Rapport : Principale source de trafic

Il est clair que le fait de laisser le bot MegaIndex.ru/2.0 indexer le site ne génère pas de trafic vers le site.
Note : Pour autant que je sache, yandex.ru est différent de Megaindex.ru.


Pour bloquer les robots d’exploration, il existe robots.txt qui, comme indiqué

https:///admin/customize/robots

mais tous les robots d’exploration ne respecteront pas robots.txt. :slightly_frowning_face:


Comme l’a noté ci-dessus par IAmGav, il existe d’autres paramètres de crawler.

4 « J'aime »

robots.txt n’est pas destiné à arrêter les robots. Ce sont des directives pour les robots qui se comportent bien. Ceux-ci devraient s’arrêter au niveau du serveur. L’une des principales raisons pour lesquelles mon discourse est derrière un proxy inverse.

4 « J'aime »

Le 22/12/2022, https://bot.seekport.com, un nouveau bot qui m’est inconnu, a généré un nombre excessif de pages vues.

2 « J'aime »

Une augmentation semi-régulière de l’activité des robots d’exploration est chose courante. Nous les divisons nous-mêmes en :\n* Robots d’exploration réguliers par des moteurs de recherche légitimes\n* Robots d’exploration irréguliers par des moteurs de recherche nouveaux/personnalisés\n* Robots d’exploration ciblés par des concurrents ou tout autre « chercheur » qui peut utiliser efficacement vos données explorées à leurs propres fins.\n\nSelon notre expérience, il n’est pas nécessaire de prendre soin et de se protéger d’être exploré, à moins que vous ne vouliez pas que vos informations soient utilisées à quelque fin que ce soit ou que vous subissiez de lourdes charges de serveur à cause de cela. En fin de compte, si votre forum/projet est public, il y aura toujours un moyen de collecter vos données publiques à quelque fin que ce soit :slight_smile: \n\n\n

3 « J'aime »