Le bot MegaIndex a effectué environ 4 000 visites de pages en une journée

J’ai eu 2 occasions de pics, les 8 et 18 janvier - les deux fois de Yandex, le robot d’exploration Web russe. Les deux fois, les tentatives d’exploration ont plus que doublé. Le plus gros espion au fil du temps est petalbot de PetalSearch.com. Ils ont eu entre 4x et 6x le nombre d’analyses que Yandex et d’autres robots.

1 « J'aime »

Hier, le 02/05/2023, Seekport Bot est devenu fou

1 « J'aime »

Un autre bot entraînant une valeur aberrante de vues excessives sur une seule journée.

Date : 2023-02-23

1 « J'aime »

ils semblent penser qu’ils sont légitimes, ce qui est clairement faux

1 « J'aime »

Un autre bot entraînant une valeur aberrante de vues excessives sur une seule journée.

Date : 2023-05-04

1 « J'aime »

Parfois, ces accès proviennent de bots légitimes. Parfois… d’autre chose. Les adresses IP révèlent souvent la vérité.

Quoi qu’il en soit, ceux-ci sont totalement inutiles et ne font que voler du contenu sans jamais rien rendre en retour. La seule façon d’arrêter cela est un proxy inverse. Mais à ma connaissance, la situation est bonne avec Discourse car ceux-ci n’ont pas beaucoup augmenté la charge. Dans le monde de WordPress, une telle situation pourrait mettre un site hors service.

2 « J'aime »

Merci d’avoir appuyé mon propos !

1 « J'aime »

comment voyez-vous cela ?

1 « J'aime »

Cela ressemble à l’un des rapports standard. Vous devriez pouvoir trouver le vôtre sur /admin/reports/web_crawlers :+1:

3 « J'aime »

Je déteste Palo Alto

2 « J'aime »

Résumé IA :

La discussion porte sur les pics de vues de pages par des robots d’exploration web sur les sites Discourse. Parmi les robots identifiés comme provoquant d’importants pics de vues de pages, on trouve :

  • Le bot MegaIndex : a effectué environ 4 000 vues de pages en une journée
  • MJ12bot : a effectué plus de 5 000 vues de pages en une journée
  • Le bot Seekport : a provoqué des pics à plusieurs reprises
  • Le bot Yandex : a plus que doublé les vues de pages à deux reprises
  • PetalBot de PetalSearch.com : a effectué 4 à 6 fois plus de scans de pages que d’autres bots
  • Le bot DataForSEO : a provoqué un pic de plus de 15 000 vues de pages en une journée

Ces pics peuvent parfois causer des problèmes de performance. Les moyens de limiter le trafic des bots incluent l’utilisation de robots.txt, bien que tous les bots ne le respectent pas. D’autres options sont le blocage au niveau du serveur et l’utilisation d’un proxy inverse. Les bots sont considérés comme “volant du contenu” sans apporter de valeur.

1 « J'aime »

@Bas
Vous avez publié un résumé généré par l’IA ici, en réponse à ma demande, et maintenant il a disparu.

L’avez-vous supprimé ?

Ah oui, je l’ai fait, car votre demande originale a également été supprimée :slight_smile: Je l’ai restaurée maintenant.

Merci.

J’ai tendance à supprimer les réponses qui, après un certain temps, n’ont plus de valeur pour la lecture du sujet, mais qui ne laissent pas de lacunes dans le sujet. Comme il s’agissait d’une simple demande et que vous aviez créé le résumé, il n’était pas nécessaire que d’autres lisent la demande à chaque fois qu’ils visitaient ce sujet.

C’est une habitude que j’ai prise sur les sites StackExchange où je laissais des commentaires puis les supprimais plus tard. Il y a aussi d’autres commentaires plus utiles que j’ai créés pour moi-même et pour les autres, mais qui ne sont pas directement liés au sujet et qui commencent par D'intérêt. J’ai probablement quelques centaines de tels commentaires sur les sites StackExchange. Je voulais vraiment quelque chose de similaire pour Discourse, mais la suggestion n’a jamais pris d’ampleur.

1 « J'aime »

En vérifiant les visites sur notre site, les vues de pages étaient extrêmement inhabituelles. En regardant l’aperçu général


l’excès commence le 23-10-2023 avec ce que je suppose être un utilisateur anonyme.
Une vérification de

montre que l’augmentation se transforme en quelques bots que je n’ai pas immédiatement reconnus

  • fidget-spinner-bot
  • my-tiny-bot
  • thesis-research-bot
    Je transmets simplement cette information car elle pourrait vous être utile.
2 « J'aime »

Ça m’arrive aussi

3 « J'aime »

Je pense que nous avons vu quelques cas de ce genre. Il semble qu’il s’agisse d’un robot d’exploration qui ne se déclare pas comme tel, de sorte qu’il est comptabilisé comme des vues « anonymes ».

1 « J'aime »

(Modification de l’auteur - ce message était à l’origine un nouveau fil de discussion, fusionné ici, ce qui est bien. Le titre était « Curiosité : forte réduction des visites de robots d’exploration depuis début novembre (2023) »)

Je ne crois pas que quoi que ce soit ait changé de mon côté à ce stade :

Quelqu’un d’autre voit-il quelque chose de similaire ?

Il n’y a pas d’échange important de chiffres entre Anon et Crawler, donc ce n’est pas un changement de catégorisation.

3 « J'aime »

Oui

Jetez un œil à ce sujet et plus particulièrement à ce message

Puisque vous avez publié un rapport Consolidated Pageviews, je suppose que vous avez un accès administrateur.

/admin/reports/consolidated_page_views

utilisez également

/admin/reports/web_crawlers

pour identifier quel robot d’exploration Web effectue les vues de page.

Comme certains d’entre nous l’ont découvert, ces robots sont apparus récemment et causent les chiffres élevés

  • fidget-spinner-bot
  • my-tiny-bot
  • thesis-research-bot
1 « J'aime »

Ah oui, j’avais vu ce sujet, qui portait sur les augmentations. Mais en effet, ces trois-là étaient responsables des chiffres élevés - après le 8, ils ont tous disparu, et nous sommes revenus à une sorte de niveau de base. Ce qui explique la diminution.

(Modérateurs : c’est bon de coller ce fil en bas de celui-là.) (Edit : merci les modérateurs !)

3 « J'aime »