Crawler non identifié avec un grand nombre de pages vues

Bonjour à tous !

Lorsque nous examinons le nombre de vues de page de notre crawler, il semble y avoir une entrée non identifiée qui cumule plus de 500 000 vues de page en un mois :

Existe-t-il un moyen simple de savoir de quoi il pourrait s’agir ? Il semble en moyenne générer entre 10 000 et 15 000+ requêtes par jour.

Si vous bénéficiez de notre support e-mail pour l’hébergement, nous pouvons nous en charger pour vous.

Nous sommes un projet FLOSS auto-hébergé, donc je suppose que cela est hors de question :slight_smile:

Je sais que je pourrais ajouter plus de filtres et demander à notre responsable de l’infrastructure d’examiner davantage les journaux – je me demandais simplement si quelqu’un d’autre avait déjà rencontré ce problème.

Vérifiez les journaux nginx (access.log) pour les requêtes provenant de cet agent utilisateur et de l’adresse IP correspondante.

Je viens de rencontrer notre principal administrateur système en personne et j’ai trouvé la solution. C’est HAProxy qui effectue une vérification de santé toutes les 5 secondes :joy:

Les vérifications de santé doivent définir un User Agent approprié afin que cela ne se reproduise plus. Vous pouvez également utiliser la route /srv/status pour les vérifications de santé.

“Oui, ça devrait le faire, mais je suis paresseux.” - Administrateur système

Je vais voir ce que je peux faire. Merci !