Vues anonymes soudainement très élevées

Je ne sais jamais quoi penser des chiffres de vues anonymes, mais ils ne correspondent jamais aux données de Google Analytics de manière significative.

Ces quatre derniers jours ont mis cela en évidence car il y a eu une énorme augmentation soutenue des vues anonymes, ce qui est inhabituel.

C’est peut-être une coïncidence depuis la mise à niveau vers 3/3.1, mais cela pourrait-il y être lié car cela a commencé un peu après.

Tout en constatant que les statistiques de connexion semblent avoir chuté de manière significative, c’est préoccupant.

En général, il est difficile de savoir quoi penser des statistiques de vues par rapport aux statistiques de connexion, car elles ne correspondent pas aux chiffres d’analyse, mais en regardant uniquement le tableau de bord, il y a une nouvelle tendance étrange.

Concernant la disparité entre Google Analytics et les statistiques du tableau de bord, voici un exemple simple : vous voyez 500 visites uniques sur Google Analytics pour une journée, mais sur le tableau de bord Discourse, 2000 connexions, 50000 vues anonymes et 5000 robots d’exploration.

Que se passe-t-il globalement avec ces statistiques ?

Comment devons-nous traiter ces données et que peuvent-elles nous dire en termes de gestion d’un forum Discourse ?

Les vues anonymes sont-elles une indication de trafic non sollicité et une perte de ressources ?

Un tel trafic est filtré par Google Analytics si vous sélectionnez la bonne option - peut-être que ce n’est pas du côté de Discourse et que cela pourrait indiquer une sorte de trafic de bas niveau de type DDOS pour des raisons bizarres et fallacieuses, gaspillant encore des ressources mais affectant potentiellement les connexions légitimes ?

Aucun rapport jusqu’à présent de problèmes de connexion.

Globalement, comment interpréter les chiffres du tableau de bord !

Merci pour tout éclairage et conseils.

4 « J'aime »

Salut @agemo !

Je constate également un comportement similaire ces derniers mois. Avez-vous réussi à trouver quelque chose à ce sujet ?

Probablement des bots, possiblement des bots d’IA de scraping.

Ce qui m’a énormément aidé, ce sont les rapports de robots d’exploration dans l’administration après avoir été alerté de leur existence (je ne les avais jamais remarqués auparavant) en utilisant cela, j’ai banni divers robots d’exploration. Ce qui a fait baisser les vues anonymes. Je pense que les robots d’exploration passent aussi par les vues anonymes. Je n’ai aucune idée de comment.

Les rapports vous donnent également les noms des robots d’exploration (agents utilisateurs) à rechercher sur chaque robot d’exploration pour voir s’il a de la valeur.

Ce sujet pourrait également vous être utile

3 « J'aime »

Cela pourrait être, je ne sais pas non plus comment, à part deviner que cela dépend de la façon dont le système identifie les robots par rapport aux utilisateurs.

J’ai vu des pics de robots d’exploration lorsque plus de texte est publié, ainsi que des pics apparemment aléatoires de vues anonymes il y a quelques jours.

Nous avons maintenant une nouvelle métrique qui divise les pages vues anonymes en « probablement humain » et « probablement bot », afin que les gens puissent considérer ces dernières davantage comme des robots d’exploration (ce qu’elles sont probablement, mais ne s’identifient pas comme telles).

Le rapport fait partie des rapports standards et se trouve à l’adresse /admin/reports/consolidated_page_views_browser_detection

D’autres travaux sont également en cours pour appliquer cela aux métriques de vues de sujets afin d’éviter le gonflement par les bots.

3 « J'aime »

Ce nouveau graphique est utile, il semble que la catégorie « probablement bot » soit étiquetée comme « autres pages vues » :

Avec les nouveaux bots effrontés qui ne s’introduisent pas correctement, y a-t-il un moyen de les ralentir ou d’identifier leur source ?

Je peux vérifier les rapports d’agents utilisateurs des robots d’exploration web, mais s’ils n’y apparaissent pas, je ne sais pas quoi d’autre enquêter.

1 « J'aime »

Non. Si le codeur de ce bot travaille comme ils le font souvent, c’est-à-dire qu’il y a une partie du texte dans l’agent utilisateur, l’appareil, le système, etc. qui est toujours la même, alors vous pouvez les bloquer totalement, mais vous avez besoin d’un proxy inverse. robots.txt n’est qu’une ligne directrice pour les bots qui se comportent bien.

Les journaux de Discourse donnent plus ou moins juste un aperçu de la situation générale. Des données aussi détaillées, vous devez les extraire des journaux de Nginx, ce qui signifie bienvenue à la console :smirking_face:

WordPress peut facilement être mis à genoux à cause des bots, mais avec Discourse, la situation est plus juste ennuyeuse. Le vol de contenu est la norme aujourd’hui, et ce depuis longtemps.

2 « J'aime »

Le proxy inverse semble être une bonne première étape, Cloudflare est-il bon pour cela ?

Je connais un ami développeur web local qui a recommandé d’utiliser les serveurs de noms Cloudflare pour la sécurité, ce qui peut être une bonne chose.

Je ne suis pas trop préoccupé par le fait que le contenu publié soit « volé », lorsque le texte est publié publiquement, les gens ont le droit de l’enregistrer tant qu’ils n’essaient pas de le vendre comme leur propre création, ce qui deviendrait alors un problème.

1 « J'aime »

Je suggérerais Nginx ou Varnish. Mais Cloudflare pourrait aussi fonctionner, je ne le connais pas, je ne l’ai jamais utilisé.

2 « J'aime »

J’ai eu une augmentation inhabituelle de vues de pages “autres” par des bots hier, le 17 août, de 152, ce qui est très aléatoire pour un site majoritairement inactif qui n’a habituellement que 15 à 20 vues de ce type par jour.

Totalement normal. Pour moi, j’ai obtenu les meilleurs résultats en bloquant ensemble les pires agents utilisateurs et le géo-blogging (mon forum n’est pas mondial, donc je peux le faire facilement).

Voulez-vous dire le bannissement géographique des adresses IP d’autres pays que la Finlande ? Cela semble être une bonne idée pour les sites axés sur le local.

Ouais. En ce moment, je recevrais beaucoup de trafic de Russie, de Singapour et de Chine. Auparavant, c’était l’Inde, le Pakistan, l’Égypte, l’Iran et l’Irak. Et je parie qu’ils ne peuvent pas finir :wink: C’est possible avec la Russie, cependant, mais… non.

Les trois plus importants sont les États-Unis, la France et les Pays-Bas, et l’Allemagne est en croissance. Mais c’est à cause des centres de données et c’est pourquoi je ne peux pas les interdire.

Mais encore une fois, avec Discourse, ce ne sont principalement que des nuisances. Avec WordPress (et d’autres piles LAMP, je dirais) cela crée une charge si importante que la situation commence à ressembler à un DDoS.

Et la plupart sont dus à de stupides script kiddies qui essaient de faire tomber Discourse en utilisant d’anciens problèmes de WordPress.

Mais de nos jours, le référencement et les bots d’IA sont devenus une véritable interrogation.

Mais si l’on a un forum local, le géo-bannissement est tout simplement une décision judicieuse.

1 « J'aime »

Cela pourrait prendre une tournure problématique.

J’ai vu ce que je soupçonne être du trafic de robots activés par l’IA qui approchait du niveau de perturbation d’une attaque par déni de service (DDOS) alors que le service de discussion commençait à se plaindre.

Ce n’est pas une configuration très puissante, mais pour une demande normale attendue, il y a une certaine marge de manœuvre, normalement.

Cette fois, cela s’est manifesté par un trafic anonyme énorme et autre.

Cela correspondait parfaitement à l’augmentation des statistiques de CPU, de charge et d’E/S disque du serveur.

En tant qu’utilisateur ici, j’ai reçu beaucoup de critiques et de nombreux bannissements (temporaires) pour avoir dénoncé l’adoption très enthousiaste de l’IA, qui revient maintenant nous mordre de toutes parts (comme les pertes d’emplois, mais et maintenant ceci, qui pourrait être une continuation de l’OP et n’est rien d’autre que le dernier trafic de robots web activés par l’IA qui se fait connaître, oh là là.

À l’époque, mon point de vue était qu’il était (également) temps de réfléchir à toutes les stratégies d’atténuation pour le client/utilisateur final, pas simplement de rejoindre la course aux armements en tant que sous-partenaire. La logique à la Musk est que si vous ne pouvez pas les battre, rejoignez-les dans ce cas, facile à dire, mais pas la bonne option et l’appel à la réglementation est naïf.

Prendre du recul ?

Peut-être est-il trop tard maintenant.

Le trafic de l’IA peut devenir plus humain : techniquement, je ne sais pas comment cela fonctionne (mais je sais comment nous en sommes arrivés là), si ce n’est qu’il se fait probablement passer pour du trafic humain plus facilement et présente un trafic plus indétectable qui semble également souhaitable du point de vue de Google, mais oh là là, cela pourrait être un nouveau problème plus important.

Rien n’est jamais GRATUIT, je ne sais pas combien de personnes (encore une fois) ont été si aveuglées par cela et n’ont pas fait preuve de prudence humaine et n’ont pas choisi une option de recul.

Actuellement, ce trafic provient toujours de régions très spécifiques et même les blocs ASN suffisent à éliminer chirurgicalement la chaleur.

Pendant combien de temps ?

C’est assez normal, je gère un tas de sites et Cloudflare affiche généralement environ 10 à 30 fois mon trafic réel. S’ils ne déclenchent pas d’analyse, ce sont des bots ou des robots d’exploration de moteurs de recherche. Car la plupart des bots n’exécutent pas le Javascript utilisé pour l’analyse.

1 « J'aime »

CloudFlare est gratuit :wink:

2 « J'aime »

Celles-ci sont apparues dans Google Analytics. C’est ce qui était différent, si je me souviens bien.

Si vous êtes vraiment inquiet, utilisez CloudFlare et configurez un pare-feu pour les pays concernés. Si votre IP était déjà sur le DNS, obtenez une nouvelle adresse IP. C’est-à-dire si vous êtes attaqué.

1 « J'aime »

En effet, le serveur était déjà sur le DNS de CF mais pas proxifié car je pensais toujours que cela ne fonctionnait pas d’après les anciens conseils de configuration. Vous savez, la peur du nuage orange est forte. :sweat_smile:

Cependant, j’ai essayé pendant l’une des vagues et j’ai atténué le volume relativement facilement après avoir observé un peu. Il semble que cela ait également supprimé beaucoup plus de trafic.

Le seul moyen d’obtenir une nouvelle adresse IP est-il de passer à un nouveau serveur ?

Cela dépend de votre service d’hébergement. Certains, comme DigitalOcean, peuvent simplement attribuer une nouvelle adresse IP statique dans le tableau de bord, d’autres. Vous devrez peut-être leur demander. Je ne l’éteins jamais. Si j’éteins le nuage orange, je considère cette IP comme compromise. Si vous perdez du trafic en l’activant, votre paramètre SSL n’est probablement pas correctement configuré. Ou la mise en cache n’est pas correcte. Effectuer des échanges en direct vers CloudFlare peut être délicat si vous n’avez pas déjà le SSL configuré correctement. Car il est difficile d’obtenir une adresse IP non mise en cache à partir du DNS pour tester.

1 « J'aime »