Vues de page anonymes en forte hausse, mais pas de croissance du trafic sur Google Analytics. Comment trouver l'origine ?

Au cours des deux dernières semaines, les pages vues (PV) provenant d’utilisateurs anonymes ont explosé. Cependant, Google Analytics (GA) raconte une histoire différente. Comme vous pouvez le constater, GA a même enregistré une légère baisse. J’adore voir cette croissance, mais j’aimerais en savoir plus sur l’origine soudaine de ces pages vues d’utilisateurs anonymes.

Existe-t-il un moyen de voir les sites référents pour les utilisateurs anonymes ?

J’ai trouvé cet ancien post : Is the info Top Referred Topics/ Top Traffic Sources stored in a table in the database? - #9 by simon. Est-ce la bonne démarche à suivre ?

Bonjour @zhenniwu,

Ce n’est pas de la « croissance ». Votre site a très probablement été visité par un bot malveillant qui ne respecte aucune règle de robots.txt et qui est déjà signalé par Google comme un « bot malveillant ». Par conséquent, son trafic est filtré de leurs statistiques.

Il y a peu ou pas grand-chose à faire à ce sujet, sauf si vous êtes prêt à investir beaucoup de temps et d’énergie dans la détection et le blocage des bots, ce qui est surtout une perte de temps (pour la plupart des gens).

C’est simplement « la vie sur le net telle que nous la connaissons » et, pour l’essentiel, il n’y a même pas lieu d’y prêter attention.

@neounix Merci beaucoup pour vos indications ! Cela a confirmé nos soupçons. Nous sommes en attente d’une mise à jour avec Discourse, et nous espérons que cela permettra de limiter le taux de requêtes des bots malveillants. Nous continuerons à surveiller les pages vues provenant d’utilisateurs anonymes.

Au fait, savez-vous s’il existe un moyen de confirmer s’il s’agit d’un bot ou non ? Merci beaucoup de nous aider !

Salut @zhenniwu,

Vous avez déjà confirmé qu’il s’agit d’un bot en observant son comportement et en réalisant qu’il s’agit d’une anomalie.

La détection des bots est facile lorsque la chaîne d’agent utilisateur (UA) du client déclare d’une manière ou d’une autre « JE SUIS UN BOT ». Cependant, les « bots malveillants » ne déclarent pas être des bots dans leurs chaînes UA, nous devons donc détecter les bots et les activités similaires en fonction de leur comportement.

Vous pouvez écrire du code pour automatiser cela si vous le souhaitez ; cependant, détecter toutes les catégories de bots n’est pas trivial car il existe de nombreuses caractéristiques comportementales différentes des bots, pas seulement en fonction du taux de requêtes (comme vous le constatez).

Avant de commencer à développer une solution de détection, vous devez vous demander « quel est votre objectif en les détectant ? ».

Pourquoi cela vous importe-t-il ? @zhenniwu

Au fait, voici un article de juillet 2017 rédigé par un rédacteur de Research Gate sur ce même sujet. Bonne lecture !

https://www.researchgate.net/blog/post/researchers-render-cyberspace-in-3d-like-a-video-game-to-make-identifying-threats-easier

Penses-tu que c’est aussi le changement robots que nous avons apporté pour Google, @sam ?

Cela pourrait certainement être le cas, mais la seule façon de le savoir avec certitude est de voir le trafic réel.

La grande majorité des bots ne respectent pas le fichier robots.txt.

En fait, de nombreux bots malveillants lisent robots.txt pour obtenir des informations sur les zones où les administrateurs ne souhaitent pas que les bots se rendent, puis tentent d’accéder à ces zones pour en extraire des données !

Autrement dit, robots.txt n’est pas efficace pour contrôler le comportement de 99,9 % (choisissez simplement un pourcentage élevé) des bots présents sur le web ; il peut également révéler des informations sur les zones « sensibles » d’un site.

Ceci n’est pas vrai au vu de nos sept années d’activité dans l’hébergement. Je suis certain que des bots malveillants existent, mais ils sont loin d’être courants.

Je vois. Donc cette explosion pourrait ne pas être due à des bots non autorisés.

@codinghorror @sam, nous sommes heureux de vous fournir nos données pour que vous puissiez effectuer toute analyse et tout débogage. Dites-moi simplement ce dont vous avez besoin, et je vous l’enverrai. Merci par avance !

Bonjour Jeff !

Alors vous avez de la chance ! J’ai joint un article de ResearchGate intitulé « Virtualized Cyberspace - Visualizing Patterns & Anomalies for Cognitive Cyber Situational Awareness » qui illustre certains aspects du problème que j’ai décrit !

Par ailleurs, à toutes fins utiles, voici notre « courte » liste partielle de chaînes d’User Agent qui NE respectent PAS robots.txt et qui parcourent nos sites (mise à jour) :

AddThis|OPPO A33|Mb2345Browser|UCBrowser|MQQBrowser|MicroMessenger|LieBaoFast|Clickagy|DotBot|Linespider|Applebot|Ask Jeeves|Baiduspider|ADmantX|Spinn3r|rogerbot|YesupBot|ValueClick|Twitterbot|FriendFeedBot|Squider|ContextAd|Voyager|Chattertrap|YandexBot|bingbot|Virtual Reach NewsclipCollector|FlipboardProxy|Flipboard|proximic|YahooFeedSeeker|Xenu|TwitterFeed|GrapeshotCrawler|NewsGatorOnline|Sosospider|OpenISearch|discobot|EasouSpider|FeedDemon|YottaaMonitor|CacheSystem|UnwindFetchor|JikeSpider|Konqueror|Superfeedr|Nachobot|percbotspider|WeSEE:Search|Cliqzbot|Exabot|Wget|TweetedTimes|YoudaoBot|stumbleupon|omgili|BoardReader|Gigabot|trendictionbot|InAGist|DoCoMo|PaperLiBot|YisouSpider|TweetmemeBot|libwww-perl|YandexDirect|CrystalSemanticsBot|httrack|msnbot-UDiscovery|MaxPointCrawler|CrystalSemanticsBot|W3C_Validator|magpie-crawler|Flipboard|flipboa|PostRank|Chrome-Lighthouse|Summify|Sogou|archive.org| UptimeRobot|robot|A6-Indexer|ShowyouBot|crawler|Genieo|Apache-HttpClient|curl|Technoratibot|Feedbin|SensikaBot|SiteExplorer|Digg|Yahoo Pipes|QuerySeekerSpider|Alamofire|AhrefsBot|SeznamBot|Kraken|BomboraBot

La liste ci-dessus n’est que partielle et n’a pas été mise à jour depuis longtemps ; elle n’est donc pas « parfaite » et est plutôt « rouillée »… :slight_smile:

Notre expérience directe sur deux décennies, incluant l’écriture de nombreux codes de détection de bots et de visualisation (ainsi que la publication de plusieurs articles, vidéos et présentations sur ce sujet), montre que seule une poignée de bots respectent robots.txt, et ceux qui respectent les directives proviennent de grandes entreprises comme Google, Bing (Microsoft), etc.

Les bots les plus agressifs falsifient leur chaîne d’User Agent afin d’apparaître comme des chaînes d’User Agent « non bots ».

De plus, les principaux contrevenants sont des bots provenant de Chine, de Russie et de Corée ; nous disposons de code de plugin pour nos forums legacy qui détecte ces bots malveillants grâce à des techniques de pot de miel et d’autres modèles comportementaux. Vous pouvez voir certains résultats dans l’article joint, qui contient de belles images colorées de bots dans le cyberespace à apprécier.

Par exemple, selon notre expérience et nos recherches directes en visualisation de cybersécurité, tous les bots listés dans le fichier robots.txt fourni par défaut avec Discourse ne respectent pas robots.txt, y compris DotBot, semrushbot et ahrefsbot (nous avons eu un très gros problème avec ahrefsbot, mis en évidence dans une autre présentation, voir illustration) :

User-agent: DotBot
Disallow: /

User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /

Dans un passé lointain, nous avions l’habitude de lister ces mêmes bots ci-dessus (et bien d’autres !) dans robots.txt (et nous le faisons encore), et nous avons constaté que « presque aucun » des bots listés ci-dessus ne respecte les directives de robots.txt.

Vous avez beaucoup de chance si vos sites hébergés ont une expérience différente !

Nous avons effectué des tests approfondis et écrit beaucoup de code de visualisation, et nous savons pour certain, grâce à des recherches évaluées par des pairs, que la plupart des bots ne respectent pas robots.txt et que seule une poignée de bots de « grandes entreprises technologiques » le respectent.

Bien que cet article que nous avons écrit (ci-dessous) ne liste pas tous les bots, il vous donne un exemple de l’étendue de nos tests et de notre code écrit (dans le moteur de jeu Unity et sur des plateformes LAMP) dans ce domaine :

https://www.researchgate.net/publication/320008976_Virtualized_Cyberspace_-_Visualizing_Patterns_Anomalies_for_Cognitive_Cyber_Situational_Awareness

Nous avons également joint cet article en référence, donc pas besoin de le télécharger depuis ResearchGate.

Amusez-vous bien !

Virtualized_Cyberspace_-_Visualizing_Patterns_Anom.pdf (2.0 MB)

PS : Je prévois de porter une grande partie de mon ancien code de détection de bots LAMP vers Rails en 2021, si j’ai le temps !

Voir aussi :

https://www.researchgate.net/publication/314356740_Patterns_Anomalies_in_Cyberspace

(également joint ci-dessous)

anomalies_cyberspace_v01.pdf (3.3 MB)

Exemple de graphique issu d’une présentation, montrant plus de 200 bots chinois Baidu déguisés en utilisateurs réguliers (utilisant une chaîne d’User Agent utilisateur normale, et non une « chaîne de bot »), extrayant un site depuis des adresses IP brésiliennes (et non chinoises).

Curieux de voir quelles sont les modifications. Y a-t-il un commit/CL ?

Exactement, et nos clients hurleraient comme des fous si c’était le cas, car ils sont en réalité facturés à la consultation de page. Les bots malveillants générant un nombre excessif de consultations de pages leur coûtent de l’argent et les pousseraient à quitter notre plateforme d’hébergement. C’est pourquoi, par exemple, nous avons fortement limité le trafic de Bing — n’hésitez pas à faire une recherche si vous êtes curieux.

Donc oui, nos plus de 7 ans d’expérience en hébergement ont démontré que les robots d’exploration web ou bots malveillants, bien qu’ils existent, ne constituent pas un problème majeur.

(Je dirais la même chose pour Stack Overflow, une propriété web parmi les 100 premières que j’ai cofondée.)

Salut Jeff !

Quelle excellente discussion !

Il y a peu, j’étais en conférence téléphonique avec le directeur financier de l’un des plus grands réseaux publicitaires techniques, basé à New York. Il m’a indiqué que lui-même (ainsi que ses annonceurs) considérait le trafic de bots (malveillants ou non) comme l’une de leurs principales préoccupations, et qu’ils consacrent une somme importante d’argent à ce sujet précis : distinguer le trafic utilisateur légitime du trafic de bots.

Ainsi, vous avez vraiment de la chance si vos sites web ne subissent pas les mêmes problèmes qui affectent Wall Street et ses annonceurs, qui luttent contre cela en permanence.

De nombreuses entreprises dans lesquelles j’ai travaillé, en cybersécurité et en lutte contre la fraude, au cours des deux dernières décennies, ont eu exactement l’expérience inverse de celle que vous décrivez, pour être honnête.

Bien joué, Jeff !

Au fait, vous pourriez être intéressé par ceci. C’est « daté » (il y a cinq ans), mais le problème ne s’est pas « amélioré » depuis 2015 : Bots now outnumber humans on the web | CSO Online Citation de CSOonline ci-dessus (2015) : > « Les bons bots » représentaient 36 % du trafic cette année, contre 21 % l’année dernière. Les « mauvais bots » étaient responsables de 23 % du trafic cette année, en légère baisse par rapport aux 24 % de l’année précédente — non pas parce que les volumes avaient diminué, a répété Essaid, mais parce que le nombre de « bons bots » avait considérablement augmenté. Le trafic humain ne représentait que 41 %, contre 55 % l’année dernière. > La société définit les « mauvais bots » comme ceux qui ne respectent pas les fichiers « robots.txt » et n’apportent aucune valeur aux sites qu’ils visitent. Je vais essayer de trouver des références plus récentes, proches de l’année 2020, et je reviendrai vers vous, car 2015 est un peu daté avec cinq ans de recul ! Mon expérience avec les clients en cybersécurité est que les chiffres du trafic des « mauvais bots » sont beaucoup plus élevés en 2020 qu’au rapport CSO de 2015 ci-dessus ; ainsi, toute personne qui ne rencontre pas de problème de « mauvais bots » a vraiment de la chance ! Nous avons écrit beaucoup de solutions pour « détecter et classifier les mauvais bots » au cours de la dernière décennie, et c’est pénible car les programmeurs de bots deviennent de plus en plus « astucieux » :slight_smile: et sont habiles à modifier leurs chaînes d’agent utilisateur (ainsi que le timing et le comportement des bots) pour ressembler à un trafic humain légitime (bien avant l’existence de CloudFlare). Il est vraiment rassurant d’entendre Jeff dire que les sites Discourse sont essentiellement immunisés contre ce trafic de « mauvais bots » et n’ont pas besoin de code complexe de détection des bots pour atténuer les problèmes auxquels d’autres sont confrontés. Tous les hébergements Discourse sont-ils derrière CloudFlare ? CloudFlare est conçu pour se protéger contre cela.

Comme je l’ai dit, nous serions littéralement en faillite si ce que vous décrivez (des bots malveillants omniprésents téléchargeant des millions de pages par seconde) était vrai. C’est donc en quelque sorte un miracle ! Je ne sais pas comment expliquer ce conflit entre ce que vous croyez vrai et les réalités commerciales que j’ai vécues chez Stack Overflow (2008-2012) et Discourse (2012-aujourd’hui).

D’un autre côté, les réseaux publicitaires et les bots, c’est une tout autre conversation : des bots qui se font passer pour des utilisateurs et cliquent sur des publicités, c’est un moyen d’imprimer de l’argent « gratuit » pour les créateurs de bots.

Peut-être que la différence vient du fait que la plupart de nos clients ne dépendent pas de la publicité ? Et même chez Stack Overflow, la publicité affichée ne représentait qu’une petite partie de l’activité. Ce serait une bonne idée de garder cette différence cruciale à l’esprit lorsque vous réfléchissez à ce sujet.

Bonjour Jeff,

Pour information, il est de notoriété publique, et non mon opinion personnelle, que le trafic bot dépasse le trafic humain sur Internet.

Il est également de notoriété publique, et non mon opinion personnelle, qu’une grande partie du trafic bot provient de bots qui ne respectent pas le fichier robots.txt. Certaines estimations parlent d’au moins la moitié, tandis que mon expérience montre que cela dépend du site et du sujet.

Je suis ravi que tu aies une expérience différente dans les entreprises que tu as fondées et construites, et je t’en félicite.

D’un autre côté, la réalité sur Internet est que le trafic bot en 2020 représente environ entre 55 et 60 % de tout le trafic ; et sur ce trafic bot, environ la moitié provient de bots qui ne respectent pas le fichier robots.txt. Certaines recherches situent le chiffre des « mauvais bots » aussi bas que 35 % de tout le trafic, d’autres plus haut, selon l’étude. Je n’invente rien, c’est bien documenté.

Si tu as des articles de recherche ou des statistiques, au-delà de ton expérience d’hébergement sur Discourse ou de tes expériences précédentes, montrant que le « trafic de mauvais bots » est minime, je serais très heureux de les lire ; car personnellement, je n’ai jamais vu d’article de recherche ou de référence indiquant que le trafic de « mauvais bots » est aussi minime que tu le prétends ici.

Je m’excuse si le fait de ne pas être d’accord avec toi te contrarie. J’ai fourni des références et peux en fournir d’autres (ce n’est pas mon opinion), si tu es ouvert aux faits concernant le trafic Internet.

Autrement, je cesserai de poster sur ce sujet afin de ne pas t’ennuyer :slight_smile:, car je ne veux pas être désagréable avec toi sur un sujet pour lequel tu as une opinion forte sur un forum où je n’ai aucun pouvoir d’administration :slight_smile:

Bonnes fêtes de fin d’année !

Peut-être pour les réseaux publicitaires qui sont engagés dans une lutte à mort contre les bots et les clics frauduleux pour les dollars publicitaires. Mais sur Stack Overflow et Discourse ? C’est largement un problème mineur.

Si vous aimez débattre d’hypothèses basées sur des théories, libre à vous de vous lancer. Passez toute la journée, tous les jours, à théoriser à votre guise. J’espère que cette théorisation vous apporte beaucoup de joie et de bonheur dans votre vie ! En attendant, nous avons des entreprises à gérer, alors je préfère prendre des décisions basées sur les données réelles que nous avons collectées dans nos entreprises réelles. Je suppose que je suis un peu fou de ce côté-là. Désolé si cela vous dérange ou vous laisse perplexe.

Passez le reste de votre journée merveilleusement !

Hmm… Il est possible que j’oublie quelque chose, mais la recherche que vous avez liée ci-dessus ne semble pas réellement montrer des tendances générales à l’échelle du web.

Elle semble plutôt se concentrer sur l’affichage du trafic vers un site d’une manière qui rend la détection et la quantification… douteuse… du trafic assez simple visuellement, ce qui est en soi intéressant. Cependant, il n’y a aucune indication de quels sites étaient représentés, ni même de quels types de sites. Il est difficile d’évaluer si les exemples présentés sont représentatifs du web dans son ensemble.

Note : Je ne remets pas en question le fait que le trafic de bots soit important en général, ni qu’il y ait beaucoup de bots « mauvais »… mais les statistiques (recherchables sur Google) semblent présenter une certaine dispersion par rapport au résultat de recherche que vous avez capturé.

Ce qui serait plus utile serait une analyse statistique des types de sites qui ont tendance à être agressivement ciblés par quels types de bots. (Je m’attendrais, par exemple, à ce que Facebook et des plateformes similaires attirent une proportion disproportionnée d’attention de la part d’un certain segment de ces bots. Un autre segment s’attaque probablement de manière presque exclusive aux sites riches en publicités.)

Bonjour Jeff,

Si vous voulez me dépeindre comme un « théoricien excentré » qui ignore tout des opérations réseau sur Internet, tant pis ; mais rien n’est plus éloigné de la vérité, comme le savent déjà tous ceux qui me connaissent :slight_smile:

L’auteur du message initial a signalé un pic. Il est plus que probable qu’il ait été causé par un bot. Je pense que nous pouvons nous accorder là-dessus :slight_smile:

Je vous souhaite une excellente journée, Jeff, et de très bonnes fêtes !

Par ailleurs, merci de m’avoir fait découvrir Ruby on Rails. Sans vous et Discourse, je n’écrirais pas de code Ruby tous les jours (en dehors de Discourse), et c’était la meilleure chose technique qui me soit arrivée en 2020 ! J’adore Ruby.

Encore merci, Jeff !

Bonjour @Sailsman63,

J’ai fourni plusieurs références complémentaires dans divers domaines ; je n’ai ni publié, ni prétendu publier, un travail détaillé ou une enquête sur tout le trafic Internet dans tous les scénarios opérationnels.

À mon avis, tout ingénieur qui consacre au moins 60 minutes de recherche sur Internet et qui possède des compétences raisonnables en recherche et en analyse (1) trouvera de nombreuses références à des rapports opérationnels (et non à des théories) indiquant quel pourcentage du trafic réseau sur Internet est attribué aux bots, et (2) découvrira plusieurs références qui quantifient également la part de ce trafic provenant de « mauvais bots » qui ne respectent pas le fichier robots.txt.

Il ne s’agit ni de « théorie » ni de « mon idée ». C’est un fait bien établi, et ce fait n’est caché à personne qui souhaite s’y intéresser ; d’un point de vue opérationnel, nous observons la même chose chaque jour lorsque nous analysons les fichiers journaux et traitons le comportement du trafic sur les sites web, par exemple en mettant en place des pièges à bots que seuls les bots peuvent trouver (les utilisateurs humains normaux n’y vont jamais), de sorte que seuls les bots s’y rendent, etc.

J’ai créé de nombreux « liens pièges » sur des sites web et j’ai piégé de nombreux bots au cours de ma carrière ; ce n’est donc pas quelque chose que j’ai inventé « de toutes pièces », LOL :). D’autres personnes sur Internet ont fait de même (c’est une technique courante en cybersécurité), ce n’est pas seulement moi, je vous le promets :slight_smile:

Bonne journée !