Comment puis-je déterminer pourquoi j'ai une forte augmentation des vues de pages anonymes

Salutation,

J’ai remarqué quelque chose d’étrange entre le 15 et le 16 février 2022 sur notre instance auto-hébergée de DigitalOcean Discourse. Comme le montre l’image ci-dessous, le nombre d’utilisateurs anonymes par jour est passé d’environ 1 000 par jour à une moyenne de 10 000 par jour. J’ai essayé de comprendre l’origine de ce phénomène, mais sans succès.

Je n’arrive pas à le corréler avec les vues sur notre contenu, ni avec les statistiques de Google Search Console ou de Google Analytics. Nous avons également essayé de vérifier les journaux, mais sans grand résultat.

Quelqu’un a-t-il une idée de ce qui pourrait causer cela ?

Notre communauté : https://community.world-like-home.com/

Merci beaucoup.

1 « J'aime »

Il serait presque impossible, voire délicat, d’y répondre d’une manière qui corresponde à votre site spécifique. Ce que vous pouvez faire pour commencer à le découvrir, c’est de consulter le rapport des robots d’exploration dans votre tableau de bord pour voir si cela est causé par des robots d’exploration.

De plus, j’ai modifié le titre de votre sujet pour le rendre plus descriptif :wink:

2 « J'aime »

Vous recevez beaucoup de bots.

2 « J'aime »

Merci @osioke

Mais si c’était le crawler, j’espérais que discourse le signalerait explicitement comme tel ? J’espère que je ne manque rien ?

@Jagster Est-il possible pour discourse de compter les bots comme des utilisateurs anonymes ?

2 « J'aime »

L’entité qui effectue la requête est celle qui s’identifie comme un utilisateur « normal » ou comme un bot. C’est un système basé sur l’honneur, avec tous les avantages et inconvénients que cela implique.

La plupart des acteurs malveillants dans l’écosystème des bots ne s’identifieront pas comme tels et émettront des requêtes déguisées en utilisateurs « normaux », et il n’y a pas grand-chose que Discourse puisse faire dans ces cas.

Si vous êtes à l’aise avec la ligne de commande, connectez-vous à votre serveur et utilisez la commande suivante pour suivre d’où proviennent la plupart des requêtes :

cd /var/discourse/shared/standalone/log/var-log/nginx/
grep " 200 "  access.log | awk '{print $4}' | sort | uniq -c | sort -r
4 « J'aime »

Bien sûr, il n’est pas nécessaire qu’un bot s’identifie comme un utilisateur. Changer un agent utilisateur est une chose vraiment triviale — même votre navigateur peut le faire. Et Discourse ne connaît que les bots qui utilisent… eh bien, des UA connus :wink:

Bien sûr, il peut aussi s’agir de vrais utilisateurs si quelque part sur un site à plus fort trafic se trouve un lien vers vous.

4 « J'aime »

Ma supposition est que le PDF téléchargé là-bas est quelque chose qui a été lié ailleurs et que beaucoup de gens le téléchargent directement ? Ce PDF est-il quelque chose qui a été téléchargé par un acteur malveillant et qui reçoit beaucoup de trafic pour une raison quelconque ?

2 « J'aime »

Merci, @pfaffman, mais il n’y a aucun problème avec le PDF, je l’ai moi-même téléchargé. Je montrais juste l’image pour indiquer qu’il n’y a aucune corrélation avec les milliers d’utilisateurs anonymes que Discourse affiche.

Ok, merci.

Merci @Falco
La ligne de commande que vous avez fournie nous a aidés à retracer les adresses IP responsables du pic. Pour l’instant, nous allons continuer notre observation avant de décider si nous voulons bloquer les crawlers.

4 « J'aime »

Juste pour noter, dans mon cas, la grande majorité des accès sont des POST vers un point de terminaison de bus de messages. En d’autres termes, probablement les navigateurs des utilisateurs. Dans un cas toutes les minutes et dans un autre cas beaucoup plus souvent.

"POST /message-bus/<hash>/poll?dlp=t HTTP/1.1"
1 « J'aime »

Ce sont en effet la plupart des requêtes sur n’importe quel site Discourse, mais elles ne sont pas comptées comme des pages vues, elles ne seront donc pas reflétées sur le graphique « Pages vues consolidées » du tableau de bord, ce qui rend cela un peu hors sujet.

1 « J'aime »

Bon point. Peut-être pourriez-vous ajouter grep -v POST à votre pipe ?

1 « J'aime »