Que peuvent voir les robots d'exploration ?

PVIcpaq · Février 3, 2024, 7:15

Il y a quelques robots d’exploration sur notre site. Y a-t-il un risque qu’ils aient accès au contenu ?

Quelle est une « charge/un risque acceptable pour un robot d’exploration » avant que je ne doive entreprendre des procédures de blocage pour lesquelles j’ai peu, voire pas du tout, d’expertise ?

HAWK · Février 3, 2024, 7:35

Ils ne peuvent explorer que les sites publics, ce qui signifie qu’il n’y a pas de violation de sécurité. Mais oui, ils peuvent accéder au contenu public.

Jagster · Février 3, 2024, 8:53

Lorsque la charge est si élevée qu’elle a un impact négatif et que vous devriez acheter plus de CPU et/ou de RAM. Eh bien, je ne sais pas à quel point cela peut arriver facilement sur Discourse car la solution est différente, mais WordPress basé sur PHP est assez facile à mettre à genoux. Mais Discourse sert du contenu statique et léger pour les robots, s’il sait qui est humain et qui ne l’est pas. Et si un robot donne un agent utilisateur fortement faux, qu’est-ce qu’il peut obtenir… beaucoup de textes en JSON ?

Si un robot parvient à passer la barrière de connexion, le niveau de confiance, etc. Je suppose que l’équipe sera en mode panique et que toutes les mains devront se remettre au travail immédiatement

HAWK · Février 4, 2024, 1:40

Notez également que vous pouvez facilement bloquer les robots d’exploration dans vos paramètres d’administration.

PVIcpaq · Février 4, 2024, 2:19

Je serais tellement reconnaissant de savoir comment…

HAWK · Février 4, 2024, 2:41

Contrôle des robots d’exploration Web pour un site

Jagster · Février 4, 2024, 3:37

J’espère que ce n’est pas juste une modification du fichier robots.txt, car cela ne fonctionne qu’avec des robots qui se comportent bien. Il n’existe en fait qu’une seule solution efficace, mais un peu plus difficile : le proxy inverse.

HAWK · Février 4, 2024, 5:43

Cette approche est efficace – nous l’utilisons nous-mêmes et la recommandons à ceux qui utilisent notre hébergement.

Jagster · Février 4, 2024, 7:11

Devrais-je lire que Discourse utilise le filtrage ?

HAWK · Février 4, 2024, 7:31

Je ne suis pas sûr de ce que vous demandez. Nous ne bloquons rien par défaut, mais nous fournissons aux administrateurs les outils nécessaires pour être sélectifs.

Jagster · Février 4, 2024, 7:36

Alors vous faites confiance aux robots pour a) lire robots.txt et b) suivre les règles. Eh bien, ceux qui se comportent mal ne font ni l’un ni l’autre. Et nous revenons à notre point de départ : si les robots posent un problème, le proxy inverse est la meilleure solution.

Merci. C’est ce que j’aimerais savoir.

HAWK · Février 4, 2024, 8:43

Ah, je vois ce que vous voulez dire. Non, nous ne supposons pas que tous les robots s’identifient comme des robots d’exploration ou respectent les règles – c’est une science inexacte. Je proposais simplement un premier point d’atténuation à l’OP.

Nous travaillons actuellement sur des moyens de restreindre le trafic plus spécifiquement, mais ce n’est pas une tâche facile.

anon36555649 · Février 4, 2024, 10:39

J’ai remarqué que le nombre de robots d’exploration est beaucoup plus faible sur le site hébergé par Discourse que sur le site du serveur Digital Ocean, avec les paramètres d’administration par défaut pour ceux-ci.

Le site hébergé a généralement moins de dix robots d’exploration par jour, avec une moyenne d’environ 4. Parfois, il y a des pics, comme le dernier jour de janvier le plus récent, où il y a eu 77 robots d’exploration ce jour-là.

Le site Digital Ocean, avec presque aucune activité, a en moyenne environ 30 robots d’exploration par jour. Je ne sais pas pourquoi, si cela importe, le type de serveur ou le domaine, pourquoi il y aurait plus de robots d’exploration ?

Ceux-ci recherchent/indexent généralement des sites publics + du contenu pour que les moteurs de recherche puissent les trouver, ce qui peut être une bonne chose pour les sites si vous souhaitez atteindre un public plus large, car les gens peuvent trouver votre site s’ils effectuent une recherche pour quelque chose qui est discuté sur un site Discourse.

Il peut y avoir d’autres objectifs pour les robots d’exploration, je ne sais pas à quoi ils servent tous. Ceux-ci se voient refuser l’accès par défaut dans les paramètres, ce que vous savez probablement déjà :

PVIcpaq · Février 5, 2024, 2:37

Étant relativement illettré en informatique, j’ai suivi vos opinions d’experts sur le crawling un peu comme un spectateur handicapé regardant la finale de l’US Open… Merci de m’avoir initié à cette partie déroutante de la sécurité des sites Web.

Notre forum, si efficacement hébergé par Discourse, est très confidentiel. Les utilisateurs qui s’y joignent sur invitation sont très soucieux de la confidentialité et j’essaie de les rassurer du mieux que je peux. Les robots d’exploration ne sont peut-être pas trop nuisibles (?!), mais je voudrais les exclure complètement si possible, ils ne nous sont d’aucune utilité car nous n’avons aucun intérêt à ce que notre contenu soit indexé ou connu de quelque manière que ce soit.

Je réalise maintenant que l’optimisation des paramètres est la première chose à faire. Est-il possible que mes paramètres soient examinés par l’un des groupes de support de Communitech à cet égard ?

Merci de votre attention.

rahim123 · Février 5, 2024, 3:17

Ah, c’est bien de le voir, je pensais qu’il se contentait de Redis pour servir plus rapidement le contenu récemment rendu. Comme vous le mentionnez, lorsque mon forum fonctionnait sous Drupal, les mauvais robots et parfois même les robots d’exploration des moteurs de recherche le mettaient à genoux. Mais j’ai installé un plugin qui créait un cache de fichiers HTML statiques des pages anonymement consultées et créait automatiquement des règles de réécriture Nginx pour celles-ci. Nginx les servait sans démarrer le code PHP de Drupal et c’était tout simplement incroyablement rapide et pouvait gérer beaucoup plus de trafic anonyme.

HAWK · Février 5, 2024, 4:04

Salut. Il est très important de noter que cela n’a aucune implication en matière de sécurité. Les robots d’exploration n’ont accès qu’aux sites publics. Si vous avez un site nécessitant une connexion, ils n’y auront pas accès.

Une autre précision est que Communiteq n’est en aucun cas affilié à nous, donc s’ils sont votre hébergeur, vous n’êtes pas hébergé par Discourse.

RGJ · Février 5, 2024, 4:47

J’avais prévu d’envoyer une réponse privée mais cela pourrait être utile à d’autres aussi, alors je la publie ici.

Ils n’accèdent qu’à votre page d’accueil (connexion) et ne peuvent pas accéder au contenu.

Ils peuvent l’être. Selon le type de robot d’exploration, ils pourraient rendre accessibles des informations que vous ne souhaitiez pas rendre accessibles. Techniquement parlant, un robot d’exploration ne peut accéder qu’à des informations publiques, mais un robot d’exploration (et les moteurs de recherche associés) est très doué pour découvrir des informations et les rendre accessibles.

Regardons donc votre situation.

Votre robots.txt indique

User-agent: *
Disallow: /

il est donc configuré pour refuser tous les robots d’exploration des moteurs de recherche.

Cependant, cela seul ne suffit pas, car robots.txt est basé sur la courtoisie et n’est pas respecté par les “mauvais” robots. Un mauvais robot peut simplement choisir d’ignorer robots.txt. C’est comme un panneau “Interdiction d’entrer !” - un cambrioleur ne le respectera pas.

La sécurité principale de votre forum repose sur le fait que vous avez activé la fonction connexion requise. C’est suffisant pour empêcher tout robot d’exploration.

Bien que nous ayons déjà déterminé que les robots d’exploration ne peuvent pas y accéder, il pourrait être bon d’aller plus loin.

Vous avez également activé sur invitation uniquement et autoriser les nouvelles inscriptions, et groupes d'invitation autorisés est défini sur TL2. Cela signifie que des personnes arbitraires ne peuvent pas s’inscrire, mais tout utilisateur de TL2 ou supérieur pourra inviter d’autres utilisateurs dans la communauté. En guise de filet de sécurité, vous avez activé approuver les utilisateurs, c’est donc une bonne chose. La seule façon d’accéder à votre communauté est d’être invité par quelqu’un qui est déjà un membre de confiance de la communauté, et un administrateur doit vous laisser entrer.

Veuillez contacter support@communiteq.com ou utiliser l'option "Support" dans notre panneau de contrôle si vous avez des questions de support concernant un forum hébergé par nous.

Sujet		Réponses	Vues
How to protect myself from bots crawling my Discourse instance? Support	6	1613	Janvier 17, 2022
Controlling Web Crawlers For a Site Site Management how-to	10	2462	Juillet 19, 2025
Smarter handling of random crawler traffic Feature	2	3537	Mars 29, 2018
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4549	Décembre 2, 2023
How to allow user-agent access to private discourse? Support	10	2053	Novembre 25, 2018

Que peuvent voir les robots d'exploration ?

Sujets connexes