Un forum que j’aide à gérer a connu une vague d’enregistrements de comptes spam ces derniers mois. Il s’agit presque certainement de robots IA, car ils semblent capables de remplir certains formulaires d’inscription (principalement, cocher des cases), de résoudre un hCaptcha et de gérer l’e-mail de vérification, même les informations de profil utilisateur. Nous pouvons généralement deviner quels enregistrements sont faux en fonction de quelques facteurs (par exemple, temps de lecture d’articles nul, quelques subtilités sur les noms/adresses e-mail, informations utilisateur manifestement fausses), mais ce n’est pas facile (par exemple, ce sont souvent des adresses Gmail légitimes). Ce processus est cependant intenable : nous avons parfois eu 10 faux par jour, et il est beaucoup trop facile de faire une erreur étant donné notre capacité limitée à trier ces cas.
L’ajout de captchas a diminué le nombre de faux enregistrements, mais nous avons toujours un grand arriéré d’utilisateurs à approuver, ce qui signifie qu’il faut souvent une semaine ou deux pour que les nouveaux utilisateurs puissent rejoindre. Nous avons envisagé des questionnaires textuels pour les nouveaux utilisateurs, mais la réalité est que nous n’avons pas la capacité de lire un tas de questions et de deviner si elles sont générées par l’IA ou non (et : ce problème ne fera que s’aggraver).
Une option est-elle de simplement autoriser ces utilisateurs à rejoindre, puis de les signaler s’ils publient quelque chose d’évident comme du spam ? Je pense que nous hésitons à ouvrir la porte à cela, car cela déplace simplement le processus d’un endroit (l’enregistrement) à un autre (les publications signalées) et on ne peut pas revenir en arrière : une centaine d’utilisateurs IA latents qui commencent tous lentement à publier sur quelques mois pourraient facilement ruiner complètement le forum.
Quelqu’un a-t-il des stratégies pour aider à gérer cela ? Nous sommes relativement petits, donc je ne peux pas imaginer que nous soyons les seuls à en faire l’expérience…
Concernant les comptes utilisateurs IA, pouvez-vous préciser le « dommage » qu’ils causent si les utilisateurs ne publient jamais ?
Nous avons effectué un changement il y a un mois où nous supprimons les profils des utilisateurs anonymes et à faible confiance jusqu’à ce qu’un utilisateur publie réellement, de sorte que le spam est caché.
Une approche intéressante selon moi, si le volume est vraiment élevé, serait de supprimer les comptes après 30 jours s’ils ne publient pas ; ils doivent se révéler ou ils seront supprimés.
La détection de spam par IA a été spectaculairement réussie sur tous les forums où nous l’avons activée, vous pouvez l’utiliser sur votre forum avec des modèles gratuits comme le niveau gratuit de Gemini. Nous donnons à nos clients l’accès à notre modèle, mais ce n’est pas largement disponible pour les auto-hébergeurs.
Un petit problème que je vois avec Discourse… est l’ignorance de la possibilité d’utiliser CloudFlare Turnstile nativement. C’est honnêtement l’une des meilleures solutions de Captcha que j’ai trouvées, et j’utilise un script de forum payant qui l’utilise et reçoit très peu de spam, même si je reçois beaucoup de nouvelles inscriptions d’utilisateurs. La plupart des spams sont interceptés par Turnstile.
Je ne vois vraiment pas pourquoi Discourse, après tout ce temps, n’a pas encore intégré les offres qui existent dans le cœur du système.
Lorsque nous étions inondés, les comptes IA étaient plus nombreux que les nouveaux comptes utilisateurs réels dans un ratio de 10 pour 1, ce qui rendait certaines tâches d’administration de forum très impraticables. Les modérateurs craignaient, à un niveau métaphorique, qu’un forum où un pourcentage important ou la majorité des utilisateurs étaient des IA / spambots puisse causer de réels dommages futurs, même s’ils restaient simplement inactifs pour le moment. Par exemple, si dans un an des centaines de faux utilisateurs commençaient tous à faire des publications plausibles mais inutiles, nous imaginions que cela pourrait facilement dépasser notre capacité à suivre et rendre l’ensemble du forum pratiquement inutile
C’est un peu mieux maintenant en ce qui concerne les nouveaux arrivants, mais je pense que tout le monde préfère éviter ce problème de “lurkers” si possible. Notre forum a déjà été massivement “scraped” pour l’entraînement des IA (c’est un domaine de niche, donc du moins dans les anciennes versions de GPT, il était possible d’obtenir que GPT répète des citations quasi directes de publications du forum si vous posiez la bonne question), donc tout le monde est un peu amer à ce sujet.