Je suis curieux d’entendre les membres de la communauté s’ils constatent une augmentation du spam alimenté par l’IA.
Il s’agirait spécifiquement de voir des réponses à des questions qui semblent basées sur ChatGPT et qui paraissent soit non humaines, soit présentent des hallucinations (un problème courant avec les LLM).
Je suis confronté à du spam basé sur l’IA
Oui
Non
0voters
Si la réponse est oui, je suis curieux de savoir…
Quelle est la fréquence de ces occurrences ?
Quel problème cela crée-t-il au sein de votre communauté ?
Que faites-vous actuellement à ce sujet ?
Si la réponse est non, je suis curieux de savoir…
Comment empêchez-vous cela ?
Y a-t-il des raisons pour lesquelles votre communauté n’est pas intrinsèquement confrontée à ce problème ?
Nous utilisons simplement l’IA comme un outil pour rechercher des connaissances, peut-être un peu de conversation informelle.
Peut-être que notre communauté est petite, et a un bon sens que les hallucinations sont MAUVAISES.
Je pense que le moyen le plus efficace d’arrêter le spam est d’être membre d’une langue très petite et difficile. Cela arrête ces clowns qui font du travail manuel.
Eh bien, nous savons tous que les spammeurs ne sont pas si intelligents et que le trafic automatique ne se soucie pas de la langue, du genre ou même de la taille. Il doit donc y avoir une autre raison pour laquelle certains forums ou sites sont comme des pots de miel pour toutes sortes de déchets et d’autres vivent sans drame.
Quant à la raison pour laquelle les spammeurs peuvent s’y connecter et pas ailleurs alors que le système et la configuration devraient être identiques, je n’ai pas de réponse. Mais une chose est sûre : le besoin de l’administrateur ou d’une autre force d’arrière-plan d’augmenter la croissance rapide d’un public mondial entraînera des problèmes de bots et de spam.
Au cours des deux dernières semaines environ, nous avons constaté une augmentation sur notre site. Nous constatons du spam typique avec des liens cachés dans de nouvelles réponses de nouveaux comptes. Lorsque nous avons augmenté la réputation pour la création de nouveaux messages, nous avons vu une augmentation des réponses générées par l’IA, et il semblait que les robots essayaient d’augmenter lentement leur réputation sur des comptes bidons. Ces réponses n’ont pas de liens bidons évidents, elles contiennent juste du texte IA générique qui ne contribue pas à répondre à la question.
Nous avons été touchés un week-end par une forte augmentation des messages de spam, suffisamment pour que quelqu’un crée un nouveau sujet disant qu’il y avait trop de spam sur notre forum. Depuis lors, les administrateurs doivent vérifier le site tous les jours pour nettoyer les messages bidons de l’IA. Nous constatons également des messages de l’IA sur des comptes qui ont été créés dans le passé et qui n’avaient aucune activité, ce qui donne l’impression que certains robots de spam ont semé des comptes pendant un certain temps et les ont laissés sans activité. Maintenant, ils essaient de passer lentement les limites d’engagement afin de pouvoir publier de nouveaux sujets.
Comme indiqué ci-dessus, nous avons augmenté les niveaux de confiance pour la publication de nouveaux sujets. Nous avons également activé akismet. Mais cela n’a pas arrêté les messages de spam de l’IA. Actuellement, nous avons besoin qu’un administrateur/modérateur vérifie le forum tous les jours pour examiner les messages signalés et nettoyer. Certains sont difficiles et semblent pouvoir être une personne, donc deux personnes doivent vérifier.
Nous avons encouragé nos utilisateurs à nous aider et à signaler les messages qui ressemblent à de l’IA, et cela a aidé.
Notre forum a un volume assez faible et fonctionne depuis des années avec très peu de nettoyage et de maintenance par les administrateurs, mais il semble que les robots de l’IA nous aient trouvés. Je pense que l’IA pourrait être nécessaire pour arrêter l’IA ?
Oui, malheureusement. Soit cela, soit vous vérifiez temporairement tous les nouveaux utilisateurs et ralentissez le temps entre « l’inscription d’un utilisateur » et la publication.
Nous avons :
Il prend également en charge le signalement, vous pourriez donc l’utiliser dès aujourd’hui.
Je n’en ai pas encore vu beaucoup, mais mon forum garde les premiers messages en modération, et je peux généralement dire si quelqu’un est un spammeur par certains indices. Je bloque les suspects au TL0 jusqu’à ce qu’ils publient quelque chose qui est clairement dans le sujet.
Ce n’est pas un forum de « discussion sur des choses aléatoires », il est donc généralement possible de dire si quelqu’un feint l’intérêt par le premier message.
En fait, je viens de tomber sur un utilisateur qui s’est faufilé et qui publie avec ChatGPT ou une autre IA. Il pourrait y avoir d’autres comptes de spam que j’ai manqués.
Quelques idées pour lutter contre cela :
Créer une base de données de fournisseurs de VPN. L’adresse IP de cet utilisateur provient de “M247 Europe SRL”, qui est un fournisseur de services VPN. J’ai toujours voulu une sorte de notification lorsqu’un nouveau compte utilise un VPN. Je dois le faire manuellement pour le moment.
Suivre le temps de lecture, les jours de visite, les sujets/messages lus. Cet utilisateur a passé 8 minutes à lire le site mais a posté 6 commentaires, et n’a visité que 3 fois le jour de son inscription. L’utilisateur est en fait toujours TL0 naturellement, car il n’a rien fait d’autre que poster des commentaires.
J’ai écrit d’autres idées dans les commentaires sur cette page.
Je me demande s’il est possible de classer grossièrement les utilisateurs par le ratio temps passé sur le site par rapport au nombre de mots écrits, ainsi que par d’autres signaux comme le VPN, le contenu copié, le contenu injecté, etc. Les comptes suspects pourraient être marqués pour examen.
Edit : cette requête rapide Data Explorer en a révélé quelques autres, bien que certains d’entre eux aient déjà été suspendus.
SELECT
u.id,
u.created_at,
u.username,
u.trust_level,
us.time_read,
us.days_visited,
us.topics_entered,
us.post_count,
us.topic_count
FROM users u
LEFT JOIN user_stats us
ON us.user_id = u.id
WHERE u.trust_level < 1
AND u.created_at > '2023-01-01'
AND us.time_read < 1000 -- secondes
AND us.post_count > 1
C’est une approche intéressante pour éliminer les personnes qui pourraient “falsifier leur activité” en une seule journée pour passer à un TL supérieur
J’aime la recommandation d’utiliser des moyens supplémentaires pour classer les utilisateurs, quelque chose à examiner !
Un par jour. Modèle observé sur des forums comptant environ 2000 utilisateurs (500 par an de nouveaux) :
Un nouvel utilisateur s’inscrit avec un domaine d’e-mail appartenant à la catégorie « domaine temporaire » tel que « cetnob.com ».
Dans un délai de quelques heures, il crée un nouveau sujet ou répond à un sujet existant.
Crée du texte uniquement dans les sections anglaises (site bilingue, avec plus de 90 % pas en anglais).
Parfois, inclut une URL dans le texte, parfois non.
Le texte ressemble à une question ou une remarque réelle, utilisant des mots propres aux forums et au matériel pertinent.
Mais le texte semble légèrement hors sujet, mais très bien fait : un ingénieur de support inexpérimenté ne pourrait pas le détecter.
Cela ressemble fortement au modèle décrit dans :
Nous bloquons déjà les domaines hotmail, gmail et autres grands domaines orientés consommateur à l’aide d’une liste explicite, mais il existe au moins 10 000 domaines qui nous sont connus et qui sont utilisés pour ce type d’approche. Dans notre propre logiciel, nous avons une liste explicite plus une vérification en temps réel sur UserCheck (nous utilisons la variante gratuite et vérifions uniquement lors de l’inscription sur nos propres applications et le cache, donc 5000 recherches par mois suffisent).
D’après ce que j’ai vu, ce comportement spécifique peut être géré en bloquant automatiquement les domaines d’e-mails temporaires / spam.
Bloquer les TL0 (utilisateurs de niveau 0) de l’utilisation de liens n’est pas considéré comme plus viable que de modérer toutes les nouvelles demandes, car de nombreux utilisateurs publient directement après leur première inscription, le site étant un portail de support.
Je ne suis pas sûr que cette approche résolve tous les problèmes, par exemple pour les forums plus importants ou les forums qui acceptent les adresses e-mail grand public.
Je reçois beaucoup de spammeurs IA ces derniers temps, et il faut beaucoup de temps pour les examiner.
Avec le spammeur actuel que j’examine, le texte est écrit en anglais parfait, c’est un VPN, l’adresse e-mail est dans StopForumSpam, et je peux dire que le contenu a été copié/collé car le trait d’union utilisé n’existe pas sur les claviers. J’ai dû vérifier tout cela manuellement et j’ai encore plusieurs choses à examiner ce matin.
Brainstorming d’une autre idée :
Lorsqu’un message est enregistré, Discourse pourrait enregistrer des données supplémentaires dans un champ JSONB sur ce message :
Adresse IP
is_vpn ? — une recherche dans maxmind pour trouver l’organisation et voir s’il s’agit d’un VPN (par exemple, PacketHub S.A.)
Une recherche rapide de l’adresse e-mail dans StopForumSpam
Une comparaison du nombre de caractères produits dans l’éditeur par rapport au nombre de caractères produisant une sortie tapés (en excluant les touches fléchées, ctrl, etc.). Par exemple, l’utilisateur a produit 1 000 caractères dans le contenu brut, mais n’a appuyé que 10 fois sur des touches produisant une sortie (suggérant que le contenu a été collé et que l’utilisateur a ensuite peut-être modifié un mot).
Nombre de fois où le contenu a été copié ou coupé à l’aide de raccourcis clavier ou d’un clic droit.
Nombre de fois où le contenu a été collé à l’aide de raccourcis clavier ou d’un clic droit. La différence entre les nombres de copie/coller fournirait un autre indice.
Les modérateurs pourraient visualiser ces données sur les messages dans un petit tableau. Les valeurs inhabituelles pourraient être mises en évidence afin que les messages suspects se démarquent.
Il n’existe probablement pas de méthode parfaite pour automatiser la détection, mais disposer de plus d’informations accélérerait le processus de modération.
Je n’ai pas utilisé d’IA sur mes forums car c’est cher. Je ne suis pas non plus convaincu que l’IA pourrait résoudre ce problème, car le contenu semble normal. Je devrais toujours enquêter manuellement sur chaque publication suspecte.
Je n’ai pas eu de problème avec le contenu NSFW.
Mon problème n’est pas qu’il y ait quelque chose qui cloche avec le contenu. Les seules choses suspectes à son sujet sont que les nouveaux utilisateurs n’écrivent pas de telles publications quelques minutes après leur inscription, et le contenu est également quelque peu vague. Mon forum principal a un sujet très spécifique, et si un premier message ne dit rien de spécifique sur la relation de la personne avec ce sujet, je commence le processus d’enquête. Sinon, je pourrais ne pas remarquer leurs publications.
Voici quelques exemples. Le contenu est juste assez vague pour que je commence le processus d’enquête, mais c’est fastidieux, car je dois le faire manuellement.
Je ne peux pas bannir cet utilisateur uniquement sur la base du contenu. Ce sont les autres indices qui me disent que c’est un spammeur.
Cette adresse IP était un VPN en Norvège, et le contenu était trop vague. J’ai pu le confirmer car l’adresse e-mail était dans StopForumSpam avec une adresse IP d’Allemagne :
Je réfléchis à voix haute, mais il serait plus rapide de modérer ces utilisateurs s’il y avait un petit tableau sur les publications qui disait quelque chose comme :
location
Oslo, Norvège [de maxmind]
organization
PacketHub S.A. [de maxmind]
is_vpn
true
email
whatever@example [parfois cela donne des indices]
stopforumspam
true [lien]
characters_output
1 234
characters_output_pressed
10 [cela ne correspond pas au nombre de caractères dans la publication, donc c’est un indice]
num_cut_or_copy
0 [n’a pas copié de texte de l’éditeur]
num_paste
1 [a effectué un copier-coller]
seconds_editor_open
20 [suspect pour une publication de cette longueur]
Peut-être que le tableau pourrait être réduit, sauf s’il y a une valeur suspecte et/ou que les modérateurs pourraient signaler un utilisateur spécifique comme « probablement pas un spammeur », ce qui réduirait alors le tableau sur toutes ses publications ou arrêterait les recherches futures pour cet utilisateur. Ou l’utilisateur pourrait automatiquement être marqué comme sûr lorsqu’il atteint TL2.
C’est une combinaison de choses :
Le VPN ou l’adresse IP a tendance à se trouver dans un petit nombre de pays où il existe de nombreuses sociétés de référencement (Inde, Pakistan, Ukraine, Vietnam, Bangladesh).
Parfois, les adresses e-mail se trouvent dans StopForumSpam.
Une grande partie du contenu est collée dans l’éditeur, mais probablement pas tout.
Les adresses e-mail ne correspondent souvent pas au nom d’utilisateur. Par exemple, le nom d’utilisateur sera « Bob Smith » et l’adresse e-mail sera quelque chose de différent comme stevenjohnee1234@example.
Le contenu brut utilise parfois des caractères de ponctuation formatés comme des guillemets intelligents ou des tirets cadratins, suggérant que le contenu n’a pas été écrit dans l’éditeur Discourse.
Jetez un œil au message 1622105 ici sur ce forum. Il a été posté 3 minutes après l’inscription, modifié à la main pour changer le lien de Quora à stackexchange, et l’anglais est bon, mais il parle de technologie qui n’est pas pertinente pour Discourse. Je ne veux pas y mettre de lien car cela notifierait l’auteur.
C’est le genre de message où il serait utile de voir les données que j’ai mentionnées ci-dessus directement dans le message.
Une grande partie de cela ressemble à l’expérience du personnel par rapport à l’IA. J’appellerai les bonnes personnes pour aborder le sujet.
Je pense qu’il est convaincant d’essayer de renforcer certaines des détections de « frappe rapide » que nous avons déjà. L’intégration de SFS dans le noyau pourrait également être convaincante.
Il y a bien sûr la profonde question philosophique :
Est-ce du spam si cela ajoute de la valeur au forum (même si cela est généré par l’IA)
Faut-il le supprimer du forum s’il n’ajoute aucune valeur au forum (même s’il est généré par un humain)
Aucune de ces questions n’a de réponse très claire.
Je pense que la suggestion de rendre plus de métadonnées disponibles pour les modérateurs est une bonne idée. Indépendamment de l’amélioration des fonctionnalités automatiques.
Je laisse quelques messages de spam en ligne lorsqu’ils suscitent une discussion, mais la plupart sont supprimés. La qualité est très faible, et il est souvent facile de dire quand quelque chose est écrit par une IA. Si j’ai l’impression que ce que je lis est généré par une IA, je commence à perdre confiance dans la source. Je ne suis pas un luddiste de l’IA, mais je ne veux pas lire de contenu généré par une IA à moins de savoir qu’il est généré par une IA.
Si je vois que quelqu’un utilise une IA dans le forum, j’y mets immédiatement un terme car un contenu digne de confiance est l’un des atouts les plus importants du forum.
De plus, ce qui semble passable pour les humains en 2024 sera peut-être facile à détecter comme de l’IA pour les gens en 2034, un peu comme les effets spéciaux de films qui semblaient réalistes il y a des décennies sont maintenant immédiatement détectables comme faux. Je pense que le contenu généré par IA à partir de 2024 semblera daté à terme.