Haben Sie KI-basierte Spam-Probleme?

Ich bin neugierig, von Community-Mitgliedern zu hören, ob sie eine Zunahme von KI-gestütztem Spam erleben.

Dies würde speziell Antworten auf Fragen beinhalten, die wie ChatGPT-basiert aussehen und entweder unmenschlich wirken oder Halluzinationen aufweisen (ein häufiges Problem bei LLMs).

Ich erlebe KI-basierten Spam

  • Ja
  • Nein
0 voters

Wenn die Antwort Ja lautet, bin ich neugierig zu hören…

  • Wie oft passiert das?
  • Welches Problem verursacht das in Ihrer Community?
  • Was tun Sie derzeit dagegen?

Wenn die Antwort Nein lautet, bin ich neugierig zu erfahren…

  • Wie verhindern Sie, dass dies geschieht?
  • Gibt es Gründe, warum Ihre Community dieses Problem von Natur aus nicht hat?
12 „Gefällt mir“

Wir nutzen KI lediglich als Werkzeug, um Wissen zu erlangen, vielleicht für ein wenig lockere Unterhaltung.
Vielleicht ist unsere Community klein und hat den gesunden Menschenverstand, dass Halluzinationen SCHLECHT sind.

4 „Gefällt mir“

Private Community (Login erforderlich, nur auf Einladung).

7 „Gefällt mir“

Ich glaube, der effektivste Weg, Spam zu verhindern, ist die Mitgliedschaft in einer sehr kleinen und schwierigen Sprache. Das hält die Clowns ab, die manuelle Arbeit leisten.

Nun, wir alle wissen, dass Spammer nicht so schlau sind und automatischer Traffic sich nicht um Sprache, Genre oder sogar Größe kümmert. Also muss es einen anderen Grund geben, warum einige Foren oder Websites wie Honigtöpfe für jeglichen Müll sind und andere ohne Drama leben.

Für den Grund, warum Spammer sich dort anmelden können und anderswo nicht, obwohl das System und die Einrichtung identisch sein sollten, habe ich keine Antwort. Aber eines ist sicher: Das Bedürfnis des Administrators oder einer anderen Hintergrundkraft nach schnellem Wachstum durch ein globales Publikum wird zu Bot- und Spam-Problemen führen.

2 „Gefällt mir“

In den letzten zwei Wochen oder so haben wir einen Anstieg auf unserer Website verzeichnet. Wir sehen typischen Spam mit versteckten Links in neuen Antworten von neuen Konten. Als wir die Reputation für die Erstellung neuer Beiträge erhöhten, sahen wir einen Anstieg von KI-generierten Antworten, und es schien, dass die Bots versuchten, ihre Reputation langsam auf gefälschten Konten zu erhöhen. Diese Antworten enthalten keine offensichtlichen gefälschten Links, sondern nur generischen KI-Text, der nicht zur Beantwortung der Frage beiträgt.

Wir wurden über ein Wochenende mit einem großen Anstieg von Spam-Posts getroffen, genug, dass jemand ein neues Thema erstellte und sagte, es gäbe zu viel Spam in unserem Forum. Seitdem müssen Administratoren die Website täglich überprüfen, um gefälschte KI-Posts zu bereinigen. Wir sehen auch KI-Posts auf Konten, die in der Vergangenheit erstellt wurden und keine Aktivität hatten, was den Eindruck erweckt, dass einige Spam-Bots Konten eine Weile lang besiedelt und sie ohne Aktivität ruhen gelassen haben. Jetzt versuchen sie, die Engagement-Limits langsam zu überwinden, damit sie neue Themen posten können.

Wie oben erwähnt, haben wir die Vertrauensstufen für das Posten neuer Themen erhöht. Wir haben auch Akismet aktiviert. Aber das hat die KI-Spam-Posts nicht gestoppt. Derzeit benötigen wir einen Administrator/Moderator, der das Forum täglich überprüft, um markierte Beiträge zu überprüfen und zu bereinigen. Einige sind herausfordernd und sehen aus, als könnten sie von einer Person stammen, daher müssen zwei Personen überprüfen.

Wir haben unsere Benutzer ermutigt, zu helfen und Beiträge zu markieren, die wie KI aussehen, und das hat geholfen.

Unser Forum hat ein ziemlich geringes Volumen und läuft seit Jahren mit sehr geringer Bereinigung und Wartung durch Administratoren, aber es scheint, dass die KI-Bots uns gefunden haben. Ich denke, KI könnte benötigt werden, um KI zu stoppen?

6 „Gefällt mir“

Ja, leider. Entweder das, oder du überprüfst vorübergehend alle neuen Benutzer und verlangsamst die Zeit von „wenn sich ein Benutzer anmeldet“ bis zum Posten.

Wir haben:

Es unterstützt auch das Markieren, sodass du das heute nutzen könntest.

3 „Gefällt mir“

In diesem Zusammenhang haben wir gerade einen Leitfaden dazu veröffentlicht!

8 „Gefällt mir“

Im Anschluss daran, hatte jemand die Gelegenheit, dies auszuprobieren? Ich würde mich über Ihr Feedback freuen.

1 „Gefällt mir“

Ich habe noch nicht viel davon gesehen, aber mein Forum hält die ersten paar Beiträge zur Moderation zurück, und ich kann normalerweise anhand bestimmter Hinweise erkennen, ob jemand ein Spammer sein könnte. Ich sperre die verdächtigen bis TL0, bis sie etwas posten, das eindeutig zum Thema passt.

Es ist kein Forum, in dem man über zufällige Dinge plaudert, daher ist es normalerweise möglich, anhand des ersten Beitrags zu erkennen, ob jemand Interesse vortäuscht.

3 „Gefällt mir“

Tatsächlich bin ich gerade auf einen Benutzer gestoßen, der durchgerutscht ist und mit ChatGPT oder einer anderen KI postet. Es könnte noch mehr Spam-Konten geben, die ich übersehen habe.

Einige Ideen, wie man dagegen vorgehen kann:

  • Erstellen Sie eine Datenbank mit VPN-Anbietern. Die IP-Adresse dieses Benutzers stammt von „M247 Europe SRL“, einem VPN-Dienstleister. Ich hätte mir schon immer eine Art Benachrichtigung gewünscht, dass ein neues Konto ein VPN nutzt. Im Moment muss ich das manuell machen.
  • Verfolgen Sie die Lesezeit, die besuchten Tage, die gelesenen Themen/Beiträge. Dieser Benutzer hat 8 Minuten auf der Website gelesen, aber 6 Kommentare gepostet und am Tag seiner Registrierung nur 3 Mal die Seite besucht. Der Benutzer ist tatsächlich immer noch TL0, da er nichts anderes getan hat, als Kommentare zu posten.
  • Ich habe weitere Ideen in den Kommentaren auf dieser Seite aufgeschrieben.

Ich frage mich, ob es möglich ist, Benutzer grob nach dem Verhältnis von auf der Website verbrachter Zeit zu geschriebenen Wörtern zu klassifizieren, plus andere Signale wie VPN, eingefügter Inhalt usw. Verdächtige Konten könnten zur Überprüfung markiert werden.

Bearbeitung: Diese schnelle Data Explorer-Abfrage hat ein paar weitere aufgedeckt, obwohl einige davon bereits gesperrt waren.

SELECT
    u.id,
    u.created_at,
    u.username,
    u.trust_level,
    us.time_read,
    us.days_visited,
    us.topics_entered,
    us.post_count,
    us.topic_count
FROM users u
LEFT JOIN user_stats us
ON us.user_id = u.id
WHERE u.trust_level < 1
AND u.created_at > '2023-01-01'
AND us.time_read < 1000 -- Sekunden
AND us.post_count > 1
3 „Gefällt mir“

Dies ist ein interessanter Ansatz, um Leute auszusortieren, die an einem einzigen Tag „Aktivität vortäuschen“ könnten, um auf ein höheres TL aufzurüsten

Mir gefällt die Empfehlung hier, zusätzliche Möglichkeiten zur Klassifizierung von Benutzern zu nutzen, etwas, das man sich ansehen sollte!

4 „Gefällt mir“

5 Beiträge wurden in ein neues Thema aufgeteilt: Blocking recent wave of spam

Einer pro Tag. Muster in Foren mit etwa 2000 Benutzern (500 pro Jahr neu):

  • Ein neuer Benutzer meldet sich mit einer E-Mail-Domain aus der Kategorie „temporäre Domain“ an, z. B. „cetnob.com“.
  • Innerhalb weniger Stunden erstellt er entweder ein neues Thema oder antwortet auf ein bestehendes Thema.
  • Erstellt Text nur in englischen Abschnitten (zweisprachige Website, mit über 90 % NICHT auf Englisch).
  • Manchmal wird eine URL im Text eingefügt, manchmal nicht.
  • Der Text scheint eine tatsächliche Frage oder Bemerkung zu sein, verwendet Wörter, die einzigartig für die Foren und relevantes Material sind.
  • Aber der Text fühlt sich etwas themenfremd an, aber immer noch sehr gut: Ein unerfahrener Support-Ingenieur könnte ihn nicht erkennen.

Es ähnelt stark dem Muster, das beschrieben wird in:

Wir blockieren bereits Hotmail, Gmail und andere große, verbraucherorientierte Domains mithilfe einer expliziten Liste, aber es gibt mindestens 10.000 Domains, die uns für diese Art von Ansatz bekannt sind. In unserer eigenen Software haben wir eine explizite Liste plus eine Echtzeitprüfung mit UserCheck (wir verwenden die kostenlose Variante und prüfen nur bei der Anmeldung in unseren eigenen Apps und im Cache, sodass 5000 Lookups pro Monat ausreichen).

Nach allem, was ich gesehen habe, kann dieses spezifische Verhalten durch die automatische Blockierung temporärer/Spam-E-Mail-Domains angegangen werden.

Die Blockierung von TL0 bei der Verwendung von Links wird nicht wirklich als praktikabler angesehen als die Moderation aller neuen Anfragen, da viele Benutzer direkt nach der ersten Anmeldung posten und die Website ein Support-Portal ist.

Es gibt ein Plugin dafür, aber es scheint nicht mehr gewartet zu werden (siehe Plugin to detect & reject disposable emails on signup).

Ich bin mir nicht sicher, ob dieser Ansatz alle Probleme lösen wird, zum Beispiel für größere Foren oder Foren, die Verbraucher-E-Mail-Adressen akzeptieren.

5 „Gefällt mir“

In letzter Zeit bekomme ich viele KI-Spammer, und es ist zeitaufwendig, sie durchzugehen.

Beim aktuellen Spammer, den ich mir ansehe, ist der Text in perfektem Englisch verfasst, es ist ein VPN, die E-Mail-Adresse ist in StopForumSpam gelistet, und ich kann erkennen, dass der Inhalt kopiert/eingefügt wurde, da das verwendete Gedankenstrichzeichen auf Tastaturen nicht vorhanden ist. Das alles musste ich jedoch manuell überprüfen und habe heute Morgen noch mehrere weitere zu prüfen.

Brainstorming einer weiteren Idee:

Wenn ein Beitrag gespeichert wird, könnte Discourse zusätzliche Daten in einem JSONB-Feld für diesen Beitrag aufzeichnen:

  • IP-Adresse
  • ist_vpn? — eine Abfrage in MaxMind, um die Organisation zu finden und zu sehen, ob es sich um ein VPN handelt (z. B. PacketHub S.A.)
  • Eine schnelle Abfrage der E-Mail-Adresse in StopForumSpam
  • Ein Vergleich der Anzahl der Zeichen, die in den Editor ausgegeben wurden, mit der Anzahl der ausgabeerzeugenden Zeichen, die eingegeben wurden (ohne Pfeiltasten, Strg usw.). Zum Beispiel hat der Benutzer 1.000 Zeichen im Rohinhalt ausgegeben, aber nur 10 Mal Tasten gedrückt, die eine Ausgabe erzeugen (was darauf hindeutet, dass der Inhalt eingefügt wurde und der Benutzer dann vielleicht ein Wort bearbeitet hat).
  • Anzahl der Male, die Inhalte mit Tastenkombinationen oder Rechtsklick kopiert oder ausgeschnitten wurden.
  • Anzahl der Male, die Inhalte mit Tastenkombinationen oder Rechtsklick eingefügt wurden. Die Differenz zwischen den Kopier-/Einfüge-Zahlen würde einen weiteren Hinweis liefern.

Moderatoren könnten diese Daten zu Beiträgen in einer kleinen Tabelle einsehen. Ungewöhnliche Werte könnten hervorgehoben werden, damit verdächtige Beiträge auffallen.

Es gibt wahrscheinlich keine perfekte Methode zur automatischen Erkennung, aber mehr Informationen würden den Moderationsprozess beschleunigen.

4 „Gefällt mir“

Ich bin neugierig, ob einer der folgenden Leitfäden geholfen hat, da der Spam mit der Zeit immer ausgefeilter geworden ist

Ich habe KI in meinen Foren nicht genutzt, da sie teuer ist. Ich bin auch nicht davon überzeugt, dass KI dieses Problem lösen könnte, da der Inhalt normal aussieht. Ich müsste trotzdem jeden verdächtigen Beitrag manuell untersuchen.

Ich hatte kein Problem mit NSFW-Inhalten.

Mein Problem ist nicht, dass mit dem Inhalt etwas nicht stimmt. Das einzig Verdächtige daran ist, dass neue Benutzer nicht innerhalb weniger Minuten nach der Registrierung Beiträge wie diese verfassen und der Inhalt auch etwas vage ist. Mein Hauptforum hat ein sehr spezifisches Thema, und wenn ein erster Beitrag nichts Spezifisches über die Beziehung der Person zu diesem Thema aussagt, beginne ich mit der Untersuchung. Andernfalls bemerke ich ihre Beiträge möglicherweise nicht.

Hier sind ein paar Beispiele. Der Inhalt ist gerade vage genug, damit ich mit der Untersuchung beginnen kann, aber das ist zeitaufwendig, da ich es manuell tun muss.

Ich kann diesen Benutzer nicht allein aufgrund des Inhalts sperren. Es sind die anderen Hinweise, die mir sagen, dass es sich um einen Spammer handelt.

Diese IP-Adresse war ein VPN in Norwegen, und der Inhalt war zu vage. Ich konnte dies bestätigen, da die E-Mail-Adresse bei StopForumSpam mit einer IP-Adresse aus Deutschland eingetragen war:

Ich denke hier laut nach, aber es wäre schneller, diese Benutzer zu moderieren, wenn es eine kleine Tabelle bei den Beiträgen gäbe, die etwas wie folgt aussagt:

Standort Oslo, Norwegen [von MaxMind]
Organisation PacketHub S.A. [von MaxMind]
ist_vpn true
E-Mail whatever@example [manchmal liefert dies Hinweise]
stopforumspam true [Link]
characters_output 1.234
characters_output_pressed 10 [stimmt nicht mit der Anzahl der Zeichen im Beitrag überein, also ein Hinweis]
num_cut_or_copy 0 [kein Text aus dem Editor kopiert]
num_paste 1 [einmal eingefügt]
seconds_editor_open 20 [verdächtig für einen Beitrag dieser Länge]

Vielleicht könnte die Tabelle eingeklappt werden, es sei denn, es gibt einen verdächtigen Wert und/oder Moderatoren könnten einen bestimmten Benutzer als “wahrscheinlich kein Spam” markieren, was dann die Tabelle für alle seine Beiträge einklappen oder zukünftige Suchen für diesen Benutzer stoppen würde. Oder der Benutzer könnte automatisch als sicher markiert werden, wenn er TL2 erreicht.

Es ist eine Kombination von Dingen:

  • VPN oder IP-Adresse tendiert dazu, in einer kleinen Anzahl von Ländern zu liegen, in denen es viele SEO-Unternehmen gibt (Indien, Pakistan, Ukraine, Vietnam, Bangladesch).
  • Manchmal sind die E-Mail-Adressen bei StopForumSpam eingetragen.
  • Viel Inhalt wird in den Editor eingefügt, aber wahrscheinlich nicht alles.
  • Die E-Mail-Adressen stimmen oft nicht mit dem Benutzernamen überein. Z. B. der Benutzername ist “Bob Smith” und die E-Mail-Adresse ist etwas anderes wie stevenjohnee1234@example.
  • Der Rohinhalt verwendet manchmal formatierte Satzzeichen wie intelligente Anführungszeichen oder Gedankenstriche, was darauf hindeutet, dass der Inhalt nicht im Discourse-Editor geschrieben wurde.
5 „Gefällt mir“

Schauen Sie sich den Beitrag 1622105 hier in diesem Forum an. Er wurde 3 Minuten nach der Registrierung gepostet, von Hand bearbeitet, um den Link von Quora zu Stackexchange zu ändern, und das Englisch ist gut, aber es geht um Technologie, die für Discourse nicht relevant ist. Ich möchte nicht darauf verlinken, da dies den Poster benachrichtigen würde.

Das ist die Art von Beitrag, bei der es nützlich wäre, die von mir erwähnten Daten direkt im Beitrag zu sehen.

1 „Gefällt mir“

Vieles davon fühlt sich wie Mitarbeitererfahrung vs. KI an. Ich werde die richtigen Leute in das Thema einbeziehen.

Ich denke, es klingt überzeugend, einige der “Schnellschreib”-Erkennungen, die wir bereits haben, zu verstärken. Die Integration von SFS in den Kern könnte ebenfalls überzeugend sein.

Es gibt natürlich die tiefgründige philosophische Frage:

Ist es Spam, wenn es dem Forum einen Mehrwert bietet (auch wenn es von KI generiert wurde)?

Sollte es aus dem Forum entfernt werden, wenn es dem Forum keinen Mehrwert bietet (auch wenn es von Menschen generiert wurde)?

Keine dieser Fragen hat eine ganz klare Antwort.

5 „Gefällt mir“

Ich denke, der Vorschlag, den Moderatoren mehr Metadaten zur Verfügung zu stellen, ist gut. Unabhängig von der Verbesserung der automatischen Funktionen.

4 „Gefällt mir“

Es ist möglich, dass dies je nach Forum variiert.

Ich lasse ein paar Spam-Posts online, wenn sie Diskussionen anregen, aber die meisten werden gelöscht. Die Qualität ist sehr gering, und es ist oft leicht zu erkennen, wenn etwas von einer KI geschrieben wurde. Wenn ich das Gefühl habe, dass etwas, das ich lese, von einer KI stammt, verliere ich das Vertrauen in die Quelle. Ich bin kein KI-Luddit, aber ich möchte keine von einer KI generierten Inhalte lesen, es sei denn, ich weiß, dass sie von einer KI generiert wurden.

Wenn ich sehe, dass jemand eine KI im Forum benutzt, unterbinde ich das sofort, denn vertrauenswürdige Inhalte sind eines der wichtigsten Güter des Forums.

Außerdem, was im Jahr 2024 für Menschen passable aussieht, könnte im Jahr 2034 für Menschen leicht als KI erkennbar sein, ähnlich wie Filmeffekte, die vor Jahrzehnten realistisch aussahen, heute sofort als gefälscht erkennbar sind. Ich denke, KI-generierte Inhalte aus dem Jahr 2024 werden irgendwann veraltet aussehen.

2 „Gefällt mir“