Bewährte Praktiken im Umgang mit Spam-Benutzern und GPT-Antwortbeiträgen

Kontext: Wir haben vor einigen Jahren eine Community gegründet, kurz bevor die Pandemie stark einsetzte, und mussten dann mehrere Jahre lang alle Ressourcen für andere Initiativen aufwenden. Wir hatten viel Beteiligung, und als wir die Community-Programmierung und -Verwaltung einstellten, kamen die Foren zum Stillstand. Wir werden nun mehr Zeit in die Umsetzung unserer Community-Strategie und -Verwaltung investieren, daher ist diese Frage am dringendsten!



Wir stellen derzeit fest, dass viele der Benutzer, die sich jetzt der Community anschließen, entweder:
  1. Beitreten, um einen Link zu ihrer Spam-affiliierten, Keyword-fokussierten Website zu posten
  2. Beitreten und etwas posten, das sehr nach einer LLM / GPT-generierten Antwort/Post aussieht

Hier ist ein Beispiel für einen Beitrag, der gestern in unsere Moderationswarteschlange kam:

Hinweis: Der Benutzer hat sein Konto erst an diesem Tag erstellt.

Klicken Sie hier, um einen Screenshot des moderierten Beitrags anzuzeigen

Unsere Discourse-Systemnachricht wurde an den Benutzer gesendet:

Klicken Sie hier, um einen Screenshot der vordefinierten SYSTEM-Nachricht anzuzeigen

Dieser Beitrag von einem neuen Benutzer war eine Antwort auf diesen 3 Jahre alten Beitrag von Chris Anderson.

Wenn Sie den moderierten Beitrag des neuen Benutzers lesen, ist ziemlich klar, dass diese Nachricht unaufrichtig ist und eine Antwort, die von GPT oder etwas Ähnlichem generiert wurde.

Gibt es optimale Wege, um zu verhindern, dass diese Art von Benutzern in der Community auftaucht?

Gibt es Möglichkeiten, Benutzer daran zu hindern, LLM-generierte Standardantworten einzugeben, aus welchem eigennützigen oder böswilligen Grund auch immer sie dies tun wollen?

Jeder Input wäre großartig!

4 „Gefällt mir“

Wie oft passiert das? Ich frage mich, ob Ihre Website aus irgendeinem Grund gezielt angegriffen wird.

Ich vermute, dass es etwas mit einer oder beiden dieser Websites zu tun hat: http://bestpickleballpaddle.com/, https://thepickleballpaddles.com/. (Beachten Sie, dass dies echte Websites sind, aber geben wir ihnen hier nicht zu viel Traffic.)

Die offensichtlichste Motivation, die mir einfällt, um einen Beitrag wie den in Ihrem Screenshot zu erstellen, ist, Vertrauen auf der Website zu gewinnen, um in Zukunft Spam-Links posten zu können. Wenn das das Problem ist, könnte es sich lohnen, den Wert der Einstellung Ihrer Website min trust to post links vom Standardwert von Vertrauensstufe 0 auf Vertrauensstufe 1 oder 2 zu ändern. Wenn es Domänen gibt, auf denen Sie Benutzern jeder Vertrauensstufe das Posten erlauben möchten, könnten Sie diese Domänen zur Website-Einstellung allowed link domains hinzufügen.

Ich überlege hier nur laut, aber ich frage mich, ob es besser wäre, anstatt viel Aufwand zu betreiben, um von LLMs generierte Inhalte zu erkennen, zu versuchen, die Motivation für die Erstellung solcher Beiträge von vornherein zu verringern. Meine Sorge ist, dass LLM-generierte Inhalte im Laufe der Zeit schwieriger zu erkennen sein werden. Falsche Identifizierung von Inhalten als von einem LLM generiert könnte zu einem Problem werden.

Ein weiterer Ansatz, der in einigen Fällen nützlich sein könnte, wäre die Verwendung der Mitgliedschaft in einer Organisation oder der Aktivität auf einer anderen Plattform als Kriterium für die Erstellung eines Discourse-Kontos oder als Kriterium für den Erhalt einer Vertrauensstufe, die das Posten von Links auf einer Discourse-Website erlaubt. Zum Beispiel hat Ihr Anmeldeformular ein optionales Feld, das nach dem USAPA-Rating-Level des Benutzers fragt. Wenn die Mitgliedschaft in der USAPA den Mitgliedern eine Profilseite auf ihrer Website gibt, könnten Sie die Mitgliedschaft in der USAPA zur Voraussetzung für die Anmeldung auf Ihrer Website machen, indem Sie “USAPA-Profil-Link” als erforderliches Feld in Ihrem Anmeldeformular angeben. Sie könnten dann die Discourse-Website-Einstellung must approve users aktivieren und Benutzer nur genehmigen, nachdem Sie ihre USAPA-Mitgliedschaft bestätigt haben. Eine weitere Möglichkeit wäre, dass Discourse eine Funktion hinzufügt, die es erlaubt, die Vertrauensstufe eines Benutzers basierend auf benutzerdefinierten Kriterien zu begrenzen. Erlauben Sie zum Beispiel einem Benutzer nicht, über Vertrauensstufe 1 hinauszugehen, bis seine USAPA-Mitgliedschaft bestätigt wurde.

Ich verwende hier nur die USAPA-Mitgliedschaft als Beispiel. Ich kann verstehen, warum Sie die USAPA-Mitgliedschaft für Benutzer auf Ihrer Website nicht verlangen möchten. Die Idee, Vertrauen durch Mitgliedschaft oder Aktivität auf einer anderen Website herzustellen, hängt mit dem Plugin zusammen, das hier diskutiert wird: $10k Bounty: Gitcoin Passport plug-in for Discourse.

6 „Gefällt mir“

Genau das.

Es muss mit ziemlicher Sicherheit eine Agenda dahinterstecken, auch wenn sie noch nicht offensichtlich ist.

Ich hatte kürzlich einen Benutzer, der ziemlich überzeugend war und es bis Trust Level 2 schaffte, bevor er seine Produktwerbung unverblümt betrieb, nachdem er ursprünglich nur angedeutet hatte.

Die Trust-Level-Link-Einstellung ist nützlich, und zwielichtige Konten werden anfangen, den Leuten vorzuschlagen, über Google nach xyz zu suchen, anstatt Links posten zu können: ein weiteres Warnsignal.

Manchmal muss man einfach warten, bis die Beweise ausreichen, um sicher zu sein, dass man ein Konto sperren kann.

Leider bedeutet das Verzögern von Maßnahmen, dass die Aufräumarbeiten später mehr Arbeit bedeuten.

4 „Gefällt mir“

Es gibt eine „verdächtig schnell getippt“-Prüfung zum Kopieren und Einfügen? Es sei denn, die ganze Sache war ein Roboter, der darauf ausgelegt war, langsam zu tippen, um einen Menschen nachzuahmen…

Wenn ich das richtig verstehe, ist das Gute hier, dass diese Person von der bestehenden Infrastruktur erfasst wurde. Das Personal wurde belästigt, aber nicht die Benutzer.

Ich denke, Simon hat hier den Nagel auf den Kopf getroffen:

Mich würde interessieren, wie oft das vorkommt. Die Tatsache, dass diese Person einen relevanten Avatar mit einem relevanten Benutzernamen in einem relevanten Forum erstellt hat… lässt mich annehmen, dass dies teilweise eine menschliche Sache ist.
Könnte auch ein übereifriger Marketingpraktikant sein?

1 „Gefällt mir“

Ich hatte ein ähnliches Problem. Die verantwortliche Partei ist derzeit gesperrt. Es gibt Webseiten, die helfen können, KI-generierten Text zu identifizieren, was hilfreich ist, aber keine langfristige Lösung darstellt. – Die KI wird immer besser werden, bis kein Unterschied mehr erkennbar ist.

Randall Munroe schlägt jedoch vor, dass es sich um ein sich selbst lösendes Problem handeln könnte.

3 „Gefällt mir“

Nur zur Info

Ich bin ein Kategorie-Moderator im OpenAI Discourse Forum (ref) (kein OpenAI-Mitarbeiter) und sehe daher das Feedback im Forum bezüglich der Änderungen an ChatGPT im Laufe der Zeit (ref) und während Ihre Aussage im Allgemeinen korrekt ist, füge ich nur einige Klarstellungen bezüglich ChatGPT hinzu.

Von dem Zeitpunkt an, als ChatGPT verfügbar wurde, und viele Monate lang verbesserten sich seine Fähigkeiten, die Vervollständigungen waren

  • kohärenter
  • im Einklang mit der Aufforderung
  • prägnanter, kürzer in der Länge

Dann wurde eine Änderung vorgenommen, die zu Vervollständigungen führte, die

  • weniger kohärent waren
  • weniger im Einklang mit der Aufforderung
  • weniger prägnant und länger in der Länge

Viele Benutzer im Forum bemerkten, dass es so war, als ob ChatGPT vor ein paar Monaten auf eine frühere Version zurückgesetzt worden wäre. Diejenigen, die ChatGPT zur Erstellung von Code verwenden, eine Anwendung, die ich auch für ChatGPT nutze, bemerkten dies stärker ausgeprägt, da mit der Änderung mehr Syntaxfehler auftraten.

Der Gedanke, den man im Hinterkopf behalten sollte, ist, dass es ein sich bewegendes Ziel ist, wenn man versucht, von ChatGPT generierte Inhalte zu identifizieren, und dass es nicht immer besser wird. Als Programmierer wäre dies von Wert, wenn ich versuchen würde, von ChatGPT generierte Inhalte zu identifizieren.

Außerdem habe ich als Moderator der Website keine Insiderkenntnisse, da ich kein OpenAI-Mitarbeiter bin. Wenn Sie also von Tools hören, die Informationen einbetten, um solche ChatGPT-Inhalte identifizierbar zu machen, kann ich keine Informationen dazu liefern.



Für diejenigen, die ChatGPT nicht verwenden, hier ein einfaches Beispiel anhand des obigen Textes.

Beispiel (Dreieck zum Erweitern anklicken)

ChatGPT 20. Juli Version
Aufforderung

Korrekturlesen, netten Ton verwenden, prägnant sein.

FYI

Ich bin ein Kategorie-Moderator im OpenAI Discourse Forum (ref), daher sehe ich das Feedback im Forum bezüglich der Änderungen an ChatGPT im Laufe der Zeit (ref) und während Ihre Aussage im Allgemeinen korrekt ist, füge ich nur einige Klarstellungen hinzu.

Von dem Zeitpunkt an, als ChatGPT verfügbar wurde, und viele Monate lang verbesserten sich seine Fähigkeiten, die Vervollständigungen waren

  • kohärenter
  • im Einklang mit der Aufforderung
  • prägnanter, kürzer in der Länge

Dann wurde eine Änderung vorgenommen, die zu Vervollständigungen führte, die

  • weniger kohärent waren
  • weniger im Einklang mit der Aufforderung
  • weniger prägnant und länger in der Länge

Viele Benutzer im Forum bemerkten, dass es so war, als ob ChatGPT vor ein paar Monaten auf eine frühere Version zurückgesetzt worden wäre. Diejenigen, die ChatGPT zur Erstellung von Code verwenden, eine Anwendung, die ich auch für ChatGPT nutze, bemerkten dies stärker ausgeprägt, da mit der Änderung mehr Syntaxfehler auftraten.

Der Gedanke, den man im Hinterkopf behalten sollte, ist, dass es ein sich bewegendes Ziel ist, wenn man versucht, von ChatGPT generierte Inhalte zu identifizieren, und dass es nicht immer besser wird. Als Programmierer wäre dies von Wert, wenn ich versuchen würde, von ChatGPT generierte Inhalte zu identifizieren.

Außerdem habe ich als Moderator der Website keine Insiderkenntnisse, da ich kein OpenAI-Mitarbeiter bin. Wenn Sie also von Tools hören, die Informationen einbetten, um solche ChatGPT-Inhalte identifizierbar zu machen, kann ich keine Informationen dazu liefern.


**Vervollständigung**

FYI,

Ich möchte einige wichtige Punkte bezüglich der Änderungen an ChatGPT im Laufe der Zeit klären. Als Kategorie-Moderator im OpenAI Discourse Forum beobachte ich aufmerksam das Feedback der Community bezüglich der Entwicklung von ChatGPT ([ref](https://community.openai.com/about)).

Anfänglich, nach seiner Veröffentlichung, zeigte ChatGPT über mehrere Monate hinweg eine stetige Verbesserung seiner Fähigkeiten. Die Vervollständigungen wurden kohärenter, stimmten besser mit den gegebenen Aufforderungen überein und wurden prägnanter und kürzer.

Es gab jedoch ein nachfolgendes Update, das zu einigen Rückschlägen führte. Benutzer stellten fest, dass die Vervollständigungen weniger kohärent, weniger auf die Aufforderungen abgestimmt und länger wurden. Dies führte zu Vergleichen mit einer früheren Version von ChatGPT, die ein Rückschritt zu sein schien. Insbesondere diejenigen, die ChatGPT zur Code-Generierung verwenden, erlebten eine stärkere Auswirkung, da sie mit der Änderung eine Zunahme von Syntaxfehlern feststellten.

Es ist wichtig zu verstehen, dass die Identifizierung von ChatGPT-generierten Inhalten zu einem sich bewegenden Ziel geworden ist. Während es sich zuvor stetig verbesserte, ist dies jetzt nicht immer der Fall. Als Programmierer halte ich diese Informationen für wertvoll, insbesondere wenn ich versuche, zwischen menschlich und KI-generierten Inhalten zu unterscheiden.

Ich muss klarstellen, dass ich trotz meiner Moderatorentätigkeit auf der Website kein Mitarbeiter von OpenAI bin und keine Insiderkenntnisse besitze. Daher kann ich keine Informationen über Tools oder Methoden liefern, die entwickelt wurden, um ChatGPT-Inhalte zu identifizieren.

Vielen Dank für Ihre Aufmerksamkeit, und ich hoffe, diese Klarstellung hilft beim Verständnis des aktuellen Entwicklungsstands von ChatGPT.

Mit freundlichen Grüßen,

[Ihr Name]

2 „Gefällt mir“

Zur Info

Habe gerade das hier gesehen OpenAI stellt sein KI-Erkennungstool leise ein und hier hier bestätigt

Ab dem 20. Juli 2023 ist der KI-Klassifikator aufgrund seiner geringen Genauigkeit nicht mehr verfügbar. Wir arbeiten daran, Feedback zu integrieren und erforschen derzeit effektivere Techniken zur Herkunftsbestimmung von Texten. Wir haben uns verpflichtet, Mechanismen zu entwickeln und einzusetzen, die es Benutzern ermöglichen zu verstehen, ob Audio- oder visuelle Inhalte von KI generiert wurden.

3 „Gefällt mir“

@EricGT Ausgezeichnete Punkte! Ja, es ist definitiv ein sich ständig änderndes Ziel. Ich mache mir keine Sorgen um ChatGPT im Besonderen. Die Katze ist aus dem Sack, sozusagen, und ich denke, es ist nur eine Frage der Zeit, bis jemand Skrupelloser die Technologie auf eine absichtlich schädliche Weise einsetzt. :cry:

2 „Gefällt mir“

Ja, dies (einschließlich Astroturf-Shilling ohne URLs) sowie für die URLs und Werbung, die sie zu ihren Profilen hinzufügen können – entweder für Direktantworten oder SEO. In anderen Fällen, um Konten für DM-Spam zu farmen. Dies sind meiner Meinung nach die Hauptfälle.