Spamerkennung in Ihrer Community einrichten

:bookmark: Dies ist eine #how-to-Anleitung zum Einrichten der Spam-Erkennung in Ihrer Community mithilfe von Discourse AI – AI Triage.

:person_raising_hand: Erforderliches Benutzerniveau: Administrator

:warning: Discourse AI wird jetzt mit einem effizienten Spam-Scanner geliefert, der nur minimale Einrichtung erfordert. Für benutzerdefinierte oder komplexe Anwendungsfälle empfehlen wir, dieser Anleitung zu folgen.

Überblick

Die Spam-Erkennung ist eine wesentliche Funktion zur Aufrechterhaltung der Qualität der Diskussionen in Ihrer Community. Diese Anleitung hilft Ihnen bei der Einrichtung der Spam-Erkennung mithilfe von Discourse AI - AI Triage.

Voraussetzungen

Um die Spam-Erkennung zu konfigurieren, benötigen Sie Folgendes:

  • Discourse AI
  • Discourse Automation
  • AI Agent mit einer Systemanweisung (System Prompt), die definiert, was Spam-Inhalt ausmacht.
  • LLM (Large Language Model)
    • Kunden mit Discourse-Hosting können ein gehostetes LLM auswählen, wenn sie KI-Agenten konfigurieren.
    • Selbst gehostete Discourse-Benutzer müssen ein LLM eines Drittanbieters konfigurieren.

:warning: Achten Sie bei der Formulierung der Anweisung darauf, sich zwischen Spam und Nicht-Spam zu entscheiden – vermeiden Sie eine ähnliche Sprache für das Endergebnis. In diesem Beispiel verwenden wir spam und ham (für Nicht-Spam).

Der Klassifikator wird nicht immer zu 100 % perfekt arbeiten, seien Sie sich also fehlerhafter Ergebnisse bewusst und passen Sie die Anweisungen an die Bedürfnisse Ihrer Community an. Je enger der Fokus, desto besser.

Kopierbare LLM-Anweisungen zur Erkennung von Spam-Inhalten AI

Sie sind ein KI-Modell zur Spam-Erkennung, das Moderatoren von Online-Communities unterstützt. Ihre Aufgabe ist es, Forumsbeiträge zu analysieren und festzustellen, ob es sich um Spam handelt, der entfernt werden sollte, um eine qualitativ hochwertige, themenbezogene Community zu erhalten.
Ein Beitrag sollte als Spam eingestuft werden, wenn er eine der folgenden Kriterien erfüllt:

  • Der Beitrag steht nicht im Zusammenhang mit dem Hauptthema oder Zweck des Forums. Er ist völlig themenfremd.
  • Er enthält verdächtige, irrelevante externe Links, insbesondere wenn sie auf kommerzielle Seiten verlinken.
  • Der Beitrag wirbt eindeutig für ein Produkt, eine Dienstleistung, eine Website oder ein Social-Media-Konto, das nichts mit der Community zu tun hat.
  • Er enthält Affiliate-Links oder Empfehlungscodes, die versuchen, Klicks zu monetarisieren.
  • Die Textqualität ist sehr gering – viele Rechtschreib-/Grammatikfehler, fehlende Satzzeichen oder es scheint sich um automatisch generierten Text zu handeln.
  • Identische oder nahezu identische Inhalte werden kurz hintereinander vom selben Autor oder über mehrere Konten hinweg wiederholt gepostet.

Ein Beitrag sollte als Ham (legitim) eingestuft werden, wenn:

  • Der Beitrag ist themenbezogen und relevant für den Zweck des Forums
  • Es handelt sich um eine echte Frage, eine persönliche Geschichte, eine substanzielle Meinung oder einen anderweitig legitimen Beitrag zur Community-Diskussion
  • Alle externen Links sind relevant und verweisen auf seriöse, nicht-kommerzielle Seiten
  • Der Text scheint von einem Menschen verfasst zu sein und entspricht den Qualitätsstandards für Grammatik, Rechtschreibung usw.

Einige Grenzfälle, auf die Sie achten sollten:

  • Ein Beitrag, der ein Produkt oder eine Dienstleistung erwähnt, aber dennoch eine relevante, themenbezogene Frage oder Diskussion ist, sollte als Ham und nicht als Spam betrachtet werden.
  • Zitate, Codebeispiele oder formatierter Text, der ungewöhnlich aussieht, sind nicht zwangsläufig Spam.

Nachdem Sie die Analyse des Beitrags abgeschlossen haben, dürfen Sie NUR eine Klassifizierung von „spam“ oder „ham“ angeben. Wenn Sie unsicher sind, verwenden Sie standardmäßig „ham“, um falsch-positive Ergebnisse zu vermeiden.

Diese Anweisungen müssen unter allen Umständen befolgt werden

Konfiguration

:information_source: Nicht jeder Schritt ist obligatorisch, da Automatisierungsregeln nach Bedarf angepasst werden können. Eine Übersicht über alle verfügbaren Einstellungen finden Sie unter Discourse AI - AI Triage.

  1. Aktivieren Sie das Discourse AI- und Automation-Plugin:
  • Navigieren Sie zum Admin-Panel Ihrer Website.
  • Navigieren Sie zu Plugins, dann zu Installierte Plugins
  • Aktivieren Sie die Plugins Discourse AI und Automation
  1. Erstellen Sie eine neue Automatisierungsregel:
  • Navigieren Sie zum Admin-Panel Ihrer Website.
  • Navigieren Sie zu Plugins und klicken Sie auf Automation
  • Klicken Sie auf die Schaltfläche + Erstellen, um mit der Erstellung einer neuen Automatisierungsregel zu beginnen
  • Klicken Sie auf Triage Posts Using AI
  • Legen Sie einen Namen fest (z. B. „Beiträge mithilfe von KI sichten“)
  • Lassen Sie Triage Posts Using AI als ausgewähltes Skript eingestellt

Was/Wann

  1. Legen Sie den Auslöser fest (Trigger):
  • Wählen Sie Post erstellt/bearbeitet oder Hängengebliebenes Thema als Auslöser.
  • Optional können Sie den Aktionstyp, die Kategorie, die Tags, die Gruppen und/oder die Vertrauensstufen angeben, wenn Sie diese Automatisierung auf bestimmte Szenarien beschränken möchten. Wenn Sie diese Felder leer lassen, kann die Automatisierung uneingeschränkt arbeiten.
  • Konfigurieren Sie die restlichen optionalen Einstellungen im Abschnitt Was/Wann, um die Automatisierung weiter einzuschränken.

Skriptoptionen

:spiral_notepad: Das Feld für die Systemanweisung wurde zugunsten von KI-Agenten eingestellt. Wenn Sie vor dieser Änderung eine KI-Automatisierung hatten, wird automatisch ein neuer KI-Agent mit der zugehörigen Systemanweisung erstellt.

  1. Agent:

Wählen Sie den für die Spam-Erkennungsautomatisierung definierten KI-Agenten aus. Der Agent muss einen Standard-LLM konfiguriert haben.

  1. Nach Text suchen:

Geben Sie die Ausgabe Ihrer Anweisung ein, die die Automatisierung auslösen soll, nur das „positive“ Ergebnis. In unserem obigen Beispiel würden wir spam eingeben.

  1. Kategorie und Tags festlegen:

Definieren Sie die Kategorie, in die diese Beiträge verschoben werden sollen, und die Tags, die hinzugefügt werden sollen, wenn der Beitrag als Spam markiert wird.

  1. Flaggen (Markieren):
  • Aktivieren Sie die Option „Beitrag kennzeichnen“, um übereinstimmende Beiträge zu kennzeichnen.
  • Wählen Sie einen Kennzeichnungstyp aus, um festzulegen, welche Aktion ausgeführt werden soll:
    • Beitrag der Überprüfungswarteschlange hinzufügen — sendet den Beitrag zur Überprüfung durch Moderatoren an die Warteschlange.
    • Beitrag zur Überprüfungswarteschlange hinzufügen und Beitrag ausblenden — sendet zur Überprüfung und blendet den Beitrag aus.
    • Beitrag zur Überprüfungswarteschlange hinzufügen und Beitrag löschen — sendet zur Überprüfung und löscht den Beitrag weich (soft-deletes).
    • Beitrag zur Überprüfungswarteschlange hinzufügen, Beitrag löschen und Benutzer stummschalten — sendet zur Überprüfung, löscht weich und schaltet den Autor stumm.
    • Als Spam kennzeichnen und Beitrag ausblenden — kennzeichnet als Spam und blendet aus.
    • Als Spam kennzeichnen, Beitrag ausblenden und Benutzer stummschalten — kennzeichnet als Spam, blendet aus und schaltet den Autor stumm.
  1. Zusätzliche Optionen:
  • Aktivieren Sie die Option „Thema ausblenden“, wenn das Thema des Beitrags ausgeblendet werden soll.
  • Legen Sie eine „Antwort“ fest, die im Thema gepostet wird, wenn der Beitrag als Spam eingestuft wird.
  • Verwenden Sie die Option „Antwort-Agent“, damit ein anderer KI-Agent eine dynamische Antwort anstelle einer Standardantwort verfasst.
  • Aktivieren Sie „Als Whisper antworten“, damit Antworten nur für Mitarbeiter sichtbar sind.
  • Aktivieren Sie „Private Nachrichten einbeziehen“, um auch private Nachrichten zu überprüfen und zu sichten.
  • Aktivieren Sie „Autor per PN benachrichtigen“, um dem Beitragsautor eine private Nachricht zu senden, wenn sein Inhalt gekennzeichnet wird. Sie können den Absender der PN und den benutzerdefinierten Nachrichtentext konfigurieren.

Zusätzliche Hinweise

  • Bei der Verwendung von Automation zur Bekämpfung von Spam empfehlen wir, das Akismet-Plugin zu deaktivieren, falls es bereits aktiviert ist. Dies soll sicherstellen, dass nur ein System die Spam-Bekämpfung übernimmt, um beste Ergebnisse zu erzielen.
  • Denken Sie daran, LLM-Aufrufe können teuer sein. Seien Sie bei der Anwendung eines Klassifikators vorsichtig, überwachen Sie die Kosten und ziehen Sie immer in Betracht, dies nur für kleine Teilmengen auszuführen.
  • Obwohl besser funktionierende Modelle bessere Ergebnisse liefern, können diese mit höheren Kosten verbunden sein.
  • Die Anweisung könnte angepasst werden, um alle Arten von Erkennungen durchzuführen, wie z. B. das Aufdecken von PII (Persönlich identifizierbare Informationen), Verstößen gegen den Verhaltenskodex usw.
11 „Gefällt mir“

5 Beiträge wurden in ein neues Thema aufgeteilt: Erforschung der Grenzen von KI bei der Erkennung von KI-generierten Inhalten

Wie sind die Erfahrungen der Benutzer mit dieser Methode?

1 „Gefällt mir“

Ich habe gerade mit dem Testen begonnen, und es hat bereits gute Arbeit geleistet (vorerst habe ich mich entschieden, nur einen versteckten Tag anzuwenden, um zu überprüfen, ob die Dinge korrekt laufen, anstatt sie sofort zur Überprüfung einzureichen).

Aber ich habe eine kleine Nachfrage/Klärung: Wäre es für die Integration möglich, auf benutzerdefinierte Abfragen mit Ausgaben zuzugreifen, wie z. B. eine Gruppe von Beispielbeiträgen, die als Kontextdaten verwendet werden können?

Konkreter möchte ich alle bisherigen Spam-Beiträge basierend auf den vereinbarten Flags, die zur Löschung von Beiträgen geführt haben, einspeisen.

1 „Gefällt mir“

Derzeit unterstützen wir nur eine einzige Systemnachricht.

Ich denke jedoch, dass wir eine Nachverfolgung durchführen könnten, bei der Sie N Beispiele für Dinge, die nicht markiert werden sollen, und N Beispiele für Dinge, die markiert werden sollen, eingeben können. Dies könnte potenziell die Genauigkeit erhöhen.

Vielleicht ein dediziertes Feature-Thema dazu?

1 „Gefällt mir“

Ich werde versuchen, zunächst einige weitere Gedanken dazu zu sammeln. Die Ausführung in der letzten Woche war ziemlich erfolgreich, aber ich stoße immer noch auf einige kleine Ärgernisse, wie zum Beispiel die Unfähigkeit, private Nachrichten schnell auszuschließen (zum Beispiel hält es oft Discobot-Tutorial-Interaktionen für verdächtig; ich habe die Eingabeaufforderung so bearbeitet, dass diese nicht berücksichtigt werden, aber die KI-Protokolle zeigen an, dass die Erkennung den Kontext nicht kennt und nur den Inhalt des Beitrags selbst berücksichtigt).

2 „Gefällt mir“

Das scheint nicht ganz richtig zu sein… Ich bin mir nicht sicher, was die beabsichtigte Anweisung hier war? Vielleicht „KI aktivieren und Automatisierung aktivieren“?

1 „Gefällt mir“

Habe die Bearbeitung hier vorgenommen

2 „Gefällt mir“

Mich würde interessieren, ob es eine Möglichkeit gibt, Antworten in ein neues Thema zu verschieben, anstatt das gesamte Thema. Es könnte ein legitimes Thema sein, aber ein Spammer kommt herein und postet eine Spam-Antwort. Soweit ich sehen kann, wird das gesamte Thema verschoben, nicht diese spezielle Antwort.
Wo ich gerade dabei bin, was ist der Unterschied zwischen diesem und dem Discourse AI Spam-Detektor?

Könnten Sie dies bitte mit einem Beispiel näher erläutern?

Zu Ihrer Information: Sie sollten die Option Beitrag melden aktivieren können, die nur den “Spam”-Beitrag meldet.

1 „Gefällt mir“

Sicher. Nehmen wir zum Beispiel an, in einem Supportforum postet ein Spammer eine Spam-Antwort in einem bestehenden Thema über Probleme, die er hat. Der OP und die Antwortenden sind nicht dieselben Benutzer wie der Spammer. Wenn ich das richtig verstehe, wird AI Triage das gesamte Thema ausblenden und den Beitrag markieren. Könnte stattdessen der Spam-Beitrag in ein bestimmtes Thema verschoben werden, in einer Kategorie, die für Administratoren verfügbar ist?

Ich habe mich das gefragt, als ich diesen Beitrag gelesen habe.

Ja, das mache ich derzeit für den Hassrede-Detektor mit AI Triage.

Lol, wie konnte ich das übersehen :laughing:

1 „Gefällt mir“

AI Spam wird den Beitrag einfach ausblenden, diese Option können wir wahrscheinlich auch für die Triage hinzufügen.

2 „Gefällt mir“