KI-Spam-Bot sagt, es sei kein Spam, aber das Scan-Protokoll sagt, es sei Spam

Ich habe das Discourse AI Spam-Handling in unserem Forum aktiviert. Ich habe Claude Sonnet 4 mit einem API-Schlüssel eingerichtet und die Persona „Spam-Detektor“ ausgewählt.

Ich habe einen Testbeitrag erstellt, der eindeutig Spam ist. Nichts Subtiles daran.

Er wurde nicht blockiert und sofort veröffentlicht.

Als ich dem Spam-Bot die URL des Beitrags über die Testfunktion gab, sagt das Ergebnis „Kein Spam“, aber im Scan-Protokoll steht: „SPAM – Dies ist eine klare Werbeanzeige…“

Meine Erwartung wäre, dass das Ergebnis SPAM wäre, passend zur Deklaration SPAM im Scan-Protokoll. Und dass dies dann den Beitrag zur Überprüfung durch Administratoren und Moderatoren aufreihen würde, zum Beispiel.

Könnte mir jemand sagen, was ich übersehe? Ich bin kein Experte – daher bin ich offen für jeden Rat!

Vielen Dank!

Welchen Vertrauensgrad hat der Benutzer, der gepostet hat? Der KI-Spam wird Beiträge von TL2±Benutzern überspringen.

4 „Gefällt mir“

Vielen Dank für Ihre Antwort!

Der Benutzer, den ich zum Posten verwendet habe, ist Neuer Benutzer mit Vertrauensstufe

Haben Sie eine Idee, warum der Beitrag durchgekommen ist?

Ich schätze Ihre Hilfe!

Dies behebt sowohl den Test als auch den Beitrag, der nicht markiert wird:

Die Eingabeaufforderung des Spam-Detektor-Persona-Systems verwirrte Claude-Modelle. Die Änderung macht die Anweisungen zum erwarteten Antwortformat expliziter.

4 „Gefällt mir“

Ah, fantastisch! Die Testfunktion funktioniert wie erwartet.

Ich frage mich, ob Sie mir vielleicht helfen könnten, warum die KI-Spam-Funktion immer noch verhindert, dass ein Spam-Beitrag sofort gepostet wird? Ich habe den Beitrag an den KI-Spam-Test gesendet und er wird als Spam markiert – aber er wurde gepostet.

Fehlt mir vielleicht ein verbindendes Teil? Vielen Dank für Ihre Hilfe!

1 „Gefällt mir“

Sind Sie ein Administrator oder ein höherer TL? Wenn ja, dann würden Sie vielleicht stattdessen einen Testbenutzer mit niedriger TL verwenden.

1 „Gefällt mir“

Wir überspringen einen Beitrag, wenn:

  • Das Vertrauensniveau des Autors größer als TL1 ist.
  • Der Beitrag zu einem privaten Nachrichtenthema gehört.
  • Der Autor ein Bot ist.
  • Der Autor zum Personal gehört (Moderator/Administrator).
  • Der Autor bereits mehr als 3 Beiträge in regulären (nicht-PM) Themen verfasst hat.
  • Der Beitrag bereits 3 oder mehr Mal gescannt wurde.

Wenn der Test funktioniert, bin ich zuversichtlich, dass es an einem der oben genannten Punkte liegt.

1 „Gefällt mir“

Ahhh ja! Vielen Dank für Ihre geduldigen und hilfreichen Antworten!

Ich habe mit meinem Admin-Benutzer anstelle meines Benutzers mit Vertrauensstufe 0 gepostet. :woman_facepalming:

Es funktioniert! Ich liebe es, wie der Benutzer discourse_ai_spam als der Benutzer angezeigt wird, der den Beitrag markiert und ausgeblendet hat.

Vielen Dank nochmals für Ihre schnelle und großzügige Hilfe dabei!

3 „Gefällt mir“