Sollten wir dem KI-Spam-Scanner sagen, dass er Beiträge mit Telefonnummern standardmäßig markieren soll?

,

Es scheint, dass eine ziemlich häufige Art von Spam nicht verwandte Kundensupport-Beiträge sind, wahrscheinlich um falsche Informationen in KI- oder Suchergebnissen erscheinen zu lassen? Diese enthalten oft Telefonnummern… sollten wir Telefonnummern in unserem KI-Spam-Prompt erwähnen? Wahrscheinlich ungewöhnlich, dass Leute diese in normalen Anwendungsfällen posten?

Vorhandener Standard-Prompt
Sie sind ein Spam-Erkennungssystem. Analysieren Sie den folgenden Beitragsinhalt und Kontext.

Berücksichtigen Sie den Beitragstyp sorgfältig:
- Für ANTWORT-Beiträge: Prüfen Sie, ob die Antwort relevant und thematisch zum Thread ist
- Für NEUE THEMEN-Beiträge: Prüfen Sie, ob es sich um ein legitimes Thema oder eine Spam-Werbung handelt

Ein Beitrag ist Spam, wenn er eines der folgenden Kriterien erfüllt:
- Enthält unerwünschte kommerzielle Inhalte oder Werbeaktionen
- Enthält verdächtige oder nicht verwandte externe Links
- Zeigt Muster von automatisiertem/Bot-Posting
- Enthält irrelevante Inhalte oder Werbung
- Bei Antworten: Völlig irrelevant für den Diskussionsfaden
- Verwendet übermäßige Schlüsselwörter oder repetitive Textmuster
- Zeigt verdächtige Formatierung oder Zeichenverwendung

Seien Sie besonders streng bei:
- Antworten, die die vorherige Konversation ignorieren
- Beiträge, die mehrere nicht verwandte externe Links enthalten
- Generische Antworten, die überall gepostet werden könnten

Seien Sie fair zu:
- Neuen Benutzern, die legitime Erstbeiträge leisten
- Nicht-Muttersprachlern, die sich ernsthaft bemühen, teilzunehmen
- Themenbezogenen Produktnennungen in angemessenen Kontexten

Standortspezifische Informationen:
- Website-Name: {site_title}
- Website-URL: {site_url}
- Website-Beschreibung: {site_description}
- Top 10 Kategorien der Website: {top_categories}

Formatieren Sie Ihre Antwort als JSON-Objekt mit einem einzigen Schlüssel namens "spam", der ein boolescher Wert ist, der angibt, ob ein Beitrag Spam oder legitim ist.
Ihre Ausgabe sollte im folgenden Format erfolgen:

{"spam": xx}

Wobei xx true ist, wenn der Beitrag Spam ist, oder false, wenn er legitim ist.
Antworten Sie nur mit gültigem JSON
7 „Gefällt mir“

Und ich denke, dass diese Telefonnummern oft verschiedene Verschleierungen von Telefonnummern enthalten, um Regex-Tests für Telefonnummern zu umgehen (ich weiß es nicht wirklich, wie, äh, Unicode oder irgendeinen anderen Unsinn?). Gibt es eine Möglichkeit, die KI dazu zu bringen, speziell nach diesen zu suchen?

2 „Gefällt mir“

Wir können einige Tests basierend auf dem Spam durchführen, den wir erhalten haben, aber ich vermute, dass die Aufforderung, nach Telefonnummern zu suchen, und die Angabe, dass sie auf mögliche Unicode-Verschleierungsversuche achten soll, ausreichen, um das meiste davon abzufangen?

Ich würde schätzen, dass sie Versuche, Nummern zu verstecken, besser erkennen kann als Regex, einfach weil sie flexibler ist.

1 „Gefällt mir“

Aus der Sicht von jemandem, der wenig über KI und nicht viel über Unicode weiß (im Verhältnis zu der Gruppe, von der ich hoffe, dass sie dem hier Aufmerksamkeit schenkt), klingt das großartig! :rofl:

Das würde ich auch denken. Da die KI Unicode zuverlässig identifizieren kann, gibt es keinen Grund, warum eine Telefonnummer Unicode enthalten sollte, daher sollte es ziemlich einfach sein. Früher, als man einfache bayesianische Klassifizierung verwendete, wäre eine Unicode-Telefonnummer ein sehr guter Spam-Indikator gewesen. Einige von ihnen enthielten auch ein seltsames Unicode-TM-Symbol und ein paar andere.

Und wenn es zuverlässig nach Dingen wie „Kundensupport“ bei einem Unternehmen suchen könnte, das nicht mit dem Forum verbunden ist, wäre das auch ein leichtes Ziel.

2 „Gefällt mir“

Vieles davon hängt davon ab, „wir brauchen Evals“ ab:

Wir haben:

Was wir hier tun müssen, ist:

  1. Füge eine große Menge Spam/Ham-Posts zur Eval-Suite hinzu (sagen wir 20-30 von jedem)
  2. Führe die Eval aus
  3. Korrigiere den Prompt
  4. Führe die Eval erneut aus

Andernfalls stochern wir im Dunkeln. cc @Falco

3 „Gefällt mir“