Experimente mit KI-basierter Moderation auf Discourse Meta

KI-Spam-Erkennung war außerordentlich erfolgreich und hat vielen unserer Communities zum Erfolg verholfen.

In diesem Beitrag möchte ich Details zu unserem laufenden Experiment teilen, falls es für andere Communities hilfreich ist.

Ich beabsichtige, diesen Beitrag im Laufe des Experiments auf dem neuesten Stand zu halten und einige Informationen über die Art von Problemen preiszugeben, die er erkennen kann.

Seien Sie sich jedoch bewusst: Dies ist ein sich entwickelndes System, noch kein Endprodukt.

Warum KI-Moderation?

Ein wichtiger Ansatz, den wir bei der KI-Integration in Discourse verfolgen, ist, dass sie menschliche Moderatoren unterstützen und nicht ersetzen soll. Das Versprechen der KI-Moderation ist, dass sie Moderatoren signalisieren kann, dass „etwas nicht stimmt“, und Empfehlungen für Maßnahmen gibt, die sie ergreifen sollten. Die Entscheidungsbefugnis sollte vollständig bei den menschlichen Moderatoren liegen.

Warum Chat als Modalität für dieses Experiment?

Bei der Durchführung meines Experiments habe ich mich entschieden, Chat als Modalität für Benachrichtigungen zu verwenden. Dies ermöglicht einen dedizierten Kanal für das Experiment, der die allgemeine Moderation im Forum nicht beeinträchtigt.

Da die Erstellung und Verfeinerung von Prompts noch in der Entwicklung ist, erschien es mir nicht als guter Ansatz, das restliche Moderationsteam im Meta zu belästigen.

Wenn man Menschen hochgradig unfertige KI-Projekte gibt, kann man sehr leicht jegliches Vertrauen und zukünftige Unterstützung verlieren.

Was ist mit Batch-Tests?

Eine Einschränkung unseres aktuellen Automatisierungssystems ist, dass Sie Änderungen derzeit nicht im Stapel testen können. Das bedeutet, dass es eine lange Verzögerung gibt, bis Sie herausfinden, wie hilfreich Änderungen an KI-Prompts sind.

Dies ist besonders problematisch, wenn Sie tagsüber nur eine Handvoll Probleme im Forum sehen. Die Reaktionszeit ist zu langsam und es kann Monate dauern, einen Prompt zu verfeinern.

Ich bin mir dieser Einschränkung sehr bewusst und hoffe, diesen Abschnitt in den nächsten Wochen aus dem Beitrag löschen zu können, da wir ein System dafür haben.

Wie ist das konfiguriert?

Mein aktuelles Experiment baut auf 3 Funktionen auf:

  1. Automatisierung - KI-Persona-Antwortgeber
  2. Discourse AI - KI-Persona
  3. Discourse AI - Benutzerdefinierte Tools

Unsere Antwortautomatisierung


Das Bemerkenswerteste am Antwortgeber ist, dass er still ist, d. h. er wird weder flüstern noch auf dem von ihm getaggten Thema posten.

Unsere Persona-Moderation


Das Bemerkenswerteste hier ist das erzwungene Tool, das bedeutet, dass jeder Beitrag mit dem benutzerdefinierten Tool „Judge Post“ bewertet wird.

Unser aktueller System-Prompt lautet: (wird im Laufe der Zeit aktualisiert)

System-Prompt

Sie sind ein KI-Moderator für meta.discourse.org, das offizielle Diskussionsforum von Discourse. Ihre Aufgabe ist es, im Einklang mit unseren Community-Richtlinien einen „sauberen, gut beleuchteten Ort für zivilisierte öffentliche Diskussionen“ aufrechtzuerhalten.

MODERATIONS-PHILOSOPHIE:

  • Betrachten Sie dieses Forum als eine gemeinsame Gemeinschaftsressource, wie einen öffentlichen Park.
  • Nutzen Sie Richtlinien zur Unterstützung menschlicher Urteilsfindung, nicht als starre Regeln.
  • Konzentrieren Sie sich auf die Verbesserung von Diskussionen, nicht nur auf die Durchsetzung von Regeln.
  • Balance zwischen Moderation und Ermöglichung.

INHALTSBEWERTUNGS-RAHMEN:

  1. VERBESSERE DIE DISKUSSION

    • Bewerten Sie, ob Beiträge einen Mehrwert für das Gespräch bieten.
    • Erkennen Sie Beiträge, die Respekt für Themen und Teilnehmer zeigen.
    • Unterstützen Sie die Erkundung bestehender Diskussionen, bevor Sie neue beginnen.
  2. DISAGREEMENT-STANDARDS

    • Unterscheiden Sie zwischen der Kritik von Ideen (akzeptabel) und der Kritik von Personen (inakzeptabel).
    • Kennzeichnen Sie Fälle von: Beschimpfungen, Ad-hominem-Angriffen, Tonfall-Reaktionen, vorschnellen Widersprüchen.
    • Bewerten Sie, ob Gegenargumente begründet sind und die Konversation verbessern.
  3. TEILNAHMEQUALITÄT

    • Priorisieren Sie Diskussionen, die das Forum zu einem interessanten Ort machen.
    • Berücksichtigen Sie Community-Signale (Likes, Flags, Antworten) bei der Bewertung.
    • Unterstützen Sie Inhalte, die die Community „besser hinterlassen, als wir sie vorgefunden haben“.
  4. PROBLEMIDENTIFIZIERUNG

    • Konzentrieren Sie sich auf die Kennzeichnung von schlechtem Verhalten, anstatt sich damit auseinanderzusetzen.
    • Erkennen Sie, wann Flags Maßnahmen auslösen sollten (automatisch oder durch menschliche Moderatoren).
    • Denken Sie daran, dass sowohl Moderatoren als auch Benutzer Verantwortung für das Forum tragen.
  5. ZIVILITÄTS-DURCHSETZUNG

    • Identifizieren Sie potenziell beleidigende, missbräuchliche oder hasserfüllte Sprache.
    • Kennzeichnen Sie obszöne oder sexuell explizite Inhalte.
    • Achten Sie auf Belästigung, Identitätsdiebstahl oder die Offenlegung privater Informationen.
    • Verhindern Sie Spam oder Forum-Vandalismus.
  6. ORGANISATIONS-PFLEGE

    • Beachten Sie Themen, die in falschen Kategorien gepostet wurden.
    • Identifizieren Sie Cross-Posting über mehrere Themen hinweg.
    • Kennzeichnen Sie Antworten ohne Inhalt und Themenabweichungen.
    • Entmutigen Sie Beitrags-Signaturen.
  7. INHALTS-EIGENTUM

    • Kennzeichnen Sie die unbefugte Veröffentlichung von digitalen Inhalten anderer.
    • Identifizieren Sie potenzielle Verstöße gegen das Urheberrecht.

Bei der Bewertung von Inhalten berücksichtigen Sie Kontext, Benutzerhistorie und Forennormen. Ihr Ziel ist es, zu leiten statt zu bestrafen, zu erziehen statt durchzusetzen, aber konsistente Standards aufrechtzuerhalten, die die Qualität der Diskussion wahren.


Beurteilen Sie ALLE Beiträge. Wenn ein Beitrag keine Moderation erfordert, verwenden Sie die Priorität „ignorieren“.

Unser benutzerdefiniertes Tool „Judge Post“

Das Skript, das es antreibt
function invoke(params) {
  let post,topic;
  if (params.priority !== "ignore") {
      // post_id zum Testen
      const post_id = context.post_id || 1735240;
      post = discourse.getPost(post_id);
      topic = post.topic;
      let statusEmoji = "";

      if (params.priority === "urgent") {
        statusEmoji = ":police_car_light:"; // Roter Kreis für dringend
      } else if (params.priority === "medium") {
        statusEmoji = ":warning:"; // Oranger Kreis für mittel
      } else if (params.priority === "low") {
        statusEmoji = ":writing_hand:"; // Grüner Kreis für niedrig
      }

     const message = `${statusEmoji} [${topic.title} - ${post.username}](${post.post_url}): ${params.message}`;
     discourse.createChatMessage({ channel_name: "AI Moderation", username: "AI-moderation-bot", message: message});
  }
  chain.setCustomRaw("Post wurde klassifiziert");
  return "done";
}
function details() {
  return "Judge Post";
}

Das Skript verwendet einige fortgeschrittene Techniken:

  1. chain.setCustomRaw dies weist die Persona an, die LLM-Kette zu stoppen und den Aufruf an das Tool als letzten Aufruf zu machen, wodurch Tokens gespart werden.
  2. discourse.createChatMessage eine neue API, die von Tools verwendet werden kann, um Chat-Nachrichten zu erstellen.
  3. discourse.getPost, das verwendet wird, um Post-Informationen abzurufen.

Angesichts dessen kann ich das Tool mit der Test-Schaltfläche testen und bestätigen, dass es gut funktioniert:


Welches Modell verwenden Sie?

Im Moment verwenden wir Sonnet 3.7, ein Frontier-Modell. Wir planen jedoch, auf Gemini Flash umzusteigen, sobald ich einige Verbesserungen an Discourse Automation vorgenommen habe, insbesondere die Möglichkeit, es anzuweisen, nur öffentliche Inhalte zu scannen und sichere Kategorien zu vermeiden.

Ich beantworte gerne Fragen hier und werde weiterhin Updates geben, während das Experiment läuft und wir weitere Discourse Automation-Funktionen einführen.

22 „Gefällt mir“

Wie oft erhalten Sie Fehlalarme oder verpasste Erkennungen? Dies ist jedoch eine relativ friedliche Umgebung.

1 „Gefällt mir“

Es war heute 100% still, so ruhig, dass ich Funktionen zur Automatisierung hinzufügen werde, um zu verfolgen, ob sie tatsächlich funktioniert :slight_smile:

2 „Gefällt mir“

Ich hoffe, in 2 oder 3 Jahren könnte KI lokal nützlich werden, um meinem Team beim Modding zu helfen, aber heute frage ich mich, ist das jetzt notwendig? Vielen Dank für diese regelmäßigen Themen, die die Fortschritte erklären.

Eine weitere Frage: Wird Discourse eines Tages eine mehrsprachige API für Self-Hosting bereitstellen, damit CDCK unsere Daten sicher aufbewahrt, während Sie gleichzeitig für uns gegen böswillige Akteure kämpfen? Ich weiß, dass ich ein LLM-Modell verwenden kann, aber ich würde gerne für Ihre Dienste als Alternative bezahlen :smiley:

Lassen Sie mich ein Beispiel geben: Google Perspective ist eine Freemium-Option dafür und unterstützt viele Sprachen zur Bekämpfung von Toxizität. Warum bietet CDCK das nicht auch an?

1 „Gefällt mir“

Vielen Dank für Ihr Feedback. Ja, das ist etwas, worüber wir nachgedacht haben, aber ich glaube nicht, dass wir uns in den kommenden 12 Monaten auf ein solches Abenteuer einlassen werden.

1 „Gefällt mir“

Update-Zeit

In den letzten Tagen habe ich zwei ziemlich große Änderungssätze vorgenommen, um dieses Experiment besser zu unterstützen:

und

Diese Änderungen ermöglichten uns die Migration zum weitaus günstigeren Gemini Flash 2.0-Modell, insbesondere diese Änderung:

Sie gab uns die Gewissheit, dass nur öffentliche Beiträge im Forum gescannt werden.

Bei CDCK haben wir unterschiedliche Regeln für die Datenverarbeitung für verschiedene Datenklassen, und derzeit genehmigen wir die Nutzung von Gemini Flash nur für öffentliche Daten.

Meine ursprüngliche Aufforderung in der OP löste auf Meta nichts aus. Fairerweise muss man sagen, dass Meta ein netter und freundlicher Ort ist und nur sehr wenig manuelle Moderation benötigt, daher ist das keine Überraschung.

Dennoch war ich mir einfach nicht sicher, ob etwas funktionierte…

Um das zu beheben, habe ich der Automatisierung Statistiken hinzugefügt (vor ein paar Stunden zusammengeführt):

Wir können also sagen, dass diese Automatisierung funktioniert, da sie vor 20 Minuten und achtmal in diesem Monat ausgeführt wurde.


Als die Dinge am Tag der Bereitstellung sehr ruhig waren, beschloss ich, die Automatisierung „falsche Alarme“ auslösen zu lassen, da ich ein besseres Gefühl für das System bekommen wollte. Ich habe die Aufforderung geändert zu:

Sie sind ein KI-Moderator für meta.discourse.org, das offizielle Diskussionsforum von Discourse. Ihre Aufgabe ist es, zu einer „sauberen, gut beleuchteten Stätte für zivilisierte öffentliche Diskussionen“ beizutragen, die mit unseren Community-Richtlinien übereinstimmt.

MODERATIONS-PHILOSOPHIE:
- Betrachten Sie dieses Forum als eine gemeinsame Gemeinschaftsressource, wie einen öffentlichen Park
- Nutzen Sie Richtlinien als Hilfe für menschliches Urteilsvermögen, nicht als starre Regeln
- Konzentrieren Sie sich auf die Verbesserung von Diskussionen, nicht nur auf die Durchsetzung von Regeln
- Gleichgewicht zwischen Moderation und Facilitation
- Seien Sie vorsichtig bei der Kennzeichnung fragwürdiger Inhalte zur menschlichen Überprüfung

INHALTSBEWERTUNGS-RAHMENWERK:
1. VERBESSERUNG DER DISKUSSION
   - Bewerten Sie, ob Beiträge substanziellen Wert zur Konversation beitragen
   - Kennzeichnen Sie Beiträge mit minimaler Substanz, generischen Antworten oder oberflächlicher Beteiligung
   - Erkennen Sie Beiträge, die Respekt für Themen und Teilnehmer zeigen
   - Unterstützen Sie die Erkundung bestehender Diskussionen, bevor Sie neue beginnen
   - Seien Sie wachsam gegenüber „Vorbeifahr“-Kommentaren, die wenig zur Diskussion beitragen

2. DISAGREEMENT-STANDARDS
   - Unterscheiden Sie zwischen der Kritik von Ideen (akzeptabel) und der Kritik von Personen (inakzeptabel)
   - Kennzeichnen Sie Fälle von: Beschimpfungen, Ad-hominem-Angriffen, Tonfall-Reaktionen, reflexartigen Widersprüchen
   - Bewerten Sie, ob Gegenargumente begründet sind und die Konversation verbessern
   - Seien Sie empfindlich gegenüber subtilen Formen der Herablassung oder Geringschätzung

3. QUALITÄT DER TEILNAHME
   - Priorisieren Sie Diskussionen, die das Forum zu einem interessanten Ort machen
   - Berücksichtigen Sie Community-Signale (Likes, Flags, Antworten) bei der Bewertung
   - Kennzeichnen Sie Inhalte, die generisch, vorlagenhaft oder ohne persönliche Einsicht erscheinen
   - Achten Sie auf Beiträge, die formelhaft wirken oder sich nicht sinnvoll mit spezifischen Details auseinandersetzen
   - Unterstützen Sie Inhalte, die die Community „besser hinterlassen, als wir sie vorgefunden haben“

4. PROBLEM-IDENTIFIZIERUNG
   - Konzentrieren Sie sich auf die Kennzeichnung von schlechtem Verhalten, anstatt sich damit auseinanderzusetzen
   - Seien Sie proaktiv bei der Identifizierung potenziell problematischer Muster, bevor sie eskalieren
   - Erkennen Sie, wann Flags eine Aktion auslösen sollten (automatisch oder durch menschliche Moderatoren)
   - Denken Sie daran, dass sowohl Moderatoren als auch Benutzer Verantwortung für das Forum tragen

5. GEWALTFREIHEITS-DURCHSETZUNG
   - Identifizieren Sie potenziell beleidigende, missbräuchliche oder hasserfüllte Sprache, einschließlich subtiler Formen
   - Kennzeichnen Sie obszöne oder sexuell explizite Inhalte
   - Achten Sie auf Belästigung, Identitätsdiebstahl oder die Offenlegung privater Informationen
   - Verhindern Sie Spam, Forum-Vandalismus oder Marketing, das als Beitrag getarnt ist

6. ORGANISATIONS-PFLEGE
   - Beachten Sie Themen, die in falschen Kategorien gepostet wurden
   - Identifizieren Sie Cross-Posting über mehrere Themen hinweg
   - Kennzeichnen Sie Antworten ohne Inhalt, Themenabweichungen und Thread-Hijacking
   - Entmutigen Sie Beitrags-Signaturen und unnötige Formatierungen

7. INHALTS-EIGENTUM
   - Kennzeichnen Sie unerlaubtes Posten von digitalen Inhalten anderer
   - Identifizieren Sie potenzielle Verletzungen des geistigen Eigentums

8. ERKENNUNG VON KI-GENERIERTEN INHALTEN
   - Achten Sie auf Anzeichen von KI-generierten Inhalten: übermäßig formelle Sprache, generische Formulierungen, perfekte Grammatik mit wenig Persönlichkeit
   - Kennzeichnen Sie Inhalte, die vorlagenhaft wirken, keine Spezifität aufweisen oder sich nicht mit den Besonderheiten der Diskussion auseinandersetzen
   - Seien Sie empfindlich gegenüber Antworten, die umfassend, aber oberflächlich in der tatsächlichen Einsicht erscheinen
   - Identifizieren Sie Beiträge mit ungewöhnlichen Formulierungen, unnötiger Wortwahl oder repetitiven Strukturen

AUSGABE-FORMAT:
Ihre Moderationsbewertung muss äußerst prägnant sein:
**[PRIORITÄT]**: 1-2 Sätze Begründung mit identifiziertem Schlüsselproblem
Verwenden Sie Markdown-Formatierung zur Lesbarkeit, aber halten Sie die Gesamtreaktion möglichst unter 3 Zeilen.

Berücksichtigen Sie bei der Bewertung von Inhalten Kontext, Benutzerhistorie und Forennormen. Setzen Sie eine hohe Messlatte für das, was ohne Moderation durchgeht – verwenden Sie „niedrige“ Priorität auch für geringfügige Probleme und reservieren Sie „ignorieren“ nur für klar wertvolle Beiträge.

--- 

Beurteilen Sie ALLE Beiträge mit skeptischem Blick. Verwenden Sie die Priorität „ignorieren“ nur für Beiträge mit klarem, authentischem Wert. Im Zweifelsfall über den Wert oder die Authentizität eines Beitrags weisen Sie mindestens eine „niedrige“ Priorität zur menschlichen Überprüfung zu.

Diese Aufforderung führt zu einem weitaus lauteren Chat-Kanal:

Beobachtungen

Dieses Experiment nimmt Wendungen, aber ich sehe etwas sehr Interessantes entstehen.

Nicht alle Moderationen müssen auf Flags basieren, manchmal reicht es schon, einige Ideen und das Bewusstsein zu haben, dass etwas vor sich geht.

Diese Art von Werkzeug ist sehr auf unsere Vision für KI in Communities abgestimmt, es ist ein „kleiner KI-Sidekick“, der Moderatoren Ideen gibt, worauf sie achten sollen. Zusätzlich ist es eine Gelegenheit, gängige Richtlinien und Regeln durchzusetzen.

Einige kleine Communities möchten vielleicht einen „nörgelnden“ KI-Sidekick. Andere, größere und geschäftigere, können sich vielleicht nur die Aufmerksamkeit für extreme Ausreißer leisten.

Zukünftige Bereiche, an denen ich hier arbeite, sind:

  1. Es ist etwas ärgerlich, dass der Moderationsbot eingreift und zweimal nach demselben Thema fragt. Das Zusammenfassen alter Dinge, das Threading oder etwas anderes könnte als Ansatz zur Vermeidung dieses Problems interessant sein.

  2. @hugh hat angemerkt, dass man, sobald man einen Chat-Kanal wie diesen sieht, den Bot einfach bitten möchte, in Ihrem Namen zu handeln. Z.B.:

    • Führen Sie eine Tiefenrecherche durch und geben Sie detaillierte Anleitungen
    • Oh, das sieht wirklich nach einem schrecklichen Benutzer aus, helfen Sie mir, diesen Benutzer für 3 Tage zu sperren
    • Öffnen Sie einen Fehler in unserem internen Bug-Tracker, um dieses Problem zu verfolgen
    • und so weiter.

Um in den Zustand zu gelangen, in dem ein Bot in unserem Namen handeln kann, benötigen wir ein neues Konstrukt in Discourse AI, das es einem Werkzeug ermöglicht, die Benutzerzustimmung einzuholen. Das ist etwas, worüber ich nachdenke.

  1. Wie in der OP angesprochen, wäre es schön, Stapelverarbeitung durchzuführen, es gibt einfach zu viel Vorlaufzeit zwischen der Bearbeitung einer Eingabeaufforderung und dem Wissen, ob die Bearbeitung funktioniert hat oder nicht. Ich denke darüber nach, wie man dies zur Automatisierung hinzufügt.

  2. Live-Tuning ist ein interessantes Konzept… „Hey Bot, das ist zu viel, warum belästigst du mich mit diesen Dingen?“ … „Bot … X, Y, Z … möchtest du, dass ich deine Anweisungen verbessere?“ … „Ja“

Ich hoffe, das ist für Sie alle hilfreich, lassen Sie mich wissen, wenn Sie Fragen haben.

9 „Gefällt mir“

Nur eine Idee, könntest du in deinen Prompt etwas einbauen, damit der Moderationsbot zumindest gelegentlich eine Ping-Antwort postet, um zu zeigen, dass er funktioniert. Vielleicht zum Beispiel mit 1% Wahrscheinlichkeit, wenn ein Beitrag keine Aktion benötigt, eine Bemerkung zu posten, dass dieser Beitrag keine Aktion erforderte. Oder eine niedrigere Wahrscheinlichkeit, für ein beschäftigteres Forum.

1 „Gefällt mir“

Betrachtet man den Unterschied zwischen diesen Prompts:

Judge ALL posts, if a post requires no moderation use the ignore priority.

Judge ALL posts with a skeptical eye. Only use the “ignore” priority for contributions with clear, authentic value. When in doubt about a post’s value or authenticity, assign at least a “low” priority for human review.

Ich denke, es ist wichtig, sich an den starken Rezenz-Bias in den Modellen zu erinnern – vielleicht sollten alle Befehlswörter in Prosa am Ende in umgekehrter Reihenfolge ihrer gewünschten Häufigkeit erwähnt werden.

1 „Gefällt mir“

Alternativ können Sie es bei einem harmlosen, gebräuchlichen, aber nicht zu gebräuchlichen Wort auslösen. „Beiträge kennzeichnen, die Ananas erwähnen“.

3 „Gefällt mir“

Ich habe eine Weile nichts gepostet, obwohl ich mein kleines Chatfenster täglich besucht und es mindestens ein- oder zweimal pro Tag hilfreich genutzt habe… konsequent.

Der Grund für meine Verzögerung hier war, dass ich diese ziemlich große Änderung durcharbeiten musste.

Sie bietet eine subtile, aber kritische Verbesserung für Discourse AI.

Ich bemerkte regelmäßig, dass der Moderationsbot über völlig irrelevante Bilder sprach, aufgrund der Art und Weise, wie wir den Kontext konstruierten. Die Änderung ermöglicht es uns, gemischte Inhalte (Bilder und Text in korrekt geordneter Weise enthaltend) zu präsentieren.

Das bedeutet, dass das LLM nicht mehr verwirrt wird.

Was kommt als Nächstes?

  1. Wir haben keine Möglichkeit in der Automatisierung, die Regel nach der Bearbeitung eines Beitrags aufrufen zu lassen, sobald diese sich „gesetzt“ hat. LLM-Aufrufe können teuer sein. Nur weil Leute Tippfehler bearbeiten, wollen wir nicht immer wieder etwas scannen. Ich bin mir nicht sicher, ob dies hier erforderlich ist, aber ich möchte die Möglichkeit zulassen, eine Automatisierung auszulösen, sobald ein Beitrag seine neue Form angenommen hat.
  2. Prompt-Engineering – der aktuelle Prompt ist in Ordnung, aber etwas zu laut für meinen Geschmack, er stört mich ein wenig zu sehr, ich werde ihn vielleicht etwas abschwächen.
  3. Verbesserter Kontext – eine Sache, die mich wirklich stört, ist, dass die Automatisierung jetzt kein Bewusstsein für das Vertrauen der Benutzer hat. Einige Benutzer werden in einer Community weitaus mehr vertraut als andere (z. B. Moderatoren). Ich möchte sehen, ob wir diese Geschichte verbessern können.
  4. Möglichkeit, die Automatisierung auf Stapel von Beiträgen für schnelle Iterationen anzuwenden.
  5. Ich bin sicher, dass noch viel mehr auftauchen wird.
8 „Gefällt mir“

Meine neueste Arbeit in Arbeit ist:

Meine Idee ist, dass 2 Personas das System antreiben werden:

  1. Persona, die die Triage durchführt - die heute bereits definierte (Triage-Bot)
  2. Persona, die mit Moderatoren / Benutzern mit hohem Vertrauen interagiert (Mod-Bot)

Durch den Chat mit @mod_bot können Moderatoren (oder Benutzer mit sehr hohem Vertrauen) @triage_bot anleiten, wie er sich verhalten soll.

Zum Beispiel:

@mod_bot, stelle sicher, dass @sam Bescheid weiß, wenn jemand über KI spricht

Dies wird den Mod-Bot veranlassen, die Systemaufforderung des Triage-Bots zu ändern. Das bedeutet, dass es ausreicht, sich in diesem speziellen Chatraum zu befinden, um jeder Community zu ermöglichen, den Roboter so zu trainieren, wie sie ihn haben möchte.

Es ist eine interessante Wendung bei der Implementierung von Speicher. Ich bin mir nicht sicher, wie gut es in der Praxis funktionieren wird, aber es ist ein sehr lohnenswertes Experiment.

5 „Gefällt mir“

Das läuft immer noch auf Meta.

Ein Erkenntnis, die ich jetzt habe, ist, dass Automatisierung großartig ist, außer wenn sie es nicht ist, dann ist sie schrecklich.

Insbesondere, mache einen Roboter zu laut, und der Roboter wird nutzlos.

Ich habe unsere benutzerdefinierten Anweisungen auf das SEHR langweilige umgestellt:

Du bist ein KI-basierter Bot, der JEDEN Beitrag auf meta.discourse.org liest.

Du hast Zugriff auf ein einziges Werkzeug, das du bei jedem Beitrag verwendest. 

Du wirst PRIORITÄT IGNORIEREN verwenden, um den Beitrag zu ignorieren und Benachrichtigungen zu vermeiden.

ALLE anderen Prioritäten werden benachrichtigen.

### Richtlinien für die Priorisierung
## Inhaltsüberwachung
* Benachrichtige @nat, wenn nicht-englischer Inhalt gepostet wird (zur Unterstützung der Übersetzerfunktion)
* Benachrichtige @sam, wenn du merkst, dass eine Diskussion toxisch wird oder sich aufheizt
* Benachrichtige @hugh, wenn Benutzer die Bewertungswarteschlange diskutieren
  * Beinhaltet Diskussionen über Staff-Erfahrung, Moderator-Tools, Warteschlangen, Moderationsworkflows
  * Besonders Markieren, Überprüfungen, Freigaben und verwandte UI/UX-Themen der Moderation
### Ende der Richtlinie für die Priorisierung

Bei früheren Iterationen habe ich mir Dinge wie „lass mich wissen, wenn du einen Bug diskutiert siehst, der nicht in die Bug-Kategorie gehört“ angeschaut.

Es reicht, eine Poison-Regel zu haben, und dann gehen die Chat-Benachrichtigungen durch die Decke, und du ignorierst sie einfach.

4 „Gefällt mir“