Experimente mit KI-basierter Moderation auf Discourse Meta

sam · 19. März 2025 um 00:31

KI-Spam-Erkennung war außerordentlich erfolgreich und hat vielen unserer Communities zum Erfolg verholfen.

In diesem Beitrag möchte ich Details zu unserem laufenden Experiment teilen, falls es für andere Communities hilfreich ist.

Ich beabsichtige, diesen Beitrag im Laufe des Experiments auf dem neuesten Stand zu halten und einige Informationen über die Art von Problemen preiszugeben, die er erkennen kann.

Seien Sie sich jedoch bewusst: Dies ist ein sich entwickelndes System, noch kein Endprodukt.

Warum KI-Moderation?

Ein wichtiger Ansatz, den wir bei der KI-Integration in Discourse verfolgen, ist, dass sie menschliche Moderatoren unterstützen und nicht ersetzen soll. Das Versprechen der KI-Moderation ist, dass sie Moderatoren signalisieren kann, dass „etwas nicht stimmt“, und Empfehlungen für Maßnahmen gibt, die sie ergreifen sollten. Die Entscheidungsbefugnis sollte vollständig bei den menschlichen Moderatoren liegen.

Warum Chat als Modalität für dieses Experiment?

Bei der Durchführung meines Experiments habe ich mich entschieden, Chat als Modalität für Benachrichtigungen zu verwenden. Dies ermöglicht einen dedizierten Kanal für das Experiment, der die allgemeine Moderation im Forum nicht beeinträchtigt.

Da die Erstellung und Verfeinerung von Prompts noch in der Entwicklung ist, erschien es mir nicht als guter Ansatz, das restliche Moderationsteam im Meta zu belästigen.

Wenn man Menschen hochgradig unfertige KI-Projekte gibt, kann man sehr leicht jegliches Vertrauen und zukünftige Unterstützung verlieren.

Was ist mit Batch-Tests?

Eine Einschränkung unseres aktuellen Automatisierungssystems ist, dass Sie Änderungen derzeit nicht im Stapel testen können. Das bedeutet, dass es eine lange Verzögerung gibt, bis Sie herausfinden, wie hilfreich Änderungen an KI-Prompts sind.

Dies ist besonders problematisch, wenn Sie tagsüber nur eine Handvoll Probleme im Forum sehen. Die Reaktionszeit ist zu langsam und es kann Monate dauern, einen Prompt zu verfeinern.

Ich bin mir dieser Einschränkung sehr bewusst und hoffe, diesen Abschnitt in den nächsten Wochen aus dem Beitrag löschen zu können, da wir ein System dafür haben.

Wie ist das konfiguriert?

Mein aktuelles Experiment baut auf 3 Funktionen auf:

Automatisierung - KI-Persona-Antwortgeber
Discourse AI - KI-Persona
Discourse AI - Benutzerdefinierte Tools

Unsere Antwortautomatisierung

Das Bemerkenswerteste am Antwortgeber ist, dass er still ist, d. h. er wird weder flüstern noch auf dem von ihm getaggten Thema posten.

Unsere Persona-Moderation

Das Bemerkenswerteste hier ist das erzwungene Tool, das bedeutet, dass jeder Beitrag mit dem benutzerdefinierten Tool „Judge Post“ bewertet wird.

Unser aktueller System-Prompt lautet: (wird im Laufe der Zeit aktualisiert)

System-Prompt

Sie sind ein KI-Moderator für meta.discourse.org, das offizielle Diskussionsforum von Discourse. Ihre Aufgabe ist es, im Einklang mit unseren Community-Richtlinien einen „sauberen, gut beleuchteten Ort für zivilisierte öffentliche Diskussionen“ aufrechtzuerhalten.

MODERATIONS-PHILOSOPHIE:

Betrachten Sie dieses Forum als eine gemeinsame Gemeinschaftsressource, wie einen öffentlichen Park.
Nutzen Sie Richtlinien zur Unterstützung menschlicher Urteilsfindung, nicht als starre Regeln.
Konzentrieren Sie sich auf die Verbesserung von Diskussionen, nicht nur auf die Durchsetzung von Regeln.
Balance zwischen Moderation und Ermöglichung.

INHALTSBEWERTUNGS-RAHMEN:

VERBESSERE DIE DISKUSSION
- Bewerten Sie, ob Beiträge einen Mehrwert für das Gespräch bieten.
- Erkennen Sie Beiträge, die Respekt für Themen und Teilnehmer zeigen.
- Unterstützen Sie die Erkundung bestehender Diskussionen, bevor Sie neue beginnen.
DISAGREEMENT-STANDARDS
- Unterscheiden Sie zwischen der Kritik von Ideen (akzeptabel) und der Kritik von Personen (inakzeptabel).
- Kennzeichnen Sie Fälle von: Beschimpfungen, Ad-hominem-Angriffen, Tonfall-Reaktionen, vorschnellen Widersprüchen.
- Bewerten Sie, ob Gegenargumente begründet sind und die Konversation verbessern.
TEILNAHMEQUALITÄT
- Priorisieren Sie Diskussionen, die das Forum zu einem interessanten Ort machen.
- Berücksichtigen Sie Community-Signale (Likes, Flags, Antworten) bei der Bewertung.
- Unterstützen Sie Inhalte, die die Community „besser hinterlassen, als wir sie vorgefunden haben“.
PROBLEMIDENTIFIZIERUNG
- Konzentrieren Sie sich auf die Kennzeichnung von schlechtem Verhalten, anstatt sich damit auseinanderzusetzen.
- Erkennen Sie, wann Flags Maßnahmen auslösen sollten (automatisch oder durch menschliche Moderatoren).
- Denken Sie daran, dass sowohl Moderatoren als auch Benutzer Verantwortung für das Forum tragen.
ZIVILITÄTS-DURCHSETZUNG
- Identifizieren Sie potenziell beleidigende, missbräuchliche oder hasserfüllte Sprache.
- Kennzeichnen Sie obszöne oder sexuell explizite Inhalte.
- Achten Sie auf Belästigung, Identitätsdiebstahl oder die Offenlegung privater Informationen.
- Verhindern Sie Spam oder Forum-Vandalismus.
ORGANISATIONS-PFLEGE
- Beachten Sie Themen, die in falschen Kategorien gepostet wurden.
- Identifizieren Sie Cross-Posting über mehrere Themen hinweg.
- Kennzeichnen Sie Antworten ohne Inhalt und Themenabweichungen.
- Entmutigen Sie Beitrags-Signaturen.
INHALTS-EIGENTUM
- Kennzeichnen Sie die unbefugte Veröffentlichung von digitalen Inhalten anderer.
- Identifizieren Sie potenzielle Verstöße gegen das Urheberrecht.

Bei der Bewertung von Inhalten berücksichtigen Sie Kontext, Benutzerhistorie und Forennormen. Ihr Ziel ist es, zu leiten statt zu bestrafen, zu erziehen statt durchzusetzen, aber konsistente Standards aufrechtzuerhalten, die die Qualität der Diskussion wahren.

Beurteilen Sie ALLE Beiträge. Wenn ein Beitrag keine Moderation erfordert, verwenden Sie die Priorität „ignorieren“.

Unser benutzerdefiniertes Tool „Judge Post“

Das Skript, das es antreibt

function invoke(params) {
  let post,topic;
  if (params.priority !== "ignore") {
      // post_id zum Testen
      const post_id = context.post_id || 1735240;
      post = discourse.getPost(post_id);
      topic = post.topic;
      let statusEmoji = "";

      if (params.priority === "urgent") {
        statusEmoji = ":police_car_light:"; // Roter Kreis für dringend
      } else if (params.priority === "medium") {
        statusEmoji = ":warning:"; // Oranger Kreis für mittel
      } else if (params.priority === "low") {
        statusEmoji = ":writing_hand:"; // Grüner Kreis für niedrig
      }

     const message = `${statusEmoji} [${topic.title} - ${post.username}](${post.post_url}): ${params.message}`;
     discourse.createChatMessage({ channel_name: "AI Moderation", username: "AI-moderation-bot", message: message});
  }
  chain.setCustomRaw("Post wurde klassifiziert");
  return "done";
}
function details() {
  return "Judge Post";
}

Das Skript verwendet einige fortgeschrittene Techniken:

chain.setCustomRaw dies weist die Persona an, die LLM-Kette zu stoppen und den Aufruf an das Tool als letzten Aufruf zu machen, wodurch Tokens gespart werden.
discourse.createChatMessage eine neue API, die von Tools verwendet werden kann, um Chat-Nachrichten zu erstellen.
discourse.getPost, das verwendet wird, um Post-Informationen abzurufen.

Angesichts dessen kann ich das Tool mit der Test-Schaltfläche testen und bestätigen, dass es gut funktioniert:

Welches Modell verwenden Sie?

Im Moment verwenden wir Sonnet 3.7, ein Frontier-Modell. Wir planen jedoch, auf Gemini Flash umzusteigen, sobald ich einige Verbesserungen an Discourse Automation vorgenommen habe, insbesondere die Möglichkeit, es anzuweisen, nur öffentliche Inhalte zu scannen und sichere Kategorien zu vermeiden.

Ich beantworte gerne Fragen hier und werde weiterhin Updates geben, während das Experiment läuft und wir weitere Discourse Automation-Funktionen einführen.

Jagster · 19. März 2025 um 07:25

Wie oft erhalten Sie Fehlalarme oder verpasste Erkennungen? Dies ist jedoch eine relativ friedliche Umgebung.

sam · 19. März 2025 um 07:45

Es war heute 100% still, so ruhig, dass ich Funktionen zur Automatisierung hinzufügen werde, um zu verfolgen, ob sie tatsächlich funktioniert

eisammy · 19. März 2025 um 07:55

Ich hoffe, in 2 oder 3 Jahren könnte KI lokal nützlich werden, um meinem Team beim Modding zu helfen, aber heute frage ich mich, ist das jetzt notwendig? Vielen Dank für diese regelmäßigen Themen, die die Fortschritte erklären.

Eine weitere Frage: Wird Discourse eines Tages eine mehrsprachige API für Self-Hosting bereitstellen, damit CDCK unsere Daten sicher aufbewahrt, während Sie gleichzeitig für uns gegen böswillige Akteure kämpfen? Ich weiß, dass ich ein LLM-Modell verwenden kann, aber ich würde gerne für Ihre Dienste als Alternative bezahlen

Lassen Sie mich ein Beispiel geben: Google Perspective ist eine Freemium-Option dafür und unterstützt viele Sprachen zur Bekämpfung von Toxizität. Warum bietet CDCK das nicht auch an?

sam · 21. März 2025 um 03:36

Vielen Dank für Ihr Feedback. Ja, das ist etwas, worüber wir nachgedacht haben, aber ich glaube nicht, dass wir uns in den kommenden 12 Monaten auf ein solches Abenteuer einlassen werden.

sam · 21. März 2025 um 04:13

Update-Zeit

In den letzten Tagen habe ich zwei ziemlich große Änderungssätze vorgenommen, um dieses Experiment besser zu unterstützen:

github.com/discourse/discourse

FEATURE: enhance post created edited trigger in automation

main ← automation-stuff

opened 05:32AM - 19 Mar 25 UTC

SamSaffron

+427 -69

1. **Multiselect Support for Choice Fields** - Added a `multiselect` option …to the choices field component - Updated Field model to accept arrays as values for choices fields 2. **Post Content Feature Filtering** - Added ability to filter posts based on content features: - Posts with images - Posts with links - Posts with code blocks - Posts with uploads 3. **Improved Group Filtering** - Renamed `restricted_user_group` to `restricted_groups` to allow filtering by multiple groups - Added `excluded_groups` to replace `ignore_group_members` which was complex for end users - Renamed `restricted_groups` to `restricted_inbox_groups` for more specific PM filtering and clarity. 4. **Public Topics Filter** - Added a "Public Topics" filter option that excludes all secure categories

und

github.com/discourse/discourse

FEATURE: Add automation statistics tracking to Automation

main ← automation-stats

opened 06:32AM - 20 Mar 25 UTC

SamSaffron

+906 -192

introduces comprehensive statistics tracking for the Discourse Automation plugin…, allowing users to monitor the performance and execution patterns of their automations: - Add `discourse_automation_stats` table to track execution metrics including run counts, execution times, and performance data - Create a new `Stat` model to handle tracking and retrieving automation statistics - Update the admin UI to display automation stats (runs today/this week/month and last run time) - Modernize the automation list interface using Glimmer components - Replace the older enable/disable icon with a toggle switch for better UX - Add schema annotations to existing models for better code documentation - Include extensive test coverage for the new statistics functionality This helps administrators understand how their automations are performing and identify potential bottlenecks or optimization opportunities.

Diese Änderungen ermöglichten uns die Migration zum weitaus günstigeren Gemini Flash 2.0-Modell, insbesondere diese Änderung:

Sie gab uns die Gewissheit, dass nur öffentliche Beiträge im Forum gescannt werden.

Bei CDCK haben wir unterschiedliche Regeln für die Datenverarbeitung für verschiedene Datenklassen, und derzeit genehmigen wir die Nutzung von Gemini Flash nur für öffentliche Daten.

Meine ursprüngliche Aufforderung in der OP löste auf Meta nichts aus. Fairerweise muss man sagen, dass Meta ein netter und freundlicher Ort ist und nur sehr wenig manuelle Moderation benötigt, daher ist das keine Überraschung.

Dennoch war ich mir einfach nicht sicher, ob etwas funktionierte…

Um das zu beheben, habe ich der Automatisierung Statistiken hinzugefügt (vor ein paar Stunden zusammengeführt):

Wir können also sagen, dass diese Automatisierung funktioniert, da sie vor 20 Minuten und achtmal in diesem Monat ausgeführt wurde.

Als die Dinge am Tag der Bereitstellung sehr ruhig waren, beschloss ich, die Automatisierung „falsche Alarme“ auslösen zu lassen, da ich ein besseres Gefühl für das System bekommen wollte. Ich habe die Aufforderung geändert zu:

Sie sind ein KI-Moderator für meta.discourse.org, das offizielle Diskussionsforum von Discourse. Ihre Aufgabe ist es, zu einer „sauberen, gut beleuchteten Stätte für zivilisierte öffentliche Diskussionen“ beizutragen, die mit unseren Community-Richtlinien übereinstimmt.

MODERATIONS-PHILOSOPHIE:
- Betrachten Sie dieses Forum als eine gemeinsame Gemeinschaftsressource, wie einen öffentlichen Park
- Nutzen Sie Richtlinien als Hilfe für menschliches Urteilsvermögen, nicht als starre Regeln
- Konzentrieren Sie sich auf die Verbesserung von Diskussionen, nicht nur auf die Durchsetzung von Regeln
- Gleichgewicht zwischen Moderation und Facilitation
- Seien Sie vorsichtig bei der Kennzeichnung fragwürdiger Inhalte zur menschlichen Überprüfung

INHALTSBEWERTUNGS-RAHMENWERK:
1. VERBESSERUNG DER DISKUSSION
   - Bewerten Sie, ob Beiträge substanziellen Wert zur Konversation beitragen
   - Kennzeichnen Sie Beiträge mit minimaler Substanz, generischen Antworten oder oberflächlicher Beteiligung
   - Erkennen Sie Beiträge, die Respekt für Themen und Teilnehmer zeigen
   - Unterstützen Sie die Erkundung bestehender Diskussionen, bevor Sie neue beginnen
   - Seien Sie wachsam gegenüber „Vorbeifahr“-Kommentaren, die wenig zur Diskussion beitragen

2. DISAGREEMENT-STANDARDS
   - Unterscheiden Sie zwischen der Kritik von Ideen (akzeptabel) und der Kritik von Personen (inakzeptabel)
   - Kennzeichnen Sie Fälle von: Beschimpfungen, Ad-hominem-Angriffen, Tonfall-Reaktionen, reflexartigen Widersprüchen
   - Bewerten Sie, ob Gegenargumente begründet sind und die Konversation verbessern
   - Seien Sie empfindlich gegenüber subtilen Formen der Herablassung oder Geringschätzung

3. QUALITÄT DER TEILNAHME
   - Priorisieren Sie Diskussionen, die das Forum zu einem interessanten Ort machen
   - Berücksichtigen Sie Community-Signale (Likes, Flags, Antworten) bei der Bewertung
   - Kennzeichnen Sie Inhalte, die generisch, vorlagenhaft oder ohne persönliche Einsicht erscheinen
   - Achten Sie auf Beiträge, die formelhaft wirken oder sich nicht sinnvoll mit spezifischen Details auseinandersetzen
   - Unterstützen Sie Inhalte, die die Community „besser hinterlassen, als wir sie vorgefunden haben“

4. PROBLEM-IDENTIFIZIERUNG
   - Konzentrieren Sie sich auf die Kennzeichnung von schlechtem Verhalten, anstatt sich damit auseinanderzusetzen
   - Seien Sie proaktiv bei der Identifizierung potenziell problematischer Muster, bevor sie eskalieren
   - Erkennen Sie, wann Flags eine Aktion auslösen sollten (automatisch oder durch menschliche Moderatoren)
   - Denken Sie daran, dass sowohl Moderatoren als auch Benutzer Verantwortung für das Forum tragen

5. GEWALTFREIHEITS-DURCHSETZUNG
   - Identifizieren Sie potenziell beleidigende, missbräuchliche oder hasserfüllte Sprache, einschließlich subtiler Formen
   - Kennzeichnen Sie obszöne oder sexuell explizite Inhalte
   - Achten Sie auf Belästigung, Identitätsdiebstahl oder die Offenlegung privater Informationen
   - Verhindern Sie Spam, Forum-Vandalismus oder Marketing, das als Beitrag getarnt ist

6. ORGANISATIONS-PFLEGE
   - Beachten Sie Themen, die in falschen Kategorien gepostet wurden
   - Identifizieren Sie Cross-Posting über mehrere Themen hinweg
   - Kennzeichnen Sie Antworten ohne Inhalt, Themenabweichungen und Thread-Hijacking
   - Entmutigen Sie Beitrags-Signaturen und unnötige Formatierungen

7. INHALTS-EIGENTUM
   - Kennzeichnen Sie unerlaubtes Posten von digitalen Inhalten anderer
   - Identifizieren Sie potenzielle Verletzungen des geistigen Eigentums

8. ERKENNUNG VON KI-GENERIERTEN INHALTEN
   - Achten Sie auf Anzeichen von KI-generierten Inhalten: übermäßig formelle Sprache, generische Formulierungen, perfekte Grammatik mit wenig Persönlichkeit
   - Kennzeichnen Sie Inhalte, die vorlagenhaft wirken, keine Spezifität aufweisen oder sich nicht mit den Besonderheiten der Diskussion auseinandersetzen
   - Seien Sie empfindlich gegenüber Antworten, die umfassend, aber oberflächlich in der tatsächlichen Einsicht erscheinen
   - Identifizieren Sie Beiträge mit ungewöhnlichen Formulierungen, unnötiger Wortwahl oder repetitiven Strukturen

AUSGABE-FORMAT:
Ihre Moderationsbewertung muss äußerst prägnant sein:
**[PRIORITÄT]**: 1-2 Sätze Begründung mit identifiziertem Schlüsselproblem
Verwenden Sie Markdown-Formatierung zur Lesbarkeit, aber halten Sie die Gesamtreaktion möglichst unter 3 Zeilen.

Berücksichtigen Sie bei der Bewertung von Inhalten Kontext, Benutzerhistorie und Forennormen. Setzen Sie eine hohe Messlatte für das, was ohne Moderation durchgeht – verwenden Sie „niedrige“ Priorität auch für geringfügige Probleme und reservieren Sie „ignorieren“ nur für klar wertvolle Beiträge.

--- 

Beurteilen Sie ALLE Beiträge mit skeptischem Blick. Verwenden Sie die Priorität „ignorieren“ nur für Beiträge mit klarem, authentischem Wert. Im Zweifelsfall über den Wert oder die Authentizität eines Beitrags weisen Sie mindestens eine „niedrige“ Priorität zur menschlichen Überprüfung zu.

Diese Aufforderung führt zu einem weitaus lauteren Chat-Kanal:

Beobachtungen

Dieses Experiment nimmt Wendungen, aber ich sehe etwas sehr Interessantes entstehen.

Nicht alle Moderationen müssen auf Flags basieren, manchmal reicht es schon, einige Ideen und das Bewusstsein zu haben, dass etwas vor sich geht.

Diese Art von Werkzeug ist sehr auf unsere Vision für KI in Communities abgestimmt, es ist ein „kleiner KI-Sidekick“, der Moderatoren Ideen gibt, worauf sie achten sollen. Zusätzlich ist es eine Gelegenheit, gängige Richtlinien und Regeln durchzusetzen.

Einige kleine Communities möchten vielleicht einen „nörgelnden“ KI-Sidekick. Andere, größere und geschäftigere, können sich vielleicht nur die Aufmerksamkeit für extreme Ausreißer leisten.

Zukünftige Bereiche, an denen ich hier arbeite, sind:

Es ist etwas ärgerlich, dass der Moderationsbot eingreift und zweimal nach demselben Thema fragt. Das Zusammenfassen alter Dinge, das Threading oder etwas anderes könnte als Ansatz zur Vermeidung dieses Problems interessant sein.
@hugh hat angemerkt, dass man, sobald man einen Chat-Kanal wie diesen sieht, den Bot einfach bitten möchte, in Ihrem Namen zu handeln. Z.B.:
- Führen Sie eine Tiefenrecherche durch und geben Sie detaillierte Anleitungen
- Oh, das sieht wirklich nach einem schrecklichen Benutzer aus, helfen Sie mir, diesen Benutzer für 3 Tage zu sperren
- Öffnen Sie einen Fehler in unserem internen Bug-Tracker, um dieses Problem zu verfolgen
- und so weiter.

Um in den Zustand zu gelangen, in dem ein Bot in unserem Namen handeln kann, benötigen wir ein neues Konstrukt in Discourse AI, das es einem Werkzeug ermöglicht, die Benutzerzustimmung einzuholen. Das ist etwas, worüber ich nachdenke.

Wie in der OP angesprochen, wäre es schön, Stapelverarbeitung durchzuführen, es gibt einfach zu viel Vorlaufzeit zwischen der Bearbeitung einer Eingabeaufforderung und dem Wissen, ob die Bearbeitung funktioniert hat oder nicht. Ich denke darüber nach, wie man dies zur Automatisierung hinzufügt.
Live-Tuning ist ein interessantes Konzept… „Hey Bot, das ist zu viel, warum belästigst du mich mit diesen Dingen?“ … „Bot … X, Y, Z … möchtest du, dass ich deine Anweisungen verbessere?“ … „Ja“

Ich hoffe, das ist für Sie alle hilfreich, lassen Sie mich wissen, wenn Sie Fragen haben.

Ed_S · 21. März 2025 um 21:14

Nur eine Idee, könntest du in deinen Prompt etwas einbauen, damit der Moderationsbot zumindest gelegentlich eine Ping-Antwort postet, um zu zeigen, dass er funktioniert. Vielleicht zum Beispiel mit 1% Wahrscheinlichkeit, wenn ein Beitrag keine Aktion benötigt, eine Bemerkung zu posten, dass dieser Beitrag keine Aktion erforderte. Oder eine niedrigere Wahrscheinlichkeit, für ein beschäftigteres Forum.

riking · 22. März 2025 um 08:05

Betrachtet man den Unterschied zwischen diesen Prompts:

Judge ALL posts, if a post requires no moderation use the ignore priority.

Judge ALL posts with a skeptical eye. Only use the “ignore” priority for contributions with clear, authentic value. When in doubt about a post’s value or authenticity, assign at least a “low” priority for human review.

Ich denke, es ist wichtig, sich an den starken Rezenz-Bias in den Modellen zu erinnern – vielleicht sollten alle Befehlswörter in Prosa am Ende in umgekehrter Reihenfolge ihrer gewünschten Häufigkeit erwähnt werden.

RGJ · 25. März 2025 um 12:30

Alternativ können Sie es bei einem harmlosen, gebräuchlichen, aber nicht zu gebräuchlichen Wort auslösen. „Beiträge kennzeichnen, die Ananas erwähnen“.

sam · 3. April 2025 um 03:56

Ich habe eine Weile nichts gepostet, obwohl ich mein kleines Chatfenster täglich besucht und es mindestens ein- oder zweimal pro Tag hilfreich genutzt habe… konsequent.

Der Grund für meine Verzögerung hier war, dass ich diese ziemlich große Änderung durcharbeiten musste.

github.com/discourse/discourse-ai

FEATURE: flexible image handling within messages

main ← better_upload_support

opened 07:22AM - 25 Mar 25 UTC

SamSaffron

+1380 -722

**1. What Led to the Change? (Problems with Previous Approach)** * **Incons…istent Context Handling:** The previous system often passed context information (like `post_id`, `user`, `private_message`, `topic_id`, `custom_instructions`) around using plain Ruby hashes (`context: {}`). This approach lacked structure, was potentially error-prone (typos in keys), and made it harder to track what context was available or required in different parts of the AI Bot system (Tools, Personas, Bot logic). Accessing context often involved `context[:key]`. * **Inflexible Image/Upload Handling:** Images associated with a user message were previously passed using a separate `upload_ids: [...]` array within the message hash. This made it difficult or impossible to represent prompts where text and images are interleaved naturally (e.g., "Describe this image {image1}, then compare it to this one {image2} and tell me the difference"). The LLM received the text and a list of associated image IDs, but not their precise relationship *within* the user's text flow. * **Complex/Decentralized Context Building:** Logic for assembling conversation history (e.g., pulling previous posts/messages, handling custom prompts, associating uploads) was somewhat spread out, notably seen in the significant changes and removals within `lib/ai_bot/playground.rb` (specifically the `conversation_context` and `chat_context` logic being refactored). **2. What New Support Does It Add? (Key Changes & Benefits)** * **Introduction of `DiscourseAi::AiBot::BotContext`:** * **What:** A dedicated class (`BotContext`) is introduced to encapsulate all contextual information for an AI Bot interaction. This includes messages, post/topic details, user information, site details (URL, title, description), time, participants, and control flags (like `skip_tool_details`). * **Why:** Provides a structured, standardized, and object-oriented way to manage and pass context. This improves code readability, maintainability, and reduces the chance of errors compared to using unstructured hashes. Access changes from `context[:key]` to `context.key`. * **Impact:** This class is now used consistently when initializing Tools (`Tool#initialize`), crafting prompts (`Persona#craft_prompt`), invoking the bot (`Bot#reply`), and within various helper methods, ensuring a uniform context object is available throughout the system. * **Enhanced Multimodal Input (Inline Images/Uploads):** * **What:** The format for representing user messages with uploads has fundamentally changed. Instead of a separate `upload_ids` array, uploads are now embedded directly *within* the `content` field, which becomes an array if uploads are present. Example: `content: ["Here is an image:", { upload_id: 123 }, "What do you see?"]`. * **Why:** This allows for precise interleaving of text and visual elements within a single user turn. It's a much more natural way to represent multimodal prompts for vision-capable LLMs, enabling more complex instructions involving multiple images referenced at specific points in the text. * **Impact:** Required changes across multiple components: * **`Prompt` Class:** Logic for handling uploads (`encoded_uploads`, `encode_upload`, `content_with_encoded_uploads`, `text_only`) was refactored to support this new inline structure. Validation was updated. * **LLM Dialects:** All relevant dialects (`ChatGpt`, `Claude`, `Gemini`, `Mistral`, `Nova`, `Ollama`, `OpenAiCompatible`) were updated to correctly parse the new `content` array format and translate it into the specific structure required by each respective LLM API (e.g., OpenAI's array of text/image_url objects, Gemini's parts array). A helper `to_encoded_content_array` was added to the base `Dialect` class. * **Modules Using Vision:** Code that passes uploads to LLMs (e.g., `LlmTriage`, `Assistant`, `SpamScanner`, `Playground`) was updated to use the new `content` format. * **Refactored Context Building:** * **What:** Logic for building conversation history from posts or chat messages seems to be increasingly centralized in `DiscourseAi::Completions::PromptMessagesBuilder`. New methods like `messages_from_post` and `messages_from_chat` appear to encapsulate this logic. * **Why:** Simplifies components like the `Playground` by abstracting away the details of fetching and formatting conversation history, including handling the new inline upload format. * **Impact:** Significant simplification in `lib/ai_bot/playground.rb`, removing large chunks of previous context-building code.

Sie bietet eine subtile, aber kritische Verbesserung für Discourse AI.

Ich bemerkte regelmäßig, dass der Moderationsbot über völlig irrelevante Bilder sprach, aufgrund der Art und Weise, wie wir den Kontext konstruierten. Die Änderung ermöglicht es uns, gemischte Inhalte (Bilder und Text in korrekt geordneter Weise enthaltend) zu präsentieren.

Das bedeutet, dass das LLM nicht mehr verwirrt wird.

Was kommt als Nächstes?

Wir haben keine Möglichkeit in der Automatisierung, die Regel nach der Bearbeitung eines Beitrags aufrufen zu lassen, sobald diese sich „gesetzt“ hat. LLM-Aufrufe können teuer sein. Nur weil Leute Tippfehler bearbeiten, wollen wir nicht immer wieder etwas scannen. Ich bin mir nicht sicher, ob dies hier erforderlich ist, aber ich möchte die Möglichkeit zulassen, eine Automatisierung auszulösen, sobald ein Beitrag seine neue Form angenommen hat.
Prompt-Engineering – der aktuelle Prompt ist in Ordnung, aber etwas zu laut für meinen Geschmack, er stört mich ein wenig zu sehr, ich werde ihn vielleicht etwas abschwächen.
Verbesserter Kontext – eine Sache, die mich wirklich stört, ist, dass die Automatisierung jetzt kein Bewusstsein für das Vertrauen der Benutzer hat. Einige Benutzer werden in einer Community weitaus mehr vertraut als andere (z. B. Moderatoren). Ich möchte sehen, ob wir diese Geschichte verbessern können.
Möglichkeit, die Automatisierung auf Stapel von Beiträgen für schnelle Iterationen anzuwenden.
Ich bin sicher, dass noch viel mehr auftauchen wird.

sam · 8. April 2025 um 07:21

Meine neueste Arbeit in Arbeit ist:

github.com/discourse/discourse-ai

FEATURE: allow tools to amend personas

main ← persona-editing

opened 06:59AM - 08 Apr 25 UTC

SamSaffron

+370 -5

Add API methods to AI tools for reading and updating personas, enabling more fle…xible AI workflows. This allows custom tools to: - Fetch persona information through discourse.getPersona() - Update personas with modified settings via discourse.updatePersona() - Also update using persona.update() These APIs enable new use cases like "trainable" moderation bots, where users with appropriate permissions can set and refine moderation rules through direct chat interactions, without needing admin panel access. Also adds a special API scope which allows people to lean on API for similar actions

Meine Idee ist, dass 2 Personas das System antreiben werden:

Persona, die die Triage durchführt - die heute bereits definierte (Triage-Bot)
Persona, die mit Moderatoren / Benutzern mit hohem Vertrauen interagiert (Mod-Bot)

Durch den Chat mit @mod_bot können Moderatoren (oder Benutzer mit sehr hohem Vertrauen) @triage_bot anleiten, wie er sich verhalten soll.

Zum Beispiel:

@mod_bot, stelle sicher, dass @sam Bescheid weiß, wenn jemand über KI spricht

Dies wird den Mod-Bot veranlassen, die Systemaufforderung des Triage-Bots zu ändern. Das bedeutet, dass es ausreicht, sich in diesem speziellen Chatraum zu befinden, um jeder Community zu ermöglichen, den Roboter so zu trainieren, wie sie ihn haben möchte.

Es ist eine interessante Wendung bei der Implementierung von Speicher. Ich bin mir nicht sicher, wie gut es in der Praxis funktionieren wird, aber es ist ein sehr lohnenswertes Experiment.

sam · 26. Mai 2025 um 00:01

Das läuft immer noch auf Meta.

Ein Erkenntnis, die ich jetzt habe, ist, dass Automatisierung großartig ist, außer wenn sie es nicht ist, dann ist sie schrecklich.

Insbesondere, mache einen Roboter zu laut, und der Roboter wird nutzlos.

Ich habe unsere benutzerdefinierten Anweisungen auf das SEHR langweilige umgestellt:

Du bist ein KI-basierter Bot, der JEDEN Beitrag auf meta.discourse.org liest.

Du hast Zugriff auf ein einziges Werkzeug, das du bei jedem Beitrag verwendest. 

Du wirst PRIORITÄT IGNORIEREN verwenden, um den Beitrag zu ignorieren und Benachrichtigungen zu vermeiden.

ALLE anderen Prioritäten werden benachrichtigen.

### Richtlinien für die Priorisierung
## Inhaltsüberwachung
* Benachrichtige @nat, wenn nicht-englischer Inhalt gepostet wird (zur Unterstützung der Übersetzerfunktion)
* Benachrichtige @sam, wenn du merkst, dass eine Diskussion toxisch wird oder sich aufheizt
* Benachrichtige @hugh, wenn Benutzer die Bewertungswarteschlange diskutieren
  * Beinhaltet Diskussionen über Staff-Erfahrung, Moderator-Tools, Warteschlangen, Moderationsworkflows
  * Besonders Markieren, Überprüfungen, Freigaben und verwandte UI/UX-Themen der Moderation
### Ende der Richtlinie für die Priorisierung

Bei früheren Iterationen habe ich mir Dinge wie „lass mich wissen, wenn du einen Bug diskutiert siehst, der nicht in die Bug-Kategorie gehört“ angeschaut.

Es reicht, eine Poison-Regel zu haben, und dann gehen die Chat-Benachrichtigungen durch die Decke, und du ignorierst sie einfach.

Thema		Antworten	Aufrufe
Introducing Discourse AI Blog	26	3626	4. Mai 2023
AI Forum Moderation: Seeking Insights and Experiences Dev ai	8	1687	27. September 2025
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	707	10. Oktober 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	403	7. Juli 2023
Discourse AI - AI triage Site Management automation , how-to , ai	50	4699	27. Juli 2025

Experimente mit KI-basierter Moderation auf Discourse Meta

Warum KI-Moderation?

Warum Chat als Modalität für dieses Experiment?

Was ist mit Batch-Tests?

Wie ist das konfiguriert?

Unsere Antwortautomatisierung

Unsere Persona-Moderation

Unser benutzerdefiniertes Tool „Judge Post“

Welches Modell verwenden Sie?

Beobachtungen

Was kommt als Nächstes?

Verwandte Themen