Ich verwende Discourse AI und habe es mit einer externen LLM-API sowie einigen Erweiterungen (die zusätzliche Kosten verursachen) verbunden.
Deshalb möchte ich es so konfigurieren, dass es diese Erweiterungen nicht verwendet und sich stattdessen nur auf die LLM selbst als Forum-Helfer verlässt – für Dinge wie interne Suche, Zusammenfassung oder andere Funktionen, die rein innerhalb des Forums funktionieren.
Der Hauptgrund ist die Reduzierung der Kosten für kostenpflichtige Zusatzfunktionen (z. B. externe Websuche). Daher suche ich nach Anleitungen, wie ich dies einrichten kann.
Danke
Edit:
Ich habe eine Antwort vom Anbieter erhalten, dass diese Anfrage die Websuche in Rechnung gestellt hat, weil die KI Quellen wie BBC und Reuters zitiert hat. Andere, was automatisch den Beweis-/Suchmodus des Modells ausgelöst hat.
Bedeutet das, dass dies nicht mit den Discourse-Einstellungen zusammenhängt und es keine Möglichkeit gibt, dieses Verhalten auf Seiten des Anbieters zu deaktivieren?
Gibt es dafür eine Umgehungslösung?
Der Anbieter schlug vor, auf ein Modell mit weniger „Nachdenken“ umzusteigen und Flash- oder Instinct-Modelle zu vermeiden, was jedoch auch eine reduzierte Argumentations- und Rechenfähigkeit bedeutet.
**Diese Nachricht wurde mit einem Übersetzungstool aus dem Thailändischen übersetzt, daher entschuldige ich mich im Voraus, falls etwas unklar oder leicht falsch ist.
was meinen Sie mit Erweiterungen? Ich nehme an, für die Websuche?
Ich betreibe 2 selbst gehostete Websites, die alle meine Discourse AI-Funktionen mit Gemini in Google Cloud ausführen, und ich verwende die Google Custom Search Engine API für den Web-Rechercheur (100 kostenlose Anfragen/Tag). Ich verwende Gemini 2.5 Flash Lite für so viel wie möglich, wie Zusammenfassungen und Gists, 2.5 Flash für Übersetzungen und die verschiedenen anderen Gemini-Modelle für spezifischere und denkintensive Aufgaben (zum Beispiel Gemini Flash Image).
Ah, verstanden – danke für die Klarstellung! Ja, ich dachte an „Erweiterungen“ im Sinne von Websuche oder zusätzlichen KI-Funktionen.
Für mein Setup verwende ich die MiMo API von Xiaomi, die mir 1000 Anfragen pro Monat gewährt. Jede Nutzung zusätzlicher Erweiterungen wird zusätzlich nach Verbrauch abgerechnet, und das kann ich leider nicht deaktivieren. Der Anbieter erwähnte, dass dies von der Länge und Komplexität des Prompts abhängt – zum Beispiel, wenn ich oder meine Benutzer etwas eingeben wie „suche die neuesten Nachrichten über…“, unabhängig davon, ob diese in meinem Forum existieren oder nicht, führt das Modell parallel eine Websuche durch. Ich habe wirklich keine Kontrolle über diese zusätzlichen Kosten.
Ich habe keine Google Custom Search Engine API-Schlüssel eingetragen – ich lasse dieses Feld einfach leer und verwende die Standardeinstellungen für Forum Helper.
Ich habe mich gefragt, ob es eine intelligente Möglichkeit gibt, dies zu handhaben? Wenn ich versuche, die Credits auf Anbieterseite zu begrenzen, werden dadurch alle meine laufenden Modelle eingeschränkt.
Auch entschuldige ich mich, falls mein Englisch etwas schwer zu verstehen ist – ich benutze einen Übersetzer zur Kommunikation
Zusammenfassung des Problems, das ich habe (einfach erklärt):
Ich verwende Discourse AI auf meiner selbst gehosteten Website.
Das verwendete LLM ist die MiMo API von Xiaomi, die ein Kontingent von 1000 Anfragen pro Monat bietet.
Das Problem ist, dass die Nutzung bestimmter Erweiterungen (z. B. Websuche) zusätzliche Kosten verursacht, die vom Anbieter nicht deaktiviert werden können.
Der Anbieter erklärt, dass:
Die Kosten von der Länge und der Art des Prompts abhängen.
Zum Beispiel, wenn ich oder ein Benutzer eingibt: „Suche die neuesten Nachrichten über …“, sucht das Modell möglicherweise automatisch auch im Web, unabhängig davon, ob diese Informationen bereits in meinem Forum vorhanden sind.
Dies führt dazu, dass ich:
Die Kosten schwer kontrollieren kann, da die Benutzer die Prompts selbst eingeben.
Ich habe keinen Google Custom Search Engine API-Schlüssel eingegeben.
Dieses Feld habe ich leer gelassen und die Standardeinstellung (default) von Forum Helper verwendet.
Wenn ich versuche, das Guthaben auf Seiten des Anbieters zu begrenzen:
Dies würde alle Modelle einschränken, die verwendet werden.
Es ist nicht möglich, nur bestimmte Modelle oder Funktionen einzuschränken.
Hier ist ein Beispiel für das Protokoll, das ich überprüfen konnte:
Generation details
Model: MiMo-V2-Flash
Model ID: xiaomi/mimo-v2-flash
Provider: Xiaomi
First token latency: 12.77 seconds
Throughput: 1.5 tokens/second
Finish reason: stop
Data policy: No data training | Policy
Tokens:
- Prompt: 38065
- Completion: 20
Web search:
- Results: 5
Costs:
- Subtotal: 0
- Web search cost: 0.02
- Final cost: 0.02
Creator: hidden
Generation ID: hidden
Wenn Sie die Verwendung eines lokalen LLM meinen, habe ich derzeit nicht vor, die Ausgaben zu erhöhen. Auf dem Server ist dies für mehr als 20 gleichzeitige Benutzer sehr rechenintensiv, weshalb dieser Plan nicht umgesetzt wird. Ich möchte mich auf die Nutzung externer APIs wie Groq oder OpenRouter konzentrieren, die kostengünstiger sind, und versuchen, die Kosten in diesem Bereich zu kontrollieren.
Ich habe die Antwort bereits gefunden. Aus meinen Tests und Beobachtungen geht hervor, dass die Websuche bei jedem von mir verwendeten Modell ausgelöst wurde (oder zumindest bei jedem Modell, das ich ausprobiert habe), selbst nach dem Wechsel der Modelle. Dies scheint ein Problem auf Seiten des Anbieters zu sein.
Das Problem ist, dass die Websuche zu einer unerwünschten, versteckten Kostenstelle wird, die ich nicht richtig kontrollieren oder vollständig deaktivieren kann, selbst wenn sie nicht benötigt wird.
Ich habe mein Konto bereits gelöscht, den Dienst bei diesem Anbieter gekündigt und suche nun nach einem anderen Anbieter.