Wie man einen neuen Chat Bot hinzufügt, der mit einem selbstgehosteten LLM verbunden ist

Nadeem · 6. März 2024 um 23:18

Ich möchte einen neuen “Chat Bot” hinzufügen und ihn mit einem selbst gehosteten LLM verknüpfen.
Ich habe versucht, das Feld “ai hugging face model display name” zu verwenden, aber das scheint nirgendwo aufzutauchen. Vielleicht muss ich darauf in den Prompts, die mit einer Persona verbunden sind, verweisen?
Ich habe auch versucht, einen neuen Bot über das Dropdown-Menü “ai bot enable chat bots” zu “erstellen”, und alles, was ich erstelle, erscheint im Chatbot-Dropdown als " [en.discourse_ai.ai_bot.bot_names.XXXX] ", wobei XXXX der Name ist, den ich angegeben habe.
Jeder Tipp zu Dokumentation oder Anleitungen, wie das geht, wäre willkommen.

Nadeem · 24. April 2024 um 22:25

Kann jemand Vorschläge machen oder ist dies eine bekannte Einschränkung?

sam · 24. April 2024 um 22:35

@Roman arbeitet an der Umstrukturierung dieses Abschnitts, weitere Neuigkeiten in den kommenden Wochen erwarten

Isambard · 2. Juni 2024 um 11:02

Ich bin mir nicht sicher, ob ich das richtig interpretiere, dass derzeit kein selbst gehostetes LLM verwendet werden kann, sich dies aber bald ändern wird?

sam · 3. Juni 2024 um 02:11

Es ist im Moment nicht möglich, aber hoffentlich haben wir das in ein oder zwei Wochen funktionierend.

Isambard · 3. Juni 2024 um 08:23

Danke. Ich war überrascht, dass es nicht funktionierte, da OpenAI unterstützt wird. Ich denke, viele Leute betreiben ihre eigenen LLMs mit einem OpenAI-kompatiblen Endpunkt. Ich freue mich auf das Update in 2 Wochen

merefield · 3. Juni 2024 um 08:37

Interessenshalber @Isambard, was schätzen Sie, wie viel es Sie monatlich kosten wird, ein ausreichend leistungsfähiges lokales LLM zu hosten (Dollar-Äquivalent)?

Isambard · 3. Juni 2024 um 17:06

Etwa mindestens 5 US-Dollar zusätzliche Stromkosten pro Monat für die GPU im Leerlauf – obwohl die inkrementellen Kosten für Discourse in Wirklichkeit null betragen, da ich die LLM bereits für andere Zwecke betreibe.

Aber sicherlich wäre es für kleine Foren und geringe Nutzung wirtschaftlicher, eine LLM als Dienstleistung zu nutzen. Für die Größenordnung des angebotenen Discourse-Hostings vermute ich jedoch, dass es sinnvoll sein könnte, dies intern zu hosten (und auch Wissen in diesem Bereich zu entwickeln, der wahrscheinlich wichtig sein wird).

sam · 4. Juni 2024 um 00:12

Und 15.000 für die A100?

Welches Modell betreiben Sie besonders lokal?

Isambard · 4. Juni 2024 um 19:42

Ich führe mehrere verschiedene Dinge aus. Für Discourse-Sachen werde ich ein 7B-Modell verwenden, das auf Mistral basiert und für die Aufgaben feinabgestimmt ist. Ich schaue mir verschiedene BERT-ähnliche Modelle für Klassifizierungsaufgaben an und bin mir bei den Embeddings noch nicht sicher. Dies läuft auf einer gebrauchten 3090 Ti, die ich für 700 US-Dollar gekauft habe.

Ich hätte gerne eine A100, aber stattdessen habe ich ein separates 4-GPU-System „billig“ für nur 1.000 US-Dollar gebaut, das Llama 3 70Bq4 mit über 20 tok/s ausführt.

Sicherlich ist es in vielen/den meisten Fällen sinnvoll, sich einfach an einen Anbieter zu wenden. Es kann jedoch sinnvoll sein, dies selbst zu tun, wenn:

Sie lernen möchten
Sie die Gewissheit haben möchten, die Kontrolle über Ihre Modelle zu haben (damit Sie den Zugriff darauf nicht verlieren oder von einem Unternehmen abhängig sind, um deren nicht öffentliche Embeddings zu nutzen)
Sie viele Massenverarbeitungsaufgaben durchführen müssen, die intern günstiger wären
Sie reservierte und zuverlässige Kapazität wünschen (es gibt Grenzen für sowohl Anfragen als auch Token, die von Anbietern verfügbar sind) für die Massenverarbeitung

Isambard · 5. Juni 2024 um 11:49

Ich habe die 3090 einem Benchmark unterzogen und eine maximale nachhaltige Durchsatzrate von etwa 2600 Tokens pro Sekunde beim Ausführen von Llama 3 - 8B FP16 erzielt. Ich lebe in einer Region mit hohen Strompreisen, aber bei kontinuierlichem Betrieb mit einem Stromlimit von 285 W würde es etwa 0,007 pro Million ausgegebener Tokens kosten. Oder ungefähr 0,01 pro Million Tokens, wenn Sie die Ausrüstungskosten über 3 Jahre vollständig abschreiben.

Dies schneidet im Vergleich zu Claude Haiku recht gut ab, vorausgesetzt, Sie haben eine angemessene Auslastungsrate.

Isambard · 12. August 2024 um 22:19

Ich habe eine interessante Entdeckung gemacht: Der Webserver, auf dem ich mein Forum hoste, hat genügend Leistung, um einen kleinen LLM mit moderater Geschwindigkeit (6 tok/s ohne Batching) auch ohne GPU auszuführen. Dies wird für Offline-/Hintergrundaufgaben nützlich sein.

Thema		Antworten	Aufrufe
How to configure Discourse to use a locally installed LLM? Support ai	8	173	17. September 2025
Estimating cost of enabling Discourse AI for related content and search Support ai	3	51	28. Oktober 2025
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	5	3188	21. Februar 2025
Adding a new Chat Bot when using AI plugin Support ai	0	395	12. März 2024
How to use the hugging face llama2 chat bot Dev ai , ai-bot	2	543	9. März 2024

Wie man einen neuen Chat Bot hinzufügt, der mit einem selbstgehosteten LLM verbunden ist

Verwandte Themen