Ich möchte einen neuen “Chat Bot” hinzufügen und ihn mit einem selbst gehosteten LLM verknüpfen.
Ich habe versucht, das Feld “ai hugging face model display name” zu verwenden, aber das scheint nirgendwo aufzutauchen. Vielleicht muss ich darauf in den Prompts, die mit einer Persona verbunden sind, verweisen?
Ich habe auch versucht, einen neuen Bot über das Dropdown-Menü “ai bot enable chat bots” zu “erstellen”, und alles, was ich erstelle, erscheint im Chatbot-Dropdown als " [en.discourse_ai.ai_bot.bot_names.XXXX] ", wobei XXXX der Name ist, den ich angegeben habe.
Jeder Tipp zu Dokumentation oder Anleitungen, wie das geht, wäre willkommen.
Kann jemand Vorschläge machen oder ist dies eine bekannte Einschränkung?
@Roman arbeitet an der Umstrukturierung dieses Abschnitts, weitere Neuigkeiten in den kommenden Wochen erwarten
Ich bin mir nicht sicher, ob ich das richtig interpretiere, dass derzeit kein selbst gehostetes LLM verwendet werden kann, sich dies aber bald ändern wird?
Es ist im Moment nicht möglich, aber hoffentlich haben wir das in ein oder zwei Wochen funktionierend.
Danke. Ich war überrascht, dass es nicht funktionierte, da OpenAI unterstützt wird. Ich denke, viele Leute betreiben ihre eigenen LLMs mit einem OpenAI-kompatiblen Endpunkt. Ich freue mich auf das Update in 2 Wochen ![]()
Interessenshalber @Isambard, was schätzen Sie, wie viel es Sie monatlich kosten wird, ein ausreichend leistungsfähiges lokales LLM zu hosten (Dollar-Äquivalent)?
Etwa mindestens 5 US-Dollar zusätzliche Stromkosten pro Monat für die GPU im Leerlauf – obwohl die inkrementellen Kosten für Discourse in Wirklichkeit null betragen, da ich die LLM bereits für andere Zwecke betreibe.
Aber sicherlich wäre es für kleine Foren und geringe Nutzung wirtschaftlicher, eine LLM als Dienstleistung zu nutzen. Für die Größenordnung des angebotenen Discourse-Hostings vermute ich jedoch, dass es sinnvoll sein könnte, dies intern zu hosten (und auch Wissen in diesem Bereich zu entwickeln, der wahrscheinlich wichtig sein wird).
Und 15.000 für die A100?
Welches Modell betreiben Sie besonders lokal?
Ich führe mehrere verschiedene Dinge aus. Für Discourse-Sachen werde ich ein 7B-Modell verwenden, das auf Mistral basiert und für die Aufgaben feinabgestimmt ist. Ich schaue mir verschiedene BERT-ähnliche Modelle für Klassifizierungsaufgaben an und bin mir bei den Embeddings noch nicht sicher. Dies läuft auf einer gebrauchten 3090 Ti, die ich für 700 US-Dollar gekauft habe.
Ich hätte gerne eine A100, aber stattdessen habe ich ein separates 4-GPU-System „billig“ für nur 1.000 US-Dollar gebaut, das Llama 3 70Bq4 mit über 20 tok/s ausführt.
Sicherlich ist es in vielen/den meisten Fällen sinnvoll, sich einfach an einen Anbieter zu wenden. Es kann jedoch sinnvoll sein, dies selbst zu tun, wenn:
- Sie lernen möchten
- Sie die Gewissheit haben möchten, die Kontrolle über Ihre Modelle zu haben (damit Sie den Zugriff darauf nicht verlieren oder von einem Unternehmen abhängig sind, um deren nicht öffentliche Embeddings zu nutzen)
- Sie viele Massenverarbeitungsaufgaben durchführen müssen, die intern günstiger wären
- Sie reservierte und zuverlässige Kapazität wünschen (es gibt Grenzen für sowohl Anfragen als auch Token, die von Anbietern verfügbar sind) für die Massenverarbeitung
Ich habe die 3090 einem Benchmark unterzogen und eine maximale nachhaltige Durchsatzrate von etwa 2600 Tokens pro Sekunde beim Ausführen von Llama 3 - 8B FP16 erzielt. Ich lebe in einer Region mit hohen Strompreisen, aber bei kontinuierlichem Betrieb mit einem Stromlimit von 285 W würde es etwa 0,007 pro Million ausgegebener Tokens kosten. Oder ungefähr 0,01 pro Million Tokens, wenn Sie die Ausrüstungskosten über 3 Jahre vollständig abschreiben.
Dies schneidet im Vergleich zu Claude Haiku recht gut ab, vorausgesetzt, Sie haben eine angemessene Auslastungsrate.
Ich habe eine interessante Entdeckung gemacht: Der Webserver, auf dem ich mein Forum hoste, hat genügend Leistung, um einen kleinen LLM mit moderater Geschwindigkeit (6 tok/s ohne Batching) auch ohne GPU auszuführen. Dies wird für Offline-/Hintergrundaufgaben nützlich sein.