Come aggiungere un nuovo Chat Bot collegato a un LLM auto-ospitato

Voglio aggiungere un nuovo “Chat Bot” e collegarlo a un LLM self-hosted.
Ho provato a usare il campo “ai hugging face model display name” e questo non sembra apparire da nessuna parte, forse devo fare riferimento a questo nei prompt associati a una persona?
Ho anche provato a “creare” un nuovo bot tramite il menu a discesa “ai bot enable chat bots”, e qualsiasi cosa crei appare nel menu a discesa chatbot come " [en.discourse_ai.ai_bot.bot_names.XXXX] dove XXXX è il nome che ho fornito.
Qualsiasi suggerimento o documentazione su come fare questo sarebbe apprezzato.

Qualcuno può offrire qualche suggerimento o si tratta di una limitazione nota?

@Roman sta lavorando alla refattorizzazione di questa sezione, aspettatevi ulteriori novità nelle prossime settimane

3 Mi Piace

Non sono sicuro di interpretare correttamente che al momento non sia possibile utilizzare un LLM self-hosted, ma che questo cambierà presto?

Non è possibile al momento, ma si spera che tra una o due settimane avremo questo funzionante.

Grazie. Sono rimasto sorpreso che non abbia funzionato dato che OpenAI è supportato. Penso che molte persone eseguano i propri LLM con un endpoint compatibile con OpenAI. Attenderò con ansia l’aggiornamento tra 2 settimane :slight_smile:

1 Mi Piace

Per curiosità @Isambard qual è la tua stima di quanto ti costerà ospitare un LLM locale sufficientemente potente su base mensile (equivalente in dollari)?

Circa un minimo di $5 di costi aggiuntivi per l’elettricità al mese per la GPU in idle, anche se in realtà il costo incrementale per Discourse è zero poiché eseguo già l’LLM per altri scopi.

Ma di sicuro, sarebbe più economico per forum piccoli e a basso utilizzo utilizzare un LLM come servizio. Anche se per la scala dell’offerta ospitata di Discourse, sospetto che potrebbe avere senso ospitarlo internamente (e anche sviluppare conoscenze in questo settore che probabilmente saranno importanti).

1 Mi Piace

E 15k per l’A100?

Quale modello esegui in particolare in locale?

1 Mi Piace

Sto eseguendo diverse cose. Per le cose di Discourse, eseguirò un modello da 7B basato su Mistral e ottimizzato per i compiti. Sto esaminando vari modelli simili a BERT per i compiti di classificazione e sono ancora indeciso sugli embedding. Questo gira su una 3090 Ti usata che ho comprato per $700.

Mi piacerebbe avere una A100, ma invece ho costruito un sistema separato con 4 GPU “a basso costo” per soli $1.000 che esegue Llama 3 70Bq4 a oltre 20 tok/s.

Sicuramente in molti/molti casi avrebbe senso rivolgersi a un provider, tuttavia, potrebbe avere senso il fai-da-te se:

  • Vuoi imparare
  • Vuoi avere un controllo certo sui tuoi modelli (in modo da non perderne l’accesso, o essere vincolato a un’azienda per utilizzare i loro embedding non pubblici)
  • Hai molto elaborazione di massa da fare che sarebbe più economica da fare internamente
  • Vuoi capacità riservata e affidabile (ci sono limiti sia alle richieste che ai token disponibili dai provider) per l’elaborazione di massa
4 Mi Piace

Ho eseguito il benchmark della 3090 ottenendo una velocità effettiva massima sostenuta di circa 2600 token al secondo eseguendo Llama 3 - 8B FP16. Vivo in una regione con elettricità costosa, ma eseguendola continuamente con un limite di potenza di 285 W, costerebbe circa $0,007 per milione di token di output. O circa $0,01 per milione di token se si ammortizza completamente il costo dell’attrezzatura su 3 anni.

Questo si confronta abbastanza favorevolmente con Claude Haiku, a condizione che si disponga di un tasso di utilizzo ragionevole.

2 Mi Piace

Ho fatto una scoperta interessante: il server web su cui ospito il mio forum ha abbastanza potenza per eseguire un piccolo LLM a velocità modeste (6 tok/s senza batching) anche senza una GPU. Questo sarà utile per attività offline/in background.

1 Mi Piace