Je souhaite ajouter un nouveau « Chat Bot » et le lier à un LLM auto-hébergé.
J’ai essayé d’utiliser le champ « ai hugging face model display name » et cela ne semble apparaître nulle part. Peut-être dois-je y faire référence dans les prompts associés à un persona ?
J’ai également essayé de « créer » un nouveau bot via le menu déroulant « ai bot enable chat bots », et tout ce que je crée apparaît dans le menu déroulant des chatbots sous la forme « [en.discourse_ai.ai_bot.bot_names.XXXX] » où XXXX est le nom que j’ai fourni.
Tout conseil sur la documentation ou un guide pour faire cela serait apprécié.
Quelqu’un peut-il proposer des suggestions ou s’agit-il d’une limitation connue ?
@Roman travaille à la refonte de cette section, attendez-vous à plus d’informations dans les semaines à venir.
Je ne suis pas sûr d’interpréter correctement que pour le moment, il n’est pas possible d’utiliser un LLM auto-hébergé, mais que cela va bientôt changer ?
Ce n’est pas possible pour le moment, mais j’espère que dans une semaine ou deux, cela fonctionnera.
Merci. J’ai été surpris que cela ne fonctionne pas car OpenAI est pris en charge. Je pense que beaucoup de gens exécutent leurs propres LLM avec un point de terminaison compatible avec OpenAI. J’attends avec impatience la mise à jour dans 2 semaines ![]()
Juste par curiosité @Isambard, quelle est votre estimation du coût mensuel (équivalent en dollars) pour héberger un LLM local suffisamment puissant ?
Environ 5 $ supplémentaires par mois en coûts d’électricité pour le GPU au ralenti - bien qu’en réalité, le coût supplémentaire pour Discourse soit nul puisque j’exécute déjà le LLM à d’autres fins.
Mais il serait certainement plus économique pour les petits forums et une faible utilisation d’utiliser un LLM en tant que service. Bien que pour l’échelle de l’offre hébergée de Discourse, je soupçonne qu’il pourrait être judicieux d’héberger en interne (et aussi de développer des connaissances dans ce domaine qui sera probablement important).
Et 15 000 pour l’A100 ?
Quel modèle exécutez-vous particulièrement localement ?
J’exécute plusieurs choses différentes. Pour les aspects liés à Discourse, j’utiliserai un modèle 7B basé sur Mistral et affiné pour les tâches. J’examine divers modèles de type BERT pour les tâches de classification et je ne suis pas encore décidé pour les embeddings. Cela fonctionne sur une 3090 Ti d’occasion que j’ai achetée pour 700 $.
J’aimerais beaucoup avoir une A100, mais au lieu de cela, j’ai construit un système séparé à 4 GPU « à bas prix » pour seulement 1 000 $ qui exécute Llama 3 70Bq4 à plus de 20 tok/s.
Il est certain que dans de nombreux cas, il serait judicieux de passer par un fournisseur, cependant, cela pourrait être judicieux de le faire soi-même si :
- Vous voulez apprendre
- Vous voulez avoir un contrôle certain sur vos modèles (pour ne pas perdre l’accès à ceux-ci, ou dépendre d’une entreprise pour utiliser ses embeddings non publics)
- Vous avez beaucoup de traitement en masse à effectuer, ce qui serait moins cher à faire en interne
- Vous souhaitez une capacité réservée et fiable (il y a des limites sur les requêtes et les jetons disponibles auprès des fournisseurs) pour le traitement en masse
J’ai effectué des tests comparatifs sur la 3090 et j’ai obtenu un débit soutenu maximal d’environ 2600 tokens par seconde en exécutant Llama 3 - 8B FP16. Je vis dans une région où l’électricité est chère, mais en fonctionnant en continu avec une limite de puissance de 285W, cela coûterait environ 0,007 par million de tokens de sortie. Ou environ 0,01 par million de tokens si vous amortissez entièrement le coût de l’équipement sur 3 ans.
Cela se compare très favorablement à Claude Haiku à condition d’avoir un taux d’utilisation raisonnable.
J’ai fait une découverte intéressante : le serveur web sur lequel j’héberge mon forum a suffisamment de puissance pour faire tourner un petit LLM à des vitesses modestes (6 tok/s sans batching) même sans GPU. Cela sera utile pour les tâches hors ligne/en arrière-plan.