Quiero añadir un nuevo “Chat Bot” y vincularlo a un LLM autoalojado.
He intentado usar el campo “ai hugging face model display name” y este no parece aparecer en ningún sitio, ¿quizás tengo que referenciarlo en los prompts asociados a una persona?
También he intentado “crear” un nuevo bot a través del desplegable “ai bot enable chat bots”, y cualquier cosa que creo aparece en el desplegable de chatbot como " [en.discourse_ai.ai_bot.bot_names.XXXX] " donde XXXX es el nombre que proporcioné.
Agradecería cualquier consejo sobre documentación o guía para hacer esto.
¿Alguien puede ofrecer alguna sugerencia o es esta una limitación conocida?
@Roman está trabajando en la refactorización de esta sección, espere más noticias en las próximas semanas.
No estoy seguro de si interpreto correctamente que actualmente no es posible usar un LLM autoalojado, ¿pero esto cambiará pronto?
No es posible en este momento, pero esperamos que en una o dos semanas esto funcione.
Gracias. Me sorprendió que no funcionara, ya que OpenAI es compatible. Creo que muchas personas ejecutan sus propios LLM con un endpoint compatible con OpenAI. Esperaré la actualización en 2 semanas ![]()
Por cierto @Isambard, ¿cuál es tu estimación de cuánto te costará alojar un LLM local suficientemente potente al mes (equivalente en dólares)?
A un mínimo de $5 adicionales en costos de electricidad por mes para la GPU en reposo, aunque en realidad, el costo incremental para Discourse es cero ya que ya ejecuto el LLM para otros propósitos.
Pero, sin duda, sería más económico para foros pequeños y de bajo uso utilizar un LLM como servicio. Sin embargo, para la escala de la oferta alojada de Discourse, sospecho que podría tener sentido alojarlo internamente (y también desarrollar conocimientos en esta área que probablemente será importante).
¿Y 15.000 para la A100?
¿Qué modelo en particular estás ejecutando localmente?
Estoy ejecutando varias cosas diferentes. Para cosas de Discourse, ejecutaré un modelo de 7B basado en Mistral y ajustado para las tareas. Estoy considerando varios modelos similares a BERT para tareas de clasificación y todavía no estoy decidido sobre las incrustaciones. Esto se ejecuta en una 3090 Ti de segunda mano que compré por $700.
Me encantaría tener una A100, pero en cambio, construí un sistema separado de 4 GPU “barato” por solo $1,000 que ejecuta Llama 3 70Bq4 a más de 20 tok/s.
Sin duda, en muchos/la mayoría de los casos, tendría sentido simplemente optar por un proveedor, sin embargo, podría tener sentido hacerlo uno mismo si:
- Quieres aprender
- Quieres tener certeza de control sobre tus modelos (para no perder el acceso a ellos, o depender de una empresa para usar sus incrustaciones no públicas)
- Tienes mucho procesamiento masivo que hacer, lo que sería más barato hacer internamente
- Quieres capacidad reservada y confiable (hay límites tanto en solicitudes como en tokens disponibles de los proveedores) para el procesamiento masivo.
Medí la 3090 y obtuve un rendimiento máximo sostenido de alrededor de 2600 tokens por segundo ejecutando Llama 3 - 8B FP16. Vivo en una región con electricidad cara, pero ejecutándolo continuamente con un límite de potencia de 285W, costaría alrededor de $0.007 por millón de tokens de salida. O aproximadamente $0.01 por millón de tokens si se amortiza completamente el costo del equipo durante 3 años.
Esto se compara bastante favorablemente con Claude Haiku, siempre que tenga una tasa de utilización razonable.
Hice un descubrimiento interesante: el servidor web en el que estoy alojando mi foro tiene la potencia suficiente para ejecutar un LLM pequeño a velocidades modestas (6 tok/s sin lotes) incluso sin una GPU. Esto será útil para tareas fuera de línea/en segundo plano.