Quero adicionar um novo “Chat Bot” e vinculá-lo a um LLM auto-hospedado.
Tentei usar o campo “ai hugging face model display name” e isso não parece aparecer em lugar nenhum, talvez eu tenha que referenciá-lo nos prompts associados a uma persona?
Também tentei “criar” um novo bot através do menu suspenso “ai bot enable chat bots”, e qualquer coisa que eu crie aparece no menu suspenso de chatbot como " [en.discourse_ai.ai_bot.bot_names.XXXX] ", onde XXXX é o nome que forneci.
Qualquer dica de documentação ou guia sobre como fazer isso seria apreciada.
Alguém pode oferecer alguma sugestão ou isso é uma limitação conhecida?
@Roman está trabalhando na refatoração desta seção, espere mais novidades nas próximas semanas
Não tenho certeza se interpreto corretamente que atualmente não é possível usar um LLM auto-hospedado, mas isso mudará em breve?
Não é possível no momento, mas esperamos que em uma ou duas semanas tenhamos isso funcionando.
Obrigado. Fiquei surpreso que não funcionou, já que a OpenAI é suportada. Acho que muitas pessoas executam seus próprios LLMs com um endpoint compatível com a OpenAI. Aguardarei ansiosamente a atualização em 2 semanas ![]()
Por curiosidade, @Isambard, qual é a sua estimativa de quanto custará para você hospedar um LLM local suficientemente poderoso em uma base mensal (equivalente em dólares)?
Cerca de um mínimo de US$ 5 em custos adicionais de eletricidade por mês para a GPU ociosa - embora, na realidade, o custo incremental para o Discourse seja zero, já que eu já executo o LLM para outros fins.
Mas, com certeza, seria mais econômico para fóruns pequenos e de baixo uso usar um LLM como serviço. Embora, para a escala da oferta hospedada do Discourse, eu suspeite que possa fazer sentido hospedá-lo internamente (e também desenvolver conhecimento nessa área que provavelmente será importante).
E 15 mil para a A100?
Qual modelo em particular você está executando localmente?
Estou executando várias coisas diferentes. Para coisas do Discourse, executarei um modelo de 7B baseado em Mistral e ajustado para as tarefas. Estou analisando vários modelos semelhantes ao BERT para tarefas de classificação e ainda não decidi sobre os embeddings. Isso roda em uma 3090 Ti de segunda mão que comprei por US$ 700.
Eu adoraria ter uma A100, mas em vez disso, construí um sistema separado de 4 GPUs “barato” por apenas US$ 1.000 que executa Llama 3 70Bq4 a mais de 20 tok/s.
Com certeza, em muitos/na maioria dos casos, faria sentido simplesmente usar um provedor, no entanto, pode fazer sentido fazer você mesmo se:
- Você quer aprender
- Você quer ter certeza de controle sobre seus modelos (para não perder o acesso a eles, ou ficar dependente de uma empresa para usar seus embeddings não públicos)
- Você tem muito processamento em massa para fazer, o que seria mais barato fazer internamente
- Você deseja capacidade reservada e confiável (há limites tanto para solicitações quanto para tokens disponíveis de provedores) para processamento em massa
Eu fiz o benchmark da 3090 e obtive uma taxa de transferência sustentada máxima de cerca de 2600 tokens por segundo executando Llama 3 - 8B FP16. Eu moro em uma região com eletricidade cara, mas executando continuamente com um limite de energia de 285W, custaria cerca de US$ 0,007 por milhão de tokens de saída. Ou aproximadamente US$ 0,01 por milhão de tokens se você depreciar totalmente o custo do equipamento ao longo de 3 anos.
Isso se compara bastante favoravelmente ao Claude Haiku, desde que você tenha uma taxa de utilização razoável.
Fiz uma descoberta interessante: o servidor web em que estou hospedando meu fórum tem potência suficiente para executar um LLM pequeno em velocidades modestas (6 tok/s sem batching), mesmo sem uma GPU. Isso será útil para tarefas offline/em segundo plano.