Como adicionar um novo Chat Bot conectado a um LLM hospedado por você

Nadeem · Março 6, 2024, 11:18pm

Quero adicionar um novo “Chat Bot” e vinculá-lo a um LLM auto-hospedado.
Tentei usar o campo “ai hugging face model display name” e isso não parece aparecer em lugar nenhum, talvez eu tenha que referenciá-lo nos prompts associados a uma persona?
Também tentei “criar” um novo bot através do menu suspenso “ai bot enable chat bots”, e qualquer coisa que eu crie aparece no menu suspenso de chatbot como " [en.discourse_ai.ai_bot.bot_names.XXXX] ", onde XXXX é o nome que forneci.
Qualquer dica de documentação ou guia sobre como fazer isso seria apreciada.

Nadeem · Abril 24, 2024, 10:25pm

Alguém pode oferecer alguma sugestão ou isso é uma limitação conhecida?

sam · Abril 24, 2024, 10:35pm

@Roman está trabalhando na refatoração desta seção, espere mais novidades nas próximas semanas

Isambard · Junho 2, 2024, 11:02am

Não tenho certeza se interpreto corretamente que atualmente não é possível usar um LLM auto-hospedado, mas isso mudará em breve?

sam · Junho 3, 2024, 2:11am

Não é possível no momento, mas esperamos que em uma ou duas semanas tenhamos isso funcionando.

Isambard · Junho 3, 2024, 8:23am

Obrigado. Fiquei surpreso que não funcionou, já que a OpenAI é suportada. Acho que muitas pessoas executam seus próprios LLMs com um endpoint compatível com a OpenAI. Aguardarei ansiosamente a atualização em 2 semanas

merefield · Junho 3, 2024, 8:37am

Por curiosidade, @Isambard, qual é a sua estimativa de quanto custará para você hospedar um LLM local suficientemente poderoso em uma base mensal (equivalente em dólares)?

Isambard · Junho 3, 2024, 5:06pm

Cerca de um mínimo de US$ 5 em custos adicionais de eletricidade por mês para a GPU ociosa - embora, na realidade, o custo incremental para o Discourse seja zero, já que eu já executo o LLM para outros fins.

Mas, com certeza, seria mais econômico para fóruns pequenos e de baixo uso usar um LLM como serviço. Embora, para a escala da oferta hospedada do Discourse, eu suspeite que possa fazer sentido hospedá-lo internamente (e também desenvolver conhecimento nessa área que provavelmente será importante).

sam · Junho 4, 2024, 12:12am

E 15 mil para a A100?

Qual modelo em particular você está executando localmente?

Isambard · Junho 4, 2024, 7:42pm

Estou executando várias coisas diferentes. Para coisas do Discourse, executarei um modelo de 7B baseado em Mistral e ajustado para as tarefas. Estou analisando vários modelos semelhantes ao BERT para tarefas de classificação e ainda não decidi sobre os embeddings. Isso roda em uma 3090 Ti de segunda mão que comprei por US$ 700.

Eu adoraria ter uma A100, mas em vez disso, construí um sistema separado de 4 GPUs “barato” por apenas US$ 1.000 que executa Llama 3 70Bq4 a mais de 20 tok/s.

Com certeza, em muitos/na maioria dos casos, faria sentido simplesmente usar um provedor, no entanto, pode fazer sentido fazer você mesmo se:

Você quer aprender
Você quer ter certeza de controle sobre seus modelos (para não perder o acesso a eles, ou ficar dependente de uma empresa para usar seus embeddings não públicos)
Você tem muito processamento em massa para fazer, o que seria mais barato fazer internamente
Você deseja capacidade reservada e confiável (há limites tanto para solicitações quanto para tokens disponíveis de provedores) para processamento em massa

Isambard · Junho 5, 2024, 11:49am

Eu fiz o benchmark da 3090 e obtive uma taxa de transferência sustentada máxima de cerca de 2600 tokens por segundo executando Llama 3 - 8B FP16. Eu moro em uma região com eletricidade cara, mas executando continuamente com um limite de energia de 285W, custaria cerca de US$ 0,007 por milhão de tokens de saída. Ou aproximadamente US$ 0,01 por milhão de tokens se você depreciar totalmente o custo do equipamento ao longo de 3 anos.

Isso se compara bastante favoravelmente ao Claude Haiku, desde que você tenha uma taxa de utilização razoável.

Isambard · Agosto 12, 2024, 10:19pm

Fiz uma descoberta interessante: o servidor web em que estou hospedando meu fórum tem potência suficiente para executar um LLM pequeno em velocidades modestas (6 tok/s sem batching), mesmo sem uma GPU. Isso será útil para tarefas offline/em segundo plano.

Tópico		Respostas	Visualizações
How to configure Discourse to use a locally installed LLM? Support ai	8	167	17 de Setembro de 2025
Estimating cost of enabling Discourse AI for related content and search Support ai	2	46	28 de Outubro de 2025
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	5	3166	21 de Fevereiro de 2025
Adding a new Chat Bot when using AI plugin Support ai	0	395	12 de Março de 2024
How to use the hugging face llama2 chat bot Dev ai , ai-bot	2	543	9 de Março de 2024

Como adicionar um novo Chat Bot conectado a um LLM hospedado por você

Tópicos relacionados