Explicarei a integração do Discourse AI para a equipe na próxima semana. Já temos algumas chaves de API, MAS, todas são para contas PAGAS.
Tenho certeza de que me perguntarão: existem recursos que podem ser integrados e usados gratuitamente? Isso é para uma escola e temos certeza de que os alunos podem querer usar tudo, mas os custos serão exorbitantes.
Obrigado
Na verdade, o Llama 3 é gratuito, mas pelo que entendi, é preciso um computador de US$ 300.000 para executá-lo.
Se você tiver algum orçamento, poderia configurá-lo de forma que pague esse valor mensalmente para qualquer serviço que desejar e, quando o valor for consumido no mês, ele será consumido. Você tentaria configurar limites para que isso não acontecesse na primeira semana (ou dia). Seria complicado configurá-lo de forma que os professores que quisessem usá-lo como parte da aula pudessem contar com ele.
Como uma escola, talvez vocês possam se inscrever para créditos educacionais gratuitos em serviços como AWS, Azure ou GCP e usá-los para potencializar os recursos de IA do Discourse.
Para que valha a pena, você pode executar a versão 70b do Llama3 com 48GB de VRAM, que você pode obter relativamente fácil de um par de Nvidia RTX 3090 usadas do eBay por cerca de US$ 750 cada. Montar o resto de um sistema para suportar isso custaria na faixa de US$ 3000, eu espero.
Gemini Flash é muito barato e a API DeepSeek é tão barata que é quase de graça.
Se precisar rodar localmente, você pode montar uma máquina por menos de US$ 1000 que pode rodar modelos Llama. Montei uma máquina 4xP100 por US$ 1000 que tem 64 GB de VRAM. Mas uma máquina 2xP40 com 48 GB de VRAM seria suficiente para rodar Llama 70B e pode ser montada por US$ 600 se você comprar peças usadas.
Para o máximo em economia, você poderia rodar em uma única GPU P40 com quantização AQLM, mas isso seria bem lento (~1 tok/s).
Interessante que ninguém está considerando os custos de eletricidade para todas essas soluções de auto-hospedagem. Acho que essa é uma fatura consolidada que não pode ser rastreada até uma máquina específica de qualquer maneira…
Você acabou de tocar em um assunto que um amigo que trabalha para uma empresa de serviços públicos mencionou outro dia como consequência do trabalho remoto. As unidades de ar condicionado/aquecimento agora estão funcionando 24 horas por dia, 7 dias por semana, porque as pessoas têm que usá-las sem parar. O resultado tem sido contas de serviços públicos astronômicas para muitos.