Eu sei, perguntas como quanto é muito ou o emacs é melhor que o vi, quando existe o nano são difíceis e impossíveis de responder, mas ainda assim.
Estou pensando em criar um novo droplet na DigitalOcean apenas por causa dessas coisas de IA. Então, qual oferece a melhor relação custo/benefício em um fórum de baixo tráfego com muito pouco dinheiro envolvido, e quando o objetivo é 16 GB de RAM:
básico, 112 € — 8 núcleos Intel ou AMD
geral, 126 € — 4 núcleos
otimizado para CPU, 168 € — 8 núcleos Intel regular
otimizado para memória, 84 € — 2 núcleos
(O dólar é quase o mesmo que o euro hoje em dia)
Novamente — eu não sei nada — mas como o Discourse é um aplicativo dependente do cliente ou algo assim, totalmente diferente do WordPress baseado em PHP, ele não precisa de tanta potência de CPU, ou estou totalmente perdido? Mas as soluções de IA mudam completamente esse cenário e precisam de RAM e CPU?
E a pergunta real e atual é, claro: quais são os custos mínimos se alguém quiser, por exemplo, o bloco Tópicos Relacionados?
O principal problema com a IA “Tópicos relacionados” é que você precisa gerar embeddings para todos os seus tópicos existentes. Em fóruns grandes, isso leva um tempo e é a parte “cara” da operação. No entanto, você só precisa executar isso uma vez, então pode usar instâncias horárias para pagar o mínimo aqui.
Gerar embeddings para o Meta levou cerca de 1 hora para mim. Então você pode, por exemplo, obter um VPS com uma NVIDIA A100 completa por uma hora para executá-lo e pagar menos de US$ 3 por isso!
Depois que todos esses embeddings já estiverem gerados, você só precisa gerar novos para tópicos novos e editados, e aí você provavelmente pode usar inferência baseada em CPU.
Então, digamos que você agora tenha:
Um droplet na Digital Ocean executando o Discourse
Durante o backfill, você pode ter:
Um droplet na Digital Ocean executando o Discourse
Um droplet na Digital Ocean executando o PostgreSQL para armazenar os embeddings
Um VPS na Vultr para computar os embeddings rapidamente
Após o backfill, você muda para:
Um droplet na Digital Ocean executando o Discourse
Um droplet na Digital Ocean executando o PostgreSQL para armazenar os embeddingse agora também o serviço de embeddings
Quanto ao tamanho do droplet para o item 2, um pequeno com 4 GB de RAM pode ser suficiente, preciso verificar quanto de RAM esse contêiner do serviço de embeddings está usando.
Estamos trabalhando ativamente nisso e faremos muitas alterações nas próximas semanas, à medida que implementarmos este plugin em nossos clientes corporativos e recebermos feedback.
Dito isso, gastar menos de US$ 10 para experimentar e fornecer este recurso para sua comunidade e poder dar feedback antecipado parece um ótimo negócio para mim, mas depende de suas restrições de dinheiro e tempo.
Uma coisa que sabemos que acontecerá é que, no momento, usamos apenas o OP nos embeddings de tópicos relacionados, e experimentaremos passar o OP e as respostas que couberem em vez disso, o que significa que precisaremos regenerar todos os embeddings novamente. Isso custaria US$ 3 e 1 hora do seu tempo novamente.