O que dá o resultado mais razoável: CPU ou RAM?

Eu sei, perguntas como quanto é muito ou o emacs é melhor que o vi, quando existe o nano são difíceis e impossíveis de responder, mas ainda assim.

Estou pensando em criar um novo droplet na DigitalOcean apenas por causa dessas coisas de IA. Então, qual oferece a melhor relação custo/benefício em um fórum de baixo tráfego com muito pouco dinheiro envolvido, e quando o objetivo é 16 GB de RAM:

  • básico, 112 € — 8 núcleos Intel ou AMD
  • geral, 126 € — 4 núcleos
  • otimizado para CPU, 168 € — 8 núcleos Intel regular
  • otimizado para memória, 84 € — 2 núcleos

(O dólar é quase o mesmo que o euro hoje em dia)

Novamente — eu não sei nada — mas como o Discourse é um aplicativo dependente do cliente ou algo assim, totalmente diferente do WordPress baseado em PHP, ele não precisa de tanta potência de CPU, ou estou totalmente perdido? Mas as soluções de IA mudam completamente esse cenário e precisam de RAM e CPU?

E a pergunta real e atual é, claro: quais são os custos mínimos se alguém quiser, por exemplo, o bloco Tópicos Relacionados?

O principal problema com a IA “Tópicos relacionados” é que você precisa gerar embeddings para todos os seus tópicos existentes. Em fóruns grandes, isso leva um tempo e é a parte “cara” da operação. No entanto, você só precisa executar isso uma vez, então pode usar instâncias horárias para pagar o mínimo aqui.

Gerar embeddings para o Meta levou cerca de 1 hora para mim. Então você pode, por exemplo, obter um VPS com uma NVIDIA A100 completa por uma hora para executá-lo e pagar menos de US$ 3 por isso!

Depois que todos esses embeddings já estiverem gerados, você só precisa gerar novos para tópicos novos e editados, e aí você provavelmente pode usar inferência baseada em CPU.

Então, digamos que você agora tenha:

  1. Um droplet na Digital Ocean executando o Discourse

Durante o backfill, você pode ter:

  1. Um droplet na Digital Ocean executando o Discourse
  2. Um droplet na Digital Ocean executando o PostgreSQL para armazenar os embeddings
  3. Um VPS na Vultr para computar os embeddings rapidamente

Após o backfill, você muda para:

  1. Um droplet na Digital Ocean executando o Discourse
  2. Um droplet na Digital Ocean executando o PostgreSQL para armazenar os embeddings e agora também o serviço de embeddings

Quanto ao tamanho do droplet para o item 2, um pequeno com 4 GB de RAM pode ser suficiente, preciso verificar quanto de RAM esse contêiner do serviço de embeddings está usando.

2 curtidas

Você tem que se perguntar se há uma maneira de empacotar este serviço com um jogo no Steam e usar o Geforce Now para fazer o trabalho :rofl:

2 curtidas

Na verdade, isso não parece tão ruim. Eu esperava algo muito mais caro, em termos de RAM e CPU.

O que você diria… todo esse pacote ainda está em desenvolvimento, então devo esperar um pouco mais antes de dar um salto nas profundezas :wink:

1 curtida

Estamos trabalhando ativamente nisso e faremos muitas alterações nas próximas semanas, à medida que implementarmos este plugin em nossos clientes corporativos e recebermos feedback.

Dito isso, gastar menos de US$ 10 para experimentar e fornecer este recurso para sua comunidade e poder dar feedback antecipado parece um ótimo negócio para mim, mas depende de suas restrições de dinheiro e tempo.

Uma coisa que sabemos que acontecerá é que, no momento, usamos apenas o OP nos embeddings de tópicos relacionados, e experimentaremos passar o OP e as respostas que couberem em vez disso, o que significa que precisaremos regenerar todos os embeddings novamente. Isso custaria US$ 3 e 1 hora do seu tempo novamente.

2 curtidas

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.