Cosa dà il risultato più ragionevole: CPU o RAM?

So che domande come quanto è tanto o emacs è meglio di vi, quando c’è nano sono difficili e impossibili da rispondere, ma comunque.

Sto pensando di creare un nuovo droplet su DigitalOcean solo per queste cose sull’IA. Quindi, quale offre il miglior rapporto denaro/beneficio su un forum altrimenti a basso traffico con pochissimi soldi in gioco, e quando l’obiettivo è 16 GB di RAM:

  • basic, 112 € — 8 core Intel o AMD
  • general, 126 € — 4 core
  • CPU-optimized, 168 € — 8 core Intel regolari
  • memory-optimized, 84 € — 2 core

(l’USD è quasi uguale all’euro al giorno d’oggi)

Di nuovo, non so niente, ma poiché Discourse è un’app dipendente dal client o qualcosa del genere, totalmente diversa da WordPress basato su PHP, non ha bisogno di molta potenza CPU, o sono completamente fuori strada? Ma le soluzioni AI cambiano completamente il gioco e necessitano di RAM e CPU?

E la domanda effettiva e reale è, ovviamente: quali sono i costi minimi se si desidera, ad esempio, il blocco Argomenti Correlati?

Il problema principale con la funzione AI “Argomenti correlati” è che devi generare embedding per tutti i tuoi argomenti esistenti. Nei forum di grandi dimensioni ciò richiede tempo ed è la parte “costosa” dell’operazione. Tuttavia, devi eseguirla solo una volta, quindi puoi sfruttare istanze orarie per pagare il minimo indispensabile qui.

La generazione di embedding per Meta mi ha richiesto circa 1 ora. Quindi puoi, ad esempio, ottenere un VPS con una NVIDIA A100 completa per un’ora per eseguirla e pagare meno di 3 dollari!

Dopo aver generato tutti questi embedding, devi solo generarne di nuovi per argomenti nuovi e modificati, e lì probabilmente puoi cavartela con l’inferenza basata su CPU.

Quindi diciamo che ora hai:

  1. Un droplet su Digital Ocean che esegue Discourse

Durante il backfill puoi avere:

  1. Un droplet su Digital Ocean che esegue Discourse
  2. Un droplet su Digital Ocean che esegue PostgreSQL per memorizzare gli embedding
  3. Un VPS su Vultr per calcolare rapidamente gli embedding

Dopo il backfill lo cambi in:

  1. Un droplet su Digital Ocean che esegue Discourse
  2. Un droplet su Digital Ocean che esegue PostgreSQL per memorizzare gli embedding e ora anche il servizio di embedding

Per quanto riguarda la dimensione del droplet per il punto 2, uno piccolo con 4 GB di RAM potrebbe essere sufficiente, devo verificare quanto RAM utilizza quel container del servizio di embedding.

2 Mi Piace

Ci si deve chiedere se esista un modo per impacchettare questo servizio con un gioco su Steam e utilizzare Geforce Now per fare il lavoro :rofl:

2 Mi Piace

In realtà non sembra poi così male. Mi aspettavo qualcosa di molto più costoso, in termini di RAM e CPU.

Cosa diresti… questo pacchetto è ancora in fase di sviluppo, quindi dovrei aspettare ancora un po’ prima di fare un salto negli abissi :wink:

1 Mi Piace

Ci stiamo lavorando attivamente e apporteremo molte modifiche nelle prossime settimane, man mano che implementeremo questo plugin per i nostri clienti Enterprise e riceveremo feedback.

Detto questo, spendere meno di 10$ per provarlo e fornire questa funzionalità alla tua community, potendo fornire un feedback anticipato, mi sembra un ottimo affare, ma dipende dai tuoi vincoli di denaro e tempo.

Una cosa che sappiamo che accadrà è che al momento utilizziamo solo l’OP negli embedding degli argomenti correlati, e sperimenteremo il passaggio dell’OP e delle risposte che possono rientrare invece, il che significa dover rigenerare nuovamente tutti gli embedding. Ciò ti costerebbe altri 3$ e 1 ora del tuo tempo.

2 Mi Piace

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.