Abilitare la ricerca AI ha paralizzato il mio server

Ho abilitato “AI embeddings enabled” ieri sera e il riempimento è avvenuto in background. Oggi ho abilitato “AI embeddings semantic search enabled” e la CPU è salita al 100% costantemente con un enorme arretrato nella coda di sidekiq. La ricerca ha smesso di funzionare completamente sul server.

Ho disabilitato la ricerca semantica e il server è tornato alla normalità della CPU in pochi minuti con tutta la coda svuotata.

Quindi c’è un modo per farlo diversamente o è questo il comportamento previsto?

2 Mi Piace

Mi piacerebbe saperne di più sul tuo profilo “hardware” se fai self-hosting; ho pensato di fare lo stesso sui miei server, ma non sono sicuro dell’impatto. Questo mi dice aneddoticamente che dovrei aspettare o elaborare un piano migliore.

Quella volta Jobs::GenerateEmbeddings dovrebbe richiedere secondi per colpo, perché stai effettuando una chiamata API a un servizio di embedding per ottenere i dati. Quel grafico è normale, mostra solo che qualcosa sta richiedendo tempo, un’altra GPU nel cloud sta effettivamente eseguendo il lavoro.

L’aumento della CPU è molto inaspettato, forse la tua configurazione PG ha iniziato ad essere estremamente sotto stress di risorse e inserire circa 1000 numeri di seguito è sufficiente per danneggiarla.

Abbiamo bisogno di molti più dati qui per aiutare a diagnosticare, quali sono le specifiche del server? Cosa mostrano i grafici CPU effettivi, quale processo sta consumando la CPU, quale servizio di embedding stai utilizzando, ecc…

Vedo che hai condiviso solo un grafico della durata del lavoro di sidekick, e mostra che dopo aver abilitato gli embeddings Discourse stava correttamente riempiendo quelli arretrati.

Puoi condividere maggiori informazioni sulla tua configurazione? Qual è il fornitore degli embeddings? È un’API di terze parti o la stai anche auto-ospitando? Quanti argomenti hai? Quali sono le specifiche del database?

Sono su un server DO con 16 GB di memoria / 4 vCPU Intel. Utilizzo text-embedding-3-small di OpenAI.

L’utilizzo della CPU è solitamente intorno al 50% o meno. Questo è ciò che è successo quando ho abilitato la ricerca semantica. Ci sono circa 2,5 milioni di post e 250 mila argomenti. Non ho abilitato gli embedding per i messaggi privati (PM), altrimenti aggiungerebbero altri 1 milione di post e 100 mila argomenti.

1 Mi Piace