Habilitar la búsqueda de IA paralizó mi servidor

Anoche habilité “AI embeddings enabled” y el relleno se estaba realizando en segundo plano. Hoy habilité “AI embeddings semantic search enabled” y la CPU se disparó al 100 constantemente con una gran acumulación en la cola de sidekiq. La búsqueda dejó de funcionar por completo en el servidor.

Deshabilité la búsqueda semántica y la CPU del servidor volvió a la normalidad en minutos con toda la cola despejada.

Entonces, ¿hay alguna forma de hacer esto de manera diferente o es esto lo esperado?

2 Me gusta

Me encantaría saber más sobre su perfil de “hardware” si lo aloja usted mismo; he pensado en hacer lo mismo en mis servidores, pero no estoy seguro del impacto. Esto me dice anecdóticamente que debería esperar o elaborar un plan mejor.

Esa vez se espera que Jobs::GenerateEmbeddings tarde segundos en ejecutarse, ya que está realizando una llamada a una API de un servicio de incrustación (embedding) para obtener los datos. Ese gráfico es normal, solo muestra que algo está tardando, otra GPU en la nube está haciendo el trabajo.

Que la CPU se dispare es muy inesperado, tal vez su configuración de PG comenzó extremadamente limitada en recursos y la inserción de unos 1000 números seguidos es suficiente para afectarla.

Necesitamos muchos más datos aquí para ayudar a diagnosticar, ¿cuáles son las especificaciones del servidor? ¿Qué muestran los gráficos reales de la CPU, qué proceso está consumiendo CPU, qué servicio de incrustación está utilizando, etc…?

Solo veo que compartiste un gráfico de duración de trabajos secundarios, y muestra que después de habilitar los embeddings, Discourse estaba rellenándolos correctamente.

¿Puedes compartir más información sobre tu configuración? ¿Cuál es el proveedor de embeddings? ¿Es una API de terceros o también lo estás autoalojando? ¿Cuántos temas tienes? ¿Cuáles son las especificaciones de la base de datos?

Estoy en un servidor DO de 16 GB de memoria / 4 vCPUs Intel. Usando Open AI text-embedding-3-small.

La utilización de la CPU suele ser de alrededor del 50% o menos. Así es como se comportó cuando habilité la búsqueda semántica. Hay alrededor de 2.5M de publicaciones y 250K temas. No he habilitado las incrustaciones para PM, de lo contrario, se agregarían otros 1M de publicaciones y 100K temas.

1 me gusta