Uso alto de CPU (Ruby)

AstonJ · 25 Enero, 2025 01:50

Con bastante frecuencia veo un alto uso de CPU, y generalmente está alrededor del 85 %:

Anteriormente aparecía como unicorn.conf.r:

¿Podría esto indicar que UNICORN_WORKERS está configurado demasiado alto/bajo?

El servidor tiene 64 GB de RAM (generalmente muestra alrededor de 40 GB libres) y 6 núcleos, hay 4 instancias de Discourse en el servidor, cada una configurada en UNICORN_WORKERS: 8

¿Alguna idea o consejo sobre qué lo está causando o qué intentar? (Uno de los foros está en modo de solo lectura y no recibe mucho tráfico, ¿debería configurarse para tener menos trabajadores?)

Jagster · 25 Enero, 2025 09:16

No lo sé, pero mi apuesta es que estás usando muchos más trabajadores de los que tus núcleos pueden ofrecer.

NateDhaliwal · 25 Enero, 2025 09:22

Sí. También sugiero disminuir el número de trabajadores de unicornio:

pfaffman · 25 Enero, 2025 10:25

Podrías intentar reducir los trabajadores de unicorn.

AstonJ · 26 Enero, 2025 00:25

Gracias por las respuestas a todos. No estoy seguro de dónde lo leí ahora, pero siempre pensé que debíamos configurar 2 trabajadores por núcleo. He reducido los trabajadores ahora por foro, asignando más a los foros más activos y menos a los que no lo están tanto. Supervisaré las cosas durante la próxima semana y volveré a informar si no ha ayudado.

Editar: Creo que lo leí aquí.

Stephen · 28 Enero, 2025 17:52

En su caso, sin embargo, no está asignando dos trabajadores por núcleo. Tiene seis núcleos, lo que significaría doce trabajadores, pero tiene cuatro instancias, cada una usando ocho trabajadores, para un total de 32.

AstonJ · 28 Enero, 2025 17:58

Sí… He ajustado para que el número total de trabajadores no sea mayor que el doble del número de núcleos, aunque todavía me pregunto: ¿cuál es el consejo correcto/estándar, lo que dijiste o lo que estaba en la publicación de Nate, donde cita a Jeff diciendo 1 trabajador por núcleo?

Según mis propios experimentos, 1 trabajador por núcleo resulta en tiempos de espera (pero reduce la carga del servidor), más trabajadores resultan en un mejor rendimiento pero una mayor carga (que en mi servidor todavía está dentro de un rango aceptable).

Stephen · 28 Enero, 2025 21:57

Echa un vistazo a discourse-setup, que se encarga de la escalabilidad para nuevas instalaciones hoy en día:

# UNICORN_WORKERS: 2 * GB para 2GB o menos, o 2 * CPU, máximo 8
  if [ "$avail_gb" -le "2" ]
  then
    unicorn_workers=$(( 2 * $avail_gb ))
  else
    unicorn_workers=$(( 2 * $avail_cores ))
  fi
  unicorn_workers=$(( unicorn_workers < 8 ? unicorn_workers : 8 ))

Esa segunda declaración, que utiliza el doble del número de núcleos disponibles, es la predeterminada en sistemas con más de 2 GB de RAM. Parece que tu problema se debe más a un tira y afloja entre tus instancias (recursos del host) que a un problema de discourse.

markschmucker · 29 Enero, 2025 16:31

Estoy viendo lo mismo después de mi última actualización, que fue un día después del OP, así que no creo que esto tenga nada que ver con el número de trabajadores de unicornio. El proceso unicorn.conf.r* es sospechoso, porque la publicación original de este tema es el único resultado para ese término en toda la web. Creo que unicorn.conf.rb sería más normal.

El aumento ocurrió exactamente en mi última actualización, hace 4 días. Tenga en cuenta que el OP publicó hace 5 días. Algo cambió en Discourse.

He usado el mismo número de trabajadores de unicornio en la misma instancia durante varios años, y no cambié nada, solo reconstruí a 3.4.0.beta4-dev.

markschmucker · 29 Enero, 2025 21:09

Para que conste, no hay trabajos de larga duración ni fallidos en sidekiq.

markschmucker · 30 Enero, 2025 13:30

Recompilé sin complementos (excepto el administrador de Docker) y el problema persiste, por lo que no es culpa de ningún complemento.

¿Alguna pista aquí?

AstonJ · 30 Enero, 2025 17:34

Acabo de actualizar a la última versión de Discourse y ya no veo unicorn.conf.r* (ahora cualquier cosa alrededor del 80% de la marca de CPU es solo ruby, aunque parece menos frecuente). Las cargas son aproximadamente las mismas (aunque menores que después de hacer esos ajustes de trabajadores).

¿Te has actualizado a la última versión? ¿Qué tipo de hardware tienes y qué tan ocupado está tu foro?

markschmucker · 30 Enero, 2025 17:47

Sí, estoy en la versión 3.4.0.beta4-dev. Eso es lo que inició el alto uso de CPU. Nada más cambió.

8 GB de RAM, 2 vCPUs, SSD de 160 GB con mucho espacio.

Publiqué el uso de CPU anterior para mi sitio de producción, que tiene alrededor de 30 usuarios en línea a la vez. Pero tengo un sitio de prueba con el mismo problema y no hay absolutamente nada de tráfico ni plugins allí. Uso de CPU antes y después de actualizar (los picos son copias de seguridad diarias):

AstonJ · 31 Enero, 2025 09:24

No estoy seguro de si nuestras situaciones están relacionadas, Mark. Creo que en mi caso, lo que dijo Stephen jugó un papel importante:

Recientemente trasladé otras dos instancias al mismo servidor y había olvidado que los workers de unicorn estaban configurados en 8 porque anteriormente estábamos en un servidor con más núcleos (pero tenía sus propios problemas, por lo que volvimos a un Xeon que tenía menos núcleos pero funcionaba mejor en general).

Así que lo que descubrí fue que reducir los workers de unicorn en este servidor redujo la carga, pero comenzó a darnos tiempos de espera, aumentarlos erradicó los tiempos de espera pero resultó en una carga mayor, aunque todavía dentro de un rango aceptable. Creo que podría aumentar los workers y aún podríamos manejar la carga aumentada, pero lo que tenemos ahora es bueno por ahora.

Habiendo dicho eso, había trasladado las instancias al mismo servidor y estaba funcionando dentro de lo que hubiera esperado (la carga aumentó pero no mucho) y sentí que una actualización resultó en cargas más altas… sin embargo, no puedo estar seguro de eso, y debemos tener en cuenta que de vez en cuando, a medida que Discourse obtiene más funciones, puede requerir hardware más potente o resultar en que a veces se sienta “más lento” (tuve algunas instancias de Discourse en versiones antiguas y se sentían notablemente más ágiles, aunque por supuesto no tenían todas las funciones de las versiones más nuevas).

Habiendo dicho eso también, creo que las cargas en realidad han disminuido un poco desde la última actualización de Discourse (con PG 15).

No estoy seguro de qué sugerirte, Mark, ¿quizás jugar con los workers y algunas de las otras configuraciones también? ¿Como db_shared_buffers y db_work_mem? ¿Quizás iniciar un hilo dedicado del tipo “Uso alto de CPU después de la actualización - ¿necesita mi instancia ajustes de rendimiento?” O algo así

LotusJeff · 1 Febrero, 2025 04:17

Me actualicé esta noche e inmediatamente noté una diferencia en el uso de la CPU en mi sitio. Aquí hay un gráfico de antes, durante y después de la actualización. Esto representa una duración de una hora.

Instalación estándar de un solo contenedor de Discourse ejecutándose en un DO - 8 GB de RAM, 2 vCPUs y SSD de 100 GB con mucho espacio.

Veremos cómo se ve después de 12 horas.

LotusJeff · 1 Febrero, 2025 19:18

Aquí están los resultados 15 horas después de la actualización. El porcentaje de uso de la CPU ha aumentado drásticamente en 3 veces. El factor de carga ha aumentado en 4 veces.

Promedio Mín.	Pre-actualización	Post-actualización
5	.11	.4
15	.10	.45

Vista de 24 horas:

Java es el principal consumidor de CPU. Algo ha cambiado drásticamente en la última actualización.

¿Qué información necesita el equipo de Discourse para solucionar problemas?
¿Debería este tema trasladarse a un error?

AstonJ · 3 Febrero, 2025 11:28

Así que parece que mi problema no fueron los unicorn workers después de todo. Después de la actualización de @sam, siguiendo el hilo de @LotusJeff, las cargas del servidor han vuelto a ser las que eran (menos de la mitad de lo que habían aumentado)…

markschmucker · 3 Febrero, 2025 14:02

Esto también solucionó mi problema.

AstonJ · 3 Febrero, 2025 14:22

Probablemente no me habría dado cuenta si no hubiera estado vigilando el servidor después de haber trasladado recientemente los otros dos foros. Me pregunto a cuántas personas afectó sin que se dieran cuenta.

¿Tiene el equipo de Discourse medidas implementadas para alertarlos de problemas como este? ¿Quizás un programa de voluntarios que los administradores puedan configurar para temas específicos, por ejemplo, “Enviar cargas del servidor a Discourse XX horas/días/semanas antes/después de una actualización”? O mejor aún, rastrear esto localmente y luego alertar a los administradores cuando se noten aumentos en la carga del servidor después de las actualizaciones, lo que luego podemos publicar aquí si es necesario.

LotusJeff · 3 Febrero, 2025 15:46

Probablemente no habría notado el impacto, pero estoy monitoreando el servidor de cerca porque migramos a Discourse hace aproximadamente 2 semanas. Estoy inmerso en varias validaciones posteriores a la migración (ejecución de copias de seguridad, etc.). Después de un par de meses, nunca habría notado el impacto.

Esperaría que Discourse tuviera una prueba de carga diaria. En mi vida pasada, tuve un servidor que se reconstruía diariamente con código confirmado. Tenía usuarios simulados usando el servidor todo el día. Medimos métricas clave de rendimiento desde la perspectiva del usuario y del servidor. Nos permitió detectar de forma proactiva fugas de memoria, código ineficiente y cambios inesperados en la experiencia del usuario.

Todavía tengo que felicitar a Sam y al equipo. Viniendo del mundo de phpBB, donde algo como esto llevaría décadas resolver y remediar, encontré la respuesta rápida fantástica. (Incluso si significaba quedarme despierto hasta las 2 a.m. hora CT en comparación con la hora de Sydney).

Tema		Respuestas	Vistas
Recommendation for number of workers: cores × 2? Self-hosting	16	466	29 Abril 2025
Due to extreme load, this is temporarily being shown to everyone... when it's not really the case Self-hosting server-resources	19	1819	21 Julio 2023
Optimizing the number of Unicorns and buffer size Self-hosting server-resources	22	6940	9 Junio 2018
Browser upgrade fails when discourse is configured to use one unicorn worker Bug	5	465	18 Octubre 2023
How to avoid upstream timeouts? Support	24	9493	25 Febrero 2019

Uso alto de CPU (Ruby)

Temas relacionados