En la última semana hemos visto tres instancias de Sidekiq en diferentes foros atascadas. No estaba pasando nada especial, simplemente Sidekiq no estaba procesando ningún trabajo y mostraba 5 de 5 trabajos en proceso.
Algo interesante que tenían en común era que había un trabajo crítico de BotInput entre los trabajos. Ahora, este es un trabajo bastante común, pero aún así destaca.
Después de reiniciar Sidekiq, todo vuelve a funcionar con normalidad. Poner en cola manualmente un trabajo con los mismos parámetros no hace que se cuelgue de nuevo. No hay nada especial en la publicación específica para la que se llamó.
¿Alguien tiene alguna idea de cómo podríamos rastrear qué está pasando aquí?
He estado teniendo problemas con Sidekiq desde una actualización del foro hace un mes. ¿Qué comando usas para reiniciar Sidekiq? ¿Solo un sv restart sidekiq?
He estado viendo esto en los últimos días. Eventualmente, todos los trabajos dejan de ejecutarse. Anteriormente reinicié, pero ¿es seguro eliminar la cola crítica? ¿Es una cola de redis?
Estoy actualizado en 3.5.0.beta1-dev.
Solo una suposición, pero a veces, cuando estoy chateando con el bot, deja de responder, así que actualizo la página o me rindo. ¿Quizás esos casos dejan un trabajo colgado?
Estos trabajos son asíncronos, por lo que ni siquiera sabrían que hiciste eso.
Es interesante saber que también estás experimentando esto en Jobs::BotInput. Estamos viendo este problema en un pequeño subconjunto de todos nuestros servidores (unos pocos por ciento) y parece que son las instancias que usan el bot narrativo bastante intensamente.
No, perderías todos los demás trabajos en cola también.
La forma más fácil y segura es sv reload unicorn desde dentro del contenedor.
Hallazgo interesante, gracias por investigarlo.
Es difícil saber cuándo desaparece un problema intermitente. He eliminado esa línea en las tres instancias que se colgaron con más frecuencia (una de ellas casi a diario). Volveré a consultar aquí:
cuando una de esas instancias se cuelgue (entonces sabremos que esto no funcionó)
el viernes si ninguna de ellas se colgó (entonces podremos empezar a asumir que fue la solución)
Si bien los problemas han estado ocurriendo esta semana, no han estado sucediendo en las tres instancias donde eliminamos esa línea require, así que creo que podemos asumir con seguridad que este es el culpable . Gracias por darte cuenta, @tgxworld , yo nunca lo habría encontrado.
¿Sería posible que incluyeras ese arreglo en la versión estable?