Manejo del crawler throttling

Tenía una pregunta general sobre cómo se implementa el estrangulamiento del rastreador.

Según Reduce Google Crawl Rate | Google Search Central  |  Documentation  |  Google for Developers, el estado HTTP recomendado es 429 (Demasiadas solicitudes) o 503 (Sitio no disponible).

Pero al leer el código fuente, parece que el estrangulamiento se implementa lanzando un error: discourse/lib/rate_limiter.rb at 85fddf58bc1e751d0ac5b8192a630c59a34aed7d · discourse/discourse · GitHub

Mis días de Ruby on Rails quedaron muy atrás, pero supongo que esto genera un 505 genérico.

El rastreador de Google no comprende del todo el estrangulamiento de Discourse y en Google Search Console puedo ver que nuestra indexación y, por lo tanto, las impresiones se redujeron drásticamente después de implementar el estrangulamiento, pero no debido al estrangulamiento, sino a errores del servidor 5xx.

Entiendo que las instancias de estrangulamiento pueden ser necesarias a veces si causan demasiado tráfico, pero esperaba que Discourse informara un HTTP 429, en lugar de servir al rastreador un Error Interno 505.

1 me gusta

Creo que lo que buscas es

Que es el rescate “global” del controlador para ese error que establece el código de estado.

1 me gusta

¡Gracias! Eso es tranquilizador, pero no explica del todo por qué Google Search Console informa de errores 5xx que se correlacionan con el momento en que se implementó el throttling.

Incluso informa que no pudo obtener el sitemap.xml de Discourse.

En particular, limitar sitemap.xml parece problemático.

Supongo que eso es lo que causó la brecha en la cobertura. Podría creer que Google informa erróneamente 429 como 5xx.

1 me gusta