Manejo del crawler throttling

vchuravy · 12 Septiembre, 2023 18:12

Tenía una pregunta general sobre cómo se implementa el estrangulamiento del rastreador.

Según Reduce Google Crawl Rate | Google Search Central | Documentation | Google for Developers, el estado HTTP recomendado es 429 (Demasiadas solicitudes) o 503 (Sitio no disponible).

Pero al leer el código fuente, parece que el estrangulamiento se implementa lanzando un error: discourse/lib/rate_limiter.rb at 85fddf58bc1e751d0ac5b8192a630c59a34aed7d · discourse/discourse · GitHub

Mis días de Ruby on Rails quedaron muy atrás, pero supongo que esto genera un 505 genérico.

El rastreador de Google no comprende del todo el estrangulamiento de Discourse y en Google Search Console puedo ver que nuestra indexación y, por lo tanto, las impresiones se redujeron drásticamente después de implementar el estrangulamiento, pero no debido al estrangulamiento, sino a errores del servidor 5xx.

Entiendo que las instancias de estrangulamiento pueden ser necesarias a veces si causan demasiado tráfico, pero esperaba que Discourse informara un HTTP 429, en lugar de servir al rastreador un Error Interno 505.

Falco · 12 Septiembre, 2023 18:15

Creo que lo que buscas es

github.com/discourse/discourse

app/controllers/application_controller.rb

85fddf58b


      
          rescue_from RateLimiter::LimitExceeded do |e|
            retry_time_in_seconds = e&.available_in
          
            response_headers = { "Retry-After": retry_time_in_seconds.to_s }
          
            response_headers["Discourse-Rate-Limit-Error-Code"] = e.error_code if e&.error_code
          
            with_resolved_locale do
              render_json_error(
                e.description,
                type: :rate_limit,
                status: 429,
                extras: {
                  wait_seconds: retry_time_in_seconds,
                  time_left: e&.time_left,
                },
                headers: response_headers,
              )
            end
          end

Que es el rescate “global” del controlador para ese error que establece el código de estado.

vchuravy · 12 Septiembre, 2023 18:21

¡Gracias! Eso es tranquilizador, pero no explica del todo por qué Google Search Console informa de errores 5xx que se correlacionan con el momento en que se implementó el throttling.

Incluso informa que no pudo obtener el sitemap.xml de Discourse.

vchuravy · 12 Septiembre, 2023 18:34

En particular, limitar sitemap.xml parece problemático.

Supongo que eso es lo que causó la brecha en la cobertura. Podría creer que Google informa erróneamente 429 como 5xx.

Tema		Respuestas	Vistas
Discourse API Generating 429 Support	7	603	28 Marzo 2023
429 too many requests Self-hosting	6	2742	19 Abril 2023
The only solution I have found to workaround «429 Too Many Requests» failure from rubygems.org Support	5	2556	27 Octubre 2017
User_10_secs_limit Dev	7	180	10 Julio 2025
Understanding /logs/report_js_error 429 Support	4	982	15 Enero 2024

Manejo del crawler throttling

Temas relacionados