Gerenciamento de throttling de crawler

vchuravy · Setembro 12, 2023, 6:12pm

Tive uma pergunta geral sobre como a limitação de rastreamento (crawler throttling) é implementada.

De acordo com https://support.google.com/webmasters/answer/46820?hl=en, o status HTTP recomendado é 429 (Muitas solicitações) ou 503 (Site indisponível).

Mas lendo o código-fonte, parece que a limitação é implementada gerando um erro: discourse/lib/rate_limiter.rb at 85fddf58bc1e751d0ac5b8192a630c59a34aed7d · discourse/discourse · GitHub

Meus dias de Ruby on Rails ficaram para trás, mas estou assumindo que isso gera um 505 genérico?

O rastreador do Google não entende bem a limitação do Discourse e, no Google Search Console, posso ver que nossa indexação e, portanto, as impressões foram drasticamente reduzidas após a implementação da limitação, mas não devido à limitação, mas devido a erros de servidor 5xx.

Entendo que instâncias de limitação podem ser necessárias às vezes se causarem muito tráfego, mas eu esperava que o Discourse relatasse um HTTP 429, em vez de servir ao rastreador um Erro Interno 505.

Falco · Setembro 12, 2023, 6:15pm

Acho que o que você procura é

github.com/discourse/discourse

app/controllers/application_controller.rb

85fddf58b


      
          rescue_from RateLimiter::LimitExceeded do |e|
            retry_time_in_seconds = e&.available_in
          
            response_headers = { "Retry-After": retry_time_in_seconds.to_s }
          
            response_headers["Discourse-Rate-Limit-Error-Code"] = e.error_code if e&.error_code
          
            with_resolved_locale do
              render_json_error(
                e.description,
                type: :rate_limit,
                status: 429,
                extras: {
                  wait_seconds: retry_time_in_seconds,
                  time_left: e&.time_left,
                },
                headers: response_headers,
              )
            end
          end

Que é o “global” controller rescue para esse erro que define o código de status.

vchuravy · Setembro 12, 2023, 6:21pm

Obrigado! Isso é tranquilizador, mas não explica totalmente por que o Google Search Console está relatando erros 5xx que se correlacionam com o momento em que o throttling foi implementado.

Ele até relata que não conseguiu buscar o sitemap.xml do discourse.

vchuravy · Setembro 12, 2023, 6:34pm

Em particular, limitar o sitemap.xml parece problemático.

Presumo que foi isso que causou a lacuna na cobertura. Eu poderia acreditar que o Google relatou incorretamente 429 como 5xx.

Tópico		Respostas	Visualizações
Discourse API Generating 429 Support	7	603	28 de Março de 2023
429 too many requests Self-hosting	6	2742	19 de Abril de 2023
The only solution I have found to workaround «429 Too Many Requests» failure from rubygems.org Support	5	2556	27 de Outubro de 2017
User_10_secs_limit Dev	7	180	10 de Julho de 2025
Understanding /logs/report_js_error 429 Support	4	982	15 de Janeiro de 2024

Gerenciamento de throttling de crawler

Tópicos relacionados