Gestion du throttling des crawlers

vchuravy · Septembre 12, 2023, 6:12

J’avais une question générale sur la façon dont la limitation des robots d’exploration est implémentée.

Selon Reduce Google Crawl Rate | Google Search Central | Documentation | Google for Developers, le code d’état HTTP recommandé est 429 (Trop de requêtes) ou 503 (Site indisponible).

Mais en parcourant le code source, il semble que la limitation soit implémentée en lançant une erreur : discourse/lib/rate_limiter.rb at 85fddf58bc1e751d0ac5b8192a630c59a34aed7d · discourse/discourse · GitHub

Mes jours de Ruby on Rails sont loin derrière moi, mais je suppose que cela déclenche un 505 générique ?

Le robot d’exploration de Google ne comprend pas tout à fait la limitation de Discourse et dans Google Search Console, je peux voir que notre indexation et donc nos impressions ont considérablement diminué après la mise en œuvre de la limitation, mais pas à cause de la limitation, mais à cause d’erreurs serveur 5xx.

Je comprends que des instances de limitation peuvent être parfois nécessaires si elles causent trop de trafic, mais je m’attendais à ce que Discourse signale un HTTP 429, au lieu de servir au robot d’exploration une erreur interne 505.

Falco · Septembre 12, 2023, 6:15

Je pense que ce que vous cherchez est

github.com/discourse/discourse

app/controllers/application_controller.rb

85fddf58b


      
          rescue_from RateLimiter::LimitExceeded do |e|
            retry_time_in_seconds = e&.available_in
          
            response_headers = { "Retry-After": retry_time_in_seconds.to_s }
          
            response_headers["Discourse-Rate-Limit-Error-Code"] = e.error_code if e&.error_code
          
            with_resolved_locale do
              render_json_error(
                e.description,
                type: :rate_limit,
                status: 429,
                extras: {
                  wait_seconds: retry_time_in_seconds,
                  time_left: e&.time_left,
                },
                headers: response_headers,
              )
            end
          end

Qui est le “rescue” global du contrôleur pour cette erreur qui définit le code de statut.

vchuravy · Septembre 12, 2023, 6:21

Merci ! C’est rassurant, mais n’explique pas tout à fait pourquoi la Google Search Console signale des erreurs 5xx qui correspondent au moment où le limitation a été implémentée.

Elle signale même qu’elle n’a pas pu récupérer le sitemap.xml de discourse.

vchuravy · Septembre 12, 2023, 6:34

En particulier, la limitation de sitemap.xml semble problématique.

Je suppose que c’est ce qui a causé l’écart dans la couverture. Je pourrais croire que Google a mal rapporté 429 comme 5xx.

Sujet		Réponses	Vues
Discourse API Generating 429 Support	7	603	Mars 28, 2023
429 too many requests Self-hosting	6	2742	Avril 19, 2023
The only solution I have found to workaround «429 Too Many Requests» failure from rubygems.org Support	5	2556	Octobre 27, 2017
User_10_secs_limit Dev	7	180	Juillet 10, 2025
Understanding /logs/report_js_error 429 Support	4	982	Janvier 15, 2024

Gestion du throttling des crawlers

Sujets connexes