Gestione del throttling dei crawler

vchuravy · 12 Settembre 2023, 6:12pm

Ho una domanda generale su come viene implementato il throttling del crawler.

Secondo Reduce Google Crawl Rate | Google Search Central | Documentation | Google for Developers lo stato HTTP consigliato è 429 (Troppe richieste) o 503 (Sito non disponibile).

Ma leggendo il codice sorgente sembra che il throttling sia implementato generando un errore: discourse/lib/rate_limiter.rb at 85fddf58bc1e751d0ac5b8192a630c59a34aed7d · discourse/discourse · GitHub

I miei giorni di Ruby on Rails sono ormai lontani, ma presumo che questo generi un generico 505?

Il crawler di Google non comprende appieno il throttling di discourse e in Google Search Console posso vedere che l’indicizzazione e quindi le impressioni sono drasticamente diminuite dopo l’implementazione del throttling, ma non a causa del throttling, bensì a causa di errori del server 5xx.

Capisco che le istanze di throttling possano essere a volte necessarie se causano troppo traffico, ma mi aspettavo che discourse segnalasse un HTTP 429, invece di servire al crawler un errore interno 505.

Falco · 12 Settembre 2023, 6:15pm

Penso che quello che stai cercando sia

github.com/discourse/discourse

app/controllers/application_controller.rb

85fddf58b


      
          rescue_from RateLimiter::LimitExceeded do |e|
            retry_time_in_seconds = e&.available_in
          
            response_headers = { "Retry-After": retry_time_in_seconds.to_s }
          
            response_headers["Discourse-Rate-Limit-Error-Code"] = e.error_code if e&.error_code
          
            with_resolved_locale do
              render_json_error(
                e.description,
                type: :rate_limit,
                status: 429,
                extras: {
                  wait_seconds: retry_time_in_seconds,
                  time_left: e&.time_left,
                },
                headers: response_headers,
              )
            end
          end

Che è il rescue “globale” del controller per quell’errore che imposta il codice di stato.

vchuravy · 12 Settembre 2023, 6:21pm

Grazie! È rassicurante, ma non spiega del tutto perché Google Search Console segnali errori 5xx che coincidono con il momento in cui è stata implementata la limitazione.

Segnala persino che non è riuscito a recuperare il sitemap.xml di discourse.

vchuravy · 12 Settembre 2023, 6:34pm

In particolare, limitare la velocità di sitemap.xml sembra problematico.

Presumo che sia ciò che ha causato il divario nella copertura. Potrei credere che Google abbia segnalato erroneamente 429 come 5xx.

Argomento		Risposte	Visualizzazioni
Discourse API Generating 429 Support	7	603	Marzo 28, 2023
429 too many requests Self-hosting	6	2742	Aprile 19, 2023
The only solution I have found to workaround «429 Too Many Requests» failure from rubygems.org Support	5	2556	Ottobre 27, 2017
User_10_secs_limit Dev	7	180	Luglio 10, 2025
Understanding /logs/report_js_error 429 Support	4	982	Gennaio 15, 2024

Gestione del throttling dei crawler

Argomenti correlati