Umgang mit Crawler-Drosselung

vchuravy · 12. September 2023 um 18:12

Ich hatte eine allgemeine Frage, wie die Crawler-Drosselung implementiert wird.

Laut Reduce Google Crawl Rate | Google Search Central | Documentation | Google for Developers ist der empfohlene HTTP-Status 429 (Zu viele Anfragen) oder 503 (Website nicht verfügbar).

Beim Durchlesen des Quellcodes sieht es jedoch so aus, als ob die Drosselung durch Auslösen eines Fehlers implementiert wird: discourse/lib/rate_limiter.rb at 85fddf58bc1e751d0ac5b8192a630c59a34aed7d · discourse/discourse · GitHub

Meine Ruby on Rails-Tage liegen lange hinter mir, aber ich gehe davon aus, dass dies einen generischen 505 auslöst?

Der Google-Crawler versteht die Drosselung von Discourse nicht ganz und in der Google Search Console sehe ich, dass unsere Indexierung und damit die Impressionen nach der Implementierung der Drosselung drastisch reduziert wurden, aber nicht aufgrund der Drosselung, sondern aufgrund von 5xx-Serverfehlern.

Ich verstehe, dass Drosselungsinstanzen manchmal notwendig sein können, wenn sie zu viel Traffic verursachen, aber ich hatte erwartet, dass Discourse eine HTTP 429 meldet, anstatt dem Crawler einen 505 Internal Error zu servieren.

Falco · 12. September 2023 um 18:15

Ich glaube, wonach Sie suchen, ist

github.com/discourse/discourse

app/controllers/application_controller.rb

85fddf58b


      
          rescue_from RateLimiter::LimitExceeded do |e|
            retry_time_in_seconds = e&.available_in
          
            response_headers = { "Retry-After": retry_time_in_seconds.to_s }
          
            response_headers["Discourse-Rate-Limit-Error-Code"] = e.error_code if e&.error_code
          
            with_resolved_locale do
              render_json_error(
                e.description,
                type: :rate_limit,
                status: 429,
                extras: {
                  wait_seconds: retry_time_in_seconds,
                  time_left: e&.time_left,
                },
                headers: response_headers,
              )
            end
          end

Dies ist die “globale” Controller-Rettung für diesen Fehler, die den Statuscode festlegt.

vchuravy · 12. September 2023 um 18:21

Danke! Das ist beruhigend, erklärt aber nicht ganz, warum die Google Search Console 5xx-Fehler meldet, die mit der Implementierung der Drosselung korrelieren.

Sie meldet sogar, dass sie die discourse sitemap.xml nicht abrufen konnte.

vchuravy · 12. September 2023 um 18:34

Insbesondere scheint die Drosselung von sitemap.xml problematisch zu sein.

Ich gehe davon aus, dass dies die Lücke in der Abdeckung verursacht hat. Ich könnte mir vorstellen, dass Google 429 fälschlicherweise als 5xx meldet.

Thema		Antworten	Aufrufe
Discourse API Generating 429 Support	7	603	28. März 2023
429 too many requests Self-hosting	6	2742	19. April 2023
The only solution I have found to workaround «429 Too Many Requests» failure from rubygems.org Support	5	2556	27. Oktober 2017
User_10_secs_limit Dev	7	180	10. Juli 2025
Understanding /logs/report_js_error 429 Support	4	982	15. Januar 2024

Umgang mit Crawler-Drosselung

Verwandte Themen