爬虫限流的处理

vchuravy · 2023 年9 月 12 日 18:12

我有一个关于爬虫限流是如何实现的一般性问题。

根据 https://support.google.com/webmasters/answer/48620?hl=en，推荐的 HTTP 状态码是 429（请求过多）或 503（站点不可用）。

但通过阅读源代码，看起来限流是通过抛出错误来实现的：discourse/lib/rate_limiter.rb at 85fddf58bc1e751d0ac5b8192a630c59a34aed7d · discourse/discourse · GitHub

我的 Ruby on Rails 时代早已过去，但我假设这会引发一个通用的 505？

Google 爬虫不太理解 discourse 的限流，在 Google Search Console 中，我可以看到在实施限流后，我们的索引量（因此也包括展示量）急剧下降，但这并非由于限流，而是由于 5xx 服务器错误。

我理解在某些情况下可能需要限流实例，如果它们导致过多的流量，但我期望 discourse 会报告 HTTP 429，而不是向爬虫提供 505 内部错误。

Falco · 2023 年9 月 12 日 18:15

我认为您要找的是

github.com/discourse/discourse

app/controllers/application_controller.rb

85fddf58b


      
          rescue_from RateLimiter::LimitExceeded do |e|
            retry_time_in_seconds = e&.available_in
          
            response_headers = { "Retry-After": retry_time_in_seconds.to_s }
          
            response_headers["Discourse-Rate-Limit-Error-Code"] = e.error_code if e&.error_code
          
            with_resolved_locale do
              render_json_error(
                e.description,
                type: :rate_limit,
                status: 429,
                extras: {
                  wait_seconds: retry_time_in_seconds,
                  time_left: e&.time_left,
                },
                headers: response_headers,
              )
            end
          end

这是用于该错误的“全局”控制器救援，它设置了状态码。

vchuravy · 2023 年9 月 12 日 18:21

谢谢！这让人放心，但并不能完全解释为什么 Google Search Console 会报告与实施限流同时发生的 5xx 错误。

它甚至报告说它无法获取 discourse sitemap.xml。

vchuravy · 2023 年9 月 12 日 18:34

特别是限制 sitemap.xml 似乎有问题。

我假设那就是造成覆盖范围空白的原因。我相信 Google 会将 429 误报为 5xx。

话题		回复	浏览量
Discourse API Generating 429 Support	7	603	2023 年3 月 28 日
429 too many requests Self-hosting	6	2742	2023 年4 月 19 日
The only solution I have found to workaround «429 Too Many Requests» failure from rubygems.org Support	5	2556	2017 年10 月 27 日
User_10_secs_limit Dev	7	180	2025 年7 月 10 日
Understanding /logs/report_js_error 429 Support	4	982	2024 年1 月 15 日

爬虫限流的处理

相关话题