Monikas
(JustMonika)
1
大家好,
我最近注意到我的论坛社区健康页面(Discourse 管理仪表板 → 报告 → 社区健康)上的“其他流量”出现了巨大的增长。
以下是详细信息:
- 时期:大约在 2025 年 8 月初
- 每日流量:每天飙升至 100k+ 的“其他流量”
- 示例:2025 年 8 月 16 日
- 登录页面浏览量:12,531
- 匿名页面浏览量:2,753
- 已知爬虫:6,865
- 其他流量:102,054(占我总计 124k 的大部分)
这种“其他流量”似乎很不正常,并且远高于真实用户活动。注册量保持稳定,因此看起来不像真实的增长。
我的问题是:
- 在 Discourse 中,“其他流量”通常意味着什么?
- 这可能是机器人、垃圾邮件或配置错误的反向代理/CDN 吗?
- 我该如何减少或过滤这种流量?(例如 Nginx、防火墙、Discourse 设置)
- 直接忽略是否安全,还是会影响性能/成本?
任何关于如何妥善处理此类第三方/机器人流量的建议或最佳实践都将非常有帮助。
提前感谢!
1 个赞
“其他流量”很可能是机器人或爬虫,更多详细信息请参见 Understanding pageviews and the site traffic report
您可以在仪表板上查看爬虫报告以了解可能的来源,如果您愿意,可以减慢或阻止它……有关如何执行此操作的更多详细信息,请参见:Controlling Web Crawlers For a Site
2 个赞
Canapin
(Coin-coin le Canapin)
3
我七月份收到了大量来自新加坡的请求,遇到了问题。我屏蔽了一个 IP 地址范围,起初奏效了,但八月份问题变得更严重(来自新加坡、香港和墨西哥),导致 CDN 成本高得离谱 
我注意到来自 Amazonbot、DataForSeoBot、meta-externalagent、SeekportBot 等的页面浏览量很高……
这份文档 Controlling Web Crawlers For a Site 提到:
此列表不包含我访问量最高的一些爬虫,但我仍然有一个问题。
将整个列表添加到“屏蔽的爬虫用户代理”设置中是否明智?
是否有办法从 .txt 文件批量添加爬虫名称?
1 个赞
Canapin
(Coin-coin le Canapin)
6
嗯,我猜这并不能解决我的问题,因为机器人无论如何都会消耗 CDN 带宽。
1 个赞
这意味着您的页面已被访问,因此您比防火墙级别的阻止更接近服务器,但这并不意味着它是一个需要反向代理的安全问题。
我提出的工具已经减少了 80% 的请求,并且 Discourse 是一个安全的应用程序,现在如果您在服务器上托管了其他东西,例如网站,反向代理可能会有用,同时还有其他方法可以阻止声誉不佳的 IP,例如 Crowdsec,询问您的 AI 关于 Crowdsec light 
2 个赞
RGJ
(Richard - Communiteq)
9
(地理封锁插件作者在此)
是的,地理封锁插件在应用程序级别停止请求,尽管它在非常早的阶段就完成了。这样做的原因是它被设计为显示用户友好的错误页面,因此它必须能够加载 Discourse 资源并显示该页面。如果配置了,它还会将任何阻止记录到 /logs。
这种方法的其他优点是能够从 Discourse 内部配置被阻止的国家和网络,以及不仅能够阻止访问,还能强制进行审核。
如果您担心日志膨胀或 CDN 带宽消耗,该插件不适合您,但说实话,我认为这两件事关系不大。
1 个赞
system
(system)
关闭
10
This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.