您好,
我注意到在 2022 年 2 月 15 日至 16 日期间,在我们自托管的 DigitalOcean Discourse 实例上出现了一个奇怪的现象。如下图所示,每天的匿名用户数量从大约每天 1000 人激增到平均每天 10000 人。我试图找出其根源,但徒劳无功。
我似乎无法将其与我们内容的浏览量、Google Search Console 或 Google Analytics 的统计数据进行匹配。我们也尝试检查了日志,但没有太多发现。
有人知道可能是什么原因造成的吗?
我们的社区:https://community.world-like-home.com/
非常感谢。
1 个赞
osioke
(Osioke Itseuwa)
2
要以一种能说明你具体网站的方式来回答,这几乎是不可能的,甚至可以说是棘手的。不过,你可以开始找出原因的方法是查看仪表板中的爬虫报告,看看是否是爬虫造成的。
另外,我编辑了你的主题标题,使其更具描述性 
2 个赞
感谢 @osioke
但是,如果这是爬虫,我希望 Discourse 能明确地将其标记为爬虫吗?希望我没有遗漏什么?
@Jagster Discourse 是否有可能将机器人计为匿名用户?
2 个赞
Falco
(Falco)
5
发起请求的实体会自行识别为“普通”用户或机器人。这是一个基于信誉的系统,有利有弊。
机器人生态系统中的大多数不良行为者不会将自己识别为机器人,而是会伪装成“普通”用户发出请求,在这种情况下 Discourse 无法做太多事情。
如果您熟悉命令行,可以登录到您的服务器并使用以下命令来跟踪大多数请求的来源:
cd /var/discourse/shared/standalone/log/var-log/nginx/
grep " 200 " access.log | awk '{print $4}' | sort | uniq -c | sort -r
4 个赞
Jagster
(Jakke Lehtonen)
6
当然,机器人只需要识别自己为用户即可。更改用户代理非常简单——甚至您的浏览器也可以做到。Discourse 只知道那些使用……嗯,已知 UA 的机器人 
当然,如果某个流量更高的网站链接到您,它们也可能是真实用户。
4 个赞
pfaffman
(Jay Pfaffman)
7
我猜想那里上传的PDF文件可能被链接到了其他地方,所以很多人都在直接下载?那个PDF文件是有人恶意上传的,并且因为某种原因获得了大量流量吗?
2 个赞
谢谢你,@pfaffman,但 PDF 没有问题,实际上是我自己上传的。我只是展示图片来表明它与 discourse 显示的数千个匿名用户之间没有关联。
好的,谢谢。
谢谢你,@Falco。
你提供的命令行帮助我们追踪了导致流量激增的 IP 地址。目前,我们将继续观察,然后再决定是否屏蔽爬虫。
4 个赞
Ed_S
(Ed S)
9
仅供参考,在我的案例中,绝大多数访问都是 POST 到消息总线端点。换句话说,可能是用户的浏览器。一种情况是每分钟一次,另一种情况是更频繁。
"POST /message-bus/<hash>/poll?dlp=t HTTP/1.1"
1 个赞
Falco
(Falco)
10
这些确实是任何 Discourse 站点上的大多数请求,但它们不计入页面浏览量,因此不会反映在仪表板的“合并页面浏览量”图表中,这使得这个话题有点离题。
1 个赞
Ed_S
(Ed S)
11
说得有理。也许你可以在管道中添加 grep -v POST?
1 个赞