如何找出匿名浏览量激增的原因

您好,

我注意到在 2022 年 2 月 15 日至 16 日期间,在我们自托管的 DigitalOcean Discourse 实例上出现了一个奇怪的现象。如下图所示,每天的匿名用户数量从大约每天 1000 人激增到平均每天 10000 人。我试图找出其根源,但徒劳无功。

我似乎无法将其与我们内容的浏览量、Google Search Console 或 Google Analytics 的统计数据进行匹配。我们也尝试检查了日志,但没有太多发现。

有人知道可能是什么原因造成的吗?

我们的社区:https://community.world-like-home.com/

非常感谢。

1 个赞

要以一种能说明你具体网站的方式来回答,这几乎是不可能的,甚至可以说是棘手的。不过,你可以开始找出原因的方法是查看仪表板中的爬虫报告,看看是否是爬虫造成的。

另外,我编辑了你的主题标题,使其更具描述性 :wink:

2 个赞

你收到了很多机器人。

2 个赞

感谢 @osioke

但是,如果这是爬虫,我希望 Discourse 能明确地将其标记为爬虫吗?希望我没有遗漏什么?

@Jagster Discourse 是否有可能将机器人计为匿名用户?

2 个赞

发起请求的实体会自行识别为“普通”用户或机器人。这是一个基于信誉的系统,有利有弊。

机器人生态系统中的大多数不良行为者不会将自己识别为机器人,而是会伪装成“普通”用户发出请求,在这种情况下 Discourse 无法做太多事情。

如果您熟悉命令行,可以登录到您的服务器并使用以下命令来跟踪大多数请求的来源:

cd /var/discourse/shared/standalone/log/var-log/nginx/
grep " 200 "  access.log | awk '{print $4}' | sort | uniq -c | sort -r
4 个赞

当然,机器人只需要识别自己为用户即可。更改用户代理非常简单——甚至您的浏览器也可以做到。Discourse 只知道那些使用……嗯,已知 UA 的机器人 :wink:

当然,如果某个流量更高的网站链接到您,它们也可能是真实用户。

4 个赞

我猜想那里上传的PDF文件可能被链接到了其他地方,所以很多人都在直接下载?那个PDF文件是有人恶意上传的,并且因为某种原因获得了大量流量吗?

2 个赞

谢谢你,@pfaffman,但 PDF 没有问题,实际上是我自己上传的。我只是展示图片来表明它与 discourse 显示的数千个匿名用户之间没有关联。

好的,谢谢。

谢谢你,@Falco

你提供的命令行帮助我们追踪了导致流量激增的 IP 地址。目前,我们将继续观察,然后再决定是否屏蔽爬虫

4 个赞

仅供参考,在我的案例中,绝大多数访问都是 POST 到消息总线端点。换句话说,可能是用户的浏览器。一种情况是每分钟一次,另一种情况是更频繁。

"POST /message-bus/<hash>/poll?dlp=t HTTP/1.1"
1 个赞

这些确实是任何 Discourse 站点上的大多数请求,但它们不计入页面浏览量,因此不会反映在仪表板的“合并页面浏览量”图表中,这使得这个话题有点离题。

1 个赞

说得有理。也许你可以在管道中添加 grep -v POST

1 个赞