未识别的爬虫产生大量页面浏览量

大家好!

当我们查看爬虫页面浏览量时,似乎有一个未识别的条目在一个月内积累了超过 50 万次页面浏览量:

有什么简单的方法可以查明这可能是什么吗?它似乎平均每天产生 10,000 到 15,000 多次访问。

如果您使用的是我们的托管邮箱支持服务,我们可以为您处理。

我们是一个自托管的自由开源软件(FLOSS)项目,所以我想这恐怕不太可能了 :slight_smile:

我知道我可以增加一些过滤条件,并让我们的基础设施人员查看更多的日志——我只是想知道是否还有其他人遇到过这种情况。

检查 nginx 日志(access.log),查找来自该用户代理及相应 IP 的请求。

我刚刚亲自会见了我们的首席系统管理员,问题已经解决了。原来是 HAProxy 每 5 秒进行一次健康检查 :joy:

健康检查应设置正确的 User Agent,以避免此类情况再次发生。此外,您可以使用 /srv/status 路由进行健康检查。

“是的,应该能行——但我懒得弄。”——系统管理员

我会看看能做些什么。谢谢!