匿名观看突然变得非常高

我从来不知道如何看待匿名浏览量,但它似乎与 Google Analytics 数据没有任何有意义的关联。

过去四天左右,这种情况变得更加突出,因为匿名浏览量出现了巨大且持续的增长,这很不寻常。

这可能与升级到 3/3.1 是巧合,但有没有可能与之相关,因为它发生在这之后不久。

同时,登录统计数据似乎也显著下降,这令人担忧。

一般来说,很难同时了解点击量和登录量,因为它们与分析数字不符,但仅从仪表板上看,这是一种奇怪的新趋势。

关于 Google Analytics 和仪表板统计数据之间的差异,这里有一个简单的例子——您看到一天有 500 次 Google Analytics 独立访问,但在 Discourse 仪表板上有 2000 次登录、50000 次匿名浏览和 5000 次爬虫。

这些统计数据总体上是怎么回事?

我们应该如何处理这些数据,以及它们能告诉我们哪些关于管理 Discourse 论坛的信息?

匿名浏览量是否表明存在未经请求的流量,并且是资源的浪费?

如果选择正确的选项,此类流量会被 Google Analytics 过滤掉——也许这不是 Discourse 端的问题,而是某种低级别的分布式拒绝服务 (DDOS) 类型流量,出于某种奇怪和虚假的理由,再次浪费资源,但可能影响真正的登录?

到目前为止没有关于登录问题的报告。

总的来说,我们如何解读仪表板上的数字!

感谢您的任何见解和建议。

4 个赞

你好 @agemo

在过去几个月里,我也看到了类似的行为。你对此有什么发现吗?

可能是机器人,也可能是人工智能抓取机器人。

对我帮助很大的是管理员中的网络爬虫报告,在我被告知它们的存在后(我以前从未注意到它们),我使用这个报告禁止了各种爬虫。这减少了匿名浏览量。我认为爬虫也会通过匿名浏览进入。我不知道是如何做到的。

报告还提供了爬虫(用户代理)的名称,你可以在每个爬虫上搜索,看看它是否有价值。

这个话题也可能有用:

3 个赞

这也有可能,同样不知道怎么做,除了猜测这取决于系统如何识别机器人和用户。

我注意到当发布更多文本时,爬虫会激增,几天前匿名视图也似乎随机激增。

我们现在有了一个新的指标,它将匿名页面浏览量分为“可能是人类”和“可能是机器人”,以便人们可以将后者更多地视为爬虫(尽管它们很可能不是,但它们没有将自己识别为爬虫)。

该报告是标准报告的一部分,可以在 /admin/reports/consolidated_page_views_browser_detection 找到。

还有一些其他工作正在进行中,以将此应用于主题浏览量指标,以防止机器人过度膨胀。

3 个赞

这个新图表很有帮助,看起来“可能是机器人”类别被标记为“其他页面浏览量”:

对于那些不正确介绍自己的狡猾新机器人,有什么办法可以减缓它们或识别它们的来源吗?

可以检查网络爬虫用户代理报告,但如果它们没有出现在那里,就不确定还能调查什么了。

1 个赞

不可以。如果那个机器人的编码者像他们经常做的那样工作,意味着用户代理、设备、系统等文本的某一部分始终相同,那么你就可以完全阻止它们,但这需要一个反向代理。robots.txt 只是一个对行为良好的机器人的指导方针。

Discourse 的日志或多或少只能让你对大局有所了解。你需要从 Nginx 的日志中挖掘如此详细的数据,这意味着欢迎来到控制台 :smirking_face:

WordPress 很容易因为机器人而瘫痪,但对于 Discourse 来说,情况更像是令人讨厌。内容窃取是今天的常态,而且已经持续了很长时间了。

2 个赞

反向代理似乎是迈出的第一步,Cloudflare 在这方面做得好吗?

认识一位本地网页开发者朋友,他推荐使用 Cloudflare 的名称服务器来提高安全性。

我不太担心已发布的内容被“窃取”,当文本公开发布时,人们有权记录它,只要他们不试图将其作为自己的创作出售,那就会成为一个问题。

1 个赞

我建议使用 Nginx 或 Varnish。但 Cloudflare 也可能有效,我不了解它,从未使用过。

2 个赞

昨天8月17日,“其他页面浏览量”的机器人流量异常激增至152次,对于一个通常每天只有15-20次此类流量且大部分时间不活跃的网站来说,这非常随机。

完全正常。对我来说,我通过一起阻止最差的用户代理和地理博客(我的不是全球论坛,所以很容易做到)获得了最好的结果。

您是指地理位置禁止芬兰以外的 IP 吗?这对于本地化网站来说似乎是个好主意。

是的。目前我将从俄罗斯、新加坡和中国获得大量流量。之前是印度、巴基斯坦、埃及、伊朗和伊拉克。我敢打赌他们无法完成 :wink: 尽管对俄罗斯来说是可能的,但……不行。

最大的三个是美国、法国和荷兰,德国也在增长。但这是因为数据中心,所以不能禁止它们。

但同样,使用 Discourse,这些主要只是令人烦恼。使用 WordPress(以及其他 LAMP 堆栈,我想说)会产生如此大的负载,以至于情况开始接近 DDoS。

而且大多数都是愚蠢的脚本小子,他们试图利用古老的 WordPress 问题来攻击 Discourse。

但如今,SEO 和 AI 机器人已成为一个真正的问号。

但如果有人拥有本地论坛,那么地理封禁只是明智之举。

1 个赞

这可能正在以一种令人担忧的速度发展。

我曾看到疑似由人工智能驱动的机器人流量,其规模接近分布式拒绝服务(DDOS)攻击的程度,以至于 Discourse 服务开始抱怨。

虽然这不是一个强大的设置,但对于预期的正常需求来说,通常有一些余量。

这一次,它表现为巨大的匿名流量和其他流量。

这与服务器 CPU、负载和磁盘 I/O 统计数据的增加完美吻合。

作为这里的用户,我因为批评人工智能被过度热衷地采用而受到了很多指责和(暂时的)封禁,而现在这正以多种方式反噬(例如失业),并且现在又出现了这个问题,这可能是 OP 的延续,并且只是最新的人工智能驱动的网络机器人流量在表明其存在,哦,天哪。

当时我的观点是,(也)是时候考虑所有减轻对客户/最终用户影响的策略了,而不仅仅是作为一个子合作伙伴加入军备竞赛,那种马斯克式的逻辑是“如果你打不过他们,就加入他们”,在这种情况下,说起来容易,但不是正确的选择,而且呼吁监管是天真的。

退后一步?

也许现在太晚了。

人工智能流量可能会变得更像人类:技术上我不知道那是什么样的(但我知道我们是如何走到这一步的),除了它可能更容易冒充人类流量,并且呈现出更难检测的流量,从谷歌的角度来看也很有吸引力,但哦,天哪,这可能是一个更大的新问题。

没有什么东西是免费的,我不知道(再次)有多少人被这一点蒙蔽了双眼,没有采取人类应有的谨慎并选择退后一步的选项。

现在,这些流量仍然来自非常特定的地区,甚至 ASN 阻止也足以进行外科手术式的清除。

能持续多久?

这很正常,我运行着许多网站,而 Cloudflare 通常显示的流量大约是我真实流量的 10 到 30 倍。如果它们不触发分析(analytics),那么它们就是机器人或搜索引擎爬虫。因为大多数机器人不会运行用于分析的 JavaScript。

1 个赞

CloudFlare 是免费的 :wink:

2 个赞

这些出现在 Google Analytics 中。依稀记得,那才是不同之处。

如果你真的担心,就使用 CloudFlare 并防火阻止那些有问题的国家。如果你的IP已经在DNS上,就获取一个新的IP地址。这是在你受到攻击的情况下。

1 个赞

确实,服务器已在 CF DNS 上,但未代理,因为我仍然认为它无法从旧设置建议中运行。你知道对橙色云的恐惧很强烈。 :sweat_smile:

不过,我在其中一次浪潮中尝试了一下,在观察了一段时间后,相对轻松地缓解了流量。它似乎还剥离了更多的流量。

获得新 IP 地址的唯一方法是迁移到新服务器吗?

这取决于您的托管服务。有些像 DigitalOcean 这样的服务可以直接在仪表板中分配一个新的静态 IP 地址,有些则不行。您可能需要询问他们。我从不关闭它。如果我关闭橙色云(指 Cloudflare 的代理),我会认为该 IP 已被泄露。如果您在启用它(代理)后流量丢失,那很可能是您的 SSL 设置不正确。或者缓存设置不正确。如果您还没有正确配置 SSL,在 Cloudflare 上进行实时切换可能会很棘手。因为很难从 DNS 获取一个未缓存的 IP 地址进行测试。

1 个赞