agemo
(agemo)
2023 年1 月 15 日 12:43
1
我从来不知道如何看待匿名浏览量,但它似乎与 Google Analytics 数据没有任何有意义的关联。
过去四天左右,这种情况变得更加突出,因为匿名浏览量出现了巨大且持续的增长,这很不寻常。
这可能与升级到 3/3.1 是巧合,但有没有可能与之相关,因为它发生在这之后不久。
同时,登录统计数据似乎也显著下降,这令人担忧。
一般来说,很难同时了解点击量和登录量,因为它们与分析数字不符,但仅从仪表板上看,这是一种奇怪的新趋势。
关于 Google Analytics 和仪表板统计数据之间的差异,这里有一个简单的例子——您看到一天有 500 次 Google Analytics 独立访问,但在 Discourse 仪表板上有 2000 次登录、50000 次匿名浏览和 5000 次爬虫。
这些统计数据总体上是怎么回事?
我们应该如何处理这些数据,以及它们能告诉我们哪些关于管理 Discourse 论坛的信息?
匿名浏览量是否表明存在未经请求的流量,并且是资源的浪费?
如果选择正确的选项,此类流量会被 Google Analytics 过滤掉——也许这不是 Discourse 端的问题,而是某种低级别的分布式拒绝服务 (DDOS) 类型流量,出于某种奇怪和虚假的理由,再次浪费资源,但可能影响真正的登录?
到目前为止没有关于登录问题的报告。
总的来说,我们如何解读仪表板上的数字!
感谢您的任何见解和建议。
4 个赞
你好 @agemo !
在过去几个月里,我也看到了类似的行为。你对此有什么发现吗?
agemo
(agemo)
2024 年7 月 10 日 13:35
3
可能是机器人,也可能是人工智能抓取机器人。
对我帮助很大的是管理员中的网络爬虫报告,在我被告知它们的存在后(我以前从未注意到它们),我使用这个报告禁止了各种爬虫。这减少了匿名浏览量。我认为爬虫也会通过匿名浏览进入。我不知道是如何做到的。
报告还提供了爬虫(用户代理)的名称,你可以在每个爬虫上搜索,看看它是否有价值。
这个话题也可能有用:
3 个赞
这也有可能,同样不知道怎么做,除了猜测这取决于系统如何识别机器人和用户。
我注意到当发布更多文本时,爬虫会激增,几天前匿名视图也似乎随机激增。
我们现在有了一个新的指标,它将匿名页面浏览量分为“可能是人类”和“可能是机器人”,以便人们可以将后者更多地视为爬虫(尽管它们很可能不是,但它们没有将自己识别为爬虫)。
该报告是标准报告的一部分,可以在 /admin/reports/consolidated_page_views_browser_detection 找到。
还有一些其他工作正在进行中,以将此应用于主题浏览量指标,以防止机器人过度膨胀。
3 个赞
这个新图表很有帮助,看起来“可能是机器人”类别被标记为“其他页面浏览量”:
对于那些不正确介绍自己的狡猾新机器人,有什么办法可以减缓它们或识别它们的来源吗?
可以检查网络爬虫用户代理报告,但如果它们没有出现在那里,就不确定还能调查什么了。
1 个赞
Jagster
(Jakke Lehtonen)
2024 年7 月 12 日 06:58
7
Architect:
有什么办法能让它们慢下来吗?
不可以。如果那个机器人的编码者像他们经常做的那样工作,意味着用户代理、设备、系统等文本的某一部分始终相同,那么你就可以完全阻止它们,但这需要一个反向代理。robots.txt 只是一个对行为良好的机器人的指导方针。
Architect:
不确定还有什么可以调查的
Discourse 的日志或多或少只能让你对大局有所了解。你需要从 Nginx 的日志中挖掘如此详细的数据,这意味着欢迎来到控制台
WordPress 很容易因为机器人而瘫痪,但对于 Discourse 来说,情况更像是令人讨厌。内容窃取是今天的常态,而且已经持续了很长时间了。
2 个赞
反向代理似乎是迈出的第一步,Cloudflare 在这方面做得好吗?
认识一位本地网页开发者朋友,他推荐使用 Cloudflare 的名称服务器来提高安全性。
我不太担心已发布的内容被“窃取”,当文本公开发布时,人们有权记录它,只要他们不试图将其作为自己的创作出售,那就会成为一个问题。
1 个赞
Jagster
(Jakke Lehtonen)
2024 年7 月 12 日 16:10
9
我建议使用 Nginx 或 Varnish。但 Cloudflare 也可能有效,我不了解它,从未使用过。
2 个赞
昨天8月17日,“其他页面浏览量”的机器人流量异常激增至152次,对于一个通常每天只有15-20次此类流量且大部分时间不活跃的网站来说,这非常随机。
Jagster
(Jakke Lehtonen)
2024 年8 月 18 日 07:35
11
完全正常。对我来说,我通过一起阻止最差的用户代理和地理博客(我的不是全球论坛,所以很容易做到)获得了最好的结果。
Jakke Lehtonen:
地理博客(我的不是全球论坛,所以我可以轻松做到)
您是指地理位置禁止芬兰以外的 IP 吗?这对于本地化网站来说似乎是个好主意。
Jagster
(Jakke Lehtonen)
2024 年8 月 18 日 10:39
13
是的。目前我将从俄罗斯、新加坡和中国获得大量流量。之前是印度、巴基斯坦、埃及、伊朗和伊拉克。我敢打赌他们无法完成 尽管对俄罗斯来说是可能的,但……不行。
最大的三个是美国、法国和荷兰,德国也在增长。但这是因为数据中心,所以不能禁止它们。
但同样,使用 Discourse,这些主要只是令人烦恼。使用 WordPress(以及其他 LAMP 堆栈,我想说)会产生如此大的负载,以至于情况开始接近 DDoS。
而且大多数都是愚蠢的脚本小子,他们试图利用古老的 WordPress 问题来攻击 Discourse。
但如今,SEO 和 AI 机器人已成为一个真正的问号。
但如果有人拥有本地论坛,那么地理封禁只是明智之举。
1 个赞
agemo
(agemo)
2025 年6 月 21 日 21:36
14
这可能正在以一种令人担忧的速度发展。
我曾看到疑似由人工智能驱动的机器人流量,其规模接近分布式拒绝服务(DDOS)攻击的程度,以至于 Discourse 服务开始抱怨。
虽然这不是一个强大的设置,但对于预期的正常需求来说,通常有一些余量。
这一次,它表现为巨大的匿名 流量和其他 流量。
这与服务器 CPU、负载和磁盘 I/O 统计数据的增加完美吻合。
作为这里的用户,我因为批评人工智能被过度热衷地采用而受到了很多指责和(暂时的)封禁,而现在这正以多种方式反噬(例如失业),并且现在又出现了这个问题,这可能是 OP 的延续,并且只是最新的人工智能驱动的网络机器人流量在表明其存在,哦,天哪。
当时我的观点是,(也)是时候考虑所有减轻对客户/最终用户影响的策略了,而不仅仅是作为一个子合作伙伴加入军备竞赛,那种马斯克式的逻辑是“如果你打不过他们,就加入他们”,在这种情况下,说起来容易,但不是正确的选择,而且呼吁监管是天真的。
退后一步?
也许现在太晚了。
人工智能流量可能会变得更像人类:技术上我不知道那是什么样的(但我知道我们是如何走到这一步的),除了它可能更容易冒充人类流量,并且呈现出更难检测的流量,从谷歌的角度来看也很有吸引力,但哦,天哪,这可能是一个更大的新问题。
没有什么东西是免费的,我不知道(再次)有多少人被这一点蒙蔽了双眼,没有采取人类应有的谨慎并选择退后一步的选项。
现在,这些流量仍然来自非常特定的地区,甚至 ASN 阻止也足以进行外科手术式的清除。
能持续多久?
这很正常,我运行着许多网站,而 Cloudflare 通常显示的流量大约是我真实流量的 10 到 30 倍。如果它们不触发分析(analytics),那么它们就是机器人或搜索引擎爬虫。因为大多数机器人不会运行用于分析的 JavaScript。
1 个赞
agemo
(agemo)
2025 年6 月 21 日 22:51
17
这些出现在 Google Analytics 中。依稀记得,那才是不同之处。
如果你真的担心,就使用 CloudFlare 并防火阻止那些有问题的国家。如果你的IP已经在DNS上,就获取一个新的IP地址。这是在你受到攻击的情况下。
1 个赞
agemo
(agemo)
2025 年6 月 21 日 23:01
19
确实,服务器已在 CF DNS 上,但未代理,因为我仍然认为它无法从旧设置建议中运行。你知道对橙色云的恐惧很强烈。
不过,我在其中一次浪潮中尝试了一下,在观察了一段时间后,相对轻松地缓解了流量。它似乎还剥离了更多的流量。
获得新 IP 地址的唯一方法是迁移到新服务器吗?
这取决于您的托管服务。有些像 DigitalOcean 这样的服务可以直接在仪表板中分配一个新的静态 IP 地址,有些则不行。您可能需要询问他们。我从不关闭它。如果我关闭橙色云(指 Cloudflare 的代理),我会认为该 IP 已被泄露。如果您在启用它(代理)后流量丢失,那很可能是您的 SSL 设置不正确。或者缓存设置不正确。如果您还没有正确配置 SSL,在 Cloudflare 上进行实时切换可能会很棘手。因为很难从 DNS 获取一个未缓存的 IP 地址进行测试。
1 个赞