我想听听社区成员的意见,看看他们是否遇到了任何由人工智能驱动的垃圾邮件,或者垃圾邮件是否有所增加。
这具体是指看到一些看起来像是基于 ChatGPT 的答案,并且似乎不像是人类所写,或者存在幻觉(这是大型语言模型的一个常见问题)。
我遇到了基于人工智能的垃圾邮件
- 是
- 否
如果答案是是,我想了解……
- 这种情况发生的频率如何?
- 这在您的社区造成了多大的问题?
- 您目前正在采取什么措施来应对?
如果答案是否,我想了解……
- 您是如何防止这种情况发生的?
- 您的社区本身不面临此问题的原因是什么?
我想听听社区成员的意见,看看他们是否遇到了任何由人工智能驱动的垃圾邮件,或者垃圾邮件是否有所增加。
这具体是指看到一些看起来像是基于 ChatGPT 的答案,并且似乎不像是人类所写,或者存在幻觉(这是大型语言模型的一个常见问题)。
如果答案是是,我想了解……
如果答案是否,我想了解……
我们只是将人工智能用作获取知识的工具,也许还会进行一些随意的聊天。
也许我们的社区很小,并且有“常识”认为幻觉是坏的。
私人社区(需要登录,仅限受邀者)。
我认为,阻止任何垃圾邮件最有效的方法是加入一个非常小众且难以掌握的语言社区。这可以阻止那些进行手动劳动的小丑。
我们都知道垃圾邮件发送者并不那么聪明,自动流量也不在乎语言、类型甚至规模。所以,一定有其他原因导致一些论坛或网站像蜂蜜罐一样吸引各种垃圾信息,而另一些则安然无恙。
至于为什么垃圾邮件发送者可以在某些地方注册而不能在其他地方注册,尽管系统和设置应该相同,我没有答案。但有一点是肯定的:管理员或其他后台力量为了快速吸引全球受众而产生的需求,将导致机器人和垃圾邮件问题。
在过去的几周里,我们的网站流量激增。我们看到新注册用户在回复中发布带有隐藏链接的典型垃圾信息。当我们提高了创建新帖子的声望要求后,我们发现人工智能生成的回复有所增加,这似乎是机器人试图在虚假账户上缓慢提高它们的声望。这些回复没有明显的虚假链接,它们只是包含通用的 AI 文本,对回答问题没有帮助。
我们在一个周末收到了大量垃圾帖子,多到有人创建了一个新主题说我们的论坛垃圾信息太多了。从那时起,管理员每天都需要检查网站以清理虚假的人工智能帖子。我们还看到一些过去创建但从未活动的账户上出现了人工智能帖子,这似乎是一些垃圾邮件机器人一直在为账户做准备,让它们保持不活跃状态。现在它们正试图缓慢地绕过参与度限制,以便发布新主题。
如上所述,我们提高了发布新帖子的信任级别。我们还启用了 Akismet。但这并没有阻止人工智能垃圾帖子的出现。目前,我们需要管理员/版主每天检查论坛,审查标记的帖子并进行清理。其中一些帖子具有挑战性,看起来可能是一个人发的,所以需要两个人来检查。
我们鼓励用户帮忙标记看起来像人工智能的帖子,这有所帮助。
我们的论坛流量相对较低,已经运行多年,管理员清理和维护工作非常少,但似乎人工智能机器人已经找到了我们。我在想是否需要人工智能来阻止人工智能?
是的,很遗憾。或者你可以暂时审核所有新用户,并放慢用户注册到发帖的时间。
我们有:
它还支持标记,所以你今天就可以使用它。
说到这个,我们刚刚发布了一个关于此的指南!
在此跟进一下,有人有机会尝试过这个吗?我很想听听您的反馈。
我还没有看到太多,但我的论坛将最初的几篇帖子置于审核中,并且我通常可以通过某些线索判断某人是否可能是垃圾邮件发送者。我会将可疑的帖子锁定在 TL0,直到他们发布一些明显与主题相关的内容为止。
这不是一个“闲聊论坛”,所以通常可以通过第一篇帖子来判断某人是否在假装感兴趣。
其实,我刚刚偶然发现一个用户在使用 ChatGPT 或其他 AI 发布内容。可能还有更多我遗漏的垃圾账户。
一些对抗它的想法:
我想知道是否可以通过网站停留时间与撰写字数之比,以及其他信号(如 VPN、粘贴内容、注入内容等)来大致分类用户。可疑账户可以被标记以供审查。
编辑:这个快速的数据探索器查询发现了一些,尽管其中一些已经被暂停了。
SELECT
u.id,
u.created_at,
u.username,
u.trust_level,
us.time_read,
us.days_visited,
us.topics_entered,
us.post_count,
us.topic_count
FROM users u
LEFT JOIN user_stats us
ON us.user_id = u.id
WHERE u.trust_level < 1
AND u.created_at > '2023-01-01'
AND us.time_read < 1000 -- seconds
AND us.post_count > 1
跟踪阅读时间、访问天数、阅读的主题/帖子。这位用户花了 8 分钟阅读网站,但发布了 6 条评论,并且在注册当天只访问了 3 次。用户实际上仍然是 TL0,因为他们除了发布评论之外什么都没做。
这是一种有趣的观点,可以排除那些可能在一天内“伪造活动”以升级到更高 TL 的人。
我喜欢这里使用其他方法对用户进行分类的建议,值得研究!
5 篇帖子已拆分为新主题:阻止最近的垃圾邮件浪潮
每天一个。在拥有约 2000 名用户(每年新增 500 名)的论坛上出现此模式:
这在模式上与以下链接中描述的模式高度相似:
OK. So now we are seeing an increase in spam posts esp. using AI to generate plausible looking posts. Is there a way to require a review of posts which: Are made by TL0; and Contains a link (http://)? Currently the first x posts are reviewed, but esp. with AI, spammers post x amount of innocuous posts before posting the spam links.
我们已经使用显式列表阻止了 hotmail、gmail 和其他大型面向消费者的域名,但据我们所知,有至少 10,000 个域名被用于这种方法。在我们自己的软件中,我们有一个显式列表,并且在 UserCheck 上进行实时检查(我们使用免费版本,并且仅在我们自己的应用程序和缓存上进行注册检查,因此每月 5000 次查找就足够了)。
从我所见,可以通过自动阻止临时/垃圾邮件域名来解决这种特定行为。
阻止 TL0 用户使用链接的方案,并不比审核所有新请求更可行,因为许多用户在首次注册后会直接发帖,该网站是一个支持门户。
有一个插件可以实现此功能,但似乎已不再维护(请参阅 https://meta.discourse.org/t/plugin-to-detect-reject-disposable-emails-on-signup/162569)。
我不确定这种方法是否能解决所有问题,例如对于大型论坛或接受消费者电子邮件地址的论坛。
最近我收到了很多垃圾邮件发送者,处理起来非常耗时。
就我目前正在处理的垃圾邮件发送者而言,其文本是用完美的英语写成的,使用的是 VPN,电子邮件地址在 StopForumSpam 中,而且我能看出内容是复制/粘贴的,因为使用的破折号字符在键盘上不存在。我不得不手动检查所有这些,而且今天早上还有好几个要看。
构思另一个想法:
当帖子保存时,Discourse 可以在该帖子的 JSONB 字段中记录额外数据:
版主可以在帖子中通过一个小表格查看这些数据。异常值可以高亮显示,以便突出显示可疑帖子。
可能没有完美的方法来自动化检测,但拥有更多信息将加快审核过程。
我想知道以下指南是否有所帮助,因为垃圾邮件只会随着时间的推移而变得更加复杂
我没有在论坛上使用人工智能,因为这很昂贵。我也不能确定人工智能能否解决这个问题,因为内容看起来很正常。我仍然需要手动调查每一个可疑的帖子。
我没有遇到过不适宜内容(NSFW)的问题。
我的问题不在于内容本身有什么问题。唯一可疑的是新用户在注册几分钟内不会写这样的帖子,而且内容也有些模糊。我的主论坛有一个非常具体的主题,如果第一篇帖子没有具体说明发帖人与该主题的关系,我就会开始调查。否则我可能注意不到他们的帖子。
这里有几个例子。内容足够模糊,足以让我开始调查,但这很耗时,因为我必须手动进行。
我不能仅凭内容来禁止这个用户。是其他线索告诉我这是一个垃圾信息发送者。
这个 IP 地址是一个位于挪威的 VPN,而且内容太模糊了。我能够确认这一点,因为该电子邮件地址出现在 StopForumSpam 上,其 IP 地址来自德国:
我只是在头脑风暴,但如果帖子旁边有一个小表格,说明一些信息,那么审核这些用户会更快,例如:
| location | Oslo, Norway [from maxmind] |
| organization | PacketHub S.A. [from maxmind] |
| is_vpn | true |
| whatever@example [sometimes this provides clues] | |
| stopforumspam | true [link] |
| characters_output | 1,234 |
| characters_output_pressed | 10 [this doesn’t match the number of chars in the post, so it’s a clue] |
| num_cut_or_copy | 0 [didn’t copy text from editor] |
| num_paste | 1 [did make one paste] |
| seconds_editor_open | 20 [suspicious for a post of that length] |
也许这个表格可以折叠起来,除非有可疑的值,并且/或者版主可以标记某个用户为“可能不是垃圾信息”,这样就可以折叠该用户所有帖子的表格,或者停止对该用户的未来查找。或者用户达到 TL2 时可以自动标记为安全。
这是一个组合因素:
请看论坛上这篇帖子 1622105。它是注册后 3 分钟发布的,经过手动编辑,将 Quora 的链接改成了 stackexchange,而且英文写得很好,但它讨论的技术与 Discourse 无关。我不想链接到它,因为它会通知发帖人。
这正是我提到的那种情况,如果能在帖子中直接看到我提到的数据,将会很有用。
这感觉很多是关于员工经验与人工智能的。我会把合适的人叫进来讨论这个话题。
我认为,尝试加强我们已有的“快速输入”检测功能听起来很有吸引力。将 SFS 集成到核心也可能很有吸引力。
当然,还有一个深刻的哲学问题:
如果它为论坛增加了价值(即使它是由人工智能生成的),它是否算作垃圾信息?
如果它没有为论坛增加任何价值(即使它是由人类生成的),它是否应该从论坛中移除?
这两个问题都没有非常明确的答案。
我认为向管理员提供更多元数据的建议是好的。这独立于改进自动功能。
如果它为论坛增加了价值(即使是人工智能生成的),它算是垃圾邮件吗?
如果它没有为论坛增加价值(即使是人类生成的),它应该被从论坛移除吗?
这两个问题都没有非常明确的答案。
这取决于论坛的具体情况。
我有时会保留一些垃圾邮件帖子,如果它们能引发讨论,但大多数都会被删除。质量非常低,而且通常很容易分辨出是否是人工智能生成的。如果我觉得我读到的东西是人工智能生成的,我就会开始失去对来源的信任。我不是人工智能的“卢德分子”,但除非我知道内容是人工智能生成的,否则我不想阅读人工智能生成的内容。
如果我发现有人在论坛上使用人工智能,我会立即阻止,因为可信的内容是论坛最重要的资产之一。
此外,2024 年对人类来说看起来还可以的内容,到 2034 年可能很容易被人识别为人工智能生成的,这有点像几十年前看起来逼真的电影特效,现在却很容易被识破是假的。我认为 2024 年人工智能生成的内容最终会显得过时。