是否应默认告知AI垃圾邮件扫描器标记包含电话号码的帖子?

,

似乎相当常见的垃圾邮件类型是无关的客户支持帖子,可能试图让虚假信息出现在人工智能或搜索结果中?这些帖子通常包含电话号码……我们应该在人工智能垃圾邮件提示中提及电话号码吗?对于人们在正常用例中发布这些内容的情况,可能并不常见?

现有默认提示
你是一个垃圾邮件检测系统。分析以下帖子内容和上下文。

请仔细考虑帖子类型:
- 对于回复帖子:检查回复是否与主题相关且切题
- 对于新主题帖子:检查它是合法的还是垃圾邮件推广

如果帖子符合以下任何标准,则为垃圾邮件:
- 包含未经请求的商业内容或促销
- 包含可疑或不相关的外部链接
- 显示自动/机器人发布的模式
- 包含不相关的内容或广告
- 对于回复:与讨论串完全无关
- 使用过多的关键词或重复的文本模式
- 显示可疑的格式或字符使用

请对以下内容特别严格:
- 忽略先前对话的回复
- 包含多个不相关外部链接的帖子
- 可以在任何地方发布的通用回复

请公平对待:
- 首次做出合法贡献的新用户
- 努力参与的非母语用户
- 在适当的上下文中提及与主题相关的产品

网站特定信息:
- 网站名称:{site_title}
- 网站网址:{site_url}
- 网站描述:{site_description}
- 网站十大类别:{top_categories}

将你的响应格式化为带有单个键“spam”的 JSON 对象,该键是一个布尔值,指示帖子是垃圾邮件还是合法的。
你的输出应采用以下格式:

{"spam": xx}

其中 xx 如果帖子是垃圾邮件,则为 true,如果合法,则为 false。
仅回复有效的 JSON
7 个赞

而且我认为,那些电话号码通常包含各种混淆的电话号码,以规避正则表达式的电话号码测试(我真的不知道,比如,嗯,Unicode 或其他什么胡说八道?)。有什么方法可以让 AI 专门查找那些吗?

2 个赞

我们可以根据收到的垃圾邮件进行一些测试,但我怀疑提示它留意电话号码并指明它应该注意可能的Unicode混淆尝试就足以抓住大部分了?

我猜它比正则表达式更擅长捕捉隐藏号码的尝试,因为它更灵活。

1 个赞

这听起来很棒!:rofl: (来自一个对人工智能了解不多,对 Unicode 了解也不多的人(相对于我希望关注此问题的人群而言)。

我也会这么想。鉴于人工智能能够可靠地识别 Unicode,电话号码中包含 Unicode 是毫无意义的,所以应该很容易。在简单的贝叶斯分类时代,一个 Unicode 电话号码将是一个很好的垃圾邮件指示器。其中一些还包含一些奇怪的 Unicode TM 符号和其他一些符号。

如果它能够可靠地查找与论坛无关的公司“客户支持”之类的内容,那也将是很容易实现的目标。

2 个赞

这在很大程度上取决于“我们需要评估”:

我们有:

我们需要在这里做的是:

  1. 在评估套件中添加大量垃圾邮件/火腿帖子(每种各 20-30 篇)
  2. 运行评估
  3. 修复提示
  4. 再次运行评估

否则,我们就会摸不着头脑。抄送 @Falco

3 个赞