Moderation API 插件

:information_source: 摘要 Discourse Moderation API 插件 通过自动审核功能增强您的 Discourse 论坛。它利用 Moderation API 经过实战检验的检测引擎,并包含一个改进的审核仪表板,可将版主效率提高 10 倍。
:hammer_and_wrench: 代码库链接 https://github.com/moderation-api/discourse-moderation-api
:open_book: 安装指南 如何在 Discourse 中安装插件

:hammer_and_wrench: 主要功能

Moderation API 是一个全栈审核解决方案。

自动审核操作

  • 自动标记评论和主题。
  • 从 20 多个预构建模型中选择,以应对常见用例,或构建您自己的模型。
  • 检测毒性、不适宜内容 (NSFW)、个人身份信息 (PII)、垃圾信息、自我推销、非法活动等。
  • 设置自动标记的自定义阈值。

LLM 驱动的检测

  • 将您的社区准则集成到 AI 代理中。
  • 利用 AI 作为第一道防线,或作为值得信赖的版主来标记评论。

自定义模型训练

  • 开发您自己的 AI 模型,以获得最高的审核准确性。
  • 使用版主操作作为反馈来训练和优化模型。
  • 通过机器学习持续增强自动标记功能。

增强的审核队列

  • 可选地使用 Moderation API 的审核队列,以获得流畅现代的审核体验。
  • 创建针对不同语言、类别或特定目的量身定制的多个审核队列。
  • 开发用于升级内容的审核工作流。
  • 将版主分配到特定的审核队列以进行高效管理。

仪表板分析

  • 通过 Moderation API 仪表板监控 AI 活动和结果。
  • 深入了解常见问题,并确定需要改进的领域。

无缝集成

  • 可轻松与现有的 Discourse 工作流和用户角色集成。
  • 在 Discourse 审核队列或 Moderation API 的审核队列之间进行选择。
  • 利用 Discourse 的内置审核操作。

:rocket: 配置

请按照以下步骤配置 Moderation API 插件:

在 Moderation API 中创建项目

  • 导航到您的 Moderation API 仪表板。
  • 创建一个新项目并选择您希望检测的标签。

(可选) 测试和调整阈值

  • 使用阈值滑块确定审核的严格程度。
  • 在 playground 中测试 API 响应。

设置 API 密钥

  • 在项目仪表板的“集成”下找到您的 API 密钥。
  • 在 Discourse 的管理员面板中,导航到“设置”>“Moderation API”。
  • 将您的 API 密钥粘贴到“Moderation API Key”字段中。
  • 保存更改。

启用插件

  • 选择您的标记行为(请参阅下面的选项)。您可以从“无”开始,在不执行任何操作的情况下测试插件。
  • 按下“启用插件”以开始分析新帖子。该插件不会分析任何预先存在的内容。

(可选) 添加您的社区准则

  • 转到 Moderation API 中的“模型工作室”。
  • 创建一个新的 AI 代理。
  • 将您的准则作为规则纳入代理。如果您有广泛的准则,请考虑创建多个代理。
  • 将代理添加到您的项目中。


:triangular_flag: 标记行为

该插件提供四种不同的标记行为,决定了当 Moderation API 标记评论时所采取的操作。

1. 标记 (默认行为)

插件机器人会根据您的 Discourse 配置,为评论添加“不当”标记。通常,这意味着评论会出现在审核队列中,但在版主批准或更多用户标记评论之前,它可能不会立即隐藏。请查看 Discourse 中的标记相关设置以进行自定义。

2. 队列待审核

评论会立即隐藏并添加到审核队列中,供版主批准或拒绝。

3. 阻止帖子

评论不会被发布。作者会收到一条错误消息,指出评论已被自动审核系统阻止。(您可以自定义错误消息。)

4. 无

不会立即采取任何操作。评论会被分析,如果被标记,将出现在 Moderation API 仪表板中。此选项适用于在完全启用插件之前测试 Moderation API。


:white_check_mark: 待办事项

  • 启用 Moderation API 的审核队列操作以从 Discourse 中删除内容。
  • 将 Discourse 审核队列的操作同步到 Moderation API 的审核队列。
  • 允许为不同类别设置单独的审核项目。
  • 使用选定的 Discourse 标记类别(目前使用“不当”)标记内容。

:wrench: 设置

下表列出了 Moderation API 插件的可用设置及其描述:

设置 描述
启用 Moderation API 控制插件是否激活。
默认值: 已禁用
标记行为 标记内容时会发生什么:
• 队列待审核
• 标记帖子
• 阻止帖子
• 无
默认值: 标记帖子
阻止消息 帖子被阻止时向用户显示的消息。
默认值: “您的帖子已被我们的审核系统阻止。”
队列时通知 帖子排队待审核时发送通知。
默认值: 已启用
跳过私信 对私信应用审核。
默认值: 已禁用
跳过群组 绕过审核检查的用户群组。
默认值:
跳过类别 绕过审核检查的论坛类别。
默认值:
API 密钥 您的 Moderation API 身份验证密钥。
默认值:

:credit_card: 订阅

您可以立即安装该插件,并利用我们的免费套餐30 天试用期。如需扩展功能和更高的使用限制,请浏览我们的订阅选项


:books: 文档


:hammer_and_wrench: 支持



免责声明: 虽然 Discourse Moderation API 插件显著增强了审核功能,但务必审查并理解自动审核的含义。始终确保社区了解在审核过程中使用 AI 的情况。

隐私声明: 此插件会处理用户生成的内容以执行审核规则。请确保遵守您的隐私政策,并告知用户数据处理实践。


10 个赞

来自 github 仓库的自述文件:

您可以立即安装该插件并使用我们的免费套餐或 30 天试用期。

我在网站或 API 文档中找不到有关免费套餐的信息。有什么限制?

另外,即用即付套餐是否仅在我们超出付费套餐配额时可用?

2 个赞

免费套餐适用于业余项目。请随时发送消息进行设置。

是的,即用即付是付费套餐超出包含配额时的选择加入选项。

3 个赞

很高兴看到更多的 AI 审核工具!您能否澄清一下,它提供了哪些 Discourse AI 无法提供的功能?谢谢!

1 个赞

是的,当然。这在原始帖子中可能说得更清楚。

首先,我想提一下,审核 API 让您可以访问一个完整的审核平台,其中检测引擎只是其中的一部分。您基本上是与一家在内容审核领域拥有多年经验的公司合作。

但如果我们只关注检测/分类:

  1. **更高的准确性:**您可以从 20 多个预构建的分类器中进行选择,以处理最常见的用例。这使得入门非常容易,而且我们不断改进我们的模型,因此您不必担心最新最好的技术。通常,与经过提示工程的 LLM 相比,经过良好训练的分类器可以获得更好、更稳健的结果。

  2. **上下文感知:**审核 API 的检测引擎还可以查看线程中的先前消息以及作者的历史记录,以提供更好的分析。我认为与内置的分类相比,这是一个很大的改进。

  3. **专用 LLM:**我相信 Discourse 允许您在 gpt-4o 和 claude 等几个模型之间进行选择,而审核 API 还支持专门为内容审核训练的 LLM,例如 Llama-guard 等。我们的 LLM 还预先配置了提示,以根据我们的数据发挥最佳性能。

  4. **训练自定义模型:**一旦您接入审核 API,您还可以根据您的特定数据训练自己的模型。

  5. **合规性:**我们在自己的服务器上托管模型,并可以为合规性和法规优先的公司提供自定义 DPA。在某些情况下,我们甚至可以提供本地部署解决方案。

  6. **成本:**最好的部分是,我们可以以更低的成本处理大批量业务,并且在任何情况下都可以提供固定费率以实现可预测的成本。

我希望这能让您更清楚。配置一个项目比仅仅编写一个提示提供了更多的选项和灵活性,所以我认为它是一个更强大、更专业的解决方案。

2 个赞

安装插件后,在重新构建应用程序时,我收到此错误:

Gem::LoadError: can’t activate faraday-2.12.2, already activated faraday-2.13.4
… /plugins/discourse-moderation-api/plugin.rb:11:in `activate!’

完整日志:er-js/faker-10.0.0 * [new branch] dependabot/npm_and_yarn/fortawesome - Pastebin.com

丹尼尔,感谢您试用该插件。

我正在处理此事。在此期间,如果您联系 support@moderationapi.com,将更容易获得帮助。

此问题应已在新版插件中修复。我认为您现在可以重建您的应用程序了。