Обнаружение спама AI в Discourse заменяет плагин Akismet

Начиная с сегодняшнего дня мы будем удалять плагин Discourse Akismet и вместо этого по умолчанию будем включать Discourse AI — обнаружение спама для хостинговых клиентов на тарифах Pro и Standard.

Почему мы вносим это изменение?

За последние несколько недель мы обнаружили, что наш детектор спама на базе ИИ обеспечивает лучшие результаты по сравнению с Akismet.

Более 126 сайтов активно использовали его, а внутри Meta мы лично наблюдали уровень успешности обнаружения спама свыше 96%.

Помимо производительности, настройка теперь станет стандартной, с возможностью кастомизации и гибкими опциями, если они вам понадобятся.

Что мне нужно сделать?

Если вы используете хостинг Starter или Pro, ничего делать не нужно!

Изменения произойдут автоматически в фоновом режиме. Вы больше не увидите Akismet среди плагинов. Вместо этого в настройках плагина ИИ вы увидите включённый детектор спама на базе ИИ, использующий размещённую на платформе Discourse LLM с открытыми весами.

Если плагин ИИ отключён, вам нужно будет вручную включить детектор спама на базе ИИ и выбрать LLM.

У меня уже включено обнаружение спама на базе ИИ!

Если у вас уже включён детектор спама на базе ИИ через эксперименты What's New, то вы можете спокойно проигнорировать это объявление, так как у вас эта функция уже активна!

Почему это изменение касается только Starter и Pro?

Как обычно, внедрение изменений в нашем хостинге начинается с начальных тарифов и постепенно расширяется, чтобы охватить все уровни.

21 лайк

2 поста были перенесены в новую тему: Ребрендинг аккаунта для обнаружения спама с помощью ИИ

Означает ли это, что вы полностью прекращаете разработку плагина, или просто то, что вы больше не предлагаете его на своей хостинговой платформе? Я использую самохостинг и не применяю никакой «ИИ». Будет ли меня вынуждать начать использовать обнаружение спама на базе ИИ?

3 лайка

Это изменение касается только размещенных клиентов на тарифных планах Starter и Standard. Плагин Akismet удален и больше недоступен для этих тарифных планов.

Пользователи с самостоятельным размещением могут самостоятельно принимать решения в этом вопросе.

3 лайка

Будет ли детекция спама на основе ИИ корректно работать для языков с меньшим числом носителей в мире? Например, для украинского.

Также справится ли она с двуязычными постами, что естественно для некоторых стран? Например, в Украине люди свободно говорят как на украинском, так и на русском, и иногда используют оба языка в одном посте.

Другим примером могли бы быть неаполитанский/итальянский или испанский/каталонский, но я не уверен насчёт этих пар — мне известен только случай украинского и русского.

3 лайка

Да, всё будет работать. Всё зависит от используемой вами большой языковой модели (LLM).

Модели от Google, как правило, обладают отличной многоязычной поддержкой. Например, Gemini Flash поддерживает 120 языков, что делает его хорошим кандидатом.

Попробуйте протестировать его с помощью кнопки «Тест» на реальных постах, на спам-постах и т.д. Вы также можете задать собственные инструкции, например:

Публикация на русском и украинском языках поочерёдно допустима.

4 лайка

Через OpenAI работает для финского. Да, время от времени возникают ложные срабатывания, если сообщение состоит из одной строки, но я не думаю, что это проблема языка, а скорее слабое промпт-инструктирование.

5 лайков

Здравствуйте, у меня самостоятельная установка. Встроена ли защита от спама Akismet в ядро установки Discourse, или мне нужно установить этот плагин отдельно? Спасибо.

1 лайк

Это не входит в основную сборку. Вы можете найти тему здесь: Discourse Akismet

Однако тема закрыта и скрыта. Не совсем понятно, что это означает. Было бы логично, если бы плагин больше не поддерживался, но в теме указано, что он удалён только из двух тарифов хостинга. Тогда почему пользователи с самостоятельным размещением и клиенты на более высоких тарифах не должны иметь возможность найти эту информацию через поиск на Meta? Я бы подождал ответа на этот вопрос перед установкой плагина.


Кроме того, кажется, что в первом сообщении по ошибке «Starter» вместо «Standard» было заменено на «Pro».

Akismet подвела нас слишком много раз. Мы наблюдали множество сайтов с установленным Akismet, которые просто заполнялись спамом.

Для тех, кто размещает Discourse самостоятельно, если бюджет ограничен, стоит использовать Discourse AI с одним из множества бесплатных моделей. Бесплатный тариф Gemini Flash 2.0 справляется с задачей вполне приемлемо.

6 лайков

Спасибо за информацию. Для меня не было очевидно, что мой самохостинговый сайт Discourse не защищён от спама. Я ошибочно полагал, что он защищён. ОМГ, эту информацию следовало бы более заметно размещать для потенциальных администраторов Discourse, планирующих самохостинг своего сайта.

Я поищу функционал Discourse AI, о котором раньше не задумывался из-за бюджетных ограничений.

Я попробую здесь перечислить действия для администратора на самохостинговом сайте, как у меня. Скажите, пожалуйста, правильно ли я понимаю?

  1. Сначала я должен установить плагин Discourse AI? Discourse AI

  2. Во-вторых, я должен настроить LLM, как объясняется здесь? Discourse AI - Large Language Model (LLM) settings page

  3. Затем я должен настроить механизм обнаружения спама, как объясняется здесь? Discourse AI - Spam detection

1 лайк

Напоминание/примечание для тех, кто размещает сервисы самостоятельно:

Добавление «случайных» LLM для борьбы со спамом потенциально открывает ящик Пандоры в вопросах конфиденциальности и защиты персональных данных (PII). Если вы обязаны соблюдать GDPR, COPPA и другие аналогичные нормы, использование внешних LLM может потребовать от вас заключения соглашения о защите данных с провайдером LLM, чтобы гарантировать, что ваш сайт не передаст PII третьей стороне. При этом PII начинаются с таких простых вещей, как имена и адреса электронной почты.

Просто имейте это в виду.

2 лайка

Не знаю, как обстоят дела в США или Великобритании [1], но в ЕС это относительно простой вопрос.

Необходимые данные могут быть «вытекать» (то есть передаваться третьей стороне), даже если они считаются ПДн, если они соблюдают GDPR. И все крупные игроки это делают. Или, по крайней мере, так они говорят. Это вопрос доверия.

Не люблю говорить это вслух, но я не доверяю ни одной компании из Китая. И то же самое с американскими компаниями. У обеих сторон огромные проблемы с правительством, и стремление зарабатывать деньги за рубежом очень сильно. Microsoft сливала/сливает данные в США, даже когда должна хранить их в ЕС.

Все еще использую Amazon и OpenAI? Да, потому что вынужден. Но все мои VPS и большая часть активности в S3 были перенесены с AWS. Однако мои личные письма и транзакционные письма, например, с форума, по-прежнему обрабатываются AWS.

Вся моя активность на форуме, связанная с ИИ, обрабатывается OpenAI. Я не доверяю им — но какие у меня есть варианты? Мне очень не нравится связь с Microsoft, но могло быть и хуже…

Так что мы, как администраторы из ЕС, в довольно безопасном положении, если не запрашиваем копии паспортов или личные удостоверения личности, поскольку платформа Discourse хорошо справляется со своей частью. И пока третья сторона заявляет, что соблюдает GDPR и другие нормативные акты (то же самое, что и с Google Ads и т. д.), «утечка» не является юридической проблемой.

Но это, безусловно, моральная проблема. Вот почему мы либо используем ИИ и одновременно стараемся обучать пользователей, либо вообще не используем его. Это наши варианты.

И в глобальном масштабе… ИИ на форуме — это гораздо меньшая проблема с точки зрения ПДн, чем использование Meta, DNS 8.8.8.8 или коммерческих VPN-сервисов (или запись звонков на iPhone через китайские серверы… [2]).


  1. личное мнение: обе страны в этом вопросе полный хаос ↩︎

  2. всерьез… мой робот-пылесос хотел отправить все данные о местоположении и информацию о Wi-Fi в Китай ↩︎

2 лайка

Требует ли плагин AI больше вычислительных (читай: экологических) ресурсов, чем Akismet?

1 лайк

На 100 % неизвестно: Akismet работает как API, а WordPress никогда не публиковал точные данные об объёме используемых вычислений.

Наши GPU-серверы обслуживают всю нашу клиентскую базу, и за последние три года большие языковые модели стали значительно эффективнее.

4 лайка