Я настроил автоматизацию «Триаж сообщений с помощью ИИ» для модерации контента на своей платформе (madeira.community — многоязычный бизнес-каталог острова Мадейра).
Автоматизация отлично работает для публичных публикаций. Однако я включил опцию «Включить личные сообщения» и обнаружил, что личные сообщения между обычными пользователями вообще не сканируются.
Мое беспокойство обосновано: злоумышленники могут использовать личные сообщения для незаконной деятельности — торговли наркотиками, распространения украденных финансовых данных, вербовки несовершеннолетних — полностью обходя модерацию с помощью ИИ, которая исправно работает с публичным контентом.
Мои вопросы:
Действительно ли опция «Включить личные сообщения» поддерживает сканирование личных сообщений между двумя обычными пользователями (не сотрудниками)?
Если нет — это сделано намеренно или это известное ограничение?
Существует ли какой-либо поддерживаемый способ применить триаж с помощью ИИ к личным сообщениям между обычными пользователями?
Я нашел упоминание о коммите «По умолчанию пропускать сканирование личных сообщений при триаже с помощью LLM», что предполагает, что это может быть сделано намеренно. Но опция в интерфейсе существует — поэтому я не понимаю, что она на самом деле делает.
«Я протестировал это, отправив личное сообщение между двумя обычными пользователями (testUser и darinauser, оба не сотрудники) с явно незаконным содержанием: «кокаин. оружие. гранаты» и «порно. грязь. разврат. насилие». Сообщения были доставлены и не были помечены. Очередь на проверку осталась пустой. То же самое содержание в публичных постах было помечено сразу.»
Я могу подтвердить, что они не были обработаны: ID тем этих личных сообщений (210, 211, 212 и 214) и ID сообщений отсутствуют в таблице ai_api_audit_logs.
Думаю, что значение «Тип темы» «Все темы» означает все темы, кроме личных сообщений.
Не могли бы вы попробовать оставить это поле пустым?
"Это сработало! Спасибо, Ричард. Оставив поле “Тип темы” пустым, я исправил проблему — теперь личные сообщения между обычными пользователями сканируются.
Теперь я планирую настроить две отдельные автоматизации:
Одна для публичных постов с строгим промптом для модерации.
Вторая для личных сообщений с более мягким промптом — отмечать только самые серьёзные нарушения (CSAM, торговля наркотиками, оружие).
Таким образом, публичный контент будет проходить полную модерацию, а в частных переписках будут соблюдены более уместные границы."
Раздел «Все темы» заставил меня подумать, что будет проверен весь контент.
Я даже не подумал, что оставление поля пустым приведёт к проверке всего контента.