Вы сталкиваетесь со спамом на основе ИИ?

Мне интересно узнать у участников сообщества, сталкиваются ли они с увеличением количества спама, созданного с помощью ИИ.

Речь идёт конкретно о ответах на вопросы, которые выглядят так, будто они сгенерированы ChatGPT, кажутся неестественными или содержат галлюцинации (распространённая проблема у больших языковых моделей).

Я сталкиваюсь со спамом на основе ИИ

  • Да
  • Нет
0 voters

Если ответ да, мне интересно узнать…

  • Как часто это происходит?
  • Насколько серьёзной проблемой это становится для вашего сообщества?
  • Что вы сейчас делаете для решения этой проблемы?

Если ответ нет, мне интересно узнать…

  • Как вы предотвращаете это?
  • Есть ли причины, по которым ваше сообщество по своей природе не сталкивается с этой проблемой?
12 лайков

Мы просто используем ИИ как инструмент для поиска знаний, возможно, для небольшого неформального общения.
Возможно, наше сообщество невелико, и в нём есть общее понимание, что галлюцинации — это плохо.

4 лайка

Закрытое сообщество (требуется вход, только по приглашению).

7 лайков

Я полагаю, что самый эффективный способ остановить любой спам — быть участником сообщества на очень маленьком и сложном языке. Это останавливает тех клоунов, которые занимаются ручным трудом.

Что ж, мы все знаем, что спамеры не так уж умны, а автоматический трафик не обращает внимания на язык, жанр или даже размер. Значит, должна быть другая причина, почему некоторые форумы или сайты становятся медовыми горшками для всякого мусора, а другие живут без драмы.

На вопрос, почему спамеры могут регистрироваться там, но не могут где-то ещё, при том что система и настройки должны быть идентичными, у меня нет ответа. Но одно точно: стремление администраторов или других сил, стоящих за кулисами, к быстрому росту за счёт глобальной аудитории неизбежно приведёт к проблемам с ботами и спамом.

2 лайка

За последние пару недель мы наблюдаем всплеск активности на нашем сайте. Мы видим типичный спам со скрытыми ссылками в новых ответах от новых аккаунтов. Когда мы повысили уровень репутации, необходимый для создания новых сообщений, количество ответов, сгенерированных ИИ, увеличилось. Похоже, что боты пытались постепенно повышать репутацию на фиктивных аккаунтах. Эти ответы не содержат очевидных фальшивых ссылок, они просто содержат общий текст от ИИ, который не помогает ответить на вопрос.

Нам пришлось столкнуться с крупным всплеском спам-сообщений в выходные дни, настолько значительным, что кто-то создал новую тему, заявив, что на нашем форуме слишком много спама. С тех пор администраторам приходится проверять сайт каждый день, чтобы удалять фальшивые сообщения от ИИ. Мы также замечаем сообщения от ИИ на аккаунтах, которые были созданы в прошлом, но не проявляли никакой активности. Это создает впечатление, что некоторые спам-боты заранее готовили аккаунты и оставляли их бездействующими в течение длительного времени. Теперь они пытаются постепенно преодолеть ограничения по вовлеченности, чтобы иметь возможность создавать новые темы.

Как отмечалось выше, мы повысили уровни доверия, необходимые для создания новых тем. Мы также включили Akismet. Однако это не остановило спам-сообщения от ИИ. В настоящее время администратору или модератору необходимо ежедневно проверять форум, чтобы просматривать отмеченные сообщения и удалять спам. Некоторые сообщения вызывают трудности, так как они могут выглядеть как написанные человеком, поэтому их проверку должны проводить два человека.

Мы призвали наших пользователей помогать и отмечать сообщения, которые выглядят как сгенерированные ИИ, и это помогло.

Наш форум имеет относительно низкую активность и годами функционировал с минимальным количеством административной чистки и обслуживания, но, похоже, боты на основе ИИ нашли нас. Я думаю, что для борьбы с ИИ, возможно, потребуется использование самого ИИ?

6 лайков

Да, к сожалению. Либо это, либо временно проверять всех новых пользователей вручную, увеличивая время между «регистрацией пользователя» и публикацией поста.

У нас уже есть:

Она также поддерживает флагирование, так что вы можете использовать её уже сегодня.

3 лайка

Кстати, мы только что опубликовали руководство по этой теме!

8 лайков

В продолжение этого: у кого-нибудь уже была возможность попробовать это в действии? Буду рад получить ваши отзывы.

2 лайка

Я ещё не видел много такого, но на моём форуме первые несколько постов проходят модерацию, и обычно я могу определить, что кто-то может быть спамером, по определённым признакам. Подозрительных пользователей я блокирую на уровне TL0, пока они не опубликуют что-то явно по теме.

Это не форум для «разговоров о случайных вещах», поэтому обычно можно понять, симулирует ли кто-то интерес, уже по первому сообщению.

3 лайка

На самом деле я только что наткнулся на пользователя, который проскользнул мимо системы и публикует сообщения с помощью ChatGPT или другого ИИ. Возможно, есть и другие спам-аккаунты, которые я упустил.

Несколько идей, как с этим бороться:

  • Создать базу данных провайдеров VPN. Данный IP-адрес принадлежит «M247 Europe SRL», что является провайдером VPN-услуг. Я всегда хотел получать уведомление, когда новый аккаунт использует VPN. В данный момент мне приходится делать это вручную.
  • Отслеживать время чтения, количество посещений, просмотренные темы/сообщения. Этот пользователь провёл на сайте 8 минут, оставил 6 комментариев, но за день регистрации зашёл всего 3 раза. Фактически пользователь остаётся на уровне TL0, поскольку, кроме комментариев, ничего не сделал.
  • Я изложил больше идей в комментариях на этой странице.

Интересно, можно ли примерно классифицировать пользователей по соотношению времени, проведённого на сайте, и количества написанных слов, а также по другим сигналам, таким как использование VPN, вставка скопированного контента, внедрённый контент и т. д. Подозрительные аккаунты можно помечать для проверки.

Редактирование: этот быстрый запрос к Data Explorer выявил ещё несколько таких случаев, хотя некоторые из них уже были заблокированы.

SELECT
    u.id,
    u.created_at,
    u.username,
    u.trust_level,
    us.time_read,
    us.days_visited,
    us.topics_entered,
    us.post_count,
    us.topic_count
FROM users u
LEFT JOIN user_stats us
ON us.user_id = u.id
WHERE u.trust_level < 1
AND u.created_at > '2023-01-01'
AND us.time_read < 1000 -- секунд
AND us.post_count > 1
3 лайка

Это интересный подход к выявлению пользователей, которые могут «накручивать активность» в течение одного дня, чтобы перейти на более высокий уровень TL.

Мне нравится рекомендация использовать дополнительные способы классификации пользователей — стоит изучить это подробнее!

4 лайка

5 сообщений были перенесены в новую тему: Блокировка недавней волны спама

Один в день. Паттерн на форумах с примерно 2000 пользователей (500 новых в год):

  • новый пользователь регистрируется с почтовым доменом из категории «временные домены», например «cetnob.com».
  • в течение нескольких часов создаёт новую тему или отвечает на существующую
  • пишет текст только в английских разделах (сайт двуязычный, более 90% контента не на английском)
  • иногда включает URL в текст, иногда нет
  • текст выглядит как настоящий вопрос или замечание, с использованием слов, характерных именно для этого форума, и релевантных материалов
  • однако текст кажется немного не по теме, но при этом очень качественным: неопытный инженер поддержки не сможет его выявить

Этот паттерн очень похож на описанный здесь:

Мы уже блокируем домены hotmail, gmail и другие крупные потребительские домены с помощью явного списка, но нам известно как минимум о 10 000 доменов, используемых для такого подхода. В нашем собственном ПО у нас есть явный список плюс проверка в реальном времени через UserCheck (мы используем бесплатную версию и проверяем только при регистрации в наших приложениях и кэше, поэтому 5000 запросов в месяц достаточно).

По моим наблюдениям, именно такое поведение можно устранить путём автоматической блокировки временных/спам-доменов.

Блокировка TL0 от использования ссылок не считается более жизнеспособной альтернативой модерации всех новых запросов, так как многие пользователи публикуют сообщения сразу после первой регистрации, а сайт является порталом поддержки.

Существует плагин для этого, но, похоже, он больше не поддерживается (см. Plugin to detect & reject disposable emails on signup).

Не уверен, что этот подход решит все проблемы, например, для крупных форумов или форумов, принимающих почтовые адреса от потребительских провайдеров.

5 лайков

В последнее время я получаю много спама от ботов, и тратить время на их проверку очень утомительно.

Сейчас я рассматриваю одного из спамеров: текст написан на безупречном английском, используется VPN, адрес электронной почты есть в базе StopForumSpam, и я могу сказать, что контент был скопирован и вставлен, потому что использованный знак тире не существует на клавиатурах. Мне пришлось проверять всё это вручную, и сегодня утром мне ещё предстоит просмотреть несколько таких сообщений.

Придумал ещё одну идею:

Когда пост сохраняется, Discourse мог бы записывать дополнительные данные в поле JSONB этого поста:

  • IP-адрес
  • is_vpn? — поиск в MaxMind для определения организации и проверки, является ли она VPN (например, PacketHub S.A.)
  • быстрая проверка адреса электронной почты в StopForumSpam
  • сравнение количества символов, выведенных в редактор, и количества нажатых клавиш, генерирующих вывод (исключая стрелки, Ctrl и т. д.). Например, пользователь вывел 1000 символов в исходном содержимом, но нажал клавиши, генерирующие вывод, всего 10 раз (что указывает на вставку контента, после чего пользователь, возможно, отредактировал одно слово).
  • Количество раз, когда контент копировался или вырезался с помощью сочетаний клавиш или через контекстное меню.
  • Количество раз, когда контент вставлялся с помощью сочетаний клавиш или через контекстное меню. Разница между количеством копирования и вставки даст ещё один намёк.

Модераторы могли бы просматривать эти данные в постах в небольшой таблице. Необычные значения могли бы подсвечиваться, чтобы подозрительные посты сразу бросались в глаза.

Вероятно, не существует идеального метода для автоматического обнаружения спама, но наличие дополнительной информации ускорит процесс модерации.

4 лайка

Мне интересно, помогли ли какие-либо из следующих руководств, поскольку спам со временем становится всё более изощрённым:

Я не использую ИИ в своих форумах, потому что это дорого. Кроме того, я не убеждён, что ИИ сможет решить эту проблему, поскольку контент выглядит нормальным. Мне всё равно пришлось бы вручную проверять каждое подозрительное сообщение.

У меня не было проблем с контентом для взрослых (NSFW).

Моя проблема не в том, что с контентом что-то не так. Единственное подозрительное в этом то, что новые пользователи не пишут такие посты через несколько минут после регистрации, а сам контент довольно размыт. На моём основном форуме очень узкая тематика, и если первое сообщение не содержит конкретики о том, как пользователь связан с этой темой, я запускаю процесс расследования. Иначе я могу просто не заметить их посты.

Вот несколько примеров. Контент настолько размыт, что это заставляет меня начинать расследование, но это отнимает много времени, потому что всё приходится делать вручную.

Я не могу заблокировать этого пользователя только на основании контента. Именно другие улики говорят мне, что это спамер.

Этот IP-адрес принадлежал VPN-серверу в Норвегии, а контент был слишком размытым. Я смог подтвердить это, так как адрес электронной почты был найден в базе StopForumSpam с IP-адресом из Германии:

Я просто высказываю идеи вслух, но модерировать таких пользователей было бы быстрее, если бы под постами была небольшая таблица с информацией вроде:

location Oslo, Norway [from maxmind]
organization PacketHub S.A. [from maxmind]
is_vpn true
email whatever@example [иногда это даёт подсказки]
stopforumspam true [ссылка]
characters_output 1,234
characters_output_pressed 10 [это не совпадает с количеством символов в посте, что является подсказкой]
num_cut_or_copy 0 [текст не копировался из редактора]
num_paste 1 [была одна вставка]
seconds_editor_open 20 [подозрительно для поста такой длины]

Возможно, таблицу можно было бы сворачивать, если нет подозрительных значений, и/или модераторы могли бы помечать конкретного пользователя как «скорее всего не спам», после чего таблица сворачивалась бы для всех его постов или прекращались дальнейшие проверки этого пользователя. Или же пользователь мог бы автоматически помечаться как безопасный при достижении уровня TL2.

Это комбинация факторов:

  • VPN или IP-адрес часто находятся в небольшом числе стран, где много SEO-компаний (Индия, Пакистан, Украина, Вьетнам, Бангладеш).
  • Иногда адреса электронной почты есть в базе StopForumSpam.
  • Много контента вставляется в редактор, но, вероятно, не весь.
  • Адреса электронной почты часто не совпадают с именем пользователя. Например, имя пользователя — «Bob Smith», а адрес электронной почты — что-то другое, вроде stevenjohnee1234@example.
  • В исходном тексте иногда используются форматированные знаки препинания, такие как «умные» кавычки или длинное тире, что указывает на то, что контент был написан не в редакторе Discourse.
5 лайков

Посмотрите на пост 1622105 здесь, на этом форуме. Он был опубликован через 3 минуты после регистрации, вручную отредактирован для изменения ссылки с Quora на Stack Exchange, и английский язык в нём хороший, но речь идёт о технологиях, не имеющих отношения к Discourse. Я не хочу ссылаться на него, так как это уведомит автора.

Именно в таких постах было бы полезно видеть данные, о которых я упоминал выше, прямо в самом посте.

1 лайк

Многое из этого кажется противостоянием опыта сотрудников и ИИ. Я пригласю нужных людей к обсуждению этой темы.

Мне кажется, что было бы убедительно усилить уже имеющееся у нас обнаружение «быстрого набора». Также может быть убедительной интеграция SFS в ядро.

Конечно, существует глубокий философский вопрос:

Является ли спамом то, что добавляет ценность форуму (даже если это сгенерировано ИИ)?

Следует ли удалять с форума то, что не добавляет ему ценности (даже если это создано человеком)?

На оба этих вопроса нет однозначных ответов.

5 лайков

Я считаю, что предложение сделать больше метаданных доступными для модов — хорошая идея. Независимо от улучшения автоматических функций.

4 лайка

Возможно, это зависит от конкретного форума.

Я иногда оставляю спам-посты, если они провоцируют обсуждение, но большинство из них удаляю. Качество у них очень низкое, и часто легко определить, что текст написан ИИ. Если мне кажется, что я читаю текст, сгенерированный ИИ, я начинаю терять доверие к источнику. Я не противник ИИ, но не хочу читать контент, созданный искусственным интеллектом, если не знаю, что он создан ИИ.

Если я вижу, что кто-то использует ИИ на форуме, я сразу это пресекаю, поскольку достоверный контент — один из самых важных активов форума.

Кроме того, то, что в 2024 году кажется приемлемым для людей, в 2034 году может легко быть распознано как сгенерированное ИИ, примерно так же, как спецэффекты в фильмах, которые десятилетия назад казались реалистичными, сегодня сразу выглядят фальшивыми. Думаю, что контент, созданный ИИ в 2024 году, со временем будет выглядеть устаревшим.

2 лайка