Форумы, запрещающие ИИ-контент… Как оно?

Мне было бы очень интересно узнать о опыте форумов, где запрещён контент, сгенерированный ИИ/LLM. Как вы доводите это до сведения пользователей? Как вы выявляете такие материалы? Как вы взаимодействуете с пользователями, которые всё равно публикуют их?

Буду рад любым мыслям.

Примечание: Лично меня интересует только человеческий аспект взаимодействия на фронтенде сайта. Я предполагаю, что блокировка краулеров — дело безнадёжное.

Наш форум посвящён духовным и религиозным обсуждениям. Мы баним любой контент, созданный ИИ.

6 лайков

Большинство, если не все, тексты, созданные ИИ, можно легко обнаружить просто прочитав их. Технология SynthID от Google — это крутой инструмент для обнаружения изображений, созданных ИИ, и, по их утверждениям, она способна обнаруживать и тексты, вероятно, написанные только Gemini, но OpenAI также поддерживает этот стандарт. Способность лично распознавать такие тексты, вероятно, является приобретенным навыком, но я ценю работу, которая проводится для решения текущего кризиса, связанного с невозможностью обнаружения изображений или текстов, созданных ИИ.

По моему мнению, для этого по-прежнему правильным путем является блокировка (muting) или приостановка доступа, особенно если аккаунт новый. Если какой-то новый аккаунт присоединяется к вашему сайту и мгновенно публикует тему, сгенерированную ИИ, я не вижу причин, почему бы вам не просто приостановить работу этого аккаунта и заблокировать его.

Что касается всей проблемы со скрейпингом (сбором данных): мой сайт предназначен для внутренней коммуникации и документирования в небольшой компании на данный момент, и я планирую в будущем использовать его как бэкенд для ведения блога. Не составило труда настроить приманку (honeypot), чтобы отпугнуть роботов, которые игнорируют файлы robots.txt на моих доменах.

Только эта тактика привела к примерно 6 МИЛЛИОНАМ запросов за две недели (около 6 запросов в секунду к домену):

Когда ИИ-краулер посещает этот сайт, его направляют в бесконечный лабиринт спама с использованием проекта iocaine, размещенного на собственном сервере, с набором данных примерно из ~7000 вымышленных слов, некоторым бессмысленным HTML, случайными словами и фейковыми новостями, созданными 8-миллиардной моделью Llama.

Очевидно, что это ядерная тактика «уйди», и она подходит не всем, но она отлично помогла мне в моей цели — остановить LLM от использования моего кода или текстового контента. Я помню, как читал кейс-стади, которое Anthropic опубликовал о «отравлении» LLM, но я больше не могу найти эту статью, поэтому здесь она не прилагается, но, вероятно, в какой-то момент им придется заблокировать мой домен, когда они поймут, что их бот отправил на мой домен около 5 миллионов запросов, как это было недавно.

4 лайка

(Я замечаю, что мы оставляем в стороне вопрос о нагрузке на краулеров, использовании краулерами контента для обучения, а также социальные и экономические последствия текущих стремительных изменений. Это хорошо.)

Что касается меня, на сайте с небольшим объемом трафика, посвященном хобби:

  • мы пытаемся согласовать и сформулировать письменную политику;
  • мы решаем проблемы по мере их возникновения;
  • самые вопиющие примеры по сути являются спамом, поэтому мы удаляем их и блокируем авторов;
  • в остальных случаях мы выражаем неодобрение, возможно, публично или приватно, и можем удалять сообщения.

Предлагаемая форма руководящих принципов может выглядеть так:

  • «Владеть» контентом сообщений, которые вы публикуете (т.е. читать и понимать его, а не слепо копировать и вставлять контент, независимо от его источника).
  • Пытаться сначала самостоятельно ответить на свои вопросы насколько это возможно (например, поиском по форуму), прежде чем создавать новые темы.
  • Излагать детали кратко и ясно, чтобы другие пользователи могли прочитать и понять их и оказать помощь, т.е. избегать длинных стен текста, состоящего из повторяющейся или нерелевантной информации, или слишком общих утверждений без достаточной информации.
  • Держать обсуждения в рамках темы, избегать мета-обсуждений (особенно вокруг использования ИИ — будь то «лучшие практики» или «этика их применения»).
  • Поддерживать уважительный тон общения и помнить, что у нас есть пользователи с разным опытом, взглядами и мнениями.
  • Получайте удовольствие! Это хобби.

(В нашей среде увлечений есть дополнительный аспект, а именно использование LLM в рамках хобби, что охватывает спектр возможностей и имеет как своих сторонников, так и противников.))

3 лайка