Форумы, запрещающие ИИ-контент… Как дела?

Буду рад услышать опыт администраторов форумов, которые запрещают контент, сгенерированный ИИ/LLM. Как вам удалось донести это правило до пользователей? Как вы обнаруживаете такие посты? Как вы взаимодействуете с пользователями, которые всё равно публикуют такой контент?

Приветствуются любые мысли и предложения.

1 лайк

Большинство, если не все, тексты, созданные ИИ, можно легко обнаружить просто прочитав их. Технология SynthID от Google — это крутой инструмент для обнаружения изображений, созданных ИИ, и, по их утверждениям, она способна обнаруживать и тексты, вероятно, написанные только Gemini, но OpenAI также поддерживает этот стандарт. Способность лично распознавать такие тексты, вероятно, является приобретенным навыком, но я ценю работу, которая проводится для решения текущего кризиса, связанного с невозможностью обнаружения изображений или текстов, созданных ИИ.

По моему мнению, для этого по-прежнему правильным путем является блокировка (muting) или приостановка доступа, особенно если аккаунт новый. Если какой-то новый аккаунт присоединяется к вашему сайту и мгновенно публикует тему, сгенерированную ИИ, я не вижу причин, почему бы вам не просто приостановить работу этого аккаунта и заблокировать его.

Что касается всей проблемы со скрейпингом (сбором данных): мой сайт предназначен для внутренней коммуникации и документирования в небольшой компании на данный момент, и я планирую в будущем использовать его как бэкенд для ведения блога. Не составило труда настроить приманку (honeypot), чтобы отпугнуть роботов, которые игнорируют файлы robots.txt на моих доменах.

Только эта тактика привела к примерно 6 МИЛЛИОНАМ запросов за две недели (около 6 запросов в секунду к домену):

Когда ИИ-краулер посещает этот сайт, его направляют в бесконечный лабиринт спама с использованием проекта iocaine, размещенного на собственном сервере, с набором данных примерно из ~7000 вымышленных слов, некоторым бессмысленным HTML, случайными словами и фейковыми новостями, созданными 8-миллиардной моделью Llama.

Очевидно, что это ядерная тактика «уйди», и она подходит не всем, но она отлично помогла мне в моей цели — остановить LLM от использования моего кода или текстового контента. Я помню, как читал кейс-стади, которое Anthropic опубликовал о «отравлении» LLM, но я больше не могу найти эту статью, поэтому здесь она не прилагается, но, вероятно, в какой-то момент им придется заблокировать мой домен, когда они поймут, что их бот отправил на мой домен около 5 миллионов запросов, как это было недавно.

2 лайка