Как предотвратить использование контента сообщества для обучения LLM, таких как ChatGPT?

Да, это очень широкий риторический аргумент, и я считаю, что вы упустили его подтекст.

Позвольте мне высказать предположение: ваш логический процесс формировался в эпоху до текущей итерации ИИ/ChatGPT, в то время как «старая норма» уже уступила место новому пространству.

Сегодня люди в той же сфере сталкиваются с новой, привлекающей внимание парадигмой — ИИ, который, как кажется, обещает бесконечный «фактор X» как в плане потенциала, так и в плане последствий, и то и другое в равной мере.

Все предыдущие действия и предположения, лежавшие в основе прошлых решений, становятся недействительными, если ИИ получил к ним доступ. В интернете достаточно косвенных свидетельств того, что сбор данных для обучения ИИ продолжается уже 3, возможно 5 и более лет; в случае DeepMind это могло начаться ещё в 2014 году, когда Google приобрела компанию (возможно, тщательный анализ логов мог бы это подтвердить, либо же эти данные были намеренно скрыты, чтобы предотвратить такое расследование). Если принять это за относительно верное, то становится очевидной проблема, связанная с техническим опережением.

Весь контент мог быть собран, и уже слишком поздно что-то менять, но я учёл это в своих опасениях и аргументах. Я упоминаю об этом здесь только потому, что, как я уже сказал, решения в виде машины времени не существует; есть лишь сила осмотрительности, способная информировать о решениях в настоящем и будущем.

Извините, я ничего этого не понимаю.

Смысл вопроса заключался в том, что сейчас в городе появился новый, убедительный выбор, который многие считают универсальным решением для самых разных задач — это искусственный интеллект (технологии на базе ChatGPT).

Вы утверждаете, что никто не стал бы создавать форум, потому что большие языковые модели (LLM) дают людям всё, что им нужно от форумов? (Кстати, это не тема данной ветки.)

(Если вы хотите, чтобы люди что-то сделали для вас, я считаю, что вам нужно чётко сформулировать, в чём, по вашему мнению, заключается проблема, и что, по вашему мнению, они могут для вас сделать. Я вижу, что вам это глубоко небезразлично, но я не понимаю, чего именно вы хотите. Как и у любого человека, у меня ограниченное время и энергия, поэтому я не собираюсь прилагать усилия, чтобы разгадывать ваши мысли.)

Добавлено в редактировании:

Текущая сводка этой ветки с помощью «ИИ» для истории

Обсуждение на форуме о предотвращении использования контента сообщества для обучения языковых моделей, таких как ChatGPT, сосредоточено на обеспечении конфиденциальности контента путём обязательного входа в систему, блокировке скрейперов через robots.txt или настройку Discourse для заблокированных пользовательских агентов краулеров, либо о полном удалении сайта из открытого интернета. В то время как некоторые не согласны с запретом использования публичных данных и считают это неизбежной частью прогресса, другие утверждают, что создатели контента должны иметь больше контроля над тем, как используется их работа. Обсуждение затрагивает философские вопросы владения информацией и творчеством, а также предоставляет практические советы по минимизации использования данных системами искусственного интеллекта.

4 лайка

Внезапно появилась новая причина не выбирать старые пути, которую большинству трудно игнорировать.


Я не автор оригинального поста (OP), но теперь я сопереживаю ему ещё больше.

  1. Относиться к автору оригинального поста серьёзно, чего никто не делал,

и

  1. Суть в том, что подобные события имеют глубокие как позитивные, так и негативные последствия. Мне кажется, что серьёзного признания недостатков нет, наблюдается предвзятость в пользу воспринимаемых преимуществ, и поэтому отсутствует деятельность по оценке и смягчению рисков, то есть поддержке пострадавших на уровне платформы.

Ещё раз: я не автор оригинального поста, но проблема автора — это проблема всех публичных дискуссий. Это также системная экзистенциальная угроза для интернета, она не зависит от конкретной платформы, или

это не что иное, как «крутые новые игрушки» для прагматичной игры.

Второй подход в данном контексте несерьёзен. Он намеренно слеп. Лично я считаю это безответственным. Именно это делает парадигму ИИ ещё более опасной.

Одиночные темы не решат эту проблему — нужно лидерство. Я начал с обращения к @sam и @codinghorror, и именно тогда началась катастрофа с модерацией. Это было сделано один раз, без злоупотреблений, но, знаете ли, другие люди думают, что они умнее и лучше знают, что делать. Подождите, пока ИИ действительно зацепится за всё это. :melting_face:

Итог: Эту проблему нужно воспринимать очень серьёзно.

Поэтому, возможно, ей потребуется отдельная категория. Она настолько масштабна.

Пока что, кроме решения, которое на самом деле не является решением, а лишь ломает систему: если стратегия заключается в блокировке доступа через параметр login_required, то в таком сценарии, чтобы смягчить негативные последствия для трафика (особенно если вы полагаетесь на поисковый трафик), нужно предоставить пользователям возможность видеть что-то, но не всё.

WP frontend / сайт Discourse с требованием входа (login_required)
(больше работы, выше затраты на хостинг, поддержка и т.д.)

Вещи, которые также могли бы помочь, хотя изначально не разрабатывались именно для этой проблемы:

Опубликованные страницы (Published Pages): если они разработаны с отдельной страницей списка и некоторыми опциями конфигурации, то могут служить связующей посадочной страницей, где пользователи видят часть публичного контента с призывом зарегистрироваться для чтения остального.

– разрешить отображение списка опубликованных страниц на отдельной странице /pub (сделать её главной);
– разрешить отображение опубликованных страниц на странице с требованием входа (login_required);
– разрешить отображение пользовательской категории или последних тем на странице с требованием входа.

Я узнал о функции Опубликованные страницы всего несколько дней назад, пытаясь найти решение этой проблемы. Насколько я помню, даже до появления дилеммы с ИИ другие пользователи уже запрашивали подобную функцию списка для опубликованных страниц.

Более гибкий и целенаправленный подход к работе с опубликованными страницами, на мой взгляд, предпочтительнее, чем добавление целого фронтенда на WordPress, если нужно решить проблему точки подключения, доступной публично.

Показывать только первое сообщение темы

Показывать только первое сообщение любой темы, требуя входа для чтения комментариев. Подобное предложение уже высказывалось хотя бы раз и получало отрицательную оценку, но в данном контексте его стоит переоценить.

Также воспринимайте эти предложения как неполный список: это лишь потенциальные пластыри для части проблемы, а не для всей целиком.


Тем временем я вернусь к тому, чтобы заваливать эту тему кучей эмоций :slight_smile: How are we all feeling about ChatGPT and other LLMs and how they'll impact forums?

1 лайк

Из вашего последнего ответа я вижу, что мы приходим примерно к одному и тому же выводу: решать проблему, комбинируя публичный и приватный контент. Я написал пост ниже, ещё не прочитав ваш ответ. Всё же опубликую его, чтобы попытаться поддержать эту точку зрения.

Я отношусь к исходному посту серьёзно, как потому, что в нём задаётся законный вопрос, так и потому, что я могу разделять обеспокоенность его автора по поводу того, как большие языковые модели (LLM) повлияют на интернет. Если я правильно понимаю ваши опасения, то я согласен с вами: мы наблюдаем фундаментальные изменения в работе интернета — вместо того чтобы люди посещали сайты напрямую, LM станут основным интерфейсом для взаимодействия с публичной частью интернета. Это влечёт за собой множество последствий, которые, вероятно, невозможно продуктивно обсудить здесь.

Здесь же можно обсудить вопрос о том, как предотвратить использование контента Discourse для обучения LLM. В Discourse есть несколько возможных подходов.

Первый подход — слабый: оставить сайт публичным и попытаться заблокировать любых user agents, используемых для парсинга данных, с помощью настройки сайта blocked crawler user agents. Вместе с этим можно участвовать в судебных разбирательствах против технологических компаний, которые собирают данные.

Более сильный подход — сделать весь сайт или его части приватными. Это можно сделать с помощью настройки сайта login required или через настройки безопасности категорий.

Основное возражение, которое я вижу против этого подхода, заключается в том, что люди хотят, чтобы их сайты были обнаруживаемы поисковыми системами. Я полагаю, что существуют способы решить и эту проблему. Самый простой — вести публичный SEO-оптимизированный блог, связанный с приватным форумом Discourse. Более сложное решение — предоставить в Discourse функционал, позволяющий делать часть исходного поста (OP) темы публичной, в то время как остальная часть темы была бы доступна только участникам определённой группы Discourse. Это было бы похоже на то, как сервисы вроде Substack работают с контентом, доступным только платным подписчикам: они показывают часть контента, доступную анонимным пользователям и краулерам, а затем отображают призыв к регистрации (CTA):

Так что, помимо моей обеспокоенности тем, как LLM повлияют на интернет, я вижу возможность исследовать новые способы финансирования создателей контента.

7 лайков

Где находится эта настройка?

2 лайка

Ваш вопрос звучит так: «Зачем кому-либо создавать что-либо, что можно разместить в открытом доступе в интернете?»

Когда вы задаете этот вопрос в открытом доступе в интернете, никто из тех, кто разделяет вашу точку зрения, не сможет ответить на него.

6 лайков

Эта тема утомительна, сгенерированное ИИ резюме отлично её освещает — прокрутите вверх и нажмите на него.

Закрыто на следующие 3 месяца.

12 лайков

Эта тема была автоматически открыта через 90 дней.