Как предотвратить использование контента сообщества для обучения LLM, таких как ChatGPT?

agemo · 06.Июль.2023 09:33:20

Есть ли согласие в том, что создание категории, по сути, «приватной», — это верный способ заблокировать не только всех ботов, но и LLM, или, как их назовём, AI-ботов?

Честно говоря, после обсуждения этой темы хотя бы в одной ветке и поиска в ChatGPT, я убеждён, что Discourse, как и многие другие программные решения, не воспринимает угрозу и деструктивное влияние ChatGPT всерьёз. На мой взгляд, необходимо серьёзно подумать о предоставлении поддержки и функций для владельцев сайтов и администраторов, которые не хотят использовать какой-либо ИИ.

ChatGPT и всё, что с ним ассоциируется, — это одна из тех ситуаций, где фитиль уже подожжён с обоих концов.

Bas · 06.Июль.2023 09:39:07

Да, это действительно верный способ.
Конечно, полностью нечестные участники всё ещё смогут зарегистрироваться, но это должно убрать всех легитимных краулеров.

Примечание: Я удалил ваш комментарий, в котором вы отметили нескольких соучредителей, это кажется излишним.

agemo · 06.Июль.2023 09:55:09

Время говорит нам, что это не чрезмерно. Нужно проснуться. Я вижу предвзятость, создающую большую слепую зону; это наблюдение касается всей отрасли, но, насколько я могу судить, Discourse ничем не отличается.

Если единственный вариант — снова сделать весь ваш форум приватным, то «рынок» изменился не в одном, а во множестве аспектов, и это фундаментально требует учёта на каком-то уровне с точки зрения операционной деятельности.

Чрезмерным является ChatGPT и его последствия; слово «хищнический» не описывает и половины того, что происходит повсюду.

Это фундаментально подрывает каждый форум и весь созданный людьми контент. Возможно, сейчас вам комфортно играть в любезности и философские «а что, если», но это время уже прошло. Эта проблема уже в дикой природе. Решения должны быть приняты каждым, кто хоть немного погружён в воды всемирной паутины.

Bas · 06.Июль.2023 09:59:05

То, что я сказал (и то, что я удалил), — это чрезмерное: напоминать двум сооснователям/CEO о необходимости ответа всего через 17 часов после того, как был задан чисто технический вопрос.

Ваши опасения по поводу больших языковых моделей реальны и понятны, даже если я с ними не согласен.

agemo · 06.Июль.2023 11:23:36

Я понимаю это, но вы не видите срочности: ответ на технический вопрос имеет такие глубокие последствия, которые в человеческом плане вовсе не являются техническими.

Столько последствий, а все ходят как во сне — это показатель полного отсутствия беспокойства на всех уровнях.

Спасибо за ответ.

У нас в руках только молоток, чтобы расколоть орех, или же этот орех на самом деле — ноль-точечная бесконечность, а наш молоток — всего лишь плод воображения пера?

Имеет ли это смысл?

pfaffman · 07.Июль.2023 05:18:38

Думаю, вы понимаете.

Если ваш сайт позволяет анонимным пользователям читать информацию, вы не контролируете, кто получает эту информацию и что с ней делает. Насколько я знаю, Google только что изменил свою политику, заявив, что всё, что они могут прочитать, они могут использовать для своего ИИ.

Если ваш сайт позволяет зарегистрированным пользователям просматривать его, вы не контролируете, что эти пользователи сделают с этой информацией.

Если ваш сайт позволяет пользователям входить в систему, вы не обязательно знаете, что человек, использующий учётные данные, — это тот, кто создал учётную запись. Если вы хотите быть уверены, что никто не сможет использовать ваши данные в ИИ, просто отключите его от сети.

Jagster · 07.Июль.2023 05:46:28

При использовании обратного прокси-сервера контроль минимален — пока они не изменят его или не используют поддельный User-Agent (или не используют широко распространённые IP-адреса, но этот путь сложен и полон препятствий).

sam · 07.Июль.2023 07:14:00

Дайте знать, если вам удастся создать волшебную книгу, которую могут видеть человеческие глаза, но которую не сможет сфотографировать ни одна камера на Земле.

Меня очень интересует эта волшебная технология.

Что касается форума, который вы размещаете на платформе Discourse, то есть ваши правила форума. Некоторые правила можно автоматически применять, а другие — нет (например: люди с голубыми глазами не могут читать этот форум).

agemo · 07.Июль.2023 08:54:18

Никто не воспринимает это всерьёз, потому что, как мне кажется, никто не хочет признавать и осознать истинный масштаб этого события, а затем действительно пытаться что-то сделать в рамках своей зоны контроля. Проще присоединиться к гонке вперёд и внедрить ИИ в своё программное обеспечение, полагая, что они соответствуют ожиданиям рынка, находятся на острие прогресса и остаются незаменимыми. Именно здесь последние десятилетия чрезмерного морального релятивизма, получившего полную свободу на всех уровнях, позволяют всему рушиться, а технологии ускоряют этот процесс до скорости света, потому что это как если бы

все забыли, зачем они здесь.

HAWK · 07.Июль.2023 09:06:48

Я немного замедлю темп.

Мы слышим ваши опасения, но не разделяем их, и это нормально. Мы можем иметь разные мнения. Мы принимаем обоснованные решения. Никто не заставляет вас их принимать.

agemo · 07.Июль.2023 09:08:01

@satonotdead точно

simon · 07.Июль.2023 17:31:15

OpenAI использовала несколько наборов данных для обучения своих моделей. Набор данных, который, скорее всего, включает контент Discourse, — это отфильтрованная версия набора данных Common Crawl. Подробную информацию см. в разделе 2.2 этого документа: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl использует строку user-agent CCBot/2.0 при сканировании сайта.

Если вы хотите, чтобы ваш сайт на Discourse оставался доступным для публики, но при этом его контент не добавлялся в набор данных Common Crawl в будущем, вы можете добавить CCBot в настройку «Заблокированные user-agent поисковых роботов» вашего сайта Discourse. Обратите внимание, что блокировка user-agent Common Crawl может иметь негативные последствия (How to Block OpenAI ChatGPT From Using Your Website Content):

Многие наборы данных, включая Common Crawl, могут использоваться компаниями, которые фильтруют и категоризируют URL-адреса для создания списков веб-сайтов, нацеленных на рекламу.

Использование настройки «Заблокированные user-agent поисковых роботов» в Discourse описано здесь: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Обратите внимание, что Common Crawl соблюдает правила в файле robots.txt, поэтому его также можно заблокировать, добавив в этот файл следующее правило:

User-agent: CCBot
Disallow: /

Плагины ChatGPT используют user-agent ChatGPT-User при выполнении запросов от имени пользователей. Этот user-agent не используется для сканирования веб-страниц с целью создания наборов данных для обучения: https://platform.openai.com/docs/plugins/bot. Этот user-agent также можно заблокировать, добавив его в настройку «Заблокированные user-agent поисковых роботов» (или добавив правило Disallow в файл robots.txt).

Как уже отмечали другие, наиболее надёжный способ предотвратить использование вашего сайта для обучения больших языковых моделей (LLM) — запретить анонимный доступ к сайту, включив настройку «Требуется вход». Чтобы дополнительно усилить защиту сайта, можно предпринять шаги для повышения вероятности того, что пользователи вашего сайта являются людьми, а не ботами. Один из возможных подходов — интеграция сервиса, такого как Gitcoin Passport, с системой аутентификации сайта. Я считаю, что в ближайшее время будет разработан открытый плагин Gitcoin Passport для Discourse.

Возможно, существуют и менее технические способы повышения вероятности того, что пользователи сайта являются людьми. Например, сайт можно настроить в режиме «Только по приглашениям» и предпринять шаги, чтобы приглашать только тех пользователей, в отношении которых у вас есть основания полагать, что они являются людьми.

Мне кажется философия, стоящая за всем этим, очень интересной, но я не буду углубляться в неё в этой теме.

agemo · 07.Июль.2023 19:47:21

Я решительно возражаю против продолжающейся модерации моих попыток глубоко и серьёзно обсуждать эту тему. Медленная реакция — это просто шутка, когда приходится ждать по часу каждый раз.

Существует множество брошенных постов от многих пользователей. О последовательности говорить не приходится, а вот о предвзятости — хм, именно так это выглядит для данного пользователя на данный момент. Я не принимаю это на свой счёт, но, мягко говоря, пожилая модерация подавляет.

Я просто пытаюсь поднять эту крайне серьёзную и вопиющую ситуацию, и наконец мы получили отличный и серьёзный пост от @simon.

Превосходно и точно в цель — именно то, что нужно было услышать сначала автору темы и другим. Многие возможности скрыты в обширном разделе администрирования, и я, например, раньше не заметил эту функцию/опцию. Теперь я смогу её протестировать. Было бы неплохо, если бы можно было добавить больше пользовательской информации вместо стандартной карточки. Может быть, пользовательские текстовые метки? Кто-нибудь знает?

Большое спасибо.

Falco · 14.Июль.2023 20:26:32

Если эта статья верна

Вам потребуется убрать ваш сайт из открытого интернета, заблокировать Google или включить login_required.

awesomerobot · 14.Июль.2023 21:19:04

Стоит отметить, что нет никаких требований, обязывающих краулер соблюдать файл robots.txt, и подмена user-agent — тривиальная задача. Законы, регулирующие эти вопросы, отсутствуют. Никакая срочность или серьезность ситуации ничего не изменят. Если вас беспокоит использование ваших данных, единственное, что можно сделать, — сделать сайт приватным и дождаться результатов различных судебных разбирательств, касающихся данных для обучения.

simon · 15.Июль.2023 01:06:03

Я ожидаю, что сайты, зависящие от рекламы, увидят снижение доходов, и мы начнём видеть всё больше контента за платными стенами. Качество свободной и открытой части интернета будет разбавлено.

Discourse мог бы фактически воспользоваться этой тенденцией, создав подписочный сервис для своих размещённых клиентов.

merefield · 15.Июль.2023 05:41:10

Уже существует плагин подписок, который может быть доступен для некоторых тарифов на хостинге. Сайты с самостоятельным размещением уже могут его использовать.

Сложность скрытия контента заключается в том, что это повлияет на ваш SEO, поэтому всё зависит от вашей воронки привлечения новых пользователей.

Лично я полагаюсь на поиск для привлечения новых пользователей, поэтому размещаю за аккаунтной стеной лишь немного контента.

Для многих сайтов всё ещё важно, чтобы их находили!

Ed_S · 15.Июль.2023 16:17:13

Мне кажется, у вас, @agemo, есть две взаимосвязанные проблемы: использование ИИ в программном обеспечении и то, что взаимодействия обычных людей в сети могут использоваться для обучения ИИ. Вы очень обеспокоены этими вопросами и хотели бы, чтобы они не происходили.

Я это понимаю. Думаю, многие разделяют эти опасения.

Хочу сказать, что в мире есть много вещей, которые меня беспокоят, и я хотел бы, чтобы они были другими, но я не поднимаю их здесь, потому что они не поддаются решению со стороны людей здесь или со стороны Discourse как платформы. Если бы я продолжал поднимать их, это могло бы раздражать, и я мог бы оказаться под модерацией.

Возможно, вы чувствуете, что вас не слышат. Но я думаю, что на самом деле происходит в этой теме, так это то, что другие участники считают, что ваши опасения не поддаются решению ни здесь, ни ими самими. Возможно, что-то можно сделать, но не отдельными людьми здесь. Может быть, ответом станет массовое движение, кампания или даже революция, но я считаю справедливым, если модераторы здесь считают такие темы неуместными в этом месте.

agemo · 15.Июль.2023 17:52:49

Это уже произошло. То, что мы не можем изменить. ИИ уже выпущен на волю и стал событием. Я никогда не утверждал, что мы можем повернуть время вспять.

Модераторы думали, что понимают эту тему, но они не понимают, однако продолжают модерируить мои сообщения. Мне надоело говорить о модерации вместо решений, но они продолжают это делать, или другие пользователи тоже — возможно, они не видят ценности или им слишком комфортно.

Реальность такова: с момента моих вмешательств, чтобы попытаться сместить фокус этой темы в сторону решений, несмотря на неуклюжую модерацию, были некоторые результаты.

Вы можете подумать, что не можете ничего сделать, но если посмотреть на ситуацию и признать:

a) это серьёзно
b) это срочно
c) это требует концентрации

— это уже начало. И вы контролируете свою реакцию, но не само событие, которое уже произошло, осталось в прошлом и влияет на настоящее каждый день в обозримом будущем.

Предлагаемых решений нет, кроме грубого использования решений, разработанных для других проблем, и поэтому это ломает саму суть предложения: событие ИИ заставляет людей занимать позиции, которые разрушают все их усилия до момента этого события.

Очень естественно не хотеть быть частью чего-то, что является прямой угрозой и будет использовать ваш контент в прямой конкуренции со всеми вашими усилиями до этого момента, и это только начало.

Я подведу итог всему этому одним простым риторическим вопросом (вы можете спорить, является ли он риторическим или нет, но вам придётся признать существование ИИ).

Зачем вообще кому-либо сейчас развёртывать экземпляр Discourse (или аналогичной платформы)?

В этом вопросе так много проблем, что иногда одна тема (первоначальный пост) иллюстрирует всю вселенную последствий проблемы, и это определённо один из таких случаев. Тема не должна становиться слишком узкой, особенно когда у Discourse нет реального решения; тогда либо тема по своей природе в данном контексте должна быть открыта для широкого обсуждения, либо: «извините, поскольку решения нет, тема закрывается». Выбирайте.

Откройте или закройте её.

Вы понимаете?

Вот суть. Если признаётся, что нет воли решать эту проблему, так и скажите, иначе эта тема должна оставаться и быть максимально широкой. Именно такой уровень смягчения модерации требуется по этой теме, потому что это неизведанная территория.

Если бы случайно нашлись одна-две галочки в настройках, которые всё исправляют, мы бы все разошлись по домам, но их пока нет. Возможно, существуют какие-то временные меры, но они не относятся к категории «РЕШЕНО», и в этом, я думаю, все согласны.

Поскольку никаких решений, созданных непосредственно в ответ на озабоченности автора оригинального поста и проблему ИИ, а также на то, как администратор должен этим управлять, не существует, мои аргументы остаются в силе.

Если они есть, пожалуйста, укажите на них, опубликуйте здесь или расскажите о разрабатываемом решении. Вы понимаете?

В этом и заключается ответственность разработчика, пользователя и существующих отношений, которые делают всё это возможным. Поэтому мы обсуждаем это. И снова и снова, если это потребуется.

То, что я вижу, — это полное отсутствие понимания того, как всё это разрушается, до последних нескольких постов с момента запуска темы автором в мае. Эти посты я приветствовал, но за них меня модерируили. Это шутка. ИИ на самом деле снова ломает интернет. Зачем вообще развёртывать Discourse или подобную платформу? Если мы не можем обсуждать это в серьёзном, искреннем и надёжном ключе, соответствующем требованиям темы, то вот ваш ответ.

Рынок движется: все деньги, внимание и мания падают головой вперёд в карманы OpenAI и ей подобных. Я вижу, как разработчики повсюду, как и везде, переходят к полному принятию и интеграции ИИ без малейшей осмотрительности. НОЛЬ!

Именно поэтому такой оригинальный пост остаётся вызывающим и разочаровывающим. «Сломать свой Discourse» — это единственное гарантированное решение. Но это не решение. Это практически конец игры.

Моя аналогия того, как разработчики реагируют на ИИ, риторически: почти все заняты строительством всевозможных крутых вёдер для сбора лавы из извергающегося вулкана (извержение — это событие). Реакция — это строительство вёдер для сбора лавы. Лава — это дар бога вулкана: она приносит тепло и свет, да, но также очень быстро прожигает всё. Без ведра вы не можете контролировать даже малую часть, но ведро скрывает этот факт: всё кажется безопасным, крутым, аккуратным… пока что.

Нет. Это было бы неверно. Я объяснил, почему модераторы ошиблись, и как ситуация гораздо серьёзнее, чем они допускают. Это может быть довольно разочаровывающе симптоматичным для вертикальной позиции отношений между Discourse и ИИ… кажется, что это либо «мeh», либо пожимание плечами, но чувства могут быть ошибочными, так что опровергните меня фактами.

Некоторые люди поняли мои аргументы, или хотя бы внимательнее посмотрели на оригинальный пост, сделали более качественные сообщения, за что я благодарен, так как они привели меня к нескольким потенциальным путям к очень грубому многоуровневому решению. Это всё ещё работа в процессе и потребует признания со стороны разработчиков, чтобы лучше соответствовать требованиям, которые поднял ИИ, и сделать его жизнеспособным, хотя и временным решением.

Прошедшее десятилетие было тяжёлым для онлайн-форумов: от падения трафика до снижения доходов. Последствия этого события ломают эти графики отчаяния и для многих операторов могут означать не что иное, как окончательный крах, и они просто закроют бизнес.}

Ed_S · 15.Июль.2023 18:52:19

Я хочу вести обсуждения по определённым темам, поэтому запускаю форумы, где люди могут встречаться и обсуждать эти темы. Я выбрал Discourse, но, на мой взгляд, любое другое решение в открытом вебе несло бы те же риски и давало бы те же результаты. Мне важно, чтобы мои обсуждения были в открытом вебе и появлялись в результатах поиска.

Люди могут и действительно взаимодействуют на платформах, ориентированных на конфиденциальность, таких как Telegram и Signal, но это совершенно другие продукты, созданные по другим причинам. Возможно, чат в Discourse предлагает кое-что из того, что вы ищете — но, как повелось, я не заинтересован в этом.

Тема		Ответов	Просм.
What is stopping you from trying out Discourse AI? Community Building ai	35	2082	23.08.2025
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	102	9090	13.02.2025
Discourse is Agent Ready: Here’s How Blog	9	602	24.05.2026
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	34	1932	20.11.2025
Is there any AI at the core of standard Discourse? Support	15	1712	31.05.2023

Как предотвратить использование контента сообщества для обучения LLM, таких как ChatGPT?

Связанные темы