Как предотвратить использование контента сообщества для обучения LLM, таких как ChatGPT?

Это немного утомительно.

Я использовал термин «похожий» довольно свободно, но вполне обоснованно, и только в отношении одной концепции, чтобы поддержать конкретный тезис. Мне казалось, что это очевидно?

Мой тезис о сходстве касался исключительно концепции «извлечения и сопоставления признаков», ничего более, с целью провести различие между обучением концепциям и заучиванием текста дословно.

Я прекрасно понимаю, что существуют и существенные различия.

Вы же знаете, что я осведомлён о том, что человеческая голова не похожа на дата-центр, верно? :rofl:

Вы утверждаете, что в человеческом мозге не происходит извлечения и сопоставления признаков?

Потому что именно этим он и занимается:

«Обучение детекторам признаков
Чтобы перцептивная система могла делать тонкие различия, необходимые для управления поведением, сенсорной коре нужен эффективный способ адаптации синаптических весов в нескольких слоях нейронов, обнаруживающих признаки.»

Также см. Feature detection (nervous system) - Wikipedia

Это противоречие. Это абсолютно не «копировать и вставить», и именно в этом суть моего тезиса.

Можно даже сказать, что это не сжатие с потерями:

https://betterprogramming.pub/chatgpt-is-not-just-lossy-compression-44590705efb4

Да, способно. И снова, оговорка :sweat_smile:, не в той степени, в которой способны мы.

ChatGPT обобщает. Именно этим и является сопоставление паттернов, то есть извлечение признаков! Оно способно выстраивать слова в осмысленном порядке, соответствующем правилам грамматики. Оно «научилось» сложному набору признаков и может строить предложения, имеющие грамматический смысл, независимо от темы. Оно не хранит все возможные комбинации слов и не выдаёт в точности одно совпадение каждый раз, то есть это не «копировать и вставить»! Это лишь один пример. Ответы, которые оно даёт, демонстрируют нарастающую сложность.

Но, конечно, оно недостаточно сложно, чтобы «понимать» математику. Пока нет. (И, возможно, никогда с использованием текущей техники?).

Я полностью признаю, что уровень сложности не соответствует уровню мозга, что оно ограничено по охвату, и физическая реализация всего этого сильно отличается. Но это не опровергает мой тезис…

… который был конкретным!

В следующий раз я обязательно тщательно добавлю оговорки к своему тезису, чтобы избежать этого лишнего шума. :sweat_smile:

2 лайка

Насколько бы увлекательной и достойной обсуждения ни была философия, я думаю, что автор оригинального поста ищет конкретные практические советы по смягчению этой проблемы. Можем ли мы придерживаться темы и сосредоточиться на них? :pray:

11 лайков

Полностью согласен! Но мы немного отвлеклись…

Верно. Существует реальный риск того, что данные для обучения могут быть раскрыты в выводах больших языковых моделей (LLM), и когда это происходит, это может стать проблемой конфиденциальности или нарушением авторских прав. Я считаю, что подходящими инструментами являются, с одной стороны, законодательство о защите данных, а с другой — законодательство об авторском праве и, следовательно, лицензирование.

Полагаю, не помешало бы включить в условия использования запрет на определённые действия, такие как сбор данных, массовое скачивание и включение в данные для обучения машинного обучения. Однако для обеспечения исполнения я бы рекомендовал прояснить вопросы лицензирования контента. Для эффективности подходящий чёткий лицензионный договор должен быть частью стандартной установки, чтобы большинство экземпляров Discourse придерживались единого подхода к защите.

Стоит обратиться к таким организациям, как EFF, за шаблонами политик нужного типа.

3 лайка

О, есть ещё один важный момент. Если вы накладываете жёсткие ограничения на лицензирование контента вашего форума, в худшем случае это может затруднить или сделать невозможным миграцию форума на новую платформу. Не делайте этого!

(Существует также социальный аспект, хотя он может быть незначительным. Если в правилах вашего форума указано, что вклад участников становится собственностью форума, это может отпугнуть некоторых людей. Однако вам что-то нужно: вы не хотите, чтобы ушедшие пользователи могли настаивать на удалении всех своих постов. Это отдельная проблема, не связанная с текущей темой, но она показывает, что правила важны.)

2 лайка

По крайней мере, в западных странах такое условие абсолютно бессмысленно и говорит лишь об одном: у владельца платформы нет никаких знаний.

2 лайка

Однако «почему» (очень) интересно.
Зачем вы хотите узнать, как это сделать? Чтобы сделать это, признаем.
Но зачем? Это уже довольно существенное расширение вопроса.

Это хороший вопрос. И здесь сами пользователи форума фактически становятся книгами.

Думаю, один из способов, который, судя по всему, используется на многих сайтах, — это анализ поведения пользователя. Если «слишком много» страниц просматривается, особенно если это делается «слишком быстро», то это, вероятно, парсинг. Затем можно добавить некоторые параметры, например, использование IP-адреса хостинга вместо домашнего IP-адреса, факт использования «безголового» браузера, отсутствие принятия куки и т. д.

Так что да, всё это можно определить и настроить в будущем, чтобы попытаться технически блокировать как можно больше случаев парсинга. Обычный способ — запрашивать CAPTCHA при подозрении на поведение, похожее на поведение бота. Это позволяет людям продолжать работу, что было бы невозможно, если бы система просто блокировала пользователя.

Теперь, всё это всегда можно обойти, если кто-то всё ещё хочет это сделать. Избегая идентификации и представляясь как множество разных пользователей, выглядя более легитимно во многих отношениях, используя ротацию домашних IP-адресов и т. д. Это почти спорт — знать, как парсить то, что система предназначена предотвратить. Некоторые люди очень хороши в этом. Существует множество ресурсов для этого.

Легитимные организации, такие как создатели ChatGPT и подобных сервисов, вероятно, не пойдут этим путём. Они также, скорее всего, будут более склонны соблюдать Условия использования, использовать корректный user agent и т. д. Чтобы их отпугнуть, «юридический» аргумент и простое заявление о запрете могут быть достаточными. Однако это не сработает с теми, кто меньше заботится о юридических аспектах и прямоте.

Довольно простое решение — ограничить объём информации, доступной гостям без необходимости входа в систему. Но опять же, как часто бывает, вам будет очень трудно предотвратить действия тех, кто действительно хочет это сделать, если они достаточно мотивированы. Однако последние могут быть не теми, кого важно таргетировать в данном вопросе.

4 лайка

Я думаю, что это контролируется так же, как и любой другой краулер. Существуют настройки для запрета доступа по user-agent. Если краулер использует user-agent, указывающий на его деятельность, вы можете контролировать это.

Мне неясно, откуда GPT получил начальный набор данных и будет ли он получать новые данные, а если да, то откуда. Думаю, вам нужно выяснить, какие user-agent используются.

6 лайков

Работает ли это помимо robots.txt, на уровне фаервола?

2 лайка

Обсуждения в интернете обречены на недолговечность, и эта ветка с ответом на мой искренний вопрос (с целью исследовать как) явно является лишь вступлением.

К сожалению, на данный момент сделать это невозможно, так как поиск представляет собой просто веб-оболочку.

https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

User-agent: OpenAI Disallow: /

Или

<meta name='robots' content='noindex, nofollow'>

3 лайка

И оно точно будет следовать этому правилу?

2 лайка

Хочу высказать своё мнение: это отличная тема, едва проходит по критериям разрешённого здесь, но всё же проходит.

Скажу, что это отлично подытоживает.

Лол, это уже уводит в сторону Скайнета: будет ли ИИ действовать по-своему?

Хочу привести пример, подтверждающий, что будет.

Многие религии основаны на Библии, а Библия — на традициях людей.

Так что да, творение может превзойти творца.

Когда-нибудь, если нас не остановят, мы сами можем стать книгами новой Библии.

Возможно, вы все — ученики :hugs:

Оuroboros

Это инструмент или игрушка, пока не перестанет быть :man_shrugging:

3 лайка

Смешная шутка — но в реальном мире большинство ботов не следуют правилам robots.txt. Это всего лишь рекомендация, а не какой-то фаервол.

5 лайков

Файл robots.txt содержит инструкции для самих краулеров.
Это опирается на предположение, что они будут им следовать. Ничто не гарантирует, что это произойдет «точно».

Вы можете блокировать пользовательских агентов на уровне вашего веб-сервера. Чаще всего для Discourse используется NGINX.
В этом случае ваш веб-сервер не будет отдавать какой-либо контент этим пользовательским агентам. Это делается путем добавления нескольких строк в файл конфигурации NGINX вашего сайта. Выполните поиск в сети по запросу nginx block user agent или аналогичному.

Это «точно» сработает, если краулер честно указывает свой пользовательский агент.

3 лайка

Что, безусловно, не является «точно». :slight_smile:

2 лайка

Это определённо блокирует пользовательских агентов, которых вы хотите заблокировать :+1:
(РЕДАКТИРОВАНО для полной :100: % ясности: С помощью NGINX, как показано выше, а не просто полагаясь на robots.txt)

Это не гарантированное решение всей проблемы, если вы имеете дело со злоумышленниками, которые не идентифицируют себя корректно. Но, полагаю, вы это прекрасно понимаете.

3 лайка

Это начинает немного надоедать… но нет. Существует множество ситуаций, когда даже Google не следует robots.txt.

Это всё ещё лишь рекомендация, и никому не следует слепо доверять ей.

Хорошо, мы думаем одинаково.

Я видел два ответа, которые меня очень напугали. Я не хочу платить, но рано или поздно это может стать обязательным для работы.

(Я не указывал номер своей кредитной карты и всё время использовал временные решения, по крайней мере, чтобы немного остаться в стороне от внимания)

Но люди платят и переходят на уровни 4 и 10X, затем на 100X — 24 доллара в день. Я работаю непосредственно на рынках, и это сюрреалистично.



Обычно я не использую это устройство для поиска в интернете (выбираю капчу для нескольких крупных компаний), потому что чувствую себя в большей безопасности и приватности при просмотре в Linux. Я подозреваю, что кто-то может думать так же, и уважаю это, если это не ваш случай.

Открытое исходное код тоже в какой-то степени контролируется. Это может звучать немного параноидально, но я предпочитаю человеческое общение в нашем сообществе. Мы обсуждаем границы и, возможно, используем методы для блокировки чего-то, где никто не знает, где это может остановиться.

Галлюцинация была внедрена; люди копируют самих себя. Это может разрушить информацию и привести к огромному контролю в союзе.

Возможно, сейчас подходящее время обсудить границы, ценности и приватность. Не цензуру, не жалобы, а избегание хороших обсуждений.

Если мы согласны по этой теме, я должен поделиться своими мыслями и глубокими исследованиями по моим не совсем твёрдым, но реальным позициям.

Возможен ли ИИ без OpenAI (не открытый) и может ли он стать лучшим инструментом для сообществ?

Пожалуйста, переместите тему, если считаете, что это нарушает правила (OP), или объедините, если хотите.

Не знаю, можно ли адаптировать эту идею для форума, но я использую этот код в своём файле .htaccess на блоге.

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$	/TO-THIS-URL	[L,R=301,NC]

Суть в том, чтобы перенаправлять только эти пользовательские агенты, которые посещают страницу X. В моём случае я перенаправляю указанных выше ботов, если они заходят на статьи о текущих событиях, при этом оставляя мой библейский контент доступным для всех остальных. Я сделал это для целей SEO, и это дало результат. Возможно, есть способ использовать что-то подобное для блокировки бота ИИ?

Проблема моего кода в том, что для каждого URL требуется отдельная строка кода.

2 лайка

Конечно. Это решение, при котором ваш веб-сервер обрабатывает определённые user-agent определённым образом. Это практически то же самое, что я описал выше. Оно работает, пока бот идентифицирует себя с помощью корректного user-agent.

1 лайк

Если можно немного развить эту тему, знает ли кто-нибудь, получает ли пользовательский агент ChatGPT версию для краулеров? Сомневаюсь… Возможно, его стоит добавить в список «краулеров».