Как предотвратить использование контента сообщества для обучения LLM, таких как ChatGPT?

Решения на базе GPT и других больших языковых моделей (LLM) требуют обучающих наборов данных. Как предотвратить использование контента из наших сообществ для обучения таких моделей? Стоит ли внести соответствующие пункты в наши условия использования?

Идея возникла у меня после прочтения новости о том, что Reddit внесёт изменения, чтобы не допускать обучения моделей на их данных без оплаты:

https://www.nytimes.com/2023/04/18/technology/reddit-ai-openai-google.html

11 лайков

Используют ли эти проекты сборщики, которые сообщают какой-то user agent?

2 лайка

Разве это действительно имеет значение, когда на выбор есть 10 разных провайдеров по себестоимости?

Учиться на коллективных трудах человечества кажется вполне справедливым: это то, что люди делают постоянно, так почему бы и машинам?

Платит ли Reddit людям за то, чему они учатся на Reddit?

Это больше похоже на спекуляцию со стороны Reddit.

И не будем даже упоминать тот факт, что весь контент на Reddit был предоставлен пользователями бесплатно, так почему Reddit не должен платить своим пользователям?

6 лайков

Это больше похоже на «если я могу прочитать книгу, взятую в библиотеке, почему я не могу её скопировать и продавать копии другим людям?», чем на «если человек может учиться по книге, почему не может компьютер». Возможно, я старею, но я не готов считать, что набор компьютеров, запускающих программу, равнозначен человеку.

Но я также считаю, что уже существуют механизмы, предотвращающие массовое скачивание контента. Или, возможно, индексация сайтов поисковыми системами и есть скачивание.

Это действительно интересные времена.

6 лайков

Ну, в человеческом мире не принято, чтобы кто-то входил в чужие дома и рабочие помещения, копировал всё, а затем воссоздавал всё ради собственной выгоды, чтобы зарабатывать деньги.

Это непростой вопрос. Здесь действительно стоят серьёзные моральные, этические и финансовые проблемы, которые можно свести к двум: приемлемы ли авторские права и патенты как виртуальная собственность или нет.

Для меня это довольно простая проблема, хотя, возможно, потому что я всего лишь маленькая и по сути простоватая рыбка. Как только мне приходится платить кому-то за бизнес, который хочет продать мне то, что уже принадлежит мне, я сразу выступаю против. Именно поэтому я так глубоко ненавижу весь ботовый трафик.

Ещё раз: вопрос об ИИ гораздо шире, чем просто ChatGPT. И я это знаю и понимаю. Но зачем или почему мне следует платить, когда это обучает языковые модели?

Хорошо известный забавный факт о ChatGPT

В финском мире я настоящий большой инфлюенсер, когда речь заходит о кормлении собак. Я занимаюсь этим уже более 30 лет и создал множество публичных текстов. На самом деле мой сайт — самый большой информационный ресурс (и я бы даже сказал, самый важный :wink: ) на финском языке.

Если я задаю вопрос о питании собак на английском, ChatGPT выдаёт старые и широко распространённые неточные теории о BARF. Если же я задаю тот же вопрос на финском, мне попадаются мои собственные тексты.

Это происходит потому, что способ обучения ChatGPT следует принципу «миллион мух не могут ошибаться».

8 лайков

Потому что это не дословное копирование.

Никто не взимает плату с кого-либо за чтение книги о коммунизме в библиотеке, а затем за участие в политическом ток-шоу с пропагандой коммунизма.

Боты обучаются паттернам так же, как и мы.

Кроме того, в суде, не контролируя процесс обучения, как вы сможете узнать, было ли это сделано или нет?

В законе об авторском праве, безусловно, легко доказать, если кто-то скопировал вашу работу, но здесь это ни копирование, ни легко доказать, что у вас был доступ.

Разве что-либо на Reddit действительно ново в любом случае?!?

2 лайка

Извините, но я так не думаю. ИИ запоминает закономерности и устанавливает связи, но не способен интуитивно понимать, чувствовать или по-настоящему творить.

ИИ не мыслит так, как люди, и не воспринимает время, чувства и жизнь.

Кстати, я согласен с остальной частью вашей точки зрения. Сотрудничество, а также поиск и обмен примерами использования полезны для всех (по крайней мере, чтобы не оказаться вытесненными, что, похоже, неизбежно для тех, кто не научится чувствовать, интуитивно понимать или творить).

Общая ситуация напоминает мне промышленную «революцию» и некоторые антиутопические фильмы :slight_smile:

https://medium.com/@sadievrenseker/ai-thinking-vs-human-thinking-bd40d34b629c

2 лайка

Я вынужден возразить, потому что вы упускаете суть моего тезиса.

Мое использование термина «похожий» обосновано тем, что они разрабатывают способы идентификации объектов по признакам, как это делают люди, а не дословного копирования и хранения данных: именно на этом различии я и акцентирую внимание, и оно является критически важным как с логической, так и с потенциально юридической точки зрения.

Чувства и эмоции не имеют отношения к обсуждаемой теме: речь идет о хранении и воспроизведении знаний. И в этом контексте ИИ, скорее всего, использует методы, схожие с работой человеческого мозга, для обучения и последующего применения полученной модели.

Именно так развивалась эта область: были созданы модели, которые являлись приближением к тому, как, как представляется, работают нейронные сети в нашем мозге, а затем они были масштабированы. И что же вы думаете? Они начали вести себя очень похоже на человека — гораздо больше, чем любая модель естественного языка до этого. Это во многом подтверждает мою точку зрения.

3 лайка

Это невозможно, когда речь идёт о людях (Thoughts about impersonate user) :slight_smile:

(И, вероятно, именно это мотивировало автора темы)

Мы всё ещё можем не соглашаться, и я не стал углубляться. Я уважаю вас и просто делюсь своим мнением.

2 лайка

Вы утверждаете, что Rolls-Royce — лучший автомобиль, но всё же это всего лишь автомобиль.

Искусственный интеллект достиг стадии, где он ведёт себя очень похоже на человека. Появляется весьма сложное поведение, но это не случайно, поскольку учёные стремились скопировать методы человеческого обучения.

Конечно, есть и другие аспекты, которые стоит учитывать, и эмоции — лишь один из них (другой огромный аспект — это концепция «эго» и важность информации, похожей на человеческие сенсорные данные, включая вестибулярные сигналы, которые, как считается, критически важны для восприятия «эго»). Однако это не меняет сути аргументации, на мой взгляд.

2 лайка

Нет, я лишь сказал, что ИИ не может учиться так, как люди (вести себя — это не то же самое, что учиться). Это пока невозможно, и, на мой взгляд, важно это учитывать.

Затем я согласен с тем, что общественные данные являются общественными. И для меня вполне нормально, что существуют различия — именно они делают нас людьми (а не ИИ) :grimacing:

2 лайка

Это, на мой взгляд, просто неверно.

Прогресс, которого мы добились в этой области, почти наверняка обусловлен тем, что ИИ учится (больше) как люди.

3 лайка

Только на концептуальном уровне их гораздо больше (!)

@StephaneFe, могу ли я спросить, почему вы стремитесь ограничить «процесс обучения ИИ»? (Это человеческая эмпатия :orange_heart:)

2 лайка

Я никогда не утверждал, что не существует гораздо (!) большего?

Я лишь делаю одно центральное различие:

А именно: ИИ учится на основе признаков (как и мы), а не копирует точную информацию. Он учится обобщать и не полагается на полные детали, чтобы проводить различия.

По этой причине ему не нужно хранить полные произведения в высоком разрешении, дословно.

Без сомнения, существует множество других методов обучения, которые ещё не были внедрены, но этот метод уже активно используется.

2 лайка

Можно ли сосредоточиться на том, как это сделать, а не на том, почему?

Речь не о том, оправдано ли предотвращение использования наших данных или нет, а о том, как это реализовать.

Существуют ли эффективные способы предотвращения скрапинга в целом? Например, требование входа в систему для доступа к большинству контента?

9 лайков

Я считаю, что это морально и технически оправданно.

Меня искренне возмущает, что джазовые песни, написанные в 1930-х годах, защищены авторским правом, хотя можно утверждать, что многие особенности музыки являются неотъемлемым человеческим феноменом, которым никто не должен владеть: возьмем, к примеру, «круг квинт» — это неявная структура в музыке, которая помогает формировать множество композиций, от простых трехаккордовых рок-песен 50-х годов до высокоизысканных джазовых произведений.

И, как я уже отмечал, речь здесь не идет о хранении и дословном воспроизведении материалов, защищенных авторским правом.

Запрещать ИИ использовать такие музыкальные особенности, как круг квинт, только потому, что большинство музыки защищено авторским правом, — это абсурд!

Можно утверждать, что авторы той музыки значительно выиграли от человеческого опыта и уже получили огромную прибыль. Почему правнук должен зарабатывать деньги на произведении своего предка, которое само по себе основано на общих знаниях, для меня непостижимо.

5 лайков

Боюсь, я не эксперт в этом вопросе, но я не думаю, что краулеры могут получать доступ к контенту, если сайт не является общедоступным. Поэтому, если для вас это вариант, это может быть самым эффективным способом.

9 лайков

Это совершенно не так. Эти инструменты в некоторой степени вдохновлены биологическими нейронными концепциями, но в реальной реализации они функционально не похожи. Это может показаться придиркой, но я считаю это очень важным, потому что аргумент кажется философски убедительным. Аналогии могут быть в этом плане очень опасными.

Вот несколько конкретных способов, в которых вычислительные нейронные сети не «изучают паттерны так же, как и мы»:

  • наши нейроны соединены локально и многомерно, с некоторыми плотными кластерами и другими менее связанными; нейронные сети обычно организованы в слои, где каждый слой либо полностью взаимосвязан, либо представляет собой специально спроектированный «сверточный» слой.
  • биологические мозги работают асинхронно: нейроны срабатывают с разной частотой, и сама частота несет информацию. Нейронные сети — это по сути массово-параллельные операции. (Именно поэтому они так хорошо подходят для GPGPU-вычислений.)
  • нейроны отвечают как за вычисления, так и за память. Нет отдельного хранения или извлечения данных, либо выполнения функций. Само по это делает систему обработки принципиально другого типа.
  • странно: коммуникация в мозге более бинарна, чем то, что мы делаем с компьютерами: нейрон либо срабатывает, либо нет, тогда как «искусственный нейрон» обычно принимает и выдает диапазоны непрерывных значений (представленных в виде чисел с плавающей запятой). (Опять же, это вообще не похоже на то, как, по нашему пониманию, функционируют мозги.)
  • обучение работает по-разному: при человеческом обучении на самом деле меняются связи. (Мы понимаем это не очень хорошо.) В нейронной сети архитектура выбирается и фиксируется, а «обучение» представляет собой подстройку весов. (Иронично, что мы тоже не очень хорошо понимаем этот процесс.)

Также очень полезно прочитать это: What Is ChatGPT Doing … and Why Does It Work?—Stephen Wolfram Writings

5 лайков

Конкретно: он определённо не обучается обобщать. Вместо этого он создан так, чтобы иметь способность выдавать ответы, которые кажутся обобщёнными.

Но на самом деле он вообще не способен к обобщению.

Одно интересное упражнение с ChatGPT — попросить его рассказать о умножении. Он серьёзно заявит, что понимает алгоритм письменного умножения. Действительно, если попросить его умножить двузначные или трёхзначные числа, он, скорее всего (хотя и не гарантированно!), даст правильный ответ. Но попробуйте числа из пяти или шести цифр. Он выдаст ответы, которые выглядят как числа с правильным количеством цифр, но на самом деле будут неверными.

Если попросить его объяснить, он скажет, что следовал алгоритму, и если попросить показать ход решения, он это сделает — и это будет бессмыслица, которая выглядит как правильный ответ. Вы, вероятно, даже обнаружите в шагах совершенно неверные умножения однозначных чисел. Он на самом деле не «знает», что эти шаги — то же самое, что и умножение однозначных чисел, которое он только что уверенно выполнил несколько минут назад, потому что он на самом деле ничего не обобщил.

И математика здесь ничем не особенна. Это просто удобный способ немного приподнять завесу. То же самое происходит, когда пытаешься заставить его написать стихотворение.

Не поймите меня неправильно! Я считаю, что даже с существующим сегодня ИИ мы можем совершать удивительные вещи. Но давайте, пожалуйста, не будем строить нашу политику на основе аналогий.

6 лайков

Нет, не так. Они изучают вероятности того, как слова соединяются друг с другом. И это приводит к фактическому копипасту.

Мы же учимся обрабатывать знания.

1 лайк