Как предотвратить использование контента сообщества для обучения LLM, таких как ChatGPT?

simon · 07.Июль.2023 17:31:15

OpenAI использовала несколько наборов данных для обучения своих моделей. Набор данных, который, скорее всего, включает контент Discourse, — это отфильтрованная версия набора данных Common Crawl. Подробную информацию см. в разделе 2.2 этого документа: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl использует строку user-agent CCBot/2.0 при сканировании сайта.

Если вы хотите, чтобы ваш сайт на Discourse оставался доступным для публики, но при этом его контент не добавлялся в набор данных Common Crawl в будущем, вы можете добавить CCBot в настройку «Заблокированные user-agent поисковых роботов» вашего сайта Discourse. Обратите внимание, что блокировка user-agent Common Crawl может иметь негативные последствия (How to Block OpenAI ChatGPT From Using Your Website Content):

Многие наборы данных, включая Common Crawl, могут использоваться компаниями, которые фильтруют и категоризируют URL-адреса для создания списков веб-сайтов, нацеленных на рекламу.

Использование настройки «Заблокированные user-agent поисковых роботов» в Discourse описано здесь: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Обратите внимание, что Common Crawl соблюдает правила в файле robots.txt, поэтому его также можно заблокировать, добавив в этот файл следующее правило:

User-agent: CCBot
Disallow: /

Плагины ChatGPT используют user-agent ChatGPT-User при выполнении запросов от имени пользователей. Этот user-agent не используется для сканирования веб-страниц с целью создания наборов данных для обучения: https://platform.openai.com/docs/plugins/bot. Этот user-agent также можно заблокировать, добавив его в настройку «Заблокированные user-agent поисковых роботов» (или добавив правило Disallow в файл robots.txt).

Как уже отмечали другие, наиболее надёжный способ предотвратить использование вашего сайта для обучения больших языковых моделей (LLM) — запретить анонимный доступ к сайту, включив настройку «Требуется вход». Чтобы дополнительно усилить защиту сайта, можно предпринять шаги для повышения вероятности того, что пользователи вашего сайта являются людьми, а не ботами. Один из возможных подходов — интеграция сервиса, такого как Gitcoin Passport, с системой аутентификации сайта. Я считаю, что в ближайшее время будет разработан открытый плагин Gitcoin Passport для Discourse.

Возможно, существуют и менее технические способы повышения вероятности того, что пользователи сайта являются людьми. Например, сайт можно настроить в режиме «Только по приглашениям» и предпринять шаги, чтобы приглашать только тех пользователей, в отношении которых у вас есть основания полагать, что они являются людьми.

Мне кажется философия, стоящая за всем этим, очень интересной, но я не буду углубляться в неё в этой теме.

Тема		Ответов	Просм.
What is stopping you from trying out Discourse AI? Community Building ai	35	2080	23.08.2025
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	102	9088	13.02.2025
Discourse is Agent Ready: Here’s How Blog	9	601	24.05.2026
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	34	1931	20.11.2025
Is there any AI at the core of standard Discourse? Support	15	1710	31.05.2023

Как предотвратить использование контента сообщества для обучения LLM, таких как ChatGPT?

Связанные темы