OpenAI использовала несколько наборов данных для обучения своих моделей. Набор данных, который, скорее всего, включает контент Discourse, — это отфильтрованная версия набора данных Common Crawl. Подробную информацию см. в разделе 2.2 этого документа: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl использует строку user-agent CCBot/2.0 при сканировании сайта.
Если вы хотите, чтобы ваш сайт на Discourse оставался доступным для публики, но при этом его контент не добавлялся в набор данных Common Crawl в будущем, вы можете добавить CCBot в настройку «Заблокированные user-agent поисковых роботов» вашего сайта Discourse. Обратите внимание, что блокировка user-agent Common Crawl может иметь негативные последствия (How to Block OpenAI ChatGPT From Using Your Website Content):
Многие наборы данных, включая Common Crawl, могут использоваться компаниями, которые фильтруют и категоризируют URL-адреса для создания списков веб-сайтов, нацеленных на рекламу.
Использование настройки «Заблокированные user-agent поисковых роботов» в Discourse описано здесь: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.
Обратите внимание, что Common Crawl соблюдает правила в файле robots.txt, поэтому его также можно заблокировать, добавив в этот файл следующее правило:
User-agent: CCBot
Disallow: /
Плагины ChatGPT используют user-agent ChatGPT-User при выполнении запросов от имени пользователей. Этот user-agent не используется для сканирования веб-страниц с целью создания наборов данных для обучения: https://platform.openai.com/docs/plugins/bot. Этот user-agent также можно заблокировать, добавив его в настройку «Заблокированные user-agent поисковых роботов» (или добавив правило Disallow в файл robots.txt).
Как уже отмечали другие, наиболее надёжный способ предотвратить использование вашего сайта для обучения больших языковых моделей (LLM) — запретить анонимный доступ к сайту, включив настройку «Требуется вход». Чтобы дополнительно усилить защиту сайта, можно предпринять шаги для повышения вероятности того, что пользователи вашего сайта являются людьми, а не ботами. Один из возможных подходов — интеграция сервиса, такого как Gitcoin Passport, с системой аутентификации сайта. Я считаю, что в ближайшее время будет разработан открытый плагин Gitcoin Passport для Discourse.
Возможно, существуют и менее технические способы повышения вероятности того, что пользователи сайта являются людьми. Например, сайт можно настроить в режиме «Только по приглашениям» и предпринять шаги, чтобы приглашать только тех пользователей, в отношении которых у вас есть основания полагать, что они являются людьми.
Мне кажется философия, стоящая за всем этим, очень интересной, но я не буду углубляться в неё в этой теме.