Wie kann man verhindern, dass Community-Inhalte zum Training von LLMs wie ChatGPT verwendet werden?

OpenAI hat einige Datensätze für das Training seiner Modelle verwendet. Der Datensatz, der am wahrscheinlichsten Discourse-Inhalte enthält, ist eine gefilterte Version des Common Crawl-Datensatzes. Einzelheiten finden Sie in Abschnitt 2.2 dieses Dokuments: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl verwendet den CCBot/2.0 User-Agent-String beim Crawlen einer Website.

Wenn Sie Ihre Discourse-Website öffentlich zugänglich halten möchten, aber verhindern möchten, dass ihre Inhalte zukünftig in den Common Crawl-Datensatz aufgenommen werden, können Sie CCBot zu den Einstellungen für blockierte Crawler-User-Agents Ihrer Discourse-Website hinzufügen. Beachten Sie, dass das Blockieren des Common Crawl-User-Agents Nachteile haben könnte (How to Block OpenAI ChatGPT From Using Your Website Content):

Viele Datensätze, einschließlich Common Crawl, könnten von Unternehmen verwendet werden, die URLs filtern und kategorisieren, um Listen von Websites zu erstellen, die mit Werbung angesprochen werden sollen.

Die Verwendung der Einstellung blocked crawler user agents durch Discourse finden Sie hier: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Beachten Sie, dass Common Crawl Regeln in der Datei robots.txt beachtet, sodass es auch durch Hinzufügen der folgenden Regel zur Datei blockiert werden könnte:

User-agent: CCBot
Disallow: /

ChatGPT-Plugins verwenden den ChatGPT-User-User-Agent, wenn sie Anfragen im Namen von Benutzern stellen. Dieser User-Agent wird nicht zum Crawlen des Webs zum Erstellen von Trainingsdatensätzen verwendet: https://platform.openai.com/docs/plugins/bot. Dieser User-Agent könnte auch blockiert werden, indem er zu den Einstellungen für blocked crawler user agents hinzugefügt wird (oder indem eine Disallow-Regel zur Datei robots.txt hinzugefügt wird.)

Wie andere bereits angemerkt haben, wäre der zuverlässigste Weg, die Verwendung Ihrer Website zum Trainieren von LLMs zu verhindern, den anonymen Zugriff auf die Website zu sperren, indem Sie die Website-Einstellung login required aktivieren. Um die Website weiter abzusichern, könnten Schritte unternommen werden, um die Wahrscheinlichkeit zu erhöhen, dass Benutzer auf Ihrer Website Menschen und keine Bots sind. Ein möglicher Ansatz wäre die Integration eines Dienstes wie Gitcoin Passport in das Authentifizierungssystem der Website. Ich glaube, dass bald ein Open-Source-Gitcoin Passport-Plugin für Discourse entwickelt wird.

Es mag andere, weniger technische Wege geben, die Wahrscheinlichkeit zu erhöhen, dass Benutzer auf der Website Menschen sind. Zum Beispiel könnte die Website auf invite only gesetzt werden und es könnten Schritte unternommen werden, um sicherzustellen, dass Sie nur Benutzer einladen, von denen Sie Grund zu der Annahme haben, dass sie Menschen sind.

Ich finde die Philosophie hinter all dem super interessant, aber ich werde in diesem Thema nicht darauf eingehen.

15 „Gefällt mir“