Wie kann man verhindern, dass Community-Inhalte zum Training von LLMs wie ChatGPT verwendet werden?

merefield · 15. Mai 2023 um 06:14

Das ist einigermaßen ärgerlich.

Ich habe den Begriff „ähnlich“ etwas locker, aber definitiv gültig verwendet, nur in Bezug auf ein Konzept und nur zur Unterstützung eines bestimmten Punktes. Ich dachte, das wäre offensichtlich?

Mein Punkt, Ähnlichkeit festzustellen, beschränkte sich auf das Konzept der „Feature“-Extraktion und des Abgleichs, sonst nichts, um einen Unterschied zwischen dem Lernen von Konzepten und dem Auswendiglernen von Kopien im Wortlaut zu ziehen.

Ich bin mir vollkommen bewusst, dass es auch erhebliche Unterschiede gibt.

Sie wissen doch, dass ein menschlicher Kopf kein Rechenzentrum ähnelt, oder?

Sagen Sie damit, dass im menschlichen Gehirn keine Feature-Extraktion und kein Abgleich stattfinden?

Denn das ist es, was es tut:

„Lernen von Feature-Detektoren
Damit das Wahrnehmungssystem die feinen Unterscheidungen treffen kann, die zur Verhaltenssteuerung erforderlich sind, benötigt der sensorische Kortex eine effiziente Methode zur Anpassung der synaptischen Gewichte mehrerer Schichten von Feature-erkennenden Neuronen.“

Siehe auch Feature detection (nervous system) - Wikipedia

Das ist ein Widerspruch. Es ist absolut kein Copy&Paste, und das ist der Kern meines Punktes.

Es ist wahrscheinlich nicht einmal verlustbehaftete Komprimierung:

Ja, das kann es. Und wieder, Vorbehalt , nicht in dem Ausmaß wie wir.

ChatGPT generalisiert. Das ist es, was Mustererkennung, auch Feature-Extraktion genannt, ist! Es ist in der Lage, Wörter in einer sinnvollen Reihenfolge zu konfigurieren, die Grammatikregeln entsprechen. Es hat einen komplexen Satz von Features „gelernt“ und kann Sätze konstruieren, die unabhängig vom Themenbereich grammatikalisch sinnvoll sind. Es speichert nicht jede mögliche Wortkombination und gibt jedes Mal genau eine Übereinstimmung wieder, d. h. kein Copy&Paste! Das ist nur eine Demonstration. Die Antworten, die es gibt, zeigen eine aufkommende Raffinesse.

Aber sicher, es ist noch nicht raffiniert genug, um Mathematik zu „verstehen“. Noch nicht. (und vielleicht auch nie mit dieser aktuellen Technik?).

Ich erkenne voll und ganz an, dass die Raffinesse nicht mit dem Gehirn mithalten kann, dass sie begrenzt ist und die physische Implementierung all dessen sehr unterschiedlich ist. Aber das macht meinen Punkt nicht ungültig…

… der spezifisch war!

Nächstes Mal werde ich sicherheitshalber meine Punkte sorgfältig mit Vorbehalten versehen, um diesen unnötigen Lärm zu vermeiden.

JammyDodger · 15. Mai 2023 um 09:56

So faszinierend und diskussionswürdig die Philosophie auch ist, ich denke, der OP sucht speziell nach praktischen Tipps, wie man dies mildern kann. Könnten wir beim Thema bleiben und uns darauf konzentrieren?

Ed_S · 15. Mai 2023 um 12:56

Voll und ganz einverstanden! Aber wir sind abgeschweift…

In der Tat. Es gibt ein echtes Risiko, dass Trainingsdaten in der LLM-Ausgabe offengelegt werden, und wenn das passiert, kann das ein Datenschutzproblem oder ein Urheberrechtsproblem sein. Ich denke, die geeigneten Instrumente sind einerseits das Datenschutzrecht und andererseits das Urheberrecht und damit die Lizenzierung.

Ich denke, es würde nicht schaden, die Nutzungsbedingungen zu ändern, um bestimmte Handlungen zu verbieten, wie z. B. Data Scraping, groß angelegte Downloads, Aufnahme in Trainingsdaten für maschinelles Lernen. Aber zur Durchsetzung würde ich eine gewisse Klarheit bei der Lizenzierung der Inhalte vorschlagen. Für die Wirksamkeit sollte eine geeignete klare Lizenz Teil der Standardinstallation sein, damit die meisten Discourse-Instanzen den gleichen Ansatz zum Selbstschutz verfolgen.

Ich würde mich an Organisationen wie die EFF wenden, um Vorlagen für die richtigen Richtlinien zu erhalten.

Ed_S · 15. Mai 2023 um 16:26

Oh, etwas Wichtiges ist hinzuzufügen. Wenn Sie den Inhalt Ihres Forums restriktiv lizenzieren, könnten Sie im schlimmsten Fall die Migration Ihres Forums auf eine neue Plattform erschweren oder unmöglich machen. Tun Sie das nicht!

(Es gibt auch einen sozialen Aspekt, obwohl er vielleicht gering ist. Wenn in Ihren Forumsbedingungen steht, dass die Beiträge einer Person in den Besitz des Forums übergehen, schreckt das einige Leute ab. Aber Sie brauchen etwas: Sie möchten nicht, dass Benutzer, die gehen, darauf bestehen können, dass alle ihre Beiträge entfernt werden. Das ist ein anderes Problem als das hier behandelte Thema, aber es zeigt, dass die Bedingungen wichtig sind.)

Jagster · 15. Mai 2023 um 18:37

In westlichen Ländern ist eine solche Klausel zumindest völlig bedeutungslos und zeigt nur eines: Der Plattformbesitzer hat absolut keine Ahnung.

Mevo · 15. Mai 2023 um 22:34

Das Warum ist aber (sehr) interessant.
Warum willst du wissen, wie man es macht? Um es zu tun, zugegeben.
Aber warum? Das ist eine ziemliche Erweiterung der Frage.

Das ist eine gute Frage. Und die Forenbenutzer selbst werden hier tatsächlich zu den Büchern.

Ich schätze, eine Möglichkeit, die auf vielen Websites praktiziert zu werden scheint, ist die Analyse des Benutzerverhaltens. Wenn „zu viele“ Seiten gescannt werden, insbesondere wenn dies „zu schnell“ geschieht, dann handelt es sich wahrscheinlich um Scraping. Es können dann einige Parameter hinzugefügt werden, wie zum Beispiel die Verwendung einer „Hosting-IP-Adresse“ anstelle einer privaten IP-Adresse, die Tatsache, dass ein „headless“ Browser verwendet wird, Cookies nicht akzeptiert werden usw.

Ja, all dies kann im Voraus definiert und fein abgestimmt werden, um zu versuchen, so viel Scraping wie möglich technisch zu blockieren. Die übliche Vorgehensweise ist, ein CAPTCHA anzufordern, wenn ein botähnliches Verhalten vermutet wird. Dies ermöglicht es Menschen, fortzufahren, was nicht möglich wäre, wenn das System den Benutzer einfach blockieren würde.

Nun kann all dies immer umgangen werden, wenn jemand es immer noch tun möchte. Indem man vermeidet, identifiziert zu werden und als viele verschiedene Benutzer zu erscheinen, auf vielen Ebenen legitimer zu erscheinen, private IPs zu rotieren usw. Es ist fast ein Sport, zu wissen, wie man das scrapt, was ein System zu verhindern versucht. Manche Leute sind darin sehr gut. Es gibt viele Ressourcen dafür.

Legitime Entitäten wie die Macher von ChatGPT und ähnlichem werden wahrscheinlich nicht diesen Weg gehen. Sie werden wahrscheinlich auch eher geneigt sein, die Nutzungsbedingungen zu respektieren, mit einem geraden User-Agent usw. zu kommen. Um sie abzuschrecken, kann die „rechtliche“ und einfache Tatsache, dass Sie sagen, Sie verbieten es, ausreichen. Dies wird bei Leuten, denen die Legalität und Geradlinigkeit weniger wichtig sind, nicht funktionieren.

Eine ziemlich einfache Lösung ist es, die Menge zu begrenzen, die als Gast angezeigt werden kann, ohne sich anmelden zu müssen. Aber auch hier werden Sie, wie so oft, große Schwierigkeiten haben, diejenigen zu verhindern, die es wirklich tun wollen, wenn sie motiviert genug sind. Letztere sind in dieser Angelegenheit möglicherweise nicht die wichtigen Personen, auf die man abzielen sollte.

pfaffman · 17. Mai 2023 um 07:56

Ich denke, das wird wie jeder andere Crawler gesteuert. Es gibt Einstellungen, um den Zugriff nach User-Agent zu verweigern. Wenn der Crawler einen User-Agent verwendet, der angibt, was er tut, können Sie ihn steuern.

Es ist mir nicht klar, woher GPT seinen anfänglichen Datensatz hat oder woher er neue Daten beziehen wird. Ich denke, Sie müssten herausfinden, was die User-Agents sind.

Jagster · 17. Mai 2023 um 07:59

Funktioniert es über robots.txt hinaus, auf Firewall-Ebene?

satonotdead · 17. Mai 2023 um 10:25

Diskussionen im Internet werden tagelang geführt, und dieser Thread und die Antwort auf meine ehrliche Frage (um das Wie zu erforschen) sind eindeutig eine Einleitung.

Derzeit gibt es leider keine Möglichkeit, dies zu tun, da die Suche nur ein Web-Wrapper ist.
https://answers.microsoft.com/en-us/bing/forum/all/opt-out-of-bing-chatgpt-ai/8d76e65b-6c8b-42ab-be4b-39e433045703

User-agent: OpenAI Disallow: /

Oder

<meta name='robots' content='noindex, nofollow'>

Jagster · 17. Mai 2023 um 10:47

Und diese Regel wird sicher befolgt?

anon48433008 · 17. Mai 2023 um 11:05

Ich möchte meinen Senf dazugeben und sagen, dass dies ein großartiges Thema ist, das es kaum in die zulässigen Themen hier schafft, so wie ich es sehe, aber es tut es

Ich würde sagen, das fasst es gut zusammen

lol, das geht schon in Richtung Skynet, wird die KI ihr eigenes Ding machen?

Ich möchte ein Beispiel dafür geben, dass sie es tun wird

Viele Religionen basieren auf der Bibel, und die Bibel basiert auf den Traditionen der Menschen

Also ja, das Geschaffene kann den Schöpfer übertreffen.

Eines Tages, wenn wir nicht gestoppt werden, könnten wir sehr wohl die Bücher einer neuen Bibel sein

Ihr könnt alle Jünger sein

Ouroboros

Es ist ein Werkzeug oder ein Spielzeug, bis es das nicht mehr ist

Jagster · 17. Mai 2023 um 11:42

Ein lustiger Witz – aber in der realen Welt folgen die meisten Bots nicht den Regeln von robots.txt. Es ist nur ein Vorschlag, keine Art von Firewall.

Mevo · 17. Mai 2023 um 17:50

robots.txt sind Anweisungen, die sich an die Crawler selbst richten
Es beruht auf der Annahme, dass sie ihnen folgen werden. Nichts sagt, dass dies “sicher” der Fall sein wird.

Sie können User Agents auf Ihrer Webserver-Ebene blockieren. Meistens wird NGINX mit Discourse verwendet.
Hier wird Ihr Webserver keine Inhalte an diese User Agents ausliefern. Dies geschieht durch Hinzufügen einiger Zeilen zur NGINX-Konfigurationsdatei Ihrer Website. Suchen Sie im Web nach nginx block user agent oder ähnlichem.

Dies ist “sicher”, wenn der Crawler einen ehrlichen User Agent anzeigt.

mattdm · 17. Mai 2023 um 17:53

Was keineswegs „sicher“ ist.

Mevo · 17. Mai 2023 um 20:33

Es blockiert sicher User Agents, die Sie blockieren möchten
(EDIT zu % klar: Durch die Verwendung von NGINX wie oben dargestellt und nicht nur durch Verlassen auf robots.txt)

Es ist keine sichere Lösung für das gesamte Problem, wenn Sie es mit böswilligen Akteuren zu tun haben, die sich nicht korrekt identifizieren. Aber ich schätze, das haben Sie perfekt verstanden.

Jagster · 17. Mai 2023 um 21:22

Das wird langsam langweilig… aber nein. Es gibt viele Situationen, in denen nicht einmal Google robots.txt befolgt.

Es ist immer noch ein Vorschlag und niemand sollte ihm jemals vertrauen.

satonotdead · 19. Mai 2023 um 04:37

OK, wir denken gleich.\n\nIch sehe zwei Antworten, die mich wirklich erschreckt haben, und ich möchte nicht bezahlen, aber früher oder später könnte das für die funktionierende Version obligatorisch sein.\n\n*(Ich habe meine Kreditkartennummer nicht angegeben und benutze immer temporäre Daten, zumindest um ein wenig vom Kurs abzukommen)\n\nAber die Leute bezahlen und sind auf 4- und 10-fache, dann 100-fache, 24 Dollar pro Tag gesprungen. Ich arbeite direkt an den Märkten und das ist surreal.\n\n

\n
image1536×2048 435 KB
\n
image1536×2048 340 KB
\n\n\u003e Ich benutze dieses Gerät normalerweise nicht, um im Web zu suchen (wähle Captchas für ein paar große Unternehmen), weil ich mich unter Linux sicherer und privater fühle. Ich vermute, jemand könnte ähnlich denken, und ich respektiere es, wenn das nicht Ihr Fall ist.\n\nOpen-Source wird auch irgendwie kontrolliert, das mag ein wenig neurotisch klingen oder so, aber ich bevorzuge menschliche Gespräche in unserer Community und wir diskutieren über Grenzen und vielleicht die Methoden, etwas zu blockieren, von dem niemand weiß, wo es aufhören kann.\n\nHalluzination* wurde eingeschleust, Leute klonen sich selbst. Das könnte die Informationen brechen und sehr viel Kontrolle in einem Verbund verbreiten.\n\nVielleicht ist dies ein guter Zeitpunkt, um über Grenzen, Werte und Privatsphäre zu diskutieren. Nicht zensieren, Beschwerden einreichen oder eine gute Diskussion vermeiden.\n\nWenn wir uns in diesem Thema einig sind, werde ich meine Punkte und meine tiefgehende Recherche zu meinen nicht festen, aber realen Punkten teilen.\n\nIst KI ohne OpenAI (nicht offen) möglich und ein besseres Werkzeug für Communities?\n\n\u003e Bitte verschieben Sie dies, wenn Sie der Meinung sind, dass es OP ist, oder zusammenführen, wenn Sie möchten.

Brandon007 · 26. Mai 2023 um 23:16

Ich weiß nicht, ob dieses Konzept für ein Forum angepasst werden kann, aber ich führe diesen Code in meiner .htaccess-Datei auf meinem Blog aus.

RewriteCond %{HTTP_USER_AGENT} ^.*(aolbuild|baidu|bingbot|bingpreview|msnbot|duckduckgo|mediapartners-google|googlebot|Googlebot|adsbot-google|teoma|slurp|yandex|Baiduspider|facebookexternalhit|applebot|FeedFetcher-Google).*$ [NC]	
RewriteRule ^/?REDIRECT-THIS-URL?$\t/TO-THIS-URL\t[L,R=301,NC]

Die Idee hier ist, nur diese User Agents umzuleiten, die X-Seiten besuchen. In meinem Fall leite ich die oben genannten User Agents, die aktuelle Ereignisartikel besuchen, um, während meine biblischen Inhalte für alles andere weiterhin verfügbar sind. Ich habe dies zu SEO-Zwecken getan, was einen Unterschied gemacht hat. Vielleicht gibt es eine Möglichkeit, etwas Ähnliches zu verwenden, um einen KI-Bot zu blockieren?

Das Problem mit meinem Code ist, dass Sie für jede URL eine weitere Codezeile benötigen.

Mevo · 27. Mai 2023 um 10:42

Sicher. Dies ist eine Lösung, bei der Ihr Webserver bestimmte User Agents auf eine bestimmte Weise behandelt. Es ist so ziemlich dasselbe, was ich oben beschrieben habe. Es funktioniert, solange der Bot sich mit einem korrekten User Agent identifiziert.

stance455 · 10. Juni 2023 um 00:11

Um dieses Thema aufzugreifen: Weiß jemand, ob der ChatGPT-User-Agent die Crawler-Version erhält? Ich bezweifle es… vielleicht sollte das zur Liste der „Crawler“ hinzugefügt werden.

Thema		Antworten	Aufrufe
How are we all feeling about ChatGPT and other LLMs and how they'll impact forums? Community Building ai	103	8328	13. Februar 2025
What is stopping you from trying out Discourse AI? Community Building ai	35	1805	23. August 2025
What's Next for Discourse: Live AMA with Sam & Hawk Announcements	36	1444	26. November 2025
Is there any AI at the core of standard Discourse? Support	15	1568	31. Mai 2023
Best practices dealing with Spam users and GPT reply posts Community Building	9	929	31. Juli 2023

Wie kann man verhindern, dass Community-Inhalte zum Training von LLMs wie ChatGPT verwendet werden?

Verwandte Themen