Wie kann man verhindern, dass Community-Inhalte zum Training von LLMs wie ChatGPT verwendet werden?

Ja, das ist ein sehr breiter rhetorischer Punkt und ich denke, Sie haben die Implikation verpasst.

Lassen Sie mich ins kalte Wasser springen und sagen, dass Ihr logischer Prozess zu einer Zeit durchgeführt wurde, die vor der aktuellen Iteration von KI/ChatGPT lag, und das war der alte, übliche Raum.

Menschen im selben Bereich haben heute diese neue, aufmerksamkeitsstarke, paradigmenverschiebende Neuigkeit (KI), die ein scheinbar unendliches X-Faktor-Potenzial und Konsequenzen verspricht, beides in gleichem Maße.

Alle vorherigen Aktivitäten und Annahmen, die frühere Entscheidungen beeinflussten, werden null und nichtig, wenn die KI darauf Zugriff hatte, und es gibt online anekdotisch genug Hinweise darauf, dass das Scrappen von Daten zur Fütterung der KI seit 3, vielleicht 5 oder mehr Jahren stattfindet, im Fall von DeepMind vielleicht schon 2014, als Google es kaufte (vielleicht könnte eine forensische Durchsicht von Log-Stichproben dies beweisen, oder vielleicht wurde es verdeckt, um dies zu verhindern). Wenn Sie dies als relativ wahr einstufen, können Sie sehen, dass das Problem in den technischen Vorlaufzeiten drastisch ist.

Alle Inhalte mögen alle gescrappt worden sein und es ist zu spät, aber ich habe das in meine Bedenken und Darstellungen einbezogen, und ich bemerke es hier nur, weil, wie ich bereits sagte, es keine Zeitmaschinenlösung gibt, nur die Kraft der Umsicht, um gegenwärtige und zukünftige Lösungen zu informieren.

Entschuldigung, ich verstehe das alles nicht.

Die Implikation der Frage war, dass es nun eine überzeugende neue Wahl in der Stadt gibt, die für viele Bedürfnisse als Lösung über allen anderen angesehen wird, nämlich KI (ChatGPT-gestützte Technologie).

Sagen Sie damit, dass niemand ein Forum einrichten würde, weil LLMs den Leuten alles bieten, was sie von Foren wollen? (Das ist übrigens nicht das Thema dieses Threads.)

(Wenn Sie möchten, dass Leute etwas für Sie tun, müssen Sie meiner Meinung nach klar darlegen, was Sie als Problem ansehen und was Sie von ihnen erwarten. Ich sehe, dass es Ihnen sehr am Herzen liegt, aber ich weiß nicht, was Sie wollen. Wie jeder andere habe ich nur begrenzte Zeit und Energie, daher werde ich mich nicht sehr anstrengen, um Ihre Gedanken zu entschlüsseln.)

Bearbeitung zur Ergänzung:

Die aktuelle „KI“-Zusammenfassung dieses Threads für die Nachwelt

Eine Forendiskussion über die Verhinderung der Nutzung von Community-Inhalten zum Training von Sprachmodellen wie ChatGPT dreht sich darum, Inhalte privat zu machen, indem ein Login erforderlich ist, Scraper über robots.txt oder die Einstellung für blockierte Crawler-User-Agents von Discourse blockiert werden oder die Website ganz aus dem Internet entfernt wird. Während einige dagegen sind, die Nutzung öffentlicher Daten zu verhindern und glauben, dass dies ein unvermeidlicher Teil des Fortschritts ist, argumentieren andere, dass Content-Ersteller mehr Kontrolle darüber haben sollten, wie ihre Arbeit verwendet wird. Die Diskussion untersucht die philosophischen Fragen rund um das Eigentum an Informationen und Kreativität sowie praktische Tipps zur Minderung der Nutzung von Daten durch KI-Systeme.

4 „Gefällt mir“

Plötzlich gibt es einen neuen Grund, die alten Wege nicht zu wählen, dem die meisten nur schwer widerstehen können.


Ich bin nicht der OP, aber ich kann mich jetzt noch mehr in den OP hineinversetzen.

  1. Nehmen Sie den OP ernst, was niemand tat,

und

  1. Der Grund dafür ist, dass all diese Ereignisse tiefgreifende positive und negative Auswirkungen haben, und ich glaube nicht und erkenne keine ernsthafte Anerkennung der Nachteile und eine Voreingenommenheit zugunsten der wahrgenommenen Vorteile, und somit gibt es keine Aktivität zur Bewertung und Minderung, d. h. zur Unterstützung der Betroffenen, aber auf Plattformebene.

Noch einmal, ich bin nicht der OP, aber das Problem des OP ist das Problem aller Diskurse (die öffentlich sind). Es ist auch eine systemische existenzielle Bedrohung für das Netz, es ist plattformunabhängig, oder

es ist nichts weiter als „coole neue Spielzeuge“, mit denen man pragmatisch spielen kann.

Letzteres ist im Kontext nicht ernst gemeint. Es ist bewusst blind. Ich persönlich finde es unverantwortlich. Was das KI-Paradigma noch gefährlicher macht.

Einzelne Themen werden dies nicht lösen, es ist Führung. Ich habe mit @sam und @codinghorror angefangen, und da begann die ganze Moderationskatastrophe, einmal gemacht, nicht missbraucht, aber Sie wissen schon, andere Leute denken besser und wissen es besser, warten Sie, bis die KI wirklich ihre Haken einschlägt. :melting_face:

Fazit: Dieses Thema muss sehr ernst genommen werden.

Es braucht vielleicht eine eigene Kategorie. So riesig ist es.

Abgesehen von der Lösung, die keine Lösung, sondern ein Bruch ist, wenn die Strategie darin besteht, die Tür mit - login_required (Einstellung) zu verriegeln, dann ist in diesem Szenario, um die negativen Auswirkungen des Traffics zu mildern, wenn Sie auf Suchverkehr angewiesen sind, etwas zu sehen zu haben, aber nicht alles.

WP-Frontend / Discourse login_required-Website
(mehr Arbeit, mehr Hosting-Kosten, Support usw.)

Dinge, die ebenfalls helfen würden, aber nicht genau mit diesem Problem im Hinterkopf entwickelt wurden:

Veröffentlichte Seiten , wenn sie mit einer dedizierten Auflistungsseite entwickelt wurden, einige Optionen zur Konfiguration, könnten als überbrückende Landingpage fungieren, auf der Benutzer öffentliche Inhalte sehen und sich registrieren können, um mehr zu lesen.

– Auflistung veröffentlichter Seiten auf eigener Seite /pub zulassen (Startseite machen)
– Auflistung veröffentlichter Seiten auf der Seite login_require zulassen
– Eigene Kategorie oder Neueste auf der Seite login_required zulassen

Ich habe Veröffentlichte Seiten erst vor ein paar Tagen als Funktion entdeckt, als ich versuchte, eine Lösung für dieses Problem zu finden, und ich erinnere mich, dass selbst vor dem KI-Rätsel frühere Benutzer eine ähnliche Auflistungsfunktion für veröffentlichte Seiten angefordert haben.

Eine konfigurierbarere Behandlung veröffentlichter Seiten ist meiner Meinung nach besser als ein komplettes WP-Frontend-Add-on, wenn ein öffentlich zugänglicher Verbindungspunkt gelöst werden muss.

Nur den ersten Beitrag des Themas auflisten

Zeigen Sie nur den ersten Beitrag jedes Themas an und erfordern Sie die Anmeldung, um Kommentare zu lesen. Ich habe ähnliches mindestens einmal vorgeschlagen gesehen und es wurde abgelehnt, aber in diesem Zusammenhang muss es neu bewertet werden.

Betrachten Sie diese Vorschläge auch als eine unvollständige Liste, lediglich als potenzielle Notpflaster für einen Teil, nicht für das gesamte Problem.


In der Zwischenzeit werde ich dazu übergehen, dieses Thema mit vielen Gefühlen zu terrorisieren :slight_smile: How are we all feeling about ChatGPT and other LLMs and how they'll impact forums?

1 „Gefällt mir“

Aus Ihrer letzten Antwort entnehme ich, dass wir zu mehr oder weniger demselben Schluss kommen, das Problem durch eine Mischung aus öffentlichen und privaten Inhalten zu lösen. Ich habe den folgenden Beitrag geschrieben, bevor ich Ihre Antwort gelesen habe. Ich werde ihn trotzdem veröffentlichen, um zu versuchen, die Argumentation zu untermauern.

Ich nehme den OP ernst, sowohl weil er eine legitime Frage stellt, als auch weil ich möglicherweise die Bedenken seines Autors teile, wie LLMs das Internet beeinflussen werden. Wenn ich Ihre Bedenken richtig verstehe, stimme ich Ihnen wahrscheinlich zu, dass wir Zeuge eines grundlegenden Wandels in der Funktionsweise des Internets werden – anstatt dass Menschen Websites direkt besuchen, werden LLMs zur bevorzugten Schnittstelle für die Interaktion mit dem öffentlichen Teil des Internets. Dies hat allerlei Implikationen, die hier wahrscheinlich nicht sinnvoll behandelt werden können.

Was hier behandelt werden kann, ist die Frage, wie verhindert werden kann, dass Discourse-Inhalte zum Trainieren von LLMs verwendet werden. Discourse bietet hierfür einige mögliche Ansätze.

Der erste Ansatz ist schwach – halten Sie die Website öffentlich und versuchen Sie, alle User-Agents zu blockieren, die zum Scrapen von Daten mit der Website-Einstellung blocked crawler user agents verwendet werden. Darüber hinaus könnten Sie sich an rechtlichen Anfechtungen gegen die Technologieunternehmen beteiligen, die die Daten scrapen.

Der stärkere Ansatz ist, Ihre Website ganz oder teilweise privat zu machen. Dies kann mit der Website-Einstellung login required oder mit Kategorie-Sicherheitseinstellungen erfolgen.

Der Haupteinwand, den ich sehe, ist, dass die Leute möchten, dass ihre Websites von Suchmaschinen gefunden werden. Ich vermute, dass es Wege gibt, dies zu handhaben. Am einfachsten wäre es, einen öffentlichen, SEO-optimierten Blog zu haben, der mit einem privaten Discourse-Forum verbunden ist. Eine komplexere Lösung wäre, wenn Discourse eine Funktionalität bereitstellen würde, die es ermöglicht, einen Teil des OP eines Themas öffentlich zu machen, während der Großteil des Themas nur für Mitglieder einer Discourse-Gruppe zugänglich wäre. Dies wäre ähnlich wie bei Diensten wie Substack, die Inhalte für zahlende Abonnenten anbieten – sie zeigen einige Inhalte an, die für anonyme Benutzer und Crawler zugänglich sind, und zeigen dann eine Anmeldeaufforderung an:

Ich denke also, dass ich neben meiner Besorgnis darüber, wie LLMs das Internet beeinflussen werden, eine Gelegenheit sehe, neue Wege zur Finanzierung von Content Creators zu betrachten.

7 „Gefällt mir“

Wo ist diese Einstellung?

2 „Gefällt mir“

Ihre Frage lautet: „Warum sollte jemand etwas produzieren, das ins Internet gestellt werden könnte?“

Wenn Sie die Frage im Internet stellen, kann Ihnen niemand, der Ihre Ansicht teilt, Ihre Frage beantworten.

6 „Gefällt mir“

Dieses Thema ist zermürbend, eine KI-basierte Zusammenfassung deckt das Thema gut ab, scrollen Sie nach oben und klicken Sie darauf

Schließt für die nächsten 3 Monate

12 „Gefällt mir“

Dieses Thema wurde nach 90 Tagen automatisch eröffnet.