Wie kann man verhindern, dass Community-Inhalte zum Training von LLMs wie ChatGPT verwendet werden?

Besteht Einigkeit darüber, dass die Erstellung einer Kategorie, die im Wesentlichen PRIVATE ist, ein sicherer Weg ist, nicht nur alle Bots, sondern auch die LLMs oder, nennen wir sie ‘KI-Bots’, zu blockieren?

Ehrlich gesagt, basierend auf der Auseinandersetzung mit dem Thema in mindestens einem Thread und der Suche nach ChatGPT-Suchdiskursen, wie bei vielen anderen Softwareangeboten, wird die Bedrohung und die destruktiven Aspekte von ChatGPT meiner Meinung nach nicht ernst genommen. Es bedarf ernsthafter Überlegungen zur Unterstützung und Bereitstellung von Funktionen für Website-Besitzer und Administratoren, die keine KI nutzen möchten.

ChatGPT und alles, wofür es steht, ist eine dieser Situationen, in denen die Lunte an beiden Enden angezündet wurde. :melting_face:

1 „Gefällt mir“

Das ist in der Tat ein ziemlich sicherer Weg.
Völlig böswillige Akteure werden sich natürlich immer noch registrieren können, aber es sollte alle legitimen Crawler entfernen.

Hinweis: Ich habe deinen Kommentar gelöscht, in dem du einige Mitbegründer markiert hast, das scheint übertrieben.

6 „Gefällt mir“

Die Zeit zeigt uns, dass es nicht übertrieben ist. Die Köpfe müssen aufwachen. Ich sehe eine Voreingenommenheit, die einen großen blinden Fleck erzeugt. Dies ist auch eine branchenweite Beobachtung, aber soweit ich das beurteilen kann, ist Discourse nicht anders.

Wenn die einzige Option darin besteht, Ihr gesamtes Forum wieder privat zu machen, hat sich der „Markt“ nicht nur in einer, sondern in vielerlei Hinsicht so grundlegend verändert, dass er auf irgendeiner operativen Ebene berücksichtigt werden muss.

Was übertrieben ist, ist ChatGPT und seine Auswirkungen. Gierig beschreibt nicht einmal die Hälfte dessen, was überall geschieht.

Dies untergräbt grundlegend jedes einzelne Forum und alle von Menschen geschaffenen Inhalte. Sie mögen sich jetzt wohlfühlen, wenn Sie mit den Feinheiten und philosophischen Was-wäre-wenn-Szenarien spielen, aber diese Zeit ist vorbei. Die Sache ist jetzt in freier Wildbahn. Entscheidungen müssen von jedem getroffen werden, der auch nur einen Zeh im Wasser des World Wide Web hat.

Was ich gesagt habe, ist übertrieben (und was ich gelöscht habe), ist, dass ich zwei Mitbegründer/CEOs wegen einer reinen technischen Frage nach 17 Stunden erneut kontaktiert habe.

Ihre Ängste bezüglich LLMs sind real und verständlich, auch wenn ich ihnen nicht zustimme.

7 „Gefällt mir“

Ich verstehe das, aber Sie verstehen die Dringlichkeit nicht, dass eine technische Antwort so tiefgreifende Ergebnisse und Konsequenzen hat, die in menschlicher Hinsicht alles andere als technisch sind.

So viele Implikationen, und doch schlafwandeln alle, was auf mangelnde Besorgnis auf allen Ebenen hindeutet.

Danke für diese Antwort.

Haben wir nur einen Hammer, um eine Nuss zu knacken, oder ist die Nuss tatsächlich eine Nullpunkt-Unendlichkeitsnuss und unser Hammer ist wirklich eine Fata Morgana der Vorstellungskraft eines Vogels.

Macht das Sinn? :wink:

Ich glaube, Sie verstehen.

Wenn Ihre Website anonymen Benutzern erlaubt, Informationen zu lesen, haben Sie keine Kontrolle darüber, wer diese Informationen erhält oder was er damit tut. Soweit ich weiß, hat Google gerade seine Richtlinien geändert, um zu besagen, dass alles, was sie lesen können, sie für ihre KI verwenden können.

Wenn Ihre Website eingeloggten Benutzern erlaubt, Ihre Website zu lesen, haben Sie keine Kontrolle darüber, was diese Benutzer damit tun werden.

Wenn Ihre Website Benutzern erlaubt, sich anzumelden, wissen Sie nicht unbedingt, dass die Person, die die Anmeldedaten verwendet, die Person ist, die das Konto erstellt hat. Wenn Sie sicherstellen möchten, dass niemand Ihre Daten in einer KI verwenden kann, können Sie einfach die Netzwerkverbindung trennen.

6 „Gefällt mir“

Es gibt eine geringe Kontrolle bei der Verwendung eines Reverse-Proxys – bis sie ihn ändern oder einen falschen User-Agent verwenden (oder sie weit verbreitete IP-Adressen verwenden, aber dieser Weg ist schwer und steinig).

Lassen Sie mich wissen, ob es Ihnen gelingt, ein magisches Buch zu entwickeln, das menschliche Augen sehen können, aber keine Kamera auf der Erde fotografieren kann.

Ich bin sehr neugierig auf diese magische Technologie.

Was das Forum betrifft, das Sie auf der Discourse-Plattform veranstalten, Ihr Forum / Ihre Regeln. Einige Regeln können automatisch durchgesetzt werden, andere nicht (z. B. Personen mit blauen Augen dürfen dieses Forum nicht lesen).

7 „Gefällt mir“

Niemand nimmt das wirklich ernst, weil ich glaube, dass niemand das wahre Ausmaß dieses Ereignisses zugeben und begreifen will und dann tatsächlich etwas dagegen in seinem Einflussbereich unternehmen muss, und es ist einfacher, sich dem Wettlauf zum Ende anzuschließen und KI in seine Software zu integrieren, in dem Gedanken, dass man dem Markt entspricht und auf der Höhe der Zeit ist, dass man unverzichtbar ist. Hier ermöglicht die übermäßige moralische Relativierung der letzten Jahrzehnte, die auf allen Ebenen freien Lauf hatte, die große Zerstörung von Dingen, und die Technologie beschleunigt dies mit Lichtgeschwindigkeit, denn es ist, als ob;\n\njeder den Grund vergessen hat, warum er hier ist.

Ich werde das hier etwas verlangsamen.

Wir hören Ihre Bedenken, wir teilen sie nur nicht, und das ist in Ordnung. Wir können uns darauf einigen, dass wir uns nicht einig sind. Wir treffen fundierte Entscheidungen. Niemand zwingt Ihnen diese auf. :slight_smile:

8 „Gefällt mir“

@satonotdead genau

OpenAI hat einige Datensätze für das Training seiner Modelle verwendet. Der Datensatz, der am wahrscheinlichsten Discourse-Inhalte enthält, ist eine gefilterte Version des Common Crawl-Datensatzes. Einzelheiten finden Sie in Abschnitt 2.2 dieses Dokuments: https://arxiv.org/pdf/2005.14165.pdf. Common Crawl verwendet den CCBot/2.0 User-Agent-String beim Crawlen einer Website.

Wenn Sie Ihre Discourse-Website öffentlich zugänglich halten möchten, aber verhindern möchten, dass ihre Inhalte zukünftig in den Common Crawl-Datensatz aufgenommen werden, können Sie CCBot zu den Einstellungen für blockierte Crawler-User-Agents Ihrer Discourse-Website hinzufügen. Beachten Sie, dass das Blockieren des Common Crawl-User-Agents Nachteile haben könnte (How to Block OpenAI ChatGPT From Using Your Website Content):

Viele Datensätze, einschließlich Common Crawl, könnten von Unternehmen verwendet werden, die URLs filtern und kategorisieren, um Listen von Websites zu erstellen, die mit Werbung angesprochen werden sollen.

Die Verwendung der Einstellung blocked crawler user agents durch Discourse finden Sie hier: discourse/lib/crawler_detection.rb at main · discourse/discourse · GitHub.

Beachten Sie, dass Common Crawl Regeln in der Datei robots.txt beachtet, sodass es auch durch Hinzufügen der folgenden Regel zur Datei blockiert werden könnte:

User-agent: CCBot
Disallow: /

ChatGPT-Plugins verwenden den ChatGPT-User-User-Agent, wenn sie Anfragen im Namen von Benutzern stellen. Dieser User-Agent wird nicht zum Crawlen des Webs zum Erstellen von Trainingsdatensätzen verwendet: https://platform.openai.com/docs/plugins/bot. Dieser User-Agent könnte auch blockiert werden, indem er zu den Einstellungen für blocked crawler user agents hinzugefügt wird (oder indem eine Disallow-Regel zur Datei robots.txt hinzugefügt wird.)

Wie andere bereits angemerkt haben, wäre der zuverlässigste Weg, die Verwendung Ihrer Website zum Trainieren von LLMs zu verhindern, den anonymen Zugriff auf die Website zu sperren, indem Sie die Website-Einstellung login required aktivieren. Um die Website weiter abzusichern, könnten Schritte unternommen werden, um die Wahrscheinlichkeit zu erhöhen, dass Benutzer auf Ihrer Website Menschen und keine Bots sind. Ein möglicher Ansatz wäre die Integration eines Dienstes wie Gitcoin Passport in das Authentifizierungssystem der Website. Ich glaube, dass bald ein Open-Source-Gitcoin Passport-Plugin für Discourse entwickelt wird.

Es mag andere, weniger technische Wege geben, die Wahrscheinlichkeit zu erhöhen, dass Benutzer auf der Website Menschen sind. Zum Beispiel könnte die Website auf invite only gesetzt werden und es könnten Schritte unternommen werden, um sicherzustellen, dass Sie nur Benutzer einladen, von denen Sie Grund zu der Annahme haben, dass sie Menschen sind.

Ich finde die Philosophie hinter all dem super interessant, aber ich werde in diesem Thema nicht darauf eingehen.

15 „Gefällt mir“

Ich lehne die fortgesetzte Moderation meiner Versuche, mich ernsthaft mit diesem Thema auseinanderzusetzen, entschieden ab. Der langsame Stick ist ein Witz, man muss jedes Mal eine Stunde warten.

Es gibt eine Menge von umherwandernden Beiträgen von vielen Benutzern, die bestehen bleiben. Keine Konsistenz, Voreingenommenheit, hmmm, nun, das ist, was dieser Benutzer bisher wahrnimmt, und ich nehme die Dinge nicht persönlich, aber die geriatrische Moderation ist, gelinde gesagt, erstickend.

Ich versuche nur, diese sehr ernste und abscheuliche Situation zu verbessern, und endlich erhalten wir einen ausgezeichneten und ernsten Beitrag von @simon.

Hervorragend und ins Schwarze getroffen, genau das, was der OP und andere zuerst hören mussten. Viele Optionen sind im umfangreichen Admin-Bereich vergraben, und ich persönlich hatte diese Funktion/Option vorher nicht bemerkt. Jetzt kann ich sie ausprobieren. Es wäre schön, wenn sie mehr benutzerdefinierte Informationen als die Standardkarte hätte. Vielleicht kann benutzerdefinierter Text das handhaben, weiß das jemand?

Vielen Dank. :+1:

Wenn dieser Artikel stimmt:

Müssen Sie Ihre Website aus dem offenen Internet entfernen / Google blockieren / login_required aktivieren.

7 „Gefällt mir“

Es ist erwähnenswert, dass es absolut nichts gibt, das einen Crawler dazu zwingt, die robots.txt zu befolgen, und das Vortäuschen eines User-Agents ist trivial. Es gibt keine Gesetze, die diese Dinge regeln. Kein Maß an Dringlichkeit oder Ernsthaftigkeit wird dies ändern. Wenn Sie Bedenken hinsichtlich der Verwendung Ihrer Daten haben, können Sie nur Ihre Website privat schalten und abwarten, wie sich verschiedene Gerichtsverfahren bezüglich Trainingsdaten entwickeln.

11 „Gefällt mir“

Ich erwarte, dass Websites, die auf Werbung angewiesen sind, einen Umsatzrückgang verzeichnen werden und wir werden anfangen, viel mehr Inhalte hinter Paywalls zu sehen. Die Qualität des kostenlosen und offenen Teils des Internets wird verwässert.

Discourse könnte diesen Trend tatsächlich nutzen, indem es einen Abonnementdienst für seine gehosteten Kunden einrichtet.

6 „Gefällt mir“

Es gibt bereits ein Abonnement-Plugin, das für einige Stufen auf gehosteten Seiten verfügbar sein kann. Selbst gehostete Websites können es bereits übernehmen.

Das Problem beim Ausblenden von Inhalten ist, dass dies Ihre SEO beeinträchtigt. Es hängt also davon ab, wie Ihr neuer Benutzer-Funnel aussieht.

Ich persönlich verlasse mich darauf, dass die Suche neue Benutzer findet, daher setze ich nur wenige Inhalte hinter eine Konto-Mauer.

Für viele Websites müssen Sie immer noch entdeckt werden!

2 „Gefällt mir“

Sie scheinen, @agemo, zwei miteinander verbundene Anliegen zu haben: zum einen die Nutzung von KI in Software und zum anderen, dass die Interaktionen normaler Menschen im Web zum Trainieren von KI genutzt werden könnten. Sie machen sich darüber große Sorgen und möchten, dass dies nicht geschieht.

Ich kann das verstehen. Ich erwarte, dass diese Bedenken von vielen geteilt werden.

Lassen Sie mich sagen, es gibt viele Dinge auf der Welt, über die ich mir Sorgen mache und die ich gerne anders hätte – aber ich spreche sie hier nicht an, weil sie für die Leute hier oder für Discourse als Angebot nicht umsetzbar sind. Wenn ich sie immer wieder ansprechen würde, könnte das nervig sein und ich könnte mich moderiert wiederfinden.

Vielleicht haben Sie das Gefühl, dass man Ihnen nicht zuhört. Aber ich denke, was in diesem Thread wirklich passiert, ist, dass die anderen in diesem Thread glauben, dass Ihre Bedenken nicht umsetzbar sind, weder hier noch von ihnen. Vielleicht kann etwas getan werden, aber es kann nicht von Einzelpersonen hier getan werden. Vielleicht ist die Antwort eine Massenbewegung, eine Kampagne oder eine Revolution – aber ich denke, es ist fair, wenn die Moderatoren hier der Meinung sind, dass solche Dinge hier nicht zum Thema gehören.

3 „Gefällt mir“

Es ist passiert. Die Sache, die wir nicht ändern können. KI ist jetzt entfesselt und ist das Ereignis. Ich habe nie vorgeschlagen, dass wir die Zeit zurückdrehen könnten.

Die Mods dachten, sie würden dieses Thema verstehen, tun sie aber nicht, aber sie moderieren weiterhin meine Beiträge. Es langweilt mich, über die Moderation zu sprechen, anstatt über die Lösungen, aber sie machen es weiter oder andere Benutzer, vielleicht sehen sie den Wert nicht oder sind zu bequem.

Die Realität ist, dass seit meinen Interventionen, um dieses Thema auf einen lösungsorientierteren Fokus zu lenken, trotz der unbeholfenen Moderation, einige Ergebnisse erzielt wurden.

Sie denken vielleicht, dass Sie nichts tun können, aber wenn Sie es betrachten und erkennen, dass:
a) es ernst ist
b) es dringend ist
c) es Fokus erfordert

Ist das ein Anfang, und dass Sie die Kontrolle über Ihre Reaktion haben, aber nicht über das Ereignis, das passiert ist und nun in der Vergangenheit liegt und die Gegenwart täglich in absehbarer Zukunft beeinflusst.

Es gibt keine angebotene Lösung, außer grob Lösungen zu verwenden, die für andere Probleme abgeleitet wurden, und so bricht es den Vorschlag, denn das KI-Ereignis zwingt die Menschen, Positionen einzunehmen, die ihre gesamten Bemühungen bis zum Zeitpunkt des Ereignisses brechen.

Es ist sehr natürlich, nicht Teil von etwas sein zu wollen, das eine direkte Bedrohung darstellt und Ihre Inhalte in direkter Konkurrenz zu all Ihren Bemühungen bis zu diesem Zeitpunkt nutzt, um nur einige zu nennen, aber es hört dort nicht auf.

Ich werde das Ganze mit einer einfachen rhetorischen Frage zusammenfassen (Sie können argumentieren, ob sie rhetorisch ist oder nicht, aber Sie müssen KI anerkennen).

Warum sollte irgendjemand jetzt überhaupt in Erwägung ziehen, eine Instanz von Discourse (oder ähnlichem) einzusetzen?

Es gibt so viele Bedenken hinsichtlich dieses Problems, manchmal exemplifiziert ein Thema (OP) das gesamte Universum der Konsequenzen des Problems, und dies ist sicherlich eines davon. Es sollte nicht so eng werden, besonders wenn Discourse keine wirkliche Lösung anzubieten hat, dann ist das Thema von Natur aus weit offen oder es heißt “Entschuldigung, da es keine Lösung für dieses Thema gibt, ist das Thema jetzt geschlossen”, wählen Sie.

Öffnen oder schließen Sie es.

Verstehen wir das?

Das ist der Punkt. Wenn anerkannt wird, dass kein Wille besteht, das Problem anzugehen, dann tun Sie es, sonst bleibt dieses Thema bestehen und muss sehr breit sein, das ist das Ausmaß der Moderationsabschwächung, die für dieses Thema erforderlich ist, weil es Neuland ist.

Wenn es zufällig ein oder zwei Kontrollkästchen gäbe, die es in den Einstellungen beheben, gehen wir alle nach Hause, aber es gibt wirklich noch keine. Es mag einige Notlösungen geben, aber sie sind nicht im Bereich “GELÖST”, da sind sich wahrscheinlich alle einig.

Da keine Lösungen direkt als Reaktion auf die Bedenken des OP und das Problem KI und wie ein Administrator damit umgehen muss, entwickelt wurden, stehen meine Punkte.

Wenn es welche gibt, weisen Sie bitte darauf hin, posten Sie sie hier oder die in Entwicklung befindliche Lösung oder was auch immer. Verstehen wir das?

Darin liegt eine Verantwortung, die eines Entwicklers, eines Benutzers und die bestehende Beziehung, die alles zum Funktionieren bringt. Also diskutieren wir es. Immer und immer wieder, wenn es nötig ist.

Was ich sehe, ist eine Null-Anerkennung dafür, wie dies bricht, bis zu den letzten paar Beiträgen seit dem OP im Mai begann, und diese habe ich gefeiert, wurde aber dafür moderiert. Das ist ein Witz. KI bricht tatsächlich das Netz, wieder, warum sich die Mühe machen, eine Discourse- oder ähnliche Plattform einzurichten? Wenn wir nicht ernsthaft, ehrlich und robust darüber diskutieren können, was den Anforderungen des Themas entspricht, dann haben Sie Ihre Antwort.

Der Markt bewegt sich, all das Geld, die Blicke und die Manie fließen in die Taschen von OpenAI & Co. Ich sehe Entwickler überall hier wie überall sonst, die sich dafür entscheiden, KI vollständig zu übernehmen und zu integrieren, ohne jegliche Überlegung, NULL!

Deshalb bleibt ein solcher OP-Thema verengt und frustrierend. Brechen Sie Ihr Discourse ist die einzige sichere Lösung. Was keine Lösung ist. Es ist praktisch ein Game Over.

Meine Analogie dazu, wie auf KI von Entwicklern reagiert wird, rhetorisch: Fast alle scheinen damit beschäftigt zu sein, alle möglichen coolen Eimer zu bauen, um die Lava vom Vulkanausbruch zu sammeln (der Ausbruch ist das Ereignis), und die Reaktion, Eimer zu bauen, um Lava zu sammeln, die Lava ist ein Geschenk des Vulkan-Gottes, sie bringt Hitze und Licht, ja, aber sie verbrennt auch Dinge sehr schnell, und ohne den Eimer kann man das bisschen, das man hat, nicht kontrollieren, aber der Eimer verbirgt diese Tatsache, er scheint sicher, cool, ordentlich, vorerst.

Nein. Das wäre nicht richtig. Ich habe dargelegt, warum die Moderatoren falsch lagen und wie es weitaus ernster ist, als sie es zulassen, und dies könnte eher enttäuschend symptomatisch für die Top-Down-Position der Beziehung zwischen Discourse und KI sein… es fühlt sich an, als ob es entweder egal ist oder Achselzucken, aber Gefühle können falsch sein, also beweisen Sie mir das mit Fakten.

Einige Leute haben meine Punkte verstanden, oder sie haben sich zumindest den OP genauer angesehen, haben einige bessere Beiträge geleistet, wofür ich dankbar bin, da sie mich auf einige potenzielle Wege zu einer sehr groben Mehrpunktlösung geführt haben, die noch in Arbeit ist und einige Anerkennung durch Entwickler erfordern würde, um besser auf die von KI aufgeworfenen Anforderungen abzustimmen, um sie als praktikable Live-, aber immer noch Notfallmaßnahme besser zu machen.

Es war ein hartes Jahrzehnt oder so für Online-Foren, von Traffic- bis zu Umsatzrückgängen. Die Auswirkungen dieses Ereignisses brechen diese Diagramme des Entsetzens und für viele Betreiber können sie nichts weniger als ein endgültiges Verhängnis bedeuten und sie werden einfach den Laden schließen.

Ich möchte Diskussionen zu bestimmten Themen führen, deshalb betreibe ich Foren, in denen sich Leute treffen und diese Themen diskutieren können. Ich habe mich für Discourse entschieden, aber meiner Meinung nach hätte jede andere Lösung im offenen Web die gleichen Risiken und die gleichen Ergebnisse. Ich möchte, dass meine Diskussionen im offenen Web stattfinden und in den Suchergebnissen erscheinen.

Leute können und führen Interaktionen auf datenschutzbewussten Plattformen wie Telegram und Signal durch, aber das sind andere Arten von Angeboten, die aus anderen Gründen entwickelt wurden. Es ist möglich, dass der Discourse-Chat etwas von dem bietet, was Sie wollen – zufällig habe ich daran kein Interesse.

2 „Gefällt mir“