GPT und andere LLM-Lösungen benötigen Trainingsdatensätze. Wie können wir verhindern, dass Inhalte aus unseren Communities zum Trainieren solcher Modelle verwendet werden? Sollten wir etwas in unsere Nutzungsbedingungen aufnehmen?
Ich dachte darüber nach, nachdem ich gelesen hatte, dass Reddit einige Änderungen vornehmen wird, um zu verhindern, dass Modelle ohne Bezahlung auf ihren Daten trainiert werden:
Wird es wirklich eine Rolle spielen, wenn es 10 verschiedene Anbieter zu Selbstkostenpreisen gibt?
Aus den gesammelten Werken der Menschheit zu lernen, scheint fair genug zu sein: Das tun Menschen die ganze Zeit, warum also nicht Maschinen?
Verlangt Reddit von Menschen Geld für die Dinge, die sie auf Reddit lernen?
Das riecht irgendwie nach Profithascherei von Reddit.
Und fangen wir gar nicht erst damit an, dass alle Inhalte auf Reddit von den Nutzern kostenlos zur Verfügung gestellt wurden. Warum sollte Reddit seinen Nutzern also kein Geld zahlen?
Das scheint eher so zu sein: „Wenn ich ein Buch lesen kann, das ich aus der Bibliothek bekomme, warum kann ich es nicht kopieren und an andere Leute verkaufen?“ als „Wenn ich aus einem Buch lernen kann, kann das ein Computer nicht auch?“ Vielleicht bin ich alt, aber ich bin noch nicht bereit zu glauben, dass eine Reihe von Computern, die ein Programm ausführen, dasselbe ist wie eine Person.
Aber ich denke auch, dass es bereits Vorkehrungen gibt, um ein massenhaftes Scraping zu verhindern. Oder vielleicht sind Indexierungsseiten für Suchmaschinen Scraping.
Nun, es ist in der menschlichen Welt nicht allgemein anerkannt, dass jemand in die Häuser und Arbeitsplätze anderer eindringt, alles kopiert und dann alles zu eigenen Vorteilen neu erschafft, um Geld zu verdienen.
Das ist keine einfache Frage. Es gibt wirklich große moralische, ethische und finanzielle Fragen, die sich auf zwei zusammenfassen lassen: Sind Urheberrechte und Patente akzeptables virtuelles Eigentum oder nicht.
Für mich ist das allerdings ein ziemlich einfaches Problem. Vielleicht, weil ich ein so kleiner und im Grunde einfach gestrickter Fisch bin. Sobald ich für das Geschäft von jemandem bezahlen muss, der es mir zurückverkaufen will, bin ich dagegen. Deshalb hasse ich jeglichen Bot-Verkehr so sehr.
Nochmal: Die KI-Frage ist viel größer als ChatGPT. Und das weiß und verstehe ich. Aber warum sollte ich bezahlen, wenn es Sprachmodellen beigebracht wird?
Weithin bekannter Fun Fact über ChatGPT
In der finnischen Welt bin ich ein wirklich großer Influencer, wenn es um die Fütterung von Hunden geht. Das mache ich schon seit über 30 Jahren und habe viele öffentliche Texte erstellt. Tatsächlich ist meine Seite die größte informative Seite (und ich würde sagen, die wichtigste ) auf Finnisch.
Wenn ich auf Englisch etwas über Hundeernährung frage, gibt mir ChatGPT alte und weithin ungenaue BARF-Theorien. Wenn ich dieselbe Frage auf Finnisch stelle, bekomme ich meine eigenen Texte.
Das passiert, weil die Lernweise von ChatGPT dem Denken folgt: Eine Million Fliegen können nicht irren.
Niemand verlangt von jemandem Geld dafür, ein Buch über Kommunismus in einer Bibliothek zu lesen und dann in einer politischen Talkshow für Kommunismus einzutreten.
Die Bots lernen Muster auf ähnliche Weise, wie wir es tun.
Außerdem, wie würden Sie vor Gericht wissen, ob es das getan hat oder nicht, ohne den Lernprozess überwacht zu haben?
Im Urheberrecht ist es sicherlich einfach zu beweisen, ob jemand Ihre Arbeit kopiert hat, aber hier wird weder kopiert noch ist es einfach zu beweisen, dass Sie Zugang hatten.
Ist auf Reddit überhaupt noch etwas wirklich neu?!?
Entschuldigung, aber das glaube ich nicht. KI erinnert sich an Muster und stellt einige Beziehungen her, aber sie kann nicht intuitiv sein, fühlen oder wirklich erschaffen.
KI denkt nicht auf die richtige Weise wie Menschen und registriert keine Zeit, Gefühle und Leben.
Übrigens stimme ich dem Rest Ihres Standpunkts zu. Zusammenarbeit plus das Finden und Teilen von Anwendungsfällen ist gut für alle (zumindest um nicht verdrängt zu werden, was für Menschen, die nicht lernen, wie man fühlt, intuitiv ist oder erschafft, unvermeidlich zu sein scheint).
Die Gesamtsituation erinnert mich an die industrielle „Revolution“ und einige dystopische Filme
Ich werde dir widersprechen, weil du meinen Punkt verfehlst.
Meine Verwendung des Begriffs „ähnlich“ war gerechtfertigt, da sie Wege entwickeln, Dinge anhand von Merkmalen zu identifizieren, genau wie Menschen, im Gegensatz zum wortwörtlichen Kopieren der Daten und deren Speicherung: Es ist diese Unterscheidung, auf die ich hinweise, und das ist eine entscheidende Unterscheidung, sowohl logisch als auch potenziell rechtlich.
Gefühle und Emotionen sind für die Diskussion hier irrelevant: Das Thema ist die Speicherung und Reproduktion von Wissen. Und zu diesem Thema verwendet KI mit ziemlicher Sicherheit ähnliche Techniken wie das menschliche Gehirn, um sich selbst zu trainieren und dann dieses Modell zu nutzen.
Und so wurden die Dinge in diesem Bereich entwickelt: Sie schufen Modelle, die eine Annäherung daran waren, wie neuronale Netze in unseren Gehirnen zu funktionieren schienen, und skalierten sie dann hoch. Und siehe da: Sie begann sich sehr menschlich zu verhalten – mehr als jedes natürliche Sprachmodell jemals zuvor. Das beweist meinen Punkt.
Sie argumentieren, dass ein Rolls Royce ein besseres Auto ist, aber es ist immer noch ein Auto.
KI hat inzwischen den Punkt erreicht, an dem sie sich sehr menschlich verhält. Sehr ausgefeiltes Verhalten tritt auf, aber das ist kein Zufall, denn Wissenschaftler haben versucht, die Techniken des menschlichen Lernens zu kopieren.
Natürlich gibt es noch andere Ebenen zu berücksichtigen, und Emotionen sind nur eine davon (eine weitere riesige ist das Konzept des „Egos“ und die Bedeutung menschenähnlicher sensorischer Informationen, sogar vestibulärer, die für die Wahrnehmung des „Egos“ entscheidend sind), aber das ändert nichts an der Argumentation hier meiner bescheidenen Meinung nach.
Nein, ich habe nur gesagt, dass KI nicht wie Menschen lernen kann (handeln wie ist nicht lernen wie). Das ist bei weitem nicht möglich und ich denke, es ist wichtig, das zu bedenken.
Dann stimme ich zu, dass öffentliche Daten öffentlich sind. Und für mich ist es super in Ordnung, Unterschiede zu haben, das macht uns menschlich (und nicht KI)
Die Fortschritte, die wir in diesem Bereich gemacht haben, sind mit ziemlicher Sicherheit darauf zurückzuführen, dass die KI (mehr) wie Menschen lernt.
Ich habe nie behauptet, dass es nicht viel (!) mehr gäbe?
Ich mache nur eine zentrale Unterscheidung:
Und zwar, dass die KI aus Merkmalen lernt (wie wir es tun) und nicht exakte Informationen kopiert. Sie lernt zu verallgemeinern und sich nicht auf vollständige Details zu verlassen, um Unterscheidungen zu treffen.
Deshalb muss sie keine vollständigen Werke in hoher Auflösung, Wort für Wort, speichern.
Zweifellos gibt es viele andere Lerntechniken, die noch nicht integriert wurden, aber diese Technik wurde sehr wohl integriert.
Ich denke, moralisch und technisch ist es gerechtfertigt.
Ich finde es sogar abscheulich, dass Jazzsongs aus den 1930er Jahren urheberrechtlich geschützt sind, wenn man argumentieren könnte, dass viele Merkmale von Musik inhärente menschliche Phänomene sind, die niemand besitzen sollte: Nehmen Sie das Beispiel des „Quintenzirkels“ – dies ist eine implizite Struktur in der Musik, die viele Songs bildet, von einfachen 3-Akkord-Rocksongs der 50er Jahre bis hin zu hochkomplexen Jazzstücken.
Und wie ich bereits angedeutet habe, geht es hier nicht darum, urheberrechtlich geschütztes Material wortwörtlich zu speichern und wiederzugeben.
Es ist lächerlich, KI die Nutzung von Musikmerkmalen wie dem Quintenzirkel zu verbieten, nur weil die meisten Musik urheberrechtlich geschützt ist!
Man könnte argumentieren, dass die Autoren dieser Musik stark von der menschlichen Verfassung profitiert haben und bereits gut verdient haben. Warum ein Urenkel Geld für das Werk seines Vorfahren verdienen sollte, das selbst auf Allgemeinwissen basiert, ist mir ein Rätsel.
Ich bin mir da nicht sicher, aber ich glaube nicht, dass Crawler auf Inhalte zugreifen können, wenn eine Website nicht öffentlich sichtbar ist. Wenn das also eine Option für Sie ist, ist das wahrscheinlich der effektivste Weg.
Das ist überhaupt nicht der Fall. Diese Werkzeuge sind in gewisser Weise von biologischen neuronalen Konzepten inspiriert, aber in der tatsächlichen Implementierung sind sie funktional nicht ähnlich. Das mag wie eine Kleinigkeit klingen, aber ich halte es für sehr wichtig, weil das Argument philosophisch überzeugend erscheint. Analogien können auf diese Weise sehr gefährlich sein.
Hier sind einige spezifische Wege, wie neuronale Netze in der Informatik nicht „Muster auf ähnliche Weise lernen, wie wir es tun“.
Unsere Neuronen sind lokal und mehrdimensional verbunden, mit einigen dichten Clustern und anderen weniger verbundenen; neuronale Netze sind typischerweise in Schichten angeordnet, wobei jede Schicht entweder vollständig verbunden ist oder eine absichtlich entworfene „konvolutionale“ Schicht darstellt.
Biologische Gehirne arbeiten asynchron, wobei Neuronen mit unterschiedlichen Raten feuern und die Frequenz selbst Informationen trägt. Neuronale Netze sind im Grunde genommen massiv parallele Operationen. (Deshalb sind sie so gut für GPGPU-Computing geeignet.)
Neuronen sind sowohl für die Berechnung als auch für die Speicherung verantwortlich. Es gibt keine separate Speicherung oder Abfrage oder Funktionsausführung. Allein dies macht ein sehr anderes Arten von Verarbeitungssystem aus.
Seltsamerweise: Die Gehirnkommunikation ist binärer als das, was wir mit Computern machen: Ein Neuron feuert oder feuert nicht, während ein „künstliches Neuron“ normalerweise Bereiche kontinuierlicher Werte (als Gleitkommazahlen dargestellt) eingibt und ausgibt. (Auch hier wird nicht auf eine Weise verarbeitet, die der Funktionsweise unseres Gehirns ähnelt.)
Das Lernen funktioniert anders: Beim menschlichen Lernen ändern sich tatsächlich die Verbindungen. (Das verstehen wir nicht sehr gut.) In einem neuronalen Netz wird die Architektur gewählt und festgelegt, und das „Lernen“ besteht darin, Gewichte anzupassen. (Ironischerweise verstehen wir auch das nicht wirklich gut.)
Insbesondere lernt sie sicherlich nicht zu verallgemeinern. Stattdessen ist sie geschaffen worden, damit sie die Fähigkeit hat, Antworten zu produzieren, die den Anschein von Verallgemeinerung erwecken.
Aber sie kann überhaupt nicht verallgemeinern.
Eine interessante Übung mit ChatGPT ist, sie nach Multiplikation zu fragen. Sie wird ernsthaft behaupten, den Algorithmus für die schriftliche Multiplikation zu verstehen. Tatsächlich wird sie, wenn Sie sie bitten, zwei- oder dreistellige Zahlen zu multiplizieren, wahrscheinlich (aber nicht tatsächlich sicher!) die richtige Antwort geben. Aber versuchen Sie dann fünf- oder sechsstellige Zahlen. Sie wird Antworten geben, die wie die richtige Anzahl von Ziffern aussehen, aber nicht tatsächlich richtig sind.
Wenn Sie sie bitten, es zu erklären, wird sie sagen, dass sie einen Algorithmus befolgt hat, und wenn Sie sie bitten, ihre Arbeit zu zeigen, wird sie das tun, und es wird Unsinn sein, der wie die richtige Antwort geformt ist. Sie werden wahrscheinlich sogar in den Schritten völlig falsche einstellige Multiplikationen finden. Sie “weiß” nicht wirklich, dass diese Schritte dasselbe sind wie die einstellige Multiplikation, die sie gerade vor ein paar Minuten zuversichtlich durchgeführt hat, weil sie nichts davon tatsächlich verallgemeinert hat.
Und Mathematik ist hier nichts Besonderes. Sie ist nur ein einfacher Weg, den Vorhang ein wenig zurückzuziehen. Dasselbe grundlegende Problem tritt auf, wenn man versucht, sie ein Gedicht schreiben zu lassen.
Verstehen Sie mich nicht falsch! Ich denke, wir können auch mit der heutigen KI erstaunliche Dinge tun. Aber lassen Sie uns unsere Richtlinien bitte nicht auf Analogien stützen.