Kann ein KI-Bot mit Gemeinschaftsdaten trainiert werden

Ist es möglich, den Bot mit meinen Community-Daten zu trainieren, wenn ich möchte?

1 „Gefällt mir“

Dafür bräuchten Sie zuerst die Erlaubnis aller Community-Mitglieder, dass ihre Texte verwendet werden dürfen, sonst würden Sie ein Haftungsrisiko eingehen, da einige Unternehmen wie Microsoft verklagt werden, weil sie genau das ohne Erlaubnis getan haben.

1 „Gefällt mir“

Im Allgemeinen versuchen Forenbetreiber, eine sehr liberale Lizenz für Benutzerinhalte zu erhalten. Ich bin kein Anwalt, aber das ist eine völlig andere Liga im Vergleich zum „Crawling von Informationen im Internet und Training darauf“.

Unabhängig davon gibt es hier erhebliche Herausforderungen:

  1. Fine-Tuning ist nur für 3.5-Modelle (innerhalb des OpenAI-Ökosystems) verfügbar.
  2. Wenn Sie Fine-Tuning durchführen, wird das Modell pro Aufruf erheblich teurer.
  3. Fine-Tuning, um einen echten Mehrwert zu erzielen, ist extrem schwierig und würde einen enormen Aufwand bei der Kuratierung erfordern. Mein Bauchgefühl ist, dass es nicht annähernd an die RAG[1]-Leistung herankommen würde.

Daher ist es zwar möglich, aber nicht empfehlenswert.


  1. (GPT-4) „RAG“ steht in diesem Zusammenhang für Retrieval Augmented Generation. Es ist eine Technik, die häufig im maschinellen Lernen verwendet wird, genauer gesagt beim Training von KI-Modellen wie Chatbots.
    RAG kombiniert die Vorteile von abruf-basierten Modellen und generativen Modellen. Mit anderen Worten, es verwendet eine Datenbank mit bereits vorhandenen Antworten (Abruf) und verbessert diese mit der Fähigkeit, neue Antworten von Grund auf zu generieren. Diese Kombination führt normalerweise zu einer verbesserten Leistung, da das System genaue Fakten aus seiner Bibliothek abrufen und sie in neuen, kohärenten Sätzen formulieren kann.
    Im Gespräch schlägt der Benutzer vor, dass das Fine-Tuning eines KI-Modells auf einen bestimmten Satz von Community-Daten möglicherweise nicht das gleiche Leistungsniveau wie die Verwendung eines Retrieval Augmented Generation-Modells erreicht, was impliziert, dass das RAG-Modell effizienter ist und zu qualitativ hochwertigeren Antworten führt. ↩︎

8 „Gefällt mir“

Fine-Tuning ist keine effektive Methode, um neue Inhalte zu einem Modell hinzuzufügen. Es ist nützlich, um Modelle zu trainieren, Ausgaben in verschiedenen Formaten zu erzeugen oder die Leistung bei bestimmten Aufgaben zu verbessern (z. B. Kategorisierung, Inhaltsextraktion), aber es ist nicht möglich, Inhalte hinzuzufügen.

Am besten stellen Sie sich das so vor: Sie können Fine-Tuning verwenden, um einem Modell neue Tricks beizubringen, aber keine neuen Fakten. Wenn Sie Halluzinationen reduzieren oder neue Inhalte einführen möchten, ist RAG der richtige Weg.

1 „Gefällt mir“

Die Frage wurde noch niemandem beantwortet. Unter der Annahme, dass Sie die Rechte zur Nutzung der Community-Daten haben, wie würden Sie einen KI-Bot damit trainieren?

Definiere, was du mit “train” meinst?

Ein bestimmtes Modell (gpt 3.5 oder llama) feinabstimmen und dann ein benutzerdefiniertes Modell hosten

Oder meinst du, dass der Bot Inhalte im Forum kennt?

Wenn du nur Kenntnis möchtest, dann ist das bereits jetzt verfügbar

Wenn du ein feinabgestimmtes Modell möchtest, musst du ein KI-Team einstellen

3 „Gefällt mir“
3 „Gefällt mir“

Wie groß war der Anteil der Antwort an

  • einem Beispiel für Halluzinationen
  • KI/Modellabhängigkeit (sehr teuer, selbst gehostet ist ganz anders als nur ein teures OpenAI-Modell)

Kann ich dem KI-Bot sagen, dass er zusätzlich zum gesamten Forum eine bestimmte Datenquelle für RAG verwenden soll? Ich habe eine flache Datenbank (ich könnte sie als CSV erstellen), die ein guter Ausgangspunkt für viele Fragen des KI-Bots wäre, und er könnte dann bei Bedarf den Rest des Forums RAGgen. Ich möchte die CSV-Datei jedoch nicht im Forum veröffentlichen.

1 „Gefällt mir“

Vielleicht könnten Sie die CSV-Daten an einem Ort ablegen, den die KI sehen kann, die regulären Benutzer jedoch nicht. (Dies könnte unmöglich oder eine schreckliche Idee sein, aber es könnte funktionieren).

Ja, Sie können die Datei direkt in eine Persona hochladen.

3 „Gefällt mir“

Das klingt perfekt, aber ich sehe nicht, wie ich in eine Persona hochladen kann. Oder sollte ich einen Link zur Datei in die Systemaufforderung der Persona einfügen?

Wenn Sie zu Admin > Plugins > KI > Personas > Neue Persona navigieren, finden Sie Uploads ganz am Ende:

Abhängig von der Menge der Daten in Ihrer CSV-Datei können Sie diese auch direkt in die Systemaufforderung einfügen.

2 „Gefällt mir“

Ich habe diese Option nicht. 3.4.0.beta3-dev.

Ich benutze derzeit die neueste Version und sehe diese Option auch nicht.

Ist das Einbetten konfiguriert?

2 „Gefällt mir“

2 Beiträge wurden in ein neues Thema aufgeteilt: Gemini Embeddings funktionieren nicht