Kann ein KI-Bot mit Gemeinschaftsdaten trainiert werden

DjangoElBongo · 5. Februar 2024 um 09:49

Ist es möglich, den Bot mit meinen Community-Daten zu trainieren, wenn ich möchte?

anon36555649 · 5. Februar 2024 um 18:09

Dafür bräuchten Sie zuerst die Erlaubnis aller Community-Mitglieder, dass ihre Texte verwendet werden dürfen, sonst würden Sie ein Haftungsrisiko eingehen, da einige Unternehmen wie Microsoft verklagt werden, weil sie genau das ohne Erlaubnis getan haben.

sam · 5. Februar 2024 um 22:25

Im Allgemeinen versuchen Forenbetreiber, eine sehr liberale Lizenz für Benutzerinhalte zu erhalten. Ich bin kein Anwalt, aber das ist eine völlig andere Liga im Vergleich zum „Crawling von Informationen im Internet und Training darauf“.

Unabhängig davon gibt es hier erhebliche Herausforderungen:

Fine-Tuning ist nur für 3.5-Modelle (innerhalb des OpenAI-Ökosystems) verfügbar.
Wenn Sie Fine-Tuning durchführen, wird das Modell pro Aufruf erheblich teurer.
Fine-Tuning, um einen echten Mehrwert zu erzielen, ist extrem schwierig und würde einen enormen Aufwand bei der Kuratierung erfordern. Mein Bauchgefühl ist, dass es nicht annähernd an die RAG^[1]-Leistung herankommen würde.

Daher ist es zwar möglich, aber nicht empfehlenswert.

(GPT-4) „RAG“ steht in diesem Zusammenhang für Retrieval Augmented Generation. Es ist eine Technik, die häufig im maschinellen Lernen verwendet wird, genauer gesagt beim Training von KI-Modellen wie Chatbots.
RAG kombiniert die Vorteile von abruf-basierten Modellen und generativen Modellen. Mit anderen Worten, es verwendet eine Datenbank mit bereits vorhandenen Antworten (Abruf) und verbessert diese mit der Fähigkeit, neue Antworten von Grund auf zu generieren. Diese Kombination führt normalerweise zu einer verbesserten Leistung, da das System genaue Fakten aus seiner Bibliothek abrufen und sie in neuen, kohärenten Sätzen formulieren kann.
Im Gespräch schlägt der Benutzer vor, dass das Fine-Tuning eines KI-Modells auf einen bestimmten Satz von Community-Daten möglicherweise nicht das gleiche Leistungsniveau wie die Verwendung eines Retrieval Augmented Generation-Modells erreicht, was impliziert, dass das RAG-Modell effizienter ist und zu qualitativ hochwertigeren Antworten führt. ↩︎

bigfudge · 28. Februar 2024 um 09:10

Fine-Tuning ist keine effektive Methode, um neue Inhalte zu einem Modell hinzuzufügen. Es ist nützlich, um Modelle zu trainieren, Ausgaben in verschiedenen Formaten zu erzeugen oder die Leistung bei bestimmten Aufgaben zu verbessern (z. B. Kategorisierung, Inhaltsextraktion), aber es ist nicht möglich, Inhalte hinzuzufügen.

Am besten stellen Sie sich das so vor: Sie können Fine-Tuning verwenden, um einem Modell neue Tricks beizubringen, aber keine neuen Fakten. Wenn Sie Halluzinationen reduzieren oder neue Inhalte einführen möchten, ist RAG der richtige Weg.

luis_villanueva · 19. März 2024 um 03:43

Die Frage wurde noch niemandem beantwortet. Unter der Annahme, dass Sie die Rechte zur Nutzung der Community-Daten haben, wie würden Sie einen KI-Bot damit trainieren?

sam · 19. März 2024 um 04:26

Definiere, was du mit “train” meinst?

Ein bestimmtes Modell (gpt 3.5 oder llama) feinabstimmen und dann ein benutzerdefiniertes Modell hosten

Oder meinst du, dass der Bot Inhalte im Forum kennt?

Wenn du nur Kenntnis möchtest, dann ist das bereits jetzt verfügbar

Wenn du ein feinabgestimmtes Modell möchtest, musst du ein KI-Team einstellen

sam · 19. März 2024 um 04:34

AI Conversation with Claude-3-opus

AI Training on Community Data: Discourse Meta

sam: Regarding First read the topic, next search for related topics, finally provide an insightful and helpful reply referencing stuff on meta

ForumHelperBot: Here are some relevant topics I found that discuss training AI chatbots on Discourse community data: Advice on a support bot for a technical support forum (Discourse AI vs Discourse Chatbot) - This topic discusses the goals and approaches for training an AI bot to assist with technical support on a Discourse forum, including learning from the historical discussions. Training a model on a site…

sam: Bro is this not what your are doing here?

ForumHelperBot: You’re right, I misspoke earlier. There are some topics that indicate the Discourse AI Bot can be trained on community specific data: Training a model on a site’s posts? - The OP suggests training an expert AI user bot on all the posts in their forum. Sam from the Discourse team replied that while training models is very expensive, the industry is pushing hard on growing token context and using …

...

Read full transcript

Jagster · 19. März 2024 um 08:08

Wie groß war der Anteil der Antwort an

einem Beispiel für Halluzinationen
KI/Modellabhängigkeit (sehr teuer, selbst gehostet ist ganz anders als nur ein teures OpenAI-Modell)

markschmucker · 4. Dezember 2024 um 13:48

Kann ich dem KI-Bot sagen, dass er zusätzlich zum gesamten Forum eine bestimmte Datenquelle für RAG verwenden soll? Ich habe eine flache Datenbank (ich könnte sie als CSV erstellen), die ein guter Ausgangspunkt für viele Fragen des KI-Bots wäre, und er könnte dann bei Bedarf den Rest des Forums RAGgen. Ich möchte die CSV-Datei jedoch nicht im Forum veröffentlichen.

pfaffman · 4. Dezember 2024 um 15:04

Vielleicht könnten Sie die CSV-Daten an einem Ort ablegen, den die KI sehen kann, die regulären Benutzer jedoch nicht. (Dies könnte unmöglich oder eine schreckliche Idee sein, aber es könnte funktionieren).

Falco · 4. Dezember 2024 um 15:37

Ja, Sie können die Datei direkt in eine Persona hochladen.

markschmucker · 5. Dezember 2024 um 21:55

Das klingt perfekt, aber ich sehe nicht, wie ich in eine Persona hochladen kann. Oder sollte ich einen Link zur Datei in die Systemaufforderung der Persona einfügen?

Falco · 5. Dezember 2024 um 21:57

Wenn Sie zu Admin > Plugins > KI > Personas > Neue Persona navigieren, finden Sie Uploads ganz am Ende:

Abhängig von der Menge der Daten in Ihrer CSV-Datei können Sie diese auch direkt in die Systemaufforderung einfügen.

markschmucker · 6. Dezember 2024 um 10:14

Ich habe diese Option nicht. 3.4.0.beta3-dev.

joo · 6. Dezember 2024 um 10:29

Ich benutze derzeit die neueste Version und sehe diese Option auch nicht.

sam · 6. Dezember 2024 um 20:23

Ist das Einbetten konfiguriert?

sam · 7. Dezember 2024 um 00:52

2 Beiträge wurden in ein neues Thema aufgeteilt: Gemini Embeddings funktionieren nicht

Thema		Antworten	Aufrufe
How to prevent community content from being used to train LLMs like ChatGPT? Community Building	69	4973	16. Juli 2023
RAG capacities of discourse-ai Support ai	6	490	19. September 2024
Training a model on a site's posts? Feature ai , ai-bot	2	329	9. September 2024
Integrating GPT3-like bots? Development	61	4999	10. Mai 2023
Advice on a support bot for a technical support forum (Discourse AI vs Discourse Chatbot) General ai , ai-bot	57	4587	29. April 2026

Kann ein KI-Bot mit Gemeinschaftsdaten trainiert werden

Verwandte Themen