Un bot IA peut-il être entraîné avec les données de la communauté

Est-il possible d’entraîner le bot sur les données de ma communauté, si je le souhaite ?

1 « J'aime »

Pour cela, il faudrait d’abord obtenir l’autorisation de tous les membres de la communauté pour que leurs écrits soient utilisés à cette fin, sinon vous prendriez un risque de responsabilité, car certaines entreprises comme Microsoft sont poursuivies en justice pour avoir fait exactement cela sans permission.

1 « J'aime »

En général, les propriétaires de forums tentent d’obtenir une licence très libérale sur le contenu des utilisateurs. Je ne suis pas avocat, mais c’est une tout autre affaire par rapport à « l’exploration d’informations sur Internet et l’entraînement sur celles-ci ».

Quoi qu’il en soit, voici des défis importants :

  1. Le réglage fin n’est disponible que sur les modèles 3.5 (dans l’écosystème OpenAI).
  2. Si vous effectuez un réglage fin, le modèle devient considérablement plus cher par appel.
  3. Le réglage fin pour obtenir une réelle valeur est extrêmement difficile et nécessiterait un effort colossal de curation. Mon intuition est que cela ne s’approcherait pas des performances du RAG[^1].

Donc, bien que ce soit possible, ce n’est pas recommandé.

[^1] : (GPT-4) « RAG » dans ce contexte signifie Retrieval Augmented Generation (Génération Augmentée par Récupération). C’est une technique souvent utilisée en apprentissage automatique, plus spécifiquement dans l’entraînement de modèles d’IA tels que les chatbots.
Le RAG combine les avantages des modèles basés sur la récupération et des modèles génératifs. En d’autres termes, il utilise une base de données de réponses préexistantes (récupération) et les améliore avec la capacité de générer de nouvelles réponses à partir de zéro. Cette combinaison se traduit généralement par des performances améliorées, car le système peut extraire des faits précis de sa bibliothèque et les articuler dans des phrases nouvelles et cohérentes.
Dans la conversation, l’utilisateur suggère que le réglage fin d’un modèle d’IA sur un ensemble spécifique de données communautaires pourrait ne pas atteindre le même niveau de performance qu’un modèle de Génération Augmentée par Récupération, impliquant que le modèle RAG est plus efficace et produit des réponses de meilleure qualité.

8 « J'aime »

Le réglage fin n’est pas un moyen efficace d’ajouter du nouveau contenu à un modèle. Il est utile pour entraîner des modèles à produire des sorties dans différents formats, ou à obtenir de meilleures performances dans des tâches spécifiques (par exemple, catégorisation, extraction de contenu), mais il n’est pas possible d’ajouter du contenu.

La meilleure façon d’y penser est que vous pouvez affiner pour enseigner de nouveaux tours à un modèle, mais pas de nouveaux faits. Si vous souhaitez réduire les hallucinations ou introduire du nouveau contenu, alors RAG est la solution.

1 « J'aime »

Personne n’a réellement répondu à la question. En supposant que vous ayez les droits d’utiliser les données de la communauté, comment entraîneriez-vous un bot IA avec celles-ci ?

Définissez ce que vous entendez par entraîner ?

Affiner un modèle spécifique (gpt 3.5 ou llama) puis héberger un modèle personnalisé

Ou voulez-vous que le bot soit conscient du contenu du forum ?

Si vous voulez juste de la sensibilisation, alors cela est déjà disponible maintenant

Si vous voulez un modèle affiné, vous devez embaucher une équipe d’IA

3 « J'aime »
3 « J'aime »

Quelle part de la réponse était :

  • un exemple d’hallucination
  • dépendante de l’IA/du modèle (un auto-hébergement très coûteux est très différent d’un simple modèle OpenAI coûteux)

Puis-je dire à un bot IA d’utiliser une source de données spécifique pour le RAG, en plus de l’ensemble du forum ? J’ai une base de données plate (je pourrais en faire un csv) qui serait un bon point de départ pour de nombreuses questions du bot IA, puis il pourrait utiliser le reste du forum au besoin. Je ne veux cependant pas publier le csv sur le forum.

1 « J'aime »

Peut-être pourriez-vous placer les données CSV dans un endroit que l’IA pourrait voir, mais que les utilisateurs réguliers ne pourraient pas. (Cela pourrait être impossible ou une très mauvaise idée, mais cela pourrait fonctionner).

Oui, vous pouvez télécharger le fichier directement sur une persona.

3 « J'aime »

Cela semble parfait, mais je ne vois pas comment télécharger sur un persona. Ou dois-je mettre un lien vers le fichier dans l’invite système du persona ?

Lorsque vous accédez à Admin > Plugins > IA > Personas > Nouvelle persona, vous trouverez les téléchargements tout à la fin :

De plus, en fonction de la quantité de données que vous avez en CSV, vous pouvez également les coller directement dans l’invite système.

2 « J'aime »

Je n’ai pas cette option. 3.4.0.beta3-dev.

J’utilise actuellement la dernière version et je ne vois pas cette option non plus.

L’intégration est-elle configurée ?

2 « J'aime »

2 messages ont été déplacées vers un nouveau sujet : Les intégrations Gemini ne fonctionnent pas