Capacités RAG de discourse-ai

Cédric_Brunet · Septembre 17, 2024, 3:30

J’ai donc terminé la configuration de discourse-ai, je me demande quelles sont les capacités RAG de l’IA ?
Je vois qu’elle peut récupérer du contenu à partir des publications, mais je dois lui demander plusieurs fois avant qu’elle ne comprenne vraiment que l’information doit être trouvée à l’intérieur d’un sujet.
Les autres fonctionnalités fonctionnent bien !

sam · Septembre 18, 2024, 5:39

Une persona possède une section de téléchargement, vous pouvez télécharger plusieurs fichiers texte dans votre persona.

voir : AI bot - Personas

Vous devrez configurer l’intégration (embedding) pour que cela fonctionne.

Cédric_Brunet · Septembre 18, 2024, 2:22

Merci, j’ai vu cette section, c’est super, mais j’ai encore quelques questions.

Quelques éléments de contexte : nous utilisons Discourse comme base de connaissances et forum pour répondre aux questions techniques, nous y avons toute notre documentation.

Nous utiliserons la section de téléchargement du persona pour alimenter les données que nous ne mettons pas directement sur le forum, comme les données provenant de documents sur notre entreprise.

Maintenant, pour notre documentation technique qui se trouve sur le forum, nous aimerions pouvoir y poser des questions à l’aide d’une IA. D’après ce que j’ai compris, le chat discourse-AI n’est pas conçu pour cela et, tel que configuré dans les outils du persona, il ne fera qu’une recherche sur le forum, plus un traitement IA ?

Est-ce que la possibilité d’avoir un chatbot permettant des capacités RAG sur le forum lui-même, y compris sur le contenu des sujets, est prévue ?

sam · Septembre 19, 2024, 12:21

Ceci est entièrement pris en charge à 100 % aujourd’hui avec une myriade d’options d’implémentation.

L’outil de recherche peut être limité à un groupe de catégories ou de balises (lorsque vous créez une nouvelle persona et ajoutez l’outil de recherche)
Les outils personnalisés offrent une flexibilité supplémentaire ici, vous pouvez effectuer des requêtes http sur le même forum et consommer n’importe quoi du forum dans n’importe quel format que vous souhaitez… y compris des requêtes HTTP pour la recherche d’intégration… voir : API access to the embedding(s) for a post - #3 by sam. Lors de l’exécution de requêtes HTTP dans un outil personnalisé, vous pouvez spécifier des en-têtes HTTP afin de pouvoir utiliser une clé API que vous émettez sur le forum.
L’outil de lecture vous permet de lire des sujets
Cette PR en cours de développement vous permettra de rechercher vos téléchargements directement à partir d’un outil. (FEATURE: RAG search within tools by SamSaffron · Pull Request #802 · discourse/discourse-ai · GitHub) ce qui est encore une autre option.
Vous pouvez contrôler la modalité (MP vs Chat) selon votre préférence

Vous pouvez voir un exemple d’implémentation sur ask.discourse.com (qui a été conçu comme un bot de support pour nos clients) - le plus important est qu’il n’implique aucun plugin personnalisé, tout est fait en utilisant le plugin Discourse AI intégré.

Jagster · Septembre 19, 2024, 6:13

Avertissement : Je suis un utilisateur de facto et je ne comprends même pas comment fonctionnent réellement les IA. Et j’utilise OpenAI.

Il y a plusieurs raisons pour lesquelles l’IA ne donne pas la réponse souhaitée.

Le prompt dicte où et comment elle peut rechercher. Un mauvais terme et elle fera ce qu’elle veut.
L’IA n’est pas comme Google avec des stéroïdes et la capacité d’expliquer les choses, même si elle en a un peu l’air. Elle peut trouver les bonnes correspondances, et je veux dire aussi mal, que Google. Et elle ne lit et n’analyse pas tout, mais elle… pense que oui.
RAG et les embeddings fonctionnent, mais nécessitent un prompting extrêmement précis. Mais ceux-ci ne donnent qu’une direction, très souvent pas une base solide pour construire une réponse. Les embeddings seuls nécessitent beaucoup de travail manuel et très souvent les sujets, encore une fois en soi, ne suffisent pas. Un sujet ou un post (encore pire) peut être précis et logique, mais dans la vie réelle ? Non. C’est pourquoi ask.discourse.com échoue assez souvent, si la question n’est pas très limitée et ciblée. Comment autoriser uniquement des domaines d’e-mail spécifiques lors des inscriptions ? Boum, vous avez la réponse. Comment recevoir des notifications lorsqu’une boîte de messagerie privée de groupe a de nouveaux messages ? Beaucoup d’hallucinations et de mauvaises références.

L’idée la plus troublante selon OpenAI est que les mauvaises réponses sont acceptables. C’est une question de quantité et surtout du coût de ces réponses hallucinationnées et factuellement erronées pour une entreprise.

Très vrai pour les entreprises, mais vraiment mauvais pour l’utilisateur individuel.

Les IA peuvent être très précises. Tout ce qu’il faut, c’est beaucoup de main-d’œuvre pour coder et s’en occuper, et tellement de puissance de calcul que l’exploitation minière de bitcoins est un passe-temps bon marché.

Mon point faible est que le simple fait de déposer des manuels dans les sujets ne suffit pas.

sam · Septembre 19, 2024, 12:31

C’est une observation très importante : on n’a jamais vraiment fini avec ce type de systèmes.

On finit par répéter le processus de :

L’utilisateur pose une question à l’IA et obtient une mauvaise réponse
Nous examinons
Corrigeons la documentation, acceptons une réponse correcte et supprimons les mines antipersonnel de recherche
Posons la même question et obtenons une réponse correcte

Ce ne sont pas le genre de systèmes que l’on peut déployer et oublier ; ils nécessitent un réglage constant.

Notez que cela nous aide énormément si vous désapprouvez les mauvaises réponses.

Jagster · Septembre 19, 2024, 12:43

C’est très vrai. Et il y a une très grande possibilité que mes invites soient vraiment mauvaises.

Mais… les utilisateurs finaux utilisent ces bots et ils ne sont pas doués pour écrire des questions de haute qualité, guidant l’IA dans la bonne direction pour obtenir ce qui est nécessaire. Et alors la connaissance que j’ai acquise aujourd’hui, bien que fausse, mènera à une meilleure qualité à un moment donné, n’aide pas trop.

Je ne sais pas quel est mon propos, sauf que construire/entraîner/ajuster une IA qui a un taux de réussite supérieur à 80 % nécessite plus de travail et de contenu organisé que de simplement publier des sujets. Et ce travail coûte de l’argent (donc j’espère que votre entreprise se développera, car j’adore la relecture, même si cette fonctionnalité est massivement hors sujet maintenant).

Sujet		Réponses	Vues
Discourse AI and retrieval augmented generation Feature ai	3	861	Avril 29, 2024
Improving quality of search filters in Discourse AI Support ai	14	778	Juin 28, 2024
Why is my AI forum helper struggling to answer questions? Support ai , ai-bot	3	460	Septembre 15, 2025
Conversational AI Search coming to Discourse AI Feature ai , ai-search	18	1388	Juillet 9, 2026
Discourse AI Persona, upload support Announcements ai , ai-bot	20	1841	Septembre 11, 2025

Capacités RAG de discourse-ai

Sujets connexes