Discourse AI a l’air incroyable et j’ai très hâte de le configurer sur mon instance auto-hébergée !
Une question que j’ai (ou peut-être une demande de fonctionnalité) concernant le bot d’assistance et les embeddings est : puis-je choisir les sujets utilisés pour la génération augmentée par récupération (RAG) ? Par exemple, ce serait formidable si je pouvais configurer le plugin pour calculer les embeddings uniquement pour les sujets de mes catégories de documentation officielle. Je crains que si le bot crée une base de données vectorielle en utilisant tout sur notre forum, le résultat ne sera pas assez bon. Il serait également intéressant de le configurer pour calculer les embeddings uniquement pour les sujets avec des balises spécifiques ou les sujets résolus. Je suis curieux des détails concernant le flux de travail RAG. Discourse AI a-t-il un flux de travail RAG ? Aurons-nous la possibilité de contrôler quels documents sont ajoutés à la base de données vectorielle ? Si nous avons déjà une collection d’embeddings, pouvons-nous configurer Discourse AI pour les utiliser lors de l’appel de l’assistant ou de la recherche sémantique ?
J’ai vu cela brièvement mentionné ici, mais j’aimerais en savoir plus !
La demande de fonctionnalité ici est donc de vous permettre de spécifier des paramètres supplémentaires pour les différentes commandes que vous ajoutez. J’aime beaucoup ça, il faut juste réfléchir à l’interface utilisateur et aux structures de données.
Pour autant que je sache, le plugin Discourse AI ne construit qu’une base de données vectorielle en utilisant tous les messages du forum, mais cette approche sera affinée pour permettre aux utilisateurs de spécifier quels documents doivent être inclus. Cela permettra un contrôle plus granulaire sur les données d’entraînement et améliorera la qualité des réponses générées.
De plus, la possibilité d’incorporer des embeddings pré-calculés est encore à l’étude…