S'il vous plaît, ajoutez le support pour la recherche de fichiers pdf dans les sujets de forum depuis les personas IA - sans avoir à les télécharger séparément !

Limitation actuelle :
• La recherche sémantique du forum n’indexe que le texte des publications, pas les pièces jointes PDF
• Les fichiers PDF ne sont pas consultables via le basculement IA de /search
• Pour contourner cela, j’ai dû télécharger manuellement les PDF séparément dans le RAG de la persona

Solution proposée :
• Extraire le texte des pièces jointes PDF lors de la génération des intégrations (embeddings)
• Indexer le contenu des PDF à côté du texte des publications
• Rendre les sujets avec pièces jointes PDF découvrables via la recherche sémantique

Avantages :
• Les utilisateurs trouvent la documentation technique via la recherche sur le forum
• Pas besoin de dupliquer le contenu (publication sur le forum + téléchargement RAG)
• Meilleur référencement (SEO) (PDF joints aux sujets indexés)
• Architecture simplifiée (la commande de recherche fonctionne simplement)

Si vous deviez implémenter cela, je pourrais potentiellement :

  1. Supprimer les outils forcés (la recherche trouverait naturellement le contenu des PDF)
  2. Éliminer complètement les téléchargements RAG (tout serait dans les sujets du forum)
  3. Simplifier considérablement le système
1 « J'aime »

Il existe un sujet similaire concernant l’indexation des fichiers pour la ai-search ici : Index File Contents for Search

2 « J'aime »

Je pense qu’un plugin pourrait ajouter le texte à la publication cuite dans un élément de détails facultativement masqué. Cela l’ajouterait pour qu’il soit trouvé, je pense. Si vous êtes auto-hébergé, je pense que cela coûterait quelques centaines de dollars à développer. Ou, si cela semble les intéresser, soumis en tant que PR, pour environ deux fois plus cher (pour inclure les tests et autres).

Pour information, j’ai constaté que le téléchargement de fichiers PDF dans le persona empêchait la recherche assistée par IA de trouver le contenu normal du forum. J’ai donc eu recours à une combinaison de (a) convertir les fichiers clés en markdown (afin de pouvoir les publier directement en tant que sujets) ou (b) extraire les mots-clés/la table des matières principaux, etc., et les publier à côté des fichiers PDF dans les forums. J’ai également dû passer de GPT 4.1 à Sonnet 4.5 et désactiver HYDE pour que cela fonctionne de manière fiable.