Limitación actual:
• La búsqueda semántica del foro solo indexa el texto de las publicaciones, no los archivos adjuntos en PDF
• Los archivos PDF no se pueden buscar a través del interruptor de IA /search
• Para solucionar esto, tuve que cargar manualmente los PDF por separado en la RAG de la persona
Solución propuesta:
• Extraer texto de los archivos adjuntos en PDF durante la generación de incrustaciones (embedding generation)
• Indexar el contenido de los PDF junto con el texto de la publicación
• Hacer que los temas con archivos adjuntos en PDF sean detectables mediante la búsqueda semántica
Beneficios:
• Los usuarios encuentran documentación técnica a través de la búsqueda del foro
• No es necesario duplicar contenido (publicación del foro + carga en RAG)
• Mejor SEO (PDF adjuntos a temas indexados)
• Arquitectura más simple (el comando de búsqueda simplemente funciona)
Si implementaras esto, podría potencialmente:
- Eliminar las herramientas forzadas (la búsqueda encontraría el contenido de los PDF de forma natural)
- Eliminar las cargas en RAG por completo (todo en los temas del foro)
- Simplificar significativamente el sistema