¡Por favor, por favor, añadan soporte para buscar archivos pdf en temas del foro desde personas de IA, sin tener que subirlos por separado!

Limitación actual:
• La búsqueda semántica del foro solo indexa el texto de las publicaciones, no los archivos adjuntos en PDF
• Los archivos PDF no se pueden buscar a través del interruptor de IA /search
• Para solucionar esto, tuve que cargar manualmente los PDF por separado en la RAG de la persona

Solución propuesta:
• Extraer texto de los archivos adjuntos en PDF durante la generación de incrustaciones (embedding generation)
• Indexar el contenido de los PDF junto con el texto de la publicación
• Hacer que los temas con archivos adjuntos en PDF sean detectables mediante la búsqueda semántica

Beneficios:
• Los usuarios encuentran documentación técnica a través de la búsqueda del foro
• No es necesario duplicar contenido (publicación del foro + carga en RAG)
• Mejor SEO (PDF adjuntos a temas indexados)
• Arquitectura más simple (el comando de búsqueda simplemente funciona)

Si implementaras esto, podría potencialmente:

  1. Eliminar las herramientas forzadas (la búsqueda encontraría el contenido de los PDF de forma natural)
  2. Eliminar las cargas en RAG por completo (todo en los temas del foro)
  3. Simplificar significativamente el sistema
1 me gusta

Hay un tema similar sobre la indexación de archivos para ai-search aquí: Index File Contents for Search

1 me gusta

Creo que un complemento podría agregar el texto al post cocido en un elemento de detalles opcionalmente oculto. Eso lo agregaría para que se pudiera encontrar, creo. Si está autoalojado, creo que costaría solo unos pocos cientos de dólares desarrollarlo. O, si parece que están interesados, enviarlo como una PR, por aproximadamente el doble (para incluir pruebas y demás).