Usando soporte para PDF y adjuntos con bots de IA

:bookmark: Esta guía explica cómo habilitar y usar el soporte nativo de archivos PDF y documentos adjuntos al interactuar con bots de IA en Discourse. Los usuarios pueden cargar PDFs y otros documentos directamente en las conversaciones con los agentes de IA.

:person_raising_hand: Nivel de usuario requerido: Administrador

Resumen

Discourse AI ahora admite el manejo nativo de archivos adjuntos, lo que permite a los usuarios cargar PDFs y otros tipos de documentos directamente al conversar con bots de IA. La IA puede leer y comprender el contenido de estos archivos adjuntos, lo que permite casos de uso como el análisis de documentos, la creación de resúmenes y la respuesta a preguntas basadas en los archivos cargados.

Esta característica requiere:

  • Tipos de archivos adjuntos permitidos configurados en el LLM
  • Un agente con la visión habilitada (esto controla si las cargas se incluyen en los mensajes)
  • Que la extensión del archivo esté autorizada en la configuración de carga de su sitio

Proveedores compatibles

El soporte nativo de archivos adjuntos funciona con modelos de los siguientes proveedores:

  • Anthropic (modelos Claude)
  • AWS Bedrock (modelos Claude a través de Bedrock)
  • Google (modelos Gemini)
  • OpenAI (modelos GPT)
  • Azure (modelos compatibles con OpenAI)
  • OpenRouter (modelos compatibles con OpenAI)

Cada proveedor maneja los archivos adjuntos de manera diferente a nivel de API, pero Discourse AI lo gestiona automáticamente. Tenga en cuenta que diferentes proveedores implementan diferentes niveles de soporte para varios tipos de archivos adjuntos.

Tipos de archivos adjuntos compatibles

Los siguientes tipos de documentos se pueden configurar para el procesamiento de IA:

Tipo Extensiones
PDF pdf
Texto sin formato txt
Microsoft Word doc, docx
Formato de texto enriquecido rtf
HTML html, htm
Markdown md, markdown

:information_source: Las imágenes se gestionan por separado a través de la configuración “Visión habilitada” y no requieren configuración del tipo de archivo adjunto.

Configuración

Paso 1: Autorizar extensiones de archivo para la carga

Antes de que los usuarios puedan cargar archivos adjuntos, asegúrese de que las extensiones de archivo estén autorizadas en la configuración de su sitio.

  1. Navegue a AdministradorArchivos
  2. Busque la configuración extensiones autorizadas
  3. Agregue las extensiones que desea permitir (ejemplo: pdf|txt|docx)

Paso 2: Configurar el modelo LLM

  1. Navegue a AdministradorPluginsDiscourse AILLMs
  2. Seleccione el modelo LLM que desea configurar (o cree uno nuevo)
  3. En el campo Archivos adjuntos permitidos, seleccione o escriba las extensiones de archivo que desea que acepte el modelo (ejemplo: pdf, txt, docx)

:warning: Si deja en blanco el campo “Archivos adjuntos permitidos”, los archivos adjuntos de documentos se deshabilitarán para ese modelo. Las imágenes se controlan por separado a través del interruptor “Visión habilitada”.

Paso 3: Configurar el agente

  1. Navegue a AdministradorPluginsDiscourse AIAgentes
  2. Seleccione o cree un agente
  3. Asegúrese de que Visión habilitada esté activado; esto controla si las cargas (tanto de imágenes como de documentos) se incluyen en los mensajes enviados al LLM
  4. Establezca el Modelo predeterminado en un LLM que tenga archivos adjuntos configurados

Cómo funciona

Cuando un usuario carga un documento en una conversación con un bot de IA:

  1. El documento se carga en Discourse utilizando el manejo estándar de cargas
  2. Discourse AI codifica el contenido del documento (base64)
  3. El contenido codificado se envía al LLM junto con el mensaje del usuario
  4. El LLM procesa tanto el mensaje de texto como el contenido del documento
  5. La IA responde basándose en el contexto combinado

Detalles técnicos

  • Los documentos se codifican como base64 y se envían en línea con la solicitud
  • Cada proveedor recibe los archivos adjuntos en su formato nativo:
    • Anthropic: Utiliza el tipo document con fuente base64
    • Gemini: Utiliza el formato inlineData
    • OpenAI (API de finalización de chat): Utiliza el tipo file con file_data que contiene el contenido base64
    • OpenAI (API de respuestas): Utiliza el tipo input_file con file_data que contiene el contenido base64
  • Los límites de tamaño de archivo se rigen por la configuración max attachment size kb (tamaño máximo de archivo adjunto en KB) de su sitio

Casos de uso

El soporte nativo de archivos adjuntos permite varios flujos de trabajo:

  • Análisis de documentos: Cargue contratos, informes o artículos de investigación para que la IA los resuma o responda preguntas sobre ellos
  • Revisión de contenido: Pida a la IA que revise y proporcione comentarios sobre borradores de documentos
  • Extracción de datos: Extraiga información específica de documentos cargados
  • Asistencia de traducción: Cargue documentos en un idioma y discuta el contenido o solicite traducciones
  • Soporte técnico: Los usuarios pueden cargar archivos de registro o de configuración para obtener ayuda en la resolución de problemas

Limitaciones

  • Tamaño del archivo: Los archivos adjuntos están limitados por la configuración de tamaño de carga de su sitio y el proveedor del LLM
  • Soporte del proveedor: El soporte de archivos adjuntos requiere un dialecto de proveedor que maneje documentos (Anthropic, AWS Bedrock, Google, OpenAI, Azure y OpenRouter)
  • Requisito de visión del agente: El agente debe tener activada la opción “Visión habilitada” para que las cargas se incluyan en los mensajes
  • Coincidencia de extensiones: La extensión del archivo debe estar autorizada para la carga en su sitio y permitida en la configuración de tipos de archivos adjuntos del LLM
  • Los resultados varían: Dado que los proveedores de LLM y los LLM procesan los archivos, el costo/precisión y los resultados variarán. Anthropic tiende a usar más tokens para el análisis que OpenAI o Google.
  • Habilitar el almacenamiento en caché: Para OpenAI, asegúrese de utilizar la API de respuestas, que ofrece un soporte más consistente para el almacenamiento en caché (cuando el pensamiento está habilitado); para los modelos Anthropic, es posible que deba habilitar el almacenamiento en caché explícitamente en la configuración del LLM. Esto puede ser particularmente importante al tener conversaciones de varios turnos.

Solución de problemas

Los archivos adjuntos no se procesan

  1. Verifique que la extensión del archivo esté en la configuración de extensiones autorizadas de su sitio
  2. Confirme que el tipo de archivo esté listado en la configuración de “Archivos adjuntos permitidos” del LLM
  3. Asegúrese de que el agente tenga activada la opción “Visión habilitada” y utilice un LLM configurado correctamente

La carga falla

  • Verifique su configuración max attachment size kb (tamaño máximo de archivo adjunto en KB)
  • Verifique que la extensión del archivo esté autorizada
  • Los PDFs muy grandes podrían no ser compatibles; cada proveedor de LLM tiene diferentes tamaños máximos de carga.

La IA no entiende el documento

  • Asegúrese de estar utilizando un modelo que admita la comprensión de documentos
  • Pruebe un modelo más capaz (ejemplo: Claude Sonnet 4.5, GPT-5.1, Gemini Pro 3)

Preguntas frecuentes

¿Pueden los usuarios cargar varios documentos en un solo mensaje?
Sí, los usuarios pueden incluir varios archivos adjuntos en un solo mensaje, y la IA tendrá acceso a todos ellos.

¿Funciona esto en el chat además de en los MD?
Sí, el soporte para archivos adjuntos funciona tanto en mensajes privados con bots de IA como en mensajes directos de chat, siempre que el agente esté configurado para esos métodos de interacción.

¿Es esto diferente de las cargas RAG en los agentes?
Sí. Las cargas RAG son documentos añadidos por los administradores a la base de conocimientos de un agente, los cuales son indexados y buscados. El soporte nativo de archivos adjuntos permite a los usuarios finales cargar documentos durante las conversaciones para un análisis inmediato sin indexación.

¿Qué sucede con los documentos cargados?
Los documentos se procesan de acuerdo con el manejo estándar de cargas y las políticas de retención de su sitio. Se almacenan como cargas normales de Discourse.

Recursos adicionales

4 Me gusta