Guía del Agente de IA Investigador de Foros

sam · 5 Junio, 2025 05:06

Esta guía explica el agente Investigador del Foro en Discourse AI, cómo funciona y cómo configurarlo para un análisis profundo del contenido del foro.

Nivel de usuario requerido: Administrador (para habilitar y configurar), Todos los usuarios (para interactuar, si se les concede acceso)

Comprender y utilizar el agente Investigador del Foro

El plugin Discourse AI incluye el agente Investigador del Foro, una herramienta potente diseñada para realizar investigaciones profundas sobre el contenido de tu foro. Este agente puede ayudarte a descubrir información clave, resumir discusiones y analizar tendencias en toda tu comunidad.

Resumen

Este documento cubrirá:

Cómo funciona el agente Investigador del Foro.
Pasos para configurar el Investigador del Foro.
Mejores prácticas para interactuar con el agente.
La distinción entre el Investigador del Foro y las herramientas de ayuda estándar del foro.
Orientación sobre la selección de un Modelo de Lenguaje Grande (LLM) adecuado.
Consejos de depuración para tareas de investigación.
Limitaciones actuales del agente.

Cómo funciona

El agente Investigador del Foro utiliza una herramienta Investigador dedicada. Esta herramienta está diseñada para:

Acceder al contenido del foro: Puede leer diversas secciones de tu foro.
Aplicar filtros avanzados: Un sistema de filtros flexible permite que la herramienta apunte con precisión a la información relevante. Puedes especificar contenido mediante:
- Categorias específicas (por ejemplo, category:support o categories:support,feedback)
- Etiquetas (por ejemplo, tag:bug o tags:bug,regression)
- Usuarios o grupos (por ejemplo, username:sam, usernames:sam,jane, group:moderators, groups:moderators,admins)
- Palabras clave en publicaciones o títulos de temas (por ejemplo, keywords:regression,bug, topic_keywords:feature,request)
- Rangos de fechas para publicaciones (por ejemplo, after:2024-01-01 before:2024-06-30)
- Rangos de fechas para temas (por ejemplo, topic_after:2024-01-01 topic_before:2024-06-30)
- Temas específicos por ID (por ejemplo, topic:123 o topics:123,456)
- Estado del tema (por ejemplo, status:open, status:closed, status:archived, status:noreplies, status:single_user)
- Tipo de publicación (por ejemplo, post_type:first, post_type:reply)
- Orden de clasificación (por ejemplo, order:latest, order:oldest, order:latest_topic, order:oldest_topic, order:likes)
- Límite de resultados en línea (por ejemplo, max_results:50)
- Temas asignados (si el plugin Asignar está habilitado, por ejemplo, assigned_to:username, assigned_to:user1,user2, assigned_to:*, assigned_to:nobody)
- Los filtros se pueden combinar usando lógica AND (separados por espacios) o lógica OR (usando OR entre grupos de filtros). Por ejemplo: category:bugs status:open after:2024-05-01 OR tag:critical usernames:sally.
Analizar contenido con Modelos de Lenguaje Grande (LLM): Después de recuperar el contenido filtrado, utiliza un LLM para analizar la información, extraer conocimientos y responder a tus preguntas específicas o lograr tus objetivos de investigación.
Seguir un proceso estructurado: Para garantizar eficiencia y precisión, especialmente considerando los costos potenciales, el Investigador del Foro está diseñado para:
- Comprender: Trabajará contigo para aclarar tus objetivos de investigación al principio.
- Planificar: Basado en tus objetivos, diseña un enfoque de investigación integral utilizando los filtros disponibles.
- Probar (Ejecución en seco): Antes de ejecutar el análisis completo, el agente suele realizar una “ejecución en seco”. Esto implica calcular cuántas publicaciones coinciden con tus criterios de filtro sin procesarlas inmediatamente con el LLM. El agente luego te informará de este recuento.
- Refinar: Basado en los resultados de la ejecución en seco, si el número de publicaciones es demasiado grande (riesgo de altos costos o resultados demasiado amplios) o demasiado pequeño (posiblemente perdiendo información clave), el agente puede ayudarte a ajustar los filtros.
- Ejecutar: Una vez que confirmas que el alcance es apropiado (después de la ejecución en seco), el agente ejecuta el análisis final, enviando el contenido al LLM.
- Resumir: Presenta los hallazgos, generalmente usando Markdown de Discourse, con enlaces a las publicaciones y temas originales del foro como evidencia de apoyo.

Este enfoque metódico significa que puedes pedirle al investigador realizar tareas como:

“Resume los errores no resueltos más discutidos en la categoría ‘mobile-app’ del último trimestre e identifica cualquier solución propuesta o alternativa mencionada en las discusiones.”
“Ayúdame a identificar los principales argumentos a favor y en contra del tema de propuesta ‘New User Onboarding’ (enlace) y lista los principales defensores de cada lado.”
“Revisa la actividad del grupo ‘documentation-team’ en el último año y proporciona un informe sobre sus contribuciones clave a los artículos de how-to, destacando cualquier tutorial que haya recibido retroalimentación positiva significativa.”

Configuración del Investigador del Foro

El Investigador del Foro está deshabilitado por defecto porque su uso puede incurrir en costos de LLM.

Habilitar Agente: Actívalo navegando a Admin → AI → Agentes.
Controlar Acceso: Se recomienda encarecidamente limitar este agente a grupos específicos para gestionar los costos de LLM. También puedes usar cuotas de IA para un control más fino.

Una vez habilitado, la herramienta tiene varias opciones de configuración:

LLM: Selecciona un LLM específico para la investigación. Esto se establece por defecto en el LLM del agente actual. Esta opción te permite equilibrar calidad y costo.
Número máximo de resultados: Esto limita el número de publicaciones procesadas por consulta para controlar los costos. El valor predeterminado es 1000.
Incluir privados: Esto permite buscar en categorías seguras, utilizando los permisos del usuario que interactúa.
Tokens máximos por publicación: Esto trunca las publicaciones largas para ahorrar costos de tokens. El valor predeterminado es 2000 tokens, con un mínimo de 50.
Tokens máximos por lote: Esto controla el tamaño del fragmento de datos enviado al LLM. Es útil para LLMs con ventanas de contexto grandes o para mantener el enfoque. Si se establece en 8000 o menos, se establece por defecto en los tokens de prompt máximos del LLM menos un búfer de 2000 tokens.

Mejores prácticas para la interacción

Para obtener el máximo provecho del Investigador del Foro mientras gestionas los costos:

Sé específico con los objetivos: Define claramente qué quieres descubrir antes de comenzar. El agente funciona mejor cuando tiene objetivos precisos.
Confirma el alcance después de la ejecución en seco: El agente generalmente realiza una ‘ejecución en seco’ primero y te informa cuántas publicaciones encontró según tu solicitud. Presta mucha atención a este número. Si es demasiado alto (riesgo de altos costos o resultados sin enfoque) o demasiado bajo (posiblemente perdiendo información crucial), discute con el agente cómo refinar tus filtros antes de comprometerte con el análisis completo.
Itera sobre los filtros: Si la ejecución en seco inicial no apunta a la información correcta, trabaja con el agente para ajustar los criterios de filtro. Añade palabras clave más específicas, reduce los rangos de fechas o especifica categorías/etiquetas.
Consolida consultas: El agente está diseñado para manejar múltiples objetivos relacionados en una sola ejecución de investigación. Intenta agrupar preguntas relacionadas en una solicitud de investigación integral al agente.

Relación con el asistente de foro estándar y herramientas relacionadas

El agente Investigador del Foro es distinto de un Asistente de Foro general que utiliza herramientas estándar como Search (Búsqueda) y Read (Leer).

Herramientas Search y Read estándar:
- La herramienta Search identifica principalmente temas relevantes. Lo hace comparando palabras clave con el contenido de las publicaciones y otros criterios (etiquetas, categorías, etc.). Para cada tema coincidente, devuelve un enlace y un breve fragmento de una publicación relevante, no el contenido completo de la publicación.
- La herramienta Read se utiliza para acceder al contenido completo de un tema específico (o publicaciones seleccionadas dentro de él) que Search ha identificado.
- Estas herramientas trabajan en conjunto para la recuperación dirigida: Search encuentra temas, Read procesa su contenido.
Herramienta researcher del Investigador del Foro:
- Análisis directo y profundo del contenido: La herramienta researcher no solo identifica temas; procesa y analiza directamente el contenido completo de potencialmente muchas publicaciones (hasta su Número máximo de resultados configurado) que coinciden con sus criterios de filtro integrales.
- Filtrado y síntesis avanzados: Utiliza un lenguaje de filtrado más complejo para construir un conjunto de datos de publicaciones de todo el foro (potencialmente abarcando cientos de temas) y luego sintetiza información de todo este conjunto de datos para responder preguntas complejas. Esto es fundamentalmente diferente de leer temas individuales uno por uno.

En esencia, mientras que un Asistente de Foro utiliza Search para señalar temas (presentando fragmentos) y Read para profundizar en uno, el Investigador del Foro realiza un análisis amplio a través del texto real de muchas publicaciones simultáneamente para descubrir conocimientos más profundos y sintetizados.

¿Qué LLM debo usar?

La tecnología LLM evoluciona rápidamente, con modelos que mejoran continuamente en capacidad y rentabilidad. Durante el desarrollo del Investigador del Foro, modelos como Gemini 2.5 Flash, Gemini 2.5 Pro, GPT-4.1 y Claude 4 Sonnet proporcionaron excelentes resultados para planes de investigación complejos.

La mejor elección depende de tus necesidades específicas:

Análisis de alta calidad y matizado: Los modelos más avanzados podrían ser preferibles, aunque generalmente vienen con costos más altos.
Resúmenes amplios o tareas sensibles al costo: Los modelos más rápidos y económicos pueden ser muy efectivos.

Aquí hay algunos ejemplos puntuales de pruebas internas en Discourse para una consulta muy específica y compleja:

Mira los 1000 temas abiertos superiores en la categoría de características - ordenados por me gusta (solo la primera publicación) - de todos los tiempos … hazme un informe ejecutivo de:

Las 20 características principales que CDCK debería construir

Las 20 características más fáciles que CDCK podría construir

Duplicados obvios

Cosas que están muy mal definidas

no me hagas más preguntas, simplemente ejecuta la investigación

Ejemplo híbrido: El conductor es Gemini 2.5 Pro y el LLM del Investigador es Gemini 2.0 Flash
Ejemplo híbrido

Depuración de la investigación

En Discourse, puedes habilitar la depuración avanzada de IA agregando grupos al ajuste del sitio ai_bot_debugging_allowed_groups. Con eso en su lugar, puedes ver las cargas útiles reales enviadas al LLM.

Limitaciones

Actualmente, no hay opción para enviar imágenes al LLM de investigación. Esto se considerará en futuras versiones.

Preguntas frecuentes

¿Está disponible el Investigador del Foro en todos los planes de Discourse?
El Investigador del Foro es parte del plugin Discourse AI, que está disponible para sitios autohospedados y en nuestro plan de alojamiento Enterprise.
¿Puede el Investigador del Foro acceder a contenido de categorías seguras?
Sí, si la opción “Incluir privados” está habilitada en su configuración y el usuario que interactúa con el agente tiene los permisos necesarios para acceder a esas categorías.
¿Cómo puedo controlar el costo de usar el Investigador del Foro?
- Limita el acceso a grupos específicos y de confianza.
- Usa la configuración “Número máximo de resultados” y “Tokens máximos por publicación” para limitar el procesamiento.
- Elige LLMs rentables.
- Presta mucha atención a las estimaciones de la “ejecución en seco” antes de ejecutar la investigación completa.
- Utiliza cuotas de IA.

Recursos adicionales

BrianC · 15 Junio, 2025 01:46

@sam Gran trabajo y muchas gracias por el progreso constante en las “personas” de Discourse AI, un trabajo verdaderamente impresionante.

Cuando varias “personas” están habilitadas, el menú desplegable del compositor puede sentirse abarrotado y confuso para los usuarios. Estoy buscando orientación sobre la mejor manera de:

¿Es el uso correcto tener numerosas “personas” en el menú desplegable para que los usuarios seleccionen?
¿Puede una “persona” predeterminada aprovechar “personas” especializadas detrás de escena?
Creo que controlar la visibilidad a través de permisos, para que las “personas” de ayuda permanezcan ocultas a la vista de los usuarios habituales y se utilicen con una automatización, dará como resultado múltiples publicaciones de respuesta. Sería genial si estos pudieran usarse como herramientas.

Cualquier consejo de configuración o ejemplos de pautas de implementación serían útiles.

jrgong · 7 Julio, 2025 11:14

Hola chicos,

¡En primer lugar, un trabajo fantástico! Esto es algo que realmente estábamos esperando, poder curar todo el conocimiento del foro.

Un pequeño problema que encontramos:

Dado que nuestro foro se ejecuta en alemán, parece que el LLM intentó realizar una búsqueda con las comillas alemanas que se ven así „como estas“, lo que da como resultado resultados de búsqueda vacíos. Nota al margen: Tradujimos la indicación del sistema predeterminada del Investigador al alemán.

sam · 7 Julio, 2025 11:44

¿Qué LLM estás usando? Podría valer la pena copiar la persona y rehacer el prompt del sistema en alemán con pistas

jrgong · 7 Julio, 2025 12:03

Ya hice eso, incluso le di una instrucción adicional:

- Para parámetros de búsqueda refinados en el foro, usa exclusivamente las comillas ``"`` y no ``„“``.

Pero el problema persiste. Ocurrió con gpt 4.1 y ocasionalmente con gemini 2.5 pro y flash.

Por cierto, ¿dónde puedo encontrar más información sobre cómo usar los parámetros topic_keywords: y keywords:? No pude encontrar nada en meta ni en ask.discourse.com. Quiero intentar replicar la búsqueda que el LLM está intentando realizar. No obtengo resultados de búsqueda cuando los uso en la búsqueda de mi foro (estamos en la versión 3.5.0.beta8-dev).

jrgong · 7 Julio, 2025 12:40

Acabo de encontrar un comportamiento extraño con gemini 2.5 researcher:

El LLM responde:

Ahora compilaré la información de estas y otras contribuciones para elaborar la descripción de la cepa. Esto tomará un momento. Me pondré en contacto con usted una vez que lo haya completado.

Pero la respuesta en realidad está terminada y no continúa desde aquí y tiene que ser reactivada manualmente para continuar

sam · 9 Julio, 2025 22:11

El personaje investigador no utiliza la implementación de búsqueda principal de Discourse, utiliza una implementación personalizada, esto se analiza y luego llamamos directamente a la búsqueda de texto completo.

jrgong · 9 Julio, 2025 22:12

Ah, entendido. Sería bueno tener aún documentación sobre ello para tener un control más granular sobre el comportamiento de búsqueda a través de prompts.

sam · 9 Julio, 2025 22:12

Esto es 1000% una alucinación de un LLM.

En el corpus de datos de entrenamiento, esta es una respuesta “común”, así que si no tenemos cuidado, puede inventar este tipo de cosas

sam · 9 Julio, 2025 22:16

Si habilita la depuración y presiona el botón (i), se mostrará la sección del prompt donde especificamos el idioma completo del investigador al LLM.

jrgong · 10 Julio, 2025 10:39

Si bien creo que es genial que el personaje del investigador obtenga parámetros de búsqueda personalizados y avanzados, esta circunstancia dificulta la reproducción manual de las consultas de búsqueda y luego la personalización o el refinamiento del prompt del sistema o la depuración de la búsqueda cuando devuelve cero resultados, ya que no puedo usar los mismos parámetros y valores de búsqueda en el front end.

¿Hay alguna forma de reproducir la búsqueda personalizada, tal vez a través de la API?

sam · 10 Julio, 2025 10:41

Por el momento no, pero es una gran idea, esencialmente esto es un tipo de filtro

tpetrov · 18 Septiembre, 2025 11:47

¡Gran artículo, Sam, y es realmente impresionante que ahora podamos usar Discourse AI para crear algo como nuestro propio agente de Deep Research con tanta facilidad!
Solo hay una cosa que me preocupa:

Tema		Respuestas	Vistas
Support for AI Bot to Configure for a Support the community forum with latest version of Discourse Support ai	19	485	4 Diciembre 2025
Chat with forum via the AI Support ai , ai-bot	4	958	15 Agosto 2023
Use AI to request summary and others things from topic Extras	3	259	2 Febrero 2025
Announcing the Forum Researcher :robot: Announcements ai	1	269	6 Junio 2025
Discourse AI - AI Bot - a glimpse of capabilities General ai , ai-bot	4	1387	22 Noviembre 2023