Chatbot de Discourse 🤖

Hay una PR abierta para añadir GPT-5 pero algo está saliendo mal durante la CI.

He abierto un tema de Dev sobre ello aquí.

Se ha fusionado.

Si encuentras que el razonamiento de GPT-5 es demasiado lento, puedes cambiar el nivel de razonamiento. Ahora hay un nuevo nivel minimal.

¡Gracias a @NateDhaliwal por su ayuda en este asunto!

2 Me gusta

Nuestro bot estaba fallando hasta que establecimos el razonamiento en mínimo. ¡Gracias!

1 me gusta

La verdad es que encuentro que GPT-5 es, en general, demasiado lento y no justifica claramente el tiempo de respuesta adicional.

¿Qué te ha parecido para tu bot de soporte?

He probado gpt-5 usando Chat GPT, que es algo muy diferente a través de la API, y necesita ese largo tiempo de razonamiento para dar respuestas ligeramente mejores de las que daría 4o, o 01. Cuando tiene que responder rápido, no es mejor que 4.1.

Estoy bastante seguro de que la situación es similar, o peor, debido a la falta de herramientas y de indicaciones (prompting), cuando se usa la API. Pero no lo sé con seguridad, porque gpt-5 es dolorosamente lento y en un entorno de foro debe responder casi a la velocidad de la luz.

1 me gusta

En términos de rendimiento del contenido, anecdóticamente, parece que gpt-5 está dando respuestas técnicas notablemente mejores que gpt-4o. No estoy seguro de cómo cuantificar eso, pero me impresionó mucho.

Estoy obteniendo resultados variables en cuanto al tiempo que tarda en responder. Parece, por los experimentos de esta mañana, que gpt-5 es más lento en promedio, pero no demasiado, y hubo algunos casos en los que la respuesta llegó más rápido con gpt-5. Estoy midiendo entre 5 segundos y 35 segundos para obtener una respuesta.

Estamos usando RAG y no puedo decir qué parte de la latencia proviene de la búsqueda RAG frente a la finalización del chat. Podría ser que a veces no opte por la búsqueda RAG, que la búsqueda sea más rápida o que algo esté en caché (en la búsqueda o en la finalización).

Normalmente elegiríamos mejores respuestas en lugar de una respuesta más rápida porque dar malos consejos técnicos a los clientes es costoso. Hasta cierto punto, sin embargo, si se agota el tiempo de espera, es una muy mala experiencia de usuario.

GPT-5 recomienda principalmente gpt-5-mini para nuestro caso de uso, y escalar a gpt-5 en algunas circunstancias. Suena bien pero complicado. ¿Has considerado cambiar entre modelos dinámicamente? ¿Por qué OpenAI no hace eso automáticamente? ChatGPT - Compare GPT models performance

1 me gusta

Tuvimos que volver a gpt-4o porque aparentemente gpt-5-mini cree que puede hacer cosas que no puede. Se ofreció con confianza a configurar un servicio de monitoreo de alarmas para un cliente y conectarlo a su equipo de alarma doméstico. Les pidió números de identificación del equipo y alucinó como si fuera un conserje configurándolo todo para ellos. Nuestro sitio web puede hacer eso, pero el chatbot no. No parece estar respetando las barreras de seguridad en el prompt del sistema como lo hacía gpt-4o. Tendremos que ajustarlo antes de poder dejar que la gente lo use.

Actualización: Resulta que gpt-5 es mucho mejor siguiendo instrucciones y respetando reglas en el prompt que gpt-5-mini. Si vas a dejar que un bot represente tu marca, recomiendo gpt-5 aunque sea más lento y 5 veces más caro. Existe demasiado riesgo de que gpt-5-mini se salga de control.

1 me gusta

He tenido muy buena suerte con GTP-5-mini en flujos agenticos a través de llamadas a herramientas, escritura de código y datos estructurados. Generalmente encuentro que los datos estructurados son más fáciles para las aplicaciones de IA que los no estructurados. ¡No era lo que esperaba! Pero las barreras de protección son más fáciles… (código en bucle, humano en bucle, llm-como-juez, etc.)

Miren esto para una explicación detallada del rendimiento de alto nivel y bajo costo de gpt-5-mini y gpt-4o…

Si alguien está interesado en incorporar capacidades de datos estructurados en Discourse como un complemento, etc., por favor, póngase en contacto.

Una extensión de PNL para sql/estadísticas/ciencia de datos para Data Explorer es un ejemplo… Pero también podría tener una herramienta/complemento/función que permita consultas en lenguaje natural de archivos olap sqlLite o duckdb de solo lectura cargados en el contenedor. Solo una idea… :thinking:

Por cierto, he añadido GPT 5.1 al complemento junto con algunas correcciones:

1 me gusta