Le hice la siguiente pregunta al bot Forum Helper (gpt4o) y obtuve la respuesta incorrecta
Si se tarda 30 minutos en secar 10 toallas mojadas tendidas al sol, ¿cuánto se tardará en secar 15 toallas mojadas?
Respuesta del bot del foro:
“Se tardarán 45 minutos en secar 15 toallas mojadas en las mismas condiciones”.
Pero cuando le hice la misma pregunta a gpt4o a través de la interfaz del navegador de OpenAI:
“Secar 15 toallas mojadas también debería tardar 30 minutos, asumiendo que están extendidas de manera similar y tienen una exposición adecuada al sol”.
¿quizás la temperatura es demasiado alta en la versión del foro de gpt4o?
El asistente del foro se ajusta a RAG con el contenido existente del foro, pero tu pregunta no tiene nada que ver con eso. En este caso, la persona “creativa”, que es el LLM estándar, encaja mejor.
Bot Creativo: “Si hay más toallas de las que se pueden extender sin superponerse o si el espacio se llena demasiado, reduciendo la exposición a la luz solar, entonces podría llevar más tiempo. Suponiendo que las condiciones sigan siendo óptimas y similares al secado de 10 toallas, el tiempo de secado debería seguir siendo el mismo: 30 minutos.”
Estoy teniendo buena suerte configurando varios LLM abiertos y comerciales que se pueden mezclar y combinar con personas de bots de IA estándar y personalizadas. Y la idea de tener múltiples “agentes” que cada uno tiene su propio contexto RAG, categorías, grupos, etc. Es genial. ¡Abre una tonelada de casos de uso!
Así que… ¡guau! Esta es una “reimaginación” increíble de la plataforma Discourse que, por alguna razón, muchas aplicaciones importantes no pueden hacer. Bravo, gente de Disco. ¡Adelante!
Y hay una verdad universal también: los modelos de lenguaje son algo diferente de hacer matemáticas y los modelos son notoriamente malos en matemáticas sin herramientas externas.
Sí. Los modelos anteriores son especialmente malos incluso en matemáticas simples / lógica simple, por ejemplo, con este simple acertijo:
Vivo en un edificio de apartamentos con un ascensor averiado.
Si entro y pulso el botón de un piso con número par, va a ese piso pero no abre la puerta y luego vuelve a donde empecé.
Entonces, si entro al ascensor en el piso 1 y pulso el botón del piso 4… y cuando se detiene, salgo y subo tres pisos más a pie… ¿en qué piso termino?
Mejor respuesta: piso 4
Todas mis personas de IA de Discourse basadas en gpt4o lo resuelven, (excepto la que solo tiene contexto local / RAG… porque no hay contexto relevante…)
pero acabo de ejecutar esto con gpt 3.5 en la interfaz gráfica de OpenAI, y respondió…
Vamos a desglosarlo paso a paso:
Entras al ascensor en el piso 1 y pulsas el botón del piso 4.
El ascensor sube al piso 4 pero no abre la puerta, luego vuelve a donde empezaste (piso 1).
Sales del ascensor en el piso 4 y subes tres pisos más a pie.
Dado que empezaste en el piso 1 y subiste tres pisos más, terminarías en el piso 7.
y extrañamente… en la interfaz gráfica del navegador Gemini 1.5 Pro… pregunta sobre el secado de toallas…
… con 10 toallas, cada toalla tiene más superficie expuesta al sol y al aire, lo que permite un secado más rápido. Con 15 toallas, algunas toallas podrían estar amontonadas o superpuestas, lo que reduce el área de superficie de secado efectiva por toalla.
Por lo tanto, no tardará simplemente un 50% más de tiempo (1,5 veces 30 minutos) en secar un 50% más de toallas. Probablemente tardará más, pero no necesariamente un aumento exacto de 1,5 veces.
Estimación:
Una estimación razonable podría ser de 45 minutos a 1 hora. Esto tiene en cuenta la menor eficiencia de secado con más toallas, pero evita asumir una relación perfectamente lineal entre el tiempo de secado y el número de toallas.
Darle al LLM acceso a una calculadora ciertamente ayuda (Chatbot ha tenido ese acceso durante mucho tiempo) pero no compensa una lógica o un razonamiento deficientes: hacer el cálculo incorrecto “correctamente” es posiblemente tan malo como hacer un cálculo incorrecto. De hecho, el primero puede hacer que el error sea más convincente, ¿por lo que podría ser más difícil de detectar?
GPT 3.5 (GUI del navegador de OpenAI):
“Si priorizas tanto la alta probabilidad como un tamaño de muestra mayor, podrías considerar al segundo vendedor , ya que tiene una alta probabilidad de reseñas positivas con un tamaño de muestra relativamente mayor.”
Gemini 1.5 Pro (Google AI Studio):
“Deberías estar más inclinado a comprarle al vendedor 3 , que ofrece los datos estadísticamente más fiables.”
Claude 3 Sonnet (GUI del navegador de Anthropic):
“Según los principios estándar de probabilidad y estadística, un tamaño de muestra mayor generalmente proporciona una estimación más fiable de la proporción real de la población. Sería más razonable elegir al Vendedor 3” .
Mi persona de IA de Discourse personalizada (Gemini Pro):
“Probablemente deberías ir con el producto 3” .
Mi persona de IA de Discourse personalizada (GPT4o):
“El segundo vendedor (96% con 50 reseñas) podría ser una opción equilibrada entre alta probabilidad y volumen de reseñas suficiente.”
¡Parte de la ‘lógica’ expuesta por estos LLM es verdaderamente ridícula! … y ninguno de ellos pareció captar los matices estadísticos reales…
Considerando cuántas variables hay en el juego de los LLM, parecería que los marcos de prueba integrales ‘in situ’ serán una característica no opcional en el futuro (¿un plugin? )
Factores:
Versión/lanzamiento del modelo LLM (parecen ajustar el ajuste fino regularmente)
Estructura del prompt en varios niveles
Contenido de aprendizaje en contexto de varios tipos
Al no ser de los que dejan las cosas como están… Añadí contexto sobre la teoría de las probabilidades de Laplace al bot de Discourse AI que se equivocó (basado en Gemini)
.. conclusión general: Los bots son simplemente raros.. un poco como las personas.. pero como las personas, aprenden de maneras muy interesantes. A pesar de que en el fondo son solo enormes redes estocásticas de inferencia probabilística del lenguaje.. los bots ayudarán con problemas de matemáticas, lógica y estadísticas de maneras que justifican con creces su lugar en la mesa del banquete Disco..
No aprenden. Eso es cierto con los modelos de OpenAI, no conozco otros. Un bot puede o no usar la información dada dependiendo de los tokens, el algoritmo y otras cosas místicas.
Pero podemos señalarlo en la dirección correcta. Y aun así, después de unas cinco respuestas, lo ha olvidado.
Sí, es un buen punto… ¡realmente no aprenden como los humanos!
Creo que estamos hablando en este hilo sobre métodos relacionados con el aprendizaje de contexto, y no con el aprendizaje humano convencional a largo plazo… aunque sea efímero… el aprendizaje de contexto se está volviendo realmente interesante debido a los tamaños de contexto increíblemente grandes (por ejemplo, +1 millón de tokens) que están logrando los últimos modelos.
Por ejemplo… si quisieras que un cierto modelo respondiera de manera más confiable a preguntas que requieren conocimiento de los principios de probabilidad de Laplace… con el enfoque de contexto/prompt, podrías alimentar ese contexto ya sea con un prompt del sistema codificado o con la recuperación de una base de datos vectorial, etc.
Aquí hay un ejemplo de experimento basado en la carga de un documento pequeño (~1000 palabras) con conocimiento de Laplace.
Supuestos:
El bot no está preentrenado en Laplace (ver ejemplos de fallos anteriores)…
El bot se limita a lo que hay en la instancia de Discourse para conocimiento específico.
Configuración de Persona Personalizada
(¡expertos en plugins, por favor corrijan según sea necesario!)
IA
¿Habilitado? sí
¿Prioridad? sí
¿Permitir Chat? sí
¿Permitir Menciones? sí
Nombre: AlphaBot
Descripción: Bot de acertijos de probabilidad con conocimiento de Laplace
Modelo de Lenguaje Predeterminado: GeminiPro
Comandos Habilitados: Buscar, Categorías, Leer
Prompt del Sistema:
Responde preguntas utilizando el contexto local proporcionado que describe los métodos de Laplace para comparaciones de probabilidad. Sé lo más minucioso y completo posible, pero no busques en la web ni en fuentes externas. Utiliza solo el contexto local y concéntrate en usar técnicas de Laplace.
Cargar: Laplace-tutorial.txt
Nótese cómo no tienes que mencionar Laplace porque está en las instrucciones: