Dos respuestas diferentes de gpt4o - ¡una correcta, una incorrecta.. !?

StevePlex · 15 Mayo, 2024 22:42

Le hice la siguiente pregunta al bot Forum Helper (gpt4o) y obtuve la respuesta incorrecta

Si se tarda 30 minutos en secar 10 toallas mojadas tendidas al sol, ¿cuánto se tardará en secar 15 toallas mojadas?

Respuesta del bot del foro:

“Se tardarán 45 minutos en secar 15 toallas mojadas en las mismas condiciones”.

Pero cuando le hice la misma pregunta a gpt4o a través de la interfaz del navegador de OpenAI:

“Secar 15 toallas mojadas también debería tardar 30 minutos, asumiendo que están extendidas de manera similar y tienen una exposición adecuada al sol”.

¿quizás la temperatura es demasiado alta en la versión del foro de gpt4o?

Falco · 15 Mayo, 2024 22:50

El asistente del foro se ajusta a RAG con el contenido existente del foro, pero tu pregunta no tiene nada que ver con eso. En este caso, la persona “creativa”, que es el LLM estándar, encaja mejor.

StevePlex · 15 Mayo, 2024 22:52

¡Tiene mucho sentido! .. gracias

Bot Creativo: “Si hay más toallas de las que se pueden extender sin superponerse o si el espacio se llena demasiado, reduciendo la exposición a la luz solar, entonces podría llevar más tiempo. Suponiendo que las condiciones sigan siendo óptimas y similares al secado de 10 toallas, el tiempo de secado debería seguir siendo el mismo: 30 minutos.”

sam · 15 Mayo, 2024 23:49

También vale la pena señalar que los LLM tienen un aspecto de aleatoriedad que se establece utilizando la temperatura y el top p.

Si desea resultados más predecibles / menos aleatorios, cree una persona con aleatoriedad reducida.

ver: AI bot - Personas

StevePlex · 16 Mayo, 2024 03:43

Estoy teniendo buena suerte configurando varios LLM abiertos y comerciales que se pueden mezclar y combinar con personas de bots de IA estándar y personalizadas. Y la idea de tener múltiples “agentes” que cada uno tiene su propio contexto RAG, categorías, grupos, etc. Es genial. ¡Abre una tonelada de casos de uso!

Así que… ¡guau! Esta es una “reimaginación” increíble de la plataforma Discourse que, por alguna razón, muchas aplicaciones importantes no pueden hacer. Bravo, gente de Disco. ¡Adelante!

Jagster · 16 Mayo, 2024 07:37

Y hay una verdad universal también: los modelos de lenguaje son algo diferente de hacer matemáticas y los modelos son notoriamente malos en matemáticas sin herramientas externas.

StevePlex · 16 Mayo, 2024 13:33

Sí. Los modelos anteriores son especialmente malos incluso en matemáticas simples / lógica simple, por ejemplo, con este simple acertijo:

Vivo en un edificio de apartamentos con un ascensor averiado.

Si entro y pulso el botón de un piso con número par, va a ese piso pero no abre la puerta y luego vuelve a donde empecé.

Entonces, si entro al ascensor en el piso 1 y pulso el botón del piso 4… y cuando se detiene, salgo y subo tres pisos más a pie… ¿en qué piso termino?

Mejor respuesta: piso 4

Todas mis personas de IA de Discourse basadas en gpt4o lo resuelven, (excepto la que solo tiene contexto local / RAG… porque no hay contexto relevante…)

pero acabo de ejecutar esto con gpt 3.5 en la interfaz gráfica de OpenAI, y respondió…

Vamos a desglosarlo paso a paso:

Entras al ascensor en el piso 1 y pulsas el botón del piso 4.

El ascensor sube al piso 4 pero no abre la puerta, luego vuelve a donde empezaste (piso 1).

Sales del ascensor en el piso 4 y subes tres pisos más a pie.

Dado que empezaste en el piso 1 y subiste tres pisos más, terminarías en el piso 7.

y extrañamente… en la interfaz gráfica del navegador Gemini 1.5 Pro… pregunta sobre el secado de toallas…

… con 10 toallas, cada toalla tiene más superficie expuesta al sol y al aire, lo que permite un secado más rápido. Con 15 toallas, algunas toallas podrían estar amontonadas o superpuestas, lo que reduce el área de superficie de secado efectiva por toalla.

Por lo tanto, no tardará simplemente un 50% más de tiempo (1,5 veces 30 minutos) en secar un 50% más de toallas. Probablemente tardará más, pero no necesariamente un aumento exacto de 1,5 veces.

Estimación:

Una estimación razonable podría ser de 45 minutos a 1 hora. Esto tiene en cuenta la menor eficiencia de secado con más toallas, pero evita asumir una relación perfectamente lineal entre el tiempo de secado y el número de toallas.

.. ¡Cosas aterradoras! : )

sam · 17 Mayo, 2024 06:49

Al final, aunque los LLM no pueden hacer matemáticas correctamente, si les das acceso a JavaScript… es una historia totalmente diferente:

merefield · 17 Mayo, 2024 08:27

Pero ese no es el problema aquí, ¿verdad?

El problema está en el razonamiento.

Darle al LLM acceso a una calculadora ciertamente ayuda (Chatbot ha tenido ese acceso durante mucho tiempo) pero no compensa una lógica o un razonamiento deficientes: hacer el cálculo incorrecto “correctamente” es posiblemente tan malo como hacer un cálculo incorrecto. De hecho, el primero puede hacer que el error sea más convincente, ¿por lo que podría ser más difícil de detectar?

StevePlex · 17 Mayo, 2024 18:48

Matemáticas vs. lógica… un aspecto alucinante del “tema de las dos respuestas diferentes” en mi opinión, gracias

Por favor, considera…

Quiero comprar un producto en línea y veo que tres vendedores ofrecen el mismo producto, todos con reseñas de clientes:

El primero tiene 10 reseñas, todas positivas

El segundo tiene 50 reseñas, 48 positivas

El tercero tiene 200 reseñas, 186 positivas.

Usando los principios estándar de probabilidad, ¿de qué vendedor debería comprar: 1, 2 o 3?

Según el material de referencia de 3Blue1Brown, la respuesta debería ser Vendedor 2. (Distribuciones binomiales | Probabilidades de probabilidades.)

GPT 3.5 (GUI del navegador de OpenAI):
“Si priorizas tanto la alta probabilidad como un tamaño de muestra mayor, podrías considerar al segundo vendedor , ya que tiene una alta probabilidad de reseñas positivas con un tamaño de muestra relativamente mayor.”

Gemini 1.5 Pro (Google AI Studio):
“Deberías estar más inclinado a comprarle al vendedor 3 , que ofrece los datos estadísticamente más fiables.”

Claude 3 Sonnet (GUI del navegador de Anthropic):
“Según los principios estándar de probabilidad y estadística, un tamaño de muestra mayor generalmente proporciona una estimación más fiable de la proporción real de la población. Sería más razonable elegir al Vendedor 3” .

Mi persona de IA de Discourse personalizada (Gemini Pro):
“Probablemente deberías ir con el producto 3” .

Mi persona de IA de Discourse personalizada (GPT4o):
“El segundo vendedor (96% con 50 reseñas) podría ser una opción equilibrada entre alta probabilidad y volumen de reseñas suficiente.”

¡Parte de la ‘lógica’ expuesta por estos LLM es verdaderamente ridícula! … y ninguno de ellos pareció captar los matices estadísticos reales…

Considerando cuántas variables hay en el juego de los LLM, parecería que los marcos de prueba integrales ‘in situ’ serán una característica no opcional en el futuro (¿un plugin? )

Factores:

Versión/lanzamiento del modelo LLM (parecen ajustar el ajuste fino regularmente)
Estructura del prompt en varios niveles
Contenido de aprendizaje en contexto de varios tipos
Aspectos de matemáticas y lógica
Barreras de seguridad de censura
Herramientas auxiliares (js, python, julia, etc.)
Etc. Etc.

StevePlex · 17 Mayo, 2024 20:12

Nota al pie..

Al no ser de los que dejan las cosas como están… Añadí contexto sobre la teoría de las probabilidades de Laplace al bot de Discourse AI que se equivocó (basado en Gemini)

Todavía se equivocaba, a pesar de haber aprendido sobre la teoría a partir del contexto.

Luego le pedí que aplicara sus conocimientos sobre Laplace… !? Bingo.. finalmente ‘correcto’..

.. conclusión general: Los bots son simplemente raros.. un poco como las personas.. pero como las personas, aprenden de maneras muy interesantes. A pesar de que en el fondo son solo enormes redes estocásticas de inferencia probabilística del lenguaje.. los bots ayudarán con problemas de matemáticas, lógica y estadísticas de maneras que justifican con creces su lugar en la mesa del banquete Disco..

Jagster · 18 Mayo, 2024 07:44

No aprenden. Eso es cierto con los modelos de OpenAI, no conozco otros. Un bot puede o no usar la información dada dependiendo de los tokens, el algoritmo y otras cosas místicas.

Pero podemos señalarlo en la dirección correcta. Y aun así, después de unas cinco respuestas, lo ha olvidado.

StevePlex · 18 Mayo, 2024 12:50

Sí, es un buen punto… ¡realmente no aprenden como los humanos!

Creo que estamos hablando en este hilo sobre métodos relacionados con el aprendizaje de contexto, y no con el aprendizaje humano convencional a largo plazo… aunque sea efímero… el aprendizaje de contexto se está volviendo realmente interesante debido a los tamaños de contexto increíblemente grandes (por ejemplo, +1 millón de tokens) que están logrando los últimos modelos.

Por ejemplo… si quisieras que un cierto modelo respondiera de manera más confiable a preguntas que requieren conocimiento de los principios de probabilidad de Laplace… con el enfoque de contexto/prompt, podrías alimentar ese contexto ya sea con un prompt del sistema codificado o con la recuperación de una base de datos vectorial, etc.

Aquí hay un ejemplo de experimento basado en la carga de un documento pequeño (~1000 palabras) con conocimiento de Laplace.

Supuestos:

El bot no está preentrenado en Laplace (ver ejemplos de fallos anteriores)…
El bot se limita a lo que hay en la instancia de Discourse para conocimiento específico.

Configuración de Persona Personalizada
(¡expertos en plugins, por favor corrijan según sea necesario!)

IA

¿Habilitado? sí
¿Prioridad? sí
¿Permitir Chat? sí
¿Permitir Menciones? sí

Nombre: AlphaBot
Descripción: Bot de acertijos de probabilidad con conocimiento de Laplace
Modelo de Lenguaje Predeterminado: GeminiPro

Comandos Habilitados: Buscar, Categorías, Leer

Prompt del Sistema:
Responde preguntas utilizando el contexto local proporcionado que describe los métodos de Laplace para comparaciones de probabilidad. Sé lo más minucioso y completo posible, pero no busques en la web ni en fuentes externas. Utiliza solo el contexto local y concéntrate en usar técnicas de Laplace.

Cargar: Laplace-tutorial.txt

Nótese cómo no tienes que mencionar Laplace porque está en las instrucciones:

system · 17 Junio, 2024 12:51

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

Tema		Respuestas	Vistas
Gpt3.5_bot user Support	4	441	5 Febrero 2024
Answer feature Feature	1	595	1 Abril 2023
[Ai Bot] Add user token tracking, custom AI personas, max context posts, document loading, custom API URLs, and localized chat titles Feature ai , ai-bot	2	486	22 Marzo 2024
Discourse Chatbot :robot: Plugin	208	31981	20 Noviembre 2025
Share AI conversations via a public link Announcements new-feature , ai , ai-bot	6	1012	15 Marzo 2024

Dos respuestas diferentes de gpt4o - ¡una correcta, una incorrecta.. !?

Temas relacionados