Dos respuestas diferentes de gpt4o - ¡una correcta, una incorrecta.. !?

Pero ese no es el problema aquí, ¿verdad?

El problema está en el razonamiento.

Darle al LLM acceso a una calculadora ciertamente ayuda (Chatbot ha tenido ese acceso durante mucho tiempo) pero no compensa una lógica o un razonamiento deficientes: hacer el cálculo incorrecto “correctamente” es posiblemente tan malo como hacer un cálculo incorrecto. De hecho, el primero puede hacer que el error sea más convincente, ¿por lo que podría ser más difícil de detectar?

1 me gusta