Mas essa não é a questão aqui, certamente?
A questão é o raciocínio.
Dar ao LLM acesso a uma calculadora certamente ajuda (Chatbot tem tido esse acesso por muito tempo), mas não compensa a má lógica ou raciocínio: fazer o cálculo errado “corretamente” é, sem dúvida, tão ruim quanto fazer um cálculo errado. De fato, o primeiro pode realmente tornar o erro mais convincente, então pode ser mais difícil de detectar?