Два разных ответа от gpt4o — один верный, один неверный.. !?

Но это, surely, не проблема здесь?

Проблема в рассуждениях.

Предоставление LLM доступа к калькулятору, безусловно, помогает (Chatbot имел такой доступ уже давно), но не компенсирует плохую логику или рассуждения: выполнение неверного вычисления «правильно» можно считать не менее плохим, чем выполнение какого-либо неверного вычисления. Действительно, первое может сделать ошибку даже более убедительной, что, возможно, затрудняет её обнаружение?