У меня есть оценка для инструментов без параметров:
И она проходит с:
sam@arch evals % ./run -e no_params_tool
Запуск оценки 'no_params_tool'
GPT-4o: Прошло 🟢
GPT-4o-mini: Прошло 🟢
Claude 3.5 Haiku: Прошло 🟢
Claude 3.5 Sonnet: Прошло 🟢
Gemini 2.0 Flash: Прошло 🟢
Gemini 2.0 pro: Прошло 🟢
Вы тестировали на последней версии?