Por lo que recuerdo al depurar un problema similar para un cliente, simplemente no se puede usar un modelo de razonamiento para la detección de localización.
No utilizamos salidas estructuradas allí, lo que significa que somos muy sensibles a cómo se presenta la salida. Los bloques de razonamiento los rompen el 100% de las veces, y sin la detección de localización, la traducción siempre queda bloqueada.