Loops agénticos: potentes, caros y no para todo

¡Hola DevExpert!

Esta semana me han salido loops agénticos por todas partes.

En Codex, en Small Harness, en MiMo Code, en AutoCoder, en gente editando vídeos con Remotion y hasta en workflows rarísimos desde el móvil.

Pero aquí tengo un matiz importante: no creo que esto sea algo que todo el mundo tenga que aplicar mañana.

De hecho, para la mayoría de casos seguramente no compensa. Consume muchos tokens, requiere bastante infraestructura alrededor y no siempre tienes tareas lo bastante largas o repetitivas como para que el esfuerzo merezca la pena.

Lo que sí creo es que conviene entender el patrón, porque para ciertos trabajos cambia bastante la forma de usar agentes.

TL;DR de esta semana:

Vídeo: pongo AutoCoder a prueba con una app multirol, con roles, datos, backend y permisos.
Tema: Peter Steinberger lo ha resumido muy bien: los loops agénticos tienen sentido, pero son caros en tokens y no son para cualquier tarea.
Recurso: volví a compartir este vídeo antiguo sobre programación autónoma y un Issue Executor que trabaja cada hora, porque mucha gente no se imagina cómo se implementa algo así.
Modelos/tooling: MiMo Code, DiffusionGemma y mlx-audio 0.4.4.

El tema de la semana: Loop Engineering

Peter Steinberger dejó una frase que me parece muy buena:

No deberíamos estar prompting coding agents. Deberíamos diseñar loops que prompten a nuestros agentes.

Suena un poco a frase de Twitter, pero apunta a algo real.

El prompt aislado sirve para muchas cosas. Yo lo uso todo el día. Pero cuando la tarea empieza a durar horas, toca varios ficheros, necesita pruebas, revisión, vuelta atrás, criterio y memoria, el prompt empieza a ser solo una parte pequeña del sistema.

Ahí aparece el loop:

Cómo se convierte una intención vaga en un plan
Cómo se separa el que genera del que critica
Qué pruebas se ejecutan antes de dar algo por bueno
Cómo se guarda el contexto para no volver a explicar lo mismo
Cuándo conviene abrir otro hilo o resetear la sesión
Qué pasa si el agente tiene que volver dentro de cinco minutos, o mañana

Ahora bien, esto no es gratis.

Un loop así se puede comer tokens como si no hubiera un mañana. También te obliga a construir bastante sistema alrededor: reglas, verificaciones, scripts, memoria, criterios de parada, logs, handoffs, alertas… Si solo quieres cambiar una pantalla o arreglar un bug pequeño, seguramente es una barbaridad.

Por eso no lo veo como "la forma correcta de usar IA" para todo. Lo veo como una técnica bastante potente para casos concretos: tareas largas, mantenimiento, revisión recurrente, pipelines de contenido, repos que necesitan vigilancia o sistemas donde el agente tiene que volver a trabajar sin que tú estés empujándolo todo el rato.

Por eso me llamó la atención Small Harness. No porque invente una palabra nueva, sino porque baja esto a piezas bastante concretas: /plan, crítico separado, /iterate, verificación con tests reales y handoff estructurado. Y además, pensado para modelos baratos.

Y como sé que mucha gente no se hace una idea de cómo se implementa algo así, volví a compartir un vídeo que publiqué hace tiempo: Programación Autónoma: cómo creé una plataforma real trabajando solo 3 horas.

Ahí enseñaba una academia montada con agentes, pero la parte que encaja con esto es el Issue Executor: un sistema que revisaba issues cada hora, intentaba resolverlos, validaba contra una Definition of Done y dejaba el resultado preparado para revisar.

No era magia. Era caro, imperfecto y con bastante fontanería alrededor.

Pero precisamente por eso sirve como ejemplo. Un loop agéntico no es "le digo a la IA que trabaje sola". Es decidir cuándo se despierta, qué contexto recibe, qué puede tocar, cómo valida y cuándo debe parar.

También lo vi en un ejemplo menos típico: Fable editando su propio vídeo de lanzamiento. El agente no estaba solo escribiendo código. Estaba usando transcripción, ffmpeg, Figma MCP, Remotion y render para llegar a un vídeo final.

Eso me interesa bastante porque se parece más a cómo trabajamos de verdad: varias herramientas, varios artefactos, pasos intermedios y decisiones que se encadenan.

Y luego está Nick Dobos usando Codex en iOS: habla con el móvil mientras prueba su app, vuelve a Codex unos segundos, manda la siguiente instrucción y sigue usando el producto.

Ahí el centro no es el IDE. Es la app funcionando delante de ti.

No sé si el nombre Loop Engineering se quedará. Tampoco me obsesiona.

Lo que sí me parece útil es separar dos cosas: usar agentes para tareas puntuales y diseñar sistemas donde los agentes trabajan en ciclos. Lo segundo puede tener mucho sentido, pero hay que tener claro el coste.

El vídeo de la semana: AutoCoder con una app multirol

El vídeo de esta semana va un poco por ahí, aunque desde otro ángulo. AutoCoders es una herramienta estilo Lovable, pero con algunas peculiaridades que la hacen bastante interesante.

Le pedí algo que se suele atascar a estas herramientas: una app tipo CampaignHub, donde marcas crean campañas, creadores entregan contenido y un admin gestiona estados, pagos, revisiones y métricas. Es decir, una app multi-rol donde cada usuario ve su dashboard de forma diferente.

La gracia de una prueba así es que obliga a mirar cosas que una landing no enseña:

usuarios distintos;
dashboards separados;
datos compartidos;
permisos;
estados;
backend;
posibilidad de iterar después.

Te lo muestro:

Ver el vídeo en YouTube

Probar AutoCoder

Lecturas recomendadas

MiMo Code V0.1

Xiaomi ha publicado MiMo Code, un CLI open source con contexto largo, modo compose, revisión, compresión de contexto y compatibilidad con Claude Code.

Me lo apunto porque no va solo de "otro asistente en terminal". La parte interesante es que intenta empaquetar varias piezas del loop: memoria, specs, revisión, migración desde otras herramientas y un framework de agente optimizado para su modelo.

Habrá que probarlo con calma, pero la dirección encaja mucho con lo que estamos viendo.

MCPs para que el agente entienda tu propia app

Jorge compartió una idea muy buena: darle a tu aplicación un MCP con herramientas tipo search/use_tool, conectarlo al agente y dejar que pueda consultar o actualizar sus propias APIs mientras desarrolla.

Esto puede salir mal de mil formas si se hace sin control, claro. Pero como patrón me parece potente.

Diseño dentro del loop

MagicPath ya está disponible como plugin oficial para Codex.

Cuando el agente puede cambiar una pantalla, verla, ajustarla y volver a probar sin que tú tengas que saltar entre herramientas, el workflow cambia bastante.

Novedades de modelos y tooling

DiffusionGemma

Google ha publicado DiffusionGemma, un modelo experimental que explora generación por bloques en vez de ir token a token.

No tengo una opinión fuerte todavía, pero me parece una línea curiosa porque toca una limitación muy de base en cómo generamos texto.

mlx-audio 0.4.4

mlx-audio 0.4.4 viene con más modelos de TTS, ASR y VAD para Apple Silicon, servidor compatible con OpenAI y mejoras para transcripción larga.

Si estás montando flujos locales de audio, esto empieza a ponerse bastante serio.

MiMo Code

Lo repito aquí porque también es novedad de tooling: MiMo Code junta CLI, contexto largo, compose mode, revisión y framework de agente.

Me interesa especialmente ver si ese millón de tokens y la compresión de contexto funcionan bien en un modelo tan extremadamente barato. Si el harness es bueno y saca el máximo partido al modelo, puede ser muy interesante.

Próxima edición de AI Expert

Si estás usando IA para programar y notas que el cuello de botella ya no es "qué prompt pongo", sino cómo organizar el trabajo para que el agente avance con contexto, control y verificación, esto es justo lo que trabajamos en AI Expert.

Toda la información aquí

Un abrazo,

Antonio.