Cuando el agente deja de empezar desde cero

¡Hola DevExpert!

La sensación que me deja esta semana es bastante clara: el salto importante ya no está solo en que un modelo responda bien.

Está en que el agente deje de empezar desde cero cada vez. Que recuerde, que mantenga contexto, que vuelva a mirar algo dentro de unas horas y que se haga útil en trabajo continuo, no solo en una conversación suelta.

TL;DR de esta semana:

Vídeo: Gemma 4 en local: Qué tareas le puedes delegar (y dónde se rompe) - una prueba práctica para separar hype de trabajo real.
Tema de la semana: la siguiente capa no es otro benchmark, sino agentes con memoria, hilos vivos y tareas recurrentes.
Nuevos modelos: Claude Opus 4.7 · MiniMax M2.7 · Gemini 3.1 Flash TTS

El tema de la semana: cuando el agente deja de empezar desde cero

OpenAI ha enseñado bastante hacia dónde quiere empujar Codex con esta actualización de Codex App: navegador integrado, control de apps, plugins, memoria, automatizaciones persistentes y una superficie mucho más amplia que “programar en un repo”.

Pero lo más interesante para mí no es la lista de features. Es esto otro: la idea de hilos que siguen vivos, con compactación suficientemente buena como para no degradarse y memoria capaz de rescatar contexto de conversaciones previas. Ahí es donde un agente deja de ser un chat que usas un rato y pasa a parecerse más a un sistema al que vuelves una y otra vez.

De hecho, el ejemplo de Nick sobre sus threads vivos en Codex me parece una señal clarísima de por dónde va esto: agentes que revisan Slack, correo, PRs o tareas pendientes sin que tengas que arrancar la conversación desde cero cada vez.

Y esto también explica otra cosa: por qué el precio empieza a importar más. Cuando los agentes se convierten en una capa continua de trabajo, dejan de competir solo por “ser más listos” y pasan a competir por economía, continuidad y control.

Justo por eso me ha parecido interesante contrastarlo con la prueba real de Gemma 4 en local. Porque al final la pregunta útil no es si un modelo local impresiona en una demo, sino si puede asumir partes del trabajo diario con suficiente fiabilidad. Resúmenes, capítulos, transcripción, redes, traducción, una app pequeña… y también el punto exacto en el que empieza a romperse.

La idea fuerte, para mí, es esta: la conversación ya no va solo de qué modelo gana, sino de qué sistema mantiene mejor el estado, cuánto trabajo puede seguir acumulando sin tu siguiente mensaje y cuánto te cuesta sostener eso.

El vídeo de la semana: Gemma 4 en local, pero con tareas de verdad

En este vídeo pongo a Gemma 4 a hacer trabajo bastante menos glamuroso que un benchmark: resumir, extraer capítulos, transcribir, traducir, preparar publicaciones y levantar una app con ciertas exigencias.

Me parece justo el tipo de prueba que necesitamos más: menos “mira qué rápido responde” y más “qué parte de mi trabajo diario le puedo delegar hoy sin que me la líe”.

Ver el vídeo en YouTube

Una derivada incómoda: open source y superficie de ataque

También me ha dado vueltas este debate sobre Cal.com: si los modelos cada vez encuentran vulnerabilidades mejor y más rápido, ¿empieza a cambiar el equilibrio entre transparencia y exposición?

No creo que ocultar el código haga desaparecer los problemas. Pero sí me parece una señal interesante de que la IA no solo cambia cómo construimos software, sino también cómo algunas empresas empiezan a pensar el riesgo.

Lecturas recomendadas

My Codex threads are alive

Probablemente el mejor ejemplo de la semana para entender qué significa de verdad un agente persistente.

Memory extensions en Codex 0.120

Interesante porque separa dos capas que cada vez importan más: lo que quieres que el agente obedezca ahora y lo que quieres que aprenda a retener con el tiempo.

Agent harnesses aren’t black magic

Buena referencia si quieres bajar todo este hype de agentes a algo más tangible y menos místico.

Novedades de modelos

Claude Opus 4.7

Anthropic lo posiciona claramente hacia tareas largas y más autonomía. Habrá que probarlo con calma, sobre todo viendo el coste y el tokenizador nuevo.

MiniMax M2.7

Open source y con ambición seria en coding. Una de esas referencias que conviene seguir si te interesa la capa abierta.

Gemini 3.1 Flash TTS

No es la novedad más ruidosa para developers, pero sí bastante útil si trabajas con generación de audio y quieres más control sobre estilo y entrega.

Próxima edición de AI Expert

Si quieres trabajar justo esta capa útil de agentes, contexto, automatización y criterio técnico sin tragarte toneladas de humo, en AI Expert profundizamos en ello con casos reales y flujos de trabajo de verdad.

Toda la información aquí

Un abrazo,

Antonio.