Codex empieza a parecer un entorno de trabajo

¡Hola DevExpert!

Esta semana he seguido con la comparativa de modelos locales, pero el resultado más útil no ha sido elegir ganador.

Después de probar Gemma 4, Qwen 3.6 y ahora Nemotron 3 Nano Mini Omni, cada vez tengo más claro que la pregunta no es solo qué modelo corre más rápido en local. La pregunta de verdad es qué modelo aguanta un flujo completo sin romperse por contexto, tools, visión, instrucciones o exceso de autonomía.

Y al mismo tiempo, Codex ha vuelto a moverse bastante. Entre las novedades de la app y el curso largo que estoy preparando, se empieza a ver una idea bastante clara: la IA de desarrollo ya no va solo de escribir código, sino de tener un entorno de trabajo con memoria, herramientas y continuidad.

TL;DR de esta semana:

Vídeo: Nuevo modelo de Nvidia: ¿aguanta el hype? - pruebo Nemotron 3 Nano Mini Omni con tareas reales frente a Qwen 3.6 y Gemma 4.
Tema de la semana: los modelos locales empiezan a ser interesantes cuando dejan de ser una respuesta suelta y entran en flujos agénticos reales.
Codex: hilo de novedades de la app y curso completo en camino.
Nuevos modelos: Nemotron-3-Nano-Omni-30B-A3B · gpt-realtime-1.5

El tema de la semana: velocidad no es fiabilidad

Esta semana tocaba meter en la comparativa a Nemotron 3 Nano Mini Omni, el nuevo modelo de Nvidia que prometía bastante: 30B, arquitectura MoE, multimodal, posibilidad de ejecutarlo en local y unos requisitos razonables para una máquina potente.

Sobre el papel pintaba muy bien. En mi MacBook Pro con 64 GB de RAM llegó a ir a unos 68 tokens por segundo, un poco por encima de Qwen 3.6 y Gemma 4 en condiciones parecidas.

Pero aquí es donde vuelve a aparecer el problema de siempre: una cosa es que el modelo vaya rápido y otra que puedas delegarle trabajo de verdad.

En el vídeo de esta semana lo he probado con el mismo tipo de tareas que ya usé con Qwen y Gemma: resumir transcripciones largas, descargar y analizar vídeos, extraer capítulos, usar skills, generar imágenes, revisar herramientas, traducir, analizar imágenes y crear una pequeña app desde cero.

Y la sensación fue bastante clara: la velocidad está bien, pero la fiabilidad se queda corta.

Entra en bucles de razonamiento, confunde herramientas, se inventa APIs, falla en tareas que otros modelos locales resolvieron mejor y se desordena cuando el flujo requiere varios pasos seguidos. No es que no responda. Responde. El problema es que en trabajo agéntico responder no basta.

Esto me parece importante porque estamos entrando en una fase en la que cada vez tiene más sentido probar modelos open o locales. El cambio de pricing de Copilot, el famoso "subsidio de tokens" y el coste creciente de los flujos agénticos hacen que mucha gente empiece a mirar alternativas que pueda ejecutar en su máquina o en sus propios servidores.

Pero si vamos por ahí, conviene medir bien. No solo tokens por segundo. No solo benchmark. No solo una demo corta.

Hay que mirar si mantiene contexto, si usa bien las herramientas, si entiende imágenes cuando tienen texto, si traduce sin romper formato, si puede crear algo y validarlo, si sabe cuándo parar y si no convierte una tarea sencilla en una espiral rara.

Por eso sigo pensando que Qwen 3.6 y Gemma 4 son ahora mismo referencias más interesantes para estos flujos. No porque sean perfectos, sino porque cuando los pones a trabajar se ve mejor dónde aportan y dónde se rompen.

Nemotron seguramente mejorará. Y puede que con otros harnesses, cuantizaciones o configuraciones tenga más sentido. Pero en esta prueba concreta, si tengo que elegir un modelo local para trabajo agéntico, no empezaría por ahí.

El vídeo de la semana: Nuevo modelo de Nvidia, ¿aguanta el hype?

En este vídeo pruebo Nemotron 3 Nano Mini Omni en local y lo comparo con Gemma 4 y Qwen 3.6 usando tareas reales.

La gracia está en que no todos los modelos fallan en los mismos sitios. Algunos van muy rápido pero pierden el hilo. Otros parecen más lentos, pero aguantan mejor el contexto. Otros resuelven bien texto, pero se desordenan cuando entran herramientas o visión.

Esta comparativa ayuda bastante a separar hype de uso real. Si estás pensando en montar infraestructura local para IA, creo que es mejor empezar por este tipo de pruebas que por una tabla de benchmarks.

Ver el vídeo en YouTube

Codex sigue creciendo como entorno de trabajo

El otro frente de la semana ha sido Codex.

OpenAI ha soltado varias mejoras en la app y acabé montando un hilo con las que iba encontrando: onboarding adaptado al tipo de tarea, mejores controles de dictado, estado de CI en el panel lateral y varias piezas que apuntan a una app cada vez más pensada para trabajo diario, no solo para abrir un chat y pedir código.

También he dejado preparado un curso bastante grande de Codex. Son más de tres horas y media de vídeo, así que ahora toca editarlo con calma, pero la idea es cubrirlo prácticamente todo: proyectos, modelos, permisos, subagentes, skills, plugins, MCPs, automatizaciones, heartbeats, memoria, Browser Use, Computer Use y un ejemplo práctico construyendo una app real.

Me está costando contar bien Codex porque no encaja del todo en una categoría clásica. No es solo editor. No es solo CLI. No es solo chat. Cuando lo usas muchas horas, empieza a parecer más una capa de trabajo donde viven contexto, herramientas, historial y ejecución.

Y eso cambia bastante la forma de pensar el desarrollo con IA.

Lecturas recomendadas

El cambio de pricing de GitHub Copilot

GitHub moverá Copilot hacia un modelo de facturación basado en uso a partir del 1 de junio. Para mí esto encaja con una tendencia clara: los flujos agénticos consumen mucho más y la economía de tokens empieza a importar de verdad. No es solo una noticia de precio, es una señal de hacia dónde va el uso.

Learn 95% of Codex in 28 minutes

Buen ejemplo de cómo Codex está dejando de percibirse solo como herramienta de coding. File access, memoria, plugins, skills, imágenes, browser/computer use y automatizaciones empiezan a formar un paquete bastante distinto a "un chat con acceso al repo".

GPT-5.5 y coste real

Theo compartió una comparación interesante sobre GPT-5.5, coste y rendimiento. Me interesa porque el debate no va solo de precio nominal por token, sino de cuánto trabajo consigue cerrar el modelo por pasada.

Interactive apps with gpt-realtime-1.5

La parte de voz e interacción en tiempo real sigue avanzando. Todavía no es el centro de mi flujo diario, pero me parece una pieza importante para interfaces donde el usuario no quiere escribir comandos ni navegar pantallas.

Novedades de modelos

Nemotron-3-Nano-Omni-30B-A3B

Nuevo modelo open multimodal de Nvidia. Promete bastante por tamaño, velocidad y requisitos, pero en mi prueba se quedó por debajo de Qwen 3.6 y Gemma 4 en fiabilidad para flujos agénticos.

gpt-realtime-1.5

Modelo orientado a aplicaciones interactivas en tiempo real, especialmente voz y control de estado. Interesa seguirlo por lo que puede abrir en herramientas menos dependientes de interfaz clásica.

Próxima edición de AI Expert

En AI Expert trabajamos precisamente esta parte: usar modelos, agentes, automatizaciones y herramientas con criterio técnico, no solo probar la novedad de la semana.

La idea es que puedas llevarlo a trabajo real: desarrollo, documentación, revisión, automatización, contenido, herramientas internas y decisiones de arquitectura.

Toda la información aquí

Un abrazo,

Antonio.