¡Hola DevExpert!
Esta semana he estado bastante metido en dos frentes que se conectan más de lo que parece: probar modelos locales con tareas reales y usar Codex para trabajo que ya no es solo programar.
Qwen 3.6 me ha dado una buena excusa para volver a una pregunta muy práctica: qué puedes delegar hoy a un modelo local sin acabar peleándote con la latencia, el contexto o la configuración.
Y al mismo tiempo, Codex está empezando a ocupar un sitio raro en mi día. Raro en el buen sentido. Lo uso para código, sí, pero también para preparar contenido, revisar sistemas, operar herramientas, diagnosticar cosas y cerrar tareas que antes se quedaban desperdigadas.
Esa mezcla marca bastante la newsletter de esta semana.
TL;DR de esta semana:
- Vídeo: Qwen 3.6 en local a prueba: ¿Supera a Gemma 4? - una comparativa con tareas reales de ingeniería, no solo una vuelta por benchmarks.
- Tema de la semana: modelos y agentes empiezan a medirse por cómo aguantan trabajo completo, no solo por lo bien que contestan una pregunta.
- Nuevos modelos: GPT-5.5 · DeepSeek-V4 Preview · OpenAI Privacy Filter
El tema de la semana: cuando la IA entra en el flujo de trabajo
La prueba de Qwen 3.6 me interesaba por algo bastante concreto: quería ver si podía resolver tareas parecidas a las que uso de verdad.
Resumen de transcripciones largas. Extracción de capítulos. Traducción. Preparación de publicaciones. Lectura de imágenes con mucho texto. Uso de herramientas. Una pequeña tarea de programación con validación.
En mi MacBook Pro con 64 GB de RAM, Qwen 3.6 puede hacer cosas muy buenas, pero también se nota cuándo el coste de esperar empieza a pesar. Si tarda 30 segundos en responderte algo normal, la experiencia cambia bastante.
Esto no invalida el modelo. Al contrario: lo hace más interesante, porque obliga a hablar de uso real. Hay tareas donde tiene sentido. Hay otras donde la nube sigue siendo más cómoda. Y hay una zona intermedia donde la decisión depende de privacidad, coste, latencia y tolerancia a que el flujo se vuelva más lento.
Con Codex me está pasando algo distinto. Ya no lo estoy usando solo como un asistente de código. Hay días en los que fácilmente el 70-80% de mi trabajo pasa por ahí, y muchas de esas tareas no son programación pura.
Por ejemplo: preparar una newsletter como esta, revisar una automatización, arreglar un script que falla por dependencias, buscar información en varios sitios o convertir una idea en un documento revisable.
OpenAI está empujando Codex como "la app para (casi) todo", y la frase encaja bastante bien con cómo lo estoy usando estos días. Todavía suena un poco exagerada, pero se entiende la dirección.
La parte potente no viene de una feature aislada. Viene de tener el contexto, las herramientas y el historial de trabajo en el mismo sitio. Cuando eso funciona, dejas de pensar en "voy a abrir una IA para preguntarle algo" y empiezas a tratarla como una capa más del sistema de trabajo.
GPT Image 2 también encaja ahí. Generar imágenes está bien, pero tenerlo dentro de Codex cambia bastante el uso: puedes pedir una imagen para unas slides, un header, una infografía, un mapa de arquitectura o una creatividad para redes y seguir trabajando sobre el resultado sin salirte del flujo.
Esta semana ha salido GPT-5.5 y toca probarlo con calma. Lo miraré sobre todo dentro de Codex, porque ahí es donde se ve rápido si el salto se nota en tareas largas, con contexto y herramientas de por medio.
El vídeo de la semana: Qwen 3.6 en local a prueba
En el vídeo de esta semana pongo Qwen 3.6 frente a Gemma 4 usando el mismo tipo de pruebas: resumen, capítulos, tareas agénticas, redes, emails, traducción, visión y programación.
Quería ponerlo en tareas con varios pasos, porque ahí se ve mucho mejor el carácter del modelo: si mantiene contexto, si usa bien las herramientas, si tarda demasiado o si una respuesta aparentemente correcta aguanta cuando la validas.
Qwen 3.6 tiene momentos muy sólidos. En algunas pruebas va realmente bien, y en otras se nota más el coste de ejecutarlo en local. Esa mezcla es precisamente lo que quería enseñar en el vídeo.
Lecturas recomendadas
DeepSeek ha presentado una preview open source con 1M de contexto y variantes Pro y Flash. Interesa seguirlo por dos motivos: contexto largo y coste. Si esa combinación funciona bien, puede mover bastante la parte abierta.
Este lanzamiento hace menos ruido que GPT-5.5, pero puede ser muy útil. Un modelo pequeño y local para detectar y redactar información personal en texto tiene mucho sentido en pipelines donde no quieres enviar datos sensibles fuera.
La idea de un marketplace de plugins, skills y hooks para Codex apunta a una capa que probablemente va a crecer. Si Codex se convierte en entorno de trabajo, los artefactos reutilizables pasan a ser parte importante del sistema.
Otro ejemplo de la misma dirección: agentes operando navegadores con menos rigidez. Falta separar lo que funciona de verdad de lo que suena bien en el vídeo, pero el problema que intenta resolver es real.
Novedades de modelos
Nuevo modelo frontera de OpenAI, con foco en coding agéntico, computer use, conocimiento e investigación. Lo probaré sobre todo dentro de Codex, porque ahí es donde se ve si mejora tareas largas o solo respuestas sueltas.
Preview abierta con 1M de contexto y una variante Flash pensada para coste. Buena referencia para vigilar la parte open source.
Modelo abierto y local para PII. Menos espectacular, pero muy práctico si trabajas con datos que necesitan limpieza antes de entrar en otros sistemas.
Próxima edición de AI Expert
En AI Expert trabajamos precisamente esta parte: cómo usar modelos, agentes y automatizaciones con criterio técnico, sin depender del hype de cada lanzamiento.
La idea es que puedas llevarlo a flujos reales: desarrollo, documentación, revisión, automatización, contenido, herramientas internas y decisiones de arquitectura.
Un abrazo,
Antonio.
