DevExpert

¡Hola DevExpert!

Esta semana me he quedado con una idea bastante clara: la IA se vuelve de verdad interesante cuando deja de vivir dentro de un chat.

En cuanto la sacas de ahí y la metes en memoria, tools, flujos locales o infraestructura real, empiezan a aparecer las preguntas buenas: control, límites, dependencia de plataforma, contexto útil y qué parte del sistema merece estar en tus manos.

TL;DR de esta semana:


El tema de la semana: cuando la IA sale del chat

El primer aviso llegó con este cambio de Anthropic: si usabas Claude dentro de herramientas de terceros como OpenClaw, la fiesta se acabó. Más allá de la noticia, lo interesante es lo que deja ver: cuando tu flujo depende de una plataforma cerrada, una decisión ajena puede cambiarte el sistema de un día para otro.

Ese mismo debate apareció de otra forma con MemPalace. Lo interesante no es solo que haya salido fuerte en benchmarks, sino la idea de fondo: dejar de intentar adivinar demasiado pronto qué recordar y apostar por guardar más contexto real para recuperarlo mejor después. Al final ha habido un poco de revuelo con el tema, pero ha sido curioso 😄

Y la tercera pata de la semana ha sido probar qué pasa cuando te tomas en serio los modelos locales. En el artículo sobre cómo activar bien el thinking mode de Gemma 4 con LM Studio y OpenCode ya se ve que el problema no es solo "si responde", sino cómo lo configuras, cómo lo expones por API y qué ocurre cuando lo conectas a un flujo real.

Al llevar eso más lejos aparecen tanto las posibilidades como los límites: autonomía útil, sí, pero también alucinaciones, tool calling irregular, zonas horarias mal resueltas y demasiada confianza cuando el modelo es pequeño. Justo por eso cada vez me interesa menos el benchmark aislado y más esta pregunta: ¿qué parte de tu sistema quieres delegar, con qué control, y sobre qué infraestructura?


El vídeo de la semana: Infraestructura local con Gemma 4

En este vídeo hago la prueba completa: LM Studio sirviendo la API, OpenCode como agente, Telegram como interfaz y tools reales para ver si un modelo local aguanta un flujo de trabajo de verdad.

La conclusión corta es que ya no estamos en el punto de "modelo local como juguete". Pero tampoco en el de sustituir sin más un stack remoto serio. Hay valor real, sobre todo si te importa privacidad, coste o control, pero hay que entender muy bien dónde se rompe.

Ver el vídeo en YouTube


Lecturas recomendadas

Building Managed Agents

Muy buena pieza para entender lo complicado que se vuelve el sistema cuando el agente deja de ser una interacción corta y pasa a ejecutar trabajo durante más tiempo.

The idea file de Karpathy para knowledge bases con LLMs

Me interesa porque aterriza muy bien una idea que iremos viendo más: compartir especificaciones e ideas operables para que otro agente las adapte y las construya en su contexto.

Cómo convertir trabajo repetido en skills y automatizaciones

Buen recordatorio de algo importante: si una tarea va a repetirse, no basta con resolverla una vez. Hay que convertirla en sistema.


Novedades de modelos

Claude Mythos Preview

Tiene pinta de ser una bestia, aunque también huele a modelo de los que no vamos a tocar demasiado salvo que el coste baje bastante.

Muse Spark

Meta empuja fuerte la idea de multimodalidad nativa, tool use y orquestación multiagente. Habrá que ver cuánto hay aquí de producto real y cuánto de promesa.

GLM-5.1

Interesante por el foco en tareas largas y autónomas. Si cumple una parte razonable de lo que promete, puede dar bastante juego en flujos agent-first.


Próxima edición de AI Expert

Si quieres trabajar justo esta capa útil de agentes, contexto, automatización y criterio técnico sin tragarte toneladas de humo, en AI Expert profundizamos en ello con casos reales y flujos de trabajo de verdad.

Toda la información aquí


Un abrazo,

Antonio.