Actualidad y Noticias IA - Octubre 2025, semana del 6 de Octubre

06 Oct 2025
By kedonti

Claude Sonnet 4.5: el salto para agentes y código que todos esperaban.

Anthropic acaba de anunciar Claude Sonnet 4.5, un modelo avanzado diseñado para agentes complejos, codificación y uso de computadoras. Según la nota oficial, representa mejoras sustanciales en razonamiento, manejo de contexto y ejecución de herramientas respecto a Sonnet 4.

En la práctica, Sonnet 4.5 integra nuevas funciones como checkpoints en Claude Code para guardar progreso, una interfaz mejorada y memorias cruzadas entre conversaciones. También ha optimizado el uso de herramientas externas y la coordinación entre agentes distribuidos.

Lo interesante: está ya disponible en servicios como Amazon Bedrock (disponible como modelo gestionado) y Google Vertex AI, lo que permite desplegar agentes más sofisticados sin infraestructura propia.

Benchmark internos indican que Sonnet 4.5 supera a Sonnet 4 en tareas de razonamiento, matemáticas y contexto extendido. Ahora puede mantener enfoque en tareas prolongadas por más de 30 horas sin degradación significativa.

Para desarrolladores de agentes, esto es clave: un modelo más confiable para pipelines largos, interacciones múltiples, recuperación de estado y coordinación entre módulos. En otras palabras: agentes que no se “cansen” tan rápido.

Si antes para tareas complejas preferías combinar modelos, ahora Sonnet 4.5 está apuntando a hacerlo todo en uno. Si la IA te entiende mientras haces café y no crashea, bienvenido al futuro.

AI Mode en español: Google lleva su búsqueda conversacional a Iberoamérica

Google ha lanzado su AI Mode para usuarios de habla hispana, permitiendo búsquedas que combinan texto, imágenes y voz con respuestas generadas por IA directamente integradas en la interfaz de búsqueda tradicional.

Técnicamente, AI Mode divide consultas complejas en subtemas, realiza búsquedas simultáneas y monta respuestas ricas con enlaces útiles. En español, el reto es más ambicioso por la diversidad de dialectos y expresiones culturales que debe comprender correctamente.

Para usuarios, esto significa que ya puedes pedir “cuéntame la historia de Toledo con mapas antiguos” y recibir un resultado interactivo que mezcla texto, imágenes y enlaces sin salir del buscador. Es más conversa que simple búsqueda.

El despliegue en español también implica mejoras en localización: adaptar respuestas a variantes latinoamericanas, reconocer modismos regionales y ofrecer respuestas relevantes culturalmente. No basta con traducir de un modo literal.

Desde el punto de vista de los asistentes, AI Mode podría ser una piedra angular: los modelos que alimentan esas respuestas (como Gemini) pueden reutilizarse para agentes conversacionales en español con mejor calidad y contexto.

Meta Ray-Ban Display: gafas inteligentes con IA y control por gestos.

En el evento Meta Connect 2025, Zuckerberg reveló las nuevas gafas inteligentes Ray-Ban Display junto con la pulsera Neural Band para control gestual. Estas gafas integran pantalla en uno de los lentes, IA embebida, subtítulos en tiempo real y conectividad con apps como WhatsApp e Instagram.

La pulsera funciona como interfaz gestual: deslizamientos y movimientos controlan funciones de las gafas (navegación, selección de menús, activar comandos). Juntas crean un ecosistema wearable más fluido y manos libres.

El hardware monta cámaras de 12 MP, batería de 6 horas (con carga adicional desde el estuche), y funciones de subtítulo para ambientes con ruido o usuarios multilingües. En la demo, hubo un fallo técnico al mostrar una receta en vivo—algo que Zuckerberg manejó con humor.

Desde el punto de vista de asistentes IA, estas gafas permiten asistentes visuales contextuales: puedes apuntar a algo y pedir datos, obtener traducciones o ver rutas emergentes sin mirar el móvil. Es una evolución hacia agentes personales invisibles.

El desafío técnico es enorme: latencia visual, sincronización con el móvil, consumo energético y comodidad del usuario (peso, calor, interfaces). Pero Meta apuesta por que la experiencia sea suficientemente fluida para que no notes el “milagro”.

Si todo funciona bien, estas gafas podrían convertir a los smartphones en transición. Y si no harás memes: “cuando tus gafas no obedecen, al menos tu pulsera sí”.

Compra directamente desde ChatGPT: el nuevo capítulo del comercio conversacional

OpenAI ha lanzado “Instant Checkout”, que permite a los usuarios comprar directamente dentro de una conversación en ChatGPT. Ya no tendrás que saltar entre pestañas: si pides un producto, puedes pagarlo ahí mismo, siempre que esté soportado por el sistema. Es una jugada audaz hacia el comercio integrado.

Desde lo técnico, esto se fundamenta en el protocolo Agentic Commerce Protocol (ACP), desarrollado junto a Stripe. Este estándar permite que agentes de IA interactúen con sistemas de pago y comerciantes sin exponer datos sensibles, gestionando permisos, tokens y confirmaciones automáticamente.

En su fase inicial, solo se admiten compras de un solo ítem con comerciantes de EE. UU. en Etsy y Shopify, pero los planes incluyen soporte para múltiples artículos y expansión geográfica. El soporte de vendedores crecerá conforme más tiendas se sumen al ecosistema.

La integración con agentes conversacionales hace que el proceso de compra sea más ágil: el agente puede recomendar, comparar y comprar en pocos pasos, mientras tú sigues dialogando. Tener un asistente que también sea tu comprador suena como argumento convincente para evitar abrir Chrome.

En cuanto a impacto, esto convierte a ChatGPT en un competidor indirecto de Amazon y Google Shopping. Las tarifas de transacción pueden convertirse en una nueva fuente de ingresos para OpenAI, más allá de suscripciones y licencias.

Claro que hay riesgos: fraudes, disputas de pago, errores en pedidos y experiencia de usuario son desafíos críticos. Pero si lo hacen bien, tal vez sea la primera vez que tu IA termine comprando mejor que tú.

Gemini Robotics-ER 1.5: el “cerebro espacial” que piensa antes de mover robots

Google DeepMind ha presentado recientemente Gemini Robotics-ER 1.5, una versión avanzada del módulo de razonamiento encarnado (Embodied Reasoning) que actúa como “cerebro” para robots. Su función no es controlar directamente los motores, sino elaborar planes espaciales, razonamientos de alto nivel y supervisar las acciones del modelo VLA principal para tareas físicas complejas.

La arquitectura de ER 1.5 integra una combinación de módulos: percepción espacial, planificación de trayectorias y evaluación de progreso en múltiples pasos. Al modularizar estas responsabilidades, permite que el modelo VLA (visión-lenguaje-acción) se concentre en ejecutar cada paso con precisión, mientras ER brinda dirección lógica del proceso.

Uno de los avances más llamativos es la capacidad de **transferencia de movimiento** (Motion Transfer): los movimientos aprendidos por un robot pueden aplicarse a otro con distinta forma o cinemática, sin reentrenar desde cero. Esto acelera la adaptabilidad entre diferentes cuerpos robóticos.

Gemini Robotics-ER 1.5 ya se encuentra disponible para desarrolladores a través de la API de Gemini en Google AI Studio, lo que facilita su integración en entornos reales. Mientras tanto, la versión completa de Gemini Robotics 1.5 (control directo de acciones) está en etapa de despliegue con socios seleccionados.

En aplicación práctica, ER 1.5 puede permitir que robots domésticos, plataformas de logística o asistentes físicos piensen varios pasos por delante: decidir qué objeto tomar primero, anticipar obstáculos o adaptar planes en tiempo real. Es un salto hacia agentes físicos verdaderamente inteligentes.

No todo es perfecto: aunque ER 1.5 mejora la transparencia al generar razonamientos internos en lenguaje natural, su rendimiento depende fuertemente de sensores, calibración y controladores físicos. Pero para robots que “piensan antes de actuar”, es un avance notable.