Actualidad y Noticias IA - Septiembre 2025, semana del 22 de Septiembre

Actualidad y Noticias IA - Septiembre 2025, semana del 22 de Septiembre

EmbeddingGemma: Google trae embeddings abiertos que caben en tu móvil

Google DeepMind ha lanzado EmbeddingGemma, un modelo de embeddings multilingüe de 308 millones de parámetros optimizado para ejecuciones en dispositivo (on-device). Esto permite que tareas como búsqueda semántica, clasificación o recuperación de contexto para agentes RAG se hagan sin depender de la nube.

Una de las ventajas técnicas más destacadas es que utiliza el mismo tokenizador que Gemma 3n para procesar texto, lo que reduce la huella de memoria en aplicaciones de RAG, donde cada miligramo de latencia cuenta cuando tu app está en el bolsillo.

EmbeddingGemma soporta más de 100 idiomas, lo que lo hace ideal para despliegues globales o aplicaciones que deben robustez frente a diversidad lingüística. Las métricas del Massive Multilingual Text Embedding Benchmark (MTEB) lo posicionan muy bien dentro de modelos ligeros.

Otro punto técnico: su ventana de contexto de 2.000 tokens le da margen para manejar documentos medianos o combinar fragmentos contextuales útiles para agentes inteligentes, sin tener que fragmentar excesivamente (lo cual siempre es un engorro).

Desde el punto de vista de aplicabilidad, EmbeddingGemma abre la puerta a asistentes personales que pueden indexar conversaciones previas, documentos locales y búsquedas offline, sin necesidad de enviar cada texto a servidores remotos, lo que mejora privacidad y latencia.

Aunque el modelo no tiene capacidades generativas completas, su papel como pieza de infraestructura es clave: buenos embeddings implican mejores agentes, respuestas más relevantes y un futuro donde el dispositivo no es sólo pantalla, sino parte activa del agente inteligente.

 

Citi despliega agentes IA internos: el futuro del workflow ya está en los bancos

Citigroup ha empezado un programa piloto para introducir agentes IA avanzados dentro de su plataforma interna, con el objetivo de automatizar flujos complejos que antes requerían supervisión humana en cada paso. Esto representa un gran paso para agentes que operan con cierto grado de autonomía.

Utilizando modelos como Gemini de Google y Claude de Anthropic, estos agentes podrán ejecutar tareas multi-paso —como perfilado de datos, traducción, investigación— a partir de un solo prompt, reduciendo tiempos y complicaciones manuales.

Desde lo técnico, el sistema debe lidiar con integración entre múltiples sistemas internos del banco, gestión de permisos, seguridad de datos y latencia. Es un reto construir agentes “conectados”, que sepan hablar con bases de datos, CRM, sistemas de cumplimiento, etc.

El piloto involucra unos 5.000 usuarios y será evaluado en métricas de costo-beneficio, precisión y aceptación de usuario. En otras palabras: no solo es importante lo que el agente puede hacer, sino si realmente sirve y los usuarios lo usan.

El impacto en el mercado financiero puede ser profundo: automatización de procesos internos, mejor atención al cliente, reducción de errores manuales y ahorro en costes operativos. También puede generar debate acerca del rol de humanos en estas operaciones.

Este tipo de iniciativas nos acercan a un escenario en que decir “hazlo por mí, agente” no sea frase de ciencia ficción, sino algo que ya tu banco puede implementar detrás de las cortinas.

 

Intuit mejora GenOS: LLMs financieros y agentes + experto humano

Y más en el ámbito financiero. Intuit ha anunciado mejoras profundas en su sistema llamado GenOS que busca ofrecer experiencias agentic IA a escala en productos como QuickBooks, Credit Karma y Mailchimp. La novedad incluye LLMs financieros entrenados para tareas específicas y agentes que colaboran con expertos humanos.

En lo técnico, los nuevos modelos financieros reducen latencia en tareas críticas, mejoran la precisión de categorización de transacciones en entornos de contabilidad y finanzas, y soportan integración de experto humano (“expert-in-the-loop”) para supervisar decisiones complejas.

Además, Intuit ha añadido herramientas de evaluación de agentes que permiten medir no solo si el agente cumple la tarea, sino cómo lo hace: eficiencia, seguridad, coherencia y precisión. Esa es la diferencia entre “hacer algo” y “hacerlo bien”.

Para negocios pequeños y medianos, estas mejoras implican menos fricciones: agentes que automatizan tareas rutinarias, que interactúan con usuarios más naturalmente, y que pueden integrarse en flujos financieros reales sin gran esfuerzo.

No obstante, los desafíos incluyen asegurar que estos agentes financieros no introduzcan sesgos en clasificación de transacciones, cumplan normativas financieras, y evitar que la automatización genere errores costosos.

Con estas mejoras, GenOS refuerza la idea de que los agentes inteligentes no son solo chatbots que hablan bonito, sino motores que operan con precisión en dominios exigentes. Y sí, los contadores también podrían empezar a mirar con recelo.

 

Qwen3-Omni: el modelo multimodal abierto que desafía fronteras

Alibaba ha publicado Qwen3-Omni, un modelo AI multimodal open-source bajo licencia Apache 2.0, que procesa texto, imágenes, audio y vídeo, reforzando su posición como alternativa competitiva frente a gigantes cerrados.

Una novedad importante es que Qwen3-Omni está diseñado para ofrecer latencia optimizada, incluso en streaming, lo que lo hace viable para agentes que manejan contenido multimodal en tiempo real, como asistentes de vídeo interactivo o generación visual-auditiva.

El modelo integra pipelines de reconocimiento y generación de diferentes tipos medios dentro de una sola arquitectura, lo que evita tener que coordinar múltiples modelos separados para tareas de audio, texto e imagen, reduciendo complejidad operativa.

Desde lo comercial, Qwen3-Omni plantea un escenario atractivo para desarrolladores que buscan modelos abiertos robustos, con buen soporte de licencia y comunidad, accesible sin pagar licencias propietarias costosas.

Por otro lado, mantener los pesos abiertos y la optimización eficiente en hardware sigue siendo un reto: ejecutar multimodalidad en dispositivo o con conectividad limitada exige recursos significativos.

Este tipo de modelos redefine lo que esperamos de los asistentes del futuro: agentes que no solo entiendan tu texto, sino que vean, escuchen y respondan en todos los medios. Y eso da ganas de probarlo.

 

Qwen3-ASR Flash de Alibaba: reconocedor de voz que no se pierde ni con ruido ni dialectos.

Y siguiendo ronda con el gigante chino, Alibaba también ha presentado Qwen3-ASR Flash, un modelo de reconocimiento automático de voz (ASR) construido sobre Qwen3-Omni, capaz de transcribir en 11 idiomas (entre ellos inglés, mandarín, español, árabe) con detección automática de lengua.

Una novedad técnica es su robustez frente a ambientes ruidosos y variaciones dialectales. Qwen3-ASR ha sido entrenado con millones de horas de audio, lo que mejora su tolerancia al ruido y acentos no estándar, algo que muchos modelos ASR tradicionales todavía luchan por resolver.

El servicio se ofrece como API, lo que facilita su integración en aplicaciones de agentes conversacionales, subtitulado, servicios de voz, y herramientas de accesibilidad. De esta forma, los asistentes que funcionan por voz ganan precisión y confiabilidad.

Según benchmarks comparativos recientes (como los de MarkTechPost), Qwen3-ASR supera en entornos clave a otros ASR públicos en error de palabra (WER), especialmente al transcribir música o voz con fondo, lo que lo hace particularmente útil para ámbitos multimedia.

En términos de impacto, modelos como este aceleran la competencia en reconocimiento de voz global, reduciendo la barrera para empresas que dependen de reconocimiento de voz en múltiples idiomas o regiones diversas.

El modelo no está libre de limitaciones: sigue habiendo desafíos con términos muy especializados, nombres propios poco comunes, y latencia en algunos dispositivos de baja gama. Pero en general, Qwen3-ASR Flash marca un gran salto hacia asistentes por voz más fiables.

 

Check Point compra Lakera: refuerzo de seguridad para agentes IA

Check Point ha anunciado la adquisición de Lakera, una firma especializada en seguridad nativa para IA, que provee funciones como detección de patrones adversariales y protección en tiempo real para modelos LLMs y agentes autónomos. Esto obedece al creciente riesgo de ataques y mal usos conforme se amplía la adopción de agentes generativos.

Desde lo técnico, Lakera aporta tanto protecciones en tiempo de ejecución (runtime) como evaluaciones previas al despliegue, lo que significa que los modelos no solo se prueban en laboratorio, sino que también se aseguran mientras operan. Eso baja el riesgo de exploits post-lanzamiento.

La integración con la plataforma Infinity de Check Point permitirá que empresas tengan una “capa de seguridad LLM-aware”, supervisando agentes, bloqueando comportamientos inesperados y gestionando vulnerabilidades emergentes. Es un plugin de seguridad que los agentes agradecerán.

Para organizaciones que ya usan agentes internos (automatización de atención al cliente, workflows internos, análisis de datos), esta compra puede mejorar la fiabilidad sin tener que rediseñar modelos. La sobrecarga de seguridad, sin perder operatividad, es crucial.

Sin embargo, la velocidad del despliegue puede enfrentarse a retos: modelos ya en producción podrían necesitar adaptación para ser compatibles con las protecciones de Lakera. Además, mantener baja la tasa de falsos positivos es esencial para que el sistema de seguridad no sea un dolor de cabeza diario.

En definitiva, esta operación reafirma algo que ya se veía venir: que la seguridad ya no es opcional para LLMs y agentes, sino una pieza central. Y sí, la IA que actúa autónoma también necesita guardaespaldas.