GPT-5 ha llegado, más listo y más rápido.
No puede ser de otra forma, no se habla de otra cosa esta semana, del lanzamiento de GPT-5 marca un nuevo hito en la evolución de los modelos de lenguaje. Disponible ya para usuarios de ChatGPT y desarrolladores vía API, este modelo representa el avance más significativo hasta la fecha en términos de razonamiento, velocidad y fiabilidad. En palabras del CEO Sam Altman, GPT-5 es “como tener un experto con doctorado en tu bolsillo”—aunque, por suerte, el modelo no exige café.
Desde el punto de vista técnico, GPT-5 opera como un sistema unificado que emplea un modelo eficiente para tareas comunes y un modelo de razonamiento profundo (“GPT-5 thinking”) para problemas complejos. Todo ello es gestionado por un enrutador en tiempo real que decide cuál modelo utilizar, liberando al usuario de tener que elegir manualmente el "más adecuado".
Este sistema mejora visiblemente el rendimiento en benchmarks profesionales como SWE-Bench Verified, donde ofrece resultados líderes en generación de código, comprensión de salud y razonamiento multimodal, incluido el manejo de entradas de texto e imágenes conjuntamente. Además, ha sido entrenado para minimizar alucinaciones y ofrecer respuestas más seguras con el nuevo enfoque llamado “completions seguras”.
GPT-5 introduce una ventana de contexto sorprendentemente amplia de hasta 256 000 tokens en ChatGPT y 400 000 en la API, lo que permite mantener coherencia en documentos extensos o largas sesiones de conversación. Además, la versión incluye capacidades multimodales reales: texto, imagen, audio y vídeo en tiempo real, lo que lo convierte en una herramienta verdaderamente integral.
Para los desarrolladores, GPT-5 está disponible en variantes escalables: estándar, mini y nano, cada una con distintos niveles de velocidad y costo. También se presentan nuevos parámetros de API como `verbosity` y `reasoning_effort`, que permiten afinar la profundidad y extensión de las respuestas según necesidad—ideal para quien necesita precisión sin que le tome toda la vida.
En el mercado, el impacto es inmediato: GPT-5 se ha integrado en Azure AI Foundry, alcanzando empresariales que buscan llevar proyectos de piloto a producción a escala. Además, empresas como Microsoft en Copilot, Apple en su funcionalidad “Apple Intelligence”, y corporaciones como Uber, BBVA o GitLab ya lo están usando para mejorar soporte, desarrollo y análisis financiero.
Por otro lado, el despliegue también viene acompañado de críticas: algunos usuarios lamentan que GPT-5 se sienta menos creativo o emocional que GPT-4o, calificándolo como demasiado serio o “menos simpático”. OpenAI ha respondido prometiendo ajustes al enrutador y reintroducción opcional del modelo anterior para quienes lo prefieran.
Si quieres saber algo mas de las principales caracteristicas, mírate este video:
OpenAI se hace "open" de verdad con modelos GPT-OSS liberados para todos
OpenAI ha realizado un movimiento histórico al lanzar sus primeros modelos open-weight desde GPT-2: gpt-oss-120b y gpt-oss-20b. Bajo licencia Apache 2.0, estos modelos ya están disponibles públicamente en plataformas como Hugging Face, GitHub, LM Studio, Azure y AWS :contentReference[oaicite:0]{index=0}. Esto marca un cambio estratégico hacia mayor transparencia y accesibilidad técnica, sin necesidad de API, sin pagos recurrentes, sino la posibilidad de ejecutar y modificar los modelos localmente.
Desde el punto de vista técnico, ambos modelos utilizan una arquitectura Mixture-of-Experts (MoE) optimizada. El modelo grande (gpt-oss-120b) activa 5.1 B de parámetros por token, mientras que el pequeño (gpt-oss-20b) activa 3.6 B. También incorporan atención densa alternada con atención esparcida y grouped multi-query para mejorar la eficiencia en inferencia :contentReference[oaicite:1]{index=1}. Además, ambos soportan razonamiento tipo “chain-of-thought”, uso de herramientas y estructuras de chat, lo que los hace ideales para agentes y flujos conversacionales complejos.
En benchmarks prácticos, gpt-oss-120b exhibe un rendimiento equiparable al modelo comercial o4-mini en tareas de codificación competitiva, razonamiento matemático (AIME), salud (HealthBench) y uso de herramientas (Tau-Bench). Por su parte, gpt-oss-20b logra una eficiencia notable similar a o3-mini, todo ello con una huella de hardware mucho más baja :contentReference[oaicite:2]{index=2}.
Esto se traduce en aplicabilidad real: gpt-oss-120b puede funcionar en una sola GPU de 80 GB, y gpt-oss-20b cabe en una máquina con solo 16 GB de VRAM. Ambas facilitan la implementación local o en dispositivo, lo que empodera desarrolladores, startups y organizaciones que buscan autonomía sin depender de servicios cerrados :contentReference[oaicite:3]{index=3}.
OpenAI ha filtrado conscientemente datos sensibles sobre temas químicos, biológicos, radiológicos y nucleares durante el pre-entrenamiento. Además, ejecutó escenarios de fine-tuning malicioso, confirmando que ninguno de esos ajustes alcanzó niveles de riesgo elevados bajo su "Preparedness Framework", desarrollado en colaboración con auditores externos :contentReference[oaicite:4]{index=4}.
En términos de impacto en el mercado, esta apertura responde a la presión competitiva generada por modelos open-source de Meta, Mistral y DeepSeek. También alienta la creación de una comunidad que contribuya, optimice y experimente libremente con modelos de alto nivel, sin pagar licencias ni depender de APIs propietarias :contentReference[oaicite:5]{index=5}.
Sin embargo, el lanzamiento también conlleva desafíos. El artículo del Financial Times señala que los modelos open-weight podrían atraer a usuarios que se contenten con una versión "suficientemente buena", dejando atrás las versiones de pago. Esto podría erosionar parcialmente el modelo de negocio de OpenAI, lo que les obliga a equilibrar apertura y monetización :contentReference[oaicite:6]{index=6}.
Desde una perspectiva estratégica, OpenAI ha declarado que esta línea open-weight es complementaria a sus versiones propietarias, y que seguirá innovando en servicios API y plataformas como Copilot o ChatGPT. En palabras de Greg Brockman, esta apertura busca fomentar el ecosistema sin sacrificar los productos diferenciados de OpenAI :contentReference[oaicite:7]{index=7}.
Genie 3, la IA generativa que crea mundos 3D jugables desde prompt
DeepMind ha presentado su modelo de entorno virtual más avanzado: Genie 3, una inteligencia artificial que genera entornos interactivos en 3D en tiempo real a partir de un prompt o imagen. Estos mundos operan a 24 fps y 720p, y permiten navegar y manipular objetos con coherencia durante varios minutos. Es como si le pidieras al modelo “muéstrame una montaña nevada” y, ¡pum!, castillo incluído.
Este modelo permite explorar mundos que mantienen coherencia visual por varios minutos, lo que supone un salto gigantesco frente a la versión anterior (Genie 2) que solo ofrecía unos segundos de interacción razonable. Esta memoria del entorno marca un avance vital para formar agentes que aprenden de su ambiente.
Genie 3 también incorpora “promptable world events”: puedes cambiar el clima, añadir elementos o desencadenar eventos en tiempo real simplemente escribiendo. Es como un SimCity, pero sin tu vieja computadora ralentizada… y sin que necesites aprender menús complicados.
Desde el punto de vista técnico, Genie 3 se basa en una arquitectura autoregresiva. Cada fotograma se genera basándose en los anteriores y en las acciones del usuario, dando lugar a entornos dinámicos que no dependen de motores 3D tradicionales como NeRF, sino de su propia lógica emergente.
Este enfoque permite que Genie 3 simule fenómenos físicos -como agua, luz y fricción- sin programarlos explícitamente, algo que solo se logra cuando atraviesas lava virtual y aún puedes ver tus neumáticos crujir sobre roca volcánica. Muy real.
DeepMind plantea Genie 3 como herramienta esencial para entrenar agentes integrados (embodied agents), ofreciendo un laboratorio virtual infinito para que robots aprendan sin riesgo real, ideal para probar sistemas de entrega, drones o logística.
En términos de mercado, aunque aún está en fase de “limited research preview” y accesible solo para una selección de investigadores, Genie 3 ya está levantando cabeza ante la comunidad de game devs, simulación, metaverso y robótica. El futuro AGI puede que se entrene primero en montañas de píxeles.
No obstante, no todo es perfecto: el modelo tiene limitaciones como duración corta de interacción, edición de texto limitada dentro de los mundos generados y física imprecisa en situaciones complejas con muchos actores. Aún así, es ¡una ventana al futuro… con algunos artefactos en los bordes.
Por supuesto, como toda obra de DeepMind, también se abordaron responsabilidades. Genie 3 sigue protocolos de evaluación de riesgo (Responsible Development Framework) y se está ampliando su acceso progresivamente, asegurando que no se use para crear realidades virtuales con intenciones dudosas.
En resumen, Genie 3 eleva los world models al siguiente nivel: entornos interactivos que recuerdan, responden y permiten explorar ideas sin límite. Todavía no leerá tu mente (ojalá) ni traerá café, pero educará agentes, diseñará niveles de videojuego y entrenará robots sin morir en el intento.
Mirate este video, y verás que nuevas posibilidades abre este tipo de soluciones: