OpenAI lanzó oficialmente GPT-5.5 el 23 de abril de 2026, un nuevo modelo de IA diseñado para comprender la intención del usuario en aplicaciones del mundo real mediante capacidades nativas de uso de computadora. El modelo presenta capacidades nativas de propósito general que le permiten navegar aplicaciones de escritorio, hacer clic en botones y escribir texto para flujos de trabajo de varios pasos, según el anuncio de OpenAI.

GPT-5.5 combina el uso nativo de computadora con razonamiento avanzado, navegando de forma autónoma por las herramientas de software necesarias para tareas profesionales de alto nivel. La ventana de contexto de ~1,1 millones de tokens del modelo le permite procesar enormes conjuntos de datos financieros que antes requerían fragmentación manual. El equipo financiero de OpenAI utilizó GPT-5.5 para revisar 24.771 formularios de impuestos K-1 (71.637 páginas) y completó la tarea dos semanas más rápido que el año anterior.

Métricas de rendimiento

GPT-5.5 obtuvo 88,5% en tareas internas de modelado de banca de inversión y 60% en el benchmark FinancialAgent v1.1, superando a GPT-5.4 por cuatro puntos. El modelo logró 84,9% en GDPval, que evalúa la capacidad de los agentes para producir trabajo de conocimiento específico en 44 ocupaciones. En OSWorld-Verified, que mide las operaciones autónomas reales en computadora del modelo, este alcanzó 78,7%. GPT-5.5 obtuvo 98% en la Telecom Tau2-bench, que evalúa flujos de trabajo de atención al cliente extremadamente difíciles.

Un empleado del equipo de Go-to-Market confirmó que automatizar los informes semanales de negocios ahorrará aproximadamente 5-10 horas de trabajo manual por semana.

Generación de código y optimización del sistema

OpenAI informa que GPT-5.5 se utilizó para ayudar a escribir código para su propia infraestructura de servicio. El modelo logró la “Optimización a nivel de sistema” al analizar patrones de tráfico en producción para escribir heurísticas personalizadas de balanceo de carga, aumentando su propia velocidad de generación de tokens en 20%.

En una prueba para desarrolladores, al modelo se le pidió “re-archivar un editor de markdown” y devolvió una pila de 12 diferencias casi completa con corrección humana mínima. OpenAI señala que el nuevo modelo llega a la respuesta correcta en menos turnos y usa 40% menos tokens para las mismas tareas de Codex en comparación con GPT-5.4.

Dan Shipper, fundador y CEO de Every, describió GPT-5.5 como el primer modelo de codificación que tiene “claridad conceptual seria”. Shipper probó GPT-5.5 después de que él y su mejor ingeniero pasaran días depurando un problema posterior al lanzamiento en una aplicación. Según Shipper, GPT-5.5 logró lo que GPT-5.4 no pudo: examinó el código roto y produjo la reescritura que el ingeniero finalmente decidió. El modelo puede “recordar” y hacer referencias cruzadas a bibliotecas completas de información sin perder su lugar, reduciendo las “alucinaciones” que afectaban a versiones anteriores.

Capacidades autónomas y autocorrección

OpenAI afirma que GPT-5.5 está optimizado para la “autocorrección” y la autonomía. Es mejor interpretando instrucciones ambiguas y usando una interfaz de computadora (clicking, typing, browsing) para completar objetivos sin intervención humana. El modelo se vuelve especialmente útil cuando se necesita que un agente opere software, gestione flujos de trabajo con mucho uso de terminal o razone a través de una base de código completa (500K+ tokens) con alta precisión de recuperación.

Función de pensamiento de GPT-5.5

En ChatGPT, OpenAI introdujo “GPT-5.5 Thinking”, que la empresa dice que desbloquea ayuda más rápida para problemas más difíciles. La función proporciona respuestas más inteligentes y concisas para ayudar a los usuarios a completar tareas complicadas de forma más eficiente. Se destaca en trabajo profesional como síntesis y análisis de información, codificación y tareas con mucha carga documental como la investigación, especialmente cuando se usan plugins.

Los primeros probadores Pro de GPT-5.5 reportan una mejora masiva tanto en la calidad como en la dificultad del trabajo que ChatGPT puede asumir. Su menor latencia lo hace más práctico para tareas exigentes que GPT-5.4 Pro. Las respuestas de GPT-5.5 Pro están bien estructuradas, son relevantes, útiles y precisas, con un desempeño particularmente fuerte en derecho, ciencia de datos, negocios y educación.

Precios y accesibilidad

Si bien hay una versión básica disponible, la versión más capaz (GPT-5.5 Pro) cuesta $100/mes para suscriptores individuales. Para empresas, el costo por token de salida es aproximadamente el doble del de GPT-5.4, incluso con 40% mayor eficiencia de tokens. El gasto total para despliegues agentic a gran escala puede ser sustancial. Existe una preocupación creciente de que el razonamiento de más alto nivel se convierta en un “lujo” accesible solo para empresas bien financiadas, potencialmente ampliando la brecha de productividad entre grandes empresas y pequeñas startups.

Ver fuente

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

AprDaydream

· hace2h

Espero que la oficina oficial proporcione un mecanismo de registro de acciones o reproducción que sea auditable, de lo contrario, será difícil responsabilizarse en caso de problemas, especialmente en cuentas de activos operadas automáticamente.

Ver originalesResponder0

PaperHandsPro

· hace2h

La "comprensión de la intención" en aplicaciones reales es realmente difícil, espero que no vuelva a ocurrir esa situación incómoda en la que quieres reservar un vuelo y él modifica tu currículum.

Ver originalesResponder0

Half-SectionedSucculent

· hace2h

Un poco de expectativa, y también un poco de miedo: poder hacer clic con el ratón equivale a poder hacer muchas cosas que solo los “clics humanos” pueden hacer, por lo que la gestión de riesgos y la lucha contra el fraude deben actualizarse.

Ver originalesResponder0

ACalmnessWithAHintOfPomelo

· hace2h

Esta ola también tendrá impacto en Web3, si la automatización de operaciones en la cadena, los procesos de firma y la interacción con billeteras se pueden hacer de manera fluida, la forma del producto cambiará.

Ver originalesResponder0

StarsInTheGlassDome

· hace2h

API y precios, primero no te apresures, primero mira si puede resistir ventanas emergentes, múltiples ventanas y fluctuaciones de red en un entorno de escritorio complejo.

Ver originalesResponder0

GateUser-b665e41c

· hace2h

Sentir que ha evolucionado de "puede hablar y escribir" a "puede hacer y entregar", el siguiente paso es proporcionarle una mejor memoria y gestión de tareas.

Ver originalesResponder0

LintCollector

· hace2h

Si realmente se pudiera conectar a través de diferentes aplicaciones: buscar información en el navegador → procesar en Excel → crear presentación en PPT → enviar por correo electrónico, sería un ciclo completo de flujo de trabajo de oficina.

Ver originalesResponder0

DegenWithNotebook

· hace2h

¿Finalmente ahora en la plataforma de escritorio con operaciones nativas? Esto realmente te convertirá en un "practicante digital".

Ver originalesResponder0