OpenAI afirma que ChatGPT Images 2.0 puede pensar
![]()
OpenAI lanza ChatGPT Images 2.0, una importante actualización del mismo sistema de generación de imágenes Amplía su función de una herramienta creativa a una plataforma de flujo de trabajo visual más completa. El nuevo modelo está disponible en ChatGPT, Codex y API y está diseñado para manejar tareas más complejas del mundo real con mayor precisión, flexibilidad y control.
En lugar de centrarse únicamente en la experimentación visual, Imagen 2.0 Un sistema posicionado para producir resultados utilizables en flujos de trabajo de diseño, educación, desarrollo y creación de contenido. Esta actualización destaca un cumplimiento mejorado de los comandos, una representación de texto más sólida, una mejor ubicación de los objetos y un soporte ampliado para diferentes formatos e idiomas.
“La imagen es un lenguaje, no una decoración. Una buena imagen es como una buena frase: selecciona, organiza y revela. Puede explicar un mecanismo, presentar una emoción, probar una idea o presentar un argumento”, dijo OpenAI.
Este marco señala un cambio más amplio en la forma en que se producen las imágenes. En lugar de ser una característica independiente, Images 2.0 está diseñada para ser parte de un proceso creativo y de resolución de problemas más amplio, donde las imágenes se tratan como resultados estructurados en lugar de puramente estéticos.
Mayor precisión y control
Una de las mejoras más significativas de Images 2.0 es su capacidad para manejar indicaciones detalladas y muy específicas con mayor fidelidad. OpenAI dice que el modelo es más capaz de seguir instrucciones complejas y preservar detalles finos con los que los sistemas de imágenes anteriores a menudo tenían problemas.
“Image 2.0 aporta un nivel sin precedentes de especificidad y fidelidad a la creación de imágenes. No solo puede conceptualizar imágenes más complejas, sino que también puede dar vida a las visiones de manera efectiva, con la capacidad de seguir instrucciones, retener los detalles requeridos y representar los elementos detallados que a menudo rompen el modelo de imagen: texto pequeño, imágenes, elementos de interfaz de usuario, composiciones densas y restricciones estilísticas sutiles, y en resoluciones API de hasta 2K.
![]()
Mayores capacidades multilingües
Otro avance importante es la compatibilidad con varios idiomas, particularmente en términos de representación precisa de texto no latino en imágenes. Los modelos de generación de imágenes anteriores a menudo han tenido problemas con la coherencia fuera del inglés, especialmente cuando se trata de texto denso o estilísticamente integrado.
“Image 2.0 cruza esta barrera con una mayor comprensión en varios idiomas y un progreso significativo en la representación de textos no latinos, particularmente japonés, coreano, chino, hindi y bengalí”, dijo OpenAI.
Esta mejora va más allá de la simple traducción. El modelo puede producir imágenes donde el lenguaje es una parte integral del diseño, ya sea en formatos narrativos como carteles, gráficos o cómics.
![]()
![]()
Fidelidad estilística y realismo
Images 2.0 también garantiza una mayor coherencia entre los estilos visuales. El modelo captura mejor las características definitorias de diferentes estéticas, desde imágenes fotorrealistas hasta formatos estilizados como cómics o pixel art.
“Image 2.0 también muestra mejoras significativas en la fidelidad en una variedad de estilos visuales. Es más capaz de capturar las características definitorias de las fotografías (incluidas las pequeñas imperfecciones que añaden realismo), así como imágenes fijas de películas, pixel art, cómics y otros lenguajes visuales únicos, con mayor consistencia en textura, iluminación, composición y detalle”, dijo OpenAI.
![]()
![]()
Relaciones de aspecto y formatos de salida flexibles
Para admitir mejor los casos de uso del mundo real, Images 2.0 amplía su manejo de formatos de salida. El modelo admite múltiples relaciones de aspecto, lo que facilita la producción de recursos personalizados para plataformas y formatos específicos.
OpenAI dice: “Con soporte para relaciones de aspecto de hasta 3:1 de ancho y 1:3 de alto, Images 2.0 puede producir resultados que se ajusten al formato que necesita, desde pancartas anchas y diapositivas de presentación hasta carteles, pantallas móviles, marcadores y gráficos sociales”.
Esta flexibilidad reduce la necesidad de postproducción y permite a los usuarios producir activos que pueden usarse inmediatamente en diferentes entornos, desde presentaciones hasta redes sociales.
![]()
![]()
Flujo de trabajo de imágenes basado en inferencia
OpenAI integra capacidades de razonamiento en la generación de imágenes por primera vez. Cuando se utiliza con modelos reflexivos o profesionales, Images 2.0 puede analizar tareas más profundamente, fusionar mensajes instantáneos y producir múltiples resultados en una sola solicitud.
“Para ampliar la capacidad del modelo para realizar las tareas más complejas, Images 2.0 es nuestro primer modelo de imagen con la capacidad de pensar”, dijo OpenAI.
Este cambio permite que el sistema vaya más allá de la simple generación rápida de imágenes hacia un flujo de trabajo más estructurado.
“En lugar de solicitar una imagen a la vez y unir el proyecto usted mismo, puede solicitar un conjunto coherente de hasta ocho resultados a la vez, manteniendo los personajes y objetos continuos y construyéndose entre sí en secuencia”, dijo OpenAI.
Esta característica permite casos de uso como guiones gráficos, actividades multiformato y exploración de diseño iterativo en un solo mensaje.
![]()
![]()
compañero de pensamiento visual
Con la inferencia habilitada, Images 2.0 se posiciona menos como una herramienta y más como un sistema colaborativo que puede ayudar durante todo el proceso creativo. El modelo sintetiza información, establece un diseño visual y produce resultados que reflejan el contenido y la intención de la solicitud. Esto es especialmente importante para los flujos de trabajo que combinan investigación, diseño y narración.
“Con la inteligencia del modelo de inferencia de OpenAI y su amplia comprensión del mundo visual, el modelo traslada la generación de imágenes desde la representación al diseño estratégico, y desde las herramientas a los sistemas visuales”, OpenA
![]()
![]()
Limitaciones y desarrollo continuo
A pesar de las mejoras, OpenAI señala que el modelo todavía tiene limitaciones, particularmente en áreas que requieren un razonamiento físico preciso o una precisión estructural muy detallada. La compañía también señala que las texturas extremadamente densas y los gráficos muy detallados pueden requerir una revisión adicional, lo que posiciona estos desafíos como áreas de desarrollo futuro.
![]()
Precios y disponibilidad
Imagen ChatGPT 2.0 Disponible a partir de hoy en ChatGPT, Codex y API. El acceso a la salida avanzada basada en inferencias está limitado a los usuarios de ChatGPT Plus, Pro y Business, mientras que el precio de la API varía según la calidad y la resolución de la salida.
Fuente de la imagen: Inteligencia artificial abierta