Saltar enlaces

OpenAI afirma que ChatGPT Images 2.0 puede pensar

Un collage vibrante rodea la cita. "Crea todo a la vez," Incluye arte, ciencia, naturaleza, fotografía, mapas, mariposas, cámaras, diagramas anatómicos, artefactos culturales y notas escritas a mano en varios idiomas.

OpenAI lanza ChatGPT Images 2.0, una importante actualización del mismo sistema de generación de imágenes Amplía su función de una herramienta creativa a una plataforma de flujo de trabajo visual más completa. El nuevo modelo está disponible en ChatGPT, Codex y API y está diseñado para manejar tareas más complejas del mundo real con mayor precisión, flexibilidad y control.

En lugar de centrarse únicamente en la experimentación visual, Imagen 2.0 Un sistema posicionado para producir resultados utilizables en flujos de trabajo de diseño, educación, desarrollo y creación de contenido. Esta actualización destaca un cumplimiento mejorado de los comandos, una representación de texto más sólida, una mejor ubicación de los objetos y un soporte ampliado para diferentes formatos e idiomas.

“La imagen es un lenguaje, no una decoración. Una buena imagen es como una buena frase: selecciona, organiza y revela. Puede explicar un mecanismo, presentar una emoción, probar una idea o presentar un argumento”, dijo OpenAI.

Este marco señala un cambio más amplio en la forma en que se producen las imágenes. En lugar de ser una característica independiente, Images 2.0 está diseñada para ser parte de un proceso creativo y de resolución de problemas más amplio, donde las imágenes se tratan como resultados estructurados en lugar de puramente estéticos.

Mayor precisión y control

Una de las mejoras más significativas de Images 2.0 es su capacidad para manejar indicaciones detalladas y muy específicas con mayor fidelidad. OpenAI dice que el modelo es más capaz de seguir instrucciones complejas y preservar detalles finos con los que los sistemas de imágenes anteriores a menudo tenían problemas.

“Image 2.0 aporta un nivel sin precedentes de especificidad y fidelidad a la creación de imágenes. No solo puede conceptualizar imágenes más complejas, sino que también puede dar vida a las visiones de manera efectiva, con la capacidad de seguir instrucciones, retener los detalles requeridos y representar los elementos detallados que a menudo rompen el modelo de imagen: texto pequeño, imágenes, elementos de interfaz de usuario, composiciones densas y restricciones estilísticas sutiles, y en resoluciones API de hasta 2K.

pagina de revista "imagen GPT" La parte superior está decorada con comida y objetos naturales, con una serie de carteles, folletos y maquetas de diseño exhibidos en la pared de abajo.

Mayores capacidades multilingües

Otro avance importante es la compatibilidad con varios idiomas, particularmente en términos de representación precisa de texto no latino en imágenes. Los modelos de generación de imágenes anteriores a menudo han tenido problemas con la coherencia fuera del inglés, especialmente cuando se trata de texto denso o estilísticamente integrado.

“Image 2.0 cruza esta barrera con una mayor comprensión en varios idiomas y un progreso significativo en la representación de textos no latinos, particularmente japonés, coreano, chino, hindi y bengalí”, dijo OpenAI.

Esta mejora va más allá de la simple traducción. El modelo puede producir imágenes donde el lenguaje es una parte integral del diseño, ya sea en formatos narrativos como carteles, gráficos o cómics.

Un colorido collage abstracto de letras y palabras de varios idiomas forma el formulario titulado

Los estantes de la librería exhiben nueve libros sobre arte, escritos en varios idiomas indios y mundiales, dispuestos en tres filas. Se pueden ver más estanterías al fondo.

Fidelidad estilística y realismo

Images 2.0 también garantiza una mayor coherencia entre los estilos visuales. El modelo captura mejor las características definitorias de diferentes estéticas, desde imágenes fotorrealistas hasta formatos estilizados como cómics o pixel art.

“Image 2.0 también muestra mejoras significativas en la fidelidad en una variedad de estilos visuales. Es más capaz de capturar las características definitorias de las fotografías (incluidas las pequeñas imperfecciones que añaden realismo), así como imágenes fijas de películas, pixel art, cómics y otros lenguajes visuales únicos, con mayor consistencia en textura, iluminación, composición y detalle”, dijo OpenAI.

Póster de película de estilo retro, fotografías recortadas de personajes en blanco y negro, formas coloridas y llamativas y las palabras

Un cartel surrealista muestra el rostro de una mujer con los ojos cerrados; su cabeza está abierta y unas escaleras conducen a una puerta por la que los pájaros vuelan hacia el sol amarillo. lectura de texto "Imagen GPT 2.0 próximamente" y "Desarrollar una comprensión más profunda de las imágenes.

Relaciones de aspecto y formatos de salida flexibles

Para admitir mejor los casos de uso del mundo real, Images 2.0 amplía su manejo de formatos de salida. El modelo admite múltiples relaciones de aspecto, lo que facilita la producción de recursos personalizados para plataformas y formatos específicos.

OpenAI dice: “Con soporte para relaciones de aspecto de hasta 3:1 de ancho y 1:3 de alto, Images 2.0 puede producir resultados que se ajusten al formato que necesita, desde pancartas anchas y diapositivas de presentación hasta carteles, pantallas móviles, marcadores y gráficos sociales”.

Esta flexibilidad reduce la necesidad de postproducción y permite a los usuarios producir activos que pueden usarse inmediatamente en diferentes entornos, desde presentaciones hasta redes sociales.

Un profesor señala una diapositiva proyectada titulada "Generación de imágenes GPT 2" En una sala de conferencias. Las diapositivas enumeran las características y muestran imágenes en el mismo salón de clases que los estudiantes pueden ver y tomar notas.

Los estudiantes se sientan en estaciones de trabajo con computadoras en el aula y se concentran en la pantalla "Charla GPT." En las paredes cuelgan carteles motivacionales y tablas de atajos de teclado. Esta foto parece ser de principios de la década de 2000.

Flujo de trabajo de imágenes basado en inferencia

OpenAI integra capacidades de razonamiento en la generación de imágenes por primera vez. Cuando se utiliza con modelos reflexivos o profesionales, Images 2.0 puede analizar tareas más profundamente, fusionar mensajes instantáneos y producir múltiples resultados en una sola solicitud.

“Para ampliar la capacidad del modelo para realizar las tareas más complejas, Images 2.0 es nuestro primer modelo de imagen con la capacidad de pensar”, dijo OpenAI.

Este cambio permite que el sistema vaya más allá de la simple generación rápida de imágenes hacia un flujo de trabajo más estructurado.

“En lugar de solicitar una imagen a la vez y unir el proyecto usted mismo, puede solicitar un conjunto coherente de hasta ocho resultados a la vez, manteniendo los personajes y objetos continuos y construyéndose entre sí en secuencia”, dijo OpenAI.

Esta característica permite casos de uso como guiones gráficos, actividades multiformato y exploración de diseño iterativo en un solo mensaje.

Un cartel promocional de productos oficiales de OpenAI, que incluye una camiseta blanca, una sudadera con capucha marrón, un llavero plateado, un sombrero negro, una libreta, dos tazas y una camiseta verde, todo etiquetado "Corporación de investigación y despliegue" Promoción de marca.

En la pizarra del aula se muestran pruebas visuales y algebraicas que muestran que la suma de números impares consecutivos forman un cuadrado perfecto, junto con diagramas, fórmulas y explicaciones escritas con tiza blanca. Las mesas y los libros del aula son visibles en el frente.

compañero de pensamiento visual

Con la inferencia habilitada, Images 2.0 se posiciona menos como una herramienta y más como un sistema colaborativo que puede ayudar durante todo el proceso creativo. El modelo sintetiza información, establece un diseño visual y produce resultados que reflejan el contenido y la intención de la solicitud. Esto es especialmente importante para los flujos de trabajo que combinan investigación, diseño y narración.

“Con la inteligencia del modelo de inferencia de OpenAI y su amplia comprensión del mundo visual, el modelo traslada la generación de imágenes desde la representación al diseño estratégico, y desde las herramientas a los sistemas visuales”, OpenA

Un matcha latte helado de fresa, con capas de verdes y rosas, salpicado de fresas. Un boletín anunció la apertura de Kizuno en Brooklyn Heights, especializado en bebidas y snacks matcha. Diseño sencillo y moderno con un toque japonés.

Una mujer vestida con un traje tradicional coreano disfruta del té y se relaja en una acogedora sala hanok, admirando la vista de un tranquilo patio con la cálida luz del sol entrando a través de ventanas de madera. El texto coreano promueve una experiencia de alojamiento en hanok de calidad.

Limitaciones y desarrollo continuo

A pesar de las mejoras, OpenAI señala que el modelo todavía tiene limitaciones, particularmente en áreas que requieren un razonamiento físico preciso o una precisión estructural muy detallada. La compañía también señala que las texturas extremadamente densas y los gráficos muy detallados pueden requerir una revisión adicional, lo que posiciona estos desafíos como áreas de desarrollo futuro.

Un cartel angustiado enumera "6 principales tendencias de diseño para 2025" Con gráficos e íconos atrevidos que representan tendencias como la inteligencia artificial humanista, el género maximalista, el collage táctil, la ecoutilidad, las cuadrículas modulares y el futuro nostálgico.

Precios y disponibilidad

Imagen ChatGPT 2.0 Disponible a partir de hoy en ChatGPT, Codex y API. El acceso a la salida avanzada basada en inferencias está limitado a los usuarios de ChatGPT Plus, Pro y Business, mientras que el precio de la API varía según la calidad y la resolución de la salida.


Fuente de la imagen: Inteligencia artificial abierta

Home
Account
Cart
Search
¡Hola! ¡Pregúntame lo que quieras!
Explore
Drag