O familiar OpenAI está de volta! No início da manhã, Ultraman liderou pessoalmente a equipe e iniciou uma transmissão ao vivo online de 20 minutos, quebrando o silêncio de vários dias. A OpenAI finalmente lançou o suposto ChatGPT Images 2.0, abrindo oficialmente uma nova era de geração de imagens.


Imagens 2.0 é um salto qualitativo. Ele fez grandes avanços na compreensão precisa de instruções longas, no posicionamento e no esclarecimento precisos da relação entre os objetos e na renderização de texto denso.

O mais importante é que é o primeiro modelo de imagem com “capacidade de raciocínio” que pode buscar informações em tempo real e realizar autoverificações secundárias na Internet.

Ele também pode produzir oito imagens com estilos coerentes ao mesmo tempo, suportando resolução ultra nítida de até 2K.


Vamos colocar desta forma, o nascimento das Imagens 2.0 redefiniu o domínio da geração visual——

Precisão em nível de pixel: Pequenos textos, ícones, elementos de UI e outros detalhes complexos são gerados com um clique, suportando saída em tamanho real de 3:1 a 1:3;

Mudança qualitativa no multilinguismo: caracteres chineses, japoneses, coreanos e outros caracteres não latinos são reproduzidos com precisão, não apenas as palavras são escritas corretamente, mas as frases também são suaves e coerentes;

Estilo maduro: fotorrealista, capaz de lidar com linguagens visuais como stills de filmes, pixel art, quadrinhos, etc.;

Pode pensar: O primeiro modelo de imagem com capacidade de raciocínio, capaz de pesquisa online, saída de autoteste e conhecimento atualizado até dezembro de 2025.






Na lista mais recente da Arena, o Images 2.0 liderou a lista de geradores globais de imagens de IA. A força superou criticamente a versão GoogleNano Banana 2/Pro, liderando por 242 pontos.

Está em primeiro lugar em todas as sete categorias de imagens vicentinas.



O mais implacável é que ele pode atingir a geração em nível de pixel.

Em uma imagem de montanha de arroz gerada durante a transmissão ao vivo, um grão de arroz estava gravado com a fonte "Imagem GPT 2".


Ultraman também exibiu mais imagens de quadrinhos da GPU com o gerente gráfico 4o Gabriel Goh.




Os internautas começaram a usá-lo um após o outro e ficaram mais uma vez impressionados com a força do Images 2.0.

Alguns até disseram: “OpenAI finalmente lidera novamente o campo de geração de imagens”!




Consagrar deuses diretamente em chinês

A própria piada da OpenAI “pego você com firmeza”

No modelo de imagem anterior, o desempenho linguístico dos alfabetos inglês e latino era aceitável, mas quando se tratava de caracteres chineses, japoneses e coreanos, começou a "desenhar caracteres fantasmagóricos".

Desta vez, a demo chinesa divulgada no blog oficial se tornou viral.

O cientista pesquisador da OpenAI, Chen Boyuan, apareceu pessoalmente (prontamente escrito por ele mesmo) e gerou uma página inteira de quadrinhos coloridos chineses, contando a história de seu trabalho na otimização de renderização de texto chinês ChatGPT Image 2 na OpenAI.


Esta imagem prova três coisas ao mesmo tempo: a mudança qualitativa nas capacidades de renderização de texto chinês, o controle preciso de tamanhos de fonte extremamente pequenos e a capacidade de gerar quadrinhos complexos com vários painéis de uma só vez.

O cartoon está dividido em cinco linhas. A primeira linha mostra Chen Boyuan imerso no trabalho na frente do computador. Ao fundo há chá com leite com bolhas e uma banana colada na parede com um pedaço de fita adesiva (uma homenagem à famosa cena do meio artístico).

A segunda linha é um pôster infográfico multilíngue desenhado à mão que ele gerou para sua cidade natal, Wuxi, com todos os caracteres chineses densamente compactados renderizados corretamente.

A terceira fila mostra a empolgação coletiva da equipe ao ver o efeito.

A cena na quarta fila mudou. Chen Boyuan estava descansando em seu telefone e recebeu uma mensagem de texto traduzida do Ultraman, parabenizando a equipe pelos resultados de renderização em chinês.

Depois veio o evento principal.

Na quinta fila, Chen Boyuan viu a imagem de felicitações gerada pelo Ultraman, com as palavras “Pegar você com firmeza” escritas no centro.

Todo mundo que entende entende.


Nas conversas em chinês, o GPT sempre diz “Vou te pegar com firmeza” e “Seus sentimentos são razoáveis”. Esse cheiro gorduroso e sincero de aconselhamento psicológico americano tem sido criticado loucamente por usuários chineses há mais de meio ano.

Nos quadrinhos, Chen Boyuan rompeu a defesa na hora e gritou com raiva em estilo cômico: “Oh meu Deus! Ele aprendeu a pegar de novo!” Os companheiros ao lado dele se transformaram em cabecinhas suando frio e disseram fracamente: “Estamos trabalhando duro para consertá-lo!”

Nota máxima para esta onda de autodepreciação. (Cabeça de cachorro manual)


Além do chinês, a OpenAI também lançou quadrinhos de aventura juvenil com diálogos completos em japonês, livrarias indianas cobrindo capas de livros em nove idiomas, incluindo hindi, bengali e telugu, e anúncios de acomodações sofisticadas em Hanok em coreano.

A linguagem não é mais um “cidadão de segunda classe” na geração de imagens.



Geração de nível de pixel

Um grande salto do GPT-3 para o GPT-5

ChatGPT Images 2.0 pode ser considerado o próximo marco na geração de imagens do OpenAI.

Durante a transmissão ao vivo, Ultraman disse: “Parece um salto direto do GPT-3 para o GPT-5 de uma só vez”.

Faça upload de uma foto de quatro pessoas e o ChatGPT exibirá a capa de uma revista. O design da página e o layout do texto são muito particulares.

Além disso, o pôster contém uma grande quantidade de detalhes, o processamento de pequenos personagens e a consistência dos rostos dos personagens, dando às pessoas uma sensação de “boy band”.



Em termos de detalhes, a saída do ChatGPT atinge completamente um efeito “fotográfico”, tão realista que ninguém pode dizer que foi gerado por IA.

Por exemplo, na imagem abaixo, viajamos de volta a 2015, ano em que a OpenAI foi estabelecida pela primeira vez. O ambiente de iluminação e a cópia PPT do auditório são chocantes.


O que realmente chocou o público foi a vista panorâmica de 360° do pouso do homem na Lua.

Ao lançar a imagem gerada pelo ChatGPT no visualizador de panorama, você pode obter o seguinte efeito. A posição do sol, a direção da sombra e alguns detalhes são claramente visíveis.


Na demonstração oficial, há uma captura de tela da janela ChatGPT no navegador macOS.

As janelas se empilham, os terminais abrem em segundo plano, a área de trabalho está desordenada e há tantos detalhes visuais que o efeito resultante é quase exatamente como uma captura de tela real.


A precisão de renderização que atinge esse nível mostra que o controle do modelo sobre cada pixel da imagem ultrapassou um ponto crítico.

Fotorrealismo

As imagens geradas pela IA finalmente não se parecem mais com IA

A fidelidade estilística é outro grande avanço.

No passado, as imagens geradas pela IA sempre tiveram uma “sensação de IA” indescritível. A pele era muito lisa, a luz muito uniforme e a composição muito perfeita. À primeira vista, ficou óbvio que eles não foram levados por pessoas reais.

O Imagens 2.0 vai na direção oposta e começa a aprender a ser “imperfeito”.

Há um conjunto de instantâneos na demonstração oficial. Possuem textura de filme 35mm, com granulação visível. A composição está ligeiramente descentralizada e as roupas e os cabelos esvoaçam ao vento.

Se não lhe dissessem que foi gerado por IA, você pensaria que foi o resultado de um fotógrafo pressionando casualmente o botão do obturador na beira da estrada.


Há também um conjunto de fotos descartáveis ​​em estilo de câmera que simulam cenas em salas de informática de escolas americanas no início dos anos 2000, com alunos amontoados em frente a monitores CRT bege usando ChatGPT.

Superexposição do flash, leve desfoque de movimento e um carimbo de data laranja com "02 18 04" impresso no canto, todas as "imperfeições da era do cinema" são reproduzidas com precisão.


Em termos de diversidade de estilos, o Images 2.0 também amplia a lacuna.

A proporção agora suporta uma largura máxima de 3:1 e máxima de 1:3. Para este propósito, a OpenAI colocou especialmente uma versão horizontal de uma pintura tradicional chinesa de paisagem em rolagem longa, com manchas de caneta e tinta e espaço em branco.

Cartazes de filmes franceses da New Wave da década de 1960, marcadores Art Déco e ilustrações de personagens de anime, cada linguagem visual mantém um alto grau de consistência estilística, em vez de apenas "parecer um pouco".




modelo de imagem pensante

Gere oito fotos consecutivas ao mesmo tempo

Durante a transmissão ao vivo, Gabriel Goh, chefe de imagens do ChatGPT, disse que o Images 2.0 lançou um total de dois modos -

Modo Instantâneo

Modo de pensamento

As atualizações mais subversivas estão todas escondidas no “modo de pensamento”.

Ao escolher um modelo de pensamento no ChatGPT, o Images 2.0 não é mais apenas um renderizador do tipo “você fala e eu desenho”, mas se torna um parceiro de pensamento visual.

Ele gasta mais tempo entendendo sua intenção, pesquisando informações em tempo real na web e raciocinando sobre a estrutura da imagem antes de colocar a caneta no papel.

Mais importante ainda, no modo de pensamento, ele pode gerar até oito imagens de uma só vez com estilos coerentes, personagens consistentes e conteúdo progressivo.

Basta fazer upload de uma foto da cabeça e o ChatGPT fornecerá imediatamente oito conjuntos de roupas de verão. Escolha um dos conjuntos e mais detalhes das roupas em diferentes ângulos serão gerados para você.



Nesta tarefa, ChatGPT invoca dois tipos diferentes de “inteligência visual”:

A primeira é a capacidade de “compreensão visual”, que exige realmente “ver” as fotos. Entenda a aparência de uma pessoa e planeje uma roupa apropriada.

Outra dimensão é a capacidade de “geração visual”. Requer transformar o layout planejado das roupas em uma imagem coerente e organizada.

No passado, se você quisesse fazer um conjunto de materiais para mídias sociais, teria que gerá-los um por um e juntá-los você mesmo. Agora, com um único prompt, quatro tamanhos de Twitter, Instagram Stories, Instagram Feed e LinkedIn estão disponíveis ao mesmo tempo, com tom e estilo de composição unificados.

A demonstração oficial mostra o material publicitário de uma loja de matcha do Brooklyn "kizuki", uma imagem de matcha de morango gelado ao sol, estética streetwear com minimalismo japonês e quatro tamanhos de plataforma social em uma única etapa.


Há também uma demonstração de um pôster de trabalho acadêmico. Você pode fazer upload do PDF diretamente. O modelo extrai automaticamente os principais gráficos, dados e estruturas e os compõe em um pôster horizontal.


Vale ressaltar que após ativar o modo de pensamento no Imagens 2.0, você também pode buscar informações diretamente online.

A equipe revelou que o “DuckTape” que foi testado às cegas na Arena há alguns dias é o Images 2.0 de hoje.

Em seguida, eles pediram ao Images 2.0 que coletasse feedback dos internautas e criasse uma imagem. Inesperadamente, o modelo também gerou um “código QR” que pode ser digitalizado diretamente.



ChatGPT e Codex estão totalmente abertos

A partir de hoje, todos os ChatGPT e Codex podem usar ChatGPT Images 2.0.

A função de geração de imagem com o processo de “pensamento” foi aberta aos usuários ChatGPT Plus, Pro e Business. O modelo subjacente gpt-image-2 também foi lançado na API.


Em termos de preços, o ChatGPT Images 2.0 é mais forte, enquanto os preços de entrada/saída não aumentaram.


Para usuários comuns, as tarefas de ilustrar apresentações, pôsteres em mídias sociais e cartões de promoção de produtos, que levavam meio dia para abrir no Photoshop, agora podem ser realizadas com apenas um prompt.

Para desenvolvedores e empresas, os fluxos de trabalho visuais que exigem muito trabalho manual, como publicidade localizada, infográficos multilíngues, conteúdo educacional e ferramentas de design, agora podem ser automatizados em lotes por meio de APIs.

O Codex ainda integra a geração de imagens no espaço de trabalho. A equipe de design pode criar planos de UI, comparar opções e converter produtos no mesmo ambiente sem trocar de ferramentas.

Momento do iPhone gerado pela imagem?

Olhando para trás, do DALL·E ao Midjourney e ao Stable Diffusion, a geração de imagens de IA sempre esteve em um estado de "suficiente, mas não muito bom".

A renderização do texto é invertida, vários idiomas são ampliados, o estilo é o mesmo e a composição é IA à primeira vista. Cada um desses pontos problemáticos dissuadiu as pessoas que desejam usar imagens de IA em cenas sérias.

O Images 2.0 compensa todas essas deficiências de uma só vez e também adiciona capacidades de pensamento e a capacidade de gerar várias imagens ao mesmo tempo.

Embora ainda esteja longe de ser “perfeito”, pode ser o primeiro modelo de imagem de IA que faz designers, profissionais de marketing e criadores de conteúdo pensarem: “Posso realmente usar isso em meu trabalho”.

Agora, os designers podem ter que repensar onde estão seus fossos.

Referências:

https://x.com/OpenAI/status/2046661795327459677

https://x.com/OpenAI/status/2046670977145372771

https://openai.com/index/introduzindo-chatgpt-images-2-0/

https://x.com/sama/status/2046672912833458597