Em apenas dois anos, a forma como diferenciamos entre imagens criadas por humanos e imagens geradas por IA está rapidamente a tornar-se obsoleta. No passado, os modelos de geração de imagens eram propensos a “derrubar” quando eram solicitados a gerar imagens com elementos com muito texto, como menus. Por exemplo, quando um modelo inicial gerava um menu de restaurante mexicano, ele “inventava” nomes de pratos comuns em erros ortográficos como “enchuita”, “churiros”, “burrto” e “margartas”, que não eram confiáveis à primeira vista.

Agora, ao utilizar o novo ChatGPT Images 2.0 para gerar um cardápio mexicano, os resultados fornecidos pelo modelo são suficientes para serem utilizados diretamente na loja, sendo difícil para o cliente comum perceber as falhas no próprio texto. A única coisa que pode deixar as pessoas em dúvida é o nível de preço do “ceviche (ceviche) por US$ 13,50”, o que fará as pessoas hesitarem um pouco quanto à qualidade do peixe. Para efeito de comparação, o autor também citou um exemplo de menu gerado usando DALL·E 3 há dois anos (naquela época, o ChatGPT não tinha recursos integrados de geração de imagens). A instabilidade da apresentação do texto no modelo antigo contrasta fortemente com o novo modelo.
Os geradores de imagens de IA há muito têm um desempenho insatisfatório na ortografia, e o principal motivo está relacionado à rota da tecnologia convencional. Os modelos de imagem no passado usavam principalmente modelos de difusão para completar a tarefa de geração, "reconstruindo" gradualmente as imagens no ruído. O fundador e CEO da Lesan AI, Asmelash Teka Hadgu, disse em uma entrevista ao TechCrunch em 2024 que o modelo de difusão está essencialmente restaurando uma imagem geral, e o texto na imagem geralmente ocupa apenas uma área de pixel muito pequena, então o modelo prefere priorizar o aprendizado de padrões visuais que cobrem uma área maior, em vez de formas de texto finas. Neste contexto, os pesquisadores começaram a explorar novos mecanismos, como modelos autoregressivos, para tornar a geração de imagens mais parecida com grandes modelos de linguagem, construindo imagens prevendo e compreendendo estruturas gradualmente.

Quanto à arquitetura subjacente usada pelo ChatGPT Images 2.0, a OpenAI se recusou a responder diretamente a questões relevantes em uma coletiva de imprensa esta semana. No entanto, a OpenAI enfatizou em sua introdução que o novo modelo possui as chamadas “capacidades de pensamento” e pode recuperar informações online, gerar múltiplas imagens a partir de um único prompt e revisar sua própria saída. Isso significa que o Images 2.0 não é apenas uma única "saída de imagem", mas pode gerar vários materiais em torno da mesma ideia criativa, como materiais de marketing de diferentes tamanhos, gráficos publicitários adaptados a múltiplas plataformas e até mesmo um conjunto de storyboards em quadrinhos multi-frame.
A OpenAI também disse que o novo modelo fez progressos significativos na renderização de texto não latino, incluindo recursos aprimorados de renderização de texto em idiomas como japonês, coreano, hindi e bengali. O prazo de conhecimento do modelo é dezembro de 2025, o que também significa que quando se trata de avisos sobre notícias recentes ou acontecimentos mais recentes, pode haver limitações de atualidade no conteúdo que ele gera. No comunicado oficial, a OpenAI descreveu o Images 2.0 como uma melhoria sem precedentes em "detalhe e realismo", enfatizando que pode conceber e implementar imagens mais complexas, seguir instruções com precisão e reter os detalhes solicitados pelos usuários. Especialmente em áreas onde os modelos de imagem anteriores eram mais propensos a "colapsar" - texto pequeno, ícones, elementos de interface de interface, composição densa e restrições de estilo delicadas, o Images 2.0 pode produzir de forma estável na resolução mais alta de 2K.
Essa capacidade aumentada também traz uma compensação de velocidade. Leva mais tempo para gerar uma história em quadrinhos complexa ou material de vários tamanhos do que digitar uma pergunta diretamente no ChatGPT para obter uma resposta em texto. No entanto, a julgar pelo desempenho atual do produto, geralmente leva apenas alguns minutos para concluir essas tarefas complexas de imagem, que já podem cobrir a maioria dos cenários de aplicação práticos.
Em termos de acesso, a OpenAI disse que todos os usuários do ChatGPT e Codex terão acesso gradual ao Images 2.0 a partir de terça-feira. Usuários pagantes em diferentes níveis podem desbloquear resultados mais “avançados” em termos de qualidade de geração e complexidade de saída, como resolução mais alta, composições mais complexas ou mais versões de saída de imagem. Ao mesmo tempo, a OpenAI também abrirá APIs relevantes para desenvolvedores por meio do gpt-image-2, com preços baseados na qualidade e resolução das imagens geradas, para que aplicativos de terceiros possam integrar esse recurso de geração de imagens em seus próprios produtos.
ChatGPT Images 2.0 reflete um grande avanço na compreensão de texto e nas capacidades de composição tipográfica do modelo de geração de imagens, transformando a área de texto que antes era considerada um “ponto fraco” em um link de design que pode ser entregue com segurança à IA para processamento. À medida que a OpenAI lança uma interface totalmente aberta e comercial, espera-se que esta geração de modelos gráficos vicentinos entre rapidamente no processo de produção de design de marketing, UI de produtos, criação de jogos e quadrinhos e outras indústrias, confundindo ainda mais a linha entre conteúdo visual humano e de IA.