OpenAI lança modelo de imagem de nova geração gpt-image-1.5

A OpenAI lançou hoje oficialmente um novo modelo de geração de imagens gpt-image-1.5, visando claramente a tão esperada série Nano Banana no sistema Google Gemini para aumentar sua competitividade no campo de geração de imagens de IA. Este novo modelo será aberto tanto para desenvolvedores quanto para usuários comuns e assumirá totalmente a função de geração de imagens no ChatGPT.

Em março deste ano, a OpenAI trouxe uma grande atualização para a função de geração de imagens do ChatGPT. O novo modelo rapidamente se tornou popular assim que foi lançado. Em uma semana, os usuários geraram mais de 700 milhões de imagens no ChatGPT. Então, em abril, a OpenAI abriu a mesma geração de tecnologia de imagem para desenvolvedores, lançando a interface gpt-image-1, permitindo integrar recursos de geração de imagem em vários aplicativos e serviços.

No entanto, o modelo Google Gemini Nano Banana, que estreou em setembro, rapidamente conquistou o assunto e o mercado. Com seu desempenho mais forte de geração e edição de imagens, aumentou significativamente a cobertura do usuário do Gemini. Nano Banana é considerada amplamente à frente do gpt-image-1 em termos de qualidade de imagem e flexibilidade de edição, e tem sido amplamente adotada por desenvolvedores em todo o mundo. No mês passado, o Google lançou o Gemini 3 Pro Image (codinome Nano Banana Pro) com base nisso, aproveitando as vantagens do Gemini em raciocínio e conhecimento do mundo real para melhorar ainda mais a precisão e a consistência das imagens geradas.

gpt-image-1.5, lançado neste contexto, é considerado pela OpenAI como um produto principal de nova geração que compete diretamente com a série Gemini Nano Banana. O novo modelo melhorou significativamente a sofisticação da edição de imagens e a fidelidade de elementos-chave, como logotipos e rostos de marcas. Também é mais preciso na compreensão e execução das instruções do usuário. A OpenAI também enfatizou que o novo modelo melhorou significativamente o processamento de texto em imagens, especialmente a clareza e correção de texto denso e texto de tamanho de fonte pequeno.

Para os desenvolvedores, a otimização de custos é um destaque do gpt-image-1.5: comparado com a geração anterior gpt-image-1, o novo modelo é cerca de 20% mais barato no faturamento de entrada e saída de imagens. Os desenvolvedores ainda podem controlar com precisão o custo de geração por meio do parâmetro de qualidade, e a OpenAI afirma que o novo modelo ainda pode manter um forte efeito de geração mesmo em configurações de qualidade mais baixas.

Para usuários comuns, gpt-image-1.5 se tornou o mecanismo subjacente para a experiência de geração de imagens integrada do ChatGPT. OpenAI disse que este modelo pode realizar edições precisas, mantendo detalhes como iluminação, composição e características dos personagens basicamente inalterados. Comparado com a geração anterior, ele pode atingir uma melhoria de desempenho de até 4 vezes e a velocidade de resposta de geração e edição é mais rápida.

Em conjunto com o novo modelo, a OpenAI lançou também uma nova área de imagens “Imagens” no ChatGPT, que foi aberta simultaneamente na aplicação mobile e na versão web. Os usuários podem usar filtros predefinidos e palavras de alerta para iniciar rapidamente a geração de imagens nesta área. Essas predefinições são atualizadas regularmente para seguir os estilos e tendências criativas mais recentes. OpenAI afirmou que o novo modelo de geração de imagens e a experiência de imagens ChatGPT serão gradualmente empurrados para todos os usuários ChatGPT e continuarão a iterar em torno da facilidade de uso e eficiência de criação no futuro.