Durante uma transmissão ao vivo na terça-feira, o CEO da OpenAI, Sam Altman, anunciou a primeira grande atualização nos recursos de geração de imagens do ChatGPT em mais de um ano. ChatGPT agora pode aproveitar o modelo GPT-4o da empresa para criar e modificar imagens e fotos nativamente. O GPT-4o tem sido a base das plataformas de chatbot de inteligência artificial, mas até agora o modelo só conseguia gerar e editar texto, não imagens.

Altman disse que a geração de imagens nativas GPT-4o agora está disponível no ChatGPT e no produto de geração de vídeo AI da OpenAI, Sora, disponível para assinantes do plano Pro de US$ 200 por mês da empresa. A OpenAI disse que o recurso será lançado em breve para usuários Plus e gratuitos do ChatGPT, bem como para desenvolvedores que usam os serviços de API da empresa.

O GPT-4o com saída de imagem “pensa” por mais tempo do que o modelo de geração de imagem que efetivamente substitui, DALL-E3, produzindo o que a OpenAI descreve como imagens mais precisas e detalhadas. O GPT-4o pode editar imagens existentes, incluindo imagens com pessoas nelas – transformando-as ou “consertando” detalhes como objetos de primeiro e segundo plano.

A OpenAI não divulgou quais dados de imagem usou para implementar o novo recurso de geração de imagens. Muitos fornecedores de IA generativa veem os dados de treinamento como uma vantagem competitiva e, portanto, mantêm segredo sobre eles e as informações que os cercam. Mas os detalhes dos dados de formação também podem desencadear litígios relacionados com a propriedade intelectual, outra razão pela qual as empresas estão relutantes em divulgar demasiada informação. 

OpenAI fornece um formulário de cancelamento que permite aos criadores solicitar que seus trabalhos sejam removidos de seus conjuntos de dados de treinamento. A empresa também disse que respeitava os pedidos para proibir seus bots de coleta de dados de treinamento, incluindo imagens, de sites.

Os recursos atualizados de geração de imagens do ChatGPT vêm logo após a saída experimental de imagens nativas do Google para um de seus modelos principais, o Gemini 2.0 Flash. Esse poderoso recurso está se tornando viral nas redes sociais – e não necessariamente pelos bons motivos. O componente gráfico do Gemini2.0 Flash possui poucas proteções, permitindo que as pessoas removam marcas d'água e criem imagens representando personagens protegidos por direitos autorais.