A OpenAI está lançando seu mais recente gerador de texto para imagem de forma mais ampla. Na quinta-feira, a empresa disponibilizará o novo modelo DALL-E3 para uso no aplicativo ChatGPT para clientes ChatGPTPlus e corporativos. A OpenAI disse que preparou uma pilha de mitigação de segurança para o modelo, permitindo expandir seu lançamento.
O DALL-E3 foi lançado pela primeira vez no mês passado, e o OpenAI mostrou como ele melhorou em relação ao DALL-E2 anterior, permitindo que os usuários aproveitassem o ChatGPT para escrever prompts mais longos e visualmente descritivos para uso por geradores de imagens. O DALL-E3 foi adicionado ao Bing Chat e ao Bing Image Generator, tornando a plataforma da Microsoft a primeira a oferecer acesso de modelo mais amplo ao público – mesmo antes do ChatGPT.
As salvaguardas anunciadas para reduzir imagens prejudiciais nem sempre funcionavam, com os usuários gerando imagens do World Trade Center mostrando Bob Esponja Calça Quadrada e outros personagens pilotando aviões em direção aos edifícios. Embora a Microsoft tenha tentado bloquear certos prompts, outras soluções simples produziram resultados semelhantes.
Geradores de texto para imagem, como Midjourney, StableDiffusion e versões anteriores do DALL-E, causaram polêmica. A tecnologia exportou material de imagem protegido por direitos autorais, nudez não consensual, assuntos que mudam a raça e deturpações fotorrealistas de figuras públicas.
A OpenAI promete uma abordagem mais ampla desta vez e forneceu um site apresentando a pesquisa feita no DALL-E3. A empresa afirma que isso “limitará a probabilidade de os modelos gerarem conteúdo estilizado por artistas vivos e imagens de figuras públicas e melhorará a representação demográfica das imagens geradas”. A OpenAI também possui uma ferramenta interna de “classificador de proveniência”, que afirma ser 99% precisa na detecção se uma imagem foi gerada pelo DALL-E3.