OpenAI lança terceira versão do modelo de visão de inteligência artificial DALL-E

OpenAI lançou a terceira versão de sua plataforma generativa de artes visuais de inteligência artificial DALL-E, que agora permite aos usuários criar prompts usando ChatGPT e inclui mais opções de segurança. DALL-E converte prompts de texto em imagens. Mas mesmo o DALL-E2 comete erros, muitas vezes ignorando palavras específicas. Os pesquisadores da OpenAI dizem que a versão mais recente compreende melhor o contexto.

Uma novidade do DALL-E3 é a integração com ChatGPT. Ao usar o ChatGPT, os usuários não precisam escrever prompts detalhados para orientar o DALL-E3; eles simplesmente pedem ao ChatGPT para apresentar um prompt, e o chatbot escreve um parágrafo (DALL-E é melhor em usar frases mais longas) para o DALL-E3 seguir. Outros usuários também podem usar suas próprias dicas se tiverem ideias especiais para o DALL-E.

DALL-E foi lançado pela primeira vez em janeiro de 2021, à frente de StabilityAI e outras plataformas de arte generativa de IA de texto para imagem da Midjourney. Quando o DALL-E2 for lançado em 2022, a OpenAI abriu uma lista de espera para controlar quem pode usar a plataforma em meio a críticas de que o DALL-E pode gerar imagens realisticamente explícitas e exibir preconceitos nas fotos que gera. Em setembro passado, a empresa eliminou a lista de espera e abriu o DALL-E2 ao público.

A nova versão do DALL-E será lançada primeiro para usuários do ChatGPTPlus e ChatGPTEnterprise em outubro, seguida pelos laboratórios de pesquisa e seus serviços de API no outono. A OpenAI planeja escalonar o lançamento do DALL-E3, mas não se comprometeu com quando uma versão pública gratuita será lançada.

A OpenAI afirma ter feito um extenso trabalho no DALL-E3, concentrando-se na criação de fortes medidas de segurança para evitar a criação de imagens obscenas ou potencialmente odiosas. A OpenAI diz que trabalha com redteamers externos – um grupo que tenta intencionalmente comprometer um sistema para testar sua segurança – e depende de classificadores de entrada, um método que ensina modelos de linguagem a ignorar certas palavras para evitar avisos explícitos ou de força bruta. O DALL-E3 também não pode reproduzir a imagem de uma figura pública – desde que o nome seja mencionado explicitamente no prompt.

Sandhini Agarwal, pesquisadora de políticas da empresa, disse estar “muito confiante” nas medidas de segurança da empresa, mas esclareceu que o modelo está em constante melhoria e não é perfeito. Um representante da OpenAI disse por e-mail que o DALL-E3 foi treinado para não gerar imagens no estilo dos artistas vivos. Ao contrário do DALL-E2, o DALL-E2 pode imitar o estilo artístico de certos artistas quando solicitado.

Possivelmente para evitar possíveis ações judiciais, a OpenAI também permitirá que os artistas optem por excluir suas obras de arte de versões futuras do modelo de IA de texto para imagem. Os criadores podem enviar imagens cujos direitos autorais possuem e solicitar sua remoção preenchendo um formulário no site. Dessa forma, versões futuras do DALL-E poderão bloquear resultados que se assemelhem à imagem e ao estilo do artista. Os artistas processaram os concorrentes do DALL-E, StabilityAI e Midjourney, bem como o site de arte DeviantArt, acusando-os de usar seus trabalhos protegidos por direitos autorais para treinar modelos de texto-imagem.