Teste beta DALL·E 3 Bing: Superando o problema dos astronautas que andam a cavalo, especificando 50 objetos em uma pintura

DALL·E3testes limitados, foiMicrosoft BingAbra primeiro e veja se você é um dos imperadores europeus? Não importa se você não recebeu a qualificação. Juntamente com pré-visualizações de pesquisas de terceiros e testes internos realizados por funcionários da OpenAI, vários casos de teste surgiram um após o outro, o que com certeza será agradável. O mais exagerado é contar"50 objetos diferentes aparecem na tela especificada", e acabei desenhando centenas deles.

△do Windows mais recente

Além da disposição simples dos ladrilhos, esses objetos podem ser combinados de forma mais criativa.

Astronauta de equitaçãoEste conceito contrafactual foi utilizado por vários modelos de OpenAI e Google no passado.Só consigo desenhar um astronauta andando a cavalo.

O artigo foi geralmente considerado um caso de fracasso e foi ridicularizado por Marcus, o pessimista da IA na época.

Agora, o DALL·E3 pode lidar facilmente com isso com o suporte do ChatGPT.

DALL·E3 fez grandes progressos desta vez, não apenas devido aos esforços da OpenAI, mas tambémTrabalhando em conjunto com a Microsoftresultado.

Embora não esteja claramente declarado, pelo menos três engenheiros e pesquisadores da Microsoft estão envolvidos na parte de pesquisa da lista de contribuições, e a maioria dos membros na parte de otimização de inferência são da equipe Microsoft DeepSpeed.

Olhando para trás, para o GPT-4, ele ainda foi desenvolvido principalmente internamente pela OpenAI e recebeu acesso aberto à Microsoft e outras instituições de pesquisa para testes.

desta vezMudanças nos modelos de cooperação, também representaA relação entre as duas empresas se aprofundou ainda mais.

Especifique 50 objetos em uma pintura

Pelo CEO da Microsoft BingMikhailParakhinConfirmado, a pequena porcentagem de usuários mais sortudos se qualificou para o teste.

Como o número de vagas é muito limitado, os internautas que mal podem esperar apresentaram suas ideias on-line e pediram ajuda às pessoas com contas para testá-las.

O internauta que propôs desenhar 50 objetos diferentes queria apenas testar quantos objetos o DALL·E3 pode acomodar em uma imagem, semelhante a um grande modelo de linguagem."Janela de contexto".

Designers terceirizados que receberam uma versão prévia do estudoNathan Shipleyassumiu este desafio.

Primeiro, ele pediu ao ChatGPT para listar aleatoriamente 50 objetos diários e, em seguida, pediu diretamente para desenhar esses objetos em uma pintura. A palavra de alerta completa éChatGPT completa você mesmo, e depois desenhado por DALL·E3.

Em seguida, Nathan perguntou: "Você consegue criar a imagem de um surfista colocando esses objetos em uma pilha enquanto surfa forte?"

ChatGPT adicionou alguns detalhes no prompt:

Um surfista polinésio de meia-idade com pele bronzeada luta para surfar enquanto segura 50 objetos, incluindo uma xícara de chá, uma bicicleta, um guarda-chuva... As ondas quebram ao seu redor, e sua expressão é de determinação e leve pânico enquanto ele tenta equilibrar os objetos com sua prancha de surf.

Como resultado, obtive uma imagem que basicamente atendeu aos requisitos de uma só vez, exceto que a expressão do personagem parecia mais pânico extremo do que pânico moderado.

Mais tarde, Nathan pediu uma perspectiva mais baixa. Desta vez, o ChatGPT mudou a descrição do personagem na palavra inicial para “uma idosa espanhola”.

Os espectadores acharam isso muito surpreendente, mas também apontaram por que o tamanho do lápis era desproporcional a outros objetos.

Algumas pessoas especulam que o modelo só sabe a aparência de um objeto, mas não seu tamanho relativo, especialmente porque as fotos publicitárias de canetas costumam usar close-ups.

Além disso, Nathan também perguntou ao ChatGPT quais parâmetros da tela o usuário pode controlar.

ChatGPT respondeu da seguinte forma:

descrever:Você pode fornecer uma descrição detalhada da imagem desejada. Quanto mais específico e detalhado você for, mais próxima a imagem resultante estará dos seus desejos.

Estilo e meio:Você pode especificar o estilo ou meio da imagem, como "Pintura", "Foto", "Ilustração", "Desenho animado", "Aquarela", "Renderização 3D", etc.

Resolução:Por padrão, as imagens são geradas com resolução de 1729x1024. Mas se a sua descrição sugerir um retrato de corpo inteiro ou algo mais adequado para proporções altas, a imagem será gerada em 1024x1792. Você também pode solicitar resolução quadrada (1024x1024), se necessário.

Número de fotos: Se você não especificar uma, normalmente crio quatro imagens diferentes com base na sua descrição. Porém, você pode solicitar um número específico (até quatro).

Rever: se não estiver satisfeito com os resultados iniciais, você pode fornecer feedback e solicitar revisões. Embora não seja possível modificar diretamente as imagens existentes, posso usar seu feedback para gerar novas imagens que melhor se adaptem à sua visão.

semente aleatória: Se você quiser modificar uma imagem anterior, posso usar a semente nos metadados dessa imagem para gerar uma nova versão. Isso garante uma certa consistência entre as imagens originais e modificadas.

Por favor, note queExistem certas restrições. Por exemplo, as imagens de figuras públicas e os estilos dos artistas dos últimos 100 anos não podem ser criados diretamente.

O foco está nas costas:

No entanto, posso oferecer alternativas ou usar adjetivos para captar a essência de um estilo específico sem citá-lo diretamente.

Quebra-cabeça do astronauta para andar a cavalo resolvido

Entre os funcionários internos da OpenAI,WillDePueSão os mais activos na divulgação dos resultados do ensaio DALL·E3.

No teste de astronauta de equitação, ele disse que não teve 100% de sucesso.

Você pode fazer isso em duas ou três tentativas porqueGPT-4 está trabalhando com você para melhorar as palavras imediatas, até acertar.

Com algum esforço, você pode conseguir quase tudo o que quiser.

Alguns internautas tentaram usar o MidJourney para obter os mesmos resultados, mas só se pode dizer que não é totalmente impossível, mas exige muito esforço.

Quase impossível, requer muita engenharia e é difícil de reproduzir.

Se você é um usuário experiente do MidJourney, é melhor tentar ver se funciona.

No desafio "8 girafas bebendo água" proposto pelos internautas, DALL·E3 mostrou mais uma vezDificuldade em contar números com precisão.

△Conte quantas girafas há na foto

Mais tentativas errôneas também resultaram em uma girafa de duas cabeças.

Fazer com que a IA conte corretamente não resolve desta vez, mas pelo menos resolve o problema de compreensão das relações espaciais.

No desafio "Quatro zebras correndo na pastagem, um leão perseguindo atrás e uma águia acima, não há outros animais na foto" proposto pelos internautas,A relação espacial está basicamente correta, mas com mais uma zebra.

Em comparação, tanto o DALL·E2 quanto o StableDiffusion têm pior compreensão das relações espaciais.

OpenAI é responsável pela versão empresarial do ChatGPTAdamGoldbergMuitos resultados de alta qualidade também foram postados, mas nenhuma palavra de estímulo foi compartilhada.

Responsável por escrever código de IA e ferramentas de chamadaJerryTworekDepois ele criou muitas pinturas conceituais abstratas, como"Divisão de Células Mecânicas".

assim como"Uma árvore de programas de computador que abrange a galáxia".

Microsoft OpenAI colabora

DALL·E3 fez uma grande melhoria desta vez. Além de integrar o ChatGPT, como exatamente é realizada a parte de geração de imagens?

Infelizmente, dada a tendência da OpenAI cada vez mais próxima, é provável que não publique artigos como as duas gerações anteriores. Só podemos fazer algumas suposições a partir da lista de contribuições.

O artigo DALL·E2 tem cinco autores.

E o DALL·E3 não olha para as equipes de produto, segurança, comunicação pública e jurídica por enquanto, a parte de pesquisa por si só tem18 pessoas participaram.

que propõemodelo de consistênciaEx-alunos de Tsinghua (Modelos de Consistência)Canção Yang(YangSong) está listado.

O modelo de consistência é mais rápido que o modelo de difusão mais popular atualmente e pode gerar 64.256*256 imagens em 3,5 segundos.

No entanto, a contribuição de pesquisa de Song Yang desta vez é menor. Não há certeza se o DALL·E3 utilizou o modelo de consistência. É mais provável que ele tenha emprestado seu método do modelo de difusão aprimorado.

Além disso, além do autor do DALL·E2 e de Ouyang Long da equipe ChatGPT, pelo menos três pesquisadores são da Microsoft.

Jianfeng WangFormou-se na Universidade de Ciência e Tecnologia da China com doutorado e trabalha como pesquisador-chefe na Microsoft.

Lijuan WangFormou-se na Universidade de Tsinghua com doutorado e trabalha como diretor-gerente de pesquisa na Microsoft.

Os dois participaram da pesquisa do NUWA-Ininity, uma geração infinita de imagens em tela.

Li Linjie(Lindsey Li) é ex-aluna do Instituto de Tecnologia de Pequim. Ela recebeu dois títulos de mestrado pela Purdue University e pela UC San Diego. Ela é pesquisadora sênior da Microsoft e publicou muitos artigos de conferências importantes na área de multimodalidade.

Além dos aspectos de pesquisa, o DALL·E3Otimização de inferênciaterEquipe Microsoft DeepSpeedEnvolvimento profundo.

Deepspeed é uma biblioteca de otimização de aprendizagem profunda de código aberto que reduz o consumo de energia computacional e o uso de memória, além de treinar e inferir modelos distribuídos em larga escala por meio de melhor paralelismo no hardware existente.

Muitos deles expressaram seu prazer em participar deste trabalho e ficaram entusiasmados com o lançamento do DALL·E3.

Finalmente, entre contribuições especiais, a da MicrosoftCEO do Bing, Mikhail Parakhin,Misha Bilenko, vice-presidente principal, Nuvem AzureTudo nele.

As atividades de lançamento anteriores da Microsoft também confirmaram que o Bing integrará diretamente o DALL·E3.

De acordo com as regras atuais, o DALL·E2 no Bing é gratuito. Serão emitidos 99 tokens de aceleração. Sem tokens, levará mais tempo para entrar na fila.

Embora o DALL·E3 cobrará US$ 20 por mês no ChatGPTPlus em outubro.

Mas agora que o GPT-4 está disponível gratuitamente no Bing, no futuroDALL·E3 grátis para jogarVocê também pode esperar uma onda ~