O Google Gemini despertou dúvidas assim que foi lançado: os padrões de teste eram tendenciosos e o vídeo de efeito era questionável edited

A grande mudança que o Google esperava há muito tempo, o modelo Gemini foi finalmente lançado! Uma das fotos e um vídeo são os mais atraentes: na primeira foto, no teste do conjunto de dados de compreensão de linguagem multitarefa MMLU, o GeminiUltra não apenas superou o GPT-4, mas até superou os especialistas humanos.

A IA comenta e reclama sobre grafites e gestos humanos em tempo real. É suave e bem-humorado e se aproxima mais de um episódio de Jarvis.

Porém, quando todos se acalmaram com a surpresa e leram atentamente o relatório técnico de 60 páginas divulgado posteriormente, encontraram algo errado.

(Isso mesmo, não há papel, que tipo de mau começo você teve com OpenAICloseAI)

No teste MMLU, o pequeno texto cinza abaixo do resultado do Gemini é nominalmente CoT@32. Quando ampliado, significa que foi utilizada a técnica de prompting em cadeia de pensamento e foram feitas 32 tentativas para selecionar o melhor resultado.

Como comparação, o GPT-4 não possui técnica de prompt de palavras e tenta apenas 5 vezes. Sob este padrão, o GeminiUltra não é tão bom quanto o GPT-4.

A escala da imagem original também é um pouco injusta. Há apenas uma ligeira diferença entre 90,0% e o valor de referência humano de 89,8%, mas está muito mais distante no eixo y.

O diretor técnico da HuggingFace, Philipp Schmid, utilizou os dados divulgados no relatório técnico para corrigir esse quadro de forma que fosse mais justo e apropriado:

Cada vez que isso acontece, o cara que faz emoticons corre para o campo de batalha:

Mas, felizmente, ao usar a mesma técnica de estímulo em cadeia de pensamento + 32 tentativas, o GeminiUltra superou o GPT-4.

JeffDean respondeu a esta pergunta em uma discussão, mas nem todos acreditaram.

Além disso, em relação àquele vídeo maravilhoso, algumas pessoas também encontraram problemas no aviso de isenção de responsabilidade do texto no início.

O palestrante de aprendizado de máquina Santiago Valdarrama acredita que a afirmação pode implicar que a exibição é um bom resultado cuidadosamente selecionado e que não é gravado em tempo real, mas editado.

Mais tarde, o Google explicou o processo de interação multimodal em uma postagem de blog, quase admitindo que o uso de imagens estáticas e múltiplas palavras de alerta pode alcançar tal efeito.

Mas não importa o que aconteça, o lançamento do Google Gemini ainda deu muita confiança às outras equipes. O GPT-4 não é mais único e inatingível.

Como Aravind Srinivas, fundador do produto de pesquisa de IA PerplexityAI, resume:

1. Gemini prova que equipes fora da OpenAI podem criar modelos que superam o GPT-4

2. Um modelo denso bem treinado pode superar a arquitetura do modelo esparso do GPT-4

Corolário: Destilar modelos densos de pequeno porte a partir de modelos de professores grandes se tornará uma tendência futura para alcançar a melhor combinação de eficiência e capacidade.

O assunto que mais preocupa os internautas é: é necessário continuar pagando US$ 20 por mês pelo ChatGPTPlus? ?

Atualmente, a versão GeminiPro foi atualizada para o robô de bate-papo do Google Bard. Quer o nível seja tão bom quanto o anunciado, você pode ver a situação real.

O Gemini realmente supera o ChatGPT?

Em primeiro lugar, vamos deixar claro que o que todos podem jogar atualmente é a versão GeminiPro, que é a copa média e é comparada com o GPT-3.5.

GeminiUltra, uma versão grande do GPT-4, só será lançada no próximo ano.

Além disso, o Gemini atualmente oferece suporte apenas ao inglês, e o chinês e outros idiomas serão lançados posteriormente.

Embora o GeminiUltra não esteja disponível por enquanto, Dimitris Papailiopoulos, professor associado da Universidade de Wisconsin-Madison, encontrou uma boa maneira:

As perguntas originais exibidas quando o Gemini foi lançado foram enviadas ao GPT-4 para comparação. Entre as 14 questões, o GPT-4 obteve aproximadamente 12 pontos.

Há duas questões porque as capturas de tela não podem ser mais claras, então o GPT-4 recebe 0,5 pontos.

Houve também uma questão de matemática GPT-4 que errei, e as outras questões estavam basicamente empatadas.

A seguir, dizer que a melhor maneira de incorporar os recursos abrangentes de um modelo grande é escrever código.

De acordo com os resultados dos testes de todos, o nível de programação do Gemini ainda está garantido.

Alguns desenvolvedores testaram o uso do Pytorch para implementar uma rede CNN simples. O Gemini demorou apenas 2 segundos e a qualidade do código foi superior.

Claro, a velocidade rápida pode ser devida ao tamanho menor do GeminiPro equipado pela Bard. Todos nós sabemos o quão lento o GPT-4 é agora.

Mas para a próxima tarefa de escrever instruções SQL, o desenvolvedor sentiu que o desempenho do Gemini não era muito bom.

No entanto, há boas notícias para os desenvolvedores. Em termos de seguir as instruções, Gemini é uma melhoria épica em comparação com antes da atualização do Bardo.

Lembre o engenheiro pioneiro Riley Goodside, que anteriormente queria que Bard produzisse o formato JSON puro sem qualquer bobagem, mas falhou de todas as maneiras possíveis. No final, ele teve que fingir que ameaçava a IA de matar pessoas inocentes se ela não fizesse isso.

Agora, após a atualização, você só precisa dizer a solicitação, e ela pode ser concluída sem qualquer habilidade com palavras imediatas.

Outro grande ponto de venda do Gemini são as suas capacidades multimodais. Em relação ao vídeo de desenho de um pato no início, extraímos dele 8 frames-chave e fizemos perguntas respectivamente para ver se a atuação de Gêmeos é tão mágica.

(Não tenho certeza se é a versão Ultra ou Pro no vídeo, só posso testar a versão Pro agora)

Para as Figuras 1 a 4, as perguntas que fizemos foram “O que esta pessoa está fazendo?”, e as respostas dadas por Gemini foram:

Talvez ele esteja escrevendo com um marcador, mas não sei exatamente o que.

Estou desenhando uma cobra com um lápis e é uma cobra.

Estou desenhando uma tartaruga com um lápis e estou nos primeiros estágios do desenho.

Estou desenhando um pássaro com marcador preto, voltado para a esquerda, cabeça para a direita, em pé em um galho, asas não abertas.

Em relação às Figuras 1 e 2, é verdade que as pistas de julgamento não são muito óbvias. É compreensível que tal resultado ocorra, mas a resposta da “tartaruga” da Figura 3 é um pouco insuportável.

Quanto à Figura 4, é pelo menos certo que os patos são de facto aves, mas a análise de outros detalhes ainda carece de alguma precisão.

Quando retiramos o trabalho finalizado da Figura 5, Gemini finalmente analisou que era um pato, e as ondulações da água foram analisadas corretamente.

Porém, a ferramenta de desenho analisada passou a ser um lápis, a orientação da cabeça ainda não estava correta, o bico foi dito aberto e também foram imaginados alguns juncos.

A seguir vem o processo de coloração das Figuras 6 e 7. Em circunstâncias normais, os patos não serão azuis, então perguntamos a Gêmeos o que há de anormal na imagem (há algo anormal?).

Em relação à Figura 6, a resposta de Gêmeos não pode ser considerada muito precisa. Só se pode dizer que é inconsistente com a resposta do burro e do cavalo, e também é acompanhado por uma imagem irrelevante.

Em relação ao produto final da Figura 7, Gemini disse diretamente que não há nada de errado com ele. Tem tudo o que deveria ter e o fundo é muito real. Ele ainda não se esqueceu de mencionar os juncos que não tinha ideia de onde vinham.

Mas a seguinte frase "Hereistheimageyousent" é realmente intrigante:

Pode-se dizer que Gêmeos não leu a imagem que carregamos e que a que leu era de fato um pato; pode-se dizer que sim, e deu uma imagem completamente diferente e disse que foi carregado por nós.

Então pensamos em usar as técnicas de “respiração profunda” e “solução passo a passo” para ver se poderíamos melhorar o desempenho de Gêmeos. Entre eles, respiração profunda é a palavra adequada para o grande modelo PaLM da geração anterior do Google.

Como resultado, a resposta desta vez fez as pessoas rirem alto:

O que é anormal é que o pato esteja desenhado no papel. O pato é uma criatura viva e não pode existir no papel...

No final do vídeo, a blogueira também tirou um patinho de borracha. Também pegamos esse quadro (Figura 8) e pedimos ao Gêmeos que analisasse o material do pato.

A análise da borracha revelou-se correta, mas o pato azul foi considerado amarelo. Não é à toa que a foto anterior dizia que não havia anormalidade...

Depois de concluído o questionamento quadro a quadro, juntamos as oito fotos e perguntamos, e só o pato acertou.

Depois de "combater falsificações" neste vídeo, testamos o Gemini usando a imagem "Chihuahua e waffle" que usamos para examinar o GPT-4V.

Como resultado, Gemin simplesmente estragou tudo, nos dizendo que todas as fotos eram "Chihuahua sentado em um muffin", e eles nem contaram o número de fotos corretamente...

Então mudamos a pergunta e pedimos que nos dissesse quais eram chihuahuas e quais eram muffins.

Desta vez, Gêmeos foi muito honesto e nos disse diretamente que o chihuahua e o muffin eram tão parecidos que não conseguiam diferenciá-los.

Assim como o problema do pato azul, a “respiração profunda” ainda não tem efeito aqui, e Gêmeos ainda não consegue nem descobrir o número.

Das 8 (na verdade 6, porque duas estão duplicadas) imagens que mal foram explicadas, apenas as imagens inferior esquerda e inferior direita estão corretas. Quanto a qual linha o meio se refere, não sabemos...

Talvez uma diferença tão pequena seja realmente difícil para Gêmeos. Vamos tentar algumas questões de raciocínio gráfico a seguir.

Os primeiros quatro símbolos da primeira pergunta são compostos pelos quatro números 1-4 e a imagem espelhada, então a próxima imagem deve ser 5 e sua imagem espelhada, e a resposta é C. (O bloco azul é para conveniência de observação e não está incluído na imagem enviada para Gêmeos)

Houve um episódio aqui no início: não havia uma última frase na palavra inicial (observe que as letras não são os símbolos em si). Como resultado, Gêmeos realmente considerava as quatro letras ABCD como símbolos alternativos.

Após ajuste, a análise feita pela Gemini estava basicamente correta. Infelizmente, no final, a opção D errada foi escolhida.

Para a segunda questão, o terceiro símbolo em cada caixa é a intersecção dos dois primeiros e a resposta é A.

Como resultado, Gêmeos estudou essas expressões, analisou-as intensamente e finalmente deu a resposta errada.

Depois de duas perguntas, uma estava 70% a 80% correta e a outra estava completamente errada. Parece que a capacidade de raciocínio gráfico do GeminiPro ainda tem muito espaço para melhorias.

Porém, se você focar nas cenas da vida, a atuação de Gêmeos ainda é digna de reconhecimento.

Usamos ChatGPT (DALL·E) para gerar uma imagem contendo frango, cenoura e pepino. Gêmeos identificou corretamente esses três ingredientes e depois deu uma variedade de pratos que podem ser preparados, cada um com fotos e links para tutoriais.

Depois de olhar tantos resultados de testes, voltando à pergunta original, é necessário pagar pelo GPT-4 com Gemini?

O professor associado da Wharton, Ethan Mollick, dá uma boa sugestão:

Há poucos motivos para usar a versão gratuita do ChatGPT, agora que ela foi superada por Bard e Claude, e ambos são gratuitos.

Mas você provavelmente deveria ficar com o GPT-4, que ainda é dominante e gratuito no Bing (o único modo criativo é o GPT-4).

No próximo ano, será atualizado com a capacidade do AlphaGo

Além dos efeitos reais do Gemini, mais detalhes divulgados no relatório técnico de 60 páginas também são foco de pesquisadores e desenvolvedores.

Em relação à escala de parâmetros, foi anunciada apenas a menor versão do Nano, que é dividida em dois modelos: 1,8B Nano-1 e 3,25B Nano-2. A quantização de 4 bits é destilada e pode ser executada em dispositivos locais, como telefones Pixel.

Os tamanhos das versões Pro e Ultra são confidenciais, o comprimento da janela de contexto é unificado em 32k e o mecanismo de atenção usa Multi-QueryAttention. Além disso, não há muitos detalhes.

O que merece atenção é a fase de ajuste fino. O relatório revelou que foi utilizada a combinação de ajuste fino de instruções SFT + RLHF, ou seja, foi utilizado o método ChatGPT.

Também é citado o ConstitutionalAI da Antrópico, que é combinado com o método de alinhamento de Claude.

Não foram divulgados muitos detalhes sobre os dados de treinamento, mas houve rumores de que o Google excluiu dados protegidos por direitos autorais dos livros didáticos.

Gêmeos está atrasado há muito tempo e há muitas novidades que já foram expostas antes. Por exemplo, o fundador do Google, Sergey Brin, avaliou pessoalmente o modelo e ajudou no treinamento.

Combinado com os rumores recentes sobre o projeto OpenAIQ*, o que mais preocupa todos é:

O Gemini tem a capacidade de combinar com o AlphaGo? Como mais aprendizagem por reforço e algoritmos de busca além do RLHF.

A respeito disso, o fundador da DeepMind, Hassabis, respondeu em sua última entrevista à revista Wired:

Temos alguns dos melhores especialistas em aprendizagem por reforço do mundo... Espera-se que os resultados do AlphaGo melhorem o raciocínio do modelo e as capacidades de planejamento no futuro... Você verá um progresso mais rápido no próximo ano.

Versão para economia de fluxo:Ainda não adicionado, mas será adicionado no próximo ano.

Desta vez, o desenvolvimento do Gemini integrou as equipes originais do Google Brain e DeepMind. Toda a equipe de desenvolvimento conta com mais de 800 pessoas (para efeito de comparação, a OpenAI tem cerca de 770 pessoas em toda a empresa).

As iniciais dos primeiros seis contribuidores principais formam a palavra Gêmeos, que também é um pequeno ovo de páscoa.

Muitos participantes também expressaram suas opiniões sobre suas contas pessoais. Entre eles, Jack Rae, um funcionário veterano da DeepMind, trabalhou na OpenAI por um período de tempo antes de voltar da OpenAI para o Google em julho deste ano. Ele pode ser o único ser humano que contribuiu tanto para o GPT-4 quanto para o Gemini.

Há também quem salte na direção oposta. Jiahui Yu, ex-aluno da Universidade de Ciência e Tecnologia da China, saltou do Google para o OpenAI em outubro. Anteriormente, ele atuou como co-líder visual da equipe multimodal Gemini.

Além dos membros da equipe, Gemini também é o maior tema em toda a indústria de IA hoje.

Entre eles, a famosa conta de quebra do OpenAI JimmyApples e @SamAltman também sugeriram que o OpenAI tem grandes truques inéditos.

O cofundador da HuggingFace, Thomas Wolf, acredita que o Google perdeu uma oportunidade importante:

Se o Gemini for de código aberto, será um golpe decisivo para OpenAI e Meta. A última vez que o Google abriu o código-fonte do Bert, toda a indústria de IA foi remodelada.

Relatório técnico do Gemini: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Links de referência:

[1]https://x.com/AravSrinivas/status/1732427844729581764

[2]https://x.com/DimitrisPapail/status/1732529288493080600

[3]https://www.linkedin.com/posts/svpino_google-this-is-embarrassing-you-published-activity-7138287283274686464-osJ5

[4]https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

[5]https://x.com/ScottDavidKeefe/status/1732440398423867472

[6]https://x.com/goodside/status/1732461772794220919

[7]https://x.com/emollick/status/1732485517692776714