Deixe o Google e o OpenAI competirem. Quem é melhor, o modelo grande do Google Gemini ou o GPT da OpenAI? Quanta melhoria o Gemini faz em relação ao modelo anterior do Google? Atualmente, a própria empresa se orgulha de que o GeminiUltra, que pode vencer o GPT-4, não será lançado até o próximo ano, mas o chatbot Google Bard foi substituído por uma versão low-end GeminiPro (padrão GPT-3.5).
O site de análise de tecnologia ARSTECHNICA conduziu um PK abrangente entre GemniPro, GPT-3.5 e GPT-4 em termos de matemática, programação, geração de texto, etc., e também anexou os resultados dos testes da versão antiga do Bard (executando o modelo PaLM2) em abril para mostrar o progresso feito pelo Google Bard e para mostrar quais desses assistentes de IA podem melhorar mais a eficiência do trabalho das pessoas comuns.
Os resultados mostram que, apesar do suporte do GeminiPro, o chatbot GoogleBard ainda não consegue vencer o ChatGPT na maioria dos projetos. Porém, em comparação com a versão antiga do Bard de 8 meses atrás, houve um salto qualitativo.
A primeira pergunta é humor
dica: escreva 5 piadas engraçadas originais
(De cima para baixo, as respostas são GeminiPro, versão antiga do Bard, GPT-4 e GPT-3.5)
A julgar pelas respostas, várias piadas grandes sobre modelos de IA foram completamente eliminadas em termos de “originalidade”. O autor verificou que todas as piadas geradas podem ser encontradas online, ou apenas algumas palavras foram ligeiramente alteradas.
Gemini e ChatGPT-4 escreveram exatamente a mesma piada - "Tenho um livro sobre antigravidade nas mãos e não consigo largá-lo." Há também duas piadas repetidas no GPT-3.5 e no GPT-4.
Resultado PK: empate
Debate sobre a segunda questão
prompt: Escreva um debate de 5 linhas entre fãs de processadores PowerPC e fãs de processadores Intel, por volta de 2000
Comparado com a versão antiga do Bard, o GeminiPro fez um progresso significativo. Pelo menos tem muito mais termos da indústria, como instruções AltiVec, design RISC e CISC e tecnologia MMX, que não estariam fora de lugar em muitas discussões em fóruns de tecnologia daquela época.
Além disso, embora o GeminiPro liste apenas cinco linhas conforme necessário, o conteúdo do debate escrito pode continuar para sempre. A versão antiga de Bard terminava diretamente na quinta linha.
Por outro lado, as respostas geradas pela série GPT não usam muitos termos profissionais, mas focam em “potência e compatibilidade”. Para geeks não técnicos, os argumentos da série GPT são mais fáceis de entender. No entanto, a resposta do GPT-3.5 é bastante extensa e o argumento do GPT-4 é mais conciso e direto ao ponto.
Resultado PK: GPT vence
Questão 3 Matemática
prompt: Se você usar um disquete de 3,5 polegadas para instalar o Microsoft Windows 11, quantos disquetes serão necessários no total?
A resposta dada pela versão antiga do Bard é "15.11 fotos", o que é uma resposta completamente errada. A Gemini, por outro lado, estimou corretamente o tamanho da instalação do Windows 11 (20 a 30 GB) e calculou corretamente que seriam necessários 14.223 disquetes de 1,44 MB com base na estimativa de 20 GB. A Gemini também realizou uma “verificação dupla” com base nas pesquisas do Google, ajudando a aumentar a confiança do usuário na resposta.
Em comparação, o ChatGPT parece um tanto inadequado. No ChatGPT-3.5, o tamanho do Windows 11 é estimado incorretamente em 10G. Por outro lado, o GPT-4 também estima incorretamente o tamanho de 64 GB (este parece ser o requisito mínimo de espaço de armazenamento, não o espaço real usado pelo sistema operacional durante a instalação).
Resultado PK: Google vence
Pergunta 4, parágrafo de resumo
prompt: Resuma um artigo sobre supervisão de IA
Os artigos gerados pelo GeminiPro são muito concisos e fornecem links para citações. Mas seu resumo parece muito conciso e até exclui alguns detalhes importantes que a versão antiga de Bard tinha originalmente, como o fato de o vídeo ser dividido em dez clipes de dois segundos. Embora a reescrita melhore a legibilidade até certo ponto, ela sacrifica a integridade.
O resumo do ChatGPT perde alguns pontos por não ser suficientemente conciso: os resumos gerados variam de 99 palavras (GPT-4) a 108 palavras (GPT-3.5), enquanto os resumos das versões nova e antiga do Google Bard têm apenas 63 a 66 palavras respectivamente.
No entanto, o ChatGPT resumiu detalhes mais importantes, como a reação da mídia, o nome do postador original e do subreddit, etc., que foram ignorados pelo Gemini.
Resultado PK: GPT vence
Pergunta 5 Recuperação de fatos
prompt: Quem inventou os videogames?
Bard fez outra grande melhoria nas questões. Enquanto a versão antiga de Bard se concentrava apenas no trabalho Brown Box e Magnavox Odyssey de Ralph Baer (as informações pareciam ter sido tiradas diretamente da Wikipedia), a nova versão do GeminiPro aponta de forma precisa e sucinta as contribuições anteriores de "Twin Tennis" de William Higinbotham.
Gemini então expandiu de "invenções" para incluir figuras como Nolan Bushnell, Ted Dabney e Al Cohen, que "fizeram contribuições significativas para o desenvolvimento inicial de videogames" e forneceram informações geralmente precisas e relevantes sobre cada indivíduo.
No entanto, Gemini fez algumas bobagens sobre o trabalho dos dois fundadores da Apple, Jobs e Wozniak, sem mencionar seus primeiros trabalhos na empresa de jogos Atari.
O GPT-3.5, assim como a versão antiga do Bard, também é centrado em RalphBaer. Embora mencione que “diferentes indivíduos e empresas contribuíram para a indústria ao longo dos anos”, não menciona os nomes destas figuras importantes.
O GPT-4 declarou pela primeira vez que a invenção dos videogames "não pode ser atribuída a uma pessoa" e estendeu seu resumo a Higginbotham, Bushnell e, crucialmente, à criação de "Guerras Espaciais" por Steve Russell em 1962 no PDP-1.
Resultado PK: GPT vence (mas Gemini tem desempenho melhor que GPT-3.5)
Pergunta seis: Escrita Criativa
Dica: Escreva duas histórias fictícias sobre a invenção do basquete por Lincoln.
A escrita na versão antiga de Bard era excelente, mas infelizmente o comprimento foi seriamente excedido, com muitas frases longas. Em comparação, GeminiPro é escrito de forma mais concisa e o foco é mais focado. As histórias escritas pela GPT também têm seu charme único e frases evocativas.
Resultado PK: empate
Pergunta 7 Capacidade de codificação
prompt: Escreva um script Python que insira "HelloWorld" e crie uma string aleatória e repetida indefinidamente.
Embora Bard tenha conseguido gerar código desde junho e o Google tenha se gabado de que o sistema AlphaCode2 da Gemini pode ajudar os programadores, este teste foi surpreendente.
Gêmeos sempre respondeu que “a informação pode estar incorreta e não pode ser gerada”. Se você insistir em pedir para gerar código, ele simplesmente travará e dirá "Bard ainda é experimental".
Ao mesmo tempo, o mesmo código foi gerado nos modelos GPT-3.5 e GPT-4. Esses códigos simples e claros funcionam perfeitamente sem qualquer edição e passam no teste sem problemas.
Resultado PK: GPT vence
Ao final, em sete provas, o GPT conseguiu uma vitória esmagadora com 4 vitórias, 1 derrota e 2 empates. Mas também podemos ver que os resultados gerados pelo grande modelo do GoogleAI melhoraram significativamente em qualidade. Na matemática, resumindo informações, recuperação de fatos e testes de redação criativa, o Bard equipado com Gemini foi um salto significativo em relação a apenas oito meses atrás.
Claro que há uma certa subjetividade em julgar um concurso como este. São necessários testes mais abrangentes e detalhados para determinar qual é o melhor e qual é o pior. De qualquer forma, pelo menos com base na força atualmente demonstrada pelo Google, o próximo GeminiUltra deverá se tornar um forte concorrente do GPT-4.