Atualização de classificação LLM: Google Bard ultrapassa GPT-4 Jogadores chineses não estão entre os primeiros ten

Hoje, a classificação do Google Bard ultrapassou o GPT-4 na competição de qualificação LLMs da Imsys e saltou diretamente para o segundo lugar.(Mas não mais do que o mais recente modelo GPT-4Turbo da OpenAI): Ao encontrar essa coisa boa, o cientista-chefe do Google, Jeff Dean, foi obviamente o primeiro a "se exibir" e trazer seu próprio modelo GeminiPro.

Introdução à classificação

Esta classificação LLMs (plataforma de benchmark ChatbotArena) foi iniciada pela organização LMSYS (Large Model Systems Organization) liderada por pesquisadores da UC Berkeley. As classificações são derivadas com base no sistema de classificação Elo através de batalhas 1V1 aleatórias e anônimas entre LLMs.

Conforme mostrado na figura abaixo, você pode fazer qualquer pergunta. O lado esquerdo é a resposta do modelo A e o lado direito é a resposta do modelo B. Então você pode avaliar as respostas dos dois modelos. Existem quatro opções no total: "A é melhor; B é melhor; A é tão bom quanto B; A é tão ruim quanto B." Caso não consiga decidir em uma rodada de chat, você pode continuar conversando até escolher aquele que achar melhor, mas se a identidade da grande modelo for exposta durante o chat, o voto não será contabilizado.

A figura abaixo mostra a distribuição proporcional da probabilidade de vitória (excluindo empates) do modelo A ao jogar contra o modelo B:

A figura abaixo mostra o número de batalhas para cada combinação de modelos (sem empate))

O gráfico abaixo mostra a taxa média de vitória de um único modelo em relação a todos os outros modelos:

OpenAI domina a lista, mas os jogadores chineses não estão entre os dez primeiros

A imagem abaixo mostra as 10 melhores classificações atuais da lista. Percebe-se que os modelos da série GPT ainda levam vantagem absoluta (três dos quatro primeiros), enquanto os modelos da série Claude da Anthropic ocupam três dos dez primeiros. A Mistral, empresa que afirma ser a versão europeia do OpenAI, desta vez também tem dois modelos entre os dez primeiros.

Além disso, observe a coluna mais à direita na imagem acima.Entre os 10 principais modelos, 9 são modelos privados de código fechado, o que mostra que o modelo de código aberto ainda tem um longo caminho a percorrer.

É uma pena que o grande modelo linguístico dos jogadores chineses não tenha entrado entre os dez primeiros.

Entre eles, o modelo com classificação mais alta é o modelo Yi-34B-Chat, de propriedade da empresa iniciante Zero-One de Kai-Fu Lee, que ocupa o 13º lugar.

Seguido pelo modelo Tongyi Qianwen Qwen-14B-chat do Alibaba, classificado em 36º lugar:

Depois, há o modelo da série ChatGLM da empresa iniciante Zhipu AI do professor Tsinghua Tang Jie:

Três pontos precisam ser explicados:

1. Existem muitos modelos desenvolvidos pelos principais fabricantes chineses que podem não estar incluídos nesta lista;

2. Esta lista é para o público global, até agora mais utilizadores optam por conversar em inglês do que em chinês, o que pode ser prejudicial para o grande modelo de linguagem desenvolvido pelos jogadores chineses;

3. Esta lista conta apenas as perguntas aleatórias e chats de 200.000 usuários, o que representa a avaliação real dos usuários conversando com LLMs. Porém, devido à desigualdade de questionamentos e profissionalismo dos usuários, a avaliação apresenta certo grau de subjetividade.

Finalmente, vamos falar sobre o Google. Numa altura em que despedimentos e cientistas estão a sair para iniciar negócios, problemas internos e externos (para mais detalhes, consulte Crisis Breakout da Google! Cientistas estão a sair para iniciar negócios, funcionários estão a ser despedidos...), será que a Google conseguirá completar o "Império Contra-Ataca" em 24 anos?

Vamos esperar para ver!