No campo de batalha dos grandes modelos multimodais, algumas pessoas já perceberam isso. De acordo com relatos da mídia estrangeira, o novo modelo multimodal da OpenAI, Gobi, parece estar em preparação. O confronto entre Google e OpenAI parece iminente. À medida que o outono se aproxima, a batalha do modelo multimodal entre o Google e a OpenAI também entrou em um estágio acirrado.

Na semana passada, o Google abriu os recursos de seu grande modelo multimodal Gemini para algumas empresas externas.

E a OpenAI, é claro, não ficará parada esperando pela morte. Eles estão correndo contra o tempo para integrar funções multimodais ao GPT-4, se esforçando para lançar um grande modelo multimodal com funções semelhantes ao Gemini e matar o Google de uma só vez.

A lendária função multimodal foi demonstrada na conferência GPT-4 da OpenAI que chocou o mundo em março deste ano——

Desenhe um esboço no papel, tire uma foto e envie para o GPT-4, e diga “Faça-me um site com este layout”, e ele escreverá imediatamente o código da página web.


O chefe Greg Brockman demonstrou pessoalmente online

Mas então, a multimodalidade parecia ser uma novidade, e ninguém jamais viu uma função física produtizada.

Então, a guerra multimodal entre Google e OpenAI finalmente está chegando?

Lutando contra o Google, OpenAI corre para lançar grandes modelos multimodais

Diante dos rumores de que o Google vai matar seu próprio grande assassino, a OpenAI certamente não permanecerá indiferente.

De acordo com a mídia estrangeira The Information, um novo grande modelo multimodal chamado Gobi já está em preparação intensiva.

A OpenAI planeja lançar o LLM multimodal antes do lançamento do Gemini, derrotando completamente o Google.


Greg Brockman da OpenAI x Demis Hassabis do Google

Na verdade, depois de lançar uma prévia do recurso multimodal GPT-4 em março, a OpenAI lançou esse recurso para uma empresa chamada BeMyEyes, mas não o forneceu a outras empresas.

Como você pode perceber pelo nome, esta empresa está desenvolvendo tecnologia que permite que pessoas cegas ou com deficiência visual vejam com mais clareza.

Recentemente, a OpenAI planeja lançar um recurso chamado GPT-Vision de forma mais ampla.


Por que o OpenAI demorou tanto?

A principal razão é que eles estão preocupados com a possibilidade de as novas funções visuais serem utilizadas por criminosos, como a personificação de seres humanos através da quebra automática de códigos de verificação ou o rastreamento de seres humanos através do reconhecimento facial.

No entanto, os engenheiros da OpenAI parecem ter resolvido esses riscos legais de segurança.

Da mesma forma, um porta-voz do Google também disse: O Google tomou algumas medidas para evitar abusos no Gemini.

Num compromisso assumido em julho, o Google comprometeu-se a desenvolver inteligência artificial responsável em todos os seus produtos.

Gobi pode se tornar GPT-5?

Depois do GPT-Vision, a OpenAI provavelmente lançará um grande modelo multimodal mais poderoso, de codinome Gobi.

Ao contrário do GPT-4, o Gobi é construído desde o início em um modelo multimodal.

Então, Gobi é o lendário GPT-5?


Neste momento, não sabemos. Não há informações definitivas sobre o quão longe Gobi chegou nos treinos.

No início de setembro, Mustafa Suleyman, cofundador da DeepMind e agora CEO da InflectionAI, lançou uma bomba em uma entrevista – ele especulou que a OpenAI estava treinando secretamente o GPT-5.

Suleyman acredita que Sam Altman pode não estar dizendo a verdade quando disse recentemente que eles não treinaram o GPT-5. (As palavras originais são: Vamos lá. Não sei. Acho que é melhor que sejamos todos francos sobre isso.)


Aqui, de acordo com pessoas que experimentaram o Gemini, o Gemini produzirá menos alucinações do que os modelos existentes. Os motivos são detalhados abaixo.

Em suma, pode-se dizer que a guerra de modelos multimodais entre Google e OpenAI é a versão AI do confronto entre iPhone e Android.

Uma é uma gigante do Vale do Silício que domina o campo da IA ​​há muitos anos, e a outra é uma empresa start-up de IA de alto nível que não tem igual no centro das atenções. Quão grande é a diferença entre os dois, todos estão esperando com a respiração suspensa.

Google testa secretamente Gemini

Por outro lado, o Google também começou a convidar alguns desenvolvedores externos para agilizar os testes do grande modelo multimodal de próxima geração Gemini.

Na semana passada, The Information informou exclusivamente que o Gemini pode estar pronto para um lançamento de teste em breve e será integrado a serviços como o Google Cloud Vertex AI.


Na Google I/O Developer Conference deste ano, Pichai apresentou publicamente o Gemini, que é um modelo multimodal, ferramenta de integração eficiente e API.

Para trabalhar juntos para fazer grandes coisas, o Google também fundiu o Google Brain com o DeepMind Labs.


Diz-se que pelo menos mais de 20 executivos participaram da pesquisa e desenvolvimento do Gemini, liderados por Demis Hassabis, o fundador da DeepMind, e Sergey Brin, o fundador do Google, participaram da pesquisa e desenvolvimento.

Há também centenas de funcionários no Google DeepMind, incluindo o ex-diretor do Google Brain, Jeff Dean, e outros.

Uma pessoa que o testou disse que o Gemini tem uma vantagem sobre o GPT-4 em pelo menos um aspecto: além das informações disponíveis publicamente na web, o modelo também aproveita uma grande quantidade de dados proprietários dos produtos de consumo do Google (pesquisa, YouTube).

Portanto, o Gemini deve ser particularmente preciso na compreensão da intenção do usuário para uma consulta específica e parece produzir menos respostas incorretas, ou seja, alucinações.

De acordo com relatórios anteriores de analistas da SemiAnalysis, o grande modelo Gemini da próxima geração do Google começou a treinar no novo TPUv5Pod, com um poder de computação de até ~1e26FLOPS, que é 5 vezes maior que o poder de computação do treinamento GPT-4.


Além disso, o banco de dados de treinamento do Gemini contém 93,6 bilhões de minutos de legendas de vídeos no Youtube, e o tamanho total do conjunto de dados é aproximadamente o dobro do GPT-4.

Diz-se que o grande modelo de próxima geração do Google também é composto por múltiplas escalas e pode usar arquitetura MoE e tecnologia de amostragem especulativa.

O token é gerado antecipadamente pelo modelo pequeno e passado para o modelo grande para avaliação, a fim de melhorar a velocidade geral de raciocínio do modelo.

Hassabis, chefe do Google DeepMind, disse em uma entrevista que o Gemini deverá custar dezenas a centenas de milhões de dólares, o que equivale ao custo de desenvolvimento do GPT-4.

A Gemini integrará a tecnologia utilizada no AlphaGo, o que dará ao sistema novas capacidades de planejamento e resolução de problemas.

Pode-se dizer que o Gemini combina algumas das vantagens do sistema AlphaGo com as incríveis capacidades linguísticas de grandes modelos de linguagem. E temos algumas outras inovações interessantes.


A tecnologia por trás do AlphaGo é o aprendizado por reforço, uma tecnologia pioneira da DeepMind.


Os agentes RL interagem com o ambiente ao longo do tempo, aprendendo políticas através de tentativa e erro, maximizando assim as recompensas cumulativas a longo prazo

Através da aprendizagem por reforço, a IA pode ajustar o seu desempenho através de tentativa e erro e receber feedback, aprendendo assim a lidar com problemas difíceis, como escolher como dar o próximo passo no Go ou nos videojogos.

Além disso, AlphaGo também utiliza o método Monte Carlo Tree Search (MCTS) para explorar e lembrar todos os movimentos possíveis no tabuleiro.


Em comparação com os modelos existentes, o Gemini melhorará muito as capacidades de geração de código dos desenvolvedores de software, e o Google espera usá-lo para acompanhar o assistente de código GitHubCopilot da Microsoft.

O Google também discutiu o uso do Gemini para implementar funções como análise de gráficos, como pedir ao modelo para interpretar o significado de gráficos concluídos e usar comandos de texto ou voz para navegar em navegadores da web ou outro software.

A plataforma de desenvolvimento do Google Cloud, Google Cloud Vertex AI, também será suportada pela Gemini, com versões grandes e pequenas disponíveis, para que os desenvolvedores possam pagar para comprar modelos pequenos para rodar em dispositivos pessoais.

Agora, o Google está totalmente preparado para a guerra, esperando que o Gemini inicie seu contra-ataque.

gpt-3.5-turbo-instruct lançado

Em julho, a OpenAI anunciou que a API GPT-4 está totalmente disponível e lançará novos modelos nos próximos meses.


Não, ainda hoje, os internautas receberam e-mails divulgando o novo modelo do gpt-3.5-turbo-instruct para substituir o antigo modelo text-davinci-003.

Segundo relatos, gpt-3.5-turbo-instruct é um modelo do estilo InstructGPT e seu método de treinamento é semelhante ao text-davinci-003.

O método de uso é semelhante ao Prompt-Completion anterior e é concluído de acordo com as instruções da palavra prompt.


Em termos de preço, o gpt-3.5-turbo4K permanece consistente.

Alguns internautas já começaram a usar o modelo mais recente para jogar xadrez com cerca de 1800 Elo.

Ele descobriu anteriormente que o GPT não poderia fazer isso, mas agora parece que isso é apenas um problema com o modelo de bate-papo RLHF, e o modelo de conclusão pura é bem-sucedido.


No jogo, gpt-3.5-turbo-instruct derrotou facilmente o Stockfish nível 4 (1700 pontos) e ainda não ficou para trás no nível 5 (2000 pontos).

Ele nunca faz um movimento ilegal, usa sacrifícios iniciais inteligentes e incríveis xeque-mate de peão e rei, permitindo que seus oponentes avancem sem qualquer significado real.


Os internautas usam os seguintes prompts de estilo PGN para simular o jogo mestre. O destaque está um pouco errado. O GPT faz seus próprios movimentos e insere manualmente os movimentos do Stockfish.



A propósito, já começaram as inscrições para a primeira conferência de desenvolvedores da OpenAI, que será realizada em novembro, então corra e inscreva-se.