No campo de batalha dos grandes modelos multimodais, algumas pessoas já perceberam isso. De acordo com relatos da mídia estrangeira, o novo modelo multimodal da OpenAI, Gobi, parece estar em preparação. O confronto entre Google e OpenAI parece iminente. À medida que o outono se aproxima, a batalha do modelo multimodal entre o Google e a OpenAI também entrou em um estágio acirrado.
Na semana passada, o Google abriu os recursos de seu grande modelo multimodal Gemini para algumas empresas externas.
E a OpenAI, é claro, não ficará parada esperando pela morte. Eles estão correndo contra o tempo para integrar funções multimodais ao GPT-4, se esforçando para lançar um grande modelo multimodal com funções semelhantes ao Gemini e matar o Google de uma só vez.
A lendária função multimodal foi demonstrada na conferência GPT-4 da OpenAI que chocou o mundo em março deste ano——
Desenhe um esboço no papel, tire uma foto e envie para o GPT-4, e diga “Faça-me um site com este layout”, e ele escreverá imediatamente o código da página web.
O chefe Greg Brockman demonstrou pessoalmente online
Mas então, a multimodalidade parecia ser uma novidade, e ninguém jamais viu uma função física produtizada.
Então, a guerra multimodal entre Google e OpenAI finalmente está chegando?
Lutando contra o Google, OpenAI corre para lançar grandes modelos multimodais
Diante dos rumores de que o Google vai matar seu próprio grande assassino, a OpenAI certamente não permanecerá indiferente.
De acordo com a mídia estrangeira The Information, um novo grande modelo multimodal chamado Gobi já está em preparação intensiva.
A OpenAI planeja lançar o LLM multimodal antes do lançamento do Gemini, derrotando completamente o Google.
Greg Brockman da OpenAI x Demis Hassabis do Google
Na verdade, depois de lançar uma prévia do recurso multimodal GPT-4 em março, a OpenAI lançou esse recurso para uma empresa chamada BeMyEyes, mas não o forneceu a outras empresas.
Como você pode perceber pelo nome, esta empresa está desenvolvendo tecnologia que permite que pessoas cegas ou com deficiência visual vejam com mais clareza.
Recentemente, a OpenAI planeja lançar um recurso chamado GPT-Vision de forma mais ampla.
Por que o OpenAI demorou tanto?
A principal razão é que eles estão preocupados com a possibilidade de as novas funções visuais serem utilizadas por criminosos, como a personificação de seres humanos através da quebra automática de códigos de verificação ou o rastreamento de seres humanos através do reconhecimento facial.
No entanto, os engenheiros da OpenAI parecem ter resolvido esses riscos legais de segurança.
Da mesma forma, um porta-voz do Google também disse: O Google tomou algumas medidas para evitar abusos no Gemini.
Num compromisso assumido em julho, o Google comprometeu-se a desenvolver inteligência artificial responsável em todos os seus produtos.
Gobi pode se tornar GPT-5?
Depois do GPT-Vision, a OpenAI provavelmente lançará um grande modelo multimodal mais poderoso, de codinome Gobi.
Ao contrário do GPT-4, o Gobi é construído desde o início em um modelo multimodal.
Então, Gobi é o lendário GPT-5?
Neste momento, não sabemos. Não há informações definitivas sobre o quão longe Gobi chegou nos treinos.
No início de setembro, Mustafa Suleyman, cofundador da DeepMind e agora CEO da InflectionAI, lançou uma bomba em uma entrevista – ele especulou que a OpenAI estava treinando secretamente o GPT-5.
Suleyman acredita que Sam Altman pode não estar dizendo a verdade quando disse recentemente que eles não treinaram o GPT-5. (As palavras originais são: Vamos lá. Não sei. Acho que é melhor que sejamos todos francos sobre isso.)
Aqui, de acordo com pessoas que experimentaram o Gemini, o Gemini produzirá menos alucinações do que os modelos existentes. Os motivos são detalhados abaixo.
Em suma, pode-se dizer que a guerra de modelos multimodais entre Google e OpenAI é a versão AI do confronto entre iPhone e Android.
Uma é uma gigante do Vale do Silício que domina o campo da IA há muitos anos, e a outra é uma empresa start-up de IA de alto nível que não tem igual no centro das atenções. Quão grande é a diferença entre os dois, todos estão esperando com a respiração suspensa.
Google testa secretamente Gemini
Por outro lado, o Google também começou a convidar alguns desenvolvedores externos para agilizar os testes do grande modelo multimodal de próxima geração Gemini.
Na semana passada, The Information informou exclusivamente que o Gemini pode estar pronto para um lançamento de teste em breve e será integrado a serviços como o Google Cloud Vertex AI.
Na Google I/O Developer Conference deste ano, Pichai apresentou publicamente o Gemini, que é um modelo multimodal, ferramenta de integração eficiente e API.
Para trabalhar juntos para fazer grandes coisas, o Google também fundiu o Google Brain com o DeepMind Labs.
Diz-se que pelo menos mais de 20 executivos participaram da pesquisa e desenvolvimento do Gemini, liderados por Demis Hassabis, o fundador da DeepMind, e Sergey Brin, o fundador do Google, participaram da pesquisa e desenvolvimento.
Há também centenas de funcionários no Google DeepMind, incluindo o ex-diretor do Google Brain, Jeff Dean, e outros.
Uma pessoa que o testou disse que o Gemini tem uma vantagem sobre o GPT-4 em pelo menos um aspecto: além das informações disponíveis publicamente na web, o modelo também aproveita uma grande quantidade de dados proprietários dos produtos de consumo do Google (pesquisa, YouTube).
Portanto, o Gemini deve ser particularmente preciso na compreensão da intenção do usuário para uma consulta específica e parece produzir menos respostas incorretas, ou seja, alucinações.
De acordo com relatórios anteriores de analistas da SemiAnalysis, o grande modelo Gemini da próxima geração do Google começou a treinar no novo TPUv5Pod, com um poder de computação de até ~1e26FLOPS, que é 5 vezes maior que o poder de computação do treinamento GPT-4.
Além disso, o banco de dados de treinamento do Gemini contém 93,6 bilhões de minutos de legendas de vídeos no Youtube, e o tamanho total do conjunto de dados é aproximadamente o dobro do GPT-4.
Diz-se que o grande modelo de próxima geração do Google também é composto por múltiplas escalas e pode usar arquitetura MoE e tecnologia de amostragem especulativa.
O token é gerado antecipadamente pelo modelo pequeno e passado para o modelo grande para avaliação, a fim de melhorar a velocidade geral de raciocínio do modelo.
Hassabis, chefe do Google DeepMind, disse em uma entrevista que o Gemini deverá custar dezenas a centenas de milhões de dólares, o que equivale ao custo de desenvolvimento do GPT-4.
A Gemini integrará a tecnologia utilizada no AlphaGo, o que dará ao sistema novas capacidades de planejamento e resolução de problemas.
Pode-se dizer que o Gemini combina algumas das vantagens do sistema AlphaGo com as incríveis capacidades linguísticas de grandes modelos de linguagem. E temos algumas outras inovações interessantes.
A tecnologia por trás do AlphaGo é o aprendizado por reforço, uma tecnologia pioneira da DeepMind.
Os agentes RL interagem com o ambiente ao longo do tempo, aprendendo políticas através de tentativa e erro, maximizando assim as recompensas cumulativas a longo prazo
Através da aprendizagem por reforço, a IA pode ajustar o seu desempenho através de tentativa e erro e receber feedback, aprendendo assim a lidar com problemas difíceis, como escolher como dar o próximo passo no Go ou nos videojogos.
Além disso, AlphaGo também utiliza o método Monte Carlo Tree Search (MCTS) para explorar e lembrar todos os movimentos possíveis no tabuleiro.
Em comparação com os modelos existentes, o Gemini melhorará muito as capacidades de geração de código dos desenvolvedores de software, e o Google espera usá-lo para acompanhar o assistente de código GitHubCopilot da Microsoft.
O Google também discutiu o uso do Gemini para implementar funções como análise de gráficos, como pedir ao modelo para interpretar o significado de gráficos concluídos e usar comandos de texto ou voz para navegar em navegadores da web ou outro software.
A plataforma de desenvolvimento do Google Cloud, Google Cloud Vertex AI, também será suportada pela Gemini, com versões grandes e pequenas disponíveis, para que os desenvolvedores possam pagar para comprar modelos pequenos para rodar em dispositivos pessoais.
Agora, o Google está totalmente preparado para a guerra, esperando que o Gemini inicie seu contra-ataque.
gpt-3.5-turbo-instruct lançado
Em julho, a OpenAI anunciou que a API GPT-4 está totalmente disponível e lançará novos modelos nos próximos meses.
Não, ainda hoje, os internautas receberam e-mails divulgando o novo modelo do gpt-3.5-turbo-instruct para substituir o antigo modelo text-davinci-003.
Segundo relatos, gpt-3.5-turbo-instruct é um modelo do estilo InstructGPT e seu método de treinamento é semelhante ao text-davinci-003.
O método de uso é semelhante ao Prompt-Completion anterior e é concluído de acordo com as instruções da palavra prompt.
Em termos de preço, o gpt-3.5-turbo4K permanece consistente.
Alguns internautas já começaram a usar o modelo mais recente para jogar xadrez com cerca de 1800 Elo.
Ele descobriu anteriormente que o GPT não poderia fazer isso, mas agora parece que isso é apenas um problema com o modelo de bate-papo RLHF, e o modelo de conclusão pura é bem-sucedido.
No jogo, gpt-3.5-turbo-instruct derrotou facilmente o Stockfish nível 4 (1700 pontos) e ainda não ficou para trás no nível 5 (2000 pontos).
Ele nunca faz um movimento ilegal, usa sacrifícios iniciais inteligentes e incríveis xeque-mate de peão e rei, permitindo que seus oponentes avancem sem qualquer significado real.
Os internautas usam os seguintes prompts de estilo PGN para simular o jogo mestre. O destaque está um pouco errado. O GPT faz seus próprios movimentos e insere manualmente os movimentos do Stockfish.
A propósito, já começaram as inscrições para a primeira conferência de desenvolvedores da OpenAI, que será realizada em novembro, então corra e inscreva-se.