O Google espera alcançar o OpenAI lançando Gemini

Quando se trata da tecnologia por trás da atual mania da IA, o Google, da Alphabet, é na verdade o inventor, mas a popularidade de seus produtos diminuiu significativamente. O Google espera mudar isso com o tão aguardado lançamento do Gemini, o “maior e mais poderoso modelo de inteligência do trabalhador” que a empresa construiu até hoje.

Desde o enorme sucesso da OpenAI no ano passado com o seu chatbot conversacional ChatGPT, um número crescente de empresas tem experimentado IA generativa, uma tecnologia que pode automatizar tarefas como codificação, resumo de relatórios ou construção de campanhas de marketing com base nas solicitações dos utilizadores. Em apresentação antes do lançamento do produto, no dia 6 de dezembro, o Google enfatizou que o Gemini é o modelo mais flexível que já construiu, pois vem em versões de diversos tamanhos, inclusive uma que pode ser executada diretamente em um smartphone. Isso o diferencia de outros concorrentes.

Este modelo de inteligência artificial é um sistema usado para apoiar várias aplicações generativas de inteligência artificial. Ele vem em três versões diferentes: GeminiUltra, GeminiPro e GeminiNano. Eli Collins, vice-presidente de produto da divisão DeepMind do Google, disse que essa diversidade significa que o Gemini “pode executar em tudo, desde dispositivos móveis até grandes data centers”.

“Há muito que queríamos construir uma nova geração de modelos de inteligência artificial inspirados na forma como as pessoas compreendem e interagem com o mundo – um modelo que pareça mais um colaborador útil do que um software inteligente”, disse Collins numa entrevista por telefone. “Gêmeos nos aproxima um passo dessa visão.”

Antes do lançamento do modelo, a empresa testou o Gemini em uma série de benchmarks padrão da indústria e disse que o Gemini Pro superou o GPT-3.5 da OpenAI em seis dos oito testes. O Google disse que o Gemini superou o GPT-4, a versão mais recente do modelo de uso geral da OpenAI, em sete dos oito benchmarks para compreensão geral da linguagem, raciocínio, matemática e codificação. Entretanto, a Google estima que o seu mais recente produto de IA generativa, AlphaCode2, que interpreta e gera código de programa, supera 85% dos seus concorrentes em programação competitiva. A empresa divulgará um relatório técnico explicando com mais detalhes a arquitetura do modelo, o processo de treinamento e a avaliação do Gemini.

A partir de 6 de dezembro, os desenvolvedores Android que desejam escrever aplicativos com tecnologia Gemini para smartphones e tablets poderão se registrar para usar uma versão “nano” deste modelo de IA que pode ser executado diretamente em tais dispositivos. O Google também disse que ativará imediatamente o Gemini em seu principal telefone Pixel 8 Pro, que oferecerá suporte a novos recursos generativos de IA, como resumir pontos-chave das gravações do telefone. Na próxima semana, o Google disponibilizará o GeminiPro para clientes em nuvem por meio de suas plataformas VertexAI e AIStudio.

Gemini Ultra, a maior versão do modelo de inteligência artificial do Google, estará inicialmente disponível em um programa de acesso antecipado para desenvolvedores e empresas, com detalhes sobre o programa a serem anunciados na próxima semana. Esta versão será amplamente divulgada ao público no início do próximo ano.

O Gemini também se integra a um grande número de aplicativos e serviços do Google por meio do Bard, o chatbot conversacional da empresa e concorrente do ChatGPT. Anteriormente, Bard usava o modelo PaLM2 do Google, um modelo de linguagem em grande escala que a empresa anunciou em sua conferência anual de desenvolvedores em maio.

A Google tem estado sob pressão durante o ano passado, tanto para reinventar o seu negócio principal de pesquisa como para enfrentar o aumento de programas de inteligência artificial generativos. Embora a empresa seja há muito considerada pioneira na investigação de inteligência artificial, alguns criticaram a sua gestão por ser lenta na comercialização de produtos de IA, especialmente após o sucesso de produtos como ChatGPT e o gerador de imagens Dall-E. Desde que a OpenAI lançou o GPT-4 em março, o Google tem trabalhado para reafirmar sua liderança na área, incluindo a injeção da nova tecnologia em seu negócio de busca maduro.

Gemini é a resposta da empresa a esta pressão do mercado. O Google afirma que o modelo de IA é “naturalmente multimodal”, o que significa que é pré-treinado desde o início para lidar com solicitações baseadas em texto e imagem fornecidas pelos usuários. Por exemplo, em um vídeo de demonstração, o Google mostrou que os pais podem ajudar seus filhos a fazer a lição de casa enviando uma imagem de um determinado problema de matemática e fotos das etapas para resolver o problema em um papel de rascunho.

No vídeo de demonstração, Applebaum, engenheiro de software do Google, disse: “Gemini não só pode resolver essas questões, mas também pode ler as respostas e entender quais estão certas e quais estão erradas, e explicar conceitos que precisam de mais esclarecimentos”. A empresa também disse que sua “experiência generativa de pesquisa” – uma versão experimental do mecanismo de busca construído pelo Google usando sua tecnologia de inteligência artificial generativa – será integrada aos novos recursos do Gemini no próximo ano.

Ainda assim, os representantes da empresa alertaram que a Gemini ainda é propensa a “alucinações”, ou informações falsas ou fabricadas produzidas por IA generativa. Collins chama esse fenômeno de “uma questão de pesquisa não resolvida”. O vídeo de demonstração que a empresa mostrou aos repórteres foi pré-gravado.

Collins disse que o Gemini “tem a avaliação de segurança mais abrangente de qualquer modelo de IA do Google”. Para avaliar a segurança do Gemini, o Google conduziu testes adversários do modelo de IA, que imita um malfeitor tentando explorar o programa e dá instruções, disse ele. O teste incluiu “Real Toxicity Prompts”, um teste desenvolvido pelo Allen Institute for Artificial Intelligence que contém mais de 100.000 avisos retirados da web para ajudar os pesquisadores de IA a examinar grandes modelos de linguagem para discurso de ódio e preconceito político.

O Google também ressaltou que a ferramenta será rápida. O Gemini usa uma nova arquitetura subjacente de supercomputador e chips de processamento mais recentes, permitindo um desempenho mais rápido do que os modelos menores anteriores, disse a empresa. O Google está usando uma nova versão de seu chip de nuvem, Cloud Tensor Processing Units (TPUs, para abreviar), um chip projetado internamente que pode treinar modelos existentes 2,8 vezes mais rápido que seu antecessor. Amin Wahdat, vice-presidente de aprendizado de máquina do Google, disse que a abordagem dá ao Google “uma nova visão da futura infraestrutura padrão de IA”. Ele acrescentou que a empresa ainda usará chips de IA de terceiros para executar seu modelo Gemini.

O Gemini será integrado ao Bard, o chatbot generativo de IA do Google lançado em março, dando-lhe acesso aos serviços mais populares da empresa, incluindo Gmail, Maps, Docs e YouTube. O lançamento ocorrerá em duas fases distintas: A partir de 6 de dezembro, o Bard será alimentado pelo GeminiPro, que permitirá raciocínio, planejamento, compreensão e outros recursos de alto nível. Poderá ser executado em inglês em 170 países e regiões, mas principalmente não na Europa ou no Reino Unido, onde a empresa afirmou estar consultando os reguladores locais.

No início do próximo ano, a empresa planeja lançar o BardAdvanced, que será equipado com um modelo Gemini Ultra mais potente. O Google afirma que lançará em breve um programa beta confiável para melhorar o BardAdvanced antes de seu lançamento mais amplo ao público. Sissie Hsiao, vice-presidente de produtos Bard do Google, disse: “Com a bênção da Gemini, a Bard está passando por sua maior e melhor atualização até o momento, que abrirá novas maneiras para as pessoas criarem, interagirem e colaborarem”.