O Google lançou recentemente e abriu o código-fonte do modelo multimodal da versão Gemma 4 12B. O objetivo de desenvolvimento deste modelo é permitir que dispositivos de consumo executem modelos de IA localmente. De acordo com os testes do Google, o modelo pode rodar em laptops e desktops com 16GB de memória/memória de vídeo, graças aos parâmetros de pequena escala de 12B, mas o modelo é tão inteligente quanto o modelo da versão Gemma 26B.

As vantagens do modelo incluem:

  • Nova arquitetura unificada: Não há necessidade de codificadores multimodais, suporte direto para entrada de texto, imagem, vídeo e áudio.

  • Capacidades avançadas de inferência: O desempenho do benchmark está próximo do modelo de arquitetura especialista híbrida Gemma versão 26B, que pode fornecer inferência em várias etapas localmente.

  • Baixos requisitos de memória: apenas 16 GB de memória ou memória de vídeo são necessários para execução local, embora mais memória proporcione melhor desempenho.

  • Lançamento de código aberto do modelo: o modelo é lançado sob a licença Apache 2.0, e o Google e a comunidade também fornecem suporte completo ao ecossistema de desenvolvedores.

  • Seletor preditivo: a versão Gemma 4 12B está equipada com uma variedade de seletores preditivos de token, que podem reduzir efetivamente os atrasos.

Mais sobre o modelo:

A inteligência do Gemma 4 12B no teste de benchmark de anotação está próxima do modelo de arquitetura híbrida 26B MoE lançado anteriormente pelo Google como código aberto. No entanto, a versão 12B tem requisitos de memória muito baixos e pode ser executada diretamente em laptops e desktops de consumo equipados com 16 GB de memória ou memória de vídeo, permitindo aos usuários experimentar experiências poderosas de interação multimodal e inteligente localmente.

As vantagens notáveis ​​deste modelo também incluem a simplificação do processamento de entrada de imagem, vídeo e áudio. Os modelos multimodais tradicionais geralmente dependem de codificadores independentes para converter imagens e áudio e, em seguida, passar a representação convertida para o modelo de linguagem. Como esses codificadores separados aumentarão a latência e o uso de memória, o Google usa uma arquitetura sem codificador para treinar o modelo Gemma 4 12B, para que o modelo possa integrar diretamente a entrada de áudio e visual.

Visão: Use um módulo de incorporação leve para substituir o codificador visual Gemma 4. Este módulo contém apenas 1 operação de multiplicação de matriz, incorporação de posição e normalização, o que permite que a rede backbone do modelo assuma diretamente o processamento visual.

Áudio: o Google removeu totalmente o codificador de áudio, projetando o sinal de áudio bruto no mesmo espaço dimensional da marcação do texto.

Experimente e baixe o modelo:

Atualmente, a versão Gemma 4 12B foi fornecida em várias plataformas. Os desenvolvedores interessados ​​​​podem experimentá-lo diretamente no Ollama, etc., ou acessar HuggingFace ou Kaggle para baixar o arquivo de peso do modelo. Os desenvolvedores também podem usar o Unsloth para um ajuste fino eficiente para personalizar a versão que precisam.

Ollama: https://ollama.com/library/gemma4

HuggingFace: https://huggingface.co/collections/google/gemma-4

Preguiça: https://unsloth.ai/docs/models/gemma-4