O Google lançou recentemente e abriu o código-fonte do modelo multimodal da versão Gemma 4 12B. O objetivo de desenvolvimento deste modelo é permitir que dispositivos de consumo executem modelos de IA localmente. De acordo com os testes do Google, o modelo pode rodar em laptops e desktops com 16GB de memória/memória de vídeo, graças aos parâmetros de pequena escala de 12B, mas o modelo é tão inteligente quanto o modelo da versão Gemma 26B.

As vantagens do modelo incluem:
Nova arquitetura unificada: Não há necessidade de codificadores multimodais, suporte direto para entrada de texto, imagem, vídeo e áudio.
Capacidades avançadas de inferência: O desempenho do benchmark está próximo do modelo de arquitetura especialista híbrida Gemma versão 26B, que pode fornecer inferência em várias etapas localmente.
Baixos requisitos de memória: apenas 16 GB de memória ou memória de vídeo são necessários para execução local, embora mais memória proporcione melhor desempenho.
Lançamento de código aberto do modelo: o modelo é lançado sob a licença Apache 2.0, e o Google e a comunidade também fornecem suporte completo ao ecossistema de desenvolvedores.
Seletor preditivo: a versão Gemma 4 12B está equipada com uma variedade de seletores preditivos de token, que podem reduzir efetivamente os atrasos.
Mais sobre o modelo:
A inteligência do Gemma 4 12B no teste de benchmark de anotação está próxima do modelo de arquitetura híbrida 26B MoE lançado anteriormente pelo Google como código aberto. No entanto, a versão 12B tem requisitos de memória muito baixos e pode ser executada diretamente em laptops e desktops de consumo equipados com 16 GB de memória ou memória de vídeo, permitindo aos usuários experimentar experiências poderosas de interação multimodal e inteligente localmente.
As vantagens notáveis deste modelo também incluem a simplificação do processamento de entrada de imagem, vídeo e áudio. Os modelos multimodais tradicionais geralmente dependem de codificadores independentes para converter imagens e áudio e, em seguida, passar a representação convertida para o modelo de linguagem. Como esses codificadores separados aumentarão a latência e o uso de memória, o Google usa uma arquitetura sem codificador para treinar o modelo Gemma 4 12B, para que o modelo possa integrar diretamente a entrada de áudio e visual.
Visão: Use um módulo de incorporação leve para substituir o codificador visual Gemma 4. Este módulo contém apenas 1 operação de multiplicação de matriz, incorporação de posição e normalização, o que permite que a rede backbone do modelo assuma diretamente o processamento visual.
Áudio: o Google removeu totalmente o codificador de áudio, projetando o sinal de áudio bruto no mesmo espaço dimensional da marcação do texto.
Experimente e baixe o modelo:
Atualmente, a versão Gemma 4 12B foi fornecida em várias plataformas. Os desenvolvedores interessados podem experimentá-lo diretamente no Ollama, etc., ou acessar HuggingFace ou Kaggle para baixar o arquivo de peso do modelo. Os desenvolvedores também podem usar o Unsloth para um ajuste fino eficiente para personalizar a versão que precisam.
Ollama: https://ollama.com/library/gemma4
HuggingFace: https://huggingface.co/collections/google/gemma-4
Preguiça: https://unsloth.ai/docs/models/gemma-4