Google lança nova família de modelos de tradução de código aberto TranslateGemma

O Google lançou hoje uma nova família de modelos de tradução de código aberto, TranslateGemma, baseada em seu mais recente modelo de peso de código aberto Gemma 3, que é oficialmente chamado de "um passo importante na abertura do campo da tradução". O primeiro lote suporta até 55 idiomas, abrangendo idiomas convencionais, como espanhol, francês, chinês e hindi.

O momento deste lançamento segue de perto a dinâmica dos concorrentes: há poucas horas, a OpenAI acabava de lançar a ferramenta ChatGPT Translate, que se concentra no controle de tom e contexto. Através de uma interface de coluna dupla e reconhecimento automático de idioma, ele tenta desafiar os serviços de tradução tradicionais, como o Google Translate, em termos de experiência do usuário e compreensão do contexto. Em contraste, o TranslateGemma dá mais ênfase aos recursos do modelo aberto e à qualidade geral da tradução em vários benchmarks.

A família TranslateGemma está atualmente disponível em três tamanhos: 4 bilhões, 12 bilhões e 27 bilhões de parâmetros. Os resultados da avaliação fornecidos pelo Google mostram que no benchmark WMT24++, o TranslateGemma 12B superou a versão básica do Gemma 3 27B, o que significa que com menos da metade do número de parâmetros, ele pode atingir maior rendimento e menor latência, ao mesmo tempo que mantém ou até melhora a precisão da tradução, o que é benéfico para os desenvolvedores na implantação de modelos de tradução de alta qualidade em ambientes com poder computacional limitado.

Em termos de cenários de implantação, o Google disse que o modelo 4B é otimizado para inferência móvel e é adequado para execução local em dispositivos terminais, como telefones celulares; o modelo 12B é orientado para cenários de poder de computação local, como laptops de consumo; e o modelo 27B requer suporte de poder de computação mais forte, como NVIDIA H100 de placa única em nuvem e outras configurações. No benchmark de tradução de imagens Vistra, o TranslateGemma também obteve melhores resultados na tarefa de tradução de texto intra-imagem, embora não tenha sido especificamente ajustado para este cenário, demonstrando o potencial do modelo para compreensão de texto multimodal.

O Google divulgou que a melhoria de desempenho do TranslateGemma vem de um processo de treinamento em duas etapas. A primeira etapa é o ajuste fino supervisionado. A equipe de pesquisa introduziu uma grande quantidade de corpus de tradução humana no modelo base Gemma 3 e combinou-o com dados sintéticos de alta qualidade gerados pelo modelo Gemini para treinamento. A segunda fase utiliza a aprendizagem por reforço para orientar a otimização da qualidade da tradução através de um conjunto de modelos de recompensa, incluindo MetricX-QE, AutoMQM e outros indicadores avançados, tornando o modelo mais natural e contextualmente adequado para a produção de tradução.

Atualmente, toda a gama de modelos TranslateGemma está disponível para download nas plataformas Kaggle e Hugging Face para que pesquisadores e desenvolvedores possam experimentar e desenvolver livremente. Embora a OpenAI integre ainda mais a tradução em produtos front-end baseados em chat, o Google oferece mais opções técnicas para a construção de aplicativos de terceiros, abrindo modelos subjacentes de alto desempenho, o que também indica que o caminho da tradução automática intensificará a concorrência nos dois níveis de modelos abertos e ferramentas orientadas a serviços.

Artigos relacionados:

ChatGPT Translate está online: OpenAI lança uma nova rodada de desafios para o Google Translate