O Google anunciou o lançamento de um novo modelo de conversão de texto em voz Gemini‑TTS em sua série Gemini 3.1, que é oficialmente descrito como “a solução de conversão de texto em fala mais expressiva até o momento”. O novo modelo pode gerar fala de alta fidelidade e som natural, ao mesmo tempo que permite que os desenvolvedores controlem a emoção, o ritmo e o estilo da fala por meio de instruções, como ajuste preciso do tom, pausas e mudanças emocionais na narração ou no diálogo.

Em termos de suporte multilíngue, o Gemini‑TTS abrange cerca de 70 idiomas, incluindo chinês (mandarim), inglês, espanhol, alemão, japonês e outros idiomas convencionais. O modelo pode detectar automaticamente o idioma do texto de entrada e gerar a fala correspondente sem marcar manualmente o tipo de idioma. Esse recurso permite que desenvolvedores e empresas usem um conjunto unificado de APIs para fornecer conteúdo de voz multilíngue a usuários globais em cenários como audiolivros, podcasts, assistentes de voz, robôs de atendimento ao cliente e aplicativos educacionais.

O Google também enfatizou que o Gemini‑TTS colabora com outros modelos de áudio da série Gemini 3.1 (como o Gemini 3.1 Flash Live) para aprimorar ainda mais os recursos de “experiência de voz em tempo real”. No diálogo em tempo real, na tradução de voz e na interação multimodal, o sistema pode manter baixa latência enquanto controla com precisão a saída de voz por meio de prompts de texto e marcadores de áudio, permitindo que os agentes de IA estejam mais próximos da interação natural da voz humana em cenários como chamadas telefônicas, reuniões e navegação.