OpenAI lançou hoje três novos modelos de fala em tempo real, com o objetivo de “desbloquear uma nova geração de formulários de aplicação de fala” para desenvolvedores. Esses três modelos de inteligência de fala concentram-se em necessidades de diferentes cenários, como diálogo de raciocínio, tradução e transcrição em tempo real.

De acordo com informações divulgadas pela OpenAI, a nova série inclui três modelos: GPT‑Realtime‑2, GPT‑Realtime‑Translate e GPT‑Realtime‑Whisper. Entre eles, o GPT‑Realtime‑2 está posicionado como o primeiro modelo de fala com capacidades de raciocínio de nível GPT‑5, que pode lidar melhor com solicitações complexas e continuar a avançar nas conversas de forma mais natural. De acordo com a introdução oficial, este modelo foi construído especialmente para interação por voz em tempo real. Quando os usuários fazem perguntas ou dão instruções, eles podem raciocinar enquanto mantêm uma conversa coerente. Ao mesmo tempo, eles também podem chamar ferramentas, lidar com interrupções e correções do usuário e dar respostas mais adequadas com base na situação atual.

O segundo modelo, GPT‑Realtime‑Translate, concentra-se em recursos de tradução em tempo real, suportando “mais de 70 idiomas de entrada e 13 idiomas de saída” e tentando acompanhar a velocidade de fala do locutor durante o processo de tradução. Esse recurso significa que em cenários como ligações entre idiomas, reuniões ou transmissões ao vivo, espera-se que este modelo proporcione uma experiência mais próxima da “interpretação simultânea”.

O terceiro GPT‑Realtime‑Whisper é um modelo de transcrição de fala por streaming em tempo real com foco em recursos de fala para texto de baixa latência. OpenAI disse que o modelo pode concluir a transcrição instantaneamente enquanto o locutor está falando, fazendo com que vários produtos em tempo real pareçam mais rápidos, mais responsivos e mais naturais. Desde legendas ao vivo "falando enquanto fala" até registros de reuniões que podem acompanhar o ritmo das discussões, esses cenários de aplicação são considerados a direção principal do GPT‑Realtime‑Whisper.

Em termos de métodos de acesso e preços, a OpenAI disse que os três novos modelos de fala foram incluídos em seu sistema Realtime API. O GPT‑Realtime‑2 custa US$ 32 por 1 milhão de tokens de entrada de áudio (US$ 0,40 para tokens de entrada em cache) e US$ 64 por 1 milhão de tokens de saída de áudio. O GPT‑Realtime‑Translate custa US$ 0,034 por minuto, enquanto o GPT‑Realtime‑Whisper custa US$ 0,017 por minuto.

OpenAI disse que os desenvolvedores podem testar diretamente esses novos modelos de fala em tempo real por meio do Playground. Se você já tiver o Codex instalado, basta clicar em Enviar no prompt designado para adicionar GPT‑Realtime‑2 a um aplicativo existente ou criar rapidamente um novo aplicativo baseado no modelo. O responsável também introduziu os detalhes técnicos destes três modelos de voz no seu website, e como algumas empresas parceiras os utilizaram em produtos reais.

No contexto da IA ​​generativa que continua a evoluir para a multimodalidade e a interação em tempo real, os três modelos de fala lançados pela OpenAI são considerados outro layout importante na direção da "inteligência de voz". Com a integração unificada dos recursos de raciocínio, tradução e transcrição, os desenvolvedores poderão fornecer aos usuários com mais facilidade uma experiência de IA de voz que está “disponível num piscar de olhos”. Desde ferramentas assistentes a aplicações de produtividade, passando por serviços de criação de conteúdos e acessibilidade, espera-se que inaugure uma nova ronda de exploração e inovação.