OpenAI desenvolve um modelo de fala bidirecional: pode responder instantaneamente mesmo se interrompido, tornando as chamadas mais naturais e suaves

De acordo com relatos da mídia,A OpenAI está desenvolvendo um novo modelo de fala projetado para tornar as conversas dos usuários com o ChatGPT mais naturais e tranquilas. O principal avanço desta tecnologia é que quando o usuário interrompe o sistema enquanto a IA está falando, a IA pode ajustar a resposta em tempo real, em vez de parar repentinamente como agora.

Atualmente, o modo de voz avançado do ChatGPT usa um mecanismo de diálogo baseado em turnos. O usuário deve terminar de falar antes que a IA processe a voz e gere uma resposta. Se o usuário inserir uma resposta curta como “ok” ou “mm-hm” quando a IA estiver falando, o sistema geralmente irá parar diretamente e não poderá continuar a comunicação como uma conversa normal.

Para resolver este problema,O BiDi (modelo de fala bidirecional) desenvolvido pela OpenAI processa continuamente a entrada de fala do locutor, para que possa ajustar imediatamente sua resposta quando interrompido.Em contraste, uma vez que os modelos de fala existentes começam a gerar respostas, o conteúdo de saída é basicamente fixo e não pode ser alterado com base em novas entradas.

Esta tecnologia ainda está em fase de desenvolvimento. De acordo com pessoas familiarizadas com o assunto, o modelo protótipo era propenso a falhas e às vezes até emitia sons não naturais após vários minutos de conversa prolongada. Os pesquisadores da OpenAI esperavam originalmente lançar o BiDi no primeiro trimestre deste ano, mas o lançamento mais recente pode ser adiado para o segundo trimestre ou mais tarde.

A OpenAI acredita que se o modelo de fala puder se aproximar do modelo de texto no desempenho, o escopo do uso da IA será ainda mais ampliado, porque a maioria das pessoas está mais acostumada à comunicação de voz com IA do que à digitação de texto. O modelo BiDi pode ser particularmente valioso em cenários de atendimento ao cliente.

Por exemplo, quando um cliente fala com o atendimento ao cliente de IA de um varejista, se o cliente decidir temporariamente trocar o produto em vez de devolvê-lo durante a conversa, o modelo BiDi pode teoricamente permitir que o atendimento ao cliente de IA ajuste a conversa sem problemas, sem paradas repentinas ou confusão.

Pessoas familiarizadas com o assunto também revelaram que o modelo BiDi também é mais flexível na chamada de ferramentas e aplicações externas.A OpenAI afirmou anteriormente que a empresa planeja melhorar o modelo de voz para um futuro dispositivo de IA que interage principalmente por voz e está considerando desenvolver um alto-falante inteligente que possa verificar e-mails ou reservar serviços por meio de comandos de voz.