Amazon lança modelo de voz AI Nova Sonic, o preço é 80% mais barato que GPT-4o

Amazon lança NovaSonic, uma nova geração de modelo de voz generativo de IA, marcando um grande avanço no campo da voz com inteligência artificial.Este modelo inovador pode processar nativamente a entrada de fala e gerar uma saída de fala natural e suave. Em termos de indicadores básicos de desempenho, como velocidade, precisão do reconhecimento de fala e qualidade do diálogo, atingiu um nível comparável aos modelos de fala de ponta de gigantes da tecnologia como OpenAI e Google.

A NovaSonic fornece serviços por meio da plataforma de desenvolvedor Amazon Bedrock e usa uma interface API de streaming bidirecional inovadora para fornecer forte suporte para o desenvolvimento de aplicativos de IA de nível empresarial.A Amazon enfatizou especificamente que este modelo tem vantagens significativas em termos de custo-benefício e seu preço é cerca de 80% mais barato que o GPT-4o da OpenAI. Pode ser considerada a solução de voz de IA mais econômica do mercado.

Comparado aos modelos de fala de IA concorrentes, o NovaSonic se destaca no roteamento de solicitações de usuários para diferentes APIs. Esse recurso permite que a NovaSonic saiba quando precisa obter informações em tempo real da Internet, analisar fontes de dados proprietárias ou tomar medidas em aplicativos externos e usar as ferramentas apropriadas para concluir a tarefa.

Numa conversa bidirecional, a NovaSonic espera o “momento certo” para falar, levando em consideração as pausas e interrupções do locutor.Além disso, NovaSonic também pode gerar registros de texto para a fala dos usuários, e os desenvolvedores podem usar esses textos para vários cenários de aplicação.

Rohit Prasad, cientista-chefe do departamento AGI da Amazon, revelou que algumas das tecnologias da NovaSonic foram usadas no assistente digital atualizado Alexa+. O lançamento deste modelo é um passo importante na estratégia da Amazon para construir inteligência artificial geral (AGI). No futuro, também lançará modelos de IA que apoiam a compreensão multimodal, abrangendo imagens, vídeos e outros dados de percepção do mundo físico.