Amazon lança NovaSonic, uma nova geração de modelo de voz generativo de IA, marcando um grande avanço no campo da voz com inteligência artificial.
A NovaSonic fornece serviços por meio da plataforma de desenvolvedor Amazon Bedrock e usa uma interface API de streaming bidirecional inovadora para fornecer forte suporte para o desenvolvimento de aplicativos de IA de nível empresarial.A Amazon enfatizou especificamente que este modelo tem vantagens significativas em termos de custo-benefício e seu preço é cerca de 80% mais barato que o GPT-4o da OpenAI. Pode ser considerada a solução de voz de IA mais econômica do mercado.
Comparado aos modelos de fala de IA concorrentes, o NovaSonic se destaca no roteamento de solicitações de usuários para diferentes APIs. Esse recurso permite que a NovaSonic saiba quando precisa obter informações em tempo real da Internet, analisar fontes de dados proprietárias ou tomar medidas em aplicativos externos e usar as ferramentas apropriadas para concluir a tarefa.
Numa conversa bidirecional, a NovaSonic espera o “momento certo” para falar, levando em consideração as pausas e interrupções do locutor.Além disso, NovaSonic também pode gerar registros de texto para a fala dos usuários, e os desenvolvedores podem usar esses textos para vários cenários de aplicação.
Rohit Prasad, cientista-chefe do departamento AGI da Amazon, revelou que algumas das tecnologias da NovaSonic foram usadas no assistente digital atualizado Alexa+. O lançamento deste modelo é um passo importante na estratégia da Amazon para construir inteligência artificial geral (AGI). No futuro, também lançará modelos de IA que apoiam a compreensão multimodal, abrangendo imagens, vídeos e outros dados de percepção do mundo físico.