Em 9 de abril, a ByteDance lançou o Seeduplex, um modelo de voz full-duplex nativo em grande escala, que agora foi totalmente lançado no aplicativo Doubao. Este modelo é baseado em uma nova estrutura de “ouvir e falar ao mesmo tempo”. Comparado com o modelo de fala de ponta a ponta half-duplex da geração anterior, ele alcança interação em tempo real de ouvir e falar simultaneamente e melhora o ritmo da conversa, a naturalidade e a capacidade anti-interferência.

De acordo com a introdução oficial, o Seeduplex superou desafios de engenharia, como atraso e estabilidade sob alta concorrência, por meio da inovação da arquitetura do modelo e da otimização do treinamento. Em termos de anti-interferência precisa, o modelo tem a capacidade de “ouvir” continuamente, compreender o ambiente acústico em que o usuário está localizado e ignorar com precisão ruídos de fundo e conversas irrelevantes. Em cenários complexos, a taxa de resposta falsa e a taxa de interrupção falsa são reduzidas em 50% em comparação com o modelo half-duplex. Em termos de tomada de decisão dinâmica, o modelo combina recursos de fala e semântica para determinar de forma abrangente a intenção do usuário. Ele pode ouvir pacientemente quando o usuário está hesitante e responder rapidamente após o usuário terminar de falar. A proporção de chamadas preemptivas é reduzida em 40% em comparação com o modelo half-duplex, e o desempenho da tomada de decisões é melhorado em 8%.
A avaliação multidimensional mostra que o Seeduplex é significativamente melhor do que a solução half-duplex tradicional e a função de chamada de voz dos principais aplicativos da indústria em termos de fluência e ritmo de conversação. Este modelo foi o primeiro na indústria a alcançar implementação em larga escala e pode fornecer experiência contínua de interação de voz em tempo real e de alta qualidade para centenas de milhões de usuários.
