Pesquisadores da Universidade de Washington dizem que agora podem silenciar diferentes partes de uma sala barulhenta ou isolar uma conversa em um ambiente desordenado, graças a um enxame de pequenos robôs de áudio que podem localizar, identificar e rastrear de forma autônoma múltiplas fontes sonoras em movimento.

Nós, humanos, podemos localizar fontes sonoras com os olhos fechados, graças ao conjunto de microfones duplos ligeiramente distribuídos e à proteção de áudio fornecida pelos nossos ouvidos. Mas quando o ambiente de áudio se torna complexo, as coisas podem ficar muito confusas - algo que vai contra a nossa tendência idiossincrática de procurar espaços barulhentos, lotados e de alta energia (como um café de domingo de manhã) e depois tentar manter uma conversa neles.

Nestes espaços de áudio mais desordenados, a única maneira de isolar fontes sonoras individuais e silenciar outras é implantar conjuntos maiores de microfones e, em seguida, processar todos os fluxos de áudio juntos para criar um mapa do espaço que triangular a localização de cada som e medir as pequenas diferenças de tempo que o som leva para viajar pelo ar e chegar a cada microfone. Você pode então usar algoritmos de aprendizado profundo para reprocessar todos os fluxos de áudio, criando fluxos de áudio independentes para cada fonte de som e removendo todo o ruído de outras fontes de som.

Ao localizar e rastrear múltiplas fontes de som em uma sala, os conjuntos de microfones robóticos podem isolar e silenciar diferentes áreas de áudio. Imagem / Universidade de Washington

A ideia em si não é nova, mas investigadores da Universidade de Washington deram agora uma nova abordagem ao conceito, utilizando um enxame de sete pequenos robôs com microfones com rodas, cada um do tamanho de uma trufa de chocolate, que são implantados de forma autónoma a partir de uma estação de carregamento e criam uma matriz auto-otimizada dentro do espaço disponível.

Os robôs usam microfones e alto-falantes integrados para navegar pela superfície da mesa por meio de sonar, evitando obstáculos e espalhando-se o mais amplamente possível para maximizar a diferença de tempo entre os microfones. Infelizmente, isso significa que eles precisam ser movidos um por um, mas uma vez colocados, eles têm um desempenho incrível, como você pode ver no vídeo abaixo.

Então, qual é o objetivo final? A equipe de pesquisa acredita que conjuntos robóticos como esse poderiam ser usados ​​​​como conjuntos de microfones portáteis, implantados automaticamente e com isolamento de som para transmissões ao vivo em salas de conferência e similares, teoricamente dispersando suas próprias vozes melhor do que os humanos.

A equipe diz que não será muito útil em videochamadas bidirecionais porque, embora funcione de forma eficiente, atualmente leva cerca de 1,82 segundos para processar cada bloco de som de três segundos. A latência também significa que não será possível transmitir áudio limpo de um interlocutor para fones de ouvido em um café barulhento em pouco tempo - embora ambos os aplicativos sejam possíveis à medida que o poder de computação e a velocidade melhoram.

Claro, também pode se tornar uma ferramenta de monitoramento muito conveniente, eliminando o efeito de mascaramento do ruído da multidão e gravando conversas privadas. Curiosamente, a equipa de investigação da Universidade de Washington afirma que pode fazer exactamente o oposto.

“Ele tem o potencial de realmente beneficiar a privacidade além do que os atuais alto-falantes inteligentes permitem”, disse o estudante de doutorado Malek Itani, coautor do estudo. "Eu poderia dizer 'Não grave nada na minha mesa' e nosso sistema gravaria tudo ao meu redor." pés (0,9 metros). Qualquer coisa nesta bolha não será registrada. Ou, se houver dois grupos de pessoas conversando por perto, um grupo estiver tendo uma conversa privada enquanto o outro grupo estiver gravando, a conversa de um grupo poderá ser colocada em uma zona sem som e permanecer privada.

Depois de ser liberado da estação de carregamento, o robô usa o sonar para se distribuir em torno de uma superfície para máximo isolamento espacial

Na realidade, conjuntos de microfones estáticos distribuídos podem começar a ser usados ​​em salas inteligentes ou em projetos de casas inteligentes, onde podem isolar facilmente comandos de controle de voz para diferentes áreas. Por exemplo, você pode controlar a TV apenas ouvindo os sons vindos do sofá ou até mesmo escolher os pedidos de bebidas da pessoa que está no bar em um local barulhento.

O artigo foi publicado na revista Nature Communications.