Pesquisadores da Penn State University demonstraram um novo método de monitoramento remoto que usa pequenas vibrações produzidas por fones de ouvido de telefones celulares para reconstruir conversas telefônicas. A tecnologia, conhecida como escuta sem fio, usa sensores de radar de ondas milimétricas para detectar e interpretar essas pequenas vibrações a distâncias de até dez pés (cerca de 10 metros).
A equipe colocou um dispositivo de radar de ondas milimétricas a poucos metros de um smartphone, usando tecnologia semelhante à usada em carros autônomos e detectores de movimento avançados. Quando a fala é reproduzida através do fone de ouvido do telefone, o radar detecta vibrações superficiais causadas pelo sinal de áudio.
Essas vibrações são indetectáveis por humanos ou microfones próximos, mas permeiam toda a estrutura do aparelho. Os dados de medição do radar são cuidadosamente pré-processados para reduzir o ruído ambiental e de hardware e depois analisados usando técnicas de aprendizado de máquina.
Os sistemas de reconhecimento de fala padrão são projetados para lidar com áudio nítido e de alta qualidade, mas não funcionam bem quando aplicados diretamente a dados de radar ruidosos. Para resolver esse problema, os pesquisadores aprimoraram o modelo de reconhecimento de fala em grande escala de código aberto, Whisper, usando um método chamado adaptação de baixa classificação.

Ao treinar novamente apenas 1% dos parâmetros do modelo, eles o especializaram para processar sinais de radar ruidosos, convertendo dados de medição de vibração em texto com uma precisão de até 60% para vocabulários de até 10.000 palavras. Embora essa precisão ainda seja limitada, mesmo a transcrição parcial ou a recuperação de palavras-chave podem ser úteis em cenários de escuta clandestina do mundo real.
Este resultado baseia-se em pesquisas anteriores da mesma equipe. O estudo da equipe de 2022 mostrou que os sensores de radar podem identificar até 10 palavras, letras ou números predeterminados com cerca de 83% de precisão quando o sensor está a poucos centímetros de um telefone. O novo método amplia esta pesquisa, extraindo com sucesso frases mais longas e partes de conversas de distâncias maiores.

Suryoday Basak apresentou seu sistema de escuta sem fio na 18ª Conferência da Association for Computing Machinery sobre Segurança e Privacidade em Redes Móveis e Sem Fio.
Os pesquisadores observam que, assim como a leitura labial, as pistas contextuais podem melhorar ainda mais a interpretação de transcrições parcialmente precisas, o que significa que mesmo resultados errôneos ou incompletos podem ser suficientes para discernir a essência de uma discussão delicada.
Os autores enfatizam que a configuração do seu laboratório é usada exclusivamente para fins de pesquisa e conscientização, com o objetivo de prever possíveis ataques futuros por parte de atores maliciosos utilizando dispositivos de radar em miniatura ou secretos. Eles aconselham os usuários a estarem cientes deste risco emergente de privacidade, especialmente ao discutir temas delicados em um ambiente onde tal vigilância possa existir.
A pesquisa, financiada pela National Science Foundation, foi publicada nos Anais da 18ª Conferência ACM sobre Segurança e Privacidade em Redes Sem Fio e Móveis.