Segundo notícias de 21 de abril, uma equipe da Universidade de Washington, nos Estados Unidos, demonstrou um novo protótipo de fone de ouvido chamado VueBuds. Ele incorpora uma câmera em miniatura em um fone de ouvido sem fio convencional e combina-o com um modelo de linguagem visual (VLM). Ele pode descrever a cena no campo de visão do usuário em tempo real, identificar objetos e traduzi-los por meio de interação por voz. É descrito pelos pesquisadores como “uma versão móvel da pesquisa reversa de imagens somente por voz”.

O protótipo do VueBuds é baseado nos fones de ouvido com cancelamento de ruído sem fio WF-1000XM3 da Sony. Uma câmera preto e branco do tamanho de um grão de arroz está embutida no fone de ouvido. O processamento local ou de baixa largura de banda é realizado por meio do modelo de linguagem visual integrado. Os usuários só precisam fazer perguntas para obter explicações e traduções de descrições de voz, nomes de objetos ou conteúdo de texto da cena à sua frente. A equipe de pesquisa publicou um artigo na CHI 2026, importante conferência na área de interação humano-computador, detalhando o design e os resultados experimentais deste sistema.

Um dos líderes do projeto, Shyam Gollakota, professor da Escola Paul G. Allen de Ciência da Computação e Engenharia da Universidade de Washington, disse que a equipe aprendeu totalmente com as lições do Google Glass ao projetar - este último foi ridicularizado como "Glassholes" pelo público devido ao seu aparecimento abrupto e enorme controvérsia sobre privacidade, e acabou falhando. Gollakota destacou que, em comparação com os óculos, muitas pessoas não gostam de adicionar dispositivos visíveis ao rosto, e os fones de ouvido já são uma forma de uso muito popular e socialmente aceita. Portanto, espera-se que “ocultar” funções visuais em fones de ouvido alcance um melhor equilíbrio entre usabilidade e privacidade.

Do ponto de vista do hardware, o VueBuds usa uma câmera em preto e branco de baixa resolução e transmissão de baixa largura de banda para controlar o consumo de energia abaixo de 5 mW e desliga automaticamente quando não está em uso para economizar energia. Os pesquisadores disseram que em um teste envolvendo 90 usuários e 17 tarefas visuais de perguntas e respostas, a qualidade da resposta dos VueBuds foi comparável à dos óculos inteligentes Ray-Ban Meta com câmeras integradas e modelos grandes, mostrando o potencial de trazer recursos de modelo de linguagem visual em rápido desenvolvimento para o popular formato de dispositivo de fones de ouvido.

No vídeo de demonstração, um homem usando VueBuds ficou na cozinha de um apartamento e fez o pedido “Por favor, descreva a cena na minha frente”. Cerca de um segundo depois, uma IA com tom descontraído e imitando uma voz humana feminina veio do fone de ouvido e respondeu: "Vejo uma área de cozinha com uma janela que traz muita luz. Há algumas garrafas e um livro na bancada. A janela tem persianas e uma pia à esquerda." Mais tarde, quando ele olhou a capa de um disco e perguntou o nome do álbum, o sistema rapidamente reconheceu que era “Abbey” dos Beatles. Estrada"capa do álbum.

De acordo com dados experimentais divulgados no artigo, em um teste com 16 participantes, o VueBuds alcançou uma precisão de aproximadamente 83% em tarefas de reconhecimento de objetos e tradução, e uma precisão de aproximadamente 93% em tarefas como identificação de títulos de livros e autores. Por exemplo, a equipa de investigação disse que, no futuro, espera-se que os utilizadores utilizem este sistema para ler banda desenhada coreana que ainda não foram traduzidas, ou encomendar pratos escondidos que estão “disponíveis apenas no menu chinês” num restaurante chinês, sem serem limitados pelas suas próprias capacidades linguísticas.

Em resposta à pergunta comum “se as câmeras dos fones de ouvido estiverem localizadas em ambos os lados do rosto, a visão será bloqueada pela própria cabeça do usuário?” os pesquisadores explicaram que o VueBuds se baseia no princípio da paralaxe binocular humana e usa os diferentes ângulos de visão das duas câmeras para realizar a fusão de “visão estereoscópica”, ganhando assim a capacidade de compreender a cena à frente. No entanto, devido ao fato de atualmente suportar apenas imagens em preto e branco, o VueBuds não pode responder a perguntas relacionadas a cores; a navegação e a tradução de alta precisão em cenas complexas ainda exigem câmeras coloridas de maior resolução e maior poder de computação.

Limitações de potência e poder de computação também significam que o VueBuds atualmente não é capaz de coletar e processar fluxos de vídeo continuamente e com alta largura de banda, e só é adequado para uso de forma intermitente de "fotografia + perguntas e respostas". Apesar disso, a equipe de pesquisa acredita que seu equilíbrio entre consumo de energia, volume e velocidade de resposta é suficiente para comprovar a viabilidade desta forma como uma “plataforma de inteligência visual” e fornecer um novo rumo para a expansão funcional de futuros fones de ouvido.

Ao mesmo tempo, os riscos de privacidade e segurança também se tornaram temas inevitáveis. A matéria destacava que há alguns anos uma empresa propôs um aplicativo que poderia “identificar nomes de estranhos tirando uma foto”. Naquela época, a resposta irônica popular na Internet foi: “Nesse caso, as mulheres vão morrer por causa disso”. O VueBuds fornece apenas medidas de segurança limitadas neste estágio, como a pequena “luz indicadora de trabalho” nos fones de ouvido, mas os observadores muitas vezes não percebem que um par de fones de ouvido está capturando imagens. Combinado com coleta de áudio, conexão Bluetooth e serviços de reconhecimento facial de terceiros, uma vez que esse tipo de dispositivo é abusado, pode representar uma séria ameaça à privacidade de que “a baixa definição ainda é fatal”.

O artigo aponta que se as autoridades reguladoras puderem formular e implementar regras eficazes para garantir que a segurança pública e a privacidade pessoal não sejam violadas, espera-se que tais dispositivos de "leitura" de fones de ouvido tragam conveniência significativa para os deficientes visuais e outros grupos, melhorando muito sua qualidade de vida e liberdade em viagens, estudo, entretenimento, etc. No futuro, poderá dar origem a uma nova geração de produtos de fones de ouvido inteligentes "audíveis e visíveis".