Os pesquisadores de inteligência artificial da Microsoft expuseram acidentalmente dezenas de terabytes de dados confidenciais, incluindo chaves privadas e senhas, quando lançaram um balde de dados de treinamento de código aberto no GitHub. Em uma nota de pesquisa compartilhada com o TechCrunch, a startup de segurança em nuvem Wiz disse que descobriu um repositório GitHub pertencente à unidade de pesquisa de inteligência artificial da Microsoft como parte de seu trabalho contínuo sobre a exposição acidental de dados hospedados na nuvem.

Este repositório GitHub fornece código-fonte aberto e modelos de inteligência artificial para reconhecimento de imagem e instrui os leitores a baixar o modelo de uma URL de armazenamento do Azure. No entanto, Wiz descobriu que o URL foi configurado para conceder permissões a toda a conta de armazenamento, expondo, por engano, mais dados privados.

Os dados incluíam 38 TB de informações confidenciais, incluindo backups pessoais dos PCs de dois funcionários da Microsoft. Os dados também continham outros dados pessoais confidenciais, incluindo senhas e chaves de serviços da Microsoft e mais de 30.000 mensagens internas do Microsoft Teams de centenas de funcionários da Microsoft.

De acordo com Wiz, os URLs que expuseram esses dados de 2020 também foram configurados incorretamente para permitir permissões de “controle total” em vez de “somente leitura”, o que significa que qualquer pessoa que soubesse onde procurar poderia excluir, substituir e injetar conteúdo malicioso.

Wiz destacou que a conta de armazenamento não foi exposta diretamente. Em vez disso, os desenvolvedores de IA da Microsoft incluíram um token de assinatura de acesso compartilhado (SAS) com permissão excessiva na URL. Os tokens SAS são um mecanismo utilizado pelo Azure para permitir aos utilizadores criar links partilháveis ​​que concedem acesso aos dados da conta de armazenamento do Azure.

Ami Luttwak, cofundador e diretor de tecnologia da Wiz, disse: "A inteligência artificial desbloqueou um enorme potencial para as empresas de tecnologia. No entanto, à medida que os cientistas e engenheiros de dados correm para colocar em produção novas soluções de inteligência artificial, os enormes dados que eles manipulam exigem verificações de segurança e medidas de proteção adicionais. Com muitas equipes de desenvolvimento precisando processar grandes quantidades de dados, compartilhar dados com pares ou colaborar em projetos públicos de código aberto, casos como o da Microsoft são cada vez mais difíceis de monitorar e evitar".

Wiz disse que compartilhou suas descobertas com a Microsoft em 22 de junho, e a Microsoft revogou os tokens SAS dois dias depois, em 24 de junho. A Microsoft disse que concluiu sua investigação sobre o potencial impacto organizacional em 16 de agosto.

“Nenhum dado de cliente foi exposto e nenhum outro serviço interno esteve em risco como resultado deste problema”, disse o Microsoft Security Response em uma postagem de blog compartilhada antes da publicação.

A Microsoft disse que, com base nas descobertas de Wiz, expandiu o serviço Secrets Scanning do GitHub, que monitora alterações em todo o código-fonte aberto público para evitar a exposição de credenciais e outros segredos em texto não criptografado, incluindo quaisquer tokens SAS que possam ter expirações ou permissões excessivas.