Nightshade ‘envenena’ imagens para interromper o treinamento de IA e ajudar a proteger artistas

Uma das muitas preocupações sobre a IA generativa é a sua capacidade de gerar imagens usando imagens extraídas da Internet sem a permissão do criador original. Mas uma nova ferramenta pode resolver esse problema “envenenando” os dados usados para treinar o modelo.

O MIT Technology Review destaca uma nova ferramenta chamada Nightshade, criada por pesquisadores da Universidade de Chicago. Ele funciona fazendo pequenas alterações nos pixels da imagem que são invisíveis a olho nu antes de carregá-los. Isso envenena os dados de treinamento usados por ferramentas como DALL-E, StableDiffusion e Midjourney, fazendo com que o modelo trave de maneira imprevisível.

Alguns exemplos de como a IA generativa pode interpretar incorretamente imagens de pessoas envenenadas por erva-moura incluem transformar cães em gatos, carros em vacas, chapéus em bolos e bolsas em torradeiras. Também é ótimo para indicar diferentes estilos de arte: o cubismo se torna anime, os desenhos animados se tornam impressionismo, a arte conceitual se torna abstração.

Um artigo recente publicado por pesquisadores no arXiv descreve Nightshade como um ataque de envenenamento específico. Em vez de envenenar milhões de imagens, o Nightshade pode destruir sinais de difusão estáveis com cerca de 50 amostras, como mostrado na imagem abaixo.

Os pesquisadores escreveram que a ferramenta poderia não apenas envenenar termos específicos como “cachorro”, mas também “infiltrar-se” em conceitos relacionados como “cachorrinho”, “cão de caça” e “husky”. Afeta até imagens indiretamente relacionadas; por exemplo, envenenar “Fantasy Art” transformará as instruções para “um dragão”, “um castelo do Senhor dos Anéis” e “uma pintura de Michael Whelan” em algo diferente.

Ben Zhao, professor da Universidade de Chicago que liderou a equipe que criou o Nightshade, disse esperar que a ferramenta funcione como um impedimento para empresas de IA que não respeitam os direitos autorais e de propriedade intelectual dos artistas. Ele reconheceu o potencial para uso malicioso, mas para causar danos reais a modelos maiores e mais poderosos, os invasores precisariam envenenar milhares de imagens porque esses sistemas são treinados em bilhões de amostras de dados.

Os treinadores de modelos de IA generativos também podem usar defesas contra essa prática, como filtragem de dados de alta perda, análise de frequência e outros métodos de detecção/remoção, mas Ben Zhao disse que eles não são muito robustos.

Algumas grandes empresas de IA estão dando aos artistas a opção de não ter seu trabalho usado em conjuntos de dados de treinamento em IA, mas isso pode ser um processo árduo e não aborda nenhum trabalho que possa ter sido descartado. Muitos acreditam que os artistas deveriam poder aderir, em vez de optar por não participar.