Meta tecnologia de marca d'água de imagem de IA de código aberto, mas é realmente confiável?

A geração de imagens baseada em IA está crescendo e por um bom motivo: é divertida e fácil de usar. Embora estes modelos tragam novas possibilidades criativas, podem suscitar preocupações sobre potenciais abusos por parte de maus intervenientes que podem gerar intencionalmente imagens para enganar as pessoas. Mesmo as imagens criadas para diversão podem se tornar virais e potencialmente enganar as pessoas.

No início deste ano, por exemplo, imagens do Papa Francisco vestindo um chamativo casaco branco se tornaram virais, e fotos de Trump sendo preso geraram um debate acalorado. As imagens não eram fotos reais, mas muitas pessoas foram enganadas porque não havia indicadores claros para distinguir se o conteúdo foi criado por IA generativa.

Metapesquisadores lançaram recentemente um novo artigo de pesquisa e código técnico detalhando uma técnica para adicionar marcas d'água invisíveis a imagens de IA para distinguir quando as imagens foram criadas por modelos de IA generativos de código aberto. Marcas d'água invisíveis incorporam informações em conteúdo digital. Essas marcas d’água são invisíveis a olho nu, mas podem ser detectadas por algoritmos – mesmo que as pessoas reeditem a imagem. Embora existam outras direções de pesquisa em torno da marca d'água, muitos métodos existentes criam marcas d'água após a geração de imagens de IA.

De acordo com o EverypixelJournal, os usuários criaram mais de 11 bilhões de imagens usando modelos de três repositórios de código aberto. Neste caso, a marca d'água invisível pode ser removida simplesmente excluindo a linha que gerou a marca d'água. StableSignature propõe uma maneira de evitar a remoção de marcas d'água.

Como funciona o método StableSignature

Endereço do papel:

https://arxiv.org/abs/2303.15435

Endereço do GitHub:

https://github.com/facebookresearch/stable_signature

StableSignature elimina a possibilidade de remoção de marca d'água enraizando-a no modelo e usando uma marca d'água que pode ser rastreada até o local onde a imagem foi criada.

Vamos ver como esse processo funciona com o diagrama abaixo.

Alice treinou um modelo generativo mestre. Antes de distribuir, ela ajusta uma pequena parte do modelo (chamada de decodificador) para gerar a marca d'água fornecida para Bob. A marca d'água pode identificar a versão do modelo, empresa, usuário, etc.

Bob recebe sua versão do modelo e gera imagens. A imagem resultante terá a marca d'água de Bob. Alice ou terceiros podem analisá-los para ver se a imagem foi gerada por Bob usando um modelo generativo de IA.

Isto é conseguido em duas etapas:

1. Treine em conjunto duas redes neurais convolucionais.Um codifica uma imagem e uma mensagem aleatória em uma imagem com marca d'água e o outro extrai a mensagem de uma versão aprimorada da imagem com marca d'água. O objetivo é fazer com que as mensagens codificadas e extraídas correspondam. Após o treinamento, apenas o extrator de marca d'água é retido.

2. Ajustar o decodificador latente do modelo generativo para gerar imagens contendo assinaturas fixas.Durante esse processo de ajuste fino, lotes de imagens são codificados, decodificados e otimizados para minimizar as diferenças entre as mensagens extraídas e de destino e manter a qualidade percebida da imagem. Este processo de otimização é rápido e eficiente, exigindo apenas pequenos lotes e pouco tempo para obter resultados de alta qualidade.

Avalie o desempenho do StableSignature

Sabemos que as pessoas adoram compartilhar e retweetar imagens. O que acontece se Bob compartilhar uma imagem que ele criou com 10 amigos e cada amigo compartilhar a imagem com outros 10 amigos? Durante esse período, alguém pode ter feito alterações na imagem, como cortar, compactar ou alterar cores. Os pesquisadores criaram o StableSignature para lidar com essas mudanças. Não importa como se transforme a imagem, a marca d'água original provavelmente permanecerá nos dados digitais e poderá ser rastreada até o modelo generativo que a criou.

Os pesquisadores encontraram duas vantagens principais do StableSignature sobre os métodos de detecção passiva:

Primeiro, pode controlar e reduzir a ocorrência de alarmes falsos, falsos positivos ocorrem quando uma imagem gerada por humanos é confundida com uma imagem gerada por IA. Isto é crucial dada a prevalência de imagens não geradas por IA partilhadas online. Por exemplo, os métodos de detecção existentes mais eficazes podem detectar cerca de 50% das imagens geradas editadas, mas ainda produzir uma taxa de falsos positivos de cerca de 1/100. Por outras palavras, numa plataforma de conteúdo gerado pelo utilizador que recebe mil milhões de imagens todos os dias, aproximadamente 10 milhões de imagens serão etiquetadas incorretamente, resultando na deteção de apenas metade das imagens geradas pela IA.

StableSignature, por outro lado, detecta imagens com a mesma precisão com uma taxa de falsos positivos de 1e-10 (que pode ser definida para um valor específico desejado).Além disso, essa abordagem de marca d’água permite rastrear imagens de diferentes versões do mesmo modelo – um recurso que não é possível com técnicas passivas.

Se um modelo grande tiver sido ajustado,

Como o StableSignature detecta a imagem gerada pela versão ajustada?

Uma abordagem comum para grandes modelos de IA é pegar um modelo básico e ajustá-lo para lidar com um caso de uso específico que às vezes é até adaptado para uma pessoa. Por exemplo, pode ser mostrada ao modelo uma imagem do cachorro de Alice, e Alice pode então pedir ao modelo para gerar uma imagem de seu cachorro na praia. Isso é feito através de métodos como DreamBooth, TextualInversion e ControlNet. Esses métodos atuam no nível do modelo subjacente e não alteram o decodificador. Isso significa que nosso método de marca d’água não é afetado por esses ajustes finos.

No geral, StableSignature funciona bem com modelagem de imagem quantizada vetorial (como VQGAN) e modelos de difusão latente (como StableDiffusion). Como esta abordagem não modifica o processo de geração de difusão, é compatível com os modelos populares mencionados acima. Com alguns ajustes, assinaturas estáveis também podem ser aplicadas a outros métodos de modelagem.

A marca d’água de IA é realmente confiável?

A tecnologia de identificação de imagens geradas por IA através da adição de marcas d'água invisíveis tem sido objeto de muita controvérsia recentemente. O Google DeepMind anunciou recentemente o lançamento do SynthID, uma ferramenta para adicionar marcas d'água à geração de imagens e identificar imagens geradas por IA. Ao digitalizar marcas d'água digitais em imagens, o SynthID pode avaliar a probabilidade de a imagem ter sido gerada por um modelo Imagen.

Mas as marcas d'água de IA podem ser facilmente removidas? De acordo com relatos da mídia estrangeira como Engadget e Wired, uma equipe de pesquisa da Universidade de Maryland, nos Estados Unidos, estudou a confiabilidade da tecnologia de "marca d'água digital" para conteúdo gerado por IA e descobriu que essa tecnologia pode ser facilmente quebrada.

Soheil Feizi, professor de ciência da computação na escola, foi direto ao se deparar com o status atual das marcas d’água em imagens geradas por IA: “Atualmente não temos nenhuma tecnologia confiável de marca d’água e quebramos todas as marcas d’água”.

Durante os testes, os pesquisadores conseguiram contornar facilmente os métodos de marca d’água existentes e acharam mais fácil adicionar “marcas d’água falsas” a imagens não geradas por IA. Ao mesmo tempo, a equipe também desenvolveu uma tecnologia de marca d’água que é “quase impossível” de remover das imagens sem comprometer completamente a propriedade intelectual da imagem.

A marca d'água de IA ainda é imatura e não pode ser uma ferramenta 100% eficaz. Precisamos de esperar pelo surgimento de novas tecnologias no futuro para proteger imagens generativas de IA, evitar a proliferação de imagens falsas e evitar a violação de direitos de autor.