Marcas dágua para etiquetar imagens de IA são facilmente manipuladas

Inovação Tecnológica - 04/07/2025

À esquerda uma imagem real. Os pesquisadores implementaram uma marca dágua semântica nela, o que deveria comprovar ela teria sido gerada por IA. O resultado é visível à direita. A adição da marca dágua praticamente não deixou vestígios na imagem.
[Imagem: MS COCO Dataset]

Marca dágua semântica

Se você confia nas marcas dágua – marcadores visíveis ou invisíveis incorporados em arquivos de imagem – para checar se uma imagem é gerada por inteligência artificial ou não, é melhor procurar por novos modos de autenticação.

“Nós demonstramos que invasores podem falsificar ou remover completamente marcas d’água semânticas usando métodos surpreendentemente simples,” disse Andreas Müller, da Universidade Ruhr de Bochum, na Alemanha.

As chamadas marcas dágua semânticas, que ficam profundamente inseridas no próprio processo de geração de imagens, vinham sendo consideradas especialmente robustas e difíceis de remover. Mas a equipe revelou falhas fundamentais de segurança nas técnicas de geração dessas marcas dágua supostamente resilientes.

Os pesquisadores descobriram duas estratégias de ataque. O primeiro método, chamado ataque de impressão, atua no nível de representações latentes, ou seja, a assinatura digital subjacente de uma imagem na qual os geradores de imagens de IA trabalham. A representação oculta de uma imagem real – sua estrutura digital subjacente, por assim dizer – é deliberadamente modificada para se assemelhar à de uma imagem contendo uma marca dágua.

Isso possibilita a transferência da marca dágua para qualquer imagem real, mesmo que a imagem de referência tenha sido originalmente gerada exclusivamente por IA. Um invasor pode, portanto, enganar um provedor de IA fazendo com que qualquer imagem pareça ter marca dágua – e, portanto, gerada artificialmente -, efetivamente fazendo com que imagens reais pareçam falsas.

“O segundo método, o ataque de recomando, explora a capacidade de retornar uma imagem com marca dágua ao espaço latente e, em seguida, regerá-la com um novo comando. Isso resulta em imagens arbitrárias recém-geradas que carregam a mesma marca dágua,” explicou o professor Erwin Quiring.

Marcas dágua para etiquetar imagens de IA são facilmente manipuladas

Ilustração das técnicas de ataque.
[Imagem: Andreas Müller et al. (2025)]

Sem defesas

Para piorar, ambos os ataques requerem apenas uma única imagem de referência contendo a marca dágua alvo; podem ser executados em diferentes arquiteturas de modelo; e funcionam tanto para sistemas legados baseados em UNet quanto para transformadores de difusão mais recentes. Essa flexibilidade entre modelos torna as vulnerabilidades especialmente preocupantes.

Segundo os pesquisadores, as implicações dessa vulnerabilidade são de longo alcance: Atualmente, não existem defesas eficazes contra nenhum dos ataques. “Isso questiona como poderemos rotular e autenticar com segurança o conteúdo gerado por IA daqui para frente,” disse Müller, acrescentando que a abordagem atual para a marca dágua semântica deve ser fundamentalmente repensada para garantir confiança e resiliência a longo prazo.