Plano de lançamento de Fable 5 anunciado Anthropic quer estabelecer um padrão para IA jailbreak

De acordo com notícias do dia 1º de julho, terça-feira, horário local, a Anthropic divulgou um longo artigo explicando em detalhes todo o processo de Claude Fable 5 e Claude Mythos 5 serem sujeitos aos controles de exportação dos EUA, suspendendo o acesso e depois serem restaurados online. Este não é um simples anúncio de recuperação. Mais importante ainda, a Anthropic está transformando “Quão sério é o jailbreak do modelo de IA” em uma estrutura de pontuação do setor e incorporando ainda mais lançamentos de modelos de ponta em testes de pré-lançamento do governo e colaboração de segurança.

De acordo com o anúncio da Anthropic, o Fable 5 estará aberto a usuários globais a partir de 1º de julho, abrangendo Claude Platform, Claude.ai, Claude Code e Claude Cowork. Usuários Pro, Max, Team e alguns Enterprise podem usar o Fable 5 em até 50% de sua cota de uso semanal antes de 7 de julho; eles continuarão a usá-lo por meio de créditos de uso depois disso. A Anthropic também disse que reativará o acesso na AWS, Google Cloud e Microsoft Foundry o mais rápido possível.

Mythos 5 tem um intervalo de recuperação mais estreito. A Antthropic disse que após a aprovação do governo dos EUA em 26 de junho, a empresa restaurou o acesso ao Mythos 5 para um grupo de instituições dos EUA e continuará a coordenar com o governo para expandir para mais parceiros nacionais e internacionais no projeto Glasswing.

Um relatório de “jailbreak” fez com que o modelo fosse retirado das prateleiras

Esta rodada de turbulência começou em 12 de junho.

A Anthropic afirmou que o governo dos EUA implementou controles de exportação no Claude Fable 5 e no Claude Mythos 5 naquele dia, exigindo que os estrangeiros restringissem o acesso a esses dois modelos. “Cidadãos estrangeiros” aqui incluem não apenas usuários fora dos Estados Unidos, mas também cidadãos não americanos dentro dos Estados Unidos. Como a diretiva entrou em vigor imediatamente e a Anthropic não tinha uma forma confiável de verificar a nacionalidade de todos os usuários em tempo real, a empresa finalmente optou por suspender o acesso a todos os usuários.

De acordo com a última análise da Anthropic, Fable 5 e Mythos 5 foram lançados em 9 de junho. Os modelos subjacentes dos dois são os mesmos, mas são orientados para cenários diferentes: Fable 5 adiciona proteção de segurança mais forte e é usado para uma gama mais ampla de cenários de usuários comuns; Mythos 5 tem menos proteção e está disponível apenas para alguns parceiros confiáveis do Project Glasswing para tarefas defensivas de segurança de rede.

A razão direta para a intervenção do governo dos EUA foi um relatório de pesquisadores da Amazon. De acordo com o relatório, os pesquisadores encontraram uma maneira de contornar a proteção de segurança do Fable 5, permitindo ao modelo identificar diversas vulnerabilidades de software; num caso, o modelo também gerou código que demonstrou como explorar as vulnerabilidades relevantes.

Resposta da Anthropic: Este incidente expôs um caso limítrofe na proteção de segurança do Fable 5, mas não desencadeou capacidades únicas de ataque cibernético no nível Mythos. A empresa disse que, após testes, modelos com capacidades inferiores, como Claude Opus 4.8, GPT-5.5 e Kimi K2.7, também podem identificar a mesma vulnerabilidade; ao gerar uma única demonstração de exploração de vulnerabilidade, vários modelos também podem fornecer resultados semelhantes.

Resumindo, o que a Anthropic quer enfatizar é o seguinte: esta não é uma manifestação repentina das capacidades perigosas únicas do Fable 5, mas um classificador de segurança sendo contornado em uma área ambígua.

O novo classificador pode bloquear mais de 99%, mas causará danos acidentais

Para restaurar o acesso, a Anthropic treinou um novo classificador de segurança que intercepta especificamente o comportamento mencionado no relatório da Amazon.

A Antthropic afirma que o novo classificador pode bloquear a técnica de desvio específica descrita no relatório da Amazon em mais de 99% dos casos. Solicitações interceptadas do Fable 5 serão encaminhadas para Claude Opus 4.8 para processamento. O Centro de Padrões e Inovação de IA (CAISI) do Departamento de Comércio dos EUA também testou conjuntos antigos e novos de proteção antrópica.

A solução não vem sem um preço, no entanto.

A Anthropic reconheceu que o novo classificador classificará incorretamente solicitações benignas com mais frequência durante as tarefas diárias de programação e depuração. Em outras palavras, algumas pesquisas normais de segurança, depuração de código ou solicitações de análise de vulnerabilidade podem ser bloqueadas pelo sistema. A empresa disse que continuará otimizando no futuro e tentando distinguir abusos reais de solicitações legítimas.

Este é também o problema central do incidente Fable 5: quanto mais fortes forem as capacidades do modelo, mais ele poderá ajudar os esforços de segurança defensiva; mas as mesmas capacidades também podem ser usadas para ataques. O fabricante não precisa apenas responder "ele pode bloquear solicitações incorretas?" mas também "pode bloquear boas solicitações?"

Anthropic quer avaliar jailbreaks de IA

A parte mais notável do longo artigo não é o acesso à recuperação do Fable 5, mas o “AI Jailbreak Severity Framework” proposto pela Anthropic.

A Anthropic acredita que atualmente não existe um padrão unificado na indústria para avaliar a gravidade de um jailbreak de IA. O resultado é que sempre que surge um novo método de desvio, os promotores não sabem com que rapidez devem corrigi-lo e os governos carecem de padrões consistentes para avaliar se a intervenção é necessária.

A Anthropic está elaborando uma estrutura com Amazon, Microsoft, Google e outros parceiros da Glasswing. Ele recomenda pontuar os riscos de jailbreak em quatro dimensões:

Primeiro, ganho de habilidade. Depois de ser desbloqueado, o modelo pode fazer coisas que as ferramentas públicas existentes e os modelos mais fracos não podem fazer? Se atingir apenas as capacidades de outras ferramentas, o risco é baixo; se puder acelerar significativamente os ataques de nível especializado, o risco é alto.

Em segundo lugar, o âmbito das capacidades. O mesmo método de jailbreak só pode desbloquear uma tarefa muito restrita ou pode cobrir vários tipos de alvos de ataque e rotas técnicas.

Terceiro, a dificuldade de armamento. Quanto esforço manual, dicas e tentativa e erro são necessários para transformar esse jailbreak em um ataque real. As apostas são maiores quando um ou dois prompts proporcionam um sucesso consistente.

Quarto, descoberta. Este método requer conhecimento profissional para ser encontrado ou já está amplamente disponível online.

A importância desta estrutura é que ela tenta transformar o “jailbreak de IA” do pânico geral em problemas comunicáveis, classificáveis e reparáveis. Quando vulnerabilidades forem descobertas em modelos no futuro, os fabricantes e os governos poderão primeiro determinar se este é um caso limítrofe de baixo risco ou um jailbreak de alto risco que requer a implementação imediata de medidas de mitigação.

A Anthropic também planeja lançar um novo projeto HackerOne que permitirá que pesquisadores de segurança enviem casos para possíveis jailbreaks de segurança de rede do Fable 5.

O lançamento de modelos de ponta está se tornando “o governo também deve olhar primeiro”

A Anthropic também apresenta um conjunto de compromissos de longo prazo no final do artigo: Para modelos que envolvam capacidades de ponta relacionadas com a segurança nacional, fornecerá acesso antecipado a parceiros governamentais designados, permitindo ao governo testar os modelos e apoiar a proteção antes da divulgação generalizada; quando ocorrem fugas de prisão importantes ou padrões de abuso, as informações serão compartilhadas com o governo mais rapidamente; ao mesmo tempo, serão investidos equipas dedicadas e capacidade computacional para participar na avaliação e investigação da segurança da IA.

Isto significa que o processo de lançamento de modelos de IA de ponta está mudando.

No passado, o lançamento do modelo baseava-se principalmente no ritmo do produto da empresa: treinamento, avaliação, testes da equipe vermelha e lançamento. Após o incidente do Fable 5, pelo menos em áreas de alto risco, como a segurança cibernética, o processo de lançamento pode ter uma camada adicional de avaliação governamental pré-lançamento, partilha de informações e negociação de riscos.

Para os usuários, a retomada do Fable 5 é uma boa notícia; mas para os clientes empresariais, este incidente deixou um lembrete mais realista: a disponibilidade de modelos de ponta depende não apenas da tecnologia e do preço, mas também do estado da política. Mesmo que um modelo tenha sido lançado, ele pode ser suspenso repentinamente devido a disputas de segurança e depois retomado por meio de proteção suplementar, negociação e testes governamentais.

Para a Anthropic, esta revisão não é apenas uma explicação dos motivos do fechamento de capital, mas também uma luta pelo direito de palavra: a empresa espera que o mundo exterior acredite que Fable 5 não é um modelo fora de controle, mas um caso limítrofe que é tratado com cautela excessiva; ao mesmo tempo, também espera mudar o foco da indústria de “se o modelo pode ser desbloqueado” para “como julgar a gravidade do desbloqueio”.

Esse pode ser o sinal realmente importante deste anúncio. O relançamento de Fable 5 é apenas o resultado. Como os modelos de ponta serão testados, lançados e como o governo intervirá no futuro são as novas questões deixadas por esta tempestade.