A Anthropic lançou oficialmente seu modelo mais recente, Fable, ao público na terça-feira, posicionando-o como uma “versão pública e restrita” de seu modelo interno de segurança cibernética de ponta, Mythos, mas o produto rapidamente gerou polêmica nos círculos de segurança cibernética. Muitos pesquisadores e profissionais de segurança reclamaram em plataformas sociais e comunidades que as proteções de segurança integradas do Fable eram muito rígidas e dificilmente poderiam ser usadas para qualquer trabalho real relacionado à segurança de rede.

De acordo com o feedback dos pesquisadores, a Fable rejeita “qualquer solicitação, mesmo remotamente relacionada à segurança cibernética”, incluindo até mesmo tarefas aparentemente inócuas, como ajudar a ler uma postagem de blog. Segundo a pesquisadora Valentina “Chompie” Palmiotti, que hoje trabalha na IBM X-Force, a Fable simplesmente encerra a conversa e indica que seus mecanismos de segurança sinalizaram a mensagem como envolvendo segurança cibernética ou tópicos biológicos. Essas proteções são projetadas para evitar que modelos sejam usados para desenvolver malware, atacar ou danificar sistemas de software, e também para limitar seu uso indevido no campo biológico para auxiliar no desenvolvimento de armas biológicas.
Quando a Anthropic lançou o Mythos em abril deste ano, optou por abri-lo apenas a um pequeno número de empresas e instituições através de um programa chamado “Projeto Glasswing” com a intenção de usar este modelo para ajudar a proteger software e infraestrutura críticos. Na semana passada, a Anthropic anunciou que expandiria o uso do Mythos para centenas de organizações em 15 países, promovendo ainda mais a implementação deste tipo de modelo de segurança de alta capacidade em indústrias-chave. No entanto, depois que o Fable foi aberto ao público, sua estratégia de segurança de “versão rebaixada” foi fortemente questionada entre os usuários profissionais. Muitas pessoas acreditavam que havia uma lacuna significativa entre a experiência real e a propaganda oficial.
Matt Suiche, um veterano de longa data em segurança cibernética, disse ao TechCrunch que Fable foi muito abrupto ao determinar se uma solicitação estava relacionada à segurança cibernética. Por exemplo, ele disse que se um usuário solicitar “escrever código seguro”, a Fable tenderá a considerá-lo como um trabalho de segurança de rede, em vez de uma orientação de melhores práticas de engenharia de software, acionando diretamente o mecanismo de downgrade. Assim que o guardrail for acionado, Fable irá automaticamente recorrer ao menos capaz Claude Opus 4.8 para continuar a conversa. Suche acredita que a lógica de julgamento de Fable parece ser altamente dependente de palavras-chave. “Enquanto as palavras caírem no campo semântico de ‘segurança de rede’, elas poderão ser facilmente interceptadas pelo sistema de segurança.”
Apesar disso, Suiche também expressa uma certa compreensão das configurações rigorosas na fase atual, acreditando que nesta fase inicial os fabricantes impõem limites de segurança mais conservadores aos modelos e são mais seguros no controlo de riscos. Ele espera que essas proteções sejam continuamente refinadas e ajustadas à medida que a Anthropic aprofunda sua colaboração com uma nova geração de empresas de segurança cibernética. Na sua opinião, é um caminho mais aceitável “bloquear mais” primeiro e depois relaxar gradualmente as restrições do que relaxar demasiado no início, fazendo com que o risco potencial de abuso fique fora de controlo.
Fable não está sozinho em sua insatisfação. Outro pesquisador reclamou na plataforma social que “até mesmo solicitar a revisão do código acionará a proteção de segurança”. Alguns usuários compartilharam suas experiências na comunidade relacionada a Claude do Reddit, dizendo que Fable “quase todos recusa” pedidos de auditorias de segurança, análises de vulnerabilidade, etc., afetando seriamente sua utilidade em ambientes profissionais. Até o momento desta publicação, a Anthropic não respondeu publicamente ao feedback.
Além do mecanismo automático de proteção dentro do modelo, a Anthropic também estabeleceu um processo adicional de admissão para profissionais de segurança cibernética - o “Programa de Verificação Cibernética”. Somente usuários aprovados no programa podem usar o Claude para trabalhos de segurança de rede em condições menos restritivas. Da mesma forma, a OpenAI lançou um projeto chamado “Trusted Access for Cyber” para abrir mais capacidades de modelo para práticas de segurança cibernética compatíveis. Estas práticas reflectem que, embora as empresas modelo de vanguarda promovam a segurança das redes potenciadas pela IA, continuam a tentar equilibrar a libertação de capacidades e o risco de abuso através de meios duplos de sistemas de revisão e protecções técnicas.