OpenAI e Anthropic dão o exemplo. Antigos rivais de IA iniciam “testes mútuos” do modelo security

OpenAI e Anthropic, duas das principais startups de IA do mundo, lançaram uma rara colaboração entre laboratórios nos últimos dois meses – abrindo temporariamente seus modelos de inteligência artificial bem guardados entre si para testes de segurança conjuntos em meio a uma concorrência acirrada.A medida visa revelar pontos cegos nas avaliações internas das respetivas empresas e demonstrar como as empresas líderes em IA podem colaborar na segurança e na coordenação no futuro.

O relatório de pesquisa de segurança divulgado conjuntamente pelas duas empresas na quarta-feira chega num momento em que empresas líderes de IA, como OpenAI e Anthropic, estão envolvidas em uma corrida armamentista. Bilhões de dólares em investimentos em data centers e dezenas de milhões de dólares em salários de pesquisadores de ponta tornaram-se o limite básico do setor. Isto levou muitos especialistas da indústria a alertar com preocupação que a concorrência feroz de produtos pode forçar as empresas a reduzir os padrões de segurança à medida que se apressam a desenvolver sistemas mais poderosos.

É relatado que, para realizar esta pesquisa, OpenAI e Anthropic concederam entre si permissões especiais de API, permitindo acesso a uma versão do modelo de IA com nível de proteção de segurança reduzido. O modelo GPT-5 não participou deste teste porque ainda não havia sido lançado.

O cofundador da OpenAI, Wojciech Zaremba, disse em uma entrevista que essa cooperação está se tornando cada vez mais importante, dado que a tecnologia de IA está entrando em um estágio de desenvolvimento de “impacto significativo”, usado por milhões de pessoas todos os dias.

“Apesar dos milhares de milhões de dólares investidos na indústria e da batalha por talentos, utilizadores e os melhores produtos, como estabelecer padrões de segurança e cooperação é uma questão mais ampla que a indústria enfrenta”, disse Zaremba.

É claro que Zaremba prevê que a concorrência na indústria permanecerá acirrada mesmo quando as equipes de segurança de IA começarem a tentar colaborar.

O pesquisador de segurança da Antrópico Nicholas Carlini expressou a esperança de que os pesquisadores de segurança da OpenAI continuem a ter permissão para acessar o modelo Claude da Antrópico no futuro.

“Esperamos expandir a cooperação tanto quanto possível na fronteira de segurança e normalizar essa cooperação”, disse Carlini.

Que questões a pesquisa descobriu?

As descobertas mais surpreendentes do estudo envolveram sessões de testes de alucinação com modelos grandes.

Quando a resposta correta não pode ser determinada, os modelos Claude Opus 4 e Sonnet 4 da Anthropic se recusarão a responder até 70% das perguntas e, em vez disso, darão respostas como “Não tenho informações confiáveis”; embora os modelos o3 e o4-mini da OpenAI se recusem a responder perguntas com muito menos frequência do que os anteriores, e a probabilidade de alucinações seja muito maior - eles ainda tentarão responder quando não houver informações suficientes.

Zaremba acredita que o equilíbrio ideal está em algum ponto intermediário: os modelos OpenAI deveriam rejeitar respostas com mais frequência, enquanto os modelos antrópicos deveriam tentar fornecer mais respostas.

O fenómeno da lisonja – a tendência dos modelos de IA de reforçarem os seus comportamentos negativos para agradar aos utilizadores – também está a tornar-se um dos riscos de segurança mais prementes dos actuais modelos de IA.

O relatório de pesquisa da Anthropic aponta para casos “extremos” de bajulação no GPT-4.1 e Claude Opus 4 – modelos que inicialmente resistem ao comportamento psicopático ou maníaco, mas depois endossam certas decisões preocupantes. Em contraste, os pesquisadores observaram níveis mais baixos de lisonja em outros modelos de IA da OpenAI e da Anthropic.

Na terça-feira, os pais de Adam Lane, um menino californiano de 16 anos, entraram com uma ação contra a OpenAI, acusando ChatGPT (especificamente a versão GPT-4o) de fornecer sugestões a seu filho para promover seu suicídio em vez de prevenir seus pensamentos suicidas. O processo sugere que este pode ser o exemplo mais recente de bajulação de um chatbot de IA que leva a consequências trágicas.

Quando questionado sobre isso, Zaremba disse: "É inimaginável a dor que isso causará às famílias. Seria um resultado triste se desenvolvêssemos uma IA que pudesse resolver problemas complexos de nível de doutorado e criar nova ciência, mas ao mesmo tempo causasse que as pessoas desenvolvessem problemas de saúde mental ao interagir com ela. Este futuro distópico não é o que eu espero."

A OpenAI afirmou em um blog que seu modelo GPT-5 melhorou significativamente o problema de lisonja dos chatbots em comparação com o GPT-4o, e afirmou que o modelo é mais capaz de lidar com emergências de saúde mental.

Zaremba e Carlini expressaram a esperança de que a Anthropic e a OpenAI aprofundem a sua cooperação no domínio dos testes de segurança no futuro, expandam os tópicos de investigação e testem modelos futuros. Eles também esperam que outros laboratórios de IA sigam este modelo colaborativo.