OpenAI afirma que implanta um novo sistema para monitorar seus mais recentes modelos de inferência de IAo3 e o4-mini para detectar sinais associados a ameaças biológicas e químicas.De acordo com o relatório de segurança da OpenAI, um sistema projetado para evitar que esses modelos forneçam recomendações que possam direcionar alguém a realizar ataques potencialmente prejudiciais.

A OpenAI disse que o desempenho do O3 e do o4-mini foi significativamente melhorado em relação aos modelos anteriores, introduzindo também novos riscos para invasores maliciosos. De acordo com os benchmarks internos da OpenAI, o3 é mais proficiente em responder a tipos específicos de questões relacionadas a ameaças biológicas. Por este motivo, e para reduzir outros riscos, a OpenAI criou um novo sistema de monitorização, que a empresa descreve como um “monitor de inferência focado na segurança”.

O monitor é executado em o3 e o4-mini e é treinado de forma personalizada para raciocinar sobre as políticas de conteúdo da OpenAI. Foi concebido para identificar pistas relacionadas com riscos biológicos e químicos e instruir o modelo a rejeitar recomendações sobre estes tópicos.

Para estabelecer uma linha de base, a OpenAI fez com que os membros da equipe vermelha gastassem aproximadamente 1.000 horas sinalizando conversas “inseguras” relacionadas ao risco biológico em o3 e o4-mini. A OpenAI disse que em um teste que simulou a “lógica de bloqueio” de seus monitores de segurança, os modelos se recusaram a responder aos avisos de risco 98,7% das vezes.

A OpenAI reconheceu que seus testes não levaram em consideração as pessoas que poderiam tentar novos prompts após serem bloqueadas por um monitor, razão pela qual a empresa disse que continuará a confiar em parte no monitoramento humano.

A OpenAI disse que O3 e o4-mini não excederam o limite de “alto risco” para risco biológico estabelecido pela OpenAI. No entanto, a OpenAI afirma que as versões anteriores do o3 e do o4-mini são mais úteis para responder a perguntas sobre o desenvolvimento de armas biológicas do que o1 e GPT-4.

Diagrama das placas de sistema o3 e o4-mini (captura de tela: OpenAI)

De acordo com a estrutura de prevenção recentemente atualizada da OpenAI, a empresa está monitorando ativamente como seus modelos facilitam o desenvolvimento de ameaças químicas e biológicas por usuários mal-intencionados.

A OpenAI depende cada vez mais de sistemas automatizados para reduzir o risco dos seus modelos. Por exemplo, para evitar que o gerador de imagens nativo do GPT-4o crie conteúdo de abuso sexual infantil (CSAM), a OpenAI disse que usa um monitor de inferência semelhante ao que a empresa implantou para o3 e o4-mini.

No entanto, alguns pesquisadores estão preocupados com o fato de a OpenAI não estar colocando a segurança onde deveria estar. Metr, um dos parceiros da equipe vermelha da empresa, disse que tinha pouco tempo para avaliar os enganos da O3. Enquanto isso, a OpenAI decidiu não divulgar um relatório de segurança sobre o modelo GPT-4.1 lançado no início desta semana.