OpenAI lança novo modelo de peso aberto para garantir segurança de IA

A OpenAI anunciou hoje o lançamento de dois novos modelos de peso aberto para o campo de segurança de IA - gpt-oss-safeguard-120b e gpt-oss-safeguard-20b. Esses modelos de classificação de segurança são otimizados com base na série de modelos abertos gpt-oss lançada anteriormente e também são abertos sob a licença Apache 2.0, permitindo que qualquer pessoa os use, modifique e implante livremente.

A maior característica do novo modelo é que ele fornece aos desenvolvedores a capacidade de conduzir inferência e classificação diretamente com base em políticas de segurança personalizadas, abandonando o sistema de segurança “tamanho único”. Os desenvolvedores podem inserir suas próprias políticas de segurança e conteúdo a serem detectados durante a inferência, e o modelo classificará com base nas políticas e fornecerá motivos de raciocínio. As políticas podem ser alteradas à medida que são utilizadas e podem ser ajustadas de forma flexível para melhorar o desempenho. gpt-oss-safeguard pode classificar mensagens de usuários, respostas de bate-papo e até mesmo conversas completas.

A OpenAI destaca que este novo tipo de modelo é particularmente adequado para as seguintes situações:

Os perigos potenciais estão a surgir ou a evoluir e as políticas necessitam de se adaptar rapidamente;
Algumas áreas são altamente granulares e difíceis de manusear pelos pequenos classificadores tradicionais;
Os desenvolvedores não possuem um grande número de amostras de alta qualidade e têm dificuldade em treinar classificadores de alto nível para vários riscos na plataforma;
A qualidade e a interpretabilidade dos resultados da classificação são priorizadas em relação ao desempenho atrasado.

Deve-se notar que o gpt-oss-safeguard também tem certas limitações. OpenAI afirmou que se a plataforma tiver um grande número de amostras rotuladas e puder treinar classificadores tradicionais, este último ainda poderá ser melhor que gpt-oss-safeguard em cenários complexos ou de alto risco, e o modelo personalizado será mais preciso. Além disso, este novo modelo possui velocidade de processamento lenta e grande consumo de recursos, tornando-o inadequado para triagem de conteúdo em grande escala em tempo real.

Atualmente, gpt-oss-safeguard-120b e gpt-oss-safeguard-20b estão disponíveis para download gratuito:

https://huggingface.co/collections/openai/gpt-oss-safeguard