O chefe de segurança de saúde mental da OpenAI salta para o alinhamento antrópico team

Uma das questões mais controversas da OpenAI no ano passado foi como exatamente os modelos deveriam responder quando os usuários do chatbot mostram sinais de problemas de saúde mental nas conversas, e agora Andrea Vallone, chefe de pesquisa de segurança nesta área, saiu para se juntar à Anthropic.

Vallone postou anteriormente no LinkedIn que a pesquisa pela qual ela foi responsável na OpenAI no ano passado quase “não tinha precedentes existentes” a seguir. A questão central é: como deve o modelo responder quando confrontado com a dependência excessiva emocional dos utilizadores ou com sinais precoces de crise de saúde mental. Ela trabalhou na OpenAI por três anos, durante os quais estabeleceu e liderou a equipe de pesquisa de "política modelo" para trabalhar na implantação do GPT-4 e do modelo de inferência de próxima geração GPT-5, e participou do projeto de uma variedade de métodos de treinamento de segurança convencionais da indústria, incluindo "recompensas baseadas em regras".

Hoje, Vallone se juntou à equipe de alinhamento da Anthropic, que tem a tarefa de identificar e compreender os riscos significativos que grandes modelos podem representar e explorar maneiras de lidar com eles. Ela se reportará a Jan Leike – ex-chefe de pesquisa de segurança da OpenAI que saiu em maio de 2024 devido a preocupações de que “a cultura e os processos de segurança da OpenAI deram lugar a um produto brilhante” antes de mudar para a Antrópico.

No ano passado, as principais startups de IA continuaram a suscitar controvérsia pública em torno dos riscos associados aos chatbots de IA e à saúde mental dos utilizadores. Alguns usuários aprofundaram ainda mais suas dificuldades psicológicas depois de conversar por muito tempo com chatbots, e suas defesas de segurança entraram em colapso gradualmente durante longas conversas. Houve até incidentes extremos, como adolescentes cometendo suicídio e adultos cometendo assassinato após “confiarem” na ferramenta. Vários casos levaram famílias a abrir ações judiciais por homicídio culposo contra empresas relacionadas. Um subcomité do Senado dos EUA também realizou audiências sobre esta questão, pedindo para explorar o papel e as responsabilidades dos chatbots em tais incidentes, e foi pedido aos investigadores de segurança que apresentassem soluções mais poderosas.

Sam Bowman, um dos líderes da equipe de alinhamento da Anthropic, disse no LinkedIn que estava “orgulhoso de quão seriamente a Anthropic está levando essa questão” e que a empresa está pensando muito sobre “como os sistemas de IA deveriam se comportar”. Vallone escreveu em uma nova postagem no LinkedIn na quinta-feira que ela “espera continuar sua pesquisa na Anthropic, concentrando-se em moldar o comportamento de Claude em novas situações por meio de alinhamento e ajuste fino”.