A Amazon deseja que os usuários avaliem melhor os modelos de IA e incentivem mais humanos a participar do processo. Na conferência AWSre:Invent, Swami Sivasubramanian, vice-presidente de banco de dados, análise e aprendizado de máquina da AWS, anunciou o recurso Model Evaluation on Bedrock, que agora está disponível em versão prévia para modelos em seu repositório Amazon Bedrock.
Sem uma forma transparente de testar modelos, os desenvolvedores podem acabar usando modelos que não são precisos o suficiente para projetos de perguntas e respostas ou muito grandes para seus casos de uso.
“A seleção e avaliação de modelos não acontecem apenas no início, mas são repetidas regularmente. Achamos que é importante ter um ser humano no circuito, por isso fornecemos uma maneira de gerenciar facilmente fluxos de trabalho de avaliação humana e modelar métricas de desempenho”, disse Sivasubramanian.
Alguns desenvolvedores muitas vezes se perguntam se deveriam usar um modelo maior em seus projetos porque presumem que um modelo mais poderoso atenderá às suas necessidades. Mais tarde, descobriram que poderiam ter desenvolvido um modelo menor. A avaliação do modelo consiste em duas partes: avaliação automática e avaliação manual. Na versão automatizada, os desenvolvedores podem acessar o console Bedrock e selecionar um modelo para testar. Eles podem então avaliar o desempenho do modelo em métricas como robustez, precisão ou toxicidade em tarefas como resumo, classificação de texto, resposta a perguntas e geração de texto.
Bedrock inclui modelos populares de IA de terceiros, como Llama2 da Meta, Claude2 da Anthropic e StableDiffusion da StabilityAI.
A AWS fornece conjuntos de dados de teste e os clientes também podem trazer seus próprios dados para a plataforma de benchmarking para entender melhor o desempenho do modelo. O sistema então gera um relatório.
Se o envolvimento humano for necessário, os usuários poderão optar por trabalhar com a equipe de avaliação humana da AWS ou com sua própria equipe. Os clientes devem especificar o tipo de tarefa (por exemplo, resumo ou geração de texto), métricas de avaliação e o conjunto de dados que desejam usar. A AWS fornecerá preços e prazos personalizados para clientes que trabalham com a equipe de avaliação.
Vasi Philomin, vice-presidente de inteligência artificial generativa da AWS, disse que uma melhor compreensão do desempenho do modelo pode orientar melhor o desenvolvimento. Também permite que as empresas entendam se um modelo não atende a alguns padrões responsáveis de IA, como sensibilidade à toxicidade baixa ou excessiva, antes de usá-lo para construir.
“É importante que os modelos se ajustem aos nossos clientes, para saber qual modelo funciona melhor para eles, e estamos dando a eles uma maneira melhor de avaliá-lo”, disse Philomin. A AWS não exigirá que todos os clientes façam benchmarking de modelos porque alguns desenvolvedores podem ter usado alguns dos modelos básicos no Bedrock antes ou ter algum conhecimento dos recursos do modelo. As empresas que ainda estão explorando qual modelo utilizar podem se beneficiar do processo de benchmarking.
Sivasubramanian também disse que quando os humanos avaliam modelos de IA, eles podem detectar outros indicadores que os sistemas automatizados não conseguem – como empatia ou simpatia.
A AWS disse que, embora o serviço de benchmarking ainda esteja em versão preliminar, ele cobra apenas pela inferência do modelo usado no processo de avaliação.
Embora não exista um padrão específico para benchmarking de modelos de IA, alguns setores geralmente aceitam métricas específicas. O objetivo do benchmark Bedrock não é fornecer uma avaliação extensa do modelo, mas fornecer às empresas uma forma de medir o impacto do modelo nos seus projetos.