As ferramentas generativas de IA são capazes de realizar tarefas que antes pareciam ficção científica, mas a maioria delas ainda luta com muitas habilidades básicas, incluindo a leitura de relógios e calendários analógicos. Um novo estudo descobriu que, em geral, os sistemas de inteligência artificial leem os mostradores do relógio corretamente em menos de um quarto das vezes.
Uma equipe de pesquisa da Universidade de Edimburgo testou alguns dos principais modelos de linguagem multimodal em grande escala para ver até que ponto eles poderiam responder a perguntas baseadas em imagens de relógios e calendários.
Os sistemas testados incluem Gemini2.0 do GoogleDeepMind, Claude3.5Sonnet da Anthropic, Llama3.2-11B-Vision-Instruct da Meta, Qwen2-VL7B-Instruct do Alibaba, MiniCPM-V-2.6 da ModelBest e GPT-4o e GPT-o1 da OpenAI.
Vários tipos de relógios aparecem na imagem: relógios com algarismos romanos, relógios com ponteiros de segundos, relógios sem ponteiros de segundos, mostradores de cores diferentes, etc.
O sistema lê corretamente o relógio em menos de 25% do tempo. Eles lutam ainda mais com relógios que usam algarismos romanos e ponteiros estilizados.
O desempenho da IA não melhorou quando o ponteiro dos segundos foi removido, levando os pesquisadores a acreditar que o problema vinha da detecção dos ponteiros do relógio e da interpretação dos ângulos no mostrador do relógio.
Usando imagens de calendário de 10 anos, os pesquisadores fizeram perguntas como: que dia da semana é o Ano Novo? Mesmo os modelos de IA mais bem-sucedidos erram no problema do calendário 20% das vezes.
As taxas de sucesso variam dependendo do sistema de IA utilizado. Gemini-2.0 obteve a pontuação mais alta no teste do relógio, enquanto o GPT-01 teve 80% de precisão na questão do calendário.
“A maioria das pessoas cresceu contando as horas e usando calendários”, disse o líder do estudo, Rohit Saxena, da Escola de Informática da Universidade de Edimburgo. “As descobertas destacam as enormes lacunas na capacidade da IA de executar habilidades humanas básicas. Essas deficiências devem ser abordadas para que os sistemas de IA sejam integrados com sucesso em aplicações do mundo real sensíveis ao tempo, como agendamento, automação e tecnologia assistiva”.
Aryo Gema, outro pesquisador da Escola de Informática da Universidade de Edimburgo, disse: “A pesquisa atual em inteligência artificial muitas vezes enfatiza tarefas complexas de raciocínio, mas ironicamente muitos sistemas ainda lutam para lidar com tarefas diárias mais simples”.
As descobertas serão relatadas em um artigo revisado por pares a ser apresentado no Workshop de Raciocínio e Planejamento de Modelos de Linguagem em Grande Escala na 13ª Conferência Internacional sobre Representações de Aprendizagem (ICLR) em Cingapura, em 28 de abril.
Este não é o primeiro estudo deste mês a sugerir que os sistemas de IA ainda cometem muitos erros. O Dow Digital News Center conduziu um estudo com oito mecanismos de busca de inteligência artificial e descobriu que eles eram imprecisos em 60% das vezes. O pior é o Grok-3, que tem uma taxa de precisão de 94%.