A última pesquisa da BBC descobriu que os chatbots de inteligência artificial ainda apresentam deficiências significativas na precisão das reportagens noticiosas, com quase metade do conteúdo gerado contendo erros. De acordo com um relatório de análise divulgado conjuntamente pela BBC e 22 outras organizações de comunicação social públicas europeias, em 18 países e 14 ambientes linguísticos, quando os chatbots de IA acederam ao conteúdo das organizações noticiosas e responderam a perguntas relacionadas, cerca de 45% das suas respostas continham erros.
Esses erros incluem não apenas frases imprecisas e citações incorretas, mas também problemas como informações desatualizadas, citações incorretas e incompatibilidades de fontes. O relatório observa que os chatbots muitas vezes fornecem links que não correspondem às fontes reais citadas e, mesmo quando citam material com precisão, não conseguem distinguir factos de opinião, sátira de notícias legítimas.
As principais empresas de tecnologia, incluindo OpenAI, Google, Microsoft, etc., estão promovendo ativamente chatbots de IA generativos e integrando-os profundamente em plataformas da Internet para ajudar os usuários na obtenção e análise automática de informações. Embora os desenvolvedores continuem a investir muitos recursos para reduzir o fenômeno da "alucinação" (ou seja, a fabricação de conteúdo de IA), os relatórios mostram que esse problema ainda é difícil de resolver completamente no curto prazo.
Em testes reais, muitas ferramentas convencionais de IA, como ChatGPT, Copilot e Gemini, apresentaram erros significativos. Por exemplo, afirmam incorrectamente que o Papa Francisco ainda está em funções, quando na verdade foi sucedido por Leão XIV. Algumas IA até relataram corretamente a data da morte de Francisco, mas ainda assim o descreveram como o atual papa. Além disso, existem informações desatualizadas e incorretas sobre cargos de liderança relevantes.

O relatório mostra também que estes problemas não se limitam a uma região ou língua, mas estão disseminados por todo o mundo. Entre eles, o Gemini do Google é o menos preciso, com até 72% das suas respostas contendo erros de origem significativos. A OpenAI atribuiu anteriormente tais erros ao fato de que a versão inicial só foi treinada até setembro de 2021 e não conseguiu obter informações da Internet em tempo real. No entanto, não é mais aplicável. Portanto, é mais provável que o problema resulte do próprio algoritmo e seja difícil de resolver por meio de atualizações de dados.
Embora a proporção de erros graves tenha caído de 51% para 37% em comparação com o teste separado da BBC em fevereiro deste ano, o Gemini ainda está atrás de outros produtos. Apesar dos resultados fracos, os investigadores descobriram que o público britânico demonstrou um elevado grau de confiança no resumo de notícias da IA: mais de um terço dos adultos britânicos e quase metade das pessoas com menos de 35 anos acreditavam que a IA poderia resumir com precisão o conteúdo das notícias. 42% do público afirmou que quando a IA deturpa o conteúdo original das notícias, também questionará a fiabilidade da própria organização noticiosa ou reduzirá a confiança nela. Os especialistas alertam que a crescente popularidade das ferramentas generativas de IA poderá prejudicar seriamente a reputação e a credibilidade das principais organizações de notícias se tais problemas persistirem.
