A revolução da IA está ficando sem dados. O que os pesquisadores podem fazer?

A Internet é um vasto tesouro de conhecimento humano, mas não é inesgotável. Os investigadores de inteligência artificial (IA) estão a esgotar rapidamente estes recursos. O rápido desenvolvimento do campo da IA na última década deveu-se em grande parte à expansão das redes neurais e ao seu treinamento em grandes quantidades de dados. Esta abordagem é muito eficaz no desenvolvimento de grandes modelos de linguagem (LLM), como o modelo que impulsiona o chatbot ChatGPT.No entanto, alguns especialistas alertam que esta expansão está a aproximar-se dos seus limites. Além dos crescentes requisitos de energia computacional, outro motivo é que os desenvolvedores de LLM estão ficando sem conjuntos de dados tradicionais.

Recentemente, um estudo de alto nível quantificou esta questão e gerou preocupação generalizada. Pesquisadores do instituto de pesquisa virtual EpochAI prevêem que, por volta de 2028, o tamanho dos conjuntos de dados típicos usados para treinar modelos de IA se aproximará da quantidade total de texto disponível publicamente na Internet. Em outras palavras, a IA poderá ficar sem dados de treinamento disponíveis dentro de quatro anos. Ao mesmo tempo, os proprietários de conteúdos (como os editores de jornais) estão a começar a tomar medidas mais rigorosas para limitar a utilização de dados, agravando ainda mais a crise da “partilha de dados”.

Embora estas limitações possam retardar o desenvolvimento de sistemas de IA, os desenvolvedores estão procurando ativamente soluções. Por exemplo, empresas de IA bem conhecidas, como a OpenAI e a Anthropic, reconheceram publicamente este problema e deram a entender que planeiam resolver este dilema gerando novos dados ou encontrando fontes de dados não convencionais. Um porta-voz da OpenAI disse: “Usamos uma variedade de fontes, incluindo dados disponíveis publicamente, dados não públicos compartilhados com parceiros, geração de dados sintéticos e dados fornecidos por treinadores de IA”.

No entanto, esta crise de dados pode forçar uma mudança na forma como os modelos generativos de IA são desenvolvidos, de grandes modelos linguísticos de grande escala e de uso geral para modelos mais pequenos e mais especializados, alterando assim o panorama de todo o ecossistema de IA.