Será que a superinteligência da inteligência artificial (IA) surgirá repentinamente ou os cientistas preverão o seu surgimento e terão a oportunidade de alertar o mundo? Este problema tem recebido muita atenção recentemente com o surgimento de grandes modelos de linguagem (como o ChatGPT). Essas inteligências artificiais ganharam novas capacidades significativas à medida que crescem em tamanho.Alguém apontou o fenômeno da “emergência”, um fenômeno no qual os chamados modelos de inteligência artificial adquirem inteligência rapidamente de maneiras incríveis. Mas um estudo recente chama estas situações de “fantasmas” – artefactos que surgem durante os testes de sistemas – e sugere que a construção de capacidades de inovação é, na verdade, um processo gradual.

"Acho que eles fizeram um bom trabalho ao dizer: 'Nada mágico aconteceu'", disse Deborah Raji, cientista computacional da Fundação Mozilla que estuda auditoria de inteligência artificial. "Essa é uma crítica boa, sólida e baseada em medições."

Este trabalho foi apresentado na conferência de aprendizado de máquina NeurIPS em Nova Orleans em dezembro passado.

Quanto maior, melhor

Grandes modelos de linguagem geralmente são treinados com grandes quantidades de texto ou outras informações para gerar respostas realistas, prevendo o que acontecerá a seguir. Mesmo sem formação específica, eles conseguem traduzir idiomas, resolver problemas matemáticos, escrever poesias ou calcular códigos. Quanto maior o modelo (alguns têm mais de cem bilhões de parâmetros ajustáveis), melhor será seu desempenho. Alguns investigadores suspeitam que estas ferramentas podem eventualmente levar à inteligência artificial geral (AGI) que pode igualar ou mesmo exceder o desempenho humano na maioria das tarefas.

O novo estudo testa a afirmação da emergência de algumas maneiras. Primeiro, os cientistas compararam as capacidades dos modelos OpenAIGPT-3 de quatro escalas com adição de quatro dígitos. Em termos de precisão absoluta, a diferença de desempenho entre o terceiro e o quarto maiores modelos varia de perto de 0% a perto de 100%. Mas quando se olha para o número de respostas previstas corretamente, a diferença nos níveis de desempenho é menos extrema. Os pesquisadores também descobriram que dar ao modelo muitas perguntas de teste também achatava a curva – e nesse caso o modelo menor às vezes respondia corretamente.

Os pesquisadores então examinaram o desempenho do modelo de linguagem LaMDA do Google em diversas tarefas. Mostrou um aumento acentuado na inteligência quando se tratava de detectar ironias ou traduzir provérbios, que muitas vezes são questões de múltipla escolha com respostas certas ou erradas descontínuas. Mas quando os investigadores investigaram a probabilidade (uma métrica contínua) do modelo atribuído a cada resposta, os sinais de emergência desapareceram.

Por fim, os pesquisadores investigaram a visão computacional, um campo onde se fala pouco em emergência. Eles treinaram o modelo para compactar e depois reconstruir as imagens. Mas, desde que sejam estabelecidos limiares rigorosos de correcção, eles podem induzir uma emergência significativa. “A forma como conceberam a pesquisa foi muito criativa”, disse Yejin Choi, cientista da computação da Universidade de Washington que estuda inteligência artificial e bom senso.

Ainda não descartado

O coautor do estudo, Sanmi Koyejo, cientista da computação da Universidade de Stanford, disse que não é absurdo que as pessoas pensem em emergência porque alguns sistemas exibem "mudanças de fase" inesperadas. Ele também observou que este estudo não pode descartar completamente a possibilidade de isso acontecer com grandes modelos de linguagem (e muito menos com sistemas futuros), mas acrescentou que "a pesquisa científica até o momento sugere fortemente que a maioria dos aspectos dos modelos de linguagem são de fato previsíveis".

Raji está feliz em ver a academia se concentrando mais em benchmarking em vez de desenvolver arquiteturas de redes neurais. Ela quer que os pesquisadores dêem um passo adiante e perguntem como essas tarefas se relacionam com aplicações do mundo real. Por exemplo, um bom desempenho no LSAT (Teste de Admissão à Faculdade de Direito), como o GPT-4, significa que o modelo também pode realizar trabalho paralegal?

Este trabalho também tem implicações para a segurança e as políticas de IA. “O público da AGI tem alardeado a narrativa da capacidade de emergência”, disse Raji. Medos infundados podem levar a regulamentações sufocantes ou desviar a atenção de riscos mais prementes. “Os modelos estão melhorando e são úteis”, disse ela. "Mas eles ainda estão longe de se tornarem conscientes."