NVIDIA lança solução de “coaching” autônomo de IA para treinar robôs para instalar GPUs e cortar braçadeiras de cabos no laboratório

Em 17 de junho, horário local dos Estados Unidos, o Laboratório Geral de Pesquisa de Agentes Incorporados da NVIDIA (GEAR Lab) anunciou um novo plano de autoaperfeiçoamento do robô: por meio de uma "equipe de treinamento" composta por agentes de programação de IA, um processo de treinamento é projetado para o braço do robô quase sem intervenção humana, para que o robô possa aprender a cortar laços de plástico, organizar peças pequenas e até mesmo inserir com precisão a GPU no slot de expansão da placa-mãe.

Esta solução é baseada em um "arnês de agente" chamado ENPIRE - é como um shell de software envolvido em um modelo grande, permitindo que agentes de programação de IA chamem várias ferramentas e tenham recursos de memória, gerenciamento de contexto, controle de restrições e loops de feedback para planejar, executar, avaliar e iterar automaticamente tarefas de treinamento de robôs. A Nvidia disse que a estrutura foi desenvolvida pela equipe do GEAR Lab em conjunto com pesquisadores da Carnegie Mellon University e da University of California, Berkeley.

Jim Fan, chefe da NVIDIA AI, descreveu nas plataformas sociais que parte do laboratório agora pode “se autoaperfeiçoar” à noite, e os pesquisadores só precisam verificar o relatório de treinamento pela manhã para entender o progresso do robô na noite anterior. Ele disse meio brincando que em um mundo ideal "todos sairiam de férias e Huang Renxun não descobriria", e disse que a equipe planeja abrir o código-fonte dos resultados relevantes para que qualquer pessoa possa construir seu próprio "laboratório de robôs autônomo" em casa.

A estrutura ENPIRE inclui atualmente quatro módulos principais: primeiro, fornece reinicialização automática e verificação de resultados para tarefas de robô; Segundo, otimiza automaticamente as estratégias de controle do robô; Terceiro, avalia diferentes estratégias em paralelo em múltiplos robôs físicos; Quarto, ele lida com casos de falha no treinamento analisando logs, lendo documentos e melhorando a infraestrutura de treinamento e os códigos de algoritmos. A equipe de pesquisa publicou um artigo técnico em 16 de junho detalhando os detalhes de implementação e resultados experimentais do sistema.

No experimento, os pesquisadores introduziram três tipos de agentes de programação de IA convencionais: agentes baseados em OpenAI Codex e GPT-5.5, agentes baseados em Anthropic Claude Code Opus 4.7 e agentes baseados em Dark Side of the Moon (Moonshot AI) Kimi Code K2.6. Esses agentes proporão independentemente diferentes planos de melhoria de algoritmos em equipe, conduzirão experimentos de treinamento em robôs reais e, em seguida, reterão alterações que podem melhorar a taxa geral de sucesso e continuarão a iterar.

Os resultados mostram que, sob o agendamento do ENPIRE, os agentes de programação de IA podem projetar automaticamente estratégias eficazes de autoaperfeiçoamento para uma variedade de tarefas de operação de braço robótico: Na tarefa de operação de desktop Push-T padrão, o robô precisa empurrar com precisão os blocos de construção em forma de T para a área alvo; em outras tarefas, o robô é obrigado a organizar pequenas agulhas na caixa de agulhas, amarrar e cortar laços de plástico ou inserir a GPU no slot da placa-mãe e retirá-la para reiniciar após cada rodada de testes. Em múltiplas tarefas, o sistema finalmente alcançou uma taxa de sucesso de 99%, com o programa de treinamento baseado em IA atingindo uma taxa de sucesso de quase 100% ainda mais rápido do que a “abordagem participativa humana de ponta” envolvendo humanos nas tarefas de inserção e classificação de pins.

As experiências também mostram que aumentar o número de agentes pode acelerar significativamente o processo de aprendizagem: na tarefa Push-T, uma equipa de 8 agentes elevou a taxa de sucesso para 99% em apenas 2 horas de investigação, enquanto uma equipa de 4 precisou de 3 horas e um único agente quase 5 horas para atingir o mesmo nível. No entanto, os investigadores também notaram que a eficiência da colaboração multiagente não melhora linearmente. À medida que o número de agentes aumenta, mais tempo é gasto resumindo e comunicando-se entre si, em vez de realmente agendar robôs para realizar o treinamento.

A equipe de pesquisa também apontou várias limitações do sistema atual: por muitos períodos de tempo, o robô fica ocioso na bancada experimental, esperando que o agente de programação de IA leia logs, escreva e depure código, ou espere que o modelo de linguagem subjacente responda. Além disso, em termos de treinamento paralelo, os agentes às vezes não utilizam totalmente os recursos computacionais existentes, resultando em rendimento experimental abaixo do limite superior teórico. Do ponto de vista dos custos, o aumento do número de agentes e da frequência de formação também significa um consumo de tokens significativamente maior, o que está diretamente relacionado com o facto de muitos fornecedores de serviços de IA estarem atualmente a considerar aumentar o método de cobrança baseado em tokens.

Embora ainda existam deficiências, a Nvidia está claramente aumentando suas ambições para o que chama de “IA física”. Com o abundante fluxo de caixa trazido pela onda de IA, a empresa continua a investir em vários projetos de robôs: No final de maio deste ano, a NVIDIA anunciou que cooperaria com a Unitree, concorrente da empresa chinesa de robôs Unitree, para fornecer às instituições de pesquisa uma "plataforma universal de referência de robôs humanóides" para a pesquisa e desenvolvimento de robôs de IA em geral. No início de junho deste ano, Huang Renxun fez uma visita intensiva à Coreia do Sul e reuniu-se com o presidente executivo do Hyundai Motor Group, Chung Eui-sun, para discutir como expandir a produção em larga escala de robôs de IA; A Hyundai já adquiriu a Boston Dynamics, uma empresa americana famosa por seu "cão-robô" de quatro patas Spot, e está promovendo a comercialização do robô humanóide bípede Atlas.

Neste caminho, o ENPIRE e a equipe de agentes de programação de IA por trás dele são considerados componentes-chave para o “laboratório de robôs autônomos”. Eles tentam entregar muito do trabalho de especialistas humanos em tentativa e erro, ajuste de parâmetros e leitura de literatura para a IA, permitindo que os pesquisadores desempenhem mais um papel de “revisão diária matinal”. Com o código-fonte aberto de códigos e estruturas relevantes, se sistemas de treinamento autônomo semelhantes se tornarão populares entre universidades, empresas e até mesmo entusiastas individuais no futuro, se tornará uma janela importante para observar a velocidade da implementação da "IA da Física".