Novo agente NVIDIA AI baseado no modelo GPT-4 pode ser usado para treinar habilidades complexas de robôs

A NVIDIA Research anunciou hoje que desenvolveu um novo agente de inteligência artificial chamado “Eureka”, que é alimentado pelo GPT-4 da OpenAI e pode ensinar habilidades complexas aos robôs de forma autônoma.

Visite a página de compra:

Resumo do produto da série JD.com NVIDIA

A empresa disse em um blog que Eureka, que pode escrever seus próprios algoritmos de recompensa, é a primeira a treinar uma mão robótica para executar habilidades rápidas de giro de caneta, como os humanos. Eureka também ensinou ao robô quase 30 tarefas, como abrir gavetas e armários, jogar e pegar uma bola e operar uma tesoura.

“O aprendizado por reforço alcançou vitórias impressionantes na última década, mas muitos desafios permanecem, como o design de recompensas, que continua sendo um processo de tentativa e erro”, disse Anima Anandkumar, diretor sênior de pesquisa de inteligência artificial da NVIDIA e autor do artigo Eureka, em um post no blog. "Eureka é um primeiro passo no desenvolvimento de novos algoritmos que integram métodos de aprendizagem generativa e por reforço para resolver tarefas difíceis."

A NVIDIA Research também lançou a biblioteca de algoritmos de inteligência artificial Eureka para que as pessoas conduzam experimentos usando NVIDIA AIsaacGym, um aplicativo de referência de simulação física para pesquisas de aprendizagem por reforço. IsaacGym é baseado no NVIDIA Omniverse, uma plataforma de desenvolvimento para construção de ferramentas e aplicativos 3D baseados na estrutura OpenUSD.

A mania por agentes de inteligência artificial já dura meses, incluindo o surgimento de agentes autônomos de inteligência artificial, como Auto-GPT, BabyAGI e AgentGPT, em abril deste ano.

O trabalho atual da NVIDIA Research baseia-se em trabalhos anteriores, incluindo mais recentemente o Voyager, um agente de inteligência artificial construído usando GPT-4 que pode jogar Minecraft de forma autônoma. Esta semana, o New York Times publicou um artigo sobre como transformar chatbots em agentes online. Jeff Clune, professor de ciência da computação na Universidade da Colúmbia Britânica e ex-pesquisador da OpenAI, disse: “Esta é uma enorme oportunidade de negócio com potencial para gerar trilhões de dólares em receitas.

Em um novo artigo de pesquisa intitulado "Eureka: design de recompensa em nível humano codificando grandes modelos de linguagem", dizem os autores, "Eureka aproveita a extraordinária geração de ponto zero, escrita de código e capacidades de melhoria de contexto de LLMs de última geração, como GPT-4, para evoluir o código de recompensa."

As recompensas resultantes podem ser usadas para adquirir habilidades complexas por meio de aprendizagem por reforço. "Na ausência de solicitações específicas de tarefas ou modelos de recompensa predefinidos, as funções de recompensa geradas pelo Eureka superam as recompensas de especialistas projetadas por humanos. Em um conjunto de 29 ambientes RL de código aberto contendo 10 morfologias de robôs diferentes, o Eureka superou os especialistas humanos em 83% das tarefas, com uma melhoria média normalizada de 52%."

“Eureka é uma combinação única de grandes modelos de linguagem e tecnologia de simulação acelerada por GPU da NVIDIA”, disse Jim Fan, cientista pesquisador sênior da NVIDIA e colaborador do projeto, em uma postagem no blog. “Acreditamos que Eureka permitirá o controle hábil do robô e fornecerá aos artistas uma nova maneira de criar animações fisicamente realistas.”