2024 será um grande ano na intersecção de IA generativa/modelos de grande base e robótica. Do aprendizado ao design do produto, o potencial para aplicações é estimulante. Os pesquisadores de robótica DeepMind do Google são uma das muitas equipes que exploram o potencial desta área. Em uma postagem no blog hoje, a equipe destaca pesquisas em andamento destinadas a dar aos robôs uma melhor compreensão do que nós, humanos, queremos que eles façam.
Tradicionalmente, a vida de um robô se concentra na execução repetida de uma única tarefa. Os bots de propósito único tendem a ser muito bons nisso, mas mesmo assim eles podem ter dificuldades quando surgem alterações ou erros inadvertidos.
O recém-lançado AutoRT foi projetado para utilizar modelos básicos grandes para uma variedade de finalidades diferentes. Num exemplo padrão dado pela equipe DeepMind, o sistema utiliza primeiro um modelo de linguagem visual (VLM) para melhorar a consciência situacional. O AutoRT gerencia uma frota de robôs trabalhando juntos e equipados com câmeras para capturar o layout do ambiente e os objetos dentro dele.
Ao mesmo tempo, grandes modelos de linguagem também podem propor tarefas que o hardware, incluindo executores de terminal, pode executar. Muitos acreditam que os modelos de linguagem são a chave para desbloquear a robótica, permitindo-lhes compreender eficazmente instruções de linguagem mais natural e reduzir a necessidade de competências codificadas.
O sistema passou por testes extensivos nos últimos sete meses. O AutoRT é capaz de coordenar até 20 robôs e 52 dispositivos diferentes simultaneamente. No total, a DeepMind coletou aproximadamente 77 mil testes, incluindo mais de 6 mil tarefas.
Outra novidade da equipe é o RT-Trajectory, que usa entrada de vídeo para aprendizado de robôs. Muitas equipes estão explorando o uso de vídeos do YouTube como uma forma de treinar robôs em escala, mas o RT-Trajectory adiciona uma camada interessante ao sobrepor esboços 2D de movimentos de braços sobre os vídeos.
“Essas trajetórias, na forma de imagens RGB, fornecem dicas visuais práticas de baixo nível ao modelo à medida que ele aprende estratégias de controle do robô”, observou a equipe.
DeepMind disse que quando testado em 41 tarefas, a taxa de sucesso deste treinamento foi o dobro do treinamento RT-2, com 63% e 29%, respectivamente.
“RT-Trajectory explora a rica riqueza de informações de movimento do robô que está presente em todos os conjuntos de dados do robô, mas atualmente é subutilizada”, observou a equipe. "RT-Trajectory não representa apenas mais um passo no caminho para a construção de robôs que possam se mover com eficiência e precisão em novas situações, mas também desbloqueia o conhecimento de conjuntos de dados existentes."