Depois de mostrar suas habilidades culinárias, o robô desenvolvido pela equipe chinesa de Stanford lançou um novo vídeo "Um dia na vida do Mobile ALOHA" nesta manhã, horário de Pequim, mostrando dezenas de habilidades de trabalho doméstico, como regar flores, limpar o quarto, fazer café, fazer a barba do dono, lavar louça, brincar com gatos, jogar lixo fora, lavar roupas, trocar capas de edredom e guardar roupas. Pode ser chamada de "dona de casa versátil".






Os internautas comentaram: “O mais raro é que haja vida nos olhos”.

Há muito que as pessoas se preocupam com o “paradoxo de Moravec”, um fenómeno contra-intuitivo de que “tarefas que os humanos consideram fáceis são extremamente difíceis para a inteligência artificial e vice-versa”.

Em outras palavras, um robô capaz de fazer tarefas domésticas é muito raro.

Mas não fique muito feliz. Embora o MobileALOHA tenha “olhos vivos”, seus movimentos ainda são controlados por humanos (veja a imagem abaixo) e não é uma operação autônoma totalmente inteligente.


Um dos líderes da equipe disse que o controle humano é temporário e já estão estudando como preencher a lacuna entre o controle humano e o autocontrole do robô. Tony Z. Zhao, outro líder da equipe, disse com otimismo: “2024 será o ano do robô, e este (robô doméstico) é apenas o começo!”

A maior importância do MobileALOHA é que suas capacidades de controle de movimento são mais poderosas do que sistemas similares que custam de 5 a 10 vezes mais, demonstrando a viabilidade de robôs universais. Um robô doméstico barato e fácil de usar poderá chegar em breve.

ALOHA, Sistema de Hardware de Código Aberto de Baixo Custo para Teleoperação Bimanual, é um sistema de hardware de operação de controle remoto bimanual de código aberto de baixo custo, ou seja, um braço robótico de código aberto. Seu algoritmo ActionChunkingwithTransformers (ACT) usa o modelo de rede neural Transformers, portanto possui recursos de aprendizagem de imitação. Em apenas 15 minutos de demonstração, o braço robótico pode aprender uma ação - realizando aprendizagem de imitação de ponta a ponta diretamente de demonstrações reais e coletadas por meio de uma interface de operação remota personalizada.

De acordo com a equipe chinesa mencionada acima, o MobileALOHA pode completar várias tarefas complexas com apenas 50 demonstrações. O custo é de apenas US$ 32.000 (cerca de 220.000 yuans) e o software e o hardware são todos de código aberto.

A equipe apresentou detalhadamente a configuração de hardware do MobileALOHA no artigo - os mais caros são o braço robótico e a base móvel, dos quais a base móvel é relativamente barata entre produtos similares; o sensor está equipado com 2 câmeras de pulso e 1 câmera superior; equipado com fonte de alimentação e cálculos integrados, ou seja, bateria de 1,26 kWh pesando 14 kg. Todos os cálculos durante a coleta e inferência de dados foram realizados em um laptop de consumo com GPU Nvidia 3070ti (VRAM de 8 GB) e Intel i7-12800H.


Peças de alto valor na lista de materiais

Jim Fan, um "pesquisador de celebridades da Internet" da Nvidia e o primeiro estagiário da OpenAI, previu anteriormente com otimismo que 2024 será o primeiro ano para a comunidade de inteligência artificial crescer totalmente para combater o Paradoxo de Moravec. "Não venceremos imediatamente, mas estaremos no caminho da vitória."

Este não é apenas um momento de excitação. Vários desenvolvimentos na indústria estão surgindo em um fluxo interminável. Jim listou o desenvolvimento de modelos básicos e plataformas para futuros robôs em 2023:

1. Grandes modelos multimodais usando braços robóticos como dispositivos físicos de entrada/saída: VIMA, PerAct, RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind), Octo (Berkeley, Stanford, CMU), etc.;

2. Algoritmos que preenchem a lacuna entre o Sistema1 (responsável pelo controle de baixo nível) e o Sistema2 (responsável pelo raciocínio de alto nível) (permitindo ao sistema usar raciocínio de alto nível para tomar decisões e compreender e transformar essas decisões em operações e controle reais): Eureka (NVIDIA), CodeasPolicies (Google), etc.;

3. Progresso incrível em hardware poderoso: Tesla Optimus Prime, Figure, 1X, Apptronik, Sanctuary, Agility+Amazon, Unitree, etc.;

4. Os dados sempre foram o calcanhar de Aquiles da robótica. A comunidade de pesquisa está planejando conjuntamente o próximo ImageNet (um projeto chave para avanços no aprendizado profundo de inteligência artificial), como a abertura do conjunto de dados OpenX-Embodiment (RT-X). Embora o conjunto de dados ainda não seja suficientemente diversificado, é um passo importante;

5. A simulação e os dados sintéticos desempenharão um papel fundamental na resolução de problemas de destreza robótica e até mesmo de visão computacional como um todo;

A base está sendo lançada passo a passo. No início de 2024, temos motivos para esperar a estreia impressionante de robôs mais poderosos.