Equipe de pesquisa chinesa lança conjunto de dados multivisualização "FreeMan" para resolver limitações da estimativa de pose humana em 3D

Estimar a estrutura tridimensional do corpo humano a partir de cenas reais é uma tarefa desafiadora e de grande importância para áreas como inteligência artificial, gráficos e interação humano-computador. No entanto, os conjuntos de dados existentes de estimativa de pose humana em 3D são geralmente coletados sob condições controladas com fundos estáticos e não conseguem representar a diversidade de cenários do mundo real, limitando assim o desenvolvimento de modelos precisos para aplicações do mundo real.

A este respeito, os conjuntos de dados existentes semelhantes a Human3.6M e HuMMan são amplamente utilizados para estimativa de pose humana 3D, mas são recolhidos em ambientes laboratoriais controlados e não podem capturar totalmente a complexidade dos ambientes do mundo real. Esses conjuntos de dados têm limitações na diversidade de cenas, movimento humano e escalabilidade. Os pesquisadores propuseram vários modelos para estimativa de pose humana 3D, mas sua eficácia é frequentemente prejudicada quando aplicada a cenas reais devido às limitações dos conjuntos de dados existentes.

Uma equipe de pesquisa na China lançou o “FreeMan”, um projeto desenvolvido em conjunto por equipes da Universidade Chinesa de Hong Kong (Shenzhen) e da Tencent e outras instituições. É aclamado como um conjunto inovador de dados multivisualização e tem como objetivo trazer novos avanços no campo da estimativa da pose humana em 3D.

FreeMan é um novo conjunto de dados multivisualização em grande escala projetado para resolver as limitações dos conjuntos de dados existentes na estimativa de pose humana 3D em cenas reais. FreeMan é uma importante contribuição que visa facilitar o desenvolvimento de modelos mais precisos e robustos.

Uma das características do projeto FreeMan é o tamanho e a diversidade dos seus conjuntos de dados. O conjunto de dados consiste em gravações simultâneas de 8 smartphones em diferentes cenários, incluindo 10 cenas diferentes e 27 locais reais, e contém um total de mais de 11 milhões de quadros de vídeo. Cada cena cobre diferentes condições de iluminação, tornando este conjunto de dados um recurso único.

O conjunto de dados FreeMan é de código aberto para promover o desenvolvimento de conjuntos de dados de pré-treinamento em grande escala e também fornece uma nova referência para estimativa de pose humana 3D ao ar livre. Este conjunto de dados não inclui apenas vídeos, mas também fornece informações de anotação ricas, incluindo pontos-chave do corpo humano 2D e 3D, parâmetros SMPL, caixas delimitadoras, etc., fornecendo aos pesquisadores recursos ricos para promover pesquisas em áreas relacionadas.

Vale ressaltar que o FreeMan introduz alterações nos parâmetros da câmera e na escala humana para torná-la mais representativa. A equipe de pesquisa desenvolveu um processo de anotação automatizado para gerar anotações 3D precisas com eficiência a partir dos dados coletados. Este processo inclui detecção humana, detecção de pontos-chave 2D, estimativa de pose 3D e anotação de malha. O conjunto de dados resultante é valioso para uma variedade de tarefas, incluindo estimativa 3D monocular, conversão de 2D para 3D, estimativa 3D multivisualização e renderização neural de seres humanos.

Os pesquisadores fornecem uma base de avaliação abrangente do FreeMan em uma variedade de tarefas. Eles compararam o desempenho de modelos treinados em FreeMan com modelos treinados em Human3.6M e HuMMan. Notavelmente, o modelo treinado no FreeMan mostrou um desempenho significativamente melhor quando testado no conjunto de dados 3DPW, destacando a capacidade superior de generalização do FreeMan em cenários do mundo real.

No experimento de estimativa de pose humana 3D multivisualização, em comparação com o modelo treinado em Human3.6M, o modelo treinado em FreeMan mostrou melhor capacidade de generalização quando testado em conjuntos de dados de domínio cruzado. Os resultados mostram consistentemente as vantagens da diversidade e escala do FreeMan.

No experimento de conversão de pose 2D para 3D, o desafio do FreeMan é óbvio, pois o modelo treinado neste conjunto de dados enfrenta maior dificuldade. No entanto, quando o modelo foi treinado em todo o conjunto de treinamento do FreeMan, seu desempenho melhorou, mostrando o potencial deste conjunto de dados para melhorar o desempenho do modelo.

Espera-se que a disponibilidade do FreeMan impulsione avanços nas áreas de modelagem do corpo humano, visão computacional e interação humano-computador, preenchendo a lacuna entre as condições laboratoriais controladas e os cenários da vida real.