Hoje, a Tencent lançou oficialmente e abriu o código-fonte do Hunyuan 3D World Model 2.0 (HY-World 2.0). Segundo relatos, o HY-World 2.0 é um modelo de mundo multimodal que pode compreender diferentes tipos de entradas, como texto, imagens e vídeos, e gerar, reconstruir e simular automaticamente mundos 3D. Ele também suporta a exportação de ativos 3D multiformato (Mesh/3DGS/nuvens de pontos, etc.) e pode ser perfeitamente conectado a fluxos de trabalho de jogos existentes para gerar rapidamente mapas de jogos e protótipos de níveis.
É relatado que, ao contrário do Genie 3 e do Hunyuan World Model 1.5 do Google, que só podem gerar arquivos de vídeo, o World Model 2.0 é ainda mais prático: pode gerar diretamente arquivos de ativos 3D que podem ser editados duas vezes. Esses ativos 3D gerados podem ser importados diretamente para a produção de jogos ou para mecanismos de simulação incorporados para obter resultados verdadeiramente jogáveis e utilizáveis.
Atualmente, o World Model 2.0 foi lançado no site oficial do Tencent Hunyuan 3D Creation Engine e os usuários podem se inscrever para usá-lo.
Hunyuan World Model 2.0 suporta múltiplas entradas de texto, imagens e vídeos. Insira um trecho de texto ou imagem e o modelo poderá analisar semânticas complexas com precisão e gerar uma variedade de mundos móveis com um clique. Comparado com o Hunyuan World Model 1.0, a arquitetura do modelo 2.0 foi totalmente atualizada e a precisão e o realismo da imagem foram bastante melhorados. Os usuários também podem personalizar o estilo e gerar espaços 3D realistas, cômicos ou de jogo sob demanda. Após a conclusão da geração, os usuários podem importar os ativos para mecanismos como Unity e UE para edição secundária, o que reduz significativamente o limite para a criação de mapas de jogo.
O modelo também suporta o modo personagem. Os usuários podem operar personagens para explorar livremente ruas, edifícios e cenas sem limite de tempo e colisões físicas, assim como no jogo. Ao mesmo tempo, o World Model 2.0 suporta a replicação de cenas 3D reais. Os usuários podem inserir um vídeo ou imagem de visualização múltipla de um espaço real, e o modelo pode construir um espaço gêmeo digital de alta precisão. Baseado na arquitetura WorldMirror 2.0 atualizada, o modelo suporta entrada de imagem e vídeo de qualquer tamanho, prevê nuvens de pontos densas, mapas de profundidade multivisualização, normais de superfície e parâmetros de câmera ao mesmo tempo, e os gera uma vez e pode reutilizá-los permanentemente. No futuro, a pré-visualização da decoração de interiores, o planeamento urbano, a protecção do património cultural e outros cenários poderão ser rapidamente construídos e restaurados com base nesta capacidade.
O Hunyuan World Model 2.0 toma o 3D como eixo principal e atinge efeitos de geração de nível SOTA por meio de uma arquitetura unificada de compreensão, geração e reconstrução espacial. Comparado com outros modelos mundiais, o Hunyuan World Model 2.0 tem melhor desempenho na integridade da cena (laterais e costas dos objetos) e na conformidade com as imagens de entrada. A representação híbrida de 3DGS e Mesh gerada por Hunyuan também permite que os usuários ativem o modo de personagem para interação com colisões de objetos reais.
