Em 27 de outubro, a Meituan anunciou oficialmente que a equipe Meituan LongCat lançou oficialmente o modelo de geração de vídeo LongCat-Video. Este modelo é baseado na arquitetura Diffusion Transformer e pode suportar três tarefas principais de vídeo Wensheng, vídeo Tusheng e continuação de vídeo, e afirma ter atingido o nível avançado entre os modelos de código aberto.


Segundo relatos, o LongCat-Video pode gerar vídeo de alta definição com resolução de 720p e taxa de quadros de 30. Sua característica marcante é que ele pode gerar nativamente conteúdo de vídeo coerente de até 5 minutos. Através do pré-treinamento de continuação de vídeo, bloqueio de atenção esparsa e outros mecanismos, o modelo visa resolver problemas comuns, como quebras de imagem e degradação de qualidade na geração de vídeos longos, e manter a consistência do tempo e a racionalidade do movimento.

Em termos de eficiência, o modelo utiliza tecnologias como geração em dois estágios, bloco de atenção esparsa e destilação de modelo. Segundo autoridades, a velocidade de inferência aumentou mais de 10 vezes. O número de parâmetros do modelo é de 13,6 bilhões e mostrou forte alinhamento de texto e coerência de movimento em testes públicos como o VBench.

Como uma tentativa técnica de construir um “modelo mundial”, o LongCat-Video pode ser aplicado a cenários que requerem modelagem de longo prazo, como simulação de direção autônoma e inteligência incorporada no futuro. O lançamento deste modelo marca um passo importante para a Meituan nas áreas de geração de vídeo e simulação do mundo físico.