Wall Street Journal: O vídeo que você viu pode ter vindo do chinês AI

Em 27 de abril, de acordo com o Wall Street Journal, no drama histórico bíblico "Rei de David" produzido pela Amazon, atores reais interpretaram anjos caídos e mulheres mortais, e a paisagem circundante era uma obra-prima gerada por IA, como um céu sombrio cinza-aço e cumes de montanhas escarpadas.

Figura 1: O plano de fundo de "A Dinastia de David" é gerado usando IA

Foram 850 tomadas de efeitos visuais na primeira temporada do programa, 73 das quais foram criadas usando IA generativa, incluindo uma ferramenta desenvolvida pelo site de vídeos chinês Kuaishou. Wonder Project, o produtor do programa, disse que isso economiza o custo de filmagens caras no local.

Dos sucessos de bilheteria de Hollywood aos vídeos curtos nas redes sociais, os criadores de vídeos estão cada vez mais recorrendo à IA para produzir conteúdo que antes exigia grandes equipes de cinegrafistas.

“À medida que os custos de produção caem, o limite para os criadores experimentarem e testarem novas ideias também diminui”, disse Zeng Yushen, chefe de operações do grande modelo Keling AI da Kuaishou Video. O modelo de IA desenvolvido pela empresa foi utilizado na produção de “Rei de David”.

Grande modelo de vídeo da China lidera o caminho

Embora a maioria dos americanos possa não estar consciente disso quando vê televisão ou percorre vídeos nos seus telefones, a China está a desempenhar um papel importante nesta área. As empresas chinesas respondem por sete dos 10 principais modelos de geração de vídeo classificados pela plataforma de análise Artificial Analysis, que competem com rivais como Google e xAI de Elon Musk.

Este mês, um modelo de geração de vídeo chamado “HappyHorse” se tornou viral depois de derrotar rivais dos EUA em uma avaliação cega de qualidade. Mais tarde, o gigante chinês do comércio eletrônico Alibaba revelou que o modelo era seu.

Figura 2: A China é responsável por 7 dos dez principais modelos de vídeo

No início deste ano, a Bytedance lançou seu mais recente gerador de vídeo AI, Seedance 2.0, que também atraiu muita atenção. Ele pode converter prompts de texto em cenas realistas de filmes curtos. O TikTok da ByteDance concorre com o Kuaishou, que tem centenas de milhões de usuários na China.

Tilly Zhang, analista de tecnologia da empresa de pesquisa Gavekal, disse que essas plataformas "têm naturalmente grandes quantidades de dados de vídeo curtos rotulados que podem ser usados para treinamento de modelos. Isso cria uma barreira de dados que é difícil de replicar pela maioria das empresas".

Desafios do modelo de vídeo

A OpenAI decidiu recentemente encerrar seu serviço de geração de vídeo Sora e encerrar sua parceria com a Disney. Outras empresas dos EUA, como o Google, continuam a investir ativamente neste campo.

O desligamento da Sora destaca os desafios técnicos e legais enfrentados pelos vídeos de IA. Gerar um vídeo pode exigir centenas de vezes mais poder de computação do que um aplicativo de chatbot produzindo uma resposta de texto. A OpenAI espera evitar investir em projetos marginais que consomem muito poder computacional para se concentrar em produtos com margens de lucro mais altas.

Questões de direitos autorais também atormentam a indústria. ByteDance atrasou o lançamento de sua atualização Seedance nos EUA após oposição de Hollywood. Na China, alguns atores conhecidos também condenaram publicamente recentemente o uso não autorizado das suas imagens em vídeos gerados por IA.

Figura 3: OpenAI desliga Sora

A plataforma de vídeo chinesa iQiyi esteve envolvida em polêmica recentemente. Quando seu CEO, Gong Yu, apresentou um projeto de IA que inclui uma biblioteca de licenciamento de retratos de celebridades, ele disse: “A fotografia com atores reais poderá em breve se tornar uma coisa do passado”. Assim que esta declaração foi divulgada, muitos atores conhecidos rapidamente se manifestaram e afirmaram que não tinham nada a ver com o projeto.

Ainda assim, o vídeo de IA está a tornar-se cada vez mais integrado na vida online diária das pessoas, especialmente na China, mas também nos Estados Unidos, onde as duas superpotências se influenciam mutuamente. No início deste ano, uma série de paródias absurdas de filmes de artes marciais sobre IA atraiu bilhões de visualizações nas redes sociais chinesas e inspirou um grande número de fãs a criar vídeos semelhantes. Os vídeos originais foram produzidos por uma empresa alimentícia chinesa usando as ferramentas de IA da ByteDance para promover seu produto de pato refogado.

Algumas startups chinesas de modelagem de vídeo estão investindo em “modelos mundiais”, projetados para simular o mundo físico. Alguns pesquisadores dizem que robôs humanóides equipados com excelentes modelos de mundo podem exibir comportamentos mais próximos dos humanos.

Quer se trate de um modelo mundial ou de geração de vídeo de IA, é necessário dominar as leis matemáticas e físicas básicas do movimento dos objetos no mundo real. Muitas empresas como a Aishi Technology e a Shengshu Technology investidas pela Alibaba estão avançando simultaneamente nessas duas direções técnicas.

IA de jogo curto

A indústria de curtas-metragens em rápido crescimento tornou-se uma das primeiras a adotar a tecnologia de geração de vídeo de IA. Essas séries, que giram em torno de romance ou rixa familiar, duram apenas alguns minutos cada e são projetadas para manter os espectadores grudados nas telas de seus telefones. Devido ao ritmo acelerado e às frequentes inversões de enredo, os espectadores costumam ser menos sensíveis a falhas visuais ao assistir esse tipo de conteúdo em tela pequena.

Este tipo de conteúdo explodiu na China, e minisséries estão sendo integradas em sites de comércio eletrônico e aplicativos de entrega de comida para competir pela atenção dos consumidores. Recentemente, este modelo também surgiu gradualmente nos Estados Unidos. Plataformas como ReelShort e DramaBox construídas por fundadores chineses geraram dezenas de milhões de dólares em receitas do público americano.

Em um estúdio na cidade de Hangzhou, no leste da China, Shao Zhikun lidera uma equipe de produção de curtas-metragens de IA de 60 pessoas. Ele disse que o fluxo de trabalho deles parecia mais jogar na loteria do que fazer um filme.

Para criar uma cena utilizável, a equipe de Shao Zhikun precisa inserir repetidamente palavras de alerta no modelo de IA, o que consome muito tempo e poder de computação. Ocasionalmente, diz ele, os clipes produzidos com sucesso são de qualidade suficiente para servir de base para um polimento posterior. A equipe também descobriu como economizar dinheiro gerando primeiro imagens estáticas mais baratas e depois usando essas imagens como guias para ajudar o modelo a gerar vídeos, economizando custos.

A equipe de Shao Zhikun usa as ferramentas da Bytedance para produzir 100 dramas curtos todos os meses para plataformas como Hongguo Short Drama e ReelShort da Bytedance. Shao Zhikun disse que os custos de produção variam de algumas centenas de dólares a mais de 10.000 dólares, o que representa apenas uma pequena parte do orçamento tradicional.

O líder da equipe, de 29 anos, disse: "A lógica aqui é diferente. Não estamos tentando criar obras-primas artísticas. Contanto que um ou dois dramas se tornem sucessos, o custo pode ser recuperado."

Semelhante aos videogames, as minisséries tentam atrair os espectadores com episódios ou trailers gratuitos e, em seguida, exigem que paguem ou assistam a anúncios para desbloquear o conteúdo subsequente. Eles também podem incluir intervalos comerciais dentro do show.

Zeng Yushen, chefe de operações da Kuaishou Keling AI, disse que a demanda da indústria do entretenimento também está crescendo fora da China. Miracle Pictures, produtora da série “King of David”, revelou que na segunda temporada, o número de tomadas produzidas usando ferramentas generativas de IA foi mais de quatro vezes maior do que na primeira temporada.

Zeng Yushen disse que 70% da receita da Keling vem de fora da China e que os Estados Unidos são o seu principal mercado. Kuaishou disse que planeja despesas de capital de aproximadamente US$ 3,8 bilhões este ano, principalmente para atender às crescentes necessidades de poder computacional de Keling.

“Prevejo que dentro de um ou dois anos, os vídeos de IA atingirão um nível em que será realmente difícil para as pessoas perceberem a diferença entre autenticidade e falsidade”, disse Zeng Yushen. "Esta tecnologia se tornará um pilar na indústria cinematográfica e de entretenimento."