As declarações de Jen-Hsun Huang sobre o DLSS 5 parecem contradizer as de seus próprios funcionários

No início desta semana, a Nvidia lançou o DLSS 5 – esta tecnologia de super-resolução visual baseada em IA afirma ter alcançado “progresso inovador” e pode “usar os vetores de cor e movimento de cada quadro do jogo como entrada para injetar iluminação fotorrealista e efeitos materiais na imagem”. No entanto, assim que a tecnologia foi anunciada, desencadeou imediatamente uma forte resposta negativa na Internet. Os internautas o criticaram como um filtro de conteúdo inferior gerado pela IA.

No final desta semana, o CEO da Nvidia, Jensen Huang, refutou esta afirmação em um evento offline, dizendo que todos estão “completamente errados” e que o DLSS 5 “na verdade não é uma tecnologia de pós-processamento para quadros únicos”. Esta afirmação pretende ilustrar que, em comparação com o “filtro inferior” transmitido on-line que modifica a imagem 2D final com base em dados massivos de treinamento da Internet, esta tecnologia possui granularidade e capacidades de controle mais refinadas.

No entanto, os últimos detalhes divulgados pelo próprio “evangelista da GeForce” e especialista em marketing da NVIDIA, Jacob Freeman, parecem contradizer a caracterização de Huang Jen-Hsun desta tecnologia controversa. Daniel Owens, um blogueiro do YouTube na área de hardware de jogos para PC, perguntou a Freeman se o DLSS 5 “realmente usa um único quadro 2D (com vetores de movimento) como entrada para gerar um quadro de saída?” O representante da NVIDIA respondeu: “Sim, o DLSS 5 recebe quadros 2D mais vetores de movimento como entrada”. Ele também acrescentou: “DLSS 5. Após o treinamento completo, ele pode compreender a semântica complexa da cena, como personagens, cabelos, tecidos, pele translúcida e condições de iluminação ambiental, como iluminação frontal, luz de fundo e tempo nublado, apenas analisando um único quadro.”

Os leitores que não conhecem muito sobre tecnologia podem perguntar onde reside a contradição central aqui. O problema é que esta afirmação contradiz diretamente o discurso de Huang Renxun em 17 de março. Naquela época, Huang Renxun foi entrevistado pelo conhecido meio de hardware Tom's Hardware durante a sessão de perguntas e respostas: "Isso não é pós-processamento, nem pós-processamento para um único quadro, mas controle generativo baseado no nível geométrico. Tudo isso está sob o controle do desenvolvedor do jogo - controle direto e completo. Isso é completamente diferente da IA generativa comum. Isso é IA generativa controlável por conteúdo, e é por isso que a chamamos de renderização neural."

Simplificando, o funcionário da Nvidia disse que o DLSS 5 é um filtro generativo de IA que usa uma única imagem como referência, enquanto Huang Renxun disse que não usa um único quadro como referência, mas chama dados de jogo em dimensões completas, incluindo dados geométricos 3D.

Resumindo, como diz Owens, o DLSS 5 essencialmente tira uma captura de tela de um jogo e coloca uma camada de filtros nele. É por isso que os internautas que originalmente resistiram à primeira demonstração estão agora ainda mais irritados, acusando Huang de mentir sobre as capacidades técnicas do DLSS 5 em seu último discurso. E esta não é a primeira vez que ele é acusado de enganar os consumidores.

Atualmente, parece que o DLSS 5 não chama nenhuma informação adicional além de um único quadro. Isso também explica, até certo ponto, por que alguns dos efeitos de iluminação na primeira demonstração tiveram um desempenho ruim - porque o DLSS 5 se refere apenas à imagem de iluminação na imagem e não possui quaisquer outros dados subjacentes para gerar uma nova imagem. DLSS 5 não é uma tecnologia totalmente nova de renderização em nível de geometria. É apenas a versão 2.0 de conteúdo inferior da IA, porque o que ela faz não é diferente dos filtros generativos de IA mais comuns do mercado.