A nova IA generativa do MIT supera o modelo de difusão na imagem Generation

O CSAIL do MIT apresenta o PFGM++, um modelo de inteligência artificial que combina processos de difusão e Poisson. Ele gera imagens notáveis ao replicar o comportamento de campos elétricos e representa um salto em frente na inteligência artificial generativa. Inspirado na física, o novo modelo generativo PFGM++ supera os modelos de difusão na geração de imagens. A inteligência artificial generativa está atualmente à beira de um tema quente, prometendo criar um mundo onde distribuições simples evoluem para padrões complexos de imagens, sons ou texto, tornando a inteligência artificial surpreendentemente real.

À medida que pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT dão vida a modelos inovadores de inteligência artificial, o reino da imaginação não é mais apenas um conceito abstrato. A sua nova técnica integra duas leis físicas aparentemente não relacionadas que fundamentam os modelos generativos de melhor desempenho até à data: difusão (que normalmente explica o movimento aleatório de elementos, como o calor que permeia uma sala ou um gás que se expande no espaço) e processos de Poisson (baseando-se em princípios que regem a actividade das cargas eléctricas).

Esta mistura harmoniosa permite que a Ezoic se destaque na geração de novas imagens, superando os modelos de última geração existentes. Desde o seu início, o Poisson Flow Generative Model++ (PFGM++) encontrou aplicações potenciais em campos que vão desde a geração de sequências de anticorpos e RNA até a produção de áudio e geração de gráficos.

O modelo pode gerar padrões complexos, como criar imagens realistas ou imitar processos do mundo real. O PFGM++ baseia-se no PFGM da equipe, que foi o resultado da pesquisa do ano passado. O PFGM se inspira em uma equação matemática conhecida como equação “Poisson” e depois a aplica aos dados que o modelo está tentando aprender. Para fazer isso, a equipe usou um truque inteligente: eles adicionaram uma dimensão extra ao “espaço” do modelo, um pouco como passar de um esboço bidimensional para um modelo tridimensional. Essa dimensão extra oferece mais espaço para operar, coloca os dados em um contexto mais amplo e ajuda a abordar os dados de todas as direções ao gerar novas amostras.

Jesse Thaler, físico teórico de partículas do Centro de Física Teórica do Laboratório de Ciências Nucleares do MIT e diretor do Instituto de Inteligência Artificial e Interações Fundamentais da National Science Foundation (NSFAIIAIFI), disse: "PFGM++ é um exemplo de colaboração interdisciplinar entre físicos e cientistas da computação para avançar o progresso da inteligência artificial. Nos últimos anos, modelos generativos baseados em inteligência artificial produziram resultados infinitos, de imagens fotorrealistas a fluxos de texto claro. Os resultados são surpreendentes. Notavelmente, alguns dos modelos generativos mais poderosos são baseados em conceitos testados pelo tempo na física, como simetria e termodinâmica. O PFGM++ pega um conceito centenário da física fundamental - que pode haver dimensões extras no espaço e no tempo - e o transforma em uma ferramenta poderosa e robusta para gerar conjuntos de dados sintéticos, porém reais.

O mecanismo básico do PFGM não é tão complicado quanto parece. Os pesquisadores comparam os dados a pequenas cargas em um avião em um mundo dimensionalmente expandido. Essas cargas criam um “campo elétrico” que sobe pelas linhas de campo até uma dimensão extra, criando uma distribuição uniforme sobre um hemisfério imaginário gigante. O processo de geração é como rebobinar: começando com um conjunto de cargas uniformemente distribuídas por um hemisfério e traçando o seu progresso de volta ao plano ao longo das linhas do campo eléctrico, elas alinham-se de modo a corresponderem à distribuição dos dados originais. Este processo interessante permite que o modelo neural aprenda os campos elétricos e gere novos dados consistentes com os dados originais.

O modelo PFGM++ estende o campo elétrico no PFGM para uma estrutura complexa de alta dimensão. À medida que continuamos a expandir estas dimensões, algo inesperado acontece – o modelo começa a assemelhar-se a outra importante classe de modelos, nomeadamente os modelos de difusão. O trabalho consiste em encontrar o equilíbrio certo. Os modelos PFGM e os modelos de difusão estão em extremos opostos do espectro: um é poderoso, mas complexo de manusear, o outro é simples, mas menos robusto. O modelo PFGM++ encontra o equilíbrio certo entre robustez e facilidade de uso. Esta inovação abre caminho para uma geração mais eficiente de imagens e padrões, marcando um importante avanço para a tecnologia. Além de ser ajustável em tamanho, os pesquisadores também propuseram um novo método de treinamento que pode aprender campos elétricos de forma mais eficiente.

Para colocar esta teoria em prática, a equipe resolveu um par de equações diferenciais que detalham o movimento dessas cargas num campo elétrico. Eles avaliaram seu desempenho usando a pontuação Frechette Inception Distance (FID), uma métrica amplamente aceita para avaliar a qualidade das imagens geradas por um modelo em comparação com imagens reais. O PFGM++ demonstra ainda maior tolerância a erros e robustez para tamanhos de passo em equações diferenciais.

No futuro, eles pretendem refinar certos aspectos do modelo, em particular analisando o comportamento do erro de estimativa das redes neurais para identificar sistematicamente valores de "ponto ideal" de D que são adaptados a dados, arquiteturas e tarefas específicas. Eles também planejam aplicar PFGM++ à geração moderna de texto para imagem/texto para vídeo em grande escala.

“Os modelos de difusão tornaram-se uma importante força motriz por trás da revolução generativa da IA”, disse Yang Song, cientista pesquisador da OpenAI. "O PFGM++ fornece generalização poderosa de modelos de difusão, permitindo aos usuários gerar imagens de maior qualidade, melhorando a robustez da geração de imagens a perturbações e erros de aprendizagem. Além disso, o PFGM++ descobriu conexões surpreendentes entre eletrostática e modelos de difusão, fornecendo novos insights teóricos sobre a pesquisa de modelos de difusão."

Karsten Kreis, cientista pesquisador sênior da NVIDIA, disse: "Os modelos geradores de fluxo de Poisson não apenas contam com formulações heurísticas físicas elegantes baseadas em eletrostática, mas também fornecem desempenho de modelo generativo de última geração na prática. Eles até superam os modelos de difusão populares que atualmente dominam a literatura. "