Pesquisadores do MIT e do Laboratório de Inteligência Artificial MIT-IBM Watson revelaram o EfficientViT, um modelo de visão computacional que acelera a segmentação semântica em tempo real de imagens de alta resolução e é otimizado para dispositivos com hardware limitado, como carros autônomos.

Os carros autônomos devem identificar com rapidez e precisão os objetos que encontram, desde um caminhão de entrega parado estacionado em uma esquina até um ciclista correndo em direção a um cruzamento.

Modelos de aprendizado de máquina para visão computacional de alta resolução podem permitir aplicações de visão computacionalmente intensivas, como direção autônoma ou segmentação de imagens médicas em dispositivos de ponta. A imagem mostra a interpretação artística da tecnologia de condução autônoma. Fonte da imagem: Notícias do MIT

Para fazer isso, os carros autônomos podem usar modelos poderosos de visão computacional para classificar cada pixel em uma imagem de alta resolução de uma cena, para que objetos que possam estar ocluídos em imagens de qualidade inferior não sejam ignorados. Porém, esta tarefa, conhecida como segmentação semântica, é complexa e requer muitos cálculos em altas resoluções de imagem.

Pesquisadores do MIT, do Laboratório de Inteligência Artificial MIT-IBM Watson e de outras instituições desenvolveram um modelo de visão computacional mais eficiente que reduz bastante a complexidade computacional dessa tarefa. Seu modelo pode realizar segmentação semântica com precisão em tempo real em dispositivos com recursos de hardware limitados, como computadores de bordo que permitem que carros autônomos tomem decisões em frações de segundo.

Otimize o processamento em tempo real

Modelos recentes de segmentação semântica de última geração aprendem diretamente as interações entre cada par de pixels em uma imagem, de modo que seu esforço computacional quadruplica com a resolução da imagem. Por causa disso, esses modelos, embora precisos, são muito lentos para processar imagens de alta resolução em tempo real em sensores ou dispositivos de ponta, como telefones celulares.

Os pesquisadores do MIT projetaram um novo bloco de construção para modelos de segmentação semântica que atinge os mesmos recursos que esses modelos de última geração, mas com complexidade computacional apenas linear e opera com eficiência de hardware.

O resultado é uma nova família de modelos para visão computacional de alta resolução que, quando implantados em dispositivos móveis, apresentam desempenho até nove vezes mais rápido que os modelos anteriores. É importante ressaltar que esta nova família de modelos apresenta precisão igual ou maior do que esses modelos alternativos.


O EfficientViT permite que carros autônomos executem com eficiência a segmentação semântica, uma tarefa de visão computacional de alta resolução que envolve a classificação de cada pixel em uma cena para que o carro possa identificar objetos com precisão. Na foto está uma foto do vídeo de demonstração mostrando as diferentes cores usadas para classificação de objetos. Imagem fornecida por pesquisadores

Um olhar mais atento às soluções

Esta tecnologia não só ajudará os carros autônomos a tomar decisões em tempo real, mas também melhorará a eficiência de outras tarefas de visão computacional de alta resolução, como a segmentação de imagens médicas.

"Embora os pesquisadores usem transformadores de visão tradicionais há muito tempo e tenham alcançado resultados impressionantes, esperamos que as pessoas também se concentrem nos aspectos de eficiência desses modelos. Nosso trabalho mostra que é possível reduzir significativamente a carga computacional, para que a segmentação de imagens em tempo real possa ser realizada localmente no dispositivo." disse Han Song, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação (EECS), membro do MIT-IBM Watson AI Lab e autor sênior do artigo que descreve o novo modelo.

Também escrevendo o artigo com ele estão Cai Han, um estudante de graduação no Departamento de Engenharia Elétrica e Ciência da Computação, o primeiro autor do artigo, Li Junyan, um estudante de graduação na Universidade de Zhejiang, Hu Muyan, um estudante de graduação na Universidade de Tsinghua, e Gan Chuang, pesquisador principal do Laboratório de Inteligência Artificial Watson do MIT-IBM. A pesquisa será apresentada na Conferência Internacional sobre Visão Computacional.

Solução simplificada

Classificar cada pixel em uma imagem de alta resolução que pode ter milhões de pixels é uma tarefa difícil para modelos de aprendizado de máquina. Recentemente, um novo modelo poderoso chamado conversor visual foi aplicado de forma eficaz.

Os transformadores foram originalmente desenvolvidos para processamento de linguagem natural. Nesse caso, eles codificam cada palavra da frase como um token e, em seguida, geram um mapa de atenção que captura a relação entre cada token e todos os outros tokens. Este mapa de atenção ajuda a compreender o contexto quando o modelo faz previsões.

Usando o mesmo conceito, o transformador visual divide a imagem em fragmentos de pixels e codifica cada fragmento em um rótulo, gerando então um mapa de atenção. Ao gerar este mapa de atenção, o modelo aprende diretamente as interações entre cada par de pixels usando uma função de similaridade. Desta forma, o modelo forma o que chamamos de campo receptivo global, o que significa que tem acesso a todas as partes relevantes da imagem.

Como as imagens de alta resolução podem conter milhões de pixels e ser divididas em milhares de segmentos, os gráficos de atenção podem rapidamente tornar-se muito grandes. Portanto, à medida que a resolução da imagem aumenta, a quantidade de computação aumenta quatro vezes.

Em uma nova família de modelos chamada EfficientViT, os pesquisadores do MIT adotaram um mecanismo mais simples para construir mapas de atenção – substituindo funções de similaridade não lineares por funções de similaridade linear. Portanto, podem reorganizar a ordem das operações e reduzir o esforço computacional total sem alterar a funcionalidade e perder o campo receptivo global. No modelo deles, o esforço computacional necessário para a previsão cresce linearmente com a resolução da imagem.

"Mas não existe almoço grátis. A atenção linear só pode capturar o fundo global da imagem e perderá informações locais, piorando assim a precisão", disse Han. Para compensar a perda de precisão, os pesquisadores adicionaram dois elementos adicionais ao modelo, cada um acrescentando apenas uma pequena quantidade de computação.

Um dos componentes pode ajudar o modelo a capturar a interação de características locais e aliviar a fraqueza das funções lineares na extração de informações locais. O segundo elemento é um módulo que implementa aprendizagem multiescala, ajudando o modelo a reconhecer objetos grandes e pequenos.

Cai Han disse: “A parte mais crítica aqui é que precisamos equilibrar cuidadosamente desempenho e eficiência”. Eles projetaram o EfficientViT com uma arquitetura amigável ao hardware, facilitando a execução em diferentes tipos de dispositivos, como fones de ouvido VR ou computadores de ponta para carros autônomos. Seu modelo também pode ser aplicado a outras tarefas de visão computacional, como classificação de imagens.

Simplifique a segmentação semântica

Quando testaram seu modelo em um conjunto de dados usado para segmentação semântica, descobriram que o modelo funcionava nove vezes mais rápido em unidades de processamento gráfico (GPUs) NVIDIA do que outros modelos populares de transformadores visuais, com precisão igual ou melhor.

“Agora, podemos obter o melhor dos dois mundos, desacelerando os cálculos o suficiente para serem executados em dispositivos móveis e em nuvem”, disse Han Song. Com base nesses resultados, os pesquisadores esperam aplicar a técnica para acelerar modelos generativos de aprendizado de máquina, como aqueles usados ​​para gerar novas imagens. Eles também esperam continuar a expandir a aplicação do EfficientViT para outras tarefas de visão.

LuTian, ​​​​Diretor Sênior de Algoritmos de Inteligência Artificial da AMD, disse: "O modelo de transformador eficiente pioneiro da equipe do professor Han Song tornou-se agora a espinha dorsal da tecnologia de ponta em várias tarefas de visão computacional, como detecção e segmentação. Sua pesquisa não apenas demonstra a eficiência e as capacidades do transformador, mas também revela seu enorme potencial em aplicações do mundo real, como melhorar a qualidade da imagem em videogames."

"A compactação de modelos e o design de modelos leves são tópicos de pesquisa importantes para alcançar uma computação de inteligência artificial eficiente, especialmente em modelos básicos de grande escala. O grupo de pesquisa do professor Han Song fez progressos significativos na compactação e aceleração de modelos modernos de aprendizagem profunda, especialmente transformadores visuais." Jay Jackson, vice-presidente global de inteligência artificial e aprendizado de máquina da Oracle, que não esteve envolvido na pesquisa, acrescentou. "A Oracle Cloud Infrastructure tem apoiado sua equipe no avanço desta pesquisa impactante para permitir inteligência artificial eficiente e verde."