Os pesquisadores da Apple lançaram um novo modelo de inteligência artificial de código aberto que pode editar imagens com base nas instruções de linguagem natural dos usuários. MGIE é a abreviatura de MLLM-GuidedImageEditing, que usa Multimodal Large Language Model (MLLM) para interpretar solicitações do usuário e realizar operações em nível de pixel.
Este modelo é capaz de editar todos os aspectos de uma imagem. Os aprimoramentos globais de fotos podem incluir brilho, contraste ou nitidez, ou aplicar efeitos artísticos como esboços. A edição local pode modificar a forma, tamanho, cor ou textura de áreas ou objetos específicos em uma imagem, enquanto as modificações no estilo Photoshop incluem cortar, redimensionar, girar e adicionar filtros, ou até mesmo alterar o fundo e mesclar a imagem.
A entrada de um usuário para a foto de uma pizza pode ser “fazer com que pareça mais saudável”. Usando o raciocínio do bom senso, o modelo pode adicionar ingredientes vegetais como tomates e ervas. As solicitações de entrada de otimização global poderiam ser na forma de “aumentar o contraste, simular mais luz”, enquanto as modificações no estilo do Photoshop poderiam solicitar ao modelo que removesse as pessoas do fundo da foto, mudando o foco da imagem para as expressões faciais do sujeito.
A Apple colaborou com pesquisadores da Universidade da Califórnia para criar o MGIE e publicou um artigo na Conferência Internacional sobre Representações de Aprendizagem (ICLR) de 2024. O modelo está disponível no GitHub, incluindo código, dados e modelos pré-treinados.
Este é o segundo avanço da Apple na pesquisa de inteligência artificial em poucos meses. No final de dezembro, a Apple revelou que havia feito progressos na implantação de modelos de linguagem grande (LLMs) em iPhones e outros dispositivos Apple com memória limitada, inventando uma tecnologia inovadora de utilização de memória flash.
Nos últimos meses, a Apple tem testado um “AppleGPT” que poderia competir com o ChatGPT. De acordo com Mark Gurman da Bloomberg, o trabalho de IA é uma prioridade para a Apple, e a empresa está projetando uma estrutura “Ajax” para grandes modelos de linguagem.
Tanto o The Information quanto o analista Jeff Pu afirmam que a Apple lançará algum tipo de recurso generativo de inteligência artificial no iPhone e iPad por volta do final de 2024, quando o iOS 18 será lançado. De acordo com Gurman, diz-se que o iOS 18 inclui uma versão aprimorada do Siri com recursos de IA generativos semelhantes ao ChatGPT e tem potencial para ser a “maior” atualização de software da história do iPhone.