Na conferência de desenvolvedores Build 2026, a Microsoft anunciou uma expansão significativa de sua família de modelos MAI autodesenvolvidos, criada pela equipe Microsoft AI Superintelligence, lançando o primeiro modelo de inferência de uso geral MAI-Thinking-1, um modelo de código MAI-Code-1 para GitHub Copilot e várias versões atualizadas de modelos de fala, transcrição e geração de imagens para melhorar ainda mais seu cenário de tecnologia de IA de ponta a ponta. Isto marca a expansão acelerada da Microsoft no campo de modelos básicos, desde fala e imagens até cenários complexos de raciocínio e produtividade do desenvolvedor.

A Microsoft disse que a família de modelos MAI continuou a se expandir no ano passado e lançou MAI-Voice-1, MAI-1-preview e MAI-Transcribe-1 e MAI-Image-2 no início deste ano e, em seguida, lançou MAI-Image-2.5, que melhorou a qualidade da renderização de texto, ilustrações estilizadas e imagens comerciais. Desta vez, nesta base, novos modelos de raciocínio e codificação são adicionados, e as linhas de produtos de voz, transcrição e imagem são atualizadas simultaneamente para formar um portfólio de produtos mais completo.
MAI-Thinking-1 é o primeiro modelo de inferência anunciado oficialmente pela Microsoft. Ele foi treinado do zero pela equipe de IA da Microsoft e não foi destilado de outros modelos. A Microsoft enfatizou que o modelo é treinado usando dados de nível empresarial limpos e licenciados comercialmente e foi projetado para atender aos requisitos dos usuários corporativos quanto à conformidade e comercialização dos dados. MAI-Thinking-1 é um modelo de média escala com 35 bilhões de parâmetros de ativação e suporta janelas de contexto de 128K. Ele é direcionado principalmente a cenários como execução complexa de instruções em várias etapas, raciocínio de contexto longo e geração de código.
Embora a Microsoft não tenha divulgado dados detalhados de benchmark no anúncio, ela citou resultados de análises independentes em seu blog e disse que no teste cego, a preferência geral dos revisores foi mais pelo MAI-Thinking-1 do que pelo Claude Sonnet 4.6 da Anthropic. Além disso, a Microsoft também afirmou que no teste de tarefa de código SWE-bench Pro, MAI-Thinking-1 foi comparável a Claude Opus 4.6 em desempenho de codificação, mostrando o potencial deste modelo para desenvolvedores e tarefas complexas de engenharia. MAI-Thinking-1 está atualmente em versão prévia privada para clientes selecionados por meio do Microsoft Foundry.
Em termos de geração de imagens, o MAI-Image-2.5 lançado anteriormente pela Microsoft e sua “variante flash” foram abertos aos desenvolvedores através do Microsoft Foundry. De acordo com os últimos dados da lista de artigos da Arena citados pela Microsoft, o MAI-Image-2.5 ultrapassou o Nano Banana Pro do Google na tarefa de gerar imagens de texto e entrou entre os três primeiros da lista. Este modelo foi integrado ao PowerPoint e está sendo gradualmente implementado no OneDrive, fornecendo recursos de geração de imagens de maior qualidade para o ecossistema do Office.
Em termos de transcrição de fala, a Microsoft lançou o MAI-Transscribe-1 em abril deste ano, que oferece suporte à transcrição de fala para texto nos 25 idiomas mais usados, com base em seus próprios dados de uso do produto. Desta vez, a Microsoft lançou a versão atualizada MAI-Transscribe-1.5, que atingiu o nível líder do setor em precisão de reconhecimento de fala e expandiu o número de idiomas cobertos para 43. Ela planeja adicionar recursos de transcrição de streaming ao modelo em breve para atender às necessidades de cenários em tempo real.
Na direção da síntese de fala, após anunciar que o MAI-Voice-1 estava disponível em abril deste ano, a Microsoft lançou desta vez o MAI-Voice-2 e sua versão relâmpago. O modelo de geração de voz de nova geração suporta mais de 15 idiomas adicionais e oferece mais opções de estilo de voz para se adaptar a cenários de aplicativos mais ricos, como atendimento ao cliente multilíngue, dublagem de conteúdo e assistentes inteligentes.
Para cenários de codificação de desenvolvedores, a Microsoft lançou simultaneamente o MAI-Code-1, um modelo de código de inferência eficiente otimizado para cargas de trabalho do GitHub. Este modelo foi lançado no GitHub Copilot e no Visual Studio Code, fornecendo suporte para codificação diária, refatoração, conclusão de código e outros cenários. Embora a Microsoft não tenha divulgado os resultados de benchmark específicos do MAI-Code-1, este lançamento é considerado um sinal importante - a Microsoft não depende mais inteiramente do OpenAI e do Anthropic para o modelo subjacente do GitHub Copilot, mas introduz gradualmente modelos autodesenvolvidos.
Em termos de canais de distribuição, além de fornecer serviços a empresas e desenvolvedores através do Microsoft Foundry, a Microsoft também anunciou que seus modelos da série MAI serão lançados em plataformas de terceiros, como Fireworks AI, Baseten e OpenRouter. Ao mesmo tempo, o Fireworks AI também foi disponibilizado para o público geral no Microsoft Foundry, oferecendo aos clientes corporativos mais opções de arquitetura e implantação. Ao cooperar com múltiplas plataformas, a Microsoft espera reduzir ainda mais o limite de acesso e acelerar a implementação de modelos MAI em diferentes ecossistemas de nuvem e ferramentas.
A partir do layout geral, a Microsoft está construindo uma matriz completa de capacidade de IA de nível empresarial usando vários tipos de modelos, como raciocínio MAI, codificação, fala, transcrição e imagens. Com a adição do MAI-Thinking-1 e do MAI-Code-1, a voz da Microsoft nas áreas de raciocínio complexo e produtividade do desenvolvedor foi significativamente aprimorada e também forneceu uma base técnica mais competitiva para GitHub Copilot, série Office e plataformas de colaboração.