Em dezembro de 2024, a Microsoft lançou o Phi-4, um modelo de linguagem pequena (SLM) com o desempenho mais avançado da sua classe. Hoje, a Microsoft está expandindo a série Phi-4 com dois novos modelos: Phi-4-multimodal e Phi-4-mini. O novo modelo multimodal Phi-4 suporta fala, visão e texto simultaneamente, enquanto o Phi-4-mini se concentra em tarefas baseadas em texto.
Phi-4-multimodal é um modelo de parâmetros de 5,6B e o primeiro modelo de linguagem multimodal da Microsoft que integra fala, visão e processamento de texto em uma arquitetura unificada. Conforme mostrado na tabela abaixo, o Phi-4-multimodal alcança melhor desempenho em vários benchmarks em comparação com outros modelos omnidirecionais de última geração existentes, como Gemini2.0Flash e Gemini2.0FlashLite do Google.
Em tarefas relacionadas à fala, o Phi-4-multimodal supera os modelos de fala profissionais, como WhisperV3 e SeamlessM4T-v2-Large, tanto no reconhecimento automático de fala (ASR) quanto na tradução de fala (ST). O modelo liderou a classificação HuggingFaceOpenASR com uma surpreendente taxa de erro de palavras de 6,14%.
Em tarefas relacionadas à visão, o Phi-4-multimodal teve um bom desempenho no raciocínio matemático e científico. Este novo modelo é comparável ou até mesmo excede modelos populares como Gemini-2-Flash-lite-preview e Claude-3.5-Sonnet em termos de capacidades multimodais comuns, como compreensão de documentos e diagramas, OCR e raciocínio científico visual.
Phi-4-mini é um modelo de parâmetros de 3,8B que supera vários LLMs populares de grande escala em tarefas baseadas em texto, incluindo raciocínio, matemática, codificação, seguimento de instruções e chamada de funções.
Para garantir a segurança desses novos modelos, a Microsoft trabalhou com especialistas em segurança internos e externos para realizar testes e adotar estratégias desenvolvidas pelo Microsoft AI Red Team (AIRT). Os modelos multimodais Phi-4-mini e Phi-4 podem ser implantados no dispositivo após serem otimizados usando o ONNX Runtime para usabilidade em várias plataformas, tornando-os adequados para cenários de aplicativos de baixo custo e baixa latência.
Os modelos Phi-4-multimodal e Phi-4-mini agora estão disponíveis para desenvolvedores em AzureAIFoundry, HuggingFace e NVIDIAAPICatalog. Os desenvolvedores podem consultar a documentação técnica para compreender a finalidade do modelo recomendado e suas limitações.
Esses novos modelos Phi-4 representam um grande avanço na inteligência artificial eficiente, trazendo poderosas capacidades multimodais e baseadas em texto para uma variedade de aplicações de inteligência artificial.