Microsoft lança Fara-7B, que pode rodar diretamente no PC e tem desempenho comparável ao GPT-4o

Em 24 de novembro, a Microsoft anunciou o lançamento do modelo de IA de parâmetro 7B Fara-7B, posicionado como um “Agente de Uso de Computador (CUA)” que pode executar tarefas complexas diretamente no dispositivo local do usuário. Fara-7B não apenas alcança o melhor desempenho na mesma escala, mas também libera os agentes de IA da dependência de enormes modelos de nuvem, alcançando baixa latência e garantias mais fortes de privacidade de dados em sistemas com recursos limitados.

Segundo relatos, a arquitetura do Fara-7B atende diretamente às necessidades de segurança de dados que mais preocupam os usuários corporativos. Como o modelo é simplificado o suficiente para ser executado localmente, os usuários podem automatizar fluxos de trabalho confidenciais (como gerenciamento de contas internas ou processamento de dados confidenciais) sem que as informações relevantes saiam do dispositivo local, melhorando significativamente a privacidade e a conformidade.

Fara-7B interage com páginas da web através de “operações de visualização de tela”. Ele usa capturas de tela para “perceber visualmente” o layout da página como os humanos fazem, prevendo coordenadas para concluir cliques, entradas, rolagem e outras ações, e não depende da estrutura de árvore de acessibilidade subjacente do navegador. Este método de "operar" apenas com informações visuais em nível de pixel permite que ele funcione corretamente em sites com estruturas de código confusas e páginas difíceis de analisar.

Yash Lara, gerente sênior de produtos da Microsoft Research, disse que o processamento de entrada visual totalmente local alcança a verdadeira “soberania de pixel”, permitindo que os processos de automação e raciocínio de dados permaneçam locais, atendendo assim às necessidades de conformidade de setores altamente regulamentados, como os setores médico e financeiro.

Em testes padrão como o WebVoyager, a taxa de sucesso da tarefa do Fara-7B é de 73,5%, o que é melhor do que modelos como GPT-4o (65,1%) e UI-TARS-1.5-7B (66,4%), que consomem mais recursos. Ao mesmo tempo, o Fara-7B precisa em média de apenas 16 etapas para concluir a tarefa, enquanto o UI-TARS-1.5-7B executa 41 etapas, o que melhora significativamente a eficiência. Além disso, o Fara-7B apresenta a melhor relação preço/desempenho entre precisão e custo.

No entanto, a Microsoft também enfatizou que este modelo ainda apresenta problemas com sistemas gerais de IA, como alucinações e erros no processamento de instruções complexas. Para reduzir os riscos, Fara-7B introduz um mecanismo de “ponto-chave”: antes de envolver dados pessoais do usuário ou ações irreversíveis (como envio de e-mails, operações financeiras), o modelo irá pausar ativamente e solicitar a confirmação do usuário. A Microsoft projetou uma UI de suporte à interação humano-computador (Magenic-UI) para permitir que os usuários intervenham a tempo e evitem interrupções excessivas.

Fara-7B foi desenvolvido usando uma abordagem de “destilação de conhecimento” para comprimir e transformar um grande número de casos de sucesso de sistemas multiagentes (145.000 trajetórias de navegação autônomas geradas pelo Magentic-One) em um único modelo. Seu modelo básico é o Qwen2.5-VL-7B, que possui uma janela de contexto de até 128.000 palavras e poderosos recursos de alinhamento de texto e elementos visuais. Todo o processo se concentra no ajuste fino supervisionado, permitindo que o modelo “imite” as demonstrações de especialistas humanos.

Para o futuro, a Microsoft enfatizou que não aumentará cegamente o tamanho do modelo, mas se concentrará em “tornar os modelos pequenos mais inteligentes e seguros”. O plano de acompanhamento é introduzir o mecanismo de aprendizagem por reforço (RL) no ambiente sintético no treinamento, permitindo que Fara-7B aprenda de forma autônoma no ambiente sandbox.

Atualmente, o Fara-7B foi lançado nas plataformas Hugging Face e Microsoft Foundry através do protocolo MIT, permitindo uso comercial. No entanto, a Microsoft lembra que o modelo ainda não atingiu o nível de produção e é adequado principalmente para desenvolvimento e testes de protótipos.