Apple revela sua estratégia de treinamento de modelo de IA: desde web scraping em grande escala até transações autorizadas secretamente e conteúdo sintético

A conferência WWDC se concentrou no design Liquid, a nova linguagem de design visual para seu sistema operacional, e a Apple também anunciou a próxima geração de modelos de base de IA que oferecerão suporte ao dispositivo e à nuvem. Após a conferência, a gigante tecnológica parece preparada para compreender melhor a estratégia de IA da Apple através de um relatório técnico detalhado que dará aos utilizadores e à comunidade tecnológica uma visão sobre o processo de formação e otimização dos seus modelos. A Apple enfatizou no relatório que realmente se concentra na privacidade e na eficiência ao treinar modelos.

Embora não seja muito importante no campo atual da inteligência artificial, a Apple lançou um relatório detalhado sobre seu modelo básico chamado "Apple Intelligence Basic Language Model - 2025 Technical Report", que fornece uma introdução detalhada aos elementos-chave do mais recente modelo de inteligência artificial. Este relatório cobre quase tudo, desde a arquitetura do modelo até a fase de treinamento, fase pós-treinamento e como ajustar o modelo. O relatório também explora métodos utilizados para garantir melhorias técnicas do modelo para aumentar a eficiência do modelo, evitando violações de privacidade.

Embora a Apple já tenha compartilhado modelos de IA no dispositivo disponíveis para desenvolvedores e os 3 bilhões de parâmetros que possui, a limitação é que sua estrutura tem sido esparsa até agora. O modelo é supostamente dividido em várias partes para melhorar a eficiência. A primeira parte é chamada de Bloco 1 e contém mais de 60% dos blocos de construção principais (chamados de camadas de transformação). A IA então entende as principais expressões da linguagem e gera respostas.

A segunda parte, chamada Bloco 2, é mais leve devido à remoção de dois componentes técnicos que consomem muita memória: projeção de chave e valor. Graças a esta estratégia, a Apple conseguiu reduzir o consumo de memória do modelo em cerca de 38% e até acelerar o tempo de resposta do modelo. A empresa vem pesquisando como melhorar o desempenho de seus modelos de IA de forma nativa e, há alguns anos, explorou a ideia de rodar um modelo que fosse maior que a capacidade de memória do dispositivo. Embora não tenham adotado a solução estabelecida, eles têm procurado maneiras de lidar com limitações de hardware e outros desafios.

Em relação ao lado servidor do modelo de IA, a Apple garante que seu sistema de computação em nuvem privada adota uma arquitetura customizada. Essa abordagem é chamada de Parallel Orbit Mixed Experts (PT-MoE) e é uma estratégia inteligente que, simplesmente, divide grandes modelos de IA em partes menores chamadas especialistas. Agora, ao particionar o modelo em uma mistura de especialistas, o modelo não precisa ser totalmente executado todas as vezes; em vez disso, pode concentrar-se apenas em especialistas relevantes para a tarefa atual. Somente as partes do modelo com experiência no domínio são ativadas, economizando desempenho e aumentando a eficiência.

Além disso, a Apple também projetou uma nova arquitetura Transformer chamada "Parallel Track Transformer", que possui várias pistas independentes que funcionam juntas apenas em pontos-chave. Por causa disso, esse modelo não apresenta latência em todo o sistema. A gigante da tecnologia também abordou um dos maiores problemas da Apple Intelligence: suporte limitado a idiomas.

Com o novo modelo, a Apple melhorou significativamente as suas capacidades multilíngues. Para expandir o suporte a idiomas, a Apple aumentou a proporção de dados em idiomas diferentes do inglês no processo de treinamento de 8% para 30%, cobrindo conteúdo real e conteúdo gerado por IA, melhorando assim a compreensão do modelo e suportando uma gama mais ampla de idiomas. Isso fará com que recursos como ferramentas de escrita funcionem melhor. Ao treinar o novo sistema de IA, a Apple depende muito dos dados da web coletados pelo Applebot, seu rastreador da web desenvolvido internamente, que também foi usado em modelos anteriores. Curiosamente, como a Apple respeita a privacidade, se um site não quiser ser rastreado, seu conteúdo não será utilizado.

A empresa utiliza diversas técnicas para treinar seus modelos; principalmente usando dados públicos da web como material de treinamento. A Apple tende a filtrar conteúdo irrelevante e focar em conjuntos de dados úteis e relevantes. Da mesma forma, a gigante da tecnologia depende dos editores para obter conteúdo licenciado, embora tenha revelado os nomes das empresas de mídia das quais depende. A empresa também utiliza modelos menores para coletar dados sintéticos, principalmente quando se trata de tarefas de linguagem de imagem, execução de código ou instrução, para melhor ajuste.

Essa multiabordagem também envolve dados visuais, já que a gigante possui mais de 10 bilhões de pares imagem-legenda, incluindo capturas de tela e notas manuscritas. Ele também usa seu próprio modelo para gerar legendas mais ricas. Todos esses métodos de treinamento ajudam a Apple a construir modelos mais inteligentes e poderosos. A abordagem da Apple para treinar seus modelos de IA é muito clara. É uma estratégia de equilíbrio que garante que o sistema permaneça poderoso e versátil sem comprometer o seu valor central: a privacidade.