A IA da Apple “não pode ser vista em fotos”: colocando modelos grandes no iPhone

Há um ditado no filme "O Poderoso Chefão": "Nunca deixe que estranhos saibam o que você quer fazer." Esta frase parece ser aplicável ao desempenho da IA da Apple nos primeiros 11 meses de 2023. Em maio deste ano, a mídia estrangeira informou que a Apple estava preocupada com o fato de ferramentas de IA como ChatGPT e Copilot coletarem dados confidenciais e proibirem os funcionários de usá-los no trabalho. Em junho deste ano, na Apple Worldwide Developers Conference, Cook nem sequer mencionou IA, mas substituiu-a por ML como sinônimo.

Mas é obviamente impossível dizer que a Apple não se preocupa com IA. Afinal, desde 2010, a Apple adquiriu a equipe Siri por US$ 200 milhões. Mesmo depois de tantos anos, ainda é tão “mentalmente fraco”.

Em julho deste ano, a Bloomberg informou que a Apple desenvolveu internamente sua própria estrutura de IA Ajax e o robô de bate-papo AppleGPT. Ajax é baseado no GoogleJax, enquanto AppleGPT é semelhante ao ChatGPT. No entanto, parece não haver nada de inovador em nenhum deles.

Em outubro deste ano, a Apple lançou outro grande modelo multimodal de código aberto, Ferret, com duas versões de parâmetros: 7 bilhões e 13 bilhões. Mas como atualmente está aberto apenas a instituições de pesquisa, não causou muita agitação.

Também em outubro, a Bloomberg informou que a Apple estava muito “ansiosa” e havia lançado um grande plano de recuperação. A iniciativa é liderada pelos chefes de aprendizado de máquina e inteligência artificial John Giannandrea e Craig Federighi, com a participação de Eddy Cue, vice-presidente sênior de serviços, e tem um orçamento de US$ 1 bilhão por ano.

Ironicamente, já em 2020, John Giannandrea afirmou a estratégia de IA da Apple em uma entrevista e disse que a Apple não contaria muito sobre suas capacidades de IA.

É porque não posso falar muito ou realmente não há muito. Em suma, existem demasiados rumores para aguçar o apetite de todos.

Embora se possa dizer que, como empresa focada em hardware, a Apple pelo menos lançou o VisionPro este ano, no qual funções como avatares digitais, reconhecimento de cena e ação estão todas relacionadas à tecnologia de IA.

Mas o orgulho parou na popularidade da AIPin em novembro. A “lapela” do tamanho de uma caixa de meio cigarro pode entender as necessidades do usuário apenas “ouvir” e “ver” e usa software de IA para realizar tarefas. É considerado por alguns como um “assassino natural do iPhone”. Mais importante ainda, os financiadores por trás da AIPin incluem Microsoft, OpenAI e uma série de outros que deixam a Apple “ansiosa”.

Vendo que os lobos estão prestes a flanquear todos os aspectos, a Apple finalmente lançou dois artigos no final de 2023.

Um dos artigos intitulado "LLMinaflash: EfficientLargeLanguageModelInferencewithLimitedMemory" propôs:A Apple implantou com sucesso o LLM em iPhones com memória limitada e outros dispositivos Apple por meio de uma tecnologia inovadora de utilização de memória flash, que deverá trazer Siri mais poderoso, tradução de idiomas em tempo real e recursos de IA de ponta integrados com fotografia e AR para futuros iPhones.

Em 2024, esta rota “modelo grande + hardware” pode mudar diretamente o cenário competitivo.

01Quebre a barreira da memória e coloque modelos grandes na memória flash

Vamos colocar as conclusões dos dados primeiro. O artigo mostra que com o suporte da tecnologia Flash-LLM, duas áreas principais foram otimizadas: 1. Reduzir a quantidade de dados transmitidos pela memória flash; 2. Leia blocos de dados maiores e mais contínuos.

Após a otimização, o dispositivo pode suportar tamanhos de modelo em execução duas vezes maiores que sua própria DRAM; A velocidade de inferência do LLM é aumentada de 4 a 5 vezes na CPU Apple M1 Max e de 20 a 25 vezes na GPU.

Como o Flash-LLM faz isso? Duas tecnologias principais são usadas:

Primeiro, a tecnologia de janelas reduz estrategicamente a transmissão de dados ao reutilizar neurônios previamente ativados. A quantidade de transferência de dados da memória (memória flash) para o processador (DRAM) é bastante reduzida.

Em segundo lugar, a tecnologia de agrupamento linha-coluna é adaptada de acordo com a intensidade de acesso aos dados sequenciais da memória flash, aumenta o tamanho dos blocos de dados lidos da memória flash e altera a forma como os dados são armazenados.

Por exemplo, certa vez escrevemos em “Perdendo centenas de milhões, como investir em projetos de IA?” Veja o exemplo da “biblioteca” dado em “How Index, a veteran European venture capital bets”.

Suponha que você vá à biblioteca com uma lista de 20 livros, mas essa biblioteca é como a série de TV britânica "BlackBooks", com livros organizados de maneira bagunçada. Você quase precisa ir do começo ao fim para localizar todos os livros que procura.

Imagine que ao procurar um livro você precisa conciliar “olhos” e “cérebro”. De acordo com o bom senso, toda vez que você vê um livro, não encontrará o livro correspondente na lista de livros. Porque seu cérebro já "mostrou" os "títulos principais dos livros".

Tudo o que você precisa fazer é encontrar o livro na lista ao alcance da sua visão.

A tecnologia de janelas é assim. É equivalente a primeiro usar um algoritmo para dispersar a matriz de pesos do LLM, retendo apenas alguns elementos importantes, reduzindo assim a quantidade de cálculo e melhorando a eficiência do cálculo.

Ao mesmo tempo, como você precisa encontrar um total de 20 livros, você não pode simplesmente escolher um livro e jogar outro fora como um urso quebrando milho, então você precisa de um carrinho pequeno. A tecnologia de agrupamento de linha e coluna é um carrinho pequeno que ajuda os blocos de dados lidos da memória flash a serem cada vez maiores e também melhora a eficiência da leitura de dados.

Avanços duplos em velocidade e tamanho poderão em breve permitir que modelos grandes funcionem perfeitamente no iPhone, iPad e outros dispositivos móveis.

Embora este método também tenha algumas limitações, incluindo o direcionamento principalmente para tarefas de geração de texto, sua aplicabilidade a outros tipos de tarefas precisa de verificação adicional e sua capacidade limitada de lidar com modelos de grande escala.

02Bem-vindo ao lançamento do VisionPro, gere um "avatar humano digital em 30 minutos"

Embora o segundo artigo "HUGS: HumanGaussianSplats" não seja tão impressionante quanto o anterior, ainda é bastante atraente.

Este artigo detalha uma tecnologia generativa de IA chamada HUGS (Human Gaussian Splats). Anurag Ranjan, pesquisador da Apple e um dos autores do artigo HUGS, disse: O HUGS requer apenas um vídeo original de cerca de 50-100 quadros, equivalente a 2 a 4 segundos de vídeo de 24fps, para gerar um “avatar humano digital” em 30 minutos.

É relatado que isso é cerca de 100 vezes mais rápido do que outros métodos, incluindo NeuMan e Vid2Avatar.

De acordo com o vídeo postado por Ranjan no X, os três clones digitais do lado direito da tela dançam alegremente no gramado, o que é bastante mágico.

A Apple disse que embora a atual tecnologia de renderização neural tenha melhorado significativamente em comparação com seus primeiros dias, ela ainda é mais adequada para uso em cenas estáticas, em vez de humanos se movendo livremente em cenas dinâmicas.

HUGS é baseado na tecnologia de modelo corporal 3DGS (3DGaussianSplatting) e SMPL para criar avatares humanos digitais. É claro que a tecnologia HUGS atual não pode capturar todos os detalhes, mas o HUGS preencherá automaticamente os elementos detalhados que não podem ser capturados e modelados.

Pessoas digitais virtuais 3D são um requisito inevitável para o desenvolvimento de fones de ouvido VR.

Por exemplo, no ano passado, a Meta lançou o CodecAvatar versão 2.0, que completou ainda mais o efeito humano digital realista em comparação com 1.0.

Este ano, a Apple lançou o VisionPro, que pode escanear as informações faciais do usuário por meio da câmera frontal e gerar um avatar digital para o usuário com base em aprendizado de máquina e codificação de redes neurais. Quando um usuário faz uma ligação FaceTime, o avatar digital pode imitar dinamicamente os movimentos faciais e das mãos do usuário, mantendo o volume e a profundidade do avatar digital.

De acordo com relatórios da Bloomberg, a Apple está fazendo os preparativos finais para o lançamento do Vision Pro, que deverá ser antecipado para o final de janeiro de 2024.

De acordo com Mark Gurman, analista sênior da Apple, a Apple se concentrará em produtos vestíveis (Vision Pro, AirPods, Apple Watch) em 2024, e o iPhone, que sempre ocupou o primeiro lugar, pode ceder.

Este artigo pode ser uma preparação para o lançamento do VisionPro.

03Conclusão

De acordo com a TrendForce, a Apple adquiriu discretamente mais de 20 empresas de IA desde 2018, e apenas algumas divulgaram o preço da transação.

Em outras palavras, justamente quando você pensa que a Apple está finalmente desacelerando, o chefão está observando, trabalhando duro, delineando silenciosamente o ecossistema, e então, como inúmeras vezes antes, de repente se torna um sucesso de bilheteria e surpreende a todos.

O que é ainda mais assustador é que o anterior “um passo atrás” da Apple parece estar “recuando para avançar”. Há duas informações dignas de nota.

1. A mídia estrangeira informou que a Apple está atualmente discutindo um "acordo de cooperação plurianual no valor de pelo menos US$ 50 milhões" e está em contato com meios de comunicação como Condé Nast, NBC News e IAC para obter autorização para usar seus artigos de notícias anteriores.

Ao contrário de outras empresas de tecnologia que utilizam dados para treinamento direto, a Apple primeiro obtém autorização antes de usar dados para treinamento.

Isto lembra a recente acusação do New York Times de que a OpenAI e a Microsoft usaram o conteúdo do New York Times para treinar modelos de inteligência artificial sem autorização. Este caso pode ser um divisor de águas nas disputas de direitos autorais sobre o uso de conhecimento de inteligência artificial.

Há também o recente problema de direitos autorais com MidjourneyV6 – é legal usar obras de criadores humanos para treinamento de IA? Como o judiciário protege os direitos e interesses dos criadores?

2. No clima de "discutir a segurança da IA", em outubro deste ano, o analista da cadeia de suprimentos da Apple, Jeff Pu, da Hong Kong Haitong International Securities, divulgou um relatório mostrando que a Apple pode ter construído centenas de servidores de IA em 2023, e haverá um aumento significativo em 2024.

Ele acredita que a Apple está considerando cuidadosamente como usar e processar dados pessoais antes de lançar a IA generativa, em linha com o seu compromisso com a privacidade do cliente.

Em outras palavras, a abordagem anterior de “desaceleração” da Apple parece ser pensar em como usar e processar dados pessoais, respeitando a privacidade do cliente. A Apple permanece cautelosa até que haja uma solução perfeita.

Além disso, Jeff Pu apontou no relatório: A Apple planeja começar a implementar tecnologia de IA generativa no iPhone e iPad já no final de 2024. Se o plano se concretizar, o cronograma do final de 2024 significaria que a Apple poderia lançar recursos de IA generativa começando com iOS 18 e iPadOS 18.

Neste ponto, a divulgação desses dois artigos parece ter iniciado o relógio para o retorno da Apple como rei. Em 2024, a pista de inteligência artificial onde os heróis competem será ainda mais emocionante.

Texto｜Shidao