Prelúdio para AI iPhone? Apple publica artigo para resolver “executar modelos grandes na memória do telefone móvel”

De acordo com relatos da mídia, a Apple lançou recentemente um artigo apresentando um método que pode executar LLM (Large Language Model) em dispositivos que excedem a capacidade DRAM disponível. Esta nova pesquisa suporta dispositivos de capacidade limitada executando LLM com 2 vezes o tamanho da memória, e a velocidade de inferência da GPU pode ser aumentada dezenas de vezes. Segundo a mídia, o plano da Apple de integrar IA generativa ao iOS18 pode ser acelerado.

Ao melhorar significativamente a eficiência do uso da memória, esta nova pesquisa oferece suporte a dispositivos com capacidade limitada para executar LLM com 2 vezes o tamanho da memória, e a velocidade de inferência da GPU pode ser aumentada dezenas de vezes.

De acordo com o artigo, os requisitos intensivos de cálculo e memória do LLM são um grande desafio para a capacidade DRAM. O artigo constrói um modelo de custo de inferência baseado em memória flash que será otimizado em duas áreas principais: redução da quantidade de dados transferidos da memória flash e leitura cada vez mais suave de blocos de dados.

Isso significa que esta pesquisa inovadora expande a aplicabilidade e acessibilidade do LLM, e o plano da Apple de integrar IA generativa no iOS18 pode ser acelerado.

O LLM pode ser executado em telefones celulares?

De modo geral, DRAM é o que costumamos chamar de "memória" e flash (memória flash) refere-se ao disco rígido.

Ao computar dados, a CPU geralmente usa DRAM como uma “ponte intermediária” para copiar os dados do disco rígido para a memória e, em seguida, realizar o processamento de dados na memória. Isso pode aumentar a velocidade em milhões de vezes.

Mas em termos de capacidade, a DRAM é uma ordem de magnitude menor que um disco rígido. Quando o LLM está em execução, uma enorme quantidade de dados precisa ser processada simultaneamente, o que representa um grande desafio para dispositivos com capacidade limitada.

Mas o novo quadro proposto neste artigo parece ter encontrado um ponto de ruptura. Esta estrutura foi projetada para armazenar parâmetros do modelo na memória flash e, em seguida, transferir os dados para DRAM quando necessário, resolvendo o problema do volume de processamento de dados que excede a capacidade disponível da DRAM quando o LLM está em execução.

Especificamente, a Apple usa principalmente duas tecnologias:

(1) Tecnologia "Windowing": Reutilize neurônios previamente ativados para reduzir a transmissão de dados;
(2) Tecnologia de "agrupamento de rotas e linhas": De acordo com as características dos dados da memória flash, a ordem de acesso aos blocos de dados é personalizada, aumentando assim o tamanho dos blocos de dados lidos da memória flash.

O artigo mencionou que um modelo de 7 bilhões de parâmetros requer mais de 14 GB de memória para carregar parâmetros em formato de ponto flutuante de meia precisão, o que excede a resistência da maioria dos terminais de rede. No entanto, através desta estrutura, é possível minimizar a transferência de dados e maximizar o rendimento da memória flash, reduzindo assim a carga de dados e melhorando a eficiência do uso da memória.

Os resultados da pesquisa mostram que, em comparação com os métodos de carregamento tradicionais, esta estrutura suporta modelos com o dobro do tamanho da DRAM, e a velocidade de inferência pode ser aumentada em 4-5 vezes e 20-25 vezes na CPU e GPU, respectivamente. A equipe de pesquisa concluiu no final do artigo:

"Esta tecnologia inovadora é particularmente importante para a implantação de LLM avançado em ambientes com recursos limitados, expandindo assim a aplicabilidade e acessibilidade do LLM."

Gigantes da telefonia móvel visam IA

Seguindo a tendência da IA, os principais fabricantes de telefones celulares começaram a implantar “inteligência artificial + telefones celulares”.

De acordo com notícias anteriores do mercado, a Apple introduzirá IA em seu iOS18, principalmente para funções como resposta inteligente a perguntas e geração de frases na Siri e aplicativos de comunicação. Além disso, a Apple também está explorando o potencial da IA em aplicações como Apple Music, Page, Keynote e Xcode.

A Samsung lançou seu modelo generativo de IA SamsungGauss no início de novembro. Os relatórios dizem que o modelo será incluído na série de celulares Galaxy S24 a ser lançada no início de 2024. Os laptops e tablets da Samsung também podem integrar o modelo.

O modelo Gemini do Google (Gemini) também será integrado aos produtos do Google. Em novembro, o Google anunciou oficialmente que o Gemini 1.0 será lançado gradualmente nos produtos Google; O Gemini Pro será integrado ao Bard para raciocínio e planejamento avançados; Gemini Nano fornecerá suporte para as funções dos smartphones Pixel8 Pro.