Quando se trata de modelos de linguagem grande (LLMs), a escala certamente é importante porque afeta onde o modelo é executado. StabilityAI, um fabricante conhecido por sua tecnologia de inteligência artificial de geração de texto para imagem por difusão estável, lançou hoje um de seus menores modelos até o momento - StableLM21.6B.


StableLM é um LLM de geração de conteúdo de texto que Stable AI lançou pela primeira vez em abril de 2023 com modelos de parâmetros de 3 bilhões e 7 bilhões. O novo modelo StableLM é na verdade o segundo modelo lançado pela StabilityAI em 2024, depois que a empresa lançou o StableCode3B no início desta semana.

O novo modelo StableLM é compacto e poderoso, projetado para reduzir a barreira de entrada para que mais desenvolvedores participem do ecossistema generativo de IA e incorporar dados multilíngues em sete idiomas: inglês, espanhol, alemão, italiano, francês, português e holandês. O modelo aproveita os mais recentes avanços algorítmicos em modelagem de linguagem para alcançar o melhor equilíbrio entre velocidade e desempenho desejado pelo StabilityAI.

Carlos Riquelme, chefe da equipe de linguagem da StabilityAI, disse ao VentureBeat: "Em geral, modelos maiores treinados com receitas de treinamento semelhantes em dados semelhantes tendem a ter melhor desempenho do que modelos menores. No entanto, com o tempo, à medida que novos modelos são capazes de implementar algoritmos melhores e treinar em mais dados e de maior qualidade, às vezes vemos modelos menores recentes superarem modelos maiores mais antigos."

De acordo com StabilityAI, o modelo supera outros modelos de linguagem pequena com parâmetros abaixo de 2 bilhões na maioria dos benchmarks, incluindo Phi-2 da Microsoft (2,7 bilhões), TinyLlama1.1B e Falcon1B. O novo e menor StableLM é ainda capaz de superar alguns dos modelos maiores, incluindo o modelo StableLM3B anterior do StabilityAI.

Riquelme disse: "StableLM21.6B. Tem melhor desempenho do que alguns dos modelos maiores treinados há alguns meses. Considere tendências semelhantes em computadores, televisões ou microchips, onde eles se tornam menores, mais finos e melhores com o tempo."

Para ser claro, o StableLM21.6B menor tem algumas desvantagens devido ao seu tamanho pequeno. Devido à natureza dos modelos de linguagem pequenos e de baixa capacidade, o StableLM21.6B também pode apresentar alguns problemas comuns, como altas taxas de alucinação ou linguagem potencialmente tóxica.

Nos últimos meses, StabilityAI tem trabalhado em opções de LLM menores e mais poderosas. Em dezembro de 2023, foi lançado o modelo StableLMZephyr3B, que é menor em tamanho, mas mais poderoso que o modelo inicial lançado em abril.

O novo modelo StableLM2 é treinado em mais dados, incluindo documentos multilíngues em 6 idiomas (espanhol, alemão, italiano, francês, português e holandês), além do inglês. Outro aspecto interessante destacado por Riquelme é a ordem em que os dados são apresentados ao modelo durante o treinamento. Ele ressalta que focar em diferentes tipos de dados em diferentes estágios de treinamento pode ser gratificante.

Indo um passo adiante, StabilityAI está oferecendo novos modelos com opções de pré-treinamento e ajuste fino, bem como um formato que os pesquisadores chamam de “...último ponto de verificação do modelo antes do resfriamento do pré-treinamento”.

“Nosso objetivo é fornecer aos desenvolvedores individuais mais ferramentas e artefatos para inovar, adaptar e desenvolver modelos existentes. Aqui, fornecemos um modelo concreto e semiacabado para as pessoas usarem”, disse Riquelme.

Durante o processo de treinamento, o modelo é atualizado sequencialmente e seu desempenho melhora. Neste caso, o primeiro modelo não sabe nada, enquanto o último modelo consumiu a maior parte dos dados e espera-se que os aprenda. Ao mesmo tempo, os modelos podem tornar-se menos flexíveis no final da formação porque são forçados a terminar a aprendizagem.

“Decidimos disponibilizar o modelo em sua forma atual antes de iniciar a fase final do treinamento para que – esperançosamente – seja mais fácil especializá-lo para outras tarefas ou conjuntos de dados que as pessoas possam querer usar”, disse ele. “Não temos certeza se isso funcionará bem, mas realmente acreditamos na capacidade das pessoas de aproveitar novas ferramentas e modelos de maneiras surpreendentes”.