Hoje, Ant Bailing lançou oficialmente o Ling-2.6-flash - um modelo Instruct com um volume de parâmetro total de 104B e um parâmetro de ativação de 7,4B.Este modelo concentra-se na “Eficiência do Token”. Embora mantenha um nível de inteligência competitiva, é mais rápido, mais econômico e mais adequado para aplicações reais em larga escala.

De acordo com dados oficiais de análise artificial de avaliação de terceiros, o Ling-2.6-flash demonstra excelentes vantagens de eficiência de token, alcançando um índice de inteligência de 26 pontos com 15 milhões de tokens de saída, enquanto mantém um forte nível de inteligência enquanto controla o consumo de produção em uma posição relativamente baixa.

Entende-se que o Ling-2.6-flash segue o design da arquitetura linear híbrida do Ling 2.5. Esta arquitetura MoE altamente esparsa tem vantagens óbvias no desempenho do hardware.

Na condição de 4 cartões H20, a velocidade de inferência pode atingir até 340 tokens/s, e a taxa de transferência de pré-preenchimento atinge 2,2 vezes a do Nemotron-3-Super.

Na avaliação da velocidade de saída, o Ling-2.6-flash ficou em primeiro lugar entre os modelos do mesmo nível de parâmetro, com uma velocidade de saída estável de 215 tokens/s.

Do ponto de vista do consumo de token, a proporção de E/S do Ling-2.6-flash foi significativamente melhorada.

Na avaliação completa da Análise Artificial, o consumo total do Ling-2.6-flash foi de 15 milhões de tokens, enquanto modelos como Nemotron-3-Super atingiram ou ultrapassaram 110 milhões de tokens. Isso significa que o Ling-2.6-flash usa apenas cerca de 1/10 do consumo de token para concluir tarefas de avaliação semelhantes.

Ling-2.6-flash fez melhorias direcionadas para cenários de Agente. Ele ainda mantém fortes capacidades de execução de tarefas enquanto controla o consumo de tokens. O modelo atingiu o nível SOTA do mesmo tamanho em benchmarks relacionados a agentes, como BFCL-V4, TAU2-bench, SWE-bench Verified, Claw-Eval e PinchBench.

Ao mesmo tempo, o Ling-2.6-flash mantém níveis excelentes em dimensões como conhecimento geral, raciocínio matemático, seguimento de instruções e análise de textos longos.

Em termos de preços de API, o Ling-2.6-flash custa US$ 0,1 por milhão de tokens para entrada e US$ 0,3 para saída.Atualmente, a API do Ling-2.6-flash foi oficialmente aberta aos usuários e é fornecida uma avaliação gratuita por tempo limitado de uma semana.

Os usuários podem obter serviços correspondentes por meio do OpenRouter e Bailing tbox de modelo grande. Entende-se que o modelo lançará posteriormente uma versão comercial, LingDT, por meio da Ant Digital para atender desenvolvedores globais e pequenas e médias empresas.