Na noite de 16 de março, o CEO da Tesla, Musk, falou publicamente nas plataformas sociais, elogiando as mais recentes conquistas tecnológicas da equipe da empresa chinesa de inteligência artificial Kimi, dizendo que o trabalho foi “impressionante” e trazendo aos olhos do público a pesquisa de ponta deste grande modelo produzido internamente.

Como os artigos técnicos foram divulgados simultaneamente, Guangyu Chen, que ficou em primeiro lugar na lista de autores, atraiu a atenção de toda a Internet - o autor principal era na verdade um estudante do ensino médio de 17 anos de Shenzhen, Guangdong.

De acordo com as informações marcadas no apêndice do artigo, Chen Guangyu, Zhang Yu e Su Jianlin são todos co-primeiros autores com contribuições iguais, e os restantes 34 autores participantes não marcaram esta qualificação.

Entre eles, Zhang Yu é o principal desenvolvedor da arquitetura de modelo eficiente de Kimi, e Su Jianlin é o proponente da codificação de posição rotacional (RoPE).

Vale ressaltar que Chen Guangyu está profundamente envolvido no campo da IA ​​há apenas um ano. No estágio inicial, ele rapidamente completou o conhecimento básico e as habilidades práticas de IA, estudando de forma independente artigos de ponta e acompanhando projetos de código aberto do GitHub.

No verão passado, ele foi para São Francisco para completar um estágio de 7 semanas. Após retornar à China, ele se juntou à equipe Kimi em novembro do ano passado para participar do estágio.

Após a divulgação do artigo, Chen Guangyu publicou uma análise dos resultados em seu círculo de amigos, mencionando especificamente os três autores que contribuíram igualmente, bem como os colegas da equipe responsáveis ​​pela expansão do modelo e construção de infraestrutura. Ele respondeu de maneira discreta: “É um esforço de equipe, não um deus”.

Segundo relatos, este relatório técnico divulgado pela equipe Kimi propõe um novo mecanismo de Atenção Residual para conseguir uma reconstrução disruptiva da conexão residual tradicional que tem sido usada no campo da aprendizagem profunda há quase dez anos.

A inovação de Kimi equivale a instalar um “filtro inteligente” na IA, migrando o mecanismo de atenção do Transformer para a dimensão de profundidade do modelo, permitindo que cada camada filtre dinamicamente informações anteriormente úteis, reduza a redundância e melhore a eficiência da transmissão.