Kai-Fu Lee: A competição por modelos grandes na China é extremamente acirrada e pode até superar a dos Estados Unidos

De acordo com notícias de 28 de dezembro, de acordo com as previsões de Kai-Fu Lee, capitalista de risco e ex-presidente do Google China, as startups de inteligência artificial generativa da China estão passando por uma “qualificação”. Ele fundou a 01.AI no início deste ano, uma startup com sede em Pequim focada no desenvolvimento de grandes modelos de linguagem (LLM). No mês passado, a empresa concluiu uma rodada de financiamento avaliando-a em até US$ 1 bilhão.

As maiores empresas de Internet da China, como Alibaba, Tencent, Baidu e ByteDance, bem como inúmeras startups, estão a correr para desenvolver os seus próprios grandes modelos linguísticos. Alguns meios de comunicação chamam isso de "Batalha dos 100 Modelos". Estas empresas tecnológicas estão a competir ferozmente para dominar o campo da inteligência artificial. Kai-Fu Lee disse em entrevista que essas empresas estão em fase de provar que possuem tecnologia para desenvolver modelos de alta qualidade. E as empresas que passarem no teste passarão para a próxima etapa, que é como aumentar a receita e obter lucratividade.

Kai-Fu Lee previu: "Na China, eventualmente haverá alguns grandes vencedores, e algumas empresas poderão sair do mercado com dignidade. Mas a maioria das empresas desistirá no meio do caminho ou se voltará para objetivos mais práticos, como a construção de aplicações e soluções para indústrias específicas".

A Zero One Wish foi fundada em março deste ano e conta atualmente com mais de 100 funcionários, a maioria dos quais trabalha em Pequim. No mês passado, a empresa lançou seu primeiro modelo de linguagem grande de código aberto, Yi-34B, mas sua receita futura não depende apenas deste modelo. Em vez disso, o seu plano de negócios é vender modelos proprietários de grandes idiomas, principalmente para o mercado chinês. Segundo Kai-Fu Lee, a empresa está atualmente desenvolvendo um novo modelo proprietário com mais de 100 bilhões de parâmetros.

No entanto, Zero Mil Coisas gerou alguma controvérsia depois que Yi-34B rapidamente liderou as classificações de modelos de linguagem de código aberto do HuggingFace. Alguns desenvolvedores descobriram que o modelo parecia usar o modelo de inteligência artificial de código aberto da Meta, Llama, mas isso não foi mencionado nas informações relevantes. Para este fim, Zero One World posteriormente renomeou parte do Yi-34B e reconheceu publicamente a contribuição do Llama. Kai-Fu Lee também se desculpou publicamente pela negligência anterior.

Em entrevista ao meio de tecnologia The Information, Kai-fu Lee falou sobre o futuro do Zero One Thing e as tendências da indústria de inteligência artificial da China. Ele também falou sobre como lidar com as restrições à exportação de chips dos EUA e como as empresas chinesas procuram oportunidades de negócios em todo o mundo.

A seguir está o texto completo da entrevista:

P: Existem atualmente dezenas de empresas na China competindo para desenvolver grandes modelos de linguagem. O que acontecerá a seguir?

Kai Fu Lee:Na minha opinião, esta situação é comum na China há muito tempo. Por exemplo, a tendência de compra em grupo, o aumento de aplicações de bicicletas compartilhadas e até mesmo no campo da tecnologia profunda, como visão computacional e tecnologia de reconhecimento de fala. Quando a visão computacional provou seu valor, inúmeras empresas chinesas correram para tentar obter uma fatia do bolo em todas as aplicações possíveis. No entanto, a maioria das empresas não sobreviveu.

Hoje, o campo da inteligência artificial da China ainda está em fase de qualificação e a concorrência é extremamente acirrada e pode até ultrapassar os Estados Unidos. Em primeiro lugar, o teste que temos de enfrentar é: na competição entre centenas de escolas de pensamento, qual empresa pode desenvolver um modelo verdadeiramente de alta qualidade e valor? Somente com tecnologia forte e excelente desempenho do modelo podemos nos destacar em aplicações práticas. Caso contrário, a tecnologia só poderá ser reduzida a um “brinquedo” e não poderá realmente resolver o problema.

Depois de passar no teste técnico preliminar, a empresa entrará na próxima etapa: como aumentar o valor do negócio? Qual é o seu modelo de negócios? Como ganhar dinheiro? Em breve, os investidores farão as mesmas perguntas que os fornecedores de nuvem, as empresas de software empresarial e as aplicações de consumo. Se as empresas não conseguirem encontrar respostas claras, o seu crescimento chegará ao fim.

Tomando os Estados Unidos como exemplo, a OpenAI provou a sua liderança tecnológica ao mesmo tempo que é capaz de gerar receitas. Essa criação de valor faz com que outras empresas estejam dispostas a investir recursos nela e a construir aplicações em cima dela.

Na China, acabarão por surgir alguns grandes vencedores e algumas empresas poderão sair do mercado com dignidade. Mas a maioria das empresas desiste a meio caminho ou volta-se para objectivos mais práticos, como a construção de aplicações e soluções para indústrias específicas, em vez de simplesmente prosseguirem o desenvolvimento de grandes modelos. Com o tempo, o custo do desenvolvimento de modelos grandes continuará a aumentar.

P: As startups chinesas de IA e seus investidores afirmam que a China desenvolverá seu próprio ecossistema para modelos e aplicações generativas de IA. o que você acha?

Kai Fu Lee:Todos nós entendemos que universos paralelos não são o que queremos ver. Preferimos competir em escala global e deixar que se destaquem as empresas que realmente se destacam, o que é mais eficiente. Mas a realidade é que não podemos controlar totalmente o nosso próprio destino.

Principalmente questões geopolíticas. Se quiséssemos entrar no mercado dos EUA, não existe nenhuma regra que diga que não podemos entrar, mas não creio que conseguiríamos muitos negócios. Porque, na minha opinião, o atual mercado dos EUA tem um preconceito injusto contra o software chinês. Esta é a realidade que temos que enfrentar.

É claro que estamos abertos a oportunidades de negócios em outras partes do mundo, mas sabemos que algumas coisas simplesmente não funcionam. Por exemplo, é quase impossível vender os nossos modelos proprietários a empresas americanas. Eles não vão comprar e não faremos isso em vão.

A China representa obviamente uma enorme oportunidade, mas não excluiria outras partes do mundo onde as empresas chinesas poderiam entrar. No geral, a abordagem de Silicon Valley é “tamanho único”, um modelo que desempenhou um papel fundamental na ascensão de empresas como o Facebook e o Google e ajudou os Estados Unidos a ganhar domínio. Mas desta vez é diferente porque os grandes modelos de linguagem são treinados em dados. Os dados abordam questões de preconceito, ideologia e valores. Os valores americanos não são populares em todos os países, não apenas na China, e mesmo alguns países não conseguem aceitá-los de todo.

Penso que o Médio Oriente poderá ser outra região que queira pensar sobre as coisas de forma diferente. Isto leva os países a quererem mais controlo sobre os modelos.

Acredito fortemente que é possível construir modelos com especificidades para diferentes países. As empresas do Vale do Silício não farão isso porque acham que seus valores estão corretos e querem que mais pessoas os aceitem e se integrem a eles. Além disso, a construção de diferentes modelos grandes para diferentes mercados requer muito trabalho de engenharia, pelo que as empresas de Silicon Valley estão naturalmente relutantes em investir no desenvolvimento destes modelos. E empresas de outras partes do mundo, incluindo a China, poderão ter a oportunidade de se aprofundar neste modelo. Mas é evidente que devem conquistar a confiança dos utilizadores e dos governos.

P: Alguns meios de comunicação relataram que sua empresa reduziu com sucesso o custo do treinamento em inteligência artificial para o Yi-34B. Como você fez isso?

Kai Fu Lee:Temos uma equipe de infraestrutura super forte, que é a maior equipe da nossa empresa. Já disse aos funcionários que cada vez que um modelador é adicionado, a carga sobre a unidade de processamento gráfico será maior; mas com cada pessoal de infra-estrutura adicionado, a eficiência da unidade de processamento gráfico será melhorada. Claro que a equipe de modelagem também é importante, mas desde o início demos atenção especial à construção da equipe de infraestrutura.

Os membros dessas equipes de infraestrutura são como heróis desconhecidos. Eles precisam lidar com hardware, software e transferências massivas de dados. Eles precisam lidar com unidades de processamento gráfico, memória e redes ao mesmo tempo. Qualquer um desses três pode se tornar um gargalo. Você sabe, será difícil dimensionar a unidade de processamento gráfico para mais do que alguns milhares. Quando o número de nós aumenta de 2.000 para 8.000, isso não pode ser feito simplesmente usando software. Como o modelo e o volume de dados são grandes, os requisitos da rede mudarão drasticamente.

Existem dezenas de engenheiros em nossa equipe de infraestrutura, que atualmente é a maior equipe do Zero One Thing. Eles têm que estudar como usar o FP8 (formato de dados do chip NVIDIA H100) para reduzir significativamente a quantidade de cálculos, o que não é uma tarefa fácil. Eles tiveram que descobrir onde usar o FP8 e onde usar outros formatos, e garantir que a transição entre eles fosse perfeita. Além dessas, eles também têm que resolver uma série de dores de cabeça, como qual protocolo de rede deve ser utilizado, como otimizar o compilador, como lidar com falhas nas unidades de processamento gráfico, etc. Se uma unidade de processamento gráfico falhar, ela poderá ser trocada a quente? Ainda estamos trabalhando nesta questão. Pense nisso: se em um cluster com milhares de unidades de processamento gráfico, seu treinamento parar por uma hora porque uma unidade de processamento gráfico quebrou, se ela puder ser trocada a quente, você poderá economizar uma hora todos os dias! Essas horas podem aumentar.

Outro tópico relacionado é o treinamento de flexibilidade. Digamos que você tenha um cluster de 2.000 chips H100 e precise apenas de 500 para executar uma determinada tarefa. Você pode movê-los entre pontos de verificação e adicioná-los novamente? Essas tarefas não são trabalho de pesquisadores de inteligência artificial, são mais trabalho de engenheiros de rede.

Se o desenvolvimento de grandes modelos de linguagem for comparado à ciência de foguetes, seria como um foguete que nunca voaria sem engenheiros. O sucesso da SpaceX não se deve apenas ao fato de ter um grande número de pesquisadores, mas também porque realiza muitos trabalhos de engenharia supercomplexos. Da mesma forma, nossa equipe de infraestrutura são nossos “engenheiros” cujo trabalho permite que nossos grandes modelos de linguagem decolem sem problemas!

P: Os Estados Unidos restringem a exportação de tecnologia avançada de semicondutores para a China, incluindo chips avançados da Nvidia. Como Zero One e All Things responderam?

Kai Fu Lee:Eu disse publicamente que temos estoque de chips suficiente para durar 18 meses. Esses são basicamente os chips que recebíamos antes da implementação das restrições. Definitivamente, estamos trabalhando em como usar chips chineses. Mas não é fácil e nunca é divertido. Programá-los não é um território familiar. Mas se tivermos que fazer isso, não recuaremos.

A Nvidia tem chips muito bons, mas pode-se argumentar que um chip mais simples poderia fazer o trabalho a um custo menor. Mas um fator importante por trás da força da Nvidia é todo o ecossistema que envolve sua biblioteca de software CUDA, que facilita a programação. Se você forçar os engenheiros a usar chips que não sejam da Nvidia, eles poderão se opor porque esses chips são muito menos eficientes. Mas as dificuldades que enfrentamos agora só se tornarão evidentes daqui a 18 meses e temos de começar a agir mais cedo. Se não conseguirmos os chips da Nvidia, procuraremos chips mais simples e mais focados em conversores, mas serão difíceis de programar. Mas se não tivermos escolha, então temos que fazê-lo.

Mas todos sabem que os engenheiros chineses são capazes, dispostos e excelentes em lidar com o que é considerado um difícil desafio de engenharia. Isto é semelhante ao que eu disse anteriormente sobre o trabalho da equipe de infraestrutura. Aprender a programar uma nova GPU fora do padrão com poucas bibliotecas também dá muito trabalho.

Os empresários chineses são tenazes. Os engenheiros chineses são muito trabalhadores. Eles não têm medo do trabalho duro. É por isso que a Meituan oferece serviços excelentes e o WeChat é um produto excelente. Na verdade, temos muitos desafios difíceis pela frente, e pode-se argumentar que são uma perda de tempo e de muita energia das pessoas. Mas estas são as cartas que recebemos, então faremos o nosso melhor para jogá-las.

Artigos relacionados:

A empresa de IA de Kai-fu Lee, "Zero One Everything", modelo grande Yi de código aberto, foi acusada de plagiar LLaMA