Manus retirou-se recentemente do mercado chinês, limpou o conteúdo da sua conta social nacional e mudou-se para os mercados estrangeiros com toda a sua força. A explicação oficial foi que o motivo se baseava principalmente no ajuste da eficiência operacional e do layout internacional. Em 19 de julho, horário de Pequim, o cofundador da Manus, Ji Yichao, publicou um blog técnico, respondendo pela primeira vez de uma perspectiva técnica, resumindo as experiências e lições aprendidas em P&D e treinamento de agentes desde a fundação da empresa.


Do ponto de vista técnico, Ji Yichao disse que Manus se concentrará na engenharia de contexto e alcançará uma iteração rápida do produto com a ajuda de "memória" estrutural e processos. Inclui principalmente apostar no contexto, não mais treinar modelos, enfatizar a importância da taxa de acerto do KV-Cache (Key-Value Cache, um mecanismo de cache), não adicionar ferramentas dinamicamente e usar o sistema de arquivos para hospedar contexto persistente. O núcleo é economizar o custo de treinamento do modelo subjacente e focar na melhoria da eficiência do treinamento.

Em modelos grandes, o contexto geralmente se refere à coleção de informações à qual o modelo se refere ao processar tarefas ou gerar conteúdo de saída. Pode ajudar o modelo a melhorar sua compreensão, melhorar o desempenho das tarefas e aumentar a coerência dos resultados. Anteriormente, o fundador do Dark Side of the Moon Kimi, Yang Zhilin, enfatizou a importância do contexto em uma entrevista. Ele disse que o valor final dos produtos Ai-native (forma de produto definida pela IA) é fornecer interação personalizada, e o contexto longo sem perdas (LosslessLongContext) é a chave para atingir esse objetivo. Ele julgou que o ajuste fino do modelo não deveria existir no longo prazo. O histórico de interação entre o usuário e o modelo é o melhor processo de personalização, e a tecnologia de contexto longo pode registrar e utilizar melhor esses históricos de interação.

Além disso, a taxa de acertos do KV-Cache é crucial, principalmente porque uma alta taxa de acertos pode melhorar a eficiência da inferência, otimizar a utilização de recursos e reduzir custos de computação. Com base nisso, o KV-Cache é frequentemente chamado de núcleo de eficiência da fase de inferência do modelo do Transformer.

Optar por melhorar a eficiência do treinamento a partir dos aspectos acima, em vez de partir do modelo subjacente, é uma lição que Ji Yiguo aprendeu ao longo dos anos. Ele disse que quando fundou sua última empresa (Peak Labs), a equipe decidiu treinar modelos para extração aberta de informações e busca semântica do zero, mas logo depois surgiram os modelos GPT-3 da OpenAI e Flan-T5 do Google, e os modelos internos desenvolvidos pela equipe do zero tornaram-se irrelevantes da noite para o dia. "Ironicamente, esses modelos marcam o início da aprendizagem contextual e um novo caminho a seguir." Ji Yichao disse.

Com base nas lições anteriores, após iniciar o Manus, a equipe não investiu mais em pesquisa e desenvolvimento de modelos básicos, mas escolheu entre usar modelos básicos de código aberto para treinar agentes ponta a ponta e construir agentes com base nas capacidades de aprendizagem de contexto de modelos de ponta. Embora as lições aprendidas no Peak Labs tenham feito a equipe da Manus perceber a importância do contexto, não foi fácil. Foram necessários quatro ajustes na estrutura do Agente para alcançar a solução ideal local.

Porém, deve-se destacar que esta estratégia ainda apresenta limitações, principalmente quando nos deparamos com o Agente ChatGPT recém-lançado pela OpenAI. A principal razão é que o ChatGPT Agent depende do modelo dedicado da OpenAI e adota treinamento ponta a ponta, que pode lidar melhor com tarefas complexas. Embora Manus possa melhorar a eficiência, ele ainda depende da combinação externa de vários modelos e da otimização de engenharia, e é ligeiramente inferior em termos de consistência e precisão na execução de tarefas.

Além disso, quando a Manus entrou no mercado internacional, a OpenAI levou a indústria de agentes a um ponto de inflexão com as vantagens do modelo subjacente, atraindo mais desenvolvedores e usuários para as plataformas dos principais fabricantes. Embora as startups tenham espaço para sobreviver em campos verticais, ainda enfrentam inevitavelmente o desafio de competir por quota de mercado. Especialmente quando os produtos dos agentes enfrentam atualmente dificuldades como grande homogeneidade, modelos de negócios pouco claros e custos elevados, os destaques na engenharia contextual e outros aspectos não são suficientes para que as startups se destaquem. A equipe ainda precisa continuar otimizando estratégias técnicas e explorando caminhos de desenvolvimento diferenciados.