Qianwen Qwen-Image-2.0 lançou infográfico de renderização de super texto PPT fácil de fazer

Hoje, o Alibaba lançou oficialmente o Qwen-Image-2.0, um modelo de geração e edição de imagens de nova geração.Como base do modelo de geração de imagens do modelo grande de Qianwen, Qwen-Image-2.0 integra geração e edição de imagens. Ele marcou 1.029 pontos na avaliação de geração de imagens AI Arena, superando modelos como Seedream4.5 e Flux2-Max, e perdendo apenas para Google Nano Banana Pro e GPT Image1.5.

Qwen-Image-2.0 suporta entrada de texto ultralongo de token de 1K e alta resolução de 2K. Ele pode renderizar instruções complexas com precisão e gerar facilmente PPTs e infográficos profissionais. A qualidade é comparável à dos fotógrafos profissionais. Ao mesmo tempo, Qwen-Image-2.0 possui capacidades de renderização de caracteres chineses extremamente fortes, e o texto completo de centenas de textos antigos pode ser quase totalmente renderizado na imagem.

Qwen-Image-2.0 é uma nova atualização baseada nos dois modelos principais de Qwen-Image e Qwen-Image-Edit. Pela primeira vez, a geração e edição de imagens são unificadas em um modelo. Com uma arquitetura de modelo mais leve, o desempenho da geração e modificação de imagens é bastante melhorado.

A textura das imagens geradas pelo Qwen-Image-2.0 é particularmente delicada, variando desde as rugas de um velho até a vastidão do universo. Imagens comumente usadas de pessoas, natureza, edifícios, etc. geradas pelo modelo são extremamente realistas.

Na avaliação oficial da AI Arena, o novo modelo de Qianwen obteve 1.029 pontos na geração de imagens, ficando em terceiro lugar; obteve 1.034 pontos em edição de imagens, perdendo apenas para Nano Banana Pro.

Em termos de renderização de caracteres chineses, o Qwen-Image-2.0 tem um desempenho extremamente bom. Ele não apenas pode renderizar caracteres chineses com precisão em uma variedade de fontes, mas também pode escrever muitos e com precisão, e o efeito é melhor do que o Nano Banana Pro.

O novo modelo de Qianwen expande as palavras de prompt de entrada para tokens de 1K, que podem descrever tarefas em detalhes, obter renderização de texto mais profissional e lidar facilmente com imagens complexas, como PPTs profissionais, pôsteres avançados e quadrinhos multiquadro. Por exemplo, as centenas de palavras das ilustrações de texto completo de "O Prefácio à Coleção Lanting" são quase completamente renderizadas em pequenas fontes regulares, e PPTs complexos com ilustrações em formato de ensaio são gerados em linguagem natural.

Com base no modelo Qwen-Image-2.0, os usuários podem colaborar com a IA para criar imagens mais ricas e práticas, como um fluxograma para gerar frango Kung Pao em uma frase, um guia de viagem de dois dias para Hangzhou, uma imagem de grupo de quadrinhos multi-frame 4x6, uma imagem de livro infantil, um pôster de filme em estilo realista, uma selva verde extremamente realista, etc.;

Ao mesmo tempo, os usuários também podem fazer upload de diversas imagens para edição para gerar selfies com múltiplos gestos, emoticons com pessoas reais, fotos realistas de IA de duas pessoas, poemas com imagens, etc.