D Deus está no ar de novo? Verdadeiro ou falso? Deepseek vem segurando isso há muito tempo e recentemente ele finalmente começou a liberar. Na semana passada, eles lançaram discretamente o V4, seguido por dois grandes cortes de preços. . Liang Shen, você veio para salvar todos os seres sencientes novamente? Como resultado, hoje veio de repente e me empurrou uma onda de testes cinzentos: DeepSeek, que possui recursos multimodais. Para ser mais preciso, é o reconhecimento de imagem.
Depois de verificar o cartão, é verdade.

Quem quiser experimentar algo novo pode abrir seu DeepSeek agora e dar uma olhada.
Se houver um "modo de reconhecimento de imagem" na interface, parabéns, você é o sortudo que foi testado internamente e pode comprar diretamente a versão multimodal real do V4 gratuitamente.
O próprio pesquisador do DeepSeek, Chen Xiaokang, não pôde deixar de postar uma postagem. Nós, baleias, finalmente temos olhos e não somos mais os monges cegos do servidor nacional!

Por que todos estão tão animados? Na verdade, o DeepSeek é criticado há muito tempo por não possuir multimodalidade. Os três gigantes estrangeiros ChatGPT, Gemini e Claude há muito têm capacidades multimodais. Modelos nacionais como Doubao e Qianwen também se saíram muito bem.
Quanto a esta luz produzida internamente que tem grandes esperanças, ela não conseguiu reconhecer nem mesmo uma imagem por tantos anos. Só pode contar com OCR, ou seja, para reconhecer o texto da imagem. A experiência de uso é muito ruim.
Agora, essa lacuna foi finalmente preenchida.
Sem mais delongas, vamos direto ao teste.
Em primeiro lugar, ele elimina o OCR tradicional e pode realmente ver a imagem completa. Você pode ficar tranquilo quanto a isso.
Por exemplo, se fornecermos um pedaço de texto que diz "Esta é uma linha de texto vermelho" escrito em azul, se usarmos apenas o OCR tradicional, ele só poderá reconhecer que o texto é "Esta é uma linha de texto vermelho" e nunca reconhecerá que é azul. (Pode até ser irreconhecível)

Depois de ativar o modo visual, ele pode identificar com precisão que se trata de uma linha de letras azuis e vermelhas, e até sentiu meu humor.

Além disso, também possui recursos de raciocínio visual.
Vocês já viram esse meme? Acredito que com a minha inteligência posso entender definitivamente o que está escrito na imagem.

Então enviei para DeepSeek e pedi para me ajudar a analisar os pontos engraçados.
Depois de pensar sobre isso, não apenas descobriu, mas também fez uma tradução localizada de “Golden Dalia”, “Silver Dalia” e “Copper Dalia”. Isso me fez rir.

Então enviei uma foto aleatória tirada por um colega enquanto dirigia. Na verdade, estava bastante embaçado e apenas algumas informações sobre aparência e efeitos de iluminação puderam ser analisadas.

Como resultado, adivinhou que o carro era de fato um Subaru, e levou 13 segundos para pensar sobre isso e chegou à conclusão.

Considerando que o Professor D é um especialista em matemática, enviamos a ele outro meme relacionado à matemática. Para ser sincero, Shichao quase não entendeu. Era o sogro de seu irmão.

A explicação do professor D ainda é perfeita.
Além de entender operações simples, até viu vários homófonos nele: tirar a parte real significa retirar o número imaginário “i”, que significa retirar o “Olho”, que significa retirar os olhos. O triângulo invertido é o gradiente, que é “Grad”, que é quase igual a “Graduate”, então coloquei um chapéu de solteiro na minha carinha.
Aqueles que esqueceram seus conhecimentos matemáticos podem revisá-los palavra por palavra.

A propósito, também testei alguns problemas na vida, como onde inserir este plugue de 3,5 mm.

Onde devo conectar esta porta USB quadrada?

Embora seja muito simples, ele pode entender minhas fotos aleatórias quando não estou em foco e pode ser considerado competente para as tarefas diárias.
Mas, na verdade, de acordo com os testes reais de Shichao, a versão atual do Professor D não é invencível.
Por exemplo, demos uma foto, uma vista noturna muito bonita da terra.

DeepSeek também viu isso com bastante clareza e disse que esta foto veio da Estação Espacial Internacional.

Mas, na verdade, se você virar a foto e olhar para ela, verá que Esta foto é uma foto da cidade sob o pôr do sol. Esta é uma perspectiva invertida...
Então joguei para Gemini, um reconhecido especialista multimodal... e ele realmente viu. Não, você é tão forte mesmo que tenha perdido o juízo?

Ainda não consegui fazer o rei da multimodalidade dar o seu melhor, Haji Whale.
Inclui o reconhecimento de alguns rostos e ocasionalmente apresenta problemas. Por exemplo, joguei nele a foto de um pufe, e o que ele reconheceu para mim foi, bem, Luo Xiang, o líder UP da estação B.

Existe também este problema clássico de ilusão de ótica. As duas bolas obviamente não são do mesmo tamanho, certo? Como resultado, o Professor D pensou sobre isso e me disse que as duas bolas eram do mesmo tamanho.

Mas também dei uma olhada em seu processo de pensamento. Na verdade, já tinha visto que a bola da direita era maior, mas por ter lido a pergunta com atenção, sentiu que se tratava de uma ilusão que lhe foi dada, então optou por se enganar e disse que eram do mesmo tamanho. . Talvez o aprendizado por reforço seja muito forte.

A avaliação abrangente pode lhe dar uma dualidade de fantasma e deus. Quando você soca, você soca, e quando você puxa, está pronto. .
Mas, novamente, o DeepSeek acabou de ganhar olhos, então ainda temos que dar algum tempo para ele se adaptar a este mundo.
Finalmente, a atual batalha dos gigantes da IA há muito ultrapassou o estágio da vila de novatos, onde se tratava apenas de pontuações em execução e recursos de saída de texto.
Nível de codificação, recursos multimodais, suavidade das ferramentas de chamada, etc., são basicamente indispensáveis.
Mas a ausência do professor Big D anterior em capacidades multimodais sempre me fez sentir pena. Parece que todos estão cantarolando e trabalhando, mas as capacidades do agente do DeepSeeK são bastante reduzidas devido à falta de braços e olhos.
Afinal, a maioria dos modelos e APIs atuais são multimodais ou, pelo menos, possuem recursos de entrada de imagem.

Também esperamos que o DeepSeek possa atualizar os recursos multimodais de reconhecimento de imagem para a API do novo modelo V4 o mais rápido possível.
Sabe, antes de ser vendado, eu já havia lutado contra muitos oponentes. . Agora tire a venda, espera-se que o desempenho de ferramentas como Claude Code, Lobster, Cowork, etc.
Além disso, a julgar pela frequência com que o DeepSeek sopra bolhas para aumentar a presença durante este período, estima-se que ainda haja muitos combos esperando para serem executados.
Chega de conversa, vamos assistir a atuação do Professor D.