Na quarta-feira, a OpenAI acaba de anunciar o levantamento da proibição dos recursos multimodais do ChatGPT. Agora, assim que fica online, os internautas enlouquecem instantaneamente. A seguir, vamos dar uma olhada em quão fortes são os recursos de reconhecimento de imagem do ChatGPT.

01

Tire uma foto e carregue-a, e o código será gerado instantaneamente

Um internauta gravou um vídeo e carregou uma imagem no quadro branco durante uma reunião e depois pediu ao ChatGPT para escrever o código.


Além disso, você pode fazer upload de um esboço desenhado à mão e pedir ao ChatGPT para criar uma página da web em HTML.


Whoosh whoosh, o código saiu a cada minuto.

Esta é simplesmente a capacidade multimodal demonstrada por Greg Brockman quando o GPT-4 foi lançado este ano.


Para outro exemplo, tire uma foto do seu caderno de tarefas.


Então deixe o GPT-4 fazer um PythonTkinterGUI, e então ele foi implementado...


02

Manuscritos de pergaminhos antigos, traduzidos rapidamente

Aqui está outro manuscrito do alquimista do século XVII Robert Boyle. O GPT-4 pode lê-lo?


Isto é moleza para isso.


Em, por exemplo. "Manual Medicinal Catalão sobre Múmias Medicinais".


ChatGPT também pode transcrever e traduzir.


Benjamin Breen, professor associado de história da UCSC, disse:

Isso terá um impacto significativo sobre os historiadores. Imagine um GPT-4 multimodal personalizado treinado em um conjunto específico de manuscritos. Pode não apenas transcrever, mas também traduzir e classificar. (É isso, escrever sem LLM, que é importante na minha opinião).


03

O resumo do gráfico também é muito bom 6

Você também pode comandar o GPT-4 para extrair dados com base no gráfico.


O código Python pode então ser criado para replicar o gráfico e torná-lo mais parecido com um gráfico.


Em seguida, jogue o gráfico de tendências de ações nele, e ele também poderá analisar e resumir as características.


04

Ler imagens “tem um QI superior”

Dê ao GPT-4 uma imagem abstrata.

Na verdade, ele pode identificar com precisão a metáfora da “importância da comunicação” que essas quatro imagens desejam expressar. Isto é ultrajante.


O GPT-4V pode até ler a caligrafia dos médicos.



Alguns internautas japoneses usaram diretamente Sun Wukong de "Dragon Ball" para fazer o teste ChatGPT.


Existem também vários códigos de verificação “você é humano”.


Faça upload de um trabalho seu e o GPT-4 também poderá fornecer sugestões de melhorias.


Alguns internautas descobriram que o GPT-4V deu a resposta correta a esta pergunta no artigo do Kosmos-1, mas houve um erro no processo de raciocínio.


Com esse recurso, as crianças não precisam mais fazer lição de casa.


05

Grande resumo dos internautas

Além da experiência acima, alguns internautas escreveram um longo artigo apresentando seu próprio teste do GPT-4V.


Teste um:Perguntas e respostas visuais

Dê-me um emoticon e veja se o GPT-4V o entende bem?


GPT-4V explica com sucesso porque é interessante e menciona os componentes individuais da imagem e como eles estão conectados.

É importante notar que o GPT-4V é capaz de ler e responder aos comentários fornecidos entre colchetes.

Mesmo assim, o GPT-4V cometeu um erro ao rotulá-lo de “NVIDIABURGER” em vez de “GPU”.

Depois, teste novamente com uma moeda, uma foto de um centavo americano. O GPT-4V é capaz de identificar com sucesso a origem e a denominação da moeda.


Mas se for uma imagem de várias moedas e perguntar GPT-4V, quanto dinheiro eu tenho?

Neste ponto, ele só consegue identificar o número de moedas, mas não o tipo de moeda.


Teste 2: reconhecimento de OCR

Capture imagens de texto de páginas da web e carregue-as. GPT-4V pode ler o conteúdo muito bem.


Teste 3: OCR matemático

OCR matemático é uma forma especial de reconhecimento óptico de caracteres voltada para equações matemáticas.

Um internauta perguntou ao GPT-4V um problema matemático e o apresentou na forma de uma captura de tela do documento.

Este problema envolve calcular o comprimento de uma linha de zíper dados 2 ângulos, com o prompt "resolva" na imagem.



O modelo identifica problemas que podem ser resolvidos usando trigonometria, identifica as funções a serem usadas e fornece um passo a passo de como resolver o problema. O GPT-4V fornece então a resposta correta à pergunta.

Dito isto, a placa do sistema GPT-4V afirma que o modelo pode estar faltando símbolos matemáticos.

Diferentes testes, incluindo testes com equações ou expressões escritas à mão no papel, podem indicar a capacidade insuficiente de um modelo para responder a questões matemáticas.

Teste 4: Detecção de Objetos

Deixe o GPT-4V detectar um cachorro em uma imagem e fornecer valores x_min, y_min, x_max e y_max relacionados à posição do cachorro. As coordenadas da caixa delimitadora retornadas pelo GPT-4V não correspondem à posição do cão.


Embora o GPT-4V seja muito poderoso para responder a perguntas sobre imagens, este modelo não pode substituir o ajuste fino dos modelos de detecção de objetos quando você deseja saber onde um objeto está na imagem.

Teste 5: Código de verificação

Descobriu-se que o GPT-4V é capaz de reconhecer imagens contendo códigos de verificação, mas muitas vezes falhou no teste.

Em um exemplo de seleção de grades de semáforos, o GPT-4V selecionou menos grades contendo semáforos.


Teste 6: palavras cruzadas e sudoku

No teste de Sudoku, o GPT-4V reconheceu o jogo, mas entendeu mal a estrutura do tabuleiro e, portanto, retornou resultados imprecisos.


A propósito, a função de rede ChatGPT está de volta.