Dê a si mesmo um feriado. O ChatGPT é atualizado tão rápido que a imaginação dos internautas não consegue acompanhar. Na segunda-feira, o ChatGPT anunciou uma grande atualização com recursos multimodais abrangentes. No futuro, se você sentir que há algo errado com a bicicleta no caminho para casa depois do trabalho em uma bicicleta compartilhada, você pode tirar uma foto da peça e perguntar diretamente.
Então você chega em casa e olha sua coleção de geladeiras sem noção, e o ChatGPT pode lhe dizer quais itens escolher para o jantar.
Depois de comer e ir para a cama, se ainda não estiver com sono, também pode lhe fornecer alguns serviços ASMR, caso você esteja cansado de ouvir aqueles blogueiros no Bilibili ou no YouTube.
Em setembro de 1985, Calvino, que escreveu "Cidades Invisíveis", morreu de um derrame repentino. No verão deste ano, ele procurou ajuda médica por causa de dores de cabeça. O cirurgião disse que nunca tinha visto um cérebro tão complexo e delicado.
ChatGPT começou como um cérebro incrivelmente bonito – e invisível – mas agora finalmente tem olhos, ouvidos e boca.
Internautas de todo o mundo: Vamos, vamos fazer gestos.
Fonte: Twitter
Alguém experimentou e basicamente pode desenvolver projetos de software para terceiros.
O nascimento de um projeto de software é mais ou menos assim: primeiro desenhe um wireframe no quadro branco, resolva a lógica do arranjo, depois comece a escrever o código e, finalmente, gere a interface. Agora, neste assunto, o trabalho no quadro branco pertence a você, e deixar o quadro branco pertence a ele.
Um desenvolvedor tirou uma foto de seu wireframe e jogou no ChatGPT, e ele escreveu o software diretamente.
Ele também fez alguns pequenos truques, como substituir a posição do arranjo por setas irregulares. ChatGPT não apenas viu, mas também aceitou.
Provavelmente ainda subestimamos o que a multimodalidade trará.
O desenvolvimento da inteligência artificial e da inteligência humana é oposto aqui. Os seres humanos primeiro têm olhos e, depois de verem o mundo, formam a linguagem e a lógica, que por sua vez podem descrever e compreender melhor o mundo que vêem. O aprimoramento da inteligência humana nos últimos 6 milhões de anos tornou-se uma gigantesca fornalha de aprendizado de máquina.
Já o ChatGPT já possui o melhor nível de inteligência e consegue entender muitas coisas. O que o limita é a compressão das informações por texto, o que o impossibilita de acessar problemas mais complexos. O que acontece quando você dá um par de olhos a esse cérebro. Ou seja, é permitido ver as informações da imagem diretamente e a capacidade de desmontar problemas começa a explodir.
Alguém forneceu ao ChatGPT um diagrama de interface de um software SaaS e pediu-lhe que o dividisse em pequenos componentes e escrevesse todo o código, o que foi feito.
Você pode até fornecer uma captura de tela aproximada da interface de edição do Unity e solicitar que forneça um processo para adicionar ações de modelo.
Fonte: Twitter
Depois de abrir as capacidades multimodais, as capacidades de compreensão e raciocínio do ChatGPT tornaram-se mais intuitivas, até um pouco assustadoras.
Reserve um minuto e veja se consegue entender o significado deste conjunto de imagens:
Fonte: Twitter
Esta é a interpretação do ChatGPT:
Fonte: Twitter
“Este conjunto de quadrinhos parece enfatizar a importância da comunicação, compreensão e alinhamento em equipe.” ChatGPT concluído no final.
Esse tipo de entendimento chocou Pietro Schirano, engenheiro de IA que trabalhou no Facebook e no Uber, e ficou sem palavras.
Além dos olhos, existem ouvidos e boca.
Por trás desta atualização do ChatGPT, a capacidade de reconhecimento de fala é baseada no modelo Whisper de código aberto, e a capacidade de geração de som é baseada em um modelo TTS (text-to-speech) adicional. Atualmente, a síntese de fala suporta cinco vozes, todas produzidas em cooperação com dubladores profissionais.
Mas ver o ChatGPT em dois celulares discutindo na sua frente, sobre "Algum usuário tentou cantar karaokê com você?" - não está perguntando a você, está perguntando a outro - parece estar um pouco à frente de seu tempo.
Além disso, parece ter potencial para ser psiquiatra. Lilian Weng, membro da equipe de segurança OpenAI, teve uma conversa privada muito emocionante com ChatGPT em modo de voz, falando sobre estresse e equilíbrio entre vida pessoal e profissional.
“O engraçado é que me sinto ouvida e calorosa”, disse Lilian Weng no Twitter. Ela sugeriu que se você usar isso apenas como ferramenta de produtividade, é melhor experimentar seu lado mais delicado.
Fonte: Twitter
Quanto à evolução do ChatGPT em si, a abertura das capacidades multimodais que foram treinadas em 2022 também estabelece uma nova base para a evolução futura.
O arquiteto-chefe do ChatGPT, John Schulman, disse em um podcast há um mês por Pieter Abbeel (mentor de John Schulman quando ele estava se concentrando no aprendizado por reforço durante seu doutorado na Universidade da Califórnia, Berkeley) que ele sentia que as melhorias de desempenho trazidas pelos dados existentes e métodos de escalonamento de modelo podem atingir o limite após um período de tempo. Depois disso, as melhorias trazidas por algoritmos, conjuntos de dados, tamanhos de conjuntos de dados e poder computacional diminuirão gradualmente.
"Portanto, adicionar recursos multimodais trará enormes melhorias de desempenho. Isso permite que o modelo obtenha conhecimento que não pode ser obtido a partir de texto e potencialmente domine tarefas que os modelos de linguagem pura não podem realizar. Por exemplo, os modelos podem obter enormes benefícios assistindo a vídeos interagindo com o mundo físico ou mesmo com telas de computador. Todo o software é projetado para humanos, e se o modelo puder observar pixels e entender o vídeo, podemos usar todos os tipos de software existentes ou ajudar as pessoas a usá-lo. Dar ao modelo novos recursos e permitir que o modelo interaja com coisas novas aumentará muito as capacidades reais do modelo."
Então, o que o ChatGPT pode fazer no próximo mês? Estou ansioso por isso.