OpenAI anunciou oficialmente o lançamento do ChatGPT multimodal, que pode ver, ouvir e falar

Na noite de segunda-feira, horário de Pequim, a OpenAI, uma conhecida startup na área de inteligência artificial, divulgou um relatório intitulado "ChatGPT agora pode ver, ouvir e falar", anunciando que esse recurso será oferecido aos usuários pagantes nas próximas duas semanas. Na coletiva de imprensa do GPT-4 em março deste ano, a cena mais chocante deveria ser que Greg Brockman, o presidente da OpenAI, pegou um pedaço de papel de rascunho e desenhou um esboço, tirou uma foto e deixou o GPT-4 gerar o código para este site em 10 segundos.

(Fonte: OpenAI)

ChatGPT lançou anteriormente uma função de "intérprete de código" que pode fazer upload de imagens e possui alguns recursos preliminares para processar imagens e fotos de texto. Mas não há dúvida de que o “tirar fotos e fazer perguntas” de hoje está mais próximo dos cenários de uso do assistente de IA da maioria dos usuários.

Tire uma foto da geladeira e diga o que comer esta noite

Em ordem de título, há dois recursos principais atualizados hoje:Conversas baseadas em imagens e conversas de voz em tempo real.

Vamos falar primeiro sobre a função de bate-papo com imagens que atraiu muita atenção. De acordo com OpenAI, os usuários agora podemTire uma foto da sua geladeira e deixe o ChatGPT recomendar receitas; enquanto viajaTire uma foto de um ponto de referência e deixe o ChatGPT contar o que há de interessante sobre o local. Claro, você também pode tirar uma foto de um problema de matemática e deixar o ChatGPT respondê-lo.

No exemplo oficial, ChatGPT recebe umUma foto da moto e perguntei como ficouAssento rebaixado. Aí o ChatGPT disse que depende do modelo do seu carro. Alguns carros possuem hastes de liberação rápida e alguns são fixados com parafusos e, em seguida, fornecem etapas detalhadas.

Aí o funcionário fingiu não entender e tirou uma foto do ferrolho.Ele circulou com a ferramenta de desenho oficial para dar ênfase e depois perguntou ao ChatGPT se era uma alavanca de liberação rápida. ChatGPT disseEste é um parafuso, então você precisa encontrar uma chave Allen.

Em seguida, o funcionário tirou outra foto da caixa de ferramentas e perguntou ao ChatGPT qual era a chave. O ChatGPT também reconheceu com sucesso a chave inglesa e perguntou ao usuário exatamente qual tamanho escolher.

ChatGPT pode falar!

Além disso, o OpenAI também inclui funções de reconhecimento de fala, transcrição e geração de áudio e lançaFunção de bate-papo por voz AI, esta função está disponível apenas para clientes iOS e Android. Autoridades disseram que os usuários podem usar esta função para contar histórias de ninar para crianças em casa. Ou quando você está fazendo uma refeição em casa e de repente começa uma discussão sobre um determinado assunto, você pode colocar o ChatGPT na área de trabalho para resolver a discussão.

De acordo com a OpenAI, esse recurso usa o sistema de reconhecimento de fala de código aberto Whisper para transcrever o que o usuário diz em texto. Ele também usa um novo modelo de conversão de texto em fala e trabalha com dubladores profissionais para fornecer 5 vozes para os usuários escolherem.

A IA mais avançada também apresenta novos riscos e limitações

A OpenAI afirma que sua nova tecnologia de fala é capaz de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real. Esta capacidade abre a porta à criatividade, mas também cria novos riscos – como a possibilidade de os criminosos se passarem por figuras públicas para cometerem fraudes. Portanto, a decisão da OpenAI é lançar esse recurso por meio de casos de uso específicos, como “chat de voz”.

Ao mesmo tempo, a OpenAI também coopera com mais instituições. Por exemploA empresa de streaming Spotify está testando esse recurso para tradução de voz, ajudando os hosts de podcast a expandir seu alcance global usando suas vozes para traduzir o áudio do podcast para outros idiomas.

As imagens também trazem novos desafios, como problemas de alucinação e usuários que dependem de modelos de interpretação de imagens em áreas de alto risco. Portanto, antes de entrar online, a OpenAI também realizou testes de risco em áreas como extremismo e capacidades científicas.

Além disso, para os leitores chineses que lêem este artigo, provavelmente vale a pena esperar pela experiência do diálogo com imagens, mas o diálogo por voz pode ter que ser desconsiderado. OpenAI disse,O modelo é bom na transcrição de textos em inglês, mas tem um desempenho ruim em alguns outros idiomas, especialmente aqueles que usam alfabetos não romanos, e usuários que não falam inglês são aconselhados a não usar o ChatGPT para tais fins.