Na noite de segunda-feira, horário de Pequim, a OpenAI, uma conhecida startup na área de inteligência artificial, divulgou um relatório intitulado "
(Fonte: OpenAI)
ChatGPT lançou anteriormente uma função de "intérprete de código" que pode fazer upload de imagens e possui alguns recursos preliminares para processar imagens e fotos de texto. Mas não há dúvida de que o “tirar fotos e fazer perguntas” de hoje está mais próximo dos cenários de uso do assistente de IA da maioria dos usuários.
Em ordem de título, há dois recursos principais atualizados hoje:
Vamos falar primeiro sobre a função de bate-papo com imagens que atraiu muita atenção. De acordo com OpenAI, os usuários agora podem
No exemplo oficial, ChatGPT recebe um
Aí o funcionário fingiu não entender e tirou uma foto do ferrolho.
Em seguida, o funcionário tirou outra foto da caixa de ferramentas e perguntou ao ChatGPT qual era a chave. O ChatGPT também reconheceu com sucesso a chave inglesa e perguntou ao usuário exatamente qual tamanho escolher.
Além disso, o OpenAI também inclui funções de reconhecimento de fala, transcrição e geração de áudio e lança
De acordo com a OpenAI, esse recurso usa o sistema de reconhecimento de fala de código aberto Whisper para transcrever o que o usuário diz em texto. Ele também usa um novo modelo de conversão de texto em fala e trabalha com dubladores profissionais para fornecer 5 vozes para os usuários escolherem.
A OpenAI afirma que sua nova tecnologia de fala é capaz de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real. Esta capacidade abre a porta à criatividade, mas também cria novos riscos – como a possibilidade de os criminosos se passarem por figuras públicas para cometerem fraudes. Portanto, a decisão da OpenAI é lançar esse recurso por meio de casos de uso específicos, como “chat de voz”.
Ao mesmo tempo, a OpenAI também coopera com mais instituições. Por exemplo
As imagens também trazem novos desafios, como problemas de alucinação e usuários que dependem de modelos de interpretação de imagens em áreas de alto risco. Portanto, antes de entrar online, a OpenAI também realizou testes de risco em áreas como extremismo e capacidades científicas.
Além disso, para os leitores chineses que lêem este artigo, provavelmente vale a pena esperar pela experiência do diálogo com imagens, mas o diálogo por voz pode ter que ser desconsiderado. OpenAI disse,