ChatGPT lança funções de voz e imagem, agora você pode usar diferentes formas de comandos para fazer perguntas ao AI

A maioria das mudanças do OpenAI no ChatGPT envolvem os recursos do bot de IA: as perguntas que ele pode responder, as informações que pode acessar e modelos subjacentes aprimorados. Desta vez, porém, ele ajusta a maneira como você usa o ChatGPT. A empresa está lançando uma nova versão de seu serviço que permite acionar um bot de IA não apenas digitando frases em uma caixa de texto, mas também falando em voz alta ou enviando uma imagem.

De acordo com a OpenAI, os novos recursos serão lançados para usuários que pagam pelo ChatGPT nas próximas duas semanas, e outros usuários também receberão os novos recursos “logo depois”.

A parte do bate-papo por voz parece muito familiar: você clica em um botão e fala sua pergunta, o ChatGPT a converte em texto e a alimenta em um grande modelo de linguagem, que então obtém a resposta, converte-a em fala e fala a resposta em voz alta. É como conversar com Alexa ou Google Assistant, apenas a OpenAI espera que as respostas sejam melhores graças às melhorias na tecnologia subjacente. A maioria dos assistentes virtuais parece confiar no LLM para sua transformação, mas a OpenAI está liderando o caminho.

O excelente modelo Whisper da OpenAI faz grande parte do trabalho de conversão de fala em texto, e a empresa está lançando um novo modelo de conversão de texto em fala que, segundo ela, pode “gerar áudio semelhante ao humano a partir de texto e alguns segundos de amostras de fala”. Você pode escolher a voz do ChatGPT entre cinco opções, mas a OpenAI parece pensar que o modelo tem potencial para muito mais do que isso. Por exemplo, a OpenAI está trabalhando com o Spotify para traduzir podcasts para outros idiomas, mantendo a voz do podcast. Existem muitos usos interessantes para a fala sintetizada e a OpenAI pode se tornar uma parte importante da indústria.

Mas o fato de serem necessários apenas alguns segundos de áudio para construir uma voz sintética capaz também abre a porta para uma variedade de casos de uso problemáticos. “Esses recursos também trazem novos riscos, como a possibilidade de atores mal-intencionados se passarem por figuras públicas ou cometerem fraudes. É por esta razão que a OpenAI não está usando este modelo amplamente: ele será controlado de forma mais rígida e limitado a casos de uso e parcerias específicas”, disse a empresa em uma postagem no blog anunciando os novos recursos.

A pesquisa de imagens, por sua vez, é um pouco como o Google Lens. Basta tirar uma foto do que lhe interessa e o ChatGPT descobrirá qual é o seu problema e responderá de acordo. Você também pode usar as ferramentas de desenho do aplicativo para ajudar a expressar suas perguntas com clareza ou falar ou digitar perguntas com base em imagens. É aqui que a natureza de vaivém do ChatGPT ajuda: você pode avisar o bot e refinar sua resposta ao mesmo tempo, em vez de pesquisar primeiro e depois pesquisar novamente depois de obter a resposta errada. (Isso é muito semelhante ao que o Google faz com a pesquisa multimodal).

Obviamente, a pesquisa de imagens também tem seus problemas potenciais. Uma delas é o que pode acontecer quando você solicita um chatbot a uma pessoa: a OpenAI diz que limita intencionalmente a “capacidade de analisar e declarar pessoas diretamente” do ChatGPT devido a questões de precisão e privacidade. Isso significa que uma das visões mais sci-fi da inteligência artificial – a capacidade de olhar para uma pessoa e dizer: “Quem é essa?” – não se concretizará tão cedo. E talvez isso seja uma coisa boa.

Quase um ano após o lançamento do ChatGPT, parece que a OpenAI ainda está tentando descobrir como fornecer mais recursos e capacidades para seu bot sem introduzir novos problemas e desvantagens. Nessas versões, a empresa tentou conseguir isso limitando deliberadamente a funcionalidade de seus novos modelos. Mas esta abordagem não funcionará para sempre. À medida que mais e mais pessoas usam o controle de voz e a pesquisa de imagens, e à medida que o ChatGPT se torna um assistente virtual verdadeiramente multimodal e útil, será cada vez mais difícil manter as proteções.