Executivos da MetaPlatforms disseram à Reuters em entrevista que a empresa usou postagens públicas no Facebook e Instagram para treinar alguns dos recursos de seu novo assistente virtual de inteligência artificial Meta, mas excluiu postagens privadas compartilhadas apenas com familiares e amigos em um esforço para respeitar a privacidade do consumidor.
A Meta também não usa bate-papos privados em seu serviço de mensagens como dados de treinamento para seus modelos e tomou medidas para filtrar detalhes privados do conjunto de dados público usado para treinamento, disse Nick Clegg, presidente de assuntos globais da Meta, nos bastidores da conferência anual Connect da empresa esta semana.
“Tentamos excluir conjuntos de dados onde as informações pessoais estão esmagadoramente presentes”, disse Clegg, acrescentando que a “grande maioria” dos dados que a Meta usa para treinamento está disponível publicamente.
Citando o LinkedIn como exemplo, ele destacou que a Meta intencionalmente não usa o conteúdo do site por questões de privacidade.
Os comentários de Clegg ocorrem no momento em que empresas de tecnologia, incluindo Meta, OpenAI e Google, da Alphabet, são criticadas por usar informações coletadas da Internet para treinar seus modelos de inteligência artificial sem permissão.
As duas empresas estão avaliando como lidar com material privado ou protegido por direitos autorais que seus sistemas de inteligência artificial possam copiar no processo, ao mesmo tempo que enfrentam ações judiciais de autores que as acusam de violação de direitos autorais.
O CEO Mark Zuckerberg revelou o primeiro lote de ferramentas de inteligência artificial voltadas para o consumidor da empresa na conferência anual de produtos "Connect" da Meta na quarta-feira, sendo o MetaAI o produto mais importante. A conferência deste ano centrou-se na inteligência artificial, ao contrário das conferências anteriores que se concentraram na realidade aumentada e na realidade virtual.
Meta diz que o assistente usa um modelo customizado baseado no poderoso modelo de linguagem de grande escala Llama2, que foi disponibilizado para uso comercial em julho deste ano, bem como um novo modelo chamado Emu que gera imagens com base em prompts de texto.
O produto será capaz de gerar texto, áudio e imagens, além de acessar informações em tempo real por meio da cooperação com o mecanismo de busca Bing da Microsoft. Postagens públicas no Facebook e Instagram usadas para treinar MetaAI também incluem texto e fotos.
Um porta-voz da Meta disse à Reuters que as postagens foram usadas para treinar as capacidades de geração de imagens do Emu, enquanto o recurso de bate-papo foi baseado no Llama2 com a adição de conjuntos de dados anotados disponíveis publicamente.
A interação com MetaAI também pode ser usada para melhorar recursos futuros, disse o porta-voz. Meta impõe restrições de segurança sobre o que as ferramentas MetaAI podem gerar, como proibir a criação de imagens realistas de figuras públicas.
Em relação ao material protegido por direitos autorais, Clegg disse esperar “uma quantidade significativa de litígios” sobre se “o conteúdo criativo se enquadra na doutrina de uso justo existente”, que permite o uso limitado de obras protegidas para fins como comentários, pesquisa e paródia.
Algumas empresas com ferramentas de geração de imagens facilitam a replicação de personagens icônicos como o Mickey Mouse, enquanto outras pagam pela filmagem ou evitam intencionalmente incluí-la em seus dados de treinamento.
A OpenAI, por exemplo, assinou neste verão um contrato de seis anos com o provedor de conteúdo Shutterstock para usar a biblioteca de imagens, vídeos e músicas da empresa para treinamento.
Quando questionado se a Meta tomou alguma medida para evitar a cópia de imagens protegidas por direitos autorais, um porta-voz da Meta observou que os novos termos de serviço proíbem conteúdo gerado pelo usuário que viole a privacidade e os direitos de propriedade intelectual.