A Meta enfrentou recentemente um processo por violação de direitos autorais sobre os riscos legais do uso de milhares de livros piratas para treinar modelos de inteligência artificial.É relatado que Meta usou o conjunto de dados "Books3" de um grande número de livros piratas para treinar seus modelos LLAM1 e LLAM2. Embora a Meta tenha admitido que usou o conjunto de dados Books3, recusou-se a pagar a compensação adequada aos autores.

Books3 é um conjunto de dados de texto que contém 195.000 livros com capacidade total de quase 37 GB. Foi criado pelo pesquisador de IA Shawn Presser em 2020 para fornecer uma fonte de dados melhor para melhorar algoritmos de aprendizado de máquina.

Meta também o utiliza para treinar seu próprio modelo LLAM. No entanto, Books3 contém um grande número de obras protegidas por direitos autorais rastreadas do site pirata Bibliotik, colocando as ações da Meta em risco legal.

Várias empresas tecnológicas enfrentaram queixas semelhantes este ano, acusando-as de infringir os direitos de autor de artistas, autores e outros criadores de conteúdos ao construir modelos generativos de IA.

Além disso, as novas regras temporárias da UE sobre inteligência artificial podem forçar as empresas a divulgar os conjuntos de dados utilizados para treinar modelos, o que pode expô-las a maiores riscos jurídicos.